JP6463961B2 - Information processing apparatus, information processing method, and program - Google Patents

Information processing apparatus, information processing method, and program Download PDF

Info

Publication number
JP6463961B2
JP6463961B2 JP2014250974A JP2014250974A JP6463961B2 JP 6463961 B2 JP6463961 B2 JP 6463961B2 JP 2014250974 A JP2014250974 A JP 2014250974A JP 2014250974 A JP2014250974 A JP 2014250974A JP 6463961 B2 JP6463961 B2 JP 6463961B2
Authority
JP
Japan
Prior art keywords
stratified
subdivision
stratification
data
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014250974A
Other languages
Japanese (ja)
Other versions
JP2016114987A (en
Inventor
英一 砂川
英一 砂川
明淑 高
明淑 高
研 植野
研 植野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014250974A priority Critical patent/JP6463961B2/en
Publication of JP2016114987A publication Critical patent/JP2016114987A/en
Application granted granted Critical
Publication of JP6463961B2 publication Critical patent/JP6463961B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明の実施形態は、情報処理装置、情報処理方法及びプログラムに関する。   Embodiments described herein relate generally to an information processing apparatus, an information processing method, and a program.

層別(stratification)とは、データの集合内で共通に存在する変数(データ項目、又はパラメータともいう)を用い、その値の違いに基づいてデータを異なる層(グループともいう)に分類することである。性質の異なるデータを事前に分類し、それぞれのグループでモデルを構築することにより、質の高いモデルを得られる効果を期待できる。ここで、モデルの質とは、KL(Kullback-Leibler)情報量、尤度、AIC(Akaike’s Information Criterion)、決定係数、変数間の独立性など、データを基に作ったモデルの良し悪しを評価する様々な指標である。なお、計算処理によって求めることが可能な限りにおいて、指標をこのいずれかに限定するものではない。層別で用いる変数のことを、以下では「層別変数」と呼ぶ。また、「どの層別変数の値が何と一致する(あるいは、どの範囲に入る)場合に、どの層にデータを分類するか」を定めるものを「層別仕様」と呼ぶ。   Stratification means using variables (also referred to as data items or parameters) that exist in common within a set of data, and classifying the data into different tiers (also referred to as groups) based on the difference in values. It is. By classifying data with different properties in advance and building a model in each group, it is possible to expect the effect of obtaining a high-quality model. Here, the quality of the model evaluates the quality of the model based on data such as KL (Kullback-Leibler) information amount, likelihood, AIC (Akaike's Information Criterion), decision coefficient, and independence between variables. There are various indicators. Note that the index is not limited to any one of these as long as it can be obtained by calculation processing. The variable used by stratification is hereinafter referred to as “stratified variable”. Further, what defines which layer the data is classified into when the value of which layer variable matches what (or in which range) is referred to as “layer specification”.

例えば、人物のデータを扱うことを考える。人物の性質を表す変数には、性別、年齢、身長、体重、所在地などが考えられる。層別仕様の例としては、「性別を層別変数とし、値が『男性』と一致する場合には『男性層』に、値が『女性』と一致する場合は『女性層』に分類する」という層別仕様が考えられる。また、身長を層別変数として、0cmを基準に5cm刻み幅で値を分ける層別仕様、同じ層別変数で区間幅をもう少し広く取った「高身長(180cm以上)層」と「中身長(160〜179cm)層」と「低身長(160cm未満)層」に値を分ける層別仕様など様々なバリエーションが考えられる。また、性別と身長の二つを層別変数とし、その区分を組み合わせて定義される「高身長の男性」という層も考えられる。   For example, consider handling human data. The variable representing the character of a person can be gender, age, height, weight, location, etc. An example of a stratified specification is: “Gender is a stratified variable and if the value matches“ male ”, it is classified as“ male ”, and if the value matches“ female ”, it is classified as“ female ”. ”Can be considered. In addition, with height as a stratified variable, a stratified specification that divides the value by 5 cm increments based on 0 cm, a “high stature (180 cm or higher) layer” with a wider section width with the same stratified variable and “content height ( Various variations are possible, such as a layered specification that divides the value into “160 to 179 cm) layer” and “low stature (less than 160 cm) layer”. In addition, there may be a “high stature male” class defined by combining gender and height as stratification variables and combining the categories.

モデルの質に影響する層別変数が事前に分かっている場合、又は特定の変数がモデルの質に影響するかを調べたいといった場合を除き、質の高いモデルを構築するための層別仕様を試行と評価を繰り返す方法で決定することは難しい。データにもよるが、上述の例のように、層別の仕方は一意に決まるものではないからである。特に、層別変数の候補が複数ある場合や、その区分けの仕様が複数存在する場合は、作業者が管理しきれないほど層別仕様が多くなってしまい、より良い層別変数を効率的に決定することが難しくなる。   Use stratification specifications to build a high quality model unless you know in advance which stratification variables affect the quality of the model, or if you want to see if a particular variable affects the quality of the model. It is difficult to make a decision by repeating trial and evaluation. Although it depends on the data, the stratification method is not uniquely determined as in the above example. In particular, when there are multiple candidates for stratification variables or when there are multiple classification specifications, the number of stratification specifications increases so that the worker cannot manage them. It becomes difficult to decide.

図1を用いて、データに対して考え得る層別仕様が多数になることを説明する。図1は、データの区分け方法を説明するための図である。図1の丸はデータを表しており、これらの丸がxy2次元平面上にプロットされている。図1に示すように、x軸方向における区分け方法としてaとbがあり、また、y軸方向における区分け方法としてcがある。aの区分けは、最大3層にデータを層別しても良いし、そのうち二つを組み合わせた上位集合を考えることで2層へと粒度を粗くしても良いし、全てを同じ所属と見なして1層、すなわち層別しないとしても良い。一方、bの区分けは、最大4層の層別であるが、そのうち二つずつを組み合わせることで2層としたり、全てまとめて1層とすることもできる。cも同様に、最大3層であるが、粒度を変更して2層、1層とすることもできる。但し、aとbを同時に採用することはできない。このとき、考えられる可能な層別仕様の数は、x軸の層別仕様数×y軸の層別仕様数=(aの層別仕様数+bの層別仕様数)×cの層別仕様数=(3+4)×3=21であるから、21通りである。   With reference to FIG. 1, it will be described that there are many possible stratified specifications for data. FIG. 1 is a diagram for explaining a data segmentation method. The circles in FIG. 1 represent data, and these circles are plotted on an xy two-dimensional plane. As shown in FIG. 1, there are a and b as the sorting method in the x-axis direction, and c as the sorting method in the y-axis direction. The classification of a may be divided into a maximum of three layers of data, and the granularity may be coarsened to two layers by considering a superset combining two of them. Layers, that is, layers may not be separated. On the other hand, the division of b is classified into a maximum of four layers, but two of them can be combined to make two layers, or all can be combined into one layer. Similarly, c is a maximum of 3 layers, but it is also possible to change the particle size to 2 layers or 1 layer. However, a and b cannot be employed simultaneously. At this time, the number of possible layered specifications is as follows: x-axis layered specification number x y-axis layered specification number = (a layered specification number + b layered specification number) × c layered specification Since number = (3 + 4) × 3 = 21, there are 21 ways.

このように、適用可能な全ての層別仕様を列挙すると各変数に適用し得る層別の数が乗算されることになる。そうすると、層別変数の数や層別の仕方が増加した場合、いわゆる組み合わせ爆発が容易に起こってしまうため、より良い層別仕様を選択することが難しくなるという問題がある。   Thus, enumerating all applicable stratification specifications will multiply each variable by the number of stratifications that can be applied. Then, when the number of stratification variables and the stratification method increase, so-called combination explosion easily occurs, and there is a problem that it becomes difficult to select a better stratification specification.

特許5085016号公報Japanese Patent No. 5085016 特開2013−174951号公報JP 2013-174951 A

本発明の実施形態が解決しようとする課題は、好適な層別仕様を選択することを可能とする情報処理装置、情報処理方法及びプログラムを提供することである。   A problem to be solved by an embodiment of the present invention is to provide an information processing apparatus, an information processing method, and a program that enable selection of a suitable stratified specification.

一の実施形態によれば、情報処理装置は、データと層別仕様とを入力とし、前記層別仕様を更に層別が細かくなるように変更する細分化を複数試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力する。   According to one embodiment, the information processing apparatus receives data and a stratified specification as input, and performs a plurality of subdivisions to change the stratified specification so that the stratification becomes finer. For each of the different specifications, the data is classified according to the subdivided stratified specifications, and the stratified evaluation values that are the stratified evaluation values are determined based on the classified stratified data. Based on the above, the subdivided stratified specification is selected, and the selected stratified specification is output.

データの区分け方法を説明するための図である。It is a figure for demonstrating the classification method of data. 第1の実施形態における情報処理装置1の構成を示す図である。It is a figure which shows the structure of the information processing apparatus 1 in 1st Embodiment. データ記憶部11に記憶されているデータの一例である。3 is an example of data stored in a data storage unit 11. 層別仕様記憶部12に記憶されている層別仕様を表すデータの一例である。3 is an example of data representing a stratified specification stored in a stratified specification storage unit 12; 関係記憶部13に記憶されている層別関係を表すデータの一例である。3 is an example of data representing a stratified relationship stored in a relationship storage unit 13; 層別評価値記憶部14に記憶されているデータの一例である。It is an example of the data memorize | stored in the evaluation value memory | storage part 14 according to a layer. 層別評価値及び細分化の実行条件を選択するインタフェースの一例である。It is an example of the interface which selects the evaluation value according to a stratification and the subdivision execution condition. 層別評価値として選択可能な選択項目の一例である。It is an example of the selection item which can be selected as a stratified evaluation value. 細分化の実行条件として選択可能な選択項目の一例である。It is an example of a selection item that can be selected as a subdivision execution condition. 表示装置40の表示画面の構成例を示す図である。4 is a diagram illustrating a configuration example of a display screen of the display device 40. FIG. 第1の実施形態における全体の処理の一例を示すフローチャートである。It is a flowchart which shows an example of the whole process in 1st Embodiment. 予め層別仕様記憶部12に記録されている層別仕様IDが0の層別仕様の一例を示す図である。It is a figure which shows an example of the layered specification whose layered specification ID is 0 previously recorded on the layered specification memory | storage part 12. FIG. 層別仕様記憶部12に記録される層別仕様IDが1の層別仕様の一例を示す図である。It is a figure which shows an example of the layered specification whose layered specification ID recorded in the layered specification memory | storage part 12 is 1. FIG. 層別仕様記憶部12に記録される層別仕様IDが2の層別仕様の一例を示す図である。It is a figure which shows an example of the layered specification whose layered specification ID recorded in the layered specification memory | storage part 12 is 2. FIG. 層別仕様記憶部12に記録される層別仕様IDが3の層別仕様の一例を示す図である。It is a figure which shows an example of the layered specification whose layered specification ID recorded in the layered specification memory | storage part 12 is 3. FIG. 層別仕様記憶部12に記録される層別仕様IDが4の層別仕様の一例を示す図である。It is a figure which shows an example of the layered specification whose layered specification ID recorded in the layered specification memory | storage part 12 is 4. FIG. 層別仕様記憶部12に記録される層別仕様IDが5の層別仕様の一例を示す図である。It is a figure which shows an example of the layered specification whose layered specification ID recorded in the layered specification memory | storage part 12 is 5. FIG. 説明変数毎の回帰係数の一例を示す図である。It is a figure which shows an example of the regression coefficient for every explanatory variable. 層別仕様毎の層別評価値の一例を示す図である。It is a figure which shows an example of the stratified evaluation value for every stratified specification. 層別仕様記憶部12に記録される層別仕様IDが6の層別仕様の一例を示す図である。It is a figure which shows an example of the layered specification whose layered specification ID recorded in the layered specification memory | storage part 12 is 6. FIG. 第2の実施形態における情報処理装置1bの構成を示す図である。It is a figure which shows the structure of the information processing apparatus 1b in 2nd Embodiment. オントロジーの所在を受け付けるインタフェースの一例である。It is an example of the interface which receives the location of ontology. 人間と、その特徴を表現するために必要な概念を整理したオントロジーを示す図である。It is a figure which shows the ontology which arranged the concept required in order to express a person and its characteristic. 図16の層別仕様を、図23に示すオントロジーを用いて細分化した層別仕様の一例である。FIG. 24 is an example of a layered specification obtained by subdividing the layered specification of FIG. 16 using the ontology shown in FIG. 23. 図24に示す層別仕様を図23に示すオントロジーを用いて細分化した層別仕様の一例である。24 is an example of the layered specification obtained by subdividing the layered specification shown in FIG. 24 using the ontology shown in FIG.

以下、図面を参照しながら、本発明の実施形態について説明する。本実施形態に係る情報処理装置1は、層別の試行によって得られる知見を、次に試行する層別の設計に反映させ、ランダムや総当りで層別を試行することにより、好適な層別を少ないステップで発見する。より具体的には、情報処理装置1は、ある時点で得られている層別仕様を更に層別が細かくなるように変更する細分化を行って得られる層別仕様を用いて、層別を試行し、その中から好適なものを採用するという処理を、層別の評価値である層別評価値が改善されなくなるまで繰り返す。これにより、情報処理装置1は、入力されたデータから構築されるモデルの質が高くなる層別仕様を出力することができる。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. The information processing apparatus 1 according to the present embodiment reflects the knowledge obtained by the stratified trial in the stratified design to be tried next, and tries the stratified by random or brute force, so that suitable stratified Discover in a few steps. More specifically, the information processing apparatus 1 performs the stratification using the stratification specification obtained by performing the subdivision to change the stratification specification obtained at a certain time point so that the stratification becomes finer. The process of trying and adopting a suitable one among them is repeated until the evaluation value for each layer, which is the evaluation value for each layer, is not improved. Thereby, the information processing apparatus 1 can output a stratified specification that improves the quality of a model constructed from input data.

続いて、図2を用いて、本実施形態に係る情報処理装置1の構成について説明する。図2は、第1の実施形態における情報処理装置1の構成を示す図である。図2に示すように、情報処理装置1は、データ記憶部11、層別仕様記憶部12、関係記憶部13、層別評価値記憶部14、制御部20、及び受付部31を備える。   Subsequently, the configuration of the information processing apparatus 1 according to the present embodiment will be described with reference to FIG. FIG. 2 is a diagram illustrating a configuration of the information processing apparatus 1 according to the first embodiment. As illustrated in FIG. 2, the information processing apparatus 1 includes a data storage unit 11, a layered specification storage unit 12, a relationship storage unit 13, a layered evaluation value storage unit 14, a control unit 20, and a reception unit 31.

データ記憶部11は、モデル構築で用いられるデータを記録する。データ記憶部11は、データベース等の電子データ記録機能を有する。本実施形態では、データ記憶部11には、モデル構築に先駆けて図3に示すデータが記憶されているものとする。図3は、データ記憶部11に記憶されているデータの一例である。このデータは、寝たきりが発生した人物に関し、その寝たきりの発生年齢と、その人物に対して過去に行った調査時の年齢と、調査結果(具体的には性別、日常生活歩数、麻痺の程度、拘縮の程度)を記録したものである。   The data storage unit 11 records data used in model construction. The data storage unit 11 has an electronic data recording function such as a database. In the present embodiment, it is assumed that data shown in FIG. 3 is stored in the data storage unit 11 prior to model construction. FIG. 3 is an example of data stored in the data storage unit 11. This data is about the bedridden age, the bedridden age, the age at which the person was surveyed in the past, and the survey results (specifically, gender, number of steps in daily life, degree of paralysis, The degree of contracture) is recorded.

本実施形態では一例として、寝たきりの発生年齢を目的変数、それ以外を説明変数として、制御部20は、寝たきりが発生する年齢を予測することが可能な回帰モデルを構築する。図3に示す変数のうち「性別」、「麻痺」、及び「拘縮」は連続値ではなくカテゴリ値を取る変数である。本実施形態では、このように数値でないデータを数式で扱うために、ダミー変数と呼ばれる考え方を導入し、例えば制御部20は、男性を0、女性を1といったように数字に置き換えた処理を行う。   In the present embodiment, as an example, the control unit 20 constructs a regression model capable of predicting the age at which bedridden occurs, with the bedridden occurrence age as an objective variable and the rest as explanatory variables. Among the variables shown in FIG. 3, “sex”, “paralysis”, and “contracture” are variables that take categorical values instead of continuous values. In the present embodiment, in order to handle data that is not a numerical value in this way, a concept called a dummy variable is introduced. For example, the control unit 20 performs a process of replacing males with numbers such as 0 and females with 1. .

ここで、データ記憶部11に記憶されたデータレコードに当てはまる線形回帰モデルを構築する例について説明する。線形回帰モデルは、データを構成する変数(データ項目、又はパラメータともいう)の間の関係を次の式(1)で表すモデルである。   Here, an example of constructing a linear regression model that applies to a data record stored in the data storage unit 11 will be described. The linear regression model is a model that expresses a relationship between variables (also referred to as data items or parameters) constituting data by the following equation (1).

Figure 0006463961
このとき、yは目的変数、xは説明変数である。αは変数xにかかる係数であり、βは定数項、εは誤差項を表す。モデルの構築とは、データが当てはまるよう係数αや定数項βを決定することである。
Figure 0006463961
At this time, y is an objective variable and x i is an explanatory variable. α i is a coefficient for the variable x i , β is a constant term, and ε is an error term. Model construction means determining the coefficient α i and the constant term β so that the data fits.

層別仕様記憶部12は、制御部20の後述するデータ層別部21が用いる層別仕様を記録する。層別仕様記憶部12は、データベース等の電子データ記録機能を有する。図4は、層別仕様記憶部12に記憶されている層別仕様を表すデータの一例である。本実施形態の場合、図4に示すように、層別仕様は、「層別仕様ID、説明変数、値範囲、及び層」の四つの組の集合として記憶される。「層別仕様ID」は、データ層別部21が一度の層別で行う処理の単位をまとめるための識別子であり、共通の層別仕様IDを持った四つの組の集合全体で一つの層別仕様として扱う。この層別仕様IDを用いることにより、層別の詳細化過程をたどることができる。「説明変数」は層別対象となり得るモデル内の変数であり、「値範囲」は層別時の層を決定するための値の範囲であり、「層」は値範囲に該当するデータを振り分ける層である。   The stratified specification storage unit 12 records a stratified specification used by a data stratified unit 21 described later of the control unit 20. The stratified specification storage unit 12 has an electronic data recording function such as a database. FIG. 4 is an example of data representing the stratified specification stored in the stratified specification storage unit 12. In the case of the present embodiment, as shown in FIG. 4, the stratified specification is stored as a set of four sets of “stratified specification ID, explanatory variable, value range, and layer”. The “layer-specific specification ID” is an identifier for grouping the units of processing performed by the data layer-dividing unit 21 for each layer, and one layer in the set of four groups having a common layer-specific specification ID. Treat as a separate specification. By using this layer-specific specification ID, it is possible to follow the detailed process of each layer. “Explanatory variable” is a variable in the model that can be stratified, “value range” is a range of values for determining the tier at the time of stratification, and “layer” distributes data corresponding to the value range Is a layer.

図4のうちヘッダを除く1行目は、「調査時年齢が0歳以上40歳以下である」人物は、「0〜40」層に分類するという意味を表す。図4の「値範囲」が、数値の範囲で記録されている変数は定量値を取る変数であり、カンマによる値の列挙が記憶されている変数はカテゴリ値を取る変数である。   The first line excluding the header in FIG. 4 represents the meaning that a person whose survey age is 0 to 40 years old is classified into the “0 to 40” layer. The “value range” in FIG. 4 is a variable that takes a quantitative value as a variable recorded in a numerical range, and a variable that stores an enumeration of values by commas is a variable that takes a category value.

また、「層」がNAとなっている行は、値が全て一つの層に対応付けられている。すなわち、その変数での層別が行われないことを意味する。従って、図4に例示した「層別仕様ID」が99の層別仕様では、調査時年齢の3層と性別の2層とを掛け合わせた6分割の層別が行われることを意味する。   In addition, all the values in the row where “layer” is NA are associated with one layer. In other words, this means that no stratification is performed on that variable. Therefore, in the stratified specification of “stratified specification ID” 99 illustrated in FIG. 4, it means that stratification of 6 divisions is performed by multiplying three layers of age at the time of investigation and two layers of gender.

本実施形態の場合、予め層別仕様記憶部12には、層が全てNA(つまりどの変数でも層別は行わない)となる層別仕様(図12)が記録されているものとする。   In the case of the present embodiment, it is assumed that a layer-specific specification (FIG. 12) in which all layers are NA (that is, no variable is performed for any variable) is recorded in the layer-specific specification storage unit 12 in advance.

関係記憶部13は、層別仕様間でどのように細分化したかを示す細分化関係を記憶する。関係記憶部13は、データベース等の電子データ記録機能を有する。図5は、関係記憶部13に記憶されている層別関係を表すデータの一例である。本実施形態において、層別仕様間の細分化関係は、図5に示すように、細分化元となる層別仕様を識別する層別仕様IDである細分化元IDと、細分化して生成された層別仕様を識別する層別仕様IDである細分化先IDとの対で記録される。   The relationship storage unit 13 stores a subdivided relationship indicating how the subdivided specifications are subdivided. The relation storage unit 13 has an electronic data recording function such as a database. FIG. 5 is an example of data representing the stratified relationship stored in the relationship storage unit 13. In this embodiment, as shown in FIG. 5, the subdivision relationship between the stratified specifications is generated by subdividing the subdivision source ID that is the stratified specification ID for identifying the stratified specification that is the subdivision source. In addition, it is recorded as a pair with a segmentation destination ID that is a layered specification ID for identifying the layered specification.

層別評価値記憶部14は、層別仕様毎に層別評価値を記録する。層別評価値記憶部14は、データベース等の電子データ記録機能を有する。図6は、層別評価値記憶部14に記憶されているデータの一例である。本実施形態において、図6に示すように、層別評価値記憶部14は、層別仕様IDとその層別仕様の層別評価値との組が記録される。   The stratified evaluation value storage unit 14 records the stratified evaluation value for each stratified specification. The stratified evaluation value storage unit 14 has an electronic data recording function such as a database. FIG. 6 is an example of data stored in the stratified evaluation value storage unit 14. In the present embodiment, as shown in FIG. 6, the layer-by-layer evaluation value storage unit 14 records a set of a layer-by-layer specification ID and a layer-by-layer evaluation value of the layer-by-layer specification.

制御部20は、データと層別仕様とを取得し、層別仕様を更に層別が細かくなるように変更する細分化を複数試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力する。この層別評価値の決定処理について説明すると、制御部20は、例えば、層毎にモデルを構築し、構築したモデル毎にモデルの評価値であるモデル評価値を決定し、決定した複数のモデル評価値に基づいて、層別評価値を決定する。ここで、モデル評価値は、例えば、上記データに対する上記モデルの当てはまりの良さを評価する決定係数であり、層別評価値は、上記決定係数の平均値である。   The control unit 20 acquires the data and the stratified specification, and performs a plurality of subdivisions for changing the stratified specification so that the stratification is further subdivided. The data is classified according to the stratified specification, and the stratified evaluation value that is the evaluation value for each stratification is determined based on the classified stratified data, and the subdivided layer is determined based on the plurality of determined stratified evaluation values. Select another specification and output the selected stratified specification. The determination process of the evaluation value for each layer will be described. For example, the control unit 20 constructs a model for each layer, determines a model evaluation value that is an evaluation value of the model for each constructed model, and determines a plurality of determined models. A stratified evaluation value is determined based on the evaluation value. Here, the model evaluation value is, for example, a determination coefficient that evaluates how well the model is applied to the data, and the stratified evaluation value is an average value of the determination coefficient.

本実施形態に係る制御部20は、例えば、上記細分化、上記層別評価値の決定、及び上記細分化後の層別仕様の選択を繰り返し、細分化の実行条件を満たさない場合、最後に選択した細分化後の層別仕様を出力する。   For example, the control unit 20 according to the present embodiment repeats the subdivision, the determination of the stratified evaluation value, and the selection of the stratified specification after the subdivision. Output the selected substratification specifications.

また、制御部20における細分化の処理には、以下の二つの処理がある。細分化の一つは、現在の層別に別の変数の層別を加えることであり、細分化のもう一つは、現在の前記層別に含まれる層別変数の値の区分が細かくなるよう変更することである。   The subdivision process in the control unit 20 includes the following two processes. One of the subdivisions is to add another variable stratification for each current layer, and the other subdivision is to change the classification of the values of the stratified variable included in the current layer. It is to be.

本実施形態では、層別仕様の細分化の際に、制御部20は、一例として、現在の層別に、層別変数となっていない説明変数全てについて、別々に層を加え、現在の層別に含まれる層別変数の層のうち、値の区分が細かくなるよう変更可能な層全てについて、別々に値の区分が細かくなるよう変更する。   In this embodiment, when subdividing the stratified specification, the control unit 20 adds a layer separately for all explanatory variables that are not stratified variables for each current layer, for example, for each current layer. Among the layers of the stratified variables included, all the layers that can be changed so that the value classification becomes finer are changed so that the value classification becomes finer separately.

ここで、制御部20は、データ層別部21、モデル構築部22、層別評価部23、細分化決定部24、細分化部25、表示制御部26、及び出力部27を備える。   Here, the control unit 20 includes a data stratification unit 21, a model construction unit 22, a stratification evaluation unit 23, a segmentation determination unit 24, a segmentation unit 25, a display control unit 26, and an output unit 27.

データ層別部21は、データを層別仕様に従って層別する。具体的には例えば、データ層別部21は、データ記憶部11からデータを読み出し、層別仕様記憶部12に記憶された層別仕様に沿ってデータを層別し、層別済みデータセットを、モデル構築部22に出力する。   The data stratification unit 21 stratifies data according to the stratification specification. Specifically, for example, the data stratification unit 21 reads the data from the data storage unit 11, stratifies the data according to the stratification specification stored in the stratification specification storage unit 12, and sets the stratified data set. To the model construction unit 22.

モデル構築部22は、層別された層毎に、該層に含まれるデータを用いてモデルを生成する。具体的には例えば、モデル構築部22は、データ層別部21より受け取った層別済みデータから層毎にモデルを構築し、モデル及びデータを層別評価部23へ出力する。   The model construction unit 22 generates a model for each layer that is classified by using data included in the layer. Specifically, for example, the model construction unit 22 constructs a model for each layer from the layered data received from the data layer separation unit 21, and outputs the model and data to the layer evaluation unit 23.

なお、データを構成する変数のうち、いずれを目的変数としてモデルを構築するか、また、どの形のモデルを利用するかは、予めモデル構築部22に与えられている。本実施形態の場合、モデル構築部22は、一例として、発生年齢を目的変数とし、調査時年齢、性別、日常生活歩数、麻痺、及び拘縮を説明変数とする線形回帰モデルを構築する。   It should be noted that which of the variables constituting the data is used as a target variable to build a model and which model to use is given to the model building unit 22 in advance. In the case of the present embodiment, for example, the model construction unit 22 constructs a linear regression model with the age of occurrence as the objective variable and the survey age, sex, number of steps in daily life, paralysis, and contracture as explanatory variables.

層別評価部23は、モデル構築部22が構築した複数の統計モデルの評価値であるモデル評価値を決定し、これらの複数のモデル評価値を用いて、複数の層別評価値を決定する。具体的には例えば、層別評価部23は、モデル構築部22が算出したモデルとそのとき用いたデータを用いて、別途指定された評価方法でモデル毎にモデル評価値を計算し、モデル評価値を層別の単位でまとめる。そのうえで、層別評価部23は、別途指定された評価方法で層別評価値を計算し、その結果得られた層別評価値を細分化決定部24へ出力する。また、層別評価部23は、その結果得られた層別評価値を層別評価値記憶部14に記憶させる。   The stratified evaluation unit 23 determines a model evaluation value that is an evaluation value of a plurality of statistical models constructed by the model construction unit 22, and uses the plurality of model evaluation values to determine a plurality of stratified evaluation values. . Specifically, for example, the stratified evaluation unit 23 uses the model calculated by the model construction unit 22 and the data used at that time to calculate a model evaluation value for each model by a separately specified evaluation method, and model evaluation Summarize values in stratified units. In addition, the stratified evaluation unit 23 calculates the stratified evaluation value by a separately designated evaluation method, and outputs the stratified evaluation value obtained as a result to the subdivision determining unit 24. The stratified evaluation unit 23 stores the stratified evaluation value obtained as a result in the stratified evaluation value storage unit 14.

モデル評価値とは、上述のように、KL情報量、尤度、AIC、決定係数、変数間の独立性など、モデルの良し悪しを評価する指標である。また、層別評価値とは、その層別によって生成されたモデルを総合的に評価する指標である。本実施形態の場合、一例として、モデル評価値として決定係数が指定されており、層別評価値として決定係数の平均値が指定されている。   As described above, the model evaluation value is an index for evaluating the quality of the model, such as the amount of KL information, likelihood, AIC, determination coefficient, and independence between variables. The stratified evaluation value is an index for comprehensively evaluating a model generated by the stratification. In the present embodiment, as an example, the determination coefficient is specified as the model evaluation value, and the average value of the determination coefficients is specified as the stratified evaluation value.

なお、決定係数とは、データに対するモデルの当てはまりの良さを評価する代表的な指標である。線形回帰モデルの場合、決定係数が1となるとき、その回帰モデルはデータ間の関係を誤差なく表現できていることを意味する。そして決定係数が0に近づくほど、その回帰モデルがデータに当てはまらないことを意味する。   The coefficient of determination is a representative index for evaluating the goodness of fit of a model to data. In the case of a linear regression model, when the determination coefficient is 1, it means that the regression model can express the relationship between data without error. As the coefficient of determination approaches 0, the regression model does not apply to the data.

また、決定係数の平均値とは、各モデルの決定係数を層別毎に集めて平均した値である。例えば、3層に分けられた層別データ各々を用いて作られた線形回帰モデルの決定係数が、各々0.6、0.7、0.5となった場合、この平均値である0.6(=(0.6+0.7+0.5)/3)が、その層別全体の評価値となる。   The average value of the determination coefficient is a value obtained by collecting the determination coefficients of each model for each layer and averaging them. For example, when the determination coefficients of the linear regression model created using the stratified data divided into three layers are 0.6, 0.7, and 0.5, respectively, this average value is 0. 6 (= (0.6 + 0.7 + 0.5) / 3) is the evaluation value for the entire layer.

なお、層別評価値は決定係数の平均値に限ったものではなく、ある層別済みデータから生成されたモデルのモデル評価値のうち最大値や最小値を用いても良い。また、ある層別済みデータから生成されたモデルのモデル評価値のうち、層別しない場合のモデル評価値と比較した差分の平均値(無層別との差分平均)、評価値が上昇したモデルの絶対数(上昇モデル数)や、層別結果に含まれる全モデル数に対してモデル評価値が上昇したモデルの割合(上昇モデル率)を用いても良い。   The stratified evaluation value is not limited to the average value of the determination coefficient, and the maximum value or the minimum value may be used among the model evaluation values of the model generated from a certain stratified data. In addition, among the model evaluation values of models generated from certain stratified data, the average value of the difference compared to the model evaluation value when not stratified (difference average with no stratification), the model whose evaluation value has increased Or the ratio of models whose model evaluation value has increased with respect to the total number of models included in the stratified result (rising model rate) may be used.

本実施形態の場合、一例として、受付部31は、モデル評価値の計算方法を特定する指示及び層別評価値の計算方法を特定する指示を、当該情報処理装置1の外部から受け付ける。層別評価部23は、受付部31からモデル評価値の計算方法及び層別評価値の計算方法を取得する。層別評価値の計算方法は、例えば図7に示すインタフェースを用いて、利用者に指定させても良い。図7は、層別評価値及び細分化の実行条件を選択するインタフェースの一例である。図8は、層別評価値として選択可能な選択項目の一例である。   In the present embodiment, as an example, the accepting unit 31 accepts an instruction for specifying a model evaluation value calculation method and an instruction for specifying a stratified evaluation value calculation method from the outside of the information processing apparatus 1. The stratified evaluation unit 23 acquires a model evaluation value calculation method and a stratified evaluation value calculation method from the reception unit 31. The calculation method of the stratified evaluation value may be specified by the user using, for example, the interface shown in FIG. FIG. 7 is an example of an interface for selecting a stratified evaluation value and a subdivision execution condition. FIG. 8 is an example of selection items that can be selected as the stratified evaluation value.

図7のインタフェースでは、リストボックスにて、図8に示す選択項目の中から一つのモデル評価値を選択できる。ここでは、層別評価値として、決定係数の平均値が指定されているものとする。   In the interface of FIG. 7, one model evaluation value can be selected from the selection items shown in FIG. 8 in the list box. Here, it is assumed that an average value of the determination coefficient is designated as the evaluation value for each layer.

細分化決定部24は、これらの層別評価値を用いて、更なる層別仕様の細分化を行うか否か決定する。具体的には例えば、細分化決定部24は、層別評価部23から受け取った層別評価値を、細分化の元となった層別仕様の単位でまとめたうえ、別途指定された条件を用いて層別を更に細分化するか否か判断する。そして、細分化決定部24は、判断の結果、細分化する場合、その層別仕様を細分化部25へ出力する。   The subdivision determination unit 24 determines whether or not to subdivide further stratified specifications using these stratified evaluation values. Specifically, for example, the subdivision determining unit 24 summarizes the stratified evaluation values received from the stratified evaluation unit 23 by the unit of the stratified specification that is the source of the subdivision, and sets separately specified conditions. Use to determine whether to further subdivide the stratification. Then, when the subdivision determining unit 24 subdivides as a result of the determination, the subdivision determining unit 24 outputs the stratified specification to the subdividing unit 25.

本実施形態の場合、一例として、受付部31は、細分化の実行条件を特定する指示を、当該情報処理装置1の外部から受け付ける。細分化決定部24は細分化の実行条件を、受付部31から取得する。図7に示すようなインタフェースを介して、利用者に細分化の実行条件を指定させて良い。図7のインタフェースでは、リストボックスにて、図9に示す選択項目の中から細分化の実行条件を一つ選択できる。図9は、細分化の実行条件として選択可能な選択項目の一例である。ここでは、細分化の実行条件として、最大値のみが指定されている。すなわち、ある層別仕様を細分化して得られた層別仕様の層別評価値(ここでは決定係数の平均値)のうち値が最大のものだけについて更に細分化するよう、細分化の実行条件が指定されている。   In the case of the present embodiment, as an example, the reception unit 31 receives an instruction for specifying a subdivision execution condition from the outside of the information processing apparatus 1. The subdivision determination unit 24 acquires the subdivision execution condition from the reception unit 31. A user may specify execution conditions for subdivision via an interface as shown in FIG. In the interface of FIG. 7, one subdivision execution condition can be selected from the selection items shown in FIG. 9 in the list box. FIG. 9 is an example of selection items that can be selected as execution conditions for segmentation. Here, only the maximum value is specified as the subdivision execution condition. In other words, the subdivision execution condition is such that only the largest evaluation value (in this case, the average coefficient of determination) of the stratified specifications obtained by subdividing a stratified specification is further subdivided. Is specified.

なお、細分化の実行条件として、層別評価値が大きい順に上位3件まで、層別評価値が0.6以上、層別評価値が層別なしの場合の評価値と比較して差分が0.1以上、層別評価値が細分化元の評価値と比較して差分が0.1以上、などを用いても良い。但し、層別評価値がより望ましい方向へ変化することは、共通の条件とする。例えば、決定係数の平均値の場合、それが変わらなければ細分化する必要はないと判断される。   In addition, as an execution condition of subdivision, the difference is compared with the evaluation value when the evaluation value by layer is 0.6 or more and the evaluation value by layer is not stratified up to the top three cases in descending order of evaluation value by layer. It may be 0.1 or more, and the difference between the evaluation values by layer is 0.1 or more compared to the evaluation value of the segmentation source. However, it is a common condition that the evaluation value for each layer changes in a more desirable direction. For example, in the case of the average value of the determination coefficient, it is determined that it is not necessary to subdivide if it does not change.

細分化部25は、更なる層別仕様の細分化を行うと決定された場合、上記データを参照して、現在の層別に対する別の変数の層別の追加、及び/又は現在の層別に含まれる変数の値の区分の変更を実行して層を細分化する。具体的には例えば、細分化部25は、モデル構築部22が指定した層別仕様記憶部12に記録されている層別仕様に対して、その区分を細かくするよう細分化した層別仕様を生成し、層別仕様記憶部12に記録する。また、細分化部25は、細分化元及び細分化先の関係を関係記憶部13に記録する。また、細分化部25は、細分化した層別仕様をデータ層別部21に送信してデータ層別を行うよう指示する。   When it is determined that further stratification specifications are further subdivided, the subdivision unit 25 refers to the above data and adds another variable stratification to the current stratification and / or the current stratification. Subdivide the layers by changing the value categories of the included variables. Specifically, for example, the subdivision unit 25 subdivides the layered specifications recorded in the layered specification storage unit 12 designated by the model construction unit 22 into subdivided specifications so that the classification is fine. Generated and recorded in the layered specification storage unit 12. The subdivision unit 25 records the relationship between the subdivision source and the subdivision destination in the relationship storage unit 13. Further, the subdivision unit 25 transmits the subdivided stratification specification to the data stratification unit 21 and instructs to perform the data stratification.

上述の通り、細分化は2通りあり、一つは、層別変数として用いられていない変数を層別変数に加えることであり、もう一つは、層別変数として用いられている変数の値の区分を細かくすることである。細分化部25は、この2通りの細部化を行い、全ての場合について細分化された層別仕様を生成する。   As described above, there are two types of subdivision: one is to add a variable that is not used as a stratification variable to the stratification variable, and the other is the value of a variable that is used as a stratification variable. It is to make the division of. The subdivision unit 25 performs these two kinds of details, and generates subdivided specifications for all cases.

以下、まず、層別変数として用いられていない変数を層別変数に追加する場合について説明する。層別変数として用いられていない変数は、図4の説明で述べた通り、層がNAとなっている行を発見することで得られる。層の定義は、データ記憶部11に記憶されているデータを参照して決定される。   Hereinafter, first, a case where a variable that is not used as a stratification variable is added to the stratification variable will be described. A variable that is not used as a stratified variable is obtained by finding a row whose layer is NA as described in the explanation of FIG. The definition of the layer is determined with reference to the data stored in the data storage unit 11.

本実施形態では、新たな層別仕様を設ける際、層別変数として用いられていない変数一つを層別変数に追加することで考え得る全てのパターンを層別仕様記憶部12に伝える。また、その際、区分けは2分割とし、変数が定量値を取る場合は、その時点でデータ記憶部11が保持する当該変数の平均値を閾値として、これ以上となる層と、未満となる層とで2層に分ける定義を追加する。例えば、図4に示す層別仕様を基に「日常生活歩数」を層別変数として追加する細分化の場合、この平均値である5000(=(4000+12000+2000+2000)/4)が当該変数を区分けする閾値となる。   In this embodiment, when a new stratified specification is provided, all possible patterns are transmitted to the stratified specification storage unit 12 by adding one variable that is not used as a stratified variable to the stratified variable. At that time, the division is divided into two, and when the variable takes a quantitative value, the average value of the variable held by the data storage unit 11 at that time is set as a threshold value, and the layer becomes less than the layer. And add the definition to divide into two layers. For example, in the case of subdivision in which “daily life steps” is added as a stratified variable based on the stratified specification shown in FIG. 4, the average value 5000 (= (4000 + 12000 + 2000 + 2000) / 4) is a threshold value for classifying the variable. It becomes.

一方、変数がカテゴリ値を取る場合は、その種類だけ層分けする定義を追加する。例えば「麻痺」変数の場合、細分化部25は、「なし」、「軽度」及び「重度」それぞれについて層別するように変更した層別仕様を記録する。   On the other hand, if the variable takes a category value, add a definition that stratifies only that type. For example, in the case of the “paralysis” variable, the subdividing unit 25 records the stratified specifications that are changed so as to stratify “none”, “mild”, and “severe”.

次に、層別変数として用いられている変数の値の区分けを細かくする場合について説明する。図4に示す層別仕様を基にする場合、カテゴリ値を取る変数である「性別」の値の区分けは全ての値それぞれに対して設けられている。つまり既に最小単位となっているため、定量値を取る変数である「調査時年齢」に対して行われることとなる。層別変数として用いられている変数は、図4の説明で述べた通り、層がNAでない行を発見することで得られる。本実施形態では、一例として、定量値を取る層別変数の値範囲を細かくする際、その範囲を中央値で2分割するように層を追加して値範囲を定義し直す。例えば、図4の状態にある層別仕様については、調査時年齢に関する値範囲をそれぞれ2分割するため、変更前は「0〜40」、「41〜65」、「66〜」の3分割の層別だったものが、「0〜20」、「21〜40」、「41〜53」、「54〜65」、「66〜83」及び「84〜100」の6分割の層別となる。   Next, a description will be given of a case where the value classification of variables used as stratified variables is made fine. When based on the stratified specification shown in FIG. 4, the classification of the value of “sex”, which is a variable that takes a category value, is provided for each of all values. In other words, since it is already a minimum unit, it is performed for “survey age”, which is a variable for taking a quantitative value. The variable used as the stratified variable is obtained by finding a row whose layer is not NA as described in the explanation of FIG. In the present embodiment, as an example, when the value range of a stratified variable that takes a quantitative value is made fine, a layer is added to redefine the value range so that the range is divided into two by the median value. For example, for the stratified specification in the state of FIG. 4, the value range related to the age at the time of the survey is divided into two, so that before the change, “0-40”, “41-65”, “66-” are divided into three. What was stratified is a six-divided stratification of “0-20”, “21-40”, “41-53”, “54-65”, “66-83” and “84-100” .

表示制御部26は、処理過程で生成した層別仕様の細分化関係を木構造状に表示装置40に表示する。例えば、表示制御部26は、層別仕様記憶部12、関係記憶部13、及び層別評価値記憶部14に記憶された層別仕様、層別仕様間の細分化関係、各層別に含まれるモデルの評価値、モデル構築部22から受け取った層別仕様とモデル、また、層別評価部23から受け取ったモデル評価値を装置外部に出力するインタフェースを備える。   The display control unit 26 displays the subdivision relationship of the stratified specifications generated in the processing process on the display device 40 in a tree structure. For example, the display control unit 26 includes a layered specification stored in the layered specification storage unit 12, a relationship storage unit 13, and a layered evaluation value storage unit 14, a subdivision relationship between the layered specifications, and a model included in each layer. And an interface that outputs the model evaluation value received from the model construction unit 22 and the model evaluation value received from the layer evaluation unit 23 to the outside of the apparatus.

表示制御部26は、細分化部25で行われた細分化に沿って構築及び評価されたモデル、及び、モデル間の関係を表示装置40に表示する。図10は、表示装置40の表示画面の構成例を示す図である。図10の表示画面の表T1に対して、麻痺の層別変数が追加された表T2、T3及びT4が示され、更に、拘縮の層別変数が追加された表T5及びT6が示されている。表T1〜T6には、それぞれの説明変数の係数や、定数項などモデルに関する情報が表示される。   The display control unit 26 displays the models constructed and evaluated along the subdivision performed by the subdivision unit 25 and the relationship between the models on the display device 40. FIG. 10 is a diagram illustrating a configuration example of a display screen of the display device 40. Tables T2, T3, and T4 to which the paralysis stratification variables are added are shown, and tables T5 and T6 to which the contracture stratification variables are added are shown with respect to the table T1 of the display screen of FIG. ing. Tables T1 to T6 display information about the model such as the coefficients of the respective explanatory variables and constant terms.

なお、これは層別仕様の細分化によって生成されたモデル間の関係を表す木構造であり、層別仕様間の細分化関係そのものを表すものではない。   Note that this is a tree structure that represents the relationship between models generated by subdividing the stratified specifications, and does not represent the subdivided relationship between the stratified specifications.

出力部27は、表示装置40に表示された任意の層別仕様を出力する。例えば、出力部27は、表示装置40に表示されるモデルの指定を受け付け、当該モデルを当該情報処理装置1の外部に出力する。図10に示す画面構成例のうち、各モデル横に表示された「出力」ボタンが、出力部27に対するモデル指定のインタフェースとなっており、このボタンを利用者が押下することで、モデルが当該情報処理装置1の外部に出力される。出力として、図4に示す表がCSV形式でファイル出力されても良い。   The output unit 27 outputs an arbitrary stratified specification displayed on the display device 40. For example, the output unit 27 receives designation of a model displayed on the display device 40 and outputs the model to the outside of the information processing apparatus 1. In the screen configuration example illustrated in FIG. 10, an “output” button displayed beside each model is an interface for specifying a model for the output unit 27, and the user can press the button to select the model. It is output outside the information processing apparatus 1. As an output, the table shown in FIG. 4 may be output as a file in CSV format.

以上の構成を有する情報処理装置1の動作について、図12〜図20を参照しつつ、図11を用いて説明する。図11は、第1の実施形態における全体の処理の一例を示すフローチャートである。図12は、予め層別仕様記憶部12に記録されている層別仕様IDが0の層別仕様の一例を示す図である。図13は、層別仕様記憶部12に記録される層別仕様IDが1の層別仕様の一例を示す図である。図14は、層別仕様記憶部12に記録される層別仕様IDが2の層別仕様の一例を示す図である。図15は、層別仕様記憶部12に記録される層別仕様IDが3の層別仕様の一例を示す図である。   The operation of the information processing apparatus 1 having the above configuration will be described using FIG. 11 with reference to FIGS. FIG. 11 is a flowchart illustrating an example of overall processing in the first embodiment. FIG. 12 is a diagram illustrating an example of a layered specification whose layered specification ID is 0 recorded in advance in the layered specification storage unit 12. FIG. 13 is a diagram illustrating an example of a layered specification having a layered specification ID 1 recorded in the layered specification storage unit 12. FIG. 14 is a diagram illustrating an example of a layered specification with a layered specification ID 2 recorded in the layered specification storage unit 12. FIG. 15 is a diagram illustrating an example of a layered specification with a layered specification ID 3 recorded in the layered specification storage unit 12.

図16は、層別仕様記憶部12に記録される層別仕様IDが4の層別仕様の一例を示す図である。図17は、層別仕様記憶部12に記録される層別仕様IDが5の層別仕様の一例を示す図である。図18は、説明変数毎の回帰係数の一例を示す図である。図19は、層別仕様毎の層別評価値の一例を示す図である。図20は、層別仕様記憶部12に記録される層別仕様IDが6の層別仕様の一例を示す図である。   FIG. 16 is a diagram illustrating an example of a layered specification having a layered specification ID 4 recorded in the layered specification storage unit 12. FIG. 17 is a diagram illustrating an example of a layered specification having a layered specification ID 5 recorded in the layered specification storage unit 12. FIG. 18 is a diagram illustrating an example of a regression coefficient for each explanatory variable. FIG. 19 is a diagram illustrating an example of a stratified evaluation value for each stratified specification. FIG. 20 is a diagram illustrating an example of a layered specification having a layered specification ID 6 recorded in the layered specification storage unit 12.

(ステップS101)まず、図7に示すインタフェースを介し、層別評価部23が層別評価値の評価方法を受付部31から受け付け、また、細分化決定部24が細分化の実行条件を受付部31から受け付ける。ここでは、層別評価値として「決定係数の平均値」が、また、細分化の実行条件として「最大値のみ」が選ばれたとする。   (Step S101) First, via the interface shown in FIG. 7, the stratified evaluation unit 23 accepts the evaluation method of the stratified evaluation value from the accepting unit 31, and the subdivision determining unit 24 accepts the subdivision execution condition. 31. Here, it is assumed that “the average value of the determination coefficient” is selected as the evaluation value for each layer, and “only the maximum value” is selected as the subdivision execution condition.

(ステップS102)次に、データ層別部21は、データ記憶部11に記憶されているデータを層別仕様記憶部12に記憶されている層別仕様に沿って層別し、層単位でモデル構築部22にデータを出力する。   (Step S102) Next, the data stratification unit 21 stratifies the data stored in the data storage unit 11 in accordance with the stratification specification stored in the stratification specification storage unit 12, and models each layer. Data is output to the construction unit 22.

初回は、予め層別仕様記憶部12に記録されている層別仕様IDが0の層別仕様(図12参照)が用いられるものとする。この層別仕様は全体を同一グループとする仕様であるため、データ記憶部11に登録されているデータはそのまま層別されることなく1グループのデータとしてモデル構築部22に渡される。   For the first time, a layered specification (see FIG. 12) with a layered specification ID of 0 recorded in advance in the layered specification storage unit 12 is used. Since this stratified specification is a specification in which the entire group is the same group, the data registered in the data storage unit 11 is passed to the model building unit 22 as one group of data without being stratified as it is.

(ステップS103)次に、モデル構築部22は、データ層別部21から受け取ったデータグループ毎に、線形回帰モデルを構築する。このとき、モデルは、図18に示す形で、各説明変数の係数及び定数項が、制御部20内のワーキングメモリ(不図示)内に表現される。   (Step S103) Next, the model construction unit 22 constructs a linear regression model for each data group received from the data stratification unit 21. At this time, in the model, the coefficients and constant terms of each explanatory variable are expressed in a working memory (not shown) in the control unit 20 in the form shown in FIG.

(ステップS104)次に、層別評価部23は、モデル構築部22の構築した線形回帰モデルとそのデータから、受付部31で受け付けた評価方法である決定係数を計算する。このとき決定係数が0.5になったとする。   (Step S104) Next, the stratified evaluation unit 23 calculates a determination coefficient, which is an evaluation method received by the reception unit 31, from the linear regression model constructed by the model construction unit 22 and its data. At this time, the determination coefficient is assumed to be 0.5.

(ステップS105)次に、層別評価部23が、ステップS104で計算したモデル評価値を層別毎にまとめ、指定された方法に基づいて層別評価値を計算する。本実施形態の場合、決定係数の平均値が求められる。初回の場合(すなわち層別なしの場合)、モデルは唯一であるため、ステップS104で得た決定係数である0.5が層別評価値となる。   (Step S105) Next, the stratification evaluation unit 23 summarizes the model evaluation values calculated in step S104 for each stratification, and calculates the stratification evaluation value based on the designated method. In the case of this embodiment, the average value of the determination coefficient is obtained. In the first case (that is, when there is no stratification), since the model is unique, 0.5, which is the determination coefficient obtained in step S104, is the stratified evaluation value.

(ステップS106)次に、細分化決定部24が、指定された細分化の実行条件に基づいて、層別仕様の細分化の実行及び中止を判断する。例えば、細分化決定部24は、指定された細分化の実行条件を満たす場合、層別仕様の細分化の実行を判断する。初回の場合(すなわち層別なしの場合)、比較する層別仕様は一つであるため、これが最大値となり細分化の実行が判断され、処理がステップS107に進む。   (Step S106) Next, the subdivision determination unit 24 determines execution and cancellation of subdivision of the stratified specification based on the designated subdivision execution condition. For example, the subdivision determination unit 24 determines execution of subdivision of the stratified specification when the specified subdivision execution condition is satisfied. In the first case (that is, when there is no stratification), since there is one stratified specification to be compared, this is the maximum value, execution of subdivision is determined, and the process proceeds to step S107.

なお、指定された細分化の実行条件を満たさない場合、その層別仕様の細分化の中止が判断され、その層別仕様に関する処理が終わり、処理がステップS109に進む。   If the specified subdivision execution condition is not satisfied, it is determined that the subdivision of the stratified specification is to be stopped, the processing relating to the stratified specification is finished, and the processing proceeds to step S109.

(ステップS107)細分化部25は、図12の層別仕様に対して、現在は層別変数として用いられていない変数の中から一つを選び、その層別仕様を細分化し、結果を層別仕様記憶部12及び関係記憶部13に記録する。より具体的には、層別されていない変数が五つあるため、それぞれを層別変数に加えることで細分化された図13〜図17の層別仕様が記録される。層別の仕方は、上述した通りである。   (Step S107) The subdivision unit 25 selects one of the variables not currently used as a stratification variable for the stratification specification in FIG. 12, subdivides the stratification specification, and outputs the result as a layer. It records in the separate specification storage unit 12 and the relationship storage unit 13. More specifically, since there are five variables that are not stratified, the stratified specifications of FIGS. 13 to 17 that are subdivided by adding each to the stratified variables are recorded. The stratification method is as described above.

(ステップS108)また、ステップS107と平行して、細分化部25は、図12の層別仕様に対して、既に層別変数として用いられている定量値を取る変数の中から一つを選び、更に値の区分を細かくした層別仕様を生成することを試みる。しかし、図12に示す層別仕様に関しては、層別変数が存在していないため、新たな層別仕様は記録されない。   (Step S108) In parallel with step S107, the subdivision unit 25 selects one of the variables that take the quantitative value already used as the stratification variable for the stratification specification in FIG. In addition, it tries to generate a stratified specification with finer division of values. However, with respect to the stratified specification shown in FIG. 12, no stratified variable exists, so a new stratified specification is not recorded.

次に、ステップS102にて、データ層別部21が、データ記憶部11に記憶されているデータを、細分化によって新たに生成された層別仕様記憶部12に記憶されている層別仕様に沿って層別し、その層(グループ)単位でモデル構築部22にデータを送る。このとき、層別仕様記憶部12では図13〜図17の層別仕様が記憶されているため、それぞれに基づく層別化が行われ、各グループ単位でデータがモデル構築部22に送られる。なお、層に所属するデータレコードが無かった空集合のグループは送らないこととする。   Next, in step S102, the data stratification unit 21 converts the data stored in the data storage unit 11 into the stratified specification stored in the stratified specification storage unit 12 newly generated by subdivision. The data is stratified along the line, and the data is sent to the model construction unit 22 in units of the layer (group). At this time, since the stratified specifications storage unit 12 stores the stratified specifications of FIG. 13 to FIG. 17, stratification based on each is performed, and data is sent to the model building unit 22 in units of groups. It should be noted that an empty set group having no data record belonging to a layer is not sent.

次にステップS103にて、モデル構築部22は、データ層別部21から受け取ったデータを用いてグループ毎に線形回帰モデルを構築する。   In step S103, the model construction unit 22 constructs a linear regression model for each group using the data received from the data stratification unit 21.

次にステップS104にて、層別評価部23が、モデル構築部22の構築した線形回帰モデルとそのデータから、指定されたモデル評価方法である決定係数を計算する。このとき決定係数は、図19のモデル評価値(決定係数)に示すような結果になったとする。   Next, in step S104, the stratified evaluation unit 23 calculates a coefficient of determination, which is a designated model evaluation method, from the linear regression model constructed by the model construction unit 22 and its data. At this time, it is assumed that the determination coefficient has a result as shown in the model evaluation value (determination coefficient) in FIG.

次に、ステップS105にて、層別評価部23が、ステップS104で計算したモデル評価値を層別毎にまとめ、指定された方法に基づいて層別評価値を計算する。本実施形態の場合、層別仕様毎に決定係数の平均値が求められ、図19の層別評価値(決定係数の平均値)に示すような結果になったとする。   Next, in step S105, the stratification evaluation unit 23 summarizes the model evaluation values calculated in step S104 for each stratification, and calculates the stratification evaluation value based on the designated method. In the case of the present embodiment, it is assumed that the average value of the determination coefficient is obtained for each stratified specification, and the result is as shown in the stratified evaluation value (average value of the deciding coefficient) in FIG.

次に、ステップS106にて、細分化決定部24は、指定された細分化の実行条件に基づいて、層別仕様の細分化の実行及び中止を判断する。本実施形態の場合、層別評価値が最大のもののみが細分化の対象となるため、図19を参照して、層別評価値が最大(図19では、層別評価値が0.67)である、麻痺を層別に使った層別仕様IDが4の層別仕様(図16参照)が細分化部25に送られる。   Next, in step S <b> 106, the subdivision determination unit 24 determines execution or cancellation of subdivision of the stratified specification based on the designated subdivision execution condition. In the present embodiment, only the evaluation value with the largest stratification value is the target of segmentation, and therefore, with reference to FIG. 19, the stratification evaluation value is the largest (in FIG. 19, the stratification evaluation value is 0.67). ), A stratified specification (see FIG. 16) with a stratified specification ID of 4 using paralysis by stratification is sent to the subdividing unit 25.

次に、ステップS107にて、細分化部25は、図16の層別仕様に対して、現在は層別変数として用いられていない変数の中から一つを層別変数に追加した層別仕様を、層別仕様記憶部12に記録する。また、細分化部25は、細分化関係を関係記憶部13に記録する。   Next, in step S107, the subdivision unit 25 adds one of the variables that are not currently used as a stratification variable to the stratification specification with respect to the stratification specification of FIG. Is recorded in the layered specification storage unit 12. The subdivision unit 25 records the subdivision relationship in the relationship storage unit 13.

例えば、調査時年齢を層別変数に加えた場合、図20のような層別仕様となる。このとき、層は「調査時年齢=40〜62、且つ麻痺=なし」、「調査時年齢=63〜85、且つ麻痺=なし」、「調査時年齢=40〜62、且つ麻痺=軽度」、…というように、調査時年齢の2区分と麻痺の3区分を掛け合わせた6層の層別となる。また、細分化部25は、層別仕様IDが4の層別仕様を細分化元、層別仕様IDが6の層別仕様を細分化先とする細分化関係を、関係記憶部13に記録する。   For example, when the survey age is added to the stratification variable, the stratification specification is as shown in FIG. At this time, the layer was “survey age = 40-62 and paralysis = none”, “survey age = 63-85, and paralysis = none”, “survey age = 40-62, and paralysis = mild”, ... and so on, it is divided into 6 layers by multiplying 2 categories of age at the time of survey and 3 categories of paralysis. Further, the subdivision unit 25 records the subdivision relationship in the relationship storage unit 13 with the subclassification specification having the subclassification specification ID of 4 and the subdivision specification having the subclassification specification having the subclassification specification ID of 6. To do.

以下同様にして、層別仕様の細分化、モデル構築、モデル評価、層別評価の流れを、細分化が不可能となるか、細分化の実行条件を満たす層別仕様が一つも存在しなくなるまで処理を繰り返す。   In the same manner, the flow of subdivision of stratified specifications, model construction, model evaluation, and stratified evaluation will not be subdivided, or there will be no stratified specifications that satisfy the subdivision execution conditions. Repeat until the process.

(ステップS109)具体的には、ステップS109にて、細分化部25は、細分化する層別仕様があるか否か判定する。   (Step S109) Specifically, in step S109, the subdividing unit 25 determines whether or not there is a layered specification to be subdivided.

(ステップS110)ステップS109において細分化する層別仕様がないと判断された場合、すなわち全ての層別仕様についてそれ以上細分化しないと判断された場合、表示制御部は、表示画面を更新し、層別処理に基づくモデル構築を終了する。   (Step S110) When it is determined in step S109 that there is no segmentation specification to be subdivided, that is, when it is determined that there is no further segmentation for all the segmentation specifications, the display control unit updates the display screen, The model construction based on the stratification process is finished.

本実施形態では、麻痺について層別した以上の品質向上は、他のどの層別を追加した場合にも得られず、結果として麻痺に関する層別が最終的に選ばれたとする。   In the present embodiment, it is assumed that the quality improvement beyond the stratification regarding the paralysis is not obtained when any other stratification is added, and as a result, the stratification regarding the paralysis is finally selected.

以上の過程により、「麻痺」に関する層別が回帰モデルの当てはまりを最も良くする層別であることと、それを行った際のモデルとが得られる。   Through the above process, the stratification relating to “paralysis” is the stratification that best fits the regression model, and the model when the stratification is performed is obtained.

以上、第1の実施形態に係る情報処理装置1において、制御部20は、データと層別仕様とを取得し、前記層別仕様を更に層別が細かくなるように変更する細分化を複数試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力する。   As described above, in the information processing apparatus 1 according to the first embodiment, the control unit 20 acquires a data and a stratified specification, and performs a plurality of subdivisions for changing the stratified specification so that the stratified specification becomes finer. And classifying the data according to the subdivided stratified specification for each subdivided stratified specification, and determining a stratified evaluation value that is a stratified evaluation value based on the stratified data after classification Based on the plurality of stratified evaluation values, the subdivided stratified specification is selected, and the selected stratified specification is output.

第1の実施形態によれば、ランダムに層別仕様を試す手法、及び途中で得られた知見を活かすことなく層別仕様を幾つか試行するような手法よりも、平均すると少ないステップ数で質の高いモデルを得ることができる。   According to the first embodiment, on average, the quality can be reduced with a smaller number of steps than the method of trying the stratified specifications at random and the method of trying several stratified specifications without taking advantage of the knowledge obtained in the middle. A high model can be obtained.

(第2の実施形態)
続いて、第2の実施形態について説明する。第1の実施形態では、細分化するときに層別変数への変数の追加を、層別変数ではない全ての変数について試行した。それに対し、第2の実施形態では、対象とする世界に登場する概念及びこれらの概念間の関係を表した概念階層であるオントロジーを、所定の方式で探索して取得された要素を用いて、細分化を試行する。
(Second Embodiment)
Next, the second embodiment will be described. In the first embodiment, when subdividing, the addition of variables to the stratified variables is tried for all variables that are not stratified variables. In contrast, in the second embodiment, an ontology that is a concept hierarchy that represents a concept appearing in the target world and a relationship between these concepts is searched using a predetermined method, and an element is used. Try subdividing.

まず、図21を用いて第2の実施形態に係る情報処理装置1bについて説明する。図21は、第2の実施形態における情報処理装置1bの構成を示す図である。なお、図2と共通する要素には同一の符号を付し、その具体的な説明を省略する。第1の実施形態における情報処理装置1bの構成は、第1の実施形態における情報処理装置1の構成に対して、制御部20が制御部20bに変更され、受付部31が受付部31bに変更されたものになっている。具体的には、第2の実施形態の制御部20bは、第1の実施形態の制御部20に比べて、細分化部25が細分化部25bに変更されたものになっている。   First, the information processing apparatus 1b according to the second embodiment will be described with reference to FIG. FIG. 21 is a diagram illustrating a configuration of the information processing device 1b according to the second embodiment. Elements common to those in FIG. 2 are denoted by the same reference numerals, and detailed description thereof is omitted. In the configuration of the information processing apparatus 1b in the first embodiment, the control unit 20 is changed to the control unit 20b and the reception unit 31 is changed to the reception unit 31b with respect to the configuration of the information processing apparatus 1 in the first embodiment. It has been done. Specifically, in the control unit 20b of the second embodiment, the subdivision unit 25 is changed to the subdivision unit 25b as compared with the control unit 20 of the first embodiment.

制御部20bは、当該情報処理装置1bが対象とする世界に登場する概念及びこれらの概念間の関係を表した概念階層であるオントロジーを、所定の方式で探索して取得された要素を用いて、上記細分化を試行する。ここで、この要素は、例えば、現在の層別に使用されている変数と同じ概念に属する別の変数、及び/又は現在の層別に使用されている変数が属する概念に関連する他の概念に属する変数、あるいは、現在の層別に使用されている変数の区分が更に細分化された区分である。   The control unit 20b uses the elements acquired by searching for the ontology, which is a concept hierarchy representing the concept appearing in the world targeted by the information processing apparatus 1b, and the relationship between these concepts, using a predetermined method. Try the above subdivision. Here, this element belongs to, for example, another variable belonging to the same concept as the variable used in the current layer and / or other concepts related to the concept to which the variable used in the current layer belongs. A variable or a segment of a variable used for each current layer is a segment that is further subdivided.

受付部31bは、第1の実施形態の受付部31と同様の機能を有するが、更に、以下の機能を有する。受付部31bは、例えば、当該情報処理装置1の利用者が指定するオントロジーの所在を受け付け、細分化部25へ出力する。   The reception unit 31b has the same function as the reception unit 31 of the first embodiment, but further has the following functions. For example, the reception unit 31 b receives the location of the ontology specified by the user of the information processing apparatus 1 and outputs the location to the subdivision unit 25.

図22は、オントロジーの所在を受け付けるインタフェースの一例である。例えば図22に示すインタフェースを用いたURLテキストとして、オントロジーの所在を受け付けて良い。また、受付部31bは、ファイル形式やストリーム形式で直接データを受け付けても良い。   FIG. 22 is an example of an interface that accepts the location of an ontology. For example, the location of the ontology may be received as URL text using the interface shown in FIG. The receiving unit 31b may receive data directly in a file format or a stream format.

ここで、オントロジーとは、当該情報処理装置1が対象とする世界に登場する概念(クラスともいう)及び概念間の関係(プロパティともいう)を表した概念階層である。オントロジーは、クラスをノードとし、プロパティをリンクとするグラフネットワークとして表現することが可能である。プロパティは、あるクラスの特徴を、他のクラスとの結びつきによって表現するものである。プロパティで結ばれるクラスのうち、一方はプロパティの持ち主となるクラスであり、もう一方は結びつき得るクラス(値)の範囲に関する値制約となるクラスである。ここでは、クラス間の関係のうち、is−a関係と呼ばれる分類を表す関係は、上位クラスと下位クラスの間に張られ、特殊なものとしてプロパティとは区別される。   Here, the ontology is a concept hierarchy representing concepts (also referred to as classes) appearing in the world targeted by the information processing apparatus 1 and relationships (also referred to as properties) between the concepts. An ontology can be expressed as a graph network with classes as nodes and properties as links. A property represents a characteristic of a certain class by linking with another class. Of the classes connected by the property, one is the class that is the owner of the property, and the other is the class that is the value constraint on the range of classes (values) that can be connected. Here, among the relationships between classes, a relationship representing a classification called an is-a relationship is stretched between a higher class and a lower class, and is distinguished from a property as a special one.

例えば図23は、人間と、その特徴を表現するために必要な概念を整理したオントロジーを示す図である。図23のうち、四角はクラス、矢印はプロパティを表している。例えば「人物」クラスは、「年齢」プロパティ、「健康状態」プロパティなどによって、その特徴が表現される。例えば図23のオントロジーでは、「年齢」プロパティは、「高齢」、「中年」、「若年」を値制約として参照しており、そのことは、ある「人物」クラスのインスタンスは、「高齢」、「中年」、「若年」クラス(及び、その下位クラス)のインスタンスを「年齢」プロパティを介して参照できることを意味している。また同様に、「健康状態」クラスのインスタンスは、「あり」、「なし」クラス(及び、その下位クラス)のインスタンスを、「麻痺」プロパティや「拘縮」プロパティを介して参照できることを意味している。「有無値」クラスは「あり」、「なし」の2クラスに分類され、更に「あり」クラスは「重度」、「軽度」の2クラスに分類されるようis−a関係で結ばれている。また「年齢」は、「高齢」、「中年」、「若年」の3クラスに分類され、更に「高齢」クラスは「80代」、「70代」などのクラスに分類される関係になっている。   For example, FIG. 23 is a diagram showing an ontology in which humans and concepts necessary for expressing their characteristics are arranged. In FIG. 23, squares represent classes and arrows represent properties. For example, the characteristics of the “person” class are expressed by an “age” property, a “health state” property, and the like. For example, in the ontology of FIG. 23, the “age” property refers to “aged”, “middle age”, and “young” as value constraints, which means that an instance of a certain “person” class is “aged”. , “Middle-age” and “young” classes (and their subclasses) can be referred to via the “age” property. Similarly, an instance of the “health” class means that instances of the “present” and “none” classes (and their subclasses) can be referred to via the “paralysis” and “contract” properties. ing. The “presence / absence value” class is classified into two classes, “present” and “none”, and the “present” class is connected in an is-a relationship so as to be classified into two classes of “severe” and “mild”. . “Age” is classified into three classes “elderly”, “middle-aged”, and “young”, and “elderly” class is classified into classes such as “80s” and “70s”. ing.

オントロジーの記録方法、及び、オントロジーの処理方法については、例えばW3C(World Wide Web Consortium)が策定したオントロジー記述言語OWL(Web Ontology Language)を用いてオントロジーを表現しておき、 Jena(URL:http://jena.sourceforge.net/)やThe OWL API(URL:http://owlapi.sourceforge.net/)などの公知技術を用いて内容を管理・処理することができる。   For the ontology recording method and the ontology processing method, the ontology is expressed using, for example, the ontology description language OWL (Web Ontology Language) established by the World Wide Web Consortium (W3C), and Jena (URL: http: //Jena.sourceforge.net/) and The OWL API (URL: http://owlapi.sourceforge.net/) can be used to manage and process the content.

細分化部25bは、層別仕様記憶部12に記録されている層別仕様に、新たな層別変数を追加する際、追加可能な変数全てについて層別仕様を変更するのではなく、オントロジー内のプロパティを参照し、ある時点で定まっている層別変数に対応するプロパティを持つクラスが持つ他のプロパティに対応する変数の範囲でのみ層別変数の候補を抽出する。   When adding a new stratification variable to the stratification specification recorded in the stratification specification storage section 12, the subdivision section 25b does not change the stratification specification for all the variables that can be added. Referring to the property of, stratified variable candidates are extracted only within the range of variables corresponding to other properties possessed by a class having a property corresponding to the stratified variable determined at a certain time.

その具体例について、図16に示す「麻痺」を層別変数とする層別仕様から、他の層別変数を加えて細分化する場合を、以下説明する。図23に示すオントロジーで、「麻痺」のプロパティを持つクラスは「健康状態」である。そして、「健康状態」が持つ麻痺以外のプロパティは「拘縮」のみである。そこで、図16に示す層別仕様に対し、細分化部25は、「麻痺」と「拘縮」の2変数を層別変数とする層別仕様を生成し、層別仕様記憶部12に記録する。   A specific example will be described below in the case of subdividing by adding another stratification variable from the stratification specification having “paralysis” shown in FIG. 16 as a stratification variable. In the ontology shown in FIG. 23, a class having the “paralysis” property is “health state”. The only property of “health state” other than paralysis is “contracture”. Therefore, for the stratified specification shown in FIG. 16, the subdividing unit 25 generates a stratified specification having two variables of “paralysis” and “contracture” as stratified variables, and records them in the stratified specification storage unit 12. To do.

このとき、「拘縮」変数の値は、図4によると「なし」、「軽度」、「重度」であるが、図23に示すオントロジーによると、それらの値は、まず「あり」と「なし」で分類され、次に「あり」が「軽度」と「重度」に分類されるようになっている。図24は、図16の層別仕様を、図23に示すオントロジーを用いて細分化した層別仕様の一例である。また、図25は、図24に示す層別仕様を図23に示すオントロジーを用いて細分化した層別仕様の一例である。   At this time, the values of the “contracture” variable are “none”, “mild”, and “severe” according to FIG. 4, but according to the ontology shown in FIG. “None” is classified, and “Yes” is classified into “mild” and “severe”. 24 is an example of the layered specification obtained by subdividing the layered specification of FIG. 16 using the ontology shown in FIG. FIG. 25 is an example of the layered specification obtained by subdividing the layered specification shown in FIG. 24 using the ontology shown in FIG.

細分化部25bは、図23のオントロジーを探索し、「拘縮」変数に対応するプロパティ「拘縮」の値がまず「あり」と「なし」で分類されることから、それらを層とする区分けを定義する。そして、「軽度」及び「重度」の上位クラスが「あり」であることから、図24に示すように、細分化部25bは、「あり」層の値範囲として「軽度、重度」を取る層別仕様を生成する。これは、第1の実施形態における図17のように、「拘縮」が取り得る値を全て別の層に区分けする層別仕様とは異なる。   The subdivision unit 25b searches the ontology in FIG. 23, and the values of the property “contract” corresponding to the “contract” variable are first classified into “present” and “none”, and these are used as layers. Define segmentation. Since the upper class of “mild” and “severe” is “yes”, as shown in FIG. 24, the subdividing unit 25b takes the layer of “mild, severe” as the value range of the “yes” layer. Generate another specification. This is different from the stratified specification that divides all possible values of “contracture” into different layers as shown in FIG. 17 in the first embodiment.

そして、図24の層別仕様を細分化する場合には、「あり」が「軽度」と「重度」に分類できることをオントロジーから得られるため、細分化部25bは、図24に示す層別仕様の「拘縮」が「あり」の層を「拘縮」が「重度」の層と「軽度」の層とに分けられた、図25に示す層別仕様を生成する。   Then, when subdividing the stratified specification of FIG. 24, since it is obtained from the ontology that “Yes” can be classified into “mild” and “severe”, the subdividing unit 25b performs the stratified specification shown in FIG. The layered specifications shown in FIG. 25 are generated in which the “contract” is “present” and the “contract” is “severe” and “mild”.

以上、第2の実施形態における情報処理装置1bにおいて、制御部20bは、当該情報処理装置1bが対象とする世界に登場する概念及びこれらの概念間の関係を表した概念階層であるオントロジーを、所定の方式で探索して取得された要素を用いて、上記細分化を試行する。これにより、オントロジー内で同じ概念が持つプロパティの範囲で層が追加された層別仕様が得られる。このため、オントロジーが定義する概念階層を反映した層別仕様が得られる。オントロジーは、もともと意味のまとまりで、対象とする世界に存在する概念を記述したものである。そのため、オントロジーを用いて、ネットワーク上の探索ステップ数が近い(抽象的にいえば、関連が強い)範囲から層別仕様を追加することは、かけ離れた概念を唐突に層別化に導入するよりは、ある時点で適用した層別化を、その近い範囲で発展させることになり、漸近的に層別仕様を細分化することができる。   As described above, in the information processing device 1b according to the second embodiment, the control unit 20b displays the ontology that is a concept hierarchy representing the concept that appears in the world targeted by the information processing device 1b and the relationship between these concepts. The subdivision is tried using elements obtained by searching in a predetermined manner. As a result, a layered specification in which layers are added within the range of properties of the same concept in the ontology is obtained. For this reason, a stratified specification reflecting the concept hierarchy defined by the ontology is obtained. An ontology is a group of meanings originally and describes concepts that exist in the target world. Therefore, using an ontology to add stratified specifications from a range where the number of search steps on the network is close (abstractly speaking, strongly related) is more than introducing a distant concept into stratification suddenly. Will develop the stratification applied at a certain point in the near range, and asymptotically subdivide the stratification specification.

なお、複数の装置を備える情報処理システムが、各実施形態の情報処理装置1又は1bの各処理を、それらの複数の装置で分散して処理しても良い。   Note that an information processing system including a plurality of devices may process each processing of the information processing device 1 or 1b of each embodiment in a distributed manner by the plurality of devices.

また、各実施形態の情報処理装置1又は1bの各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、プロセッサが実行することにより、各実施形態の情報処理装置1又は1bに係る上述した種々の処理を行っても良い。   Further, a program for executing each process of the information processing apparatus 1 or 1b of each embodiment is recorded on a computer-readable recording medium, the program recorded on the recording medium is read into a computer system, and the processor By executing, the above-described various processes related to the information processing apparatus 1 or 1b of each embodiment may be performed.

なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであっても良い。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。   Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。更に、異なる実施形態にわたる構成要素を適宜組み合わせても良い。   As described above, the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the components without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, you may delete some components from all the components shown by embodiment. Furthermore, the constituent elements over different embodiments may be appropriately combined.

1、1b 情報処理装置
11 データ記憶部
12 層別仕様記憶部
13 関係記憶部
14 層別評価値記憶部
20 制御部
21 データ層別部
22 モデル構築部
23 層別評価部
24 細分化決定部
25、25b 細分化部
26 表示制御部
27 出力部
31、31b 受付部
1, 1b Information processing device 11 Data storage unit 12 Stratified specification storage unit 13 Relational storage unit 14 Stratified evaluation value storage unit 20 Control unit 21 Data stratification unit 22 Model construction unit 23 Stratification evaluation unit 24 Segmentation determination unit 25 , 25b Subdivision unit 26 Display control unit 27 Output unit 31, 31b Reception unit

Claims (16)

データと、複数の変数に関する層別仕様とを入力とし、前記層別仕様を更に層別が細かくなるように変更する細分化を複数試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力する情報処理装置。 Data as input and stratification specifications for a plurality of variables, and the subdivision of changing the layer-specific data as further the stratification finer plurality trial, the subdivided for each stratification specifications after subdivision The data is classified according to the later stratified specifications, and the stratified evaluation value, which is the valuation value for each stratification, is determined based on the classified stratified data. After the subdivision based on the determined stratified evaluation values An information processing apparatus that selects a stratified specification and outputs the selected stratified specification. 層毎にモデルを構築し、構築したモデル毎にモデルの評価値であるモデル評価値を決定し、前記決定した複数のモデル評価値に基づいて、前記層別評価値を決定する
請求項1に記載の情報処理装置。
The model is constructed for each layer, the model evaluation value that is the evaluation value of the model is determined for each constructed model, and the evaluation value for each layer is determined based on the plurality of determined model evaluation values. The information processing apparatus described.
前記モデル評価値は、前記データに対する前記モデルの当てはまりの良さを評価する決定係数であり、
前記層別評価値は、前記決定係数の平均値である
請求項2に記載の情報処理装置。
The model evaluation value is a coefficient of determination that evaluates the goodness of fit of the model to the data,
The information processing apparatus according to claim 2, wherein the stratified evaluation value is an average value of the determination coefficients.
前記細分化、前記層別評価値の決定、及び前記細分化後の層別仕様の選択を繰り返し、前記細分化の実行条件を満たさない場合、最後に選択した細分化後の層別仕様を出力する
請求項1から3のいずれか一項に記載の情報処理装置。
When the subdivision, determination of the evaluation value by stratification, and selection of the stratified specification after subdivision are repeated, and the execution condition of the subdivision is not satisfied, the stratified specification after the subdivision selected last is output The information processing apparatus according to any one of claims 1 to 3.
前記細分化は、現在の前記層別に別の変数の層別を加えることである
請求項1から4のいずれか一項に記載の情報処理装置。
The information processing apparatus according to any one of claims 1 to 4, wherein the subdivision is adding another variable stratification according to the current stratification.
前記細分化は、現在の前記層別に含まれる変数の値の区分が細かくなるように変更することである
請求項1から4のいずれか一項に記載の情報処理装置。
The information processing apparatus according to any one of claims 1 to 4, wherein the subdivision is a change so that a classification of a value of a variable included in each current layer becomes finer.
前記層別仕様の細分化の試行の際に、現在の層別に、層別変数となっていない説明変数全てについて、別々に層を加え、前記現在の層別に含まれる層別変数の層のうち、値の区分が細かくなるよう変更可能な層全てについて、別々に値の区分が細かくなるよう変更する
請求項1から6のいずれか一項に記載の情報処理装置。
When trying to subdivide the stratified specifications, add the layers separately for all explanatory variables that are not stratified variables for each current tier, and among the stratified variable layers included in the current tier The information processing apparatus according to any one of claims 1 to 6, wherein all the layers that can be changed so that the value classification becomes fine are changed so that the value classification becomes fine separately.
当該情報処理装置が対象とする概念及び前記概念間の関係を表した概念階層であるオントロジーを、所定の方式で探索して取得された要素を用いて、前記細分化を試行する
請求項5に記載の情報処理装置。
6. The subdivision is tried using an element obtained by searching an acquired ontology, which is a concept hierarchy representing a concept targeted by the information processing apparatus and the relationship between the concepts, using a predetermined method. The information processing apparatus described.
前記要素は、現在の層別に使用されている変数が属する概念に含まれる別の変数、及び/又は現在の層別に使用されている変数が属する概念に関連する概念に属する変数である
請求項8に記載の情報処理装置。
9. The element is a variable belonging to a concept related to a concept to which another variable included in a concept to which a variable used in each current layer belongs and / or a variable used in a current layer is belonging. The information processing apparatus described in 1.
前記要素は、現在の層別に使用されている変数の区分が更に細分化された区分である
請求項8に記載の情報処理装置。
The information processing apparatus according to claim 8, wherein the element is a classification obtained by further subdividing a variable classification used for each current layer.
前記データを層別仕様に従って層別するデータ層別部と、
層別された層毎に、該層に含まれるデータを用いて統計モデルを生成するモデル構築部と、
前記モデル構築部が構築した複数の統計モデルの評価値であるモデル評価値を決定し、 前記複数のモデル評価値を用いて、前記複数の層別評価値を決定する層別評価部と、
前記層別評価値を用いて、更なる層別仕様の細分化を行うか否か決定する細分化決定部と、
前記更なる層別仕様の細分化を行うと決定された場合、前記データを参照して、現在の前記層別に対する別の変数の層別の追加、及び/又は現在の前記層別に含まれる変数の値の区分の変更を前記細分化として実行する細分化部と、
を備える請求項1から10のいずれか一項に記載の情報処理装置。
A data stratification section for stratifying the data according to stratification specifications;
For each layer that is stratified, a model building unit that generates a statistical model using data included in the layer; and
A model evaluation value that is an evaluation value of a plurality of statistical models constructed by the model construction unit; and a stratified evaluation unit that determines the plurality of stratification evaluation values using the plurality of model evaluation values;
Using the stratified evaluation value, a subdivision determining unit that determines whether or not to subdivide further stratified specifications;
If it is decided to subdivide the further stratification specification, referring to the data, addition of another variable to the current stratification and / or variables included in the current stratification A subdivision unit for executing the change of the value category as the subdivision;
The information processing apparatus according to claim 1, further comprising:
前記層別評価値の計算方法を特定する指示を当該情報処理装置の外部から受け付ける受付部
を備える請求項1から11のいずれか一項に記載の情報処理装置。
The information processing apparatus according to any one of claims 1 to 11, further comprising a reception unit that receives an instruction for specifying a calculation method of the stratified evaluation value from outside the information processing apparatus.
前記細分化の実行条件を特定する指示を当該情報処理装置の外部から受け付ける受付部
を備える請求項4に記載の情報処理装置。
The information processing apparatus according to claim 4, further comprising: a reception unit that receives an instruction for specifying the execution condition of the subdivision from the outside of the information processing apparatus.
層別仕様間でどのように細分化したかを示す細分化関係を記憶する記憶部と、
処理過程で生成した層別仕様の前記細分化関係を木構造状に表示装置に表示する表示制御部と、
前記表示装置に表示された任意の層別仕様を出力する出力部と、
を備える請求項1から13のいずれか一項に記載の情報処理装置。
A storage unit for storing a subdivision relationship indicating how subdivision is made between stratified specifications;
A display control unit for displaying the subdivision relationship of the stratified specification generated in the process in a tree structure on a display device;
An output unit for outputting an arbitrary stratified specification displayed on the display device;
The information processing apparatus according to claim 1, further comprising:
コンピュータが、データと、複数の変数に関する層別仕様とを入力とし、前記層別仕様を更に層別が細かくなるように変更する細分化を複数試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力する情報処理方法。 The computer inputs the data and the stratified specifications regarding a plurality of variables, and performs a plurality of subdivisions for changing the stratified specifications so that the stratification becomes finer. The data is classified according to the subdivided stratified specifications, the stratified evaluation value that is the stratified evaluation value is determined based on the categorized stratified data, and the subdivision is performed based on the determined stratified evaluation values. An information processing method for selecting a classified stratified specification and outputting the selected stratified specification. コンピュータに、
データと、複数の変数に関する層別仕様とを入力とし、前記層別仕様を更に層別が細かくなるように変更する細分化を複数種類試行し、細分化後の層別仕様それぞれについて前記細分化後の層別仕様に従って前記データを分類し分類後の層別データに基づいて層別の評価値である層別評価値を決定し、決定した複数の層別評価値に基づいて、細分化後の層別仕様を選択し、選択した層別仕様を出力させるためのプログラム。
On the computer,
Using data and stratified specifications for multiple variables as input, try multiple types of subdivision to change the stratified specifications so that the stratification becomes finer, and subdivide each of the subdivided stratified specifications The data is classified according to the later stratified specifications, and the stratified evaluation value, which is the valuation value for each stratification, is determined based on the classified stratified data. After the subdivision based on the determined stratified evaluation values A program for selecting the stratified specifications and outputting the selected stratified specifications.
JP2014250974A 2014-12-11 2014-12-11 Information processing apparatus, information processing method, and program Active JP6463961B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014250974A JP6463961B2 (en) 2014-12-11 2014-12-11 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014250974A JP6463961B2 (en) 2014-12-11 2014-12-11 Information processing apparatus, information processing method, and program

Publications (2)

Publication Number Publication Date
JP2016114987A JP2016114987A (en) 2016-06-23
JP6463961B2 true JP6463961B2 (en) 2019-02-06

Family

ID=56141812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014250974A Active JP6463961B2 (en) 2014-12-11 2014-12-11 Information processing apparatus, information processing method, and program

Country Status (1)

Country Link
JP (1) JP6463961B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6530338B2 (en) 2016-03-17 2019-06-12 株式会社東芝 INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282819A (en) * 2000-01-28 2001-10-12 Fujitsu Ltd Data mining system, machine readable medium stored with data mining program, and data mining program
JP4509860B2 (en) * 2005-05-25 2010-07-21 株式会社東芝 Data division apparatus, data division method and program
JP5045240B2 (en) * 2007-05-29 2012-10-10 富士通株式会社 Data division program, recording medium recording the program, data division apparatus, and data division method

Also Published As

Publication number Publication date
JP2016114987A (en) 2016-06-23

Similar Documents

Publication Publication Date Title
JP7104244B2 (en) User tag generation method and its devices, computer programs and computer equipment
CN108804633B (en) Content recommendation method based on behavior semantic knowledge network
CN107688823B (en) A kind of characteristics of image acquisition methods and device, electronic equipment
KR100816934B1 (en) Clustering system and method using search result document
JP4812661B2 (en) Map display system and map display method
CN106294783A (en) A kind of video recommendation method and device
CN111797928A (en) Method and system for generating combined features of machine learning samples
Sepehr et al. Ranking desertification indicators using TOPSIS algorithm
CN109582849A (en) A kind of Internet resources intelligent search method of knowledge based map
KR101596353B1 (en) Device and method for determining HS code
KR101968309B1 (en) SYSTEM AND METHOD FOR text classification
Cho et al. Latent space model for multi-modal social data
CN111753152A (en) System and method for visualizing data associated with a search query and computing device
CN114298323A (en) Method and system for generating combined features of machine learning samples
CN106934410A (en) The sorting technique and system of data
JP6696568B2 (en) Item recommendation method, item recommendation program and item recommendation device
Ben-Shimon et al. An ensemble method for top-N recommendations from the SVD
Wood et al. Missing interactions: the current state of multispecies connectivity analysis
JP6463961B2 (en) Information processing apparatus, information processing method, and program
US20170337259A1 (en) Visualizing device, visualizing method and visualizing program
JP2015043146A (en) Prediction device, method, and program
CN113535939A (en) Text processing method and device, electronic equipment and computer readable storage medium
JP7287490B2 (en) LEARNING DEVICE, LEARNING METHOD, AND PROGRAM
JP2019053491A (en) Neural network evaluation apparatus, neural network evaluation method, and program
JP2015049790A (en) Serial data analyzer and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180629

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190107

R151 Written notification of patent or utility model registration

Ref document number: 6463961

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151