JP4957127B2 - Apparatus, method, and program for extracting partial relationship between attributes - Google Patents

Apparatus, method, and program for extracting partial relationship between attributes Download PDF

Info

Publication number
JP4957127B2
JP4957127B2 JP2006237540A JP2006237540A JP4957127B2 JP 4957127 B2 JP4957127 B2 JP 4957127B2 JP 2006237540 A JP2006237540 A JP 2006237540A JP 2006237540 A JP2006237540 A JP 2006237540A JP 4957127 B2 JP4957127 B2 JP 4957127B2
Authority
JP
Japan
Prior art keywords
relationship
strength
partial
fields
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006237540A
Other languages
Japanese (ja)
Other versions
JP2008059433A (en
Inventor
直美 吉沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006237540A priority Critical patent/JP4957127B2/en
Publication of JP2008059433A publication Critical patent/JP2008059433A/en
Application granted granted Critical
Publication of JP4957127B2 publication Critical patent/JP4957127B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、ある種の推論・シミュレーションシステムにおいて、その推論の基となるモデルの決定を既知の学習データを用いて実施するために、属性間の部分関係抽出する装置、方法、及びプログラムに関する。   The present invention relates to an apparatus, a method, and a program for extracting a partial relationship between attributes in order to perform determination of a model as a basis of inference in a certain inference / simulation system using known learning data.

なお、本明細書において、「学習データ」とは、それを用いてその特性を表現する何らかのモデル(若しくはモデル式)を構築するためのデータを意味する。以下、本文では特記しない限り「データ」は「学習データ」であることを前提とする。   In this specification, “learning data” means data for constructing a certain model (or model expression) that expresses the characteristics using the learning data. Hereinafter, it is assumed that “data” is “learning data” unless otherwise specified in the text.

予測・推論システム、近似値計算システム等の実際に該当する処理を実行することなく結果を見積もるシステムにおいては、そのための前提となるモデルが必要である。   In a system that estimates a result without executing a process that actually corresponds, such as a prediction / inference system or an approximate value calculation system, a model that is a prerequisite for that is required.

多くの場合(自然・物理法則が利用可能な場合を除けば)このモデル生成は多大な検討労力を要するものになっており、このために近年、既知の情報を用いて同一条件で発生する未来の情報を推定するためのモデルを自動生成する技術が構築されている。   In many cases (except when the laws of nature and physics can be used), this model generation requires a lot of study effort. For this reason, a future that occurs under the same conditions using known information in recent years A technology for automatically generating a model for estimating the information of the above has been established.

予測・推論の性能はモデル依存となるため、このモデルには既知の情報を端的に把握していることが要求される。また、予測処理における計算負荷、モデルをユーザに提示した場合の認識性を鑑みた場合、可能な限りシンプルであることが望ましい。   Since the performance of prediction / inference is model-dependent, this model requires a simple grasp of known information. In view of the calculation load in the prediction process and the recognizability when the model is presented to the user, it is desirable to be as simple as possible.

このため、既知の情報が内包する特徴を反映し、かつより簡易なモデルを作成する機能が必要となる。   For this reason, the function which reflects the characteristic which known information contains and produces a simpler model is needed.

ここで二つの問題がある。一つは、与えられた既知の情報をモデル生成機構がどう認識するかであり、他の一つは、認識した情報を用いてどのようなモデルを生成するかである。   There are two problems here. One is how the model generation mechanism recognizes given known information, and the other is what model is generated using the recognized information.

<モデル生成上の問題>
既知情報を用いてfield間関係を抽出し、この関係を用いてデータ空間をモデリングする技術として、例えばBayesian Networkの学習機能が存在する。この学習機能は非常に一般的な機能であり、これらはある評価基準(MDL,AIC,BIC他)に基づいてfield間の関係の有無を判断しモデルの構築を行うものである。
<Problems in model generation>
For example, a Bayesian Network learning function exists as a technique for extracting the relationship between fields using known information and modeling the data space using this relationship. This learning function is a very general function, and these are used to determine the existence of a relationship between fields based on a certain evaluation criterion (MDL, AIC, BIC, etc.) and to build a model.

なお、この「関係の有無」について、本明細書において、「関係が有る」とは、あるfield(群)の値が一意に(もしくは一定範囲内に)決定した場合に、別のfield(群)の属性値それぞれの取る値(あるいはその値をとる確率)が制限される(平均と乖離する)ことを意味する。例えば性別field、学歴field、(大卒の場合の)出身学部field、が存在する場合に、全男子に占める中卒、高卒、大卒の割合と全女子に占める中卒、高卒、大卒の割合はそう変わらない場合には、性別と学歴の関係は薄い(若しくは小さい)、と表現され、工学部卒の女性割合は低い等の偏りが見られる場合には、性別と出身学部の関係は(強いものが)あると表現する。   In this specification, regarding the “presence / absence of relationship”, “relevant” means that when the value of a certain field (group) is uniquely (or within a certain range), another field (group) ) Attribute values (or probabilities of taking those values) are limited (divergence from the average). For example, when there is a gender field, an educational field, and an undergraduate field (for university graduates), the ratio of junior high school, high school and university graduates to all boys and the ratio of middle school, high school and university graduates to all girls are not so different. In some cases, it is expressed that the relationship between gender and educational background is thin (or small), and when there is a bias such as a low percentage of female graduates in engineering, there is a strong relationship between gender and faculty of origin. It expresses.

また、本明細書において、「関係強度」とは、関係の強さを表現する指標であり、単純に2 field間の属性値の偏りから計算可能な場合もあれば、「モデル評価値(field群A- field群B間関係が有る場合)- モデル評価値(field群A- field群B間関係が無い場合)」をfield群A- field群B間の関係強度として使用する場合もある。   Further, in this specification, “relationship strength” is an index that expresses the strength of the relationship. In some cases, it can be simply calculated from the bias of attribute values between two fields, or “model evaluation value (field "When there is a relationship between group A and field group B)-model evaluation value (when there is no relationship between field group A and field group B)" may be used as the relationship strength between field group A and field group B.

さらに、本明細書において、「field」とは、データを構成する1属性を意味するものとする。例えば図5における縦一行(ある調査事項例えば性別、年齢等)を示す。また、「属性値の部分集合」とは、あるfieldが取り得る属性値の中の一部を意味する。また、「部分集合の構成要素」とは、部分集合に属する属性値それぞれを意味する。   Further, in this specification, “field” means one attribute constituting data. For example, a vertical line in FIG. 5 (a certain survey item such as sex, age, etc.) is shown. Further, the “subset of attribute values” means a part of attribute values that a field can take. Also, “subset constituent element” means each attribute value belonging to the subset.

この様なモデルにおいてfield間総当りの関係付けを生成させることは、因果関係表現(例えば確率表、確率表現関数)を巨大あるいは複雑にすること、モデルを複雑にすることから、通常は(上記で例示した評価基準を用いたモデリングでは)採用されず、このため、評価値の小さいfield間は関係なしと表現される。   In such a model, generating a brute force relationship between fields makes a causal relation expression (eg, probability table, probability expression function) huge or complicated, and makes the model complicated. In the modeling using the evaluation criteria exemplified in (1), it is not adopted, and therefore, fields having small evaluation values are expressed as irrelevant.

ところが、該当field全体として見た場合は関係が弱くとも、特定値の場合には強力な関係を持つ場合が存在する場合がある。例えば、sample数が少ないが、該当fieldがその値をとる場合に、他のfieldの値が高確率で決定するような場合である。このような関係を「関係なし」とした場合には、推論処理において有益な情報がモデルに反映されないという事態を引き起こす。   However, there are cases in which there is a strong relationship in the case of a specific value even if the relationship is weak when viewed as the entire corresponding field. For example, the number of samples is small, but when the corresponding field takes the value, the value of the other field is determined with high probability. When such a relationship is “no relationship”, it causes a situation in which useful information is not reflected in the model in the inference process.

<情報認識の問題>
また、モデルの構築におるfieldの値が多種に及ぶ場合、連続値を取る場合に、それらをまとめる機能が存在する。
但し、既知のシステムにおける「まとめる」という処理は以下の二つのいずれかを意味していた。
1)出現頻度の低いものを「その他」として一つの値にまとめる。
2)値が順列を持つ、あるいは連続する場合に、隣接する値をまとめて属性数が許容範囲以下になるように加工する。
<Information recognition problems>
In addition, when there are a wide variety of field values in the model construction, there is a function to combine them when taking continuous values.
However, the process of “combining” in a known system means one of the following two.
1) Collect the ones with low appearance frequency as “others” into one value.
2) When values have permutations or are continuous, adjacent values are processed together so that the number of attributes is less than the allowable range.

このため、まとめ処理対象となる個々の属性値の持つ特性は無視されモデル構築に先立ち消滅する可能性があった。   For this reason, the characteristics of individual attribute values to be processed together are ignored and may disappear before model construction.

なお、本明細書において、「属性値」とは、単一レコードのfieldの取る値それぞれを意味する。「男」「女」等の離散値の他、「身長」等の連続値を意味することもある。   In this specification, “attribute value” means each value of field of a single record. In addition to discrete values such as “male” and “female”, it may mean continuous values such as “height”.

<問題発生状況例>
上記二つの問題の影響が特に大きい場合として、極端に属性数が大きく、かつ少頻度の属性が存在し、かつこの少頻度の属性値を取る場合における他fieldとの関係がそれぞれの属性値で異なっている場合を取り上げ、この場合におけるモデル生成処理を用いて、従来機能の動作例を以下に示す。
<Example of problem occurrence>
In the case where the influence of the above two problems is particularly large, the number of attributes is extremely large and there are infrequent attributes, and the relationship with other fields in the case of taking this infrequent attribute value is the respective attribute value. An example of the operation of the conventional function is shown below using the model generation process in this case.

<データ概要>
U.S.Aにおける個人情報DBから年収モデルを作成する処理における出身国の扱いを例にとる。図5に示すデータは、複数のfieldそれぞれに年齢、性別、学歴、出身、家族関係、年収、その他各種の個人情報を一覧したものである。当然のことながら、図6に示すように、大多数のU.S.A出身の人間と、それ以外の多数の国を出身とする少数の人間より構成される。これを元に、年収表現モデルの作成を行うことを考える。
<Data overview>
Take the example of handling the country of origin in the process of creating an annual income model from a personal information database in the USA. The data shown in FIG. 5 lists age, sex, educational background, origin, family relationship, annual income, and other various personal information in each of a plurality of fields. As a matter of course, as shown in FIG. 6, it is composed of the majority of people from USA and a small number of people from other countries. Based on this, consider creating an annual income expression model.

なお、図6において、色分けは学歴分布(赤色:小学校卒、緑:中学卒、青:高校卒、紫:大学以上)出身国は40に及ぶ。各学歴の占める割合は以上のようにさまざまであることがわかる。   In addition, in FIG. 6, the color classification is an educational background distribution (red: graduated from elementary school, green: graduated from middle school, blue: graduated from high school, purple: university or higher), and has 40 countries. As can be seen from the above, the proportion of each educational background varies.

なお、「学習データ」を構成する「データ」とは、ある情報群を示し、例えば、図5(U.S.Aにおける個人情報DB)のような形を取る。図では全てのcell(単一recordの単一field)が埋まっているが、欠損している可能性もある。また、本来複数の意味を持つ情報が統合されて単一fieldに収まっており、事前に各意味単位にfield分割を実施したほうが、後のモデル生成が容易になる可能性もある。   Note that “data” constituting “learning data” indicates a certain information group, and takes a form as shown in FIG. 5 (personal information DB in U.S.A), for example. In the figure, all cells (single record, single field) are filled, but they may be missing. In addition, since information having a plurality of meanings is integrated into a single field, it may be easier to generate a model later if field division is performed for each semantic unit in advance.

<モデリング>
各項目総当りの関係を内包するモデルでは非常に複雑となるため、重要な関係のみを抽出し、図7に示すネットワーク構造をとる関係グラフを作成する。
<Modeling>
Since the model including the brute force of each item is very complicated, only the important relationship is extracted and a relationship graph having the network structure shown in FIG. 7 is created.

関係抽出のためには、各種関係強度の評価式(公知のものとしてはMDL、AIC等が存在する)を利用する。多くの場合、これら評価基準は項目間関係とモデル(項目間相互関係を情報全体としてみたもの)の複雑さを総合的に判断して関係強度を決定する。すなわち関係強度は該当関係を有りとした場合のモデルの複雑性をペナルティとして扱う。   For the relationship extraction, various relationship strength evaluation formulas (known examples include MDL, AIC, etc.). In many cases, these evaluation criteria determine the strength of the relationship by comprehensively judging the relationship between items and the complexity of the model (interrelation between items as a whole information). That is, the relationship strength treats the complexity of the model when there is a corresponding relationship as a penalty.

<情報を未加工のまま処理した場合>
従って、出身国に代表される自由度の大きい項目(属性数の多い項目)は他の項目の原因として使用され難いという特徴を持つ。また、出身に関しては大多数がU.S.Aであり、当然のことながらU.S.A人員の各種項目の平均は全体の平均に近いところから、図8に示すように出身とその他の関係は薄く表現される。
<When processing the raw information>
Therefore, an item with a high degree of freedom represented by the country of origin (item with a large number of attributes) is difficult to use as a cause of other items. As for the origin, the majority is USA, and as a matter of course, the average of various items of USA personnel is close to the overall average, so the relationship between origin and others is expressed lightly as shown in FIG.

<既存データまとめ機能利用>
ここで、この関係の弱さがデータ固有のものであるのか、属性数が過多であることに起因するのかを確認するために、国名を統合することを考える。最も多くのシステムで提供されていると推定される手法としては、出現が低頻度であるものをまとめることである。
<Use of existing data summary function>
Here, in order to confirm whether the weakness of this relationship is unique to the data or due to the excessive number of attributes, it is considered to integrate country names. The technique presumed to be provided by the most systems is to collect the ones that appear infrequently.

この場合、絶対的数量を持つU.S.Aとそれ以外という分け方になる。あるいは、ユーザが陽に意味のある分類を指定する場合、例えば該当国が存在する大陸名で5分類する方法もある。   In this case, it will be divided into U.S.A with absolute quantity and others. Alternatively, when the user designates a category that is explicitly meaningful, for example, there is a method of classifying the category into five categories based on the name of the continent in which the country exists.

しかし、上記のまとめ手法は推論処理に置ける影響を考慮したものではない。   However, the above summary method does not consider the influence on the inference process.

例えばデータ特性の一例として、国名と学歴の関係を考察すると、通常のまとめ機能では、図9に示すように、比較的高学歴なU.S.A(もしくは北アメリカ)出身者と低学歴なそれ以外の出身者という認識になる。   For example, considering the relationship between the country name and educational background as an example of data characteristics, the normal summary function, as shown in Figure 9, is a relatively high-educated USA (or North American) graduate and other low-educated graduates It will be recognized as a person.

しかし、アジア、ヨーロッパにおいては、図10に示すように、出身国により学歴の偏りが見られることがわかる。   However, in Asia and Europe, as shown in FIG. 10, it can be seen that there is a bias in educational background depending on the country of origin.

例えば台湾とベトナムをUSA外、もしくはアジアとしてまとめてしまった場合、学歴と出身国の関係がなまってしまうことは一目で判明する。   For example, if Taiwan and Vietnam are grouped together outside the USA or Asia, it will be clear at a glance that the relationship between educational background and country of origin will be lost.

従って、学歴、もしくは学歴に依存する何らかの情報の予測を必要とする場合に、上記のまとめ方を行った場合には、学習データに該当関係が存在するにもかかわらず、生成されたモデルを用いた予測処理ではその関係を使用できず、予測性能の劣化を引き起こすといった問題を生じていた。   Therefore, when it is necessary to predict educational background or some information that depends on educational background, if the above method is used, the generated model is used even though the relevant relationship exists in the learning data. However, this relationship could not be used in the prediction process, which caused a problem that the prediction performance deteriorated.

本発明では、他field群との関係が類似しているものをまとめることにより、モデルが複雑になることを回避しつつ、かつ元データの保持する関係をモデルに反映させることを目的とする。これにより高性能な推論モデルの提供を実現する。   It is an object of the present invention to reflect the relationship held in the original data in the model while avoiding the complexity of the model by collecting items that have similar relationships with other field groups. This realizes the provision of a high-performance inference model.

上述した課題を解決するため本発明は、複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出装置であって、所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、前記部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定手段とを備えてなるものである。   In order to solve the above-described problem, the present invention provides an apparatus for extracting a partial relationship between attributes in a model creation apparatus that forms a predetermined model based on attribute values in a plurality of fields included in each of a plurality of data and the appearance frequency of the attribute values. An overall relationship strength calculating means for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for the predetermined attribute and its frequency distribution, and about the predetermined attribute Based on a subset of attribute values appearing in the field group, a partial relation strength calculating means for calculating the strength of a partial relation between fields to which the attribute value belongs, and a partial relation strength calculating means and an inter-field relationship setting means for determining the relationship between the fields based on the strength of the partial relationship between the fields.

また、本発明の属性間の部分関係抽出装置において、前記field間関係設定手段は、前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする。   Further, in the partial relation extraction device between attributes of the present invention, the inter-field relation setting means, when the strength of the partial relation between fields calculated by the partial relation strength calculation means is equal to or greater than a predetermined threshold, As a relationship between fields, the relationship strength between the subsets is used as an evaluation point between fields, or the presence or absence of a relationship between subsets is determined.

また、本発明は、複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法をコンピュータに実行させる属性間の部分関係抽出プログラムであって、所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップとを備えてなるものである。   Further, the present invention causes a computer to execute a method for extracting a partial relationship between attributes in a model creating apparatus that constitutes a predetermined model based on attribute values in a plurality of fields included in each of a plurality of data and the appearance frequency of the attribute values. A program for extracting a partial relationship between attributes, a total relationship strength calculation step for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for a given attribute and its frequency distribution And a partial relationship strength calculating step for calculating the strength of the partial relationship between fields to which the attribute value belongs based on a subset of attribute values appearing in the field group for the predetermined attribute, and the partial relationship A field relationship setting step for determining the relationship between the fields based on the strength of the partial relationship between the fields calculated in the strength calculation step.

また、本発明の属性間の部分関係抽出プログラムにおいて、前記field間関係設定ステップは、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とするものである。   Moreover, in the partial relation extraction program between attributes of the present invention, the inter-field relation setting step is performed when the strength of the partial relation between fields calculated by the partial relation strength calculation step is equal to or greater than a predetermined threshold. As a relationship between fields, the strength of the relationship between the subsets is used as an evaluation point between fields, or the presence or absence of a relationship between subsets is determined.

また、本発明は、複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法であって、所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップとを備えてなるものである。   Further, the present invention is a method for extracting a partial relationship between attributes in a model creating apparatus that constitutes a predetermined model based on attribute values in a plurality of fields included in each of a plurality of data and the appearance frequency of the attribute values. An overall relationship strength calculating step for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for the attribute of the attribute and its frequency distribution; and in the field group for the predetermined attribute A partial relation strength calculating step for calculating the strength of a partial relation between fields to which the attribute value belongs based on a subset of attribute values appearing in the field, and a partial relation between fields calculated by the partial relation strength calculating step And a field relationship setting step for determining the relationship between the fields based on the strength of the field.

なお、本発明の実施の形態においては、与えられたデータ中に現れる各fieldの属性値とその出現頻度(若しくは発生確率分布:以下頻度分布、で全者を含意)を基に何らかのモデル(若しくはモデル式パラメータ、近似解導出関数:以下モデル、で全者を含意)を構成する処理において、該学習データに複数のfieldがあり、field間関係の強度に順序、若しくは評価点をつけることが要求される場合(たとえば要求原因としては、例えば以下が考えられる。field数多数のため、処理において全field間の関係を考慮することが困難であり、このため、関係するfield群を何らかの基準に基づいて抽出する作業が必要となる場合、又はあるfieldに対する他のfieldの影響を等価に考えることに問題があり、各fieldの影響を順序付けもしくは得点表記することが必要となる場合)に、学習データ中のfield間関係に着目し、該field群中に出現する全属性値とその頻度分布を基に計算した関係の強さが低い(関係が希薄である)場合であっても、field 上に出現する属性値の「部分集合」(若しくはその頻度分布、平均値の全体と比較した場合の偏り、予測性能への貢献度)を用いて計算した関係が一定閾値(事前に固定、全体関係強度や属性種別数等から自動計算、ユーザ指定、他)より強い場合には該当field間の関係として、「部分集合」間の関係強度をfield間の評価点もしくは「部分集合」間の関係の有無を採用することを特徴とする部分関係抽出装置及びその方法並びにそのプログラムが記載されている。   Note that in the embodiment of the present invention, some model (or based on the attribute value of each field appearing in given data and its appearance frequency (or occurrence probability distribution: frequency distribution) In the process of constructing model formula parameters and approximate solution derivation functions (models below, implying all of them), the learning data has multiple fields, and it is required that the strength of the relationship between fields be ordered or evaluated (For example, the following may be considered as the cause of the request. Because of the large number of fields, it is difficult to consider the relationship between all the fields in the processing. For this reason, the related field group is based on some criteria. There is a problem in considering the effects of other fields on one field in an equivalent manner, and the effects of each field may be ordered or scored. When necessary, pay attention to the relationship between fields in the learning data, and the strength of the relationship calculated based on all attribute values appearing in the field group and their frequency distribution is low (the relationship is sparse) Even in such cases, the relationship calculated using the “subset” of attribute values appearing on the field (or its frequency distribution, bias when compared to the entire average value, contribution to prediction performance) is constant. If the threshold (fixed in advance, automatically calculated from the overall relationship strength or the number of attribute types, specified by the user, etc.) is stronger than the corresponding field, the relationship strength between the “subsets” is evaluated between the fields or A partial relationship extraction apparatus, a method thereof, and a program thereof, which employ the presence / absence of a relationship between “subsets”, are described.

以上説明したように、本発明によれば、学習データにおいてfield間に部分的に成立する関係を抽出しこれをモデルに採用することにより、この、モデル全体への影響として計測した場合には小さいものの、特定field関係としてみた場合には大きい関係を推論処理に利用することが可能となり、これにより、推論処理性能を向上させることが可能となる。   As described above, according to the present invention, by extracting the relationship partially established between fields in the learning data and adopting it in the model, it is small when measured as an influence on the entire model. However, when viewed as a specific field relationship, it is possible to use a large relationship for the inference processing, thereby improving the inference processing performance.

以下、本発明の実施の形態を図面を用いて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(実施の形態の概要)
図1は本発明の実施の形態の概念を示すブロック図である。
図1の推論用モデル作成装置は、学習データの入力機構(DB)1、モデル学習機構2、評価基準計算機構(全体関係強度計算手段に対応する)3、評価基準計算機構(部分関係強度計算手段に対応する)4、関係強度の類似度計算機構(部分集合構成要素類似度計算機構:第1,第2統手段を構成する)5、部分関係計算対象・条件指定機構(第1,第2,第3指定手段を構成する)6を備え、本装置により作成されたモデルは推論機構7に提供される。
(Outline of the embodiment)
FIG. 1 is a block diagram showing the concept of an embodiment of the present invention.
The inference model creation apparatus in FIG. 1 includes a learning data input mechanism (DB) 1, a model learning mechanism 2, an evaluation criterion calculation mechanism (corresponding to the whole relationship strength calculation means) 3, an evaluation criterion calculation mechanism (partial relationship strength calculation). 4) Correspondence strength similarity calculation mechanism (subset component similarity calculation mechanism: constituting first and second means) 5, partial relationship calculation target / condition designation mechanism (first, second) 2, which constitutes the third designating means) 6, and the model created by this apparatus is provided to the inference mechanism 7.

なお、本装置において、学習データの入力機構1、モデル学習機構2、評価基準計算機構3は、公知のものであり、まとめ可能(類似性あり)とされた属性群のまとめ機能(属性値変換機能の複数回利用でも可能)も含まれている。   In this apparatus, the learning data input mechanism 1, the model learning mechanism 2, and the evaluation criterion calculation mechanism 3 are well-known, and a grouping function (attribute value conversion) of attribute groups that can be grouped (similar). It is also possible to use the function multiple times).

以上の構成において、本発明の実施の形態における基本動作として、評価基準(部分関係強度)計算機構を用いた情報抽出処理(部分関係抽処理)について説明する。   In the above configuration, an information extraction process (partial relation extraction process) using an evaluation standard (partial relation strength) calculation mechanism will be described as a basic operation in the embodiment of the present invention.

これは、学習データに複数のfieldがあり、field間関係の強度に順序、若しくは評価点をつけることが要求される場合に、学習データ中のfield間関係に着目し、該field群中に出現する全属性値とその頻度分布を基に計算した関係の強さが低い(関係が希薄である)場合であっても、field 上に出現する属性値の「部分集合」(若しくはその頻度分布、平均値の全体と比較した場合の偏り、予測性能への貢献度)を用いて計算した関係が一定閾値(事前に固定、全体関係強度や属性種別数等から自動計算、ユーザ指定、他)より強い場合には、該当field間の関係として、「部分集合」間の関係強度をfield間の評価点もしくは「部分集合」間の関係の有無を採用するようにしたものである。   This is because when there are multiple fields in the learning data and it is required to order or evaluate the strength of the relationship between fields, the relationship between the fields in the learning data is noted and appears in the field group. Even if the relationship calculated based on all attribute values and their frequency distribution is low (the relationship is sparse), a “subset” of attribute values appearing on the field (or its frequency distribution, Based on a fixed threshold (pre-fixed, automatically calculated based on overall relationship strength, number of attribute types, etc., specified by the user, etc.) In the case of strongness, the relationship strength between “subsets” is adopted as the relationship between corresponding fields by using the evaluation score between fields or the presence or absence of the relationship between “subsets”.

field間関係の強度に順序、若しくは評価点をつけることが要求される場合の要求原因としては、例えば、field数多数のため、処理において全field間の関係を考慮することが困難であり、このため、関係するfield群を何らかの基準に基づいて抽出する作業が必要となる場合、あるfieldに対する他のfieldの影響を等価に考えることに問題があり、各fieldの影響を順序付けもしくは得点表記することが必要となる場合などがある。   As a request cause when it is required to assign an order or evaluation score to the strength of the relationship between fields, for example, because there are many fields, it is difficult to consider the relationship between all fields in the process. Therefore, when it is necessary to extract related fields based on some criteria, there is a problem in considering the influence of other fields on a certain field equivalently, and ordering or scoring the influence of each field May be necessary.

すなわち、該部分関係抽出処理は、指定された情報量基準による関係判断処理を上述した「部分集合」のみに着目して再計算することにより新たな関係判断を行い、field全体対field全体の関係に隠れたfieldが特定値を取る場合の別fieldとの関係を抽出する。   In other words, the partial relationship extraction processing performs a new relationship determination by recalculating the relationship determination processing based on the specified information criterion, focusing only on the above-mentioned “subset”, and the relationship between the entire field and the entire field When the field hidden in the field takes a specific value, the relationship with another field is extracted.

関係が抽出されたfield間においては、次の2点により関係が消滅することを回避する。
1)少頻度の多数の属性群が存在する場合に実行される「まとめ処理」を回避する。
2)全体関係の評価値ではなく、抽出された部分関係に基づく評価値を用いる(関係有りとする)。
Between the fields from which the relationship is extracted, the relationship is avoided from disappearing due to the following two points.
1) Avoid the “summarization process” that is executed when there are a large number of low-frequency attribute groups.
2) Use an evaluation value based on the extracted partial relationship instead of the evaluation value of the whole relationship (assuming there is a relationship).

ただし、上記1)の処理が要求される状況は、該当fieldの属性数が多数であるということを前提としており、このままの状態ではモデルが複雑になることは避けられない。これを回避するための手段については、後述する。   However, the situation in which the process 1) is required is based on the premise that the number of attributes of the corresponding field is large, and in this state, it is inevitable that the model becomes complicated. Means for avoiding this will be described later.

なお、この部分関係抽出処理において、「部分集合」の取り方は複数存在するため、全体関係の評価値を上回る評価値を持つ「部分集合」も複数存在する可能性がある。これに関しては、例えば、次のような手段を用いて一つに特定する。   In this partial relationship extraction process, since there are a plurality of ways of taking “subsets”, there may be a plurality of “subsets” having an evaluation value that exceeds the evaluation value of the overall relationship. For this, for example, the following means are used to specify one.

1)指定検索対象において全検索を行い最大の評価値のものを発見する。
2)事前に基準(絶対値、全体関係評価値との相対値、確度の上昇(見積もり)値、他)を与え、この基準を上回るものが見つかった場合にそれを採用する。
3)最初に発見されたものを採用する。
1) Perform a full search on the designated search target and find the one with the maximum evaluation value.
2) A standard (absolute value, relative value to the overall relationship evaluation value, accuracy increase (estimated) value, etc.) is given in advance, and if a value exceeding this standard is found, it is adopted.
3) Use the first one found.

以上の手段のうちの、いずれを採用するかに関しては、システム特性(特に時間性能と使用可能な仮想空間サイズ)、解析対象となるデータの特性(field数、属性数、レコード数)、を考慮して決定する。   As for which of the above methods to adopt, consider system characteristics (particularly time performance and usable virtual space size) and characteristics of data to be analyzed (number of fields, number of attributes, number of records). And decide.

なお、本明細書において、「レコード」とは、データを構成する要素を意味し、ある一つの状態を示したものである。例えば、図5における横一行(調査対象人員1名の情報)が該当する。   In the present specification, “record” means an element constituting data and indicates a certain state. For example, one horizontal line in FIG. 5 (information of one person to be surveyed) corresponds.

また上記項目を二つ以上実装し、ユーザが使用を希望する方式を指示(入力する)する機構と指示された処理を選択実行する機構を用意する方法もある。   There is also a method in which two or more of the above items are mounted, and a mechanism for instructing (inputting) a method that the user desires to use and a mechanism for selectively executing the instructed process are available.

更に、上記項目を二つ以上実装した場合には、ユーザからの指示ではなく(あるいはユーザからの指示がなかった場合に)その時点の(あるいはこのための関係プログラムが動作するであろう時間の予測値としての)システム負荷、データ特性を基に使用する手段を判断する機構を備え、この機構が決定した方式を採用する方法もある。   Furthermore, when two or more of the above items are implemented, it is not an instruction from the user (or if there is no instruction from the user), the time at which the relevant program (for this purpose) will operate. There is also a method in which a mechanism that determines a means to be used based on a system load (as a predicted value) and data characteristics is used, and a method determined by this mechanism is adopted.

また、「部分集合」の検索順序に関しても、以下のような条件を考慮する。
1)全体を網羅的に、順序良く行なえること。
2)関係評価値の大きい「部分集合」が見つかった場合に、これに対する差分を与えてより大きい評価値の発見を試みる方向を優先すること。
3)field群の属性値分布を見て、最小のものから順に部分集合に組み入れる(分布の大きいものは全体関係の評価値に大きく影響していると考えられるため、その反対側を優先して検索)こと。
The following conditions are also considered for the search order of “subset”.
1) The whole thing can be done comprehensively and in order.
2) When a “subset” having a large relational evaluation value is found, give priority to the direction of trying to find a larger evaluation value by giving a difference to this.
3) Look at the attribute value distribution of the field group and incorporate it into the subset in order from the smallest (the larger distribution is considered to have a large effect on the evaluation value of the overall relationship. Search).

これらに関しても、ユーザ指示による手法決定機構は有効である。
なお、この機能は、先の検索対象が全域(全検索)である場合には意味がない(いずれにせよ全部実行するため、実行タイミングが前後するのみで結果には影響しない)。
Also in these respects, the method determining mechanism by the user instruction is effective.
Note that this function is meaningless when the previous search target is the entire area (all searches) (because it is executed in any case, only the execution timing is changed and the result is not affected).

一方、逆に一定条件を満たす場合にその「部分集合」を採用する場合には有効に機能する(また出力されるモデルの構造へ影響するため、推論性能を左右することになる)。このため、先の検索範囲が全検索以外に決定された場合に、この「部分集合」の検索順序設定を行う等の手法も考えられる。   On the other hand, when the “subset” is adopted when a certain condition is satisfied, it functions effectively (and the inference performance is affected because it affects the structure of the output model). For this reason, a method of setting the search order of the “subset” when the previous search range is determined other than the full search is also conceivable.

ここで、上述したモデルが複雑化するのを防止する手段について説明する。   Here, a means for preventing the above-described model from becoming complicated will be described.

まず、その一つの手段(第1統合手段)として、抽出した「部分集合」の構成要素(field群属性値組み合わせ)を(例えばその傾向により)幾つかの集合群に分類し、各分類単位で属性値を統合する(また必要に応じてこれを新たな学習データとする)ようにしている。   First, as one means (first integration means), the constituent elements (field group attribute value combinations) of the extracted “subset” are classified into several set groups (for example, depending on their tendency), The attribute values are integrated (and used as new learning data if necessary).

この手段は、抽出された複数の関係から類似関係の成立する属性同士のみを統合することにより、関係を消滅させることなく、属性数の削減を実施するものであり、上述した部分関係抽出処理で抽出された関係により生成されたモデルに適用することができる。   This means implements a reduction in the number of attributes without losing the relationship by integrating only the attributes where the similar relationship is established from the plurality of extracted relationships. It can be applied to the model generated by the extracted relationship.

また、モデル生成に先立ち学習データ(既知データ)に統合処理を実施し、この属性統合処理済データを用いてモデル生成を実施するようにすることもできる。   Prior to model generation, integration processing may be performed on learning data (known data), and model generation may be performed using the attribute integration processed data.

また、他の手段(第2統合手段)としては、取得した「部分集合」の排他部分に該当する属性値を一定値にまとめる(また必要に応じてこれを新たな学習データとする)ようにすることにより達成できる。これもまた属性数の削減によるより単純なモデルの構築に寄与するものである。   Further, as another means (second integration means), the attribute values corresponding to the exclusive part of the acquired “subset” are collected into a constant value (and this is used as new learning data as necessary). This can be achieved. This also contributes to the construction of a simpler model by reducing the number of attributes.

この他の手段と前述の手段との差異は、類似関係の確認を行うことなく一括してまとめる点にある。本来であれば類似関係を無視したまとめ処理は本実施の形態が既知の機能における問題として指摘した既知データの保持する関係を消滅させる処理に該当するが、ここではまとめの対象となる属性が上述の部分関係抽出処理において関係を抽出されなかったものに限定されているため、まとめにより消滅する関係が存在せず、まとめによるモデルの単純さによる貢献のみが残る。   The difference between the other means and the above-described means is that they are collected together without confirming the similarity. Originally, the summarization process ignoring the similarity relationship corresponds to the process of extinguishing the relation held by the known data pointed out as a problem in the known function, but here, the attribute to be summarized is the above-described attribute. Therefore, there is no relationship that disappears due to the summary, and only the contribution due to the simplicity of the model due to the summary remains.

以上、従来方式との差異は、関係の有無判断においてfieldの属性値分布をそのまま利用するのではなく、その部分を利用するという概念にある。   As described above, the difference from the conventional method is the concept that the attribute value distribution of the field is not used as it is in determining whether there is a relationship, but the portion is used.

さらに、本実施の形態では、本装置の処理範囲の指定を外部からの指示により行なうことを可能とするため、二つ以上の関係強度計算手法が実装されている環境において、複数のfield間それぞれを対象として、本機能の実装モジュール外部(ユーザとの対話を含む)より各field間に対して採用する関係強度計算方式と採用条件を指定(入力)可能(第1指定手段対応)とするようにしている。   Furthermore, in this embodiment, the processing range of the apparatus can be specified by an instruction from the outside. Therefore, in an environment where two or more relation strength calculation methods are implemented, each of a plurality of fields As a target, it is possible to specify (input) the relationship strength calculation method and the adoption conditions adopted for each field from the outside of the implementation module of this function (including user interaction) (corresponding to the first designation means) I have to.

また、上述の部分関係抽出処理の実行に先立ち、本機能の実装モジュール外部(ユーザとの対話を含む)より「部分集合」に属する可能性のある属性値群の一覧を指定(入力)可能(第2指定手段対応)とするようにもしている。   In addition, prior to the execution of the partial relationship extraction process described above, a list of attribute value groups that may belong to the “subset” can be specified (input) from outside the module that implements this function (including user interaction) ( It corresponds to the second designation means).

本実施の形態は、既知の計算法によるモデル構築では無視されてきた、すなわちモデル全体から見た場合には小さい関係を抽出し該当部分の推論性能を上げるものである。先の例で言えば、本実施の形態を導入したモデルを使用した場合に推論性能の上がる部分とはU.S.A.以外の国の出身者部分に限られる。また当然のことであるが処理時間を必要とする。   In the present embodiment, model construction by a known calculation method has been ignored. That is, when viewed from the whole model, a small relationship is extracted to improve the inference performance of the corresponding part. In the previous example, when the model incorporating the present embodiment is used, the part where the inference performance is improved is limited to the part of a person from a country other than U.S.A. Of course, processing time is required.

従って、次のような理由等により、本実施の形態における上述の処理を回避する方が好ましい場合として以下のような場合がある。   Therefore, there are the following cases where it is preferable to avoid the above-described processing in the present embodiment for the following reasons.

1)モデル生成目的(推論処理における推論対象)とは明らかに無関係(とユーザが既に認識している)なfield間関係の存在が事前に明確になっている(ためにこの部分に置ける部分関係抽出は不要)場合。
2)処理時間の短縮化などの理由で、高性能な推論性能を期待しない場合。
3)モデル生成目的が全体像把握であり少数部分(局所)に対する影響は不要とする場合。
1) The existence of a relationship between fields that is clearly irrelevant (and already recognized by the user) with the purpose of model generation (the reasoning target in the reasoning process) has been clarified in advance (so that it can be placed in this part) If no extraction is required).
2) When high-performance inference performance is not expected for reasons such as shortening the processing time.
3) When the purpose of generating the model is to grasp the whole image and the influence on the minority part (local) is unnecessary.

上述の指定入力を可能とすることにより、上述した回避理由がある場合を指定し、効率的な処理を行なうことが可能となる。   By making the above-described designation input possible, it is possible to designate a case where there is a reason for avoidance as described above and to perform efficient processing.

このように、本実施の形態においては、学習データに存在するfield群とそれぞれの保持する属性群、状況により前記に加えて属性分布、それぞれのfield間の関係強度、field内特定属性(群)間の関係強度等の提示機能と、どの部分に、どのような条件にある場合に、等に関して外部から指定する機能を提供するものである。   As described above, in the present embodiment, the field groups existing in the learning data, the attribute groups held therein, the attribute distribution in addition to the above depending on the situation, the relationship strength between the fields, the specific attribute (group) in the field The function of presenting the relationship strength between the nodes and the function of designating from the outside regarding what part and under what conditions are provided.

また、本機能を利用する場合であっても、まとめ範囲を指定したい場合が生じる場合がある。   Even when this function is used, there are cases where it is desired to specify a summary range.

先の例で言えば、少数出身国者に対する予測性能向上のため、上述の部分関係抽出処理において、第1統合手段を用いるが、後々の統計処理を考えて、第2統合手段に関しては利用せず、その他に属する場合には5大陸分割する等の状況がこれに該当する。   In the previous example, the first integration unit is used in the partial relation extraction process described above to improve the prediction performance for a minority country, but the second integration unit should not be used in consideration of later statistical processing. If it belongs to other, this is the case, for example, when it is divided into five continents.

また、一定条件(例えば属性数が5以下)を満たす状態に既知データを変換したい場合に本実施の形態を含む複数のまとめ機能それぞれ単体ではこれを実現できず、複数の機能を組み合わせて始めてこれが可能となる場合には、その適用順序、適用条件を指定する機能(第3指定手段対応)が望まれる。   In addition, when it is desired to convert known data to a condition that satisfies a certain condition (for example, the number of attributes is 5 or less), a plurality of summary functions including the present embodiment cannot be realized by a single unit, but only by combining a plurality of functions. If possible, a function for specifying the application order and application conditions (corresponding to the third specifying means) is desired.

本実施の形態では、第1統合手段又は第2統合手段を含む二つ以上のデータまとめ手法が実装されている環境において、本機能の実装モジュール外部より、またユーザが(対話的に)使用するまとめ手法(とその適用条件、適用順序)を選択可能としている。これは使用可能なまとめ機能一覧を提示し、使用機能をその順序、条件とともに入力する機能を提供するものである。   In the present embodiment, in an environment where two or more data summarization methods including the first integration unit or the second integration unit are implemented, the user uses (interactively) from outside the module for implementing this function. A summary method (and its application conditions, application order) can be selected. This presents a list of usable summary functions and provides a function for inputting the used functions together with their order and conditions.

(実施の形態1)
以下に、実施の形態1として、U.S.Aにおける個人情報DBを用いた高額所得者の推論について説明する。
(Embodiment 1)
In the following, as a first embodiment, reasoning of high-income earners using a personal information DB in the USA will be described.

ここではある米国銀行による優良顧客(高額所得顧客)の囲い込みを例にして考える。富裕層向けお勧め商品を提案するために、全顧客群より高額所得者を抽出することを希望したとする。一般に、住所、年齢、などとは異なり、一般顧客の年収を調査することは困難であるから、既存情報より高額所得者を予測することを考える。   Let us consider an example of a good US (high-income customer) enclosure by a US bank. Suppose that he wanted to extract high-income earners from all customer groups in order to propose recommended products for the wealthy. In general, unlike address, age, etc., it is difficult to investigate the annual income of general customers, so it is considered to predict higher income people than existing information.

ここで、先にあげたU.S.Aにおける個人情報DBが存在するものとしてこれを参照する。このDBは年齢、性別、身長、体重、学歴、出身国、家族関係、その他各種の個人情報を年収と共に一覧しており、これを用いて作成した年収予測モデルに銀行の保持する顧客情報を適用することにより、該当顧客の年収を予測可能となる。DBは該銀行の年収把握済み集合(ローン顧客など)から作成してもよいし、政府統計など一般に公開されている調査結果を用いてもよい。   Here, the personal information DB in U.S.A mentioned above is referred to as existing. This DB lists age, gender, height, weight, educational background, country of origin, family relations, and various other personal information along with annual income, and applies the customer information held by the bank to the annual income prediction model created using this By doing so, the annual income of the customer can be predicted. The DB may be created from a collection (such as loan customers) of which the annual income of the bank is known, or a publicly available survey result such as government statistics may be used.

<抽出されるべき関係の事前説明>
ここで出身国とそれ以外の要件の関係を確認すると、図10で示したように、限定した国々を対象とするものであるが、学歴との関係があることがわかる。
<Preliminary explanation of relationships to be extracted>
When the relationship between the country of origin and the other requirements is confirmed here, as shown in FIG. 10, it is understood that there is a relationship with educational background, although it is intended for limited countries.

例えば、主としてヨーロッパ系、東アジア系の幾つかの国では高学歴の割合が高く、別のヨーロッパ系、南米系ではその割合が低いなどである。   For example, in some European and East Asian countries, the percentage of highly educated people is high, while in other European and South American countries, the percentage is low.

このように、出身国の一部は学歴に一定以上の影響を及ぼしており、学歴は年収に対する強力な影響要因であるため、この出身国・学歴間の関係付けは年収の推定モデルにおいて存在するほうが望ましいと考える。   In this way, some of the countries of origin have a certain impact on educational background, and educational background is a strong influence factor on annual income, so this relationship between the country of origin and educational background exists in the annual income estimation model. I think that is preferable.

<既存機能による関係抽出困難の理由>
しかし、通常処理で計算した場合、出身と学歴の関係の強度は実はそれほど強くはない。
<Reason for difficulty in extracting relationships with existing functions>
However, when calculated by normal processing, the strength of the relationship between birth and education is actually not so strong.

まず、国名種類の多さから、モデル化の際に出身fieldが他の要素に与える影響が採用される可能性が低くなっている。この問題を解決するための既存技術として、国から国群への丸め処理が知られているが、丸め処理の判断はユーザにまかされており、単純に考えた場合に実行される地域名称によるまとめ処理、大陸名によるまるめ処理等は、(アジア系、ヨーロッパ系の)学歴の高低を無視して地域名称に変換するために、国名の示す教育の高低情報をつぶすことになる。   First, because of the variety of country names, it is less likely that the influence of the field of origin on other elements will be adopted when modeling. As an existing technology for solving this problem, rounding processing from country to country group is known, but the judgment of rounding processing is left to the user, and the region name that is executed when simply considered The summarization processing by continents, rounding processing by continent names, etc. will crush the height information of education indicated by the country name in order to ignore the level of education (Asian and European) and convert it to a regional name.

また、圧倒的多数のU.S.A国民の学歴にばらつきが見られるため、全体を参照した場合、少数の特定国の学歴(の偏差)の影響が少なく、その意味でも出身国情報のモデルに占める位置は低くなっている。   In addition, since the educational backgrounds of the overwhelming majority of USA citizens are seen, when referring to the whole, the influence of the educational background (deviation) of a small number of specific countries is small. It is low.

<抽出法>
ここではfieldA,B間関係強度測定関数として以下が使用されていると仮定する。
<Extraction method>
Here, it is assumed that the following is used as a function for measuring the relationship strength between fields A and B.

(式(1))
AB間関係強度:f1(A-B間関係有りモデル評価, A-B間関係なしモデル評価)
関係強度閾値:D1(全体record数,属性数:モデルの複雑性に対するペナルティの度合い等で変化する)
特定field間影響部分:f2(全体record数,出現頻度)
f1 = D1+Σ_(each fieldX) Σ_(関係測定対象fieldY) Σ_(XYの属性値の組み合わせ各種)[f2]
(Formula (1))
Relationship strength between AB: f1 (model evaluation with AB relationship, model evaluation without AB relationship)
Relationship strength threshold: D1 (total number of records, number of attributes: changes depending on the degree of penalty for model complexity, etc.)
Part affected between specific fields: f2 (total number of records, appearance frequency)
f1 = D1 + Σ_ (each fieldX) Σ_ (related measurement target fieldY) Σ_ (various combinations of XY attribute values) [f2]

上式において、f1が一定閾値より大きい場合にはAB間で関係有りと認識する。   In the above equation, if f1 is greater than a certain threshold, it is recognized that there is a relationship between AB.

ここで、f1はモデル全体が保持するfield間関係を考慮した評価式であり例えば以下の様に計算する。   Here, f1 is an evaluation formula that considers the relationship between fields held by the entire model, and is calculated as follows, for example.

(既知のモデル評価式利用)
f1=MDL( A-B間関係有りモデル)-MDL(A-B間関係なしモデル),
f1=AIC( A-B間関係有りモデル)-AIC(A-B間関係なしモデル)
(Use of a known model evaluation formula)
f1 = MDL (model with AB relationship)-MDL (model without AB relationship),
f1 = AIC (model with AB relationship)-AIC (model without AB relationship)

ここで、MDL(X)はモデルがX状態にある場合のMDL評価値であり、AIC(X)はモデルがX状態にある場合のAIC評価値である。   Here, MDL (X) is an MDL evaluation value when the model is in the X state, and AIC (X) is an AIC evaluation value when the model is in the X state.

(独自設定)
f1(全体record数,field数,属性数,各属性出現頻度,…)
(Original setting)
f1 (total number of records, number of fields, number of attributes, appearance frequency of each attribute, ...)

これに対し、部分関係強度を以下の計算で算出する。   On the other hand, the partial relation strength is calculated by the following calculation.

(式(2))
特定field間影響部分影響度計算修正:f2'=w・f2(部分集合record数,出現頻度)+D2
各項重み:w(全体record数, 部分集合record数)
関係強度閾値D1を考慮した調整値:D2
f1' = D2+Σ_(each fieldX) Σ_(関係測定対象fieldY) Σ_(XYの属性値の組み合わせ各種)[f2']
(Formula (2))
Partial field impact calculation correction between specific fields: f2 '= w · f2 (subset record number, appearance frequency) + D2
Weight of each term: w (total number of records, number of subset records)
Adjustment value considering relation strength threshold D1: D2
f1 '= D2 + Σ_ (each fieldX) Σ_ (related measurement target fieldY) Σ_ (various combinations of XY attribute values) [f2']

以上において、f1'が一定閾値より大きい場合にはAB間で関係有りと認識する。   In the above, when f1 ′ is larger than a certain threshold, it is recognized that there is a relationship between AB.

なお、D2は、1)モデル全体に占める部分関係強度の重要性で変化する場合、2)あらかじめ一意決定する場合、3)元のモデル自由度、部分関係部分自由度、部分関係分類まとめ後の自由度等から自動計算(最も単純な場合には中間値を採用)する場合、4)一定範囲内複数値よりモデル評価が最高になるものを採用する場合等がある。   Note that D2 varies depending on 1) the importance of the strength of the partial relationship in the entire model, 2) when uniquely determined in advance, 3) the original model freedom, partial relationship partial freedom, partial relationship classification after In some cases, automatic calculation is performed based on the degree of freedom or the like (in the simplest case, an intermediate value is adopted).

式(1)のf2の代わりに、式(2)のf2'を利用することにより関係強度計算f1の代わりにf1'を実行する。   Instead of f2 in equation (1), f1 ′ is executed instead of relationship strength calculation f1 by using f2 ′ in equation (2).

元のf2が学習データ全体が存在する場合を計算するのに対し、同様の評価式を使用し、かつ学習データの「部分集合」のみが存在した状況を仮定して計算し、これに本来の学習データ数と「部分集合」record数に基づいた重みwをかけることにより「部分集合」の関係強度を計算する。   While the original f2 is calculated when the entire training data exists, the same evaluation formula is used and the calculation is performed assuming that only a “subset” of the training data exists. The relationship strength of the “subset” is calculated by applying a weight w based on the number of learning data and the number of “subset” records.

つまり、本来であれば、システムにより与えられた評価式f1を使用した評価を行うところ、f1が小さい場合にf1'を計算するものである。ここで、「w:重み付け」、「D2:下駄」はこの局所的な関係が全体と比較して重要になり過ぎないようにするための補正機能を意味しており、これにより基本式f1を用いた評価部分とのバランスを取ることができる。   In other words, if the evaluation is performed using the evaluation formula f1 given by the system, f1 ′ is calculated when f1 is small. Here, “w: weighting” and “D2: clogs” mean a correction function to prevent this local relationship from becoming too important compared to the whole, and thus the basic equation f1 is changed. Balance with the evaluation part used.

なお、本来であれば、式(2)におけるf2は以下を引数とする元の関係強度計算の思想に沿ったものであれば良く、式(1)におけるf2と同一関数である必要は無いが、本文では単純化した場合を提示した。   It should be noted that f2 in equation (2) may be in accordance with the concept of the original relationship strength calculation with the following as an argument, and need not be the same function as f2 in equation (1). In the text, a simplified case is presented.

ここでは、以下の値をとることができる。   Here, the following values can be taken.

全体の関係強度:例)全体の関係:出身国field-学歴fieldに対し関係強度計算を行ったもの。
部分値対全体値の関係強度(群):例)部分値対全体値の関係:(日本+韓国)-学歴でf2計算
部分値対部分値の関係強度(群):例)部分値対部分値の関係:(日本+韓国)-(大卒+高卒)でf2計算
その他(状況に応じて)各種:例)年収モデル等のように目的が定まっている場合には目的field(ここでは年収)との相関度等が考えられる。
Overall relationship strength: eg) Overall relationship: Country of origin field-Education field calculated for relationship strength.
Strength of relationship between partial value and overall value (group): Example) Relationship between partial value and overall value: (Japan + Korea)-f2 calculation with educational background Partial strength vs. partial value relationship strength (group): Example) Partial value vs. partial Relationship of values: (Japan + Korea)-(University graduate + high school graduate) f2 calculation Other (depending on the situation) Various: Example) If the purpose is determined as in the annual income model, etc., the purpose field (here annual income) Correlation degree and the like can be considered.

存在するfield(年齢、性別、学歴、出身国、家族関係、他)それぞれに対して以上の処理を実行し、field値の部分集合と他のfieldの値の関係の有無(関係強度の閾値以上もしくは以下の判定)判断を実行する。対象とするfieldは別途(例えば、無条件に全て、user指定により制限、field値分布が一定条件を満たすものを抽出)決定する。   Execute the above processing for each existing field (age, gender, educational background, country of origin, family relationship, etc.), and whether there is a relationship between a subset of field values and other field values (above the relationship strength threshold) (Or, the following judgment) is executed. The target field is determined separately (for example, all unconditionally are limited by user designation, and the field value distribution satisfies a certain condition).

なお、ここで注意すべきは抽出される関係が複数のfieldを考慮している点である。上記の例でいえば、「日本+韓国」-「大卒+高卒」の関係を抽出するか否かは、この関係抽出により消滅する「日本」-「家族構成」、「韓国」-「年齢」等の他のfield間の関係の評価と組み合わせて判断される。   It should be noted that the extracted relationship takes into account a plurality of fields. In the above example, whether to extract the relationship “Japan + Korea”-“University graduate + High school graduate” will disappear by this relationship extraction “Japan”-“Family composition”, “Korea”-“Age” Etc. are judged in combination with evaluation of the relationship between other fields.

以下では、図2に示す概略フローチャートに従って、field出身国とfield学歴の関係強度の測定を例示する。
先に示した学習データが与えられた場合(ステップS1)の本発明の実施の形態の動作は以下の通りである。
Below, according to the schematic flowchart shown in FIG. 2, the measurement of the strength of the relationship between the country of origin and field education is exemplified.
The operation of the embodiment of the present invention when the learning data shown above is given (step S1) is as follows.

ここでは、二つ以上の関係強度計算手法が実装されている環境において、複数のfield間夫々を対象とし、外部より各field間に対して採用する関係強度計算方式と採用条件を指定することとし、この「部分集合」に着目した関係判断を、通常計算において関係なしとされたfield間に限定して実行することが指定されているものとする。   Here, in an environment where two or more relationship strength calculation methods are implemented, the relationship strength calculation method to be adopted for each field and the adoption conditions are designated from the outside for each of a plurality of fields. It is assumed that it is specified that the relationship determination focusing on this “subset” is limited to fields that are considered unrelated in normal calculation.

通常のモデル生成機能であれば、各field間関係の強度を測定し(ステップS2)、閾値以上の値が得られた場合には(ステップS3)、この関係を有りとする(ステップS4)。
ここでは二つのfield、出身国と学歴の関係判断を例にとる。
If it is a normal model generation function, the strength of the relationship between the fields is measured (step S2), and if a value equal to or greater than the threshold value is obtained (step S3), this relationship is present (step S4).
Here, we take the relationship between two fields, country of origin and educational background as an example.

まず全体(出身国)対全体(学歴)の関係強度f1をf2を用いて計測する。そして、一定閾値(ここでは単純に0を採用)以上であれば、以下の処理を継続することなく該当関係を出力対象とする(ステップS8以降)。   First, the relationship strength f1 of the whole (country of origin) versus the whole (educational background) is measured using f2. If it is equal to or greater than a certain threshold (simply 0 is adopted here), the corresponding relationship is set as an output target without continuing the following processing (after step S8).

次に、公知の関係強度評価を行いその値が一定値未満場合(ステップS3,n)に全ての関係において部分関係抽出処理を行うことを登録してある。
このため、一定値(ここでは0とする)未満であれば下記の処理に連続する。
Next, a known relationship strength evaluation is performed, and when the value is less than a certain value (step S3, n), it is registered that partial relationship extraction processing is performed for all relationships.
For this reason, if it is less than a certain value (here, 0), the following processing is continued.

例えば、field出身国とfield学歴の関係では全体関係が薄いとされたため、上記既存機能では関係強度は閾値以下となるため、この「部分集合」の関係強度を測定する段階に入る。   For example, the relationship between the country of origin from the field and the educational background of the field is considered to be weak, so the relationship strength is less than or equal to the threshold value in the above existing function, and therefore, the step of measuring the relationship strength of this “subset” is entered.

次に、一定の関係強度を持つ有用な「部分集合」が存在するか否か、要するにf2よりf2‘が大きくなる「部分集合」が存在するか否かを確認する(ステップS5,図3)。ここで、図3は、図2のステップS5(field間属性部分集合関係強度測定処理)の詳細を示している。   Next, it is confirmed whether there is a useful “subset” having a certain relationship strength, in other words, whether there is a “subset” in which f2 ′ is larger than f2 (step S5, FIG. 3). . Here, FIG. 3 shows details of step S5 (inter-field attribute subset relation strength measurement processing) of FIG.

図3においては、初期設定が行われ(ステップS51)、部分集合を構成する候補一覧が抽出され(ステップS52)、その評価が最大となる部分集合が抽出される(ステップS53〜S56)。   In FIG. 3, initialization is performed (step S51), a candidate list constituting a subset is extracted (step S52), and a subset having the maximum evaluation is extracted (steps S53 to S56).

これにより関係の評価値が再計算され、field間関係順序が決定される。再計算後関係の評価が閾値以上、あるいは一定順序内に存在する場合にはfield間関係有とされ(ステップS6,y)、記録される(ステップS7)。   Thereby, the evaluation value of the relationship is recalculated, and the relationship order between fields is determined. When the evaluation of the relationship after recalculation is equal to or greater than the threshold value or within a certain order, the relationship between fields is determined to be present (step S6, y) and recorded (step S7).

ここでは、出身国-学歴の全体関係は低いものの、台湾、インド等に占める高学歴人員の割合が高い点、メキシコ、ガテマラ、ポルトガル等の学歴が低い点、等に偏差が見られるため、部分集合=「「台湾、イラン」、「インド、フランス」、「メキシコ、ガテマラ、ポルトガル」、...」を選択するとf2<f2'となることが発見されるため、関係強度の修正が発生し、新たな関係が成立する。生成されるモデルは出身国-学歴間関係を含むものになる。   Here, although the overall relationship between country of origin and educational background is low, there are deviations in the high percentage of highly-educated personnel in Taiwan, India, etc., and low educational background in Mexico, Guatemala, Portugal, etc. If you select the set = "Taiwan, Iran", "India, France", "Mexico, Guatemala, Portugal", ... ", it will be found that f2 <f2 ', so the relationship strength will be corrected A new relationship is established. The generated model will include the relationship between country of origin and educational background.

なお、本実施例において、部分集合の構成要素を事前に限定することも可能である。   In this embodiment, the constituent elements of the subset can be limited in advance.

例えば、U.S.Aの出現頻度が非常に多数であるために、これは(これを部分集合に含めることにより関係が強くなる場合であっても)独立させたいと希望する場合がある。この場合には、部分集合に属する可能性のある属性値群の一覧を指定し、例えば、部分集合の構成要素からU.S.Aを排除する旨を登録しておく。そして、登録された排除対象一覧を参照し、U.S.Aを含む部分集合の関係評価(f2')計算を省略する。   For example, because U.S.A has a very high frequency of appearance, it may be desirable to make it independent (even if the relationship is strengthened by including it in the subset). In this case, a list of attribute value groups that may belong to the subset is designated, and for example, the fact that U.S.A is excluded from the constituent elements of the subset is registered. Then, with reference to the registered exclusion target list, the relationship evaluation (f2 ′) calculation of the subset including U.S.A is omitted.

こうして、以下の「部分集合」が抽出された状況を考える。   Thus, consider the situation where the following “subset” has been extracted.

「台湾、インド、イラン、フランス、メキシコ、ガテマラ、ポルトガル、エルサルバドル、日本、イギリス、ハンガリー」   "Taiwan, India, Iran, France, Mexico, Guatemala, Portugal, El Salvador, Japan, United Kingdom, Hungary"

これを、分布状態の類似性を基に分類する。ここで注意すべきは、本発明の実施の形態が複数のfield群の関係を考慮したものとなっており、ここで着目している国名と学歴以外の項目の評価も行っているという点である。   This is classified based on the similarity of the distribution state. It should be noted here that the embodiment of the present invention considers the relationship between a plurality of field groups, and evaluates items other than the country name and educational background that are focused on here. is there.

従って、部分関係抽出処理(部分関係強度計算)において抽出された関係は他のfield群との間に存在する関係を消滅させない形で分類処理がなされており、「「台湾、イラン」、「インド、フランス」、「メキシコ、ガテマラ、ポルトガル、エルサルバドル」、「日本、イギリス、ハンガリー」」という表現となっている。   Therefore, the relation extracted in the partial relation extraction process (partial relation strength calculation) is classified in such a way that the relation existing with other field groups does not disappear, and "" Taiwan, Iran "," India " , France ”,“ Mexico, Guatemala, Portugal, El Salvador ”,“ Japan, England, Hungary ”.

抽出された関係に基づいて、field間関係記録がなされ(ステップS8)た後、図12に示すように、そのまま分類・統合・変名される(ステップS9)。
ここでは以下のようになっている。
Based on the extracted relationship, the field relationship is recorded (step S8), and then, as shown in FIG. 12, it is classified, integrated, and renamed (step S9).
Here it is as follows.

メキシコ、ガテマラ、ポルトガル、エルサルバドル : relate1
台湾、イラン : relate2
インド、フランス : relate3
日本、イギリス、ハンガリー : relate5
ニカラグア、コロンビア、エクアドル : relate6
Mexico, Guatemala, Portugal, El Salvador: relate1
Taiwan, Iran: relate2
India, France: relate3
Japan, UK, Hungary: relate5
Nicaragua, Colombia, Ecuador: relate6
other

以上の分類によっても属性値数の減少がはかどらない状況が存在することも多い。本例では、図12に示したように、分布状態の類似性を基に分類しても国属性数は40台→20台に半減したに過ぎない。   In many cases, the number of attribute values does not decrease even with the above classification. In this example, as shown in FIG. 12, the number of country attributes is only halved from 40 to 20.

なお、図12において、色分けは学歴分布を示しており、出身国は21カ国にまとめられている。図中のrelateXは他fieldとの関係が同一傾向を持つ複数の国名をまとめたものである。高学歴の国名がrelate2及びrelate3として、低学歴の国名がrelate1としてまとめられているのがわかる。つまり、relate2、relate3は一見類似しているが、内部判断(他のfieldとの関係に基づく判断)により結果的に分類されたものである。   In FIG. 12, the color coding indicates the distribution of educational background, and the countries of origin are summarized in 21 countries. In the figure, relateX is a collection of multiple country names that have the same tendency to be related to other fields. It can be seen that countries with high educational backgrounds are grouped as “relate2” and “relate3”, and countries with low educational backgrounds are grouped as “relate1”. That is, relate2 and relate3 are similar at first glance, but are classified as a result of internal judgment (judgment based on relationships with other fields).

ここで、本処理は部分関係抽出処理のまとめ処理結果であるが、実際には当該処理や類似度計算処理の使用に先立ち、対象とする属性値群の指定を用いてU.S.Aは「部分集合」の対象外とする、等の指定を行っているため、類似しているにもかかわらず、まとめ処理検討外とされた国名は存在する。また、学歴のみを見ると類似しているがその他のfield群での別のまとめ方による関係がそれより大きいため、まとめ処理を否定される場合も存在する。   Here, this processing is the result of the summary processing of the partial relationship extraction processing, but in fact, prior to the use of the processing or similarity calculation processing, the USA uses a “subset” to specify the target attribute value group. However, there are countries that have been excluded from consideration of the summary process even though they are similar. In addition, there is a case where the summarization process is denied because it is similar if only the educational background is seen, but the relationship by another summarization method in other field groups is larger than that.

従って、より以上の属性数の減少を望む場合には、上記統合処理の対象外となったもの(但し、特異な性質のため独立に存在するべきとされたもの、事前にまとめ機能対象外とユーザが指定したもの、等は除く)を「その他」としてまとめることにより、属性数の減少を実現することができる(ステップS11)。   Therefore, if it is desired to further reduce the number of attributes, those that are excluded from the above integration process (however, those that should have existed independently due to their unique nature, The number of attributes can be reduced by collecting “others” except those designated by the user as “others” (step S11).

なお、以上の処理の実行負荷は基本的に各fieldの各属性の値の総当りの相関を取得するに等しく、実稼動に当たっては、事前にある程度の予想をつけ、検索範囲を限定する方が望ましい。   Note that the execution load of the above processing is basically equivalent to acquiring the brute force correlation of the value of each attribute of each field, and in actual operation, it is better to make a certain prediction in advance and limit the search range desirable.

この手段としては以下の手段がある。   This means includes the following means.

1)明らかに関係がないとわかっているfield群をユーザが直接使用範囲を限定する他、既存のクラスタリング、tree等の関係を利用して決定し、各Field間に対して採用する関係強度計算方式と採用条件を指定して「部分集合」の計算対象外とする。
2)一定以上のrecord数があるものは部分関係の強度計算において「部分集合」に選択された場合であっても、部分関係の類似度計算の対象とはしないということを、外部より部分集合に属する可能性のある属性値群の一覧を指定(入力)することにより類似度計算の省力化を実現する。
1) In addition to directly limiting the range of fields that are known to have no relationship, the user directly determines the range of use and determines the relationship strength by using existing relationships such as clustering and trees. Specify the method and adoption conditions and exclude it from the “subset” calculation.
2) If there is a record number above a certain level, even if it is selected as “subset” in the strength calculation of the sub-relationship, it is not a target of the similarity calculation of the sub-relationship. By specifying (inputting) a list of attribute value groups that may belong to, it is possible to save labor in similarity calculation.

3)厳密解を求める部分関数計算関数の他、より計算負荷の小さい関係判断関数(例えばMBR影響度計算等)を用意し、計算負荷の小さい関数で一定範囲の値をとった場合のみ部分関数強度を計算する(それ以外は関係無いと認識する)ということを指定し、類似度計算の省力化を実現する。
4)部分関係強度計算による「部分集合」抽出と、部分関係の類似度計算(まとめ処理)、抽出された「部分集合」の排他部分によるまとめ処理、を全fieldの属性数が5以下になるまで関係強度閾値D2を一定幅で変化させながら繰り返す。D2が許容範囲外になっても目的を達成不可能な場合には、初期データを対象とした頻度分布によるまとめ(上位4属性+その他)を実行するという指定を行うことにより、属性数の強制削減を実行する。
3) In addition to the partial function calculation function for obtaining an exact solution, a relational determination function with a lower calculation load (for example, MBR impact calculation) is prepared, and the partial function is used only when a value within a certain range is taken with a function with a lower calculation load. Designates that the strength is calculated (recognizes that there is nothing else), and realizes labor saving of similarity calculation.
4) “Subset” extraction by partial relation strength calculation, similarity calculation of partial relation (summarization processing), and summarization processing by exclusive part of extracted “subset”, the number of attributes of all fields is 5 or less Repeat until the relation strength threshold D2 is changed within a certain range. If the purpose cannot be achieved even if D2 falls outside the allowable range, the number of attributes can be forced by specifying that the summarization by the frequency distribution for the initial data (top 4 attributes + other) is executed. Perform reduction.

<推論処理への影響(期待される影響)>
以上で抽出された関係モデルは、通常の関係強度に基づいたモデルとは異なる構造をとり、通常の関係測定において関係性が薄いとされるfield間に局部的(特定属性間)に存在する関係を抽出し、この関係をモデルに表示させることが可能となる(ステップS11)。
<Influence on inference processing (expected impact)>
The relationship model extracted above has a different structure from the model based on the normal relationship strength, and the relationship exists locally (between specific attributes) between fields that are considered to be less related in normal relationship measurement. And this relationship can be displayed on the model (step S11).

またこのモデルを推論処理に利用する場合には、抽出された関係を用いた高精度な推論が可能となる。
先に説明したとおり、出身と学歴の関係に関して言えば、関係は実はそれほど強くはない。
これは、大多数のU.S.A国民の学歴にばらつきが見られるためである。かつ頻度分布に従って、U.S.Aとそれ以外にした場合には、平均化処理により、高学歴の可能性の高いU.S.A国民と低学歴のそれ以外の出身者という構図になる。
When this model is used for inference processing, highly accurate inference using the extracted relationship is possible.
As explained earlier, when it comes to the relationship between origin and educational background, the relationship is actually not so strong.
This is due to variations in the educational background of the majority of Americans. In addition, according to the frequency distribution, in the case of USA and other cases, the composition is made up of a high-education USA citizen and a low-educated other person by averaging.

しかし、実際にはU.S.A外の国民には教育の偏りが見られ、特にU.S.A平均と比較して非常に高学歴側に分布するものが存在する。学歴が影響を及ぼす項目の推論に当たっては、既存手法ではこれを正しく認識することができない。   In reality, however, there is a bias in education among people outside U.S.A, especially those that are very highly educated compared to the U.S.A average. When inferring items that have an educational background, existing methods cannot recognize this correctly.

なお、この際、単純に強度の低い要素を削除した状態で強度再計算するのみではその影響を正しく判断することはできない。sample数による影響をゆがめてしまうためである。当機能はこの関係を抽出し、これを用いることにより、例えば学歴不明の人間の年収、あるいは学歴を(出身国を用いて)より正しく推論することを可能とする。   In this case, the influence cannot be correctly determined by simply recalculating the strength with the low strength element deleted. This is because the influence of the number of samples is distorted. This function extracts this relationship, and using it, for example, makes it possible to more accurately infer the annual income of a person with unknown educational background or the educational background (using the country of origin).

当初の関係強度計算で作成されたモデル(図8)は出身と年収の関係が弱かった。これに対し、本実施の形態により作成したモデルでは、図13に示すように、出身→学歴→年収の関係が表現されており、これにより、USA出身外の顧客の年収推測がより高精度で実現されることになり、富裕層対応商品をより確実に高収入顧客を対象として提案することが可能となる。   The model created by the initial relationship strength calculation (Fig. 8) had a weak relationship between birth and annual income. On the other hand, in the model created according to the present embodiment, as shown in FIG. 13, the relationship of birth → education → annual income is expressed, which makes it possible to estimate the annual income of customers who are not from USA more accurately. As a result, it will be possible to more reliably propose high-income products for high-income customers.

すなわち、図13においては、relate2として高学歴の集団、relate1として低学歴集団を抽出したために、学歴の違いによる影響がモデル上に存続している。図7では出身国による年収への寄与は少なかった(関係は結ばれていなかった)。また、図10では無益な関係を表現していた。ここでは学歴と正しく関係することにより年収への影響は大きいものとなっており、推論性能(数字に関してはここでは言及しない)の向上に役にたっている。
(実施例)
That is, in FIG. 13, since a group with a high educational background is extracted as “relate2” and a group with a low educational background is extracted as “relate1,” the influence due to the difference in educational background remains on the model. In Figure 7, the country of origin contributed little to the annual income (the relationship was not linked). Further, FIG. 10 expresses a useless relationship. Here, due to the correct relationship with educational background, the effect on the annual income is great, which helps to improve the reasoning performance (numbers are not mentioned here).
(Example)

以下、実施例について、U.S.A内における高額所得者分布のより詳細な把握について説明する。これは、顧客に対する高額金融商品の「お勧め」にあたり、高額所得者のより正確な把握(顧客が高額所得者か否かの判断)を行うものである。   Hereinafter, with respect to the embodiment, a more detailed understanding of the distribution of high-income earners in U.S.A will be described. This is to make a more accurate grasp of the high-income earner (determining whether or not the customer is a high-income earner) when “recommending” a high-priced financial product to the customer.

資産管理を依頼されているのではない限り、顧客の資産状態を把握することは難しい。ただし、資産状態は学歴や職種と関係がある傾向にあるため、資産状態と比較的入手可能なそれ以外の情報の蓄積(これをデータとする)より、資産状態を予想し、高額商品をふさわしい(と予想される)相手に勧めることを考える。   Unless you are asked to manage your assets, it is difficult to understand the customer's asset status. However, since asset status tends to be related to educational background and occupation, asset status and the accumulation of other information that is relatively available (this is used as data) can be used to predict asset status and suit high-priced products. Think about what you'd recommend to your opponent.

以上を目的として、本実施の形態を年収予測装置に適用し、資産状態とそれ以外の情報の関係を抽出する実施例について説明する。   For the above purpose, an embodiment will be described in which the present embodiment is applied to an annual income prediction apparatus and the relationship between the asset state and other information is extracted.

<取得情報>
ここでは、簡略化のために、顧客情報が人種、出身、年収、年齢、教育年数より構成されている場合を考える(以下では上記五つをそれぞれfieldと呼ぶ)。また、本来であれば、年収、年齢などは数値であるが、ここでは年収は「高、低」の二種類であり、年齢、教育年数も5種類に分類されているものとする。
<Acquired information>
Here, for the sake of simplification, consider the case where customer information is composed of race, origin, annual income, age, and number of years of education (hereinafter, the above five are called fields). In addition, although the annual income, age, etc. are numerical values, the annual income is assumed to be two types of “high, low”, and the age and the number of years of education are classified into five types.

この情報の入手元としては国勢調査のようなものを想定する。そして、このような情報を用いて人種、出身(国籍)、年齢、教育年数がわかった場合に、年収を予測するシステムを構築することを考える。銀行はこの結果を用いて、「年収=高」と予測される客(高額金融商品を買うことができる客)にだけ商品説明をすることにより、営業効率を上げることが可能となる。   The source of this information is assumed to be something like a census. Then, using such information, consider the construction of a system that predicts annual income when the race, origin (nationality), age, and number of years of education are known. Using this result, the bank can increase the operating efficiency by explaining the product only to customers who are predicted to have “annual income = high” (customers who can buy high-value financial products).

<公知システム概要>
年収とそれ以外の関係を示すモデルとして、ここではBayesian Model(あるfieldの値を関係する(=限られた)別のfieldの値から確率的に決定するものである)を考える。
Model構築については、以下のようなモデルを採用する。
<Known system outline>
Here, as a model showing the relationship between annual income and other than that, here is considered a Bayesian Model (which is determined probabilistically from the value of another field related (= limited) related to the value of one field).
For model construction, the following model is adopted.

1)評価基準:BDe改造
2)関係追加:field間に関係があるとした場合に、モデル全体の評価が上がる場合に、その関係を採用する。
3)モデル成長方式:Greedyに成長(これは短時間で最適解に近いものを出すため)
4)評価を上昇させる関係が存在しなくなった時点で成長停止
1) Evaluation criteria: BDe remodeling 2) Addition of relationship: When there is a relationship between fields, when the evaluation of the whole model goes up, that relationship is adopted.
3) Model growth method: Growing into Greedy (This is to get a solution close to the optimal solution in a short time)
4) Stop growth when there is no longer a relationship that raises evaluation

なお、評価基準(BDe改造)によれば、あるfieldAの値が別のfieldB,Cの値に依存している場合に、B,CをAの親と呼び、この親子関係に基づいて、図14(BDe score計算法エラー! 参照元が見つかりません。)の計算式によりモデル全体の評価値を決定する。根本的にはAICの類似物である。MDLと比較すると本来の状態で比較的細かい関係をとることができる。これは、モデルの複雑性に対するペナルティが低いためである。   According to the evaluation criteria (BDe remodeling), when the value of one fieldA depends on the value of another fieldB and C, B and C are called the parents of A. Based on this parent-child relationship, The evaluation value of the entire model is determined by the calculation formula of 14 (BDe score calculation method error! Reference source is not found.). It is basically an analog of AIC. Compared with MDL, it can take a relatively fine relationship in its original state. This is because the penalty for model complexity is low.

ただし、この計算式を単純に計算した場合には、浮動小数点数オーバーフロー等の問題が発生するため、今回は図15に示す「BDe改造の式」を利用した値を提示する。実際にはより正しい値を取得するために、logの加算部分に工夫を凝らすこともある。   However, when this calculation formula is simply calculated, problems such as floating point number overflow occur. Therefore, this time, a value using the “BDe remodeling formula” shown in FIG. 15 is presented. Actually, in order to obtain a more correct value, the log addition part may be devised.

<公知システムの問題>
既存システムにおけるモデル生成は、使用したデータの傾向をまとめるものであるため、少数部分の特性は無視されることが多い。
先に図15で示した「BDe改造の式」に示した計算式によりモデルを構築した場合に抽出された関係は以下のとおりである。
<Problem of known system>
Since model generation in existing systems summarizes trends in the data used, the characteristics of a small number of parts are often ignored.
The relationship extracted when the model is constructed by the calculation formula shown in the “BDe remodeling formula” shown in FIG. 15 is as follows.

初期状態:各field(node)完全独立
Greedyに関係を追加していく
Nodeに番号をつける
node[0] = 人種
node[1] = 出身
node[2] = 年収
node[3] = 年齢-div5
node[4] = 教育年数-div5
Initial state: Each field (node) is completely independent
Add relationships to Greedy
Number Node
node [0] = race
node [1] = from
node [2] = annual income
node [3] = age-div5
node [4] = years of education-div5

評価値を計算する。       Calculate the evaluation value.

(全要素47902)
[child,parent] := [1, 0] (最初に見つかったのはnode[1]をnode[0]の子とするものだった)
add scoreDiff_i = 4911.672547034621 (これにより評価値が4911上がった)
[child,parent] := [3, 2] (次に見つかったのはnode[3]をnode[2]の子とするものだった)
add scoreDiff_i = 4120.6223854812415 (評価値が4120上がった)
[child,parent] := [4, 2]
add scoreDiff_i = 4092.57636431673
[child,parent] := [3, 4]
add scoreDiff_i = 1416.8170142548188
[child,parent] := [2, 0]
add scoreDiff_i = 330.7434124116626
[child,parent] := [4, 0]
add scoreDiff_i = 87.20574294828111
(All elements 47902)
[child, parent]: = [1, 0] (The first one found was node [1] as a child of node [0])
add scoreDiff_i = 4911.672547034621 (This increased the evaluation value by 4911)
[child, parent]: = [3, 2] (The next one found was node [3] as a child of node [2])
add scoreDiff_i = 4120.6223854812415 (Evaluation value increased by 4120)
[child, parent]: = [4, 2]
add scoreDiff_i = 4092.57636431673
[child, parent]: = [3, 4]
add scoreDiff_i = 1416.8170142548188
[child, parent]: = [2, 0]
add scoreDiff_i = 330.7434124116626
[child, parent]: = [4, 0]
add scoreDiff_i = 87.20574294828111

ここで関係強度閾値D1=0(と今回は設定)を超える評価値が見つからなくなったのでモデル生成をやめる。   Here, since the evaluation value exceeding the relation strength threshold D1 = 0 (and this time setting) is not found, the model generation is stopped.

Score f1=4911+4120+4092+1416+…(全node完全独立状態と最終状態とのscore差分)   Score f1 = 4911 + 4120 + 4092 + 1416 + ... (score difference between all nodes completely independent state and final state)

結局モデルは以下のようになる。   After all, the model is as follows.

node[0] , , , , ,(node[0]は親を持たない)
node[1] x, , , , ,
node[2] x, , , , ,(node[2]はnode[0]を親とする)
node[3] , , x, , x,(node[3]はnode[2]とnode[4]を親とする)
node[4] x, , x, , ,
node [0],,,,, (node [0] has no parent)
node [1] x,,,,,
node [2] x,,,,, (node [2] is parented by node [0])
node [3],, x,, x, (node [3] is the parent of node [2] and node [4])
node [4] x,, x,,,

こうして、node[2]:年収、と関係するのはnode[0]:人種、node[3]:年齢、node[4]:教育年数となる。   Thus, node [2]: annual income is related to node [0]: race, node [3]: age, node [4]: years of education.

この関係は構成要素の大多数がUSA出身者であることを考えると統計的には当然のことであるが、少数の海外出身者の傾向は無視されることになる(図16)。すると、node[2]:年収の予測において、まず、node[0]人種で判断(白人は高く有色人種は低い)、人種がわからない場合には、人種の推定のためにnode[1]国を利用できるが、例えば、台湾人は有色であり、有色は年収が低いという扱いになる(実際には高収入に偏り)。   This relationship is statistically natural considering that the majority of the constituents are from the USA, but the tendency of a small number of foreigners is ignored (Figure 16). Then, node [2]: In the prediction of annual income, first, the node [0] race is judged (white is high and colored race is low). If the race is unknown, node [2] is used to estimate the race. 1] Although the country can be used, for example, Taiwanese people are colored, and colored people are treated as having low annual income (in fact, they are biased toward high income).

<本発明の実施の形態による改善>
ところで、国と年収の関係を見ると実際には高収入な人間の多い国は存在する(図17「国と年収の関係」参照)。これにより、年収の予測において出身国を利用したほうが良いことが推測できる。
<Improvement by Embodiment of the Present Invention>
By the way, when looking at the relationship between the country and the annual income, there are actually countries where there are many high-income people (see “Relationship between the country and the annual income”). From this, it can be inferred that it is better to use the country of origin in the prediction of annual income.

しかし、ここでは、5fieldのみであったため、人が出身国と年収の関係を把握できたが、大量のデータからこれを判断することは難しい。この少数特性を抽出することを考える。この際、少数に着目するあまり全体を無視することがないよう配慮する。   However, because only 5fields were used here, the person was able to grasp the relationship between the country of origin and the annual income, but it is difficult to judge this from a large amount of data. Consider extracting this minority characteristic. At this time, attention should be paid so as not to ignore the entire system focusing on a small number.

ここで、部分集合に対する評価と補正を考える。公知の方式により関係のなかったものに本当に関係がないか否かを確認する。総当りで最適解を出すためには長時間を有するので、検索には何らかの優先順位をつける。ユーザからの指示を待っても良いし、機械的に限定しても良い。機械的に実行する場合には、二つのfield間の関係で分散の激しいものを優先する(もし、国と人種の関係が公知の方式で出なければ、分散が激しい=国により白人だけ、とか黒人だけ、とかいう国がある=ので真っ先に検査対象になる)、目的から判断する(ここでは年収予測機を作成するので、年収とある属性の関係が当然優先される)などの方法がある。   Here, the evaluation and correction for the subset are considered. It is confirmed whether or not there is nothing really related to what is not related by a known method. Since it takes a long time to obtain an optimal solution by brute force, some priority is given to the search. It may wait for an instruction from the user or may be limited mechanically. When it is executed mechanically, priority is given to a highly dispersed relationship between the two fields (if the relationship between the country and race does not come out in a known manner, the dispersion is severe = only whites depending on the country, There are countries such as black and black only, so it will be the first to be tested), judging from the purpose (in this case, because the annual income forecasting machine is created, the relationship between annual income and certain attributes is given priority) .

処理時間を考慮することなく優先するもの(先頭からXX個等)だけをチェックしても良いし、所要時間の指定を取得し、時間内でできる限り順番に実行するというような方法を採用しても良い。   You can check only the priority (XX from the beginning) without considering the processing time, or you can get the specification of the required time and execute in order as much as possible within the time. May be.

ここでは国と年収の関係で例示する。実際には国、年収、人種等の複数種類で先の評価式を用いてcheckする。   Here, the example shows the relationship between the country and annual income. Actually, the check is made using the above evaluation formula for multiple types such as country, annual income, and race.

{国:アメリカ、カナダ、ブラジル、…}と人種以外関係はなかった。すなわち、評価値が小さかった。それでは、部位分集合では関係が出ないかどうかについて考慮する。   {Country: America, Canada, Brazil, ...} and nothing else related to race. That is, the evaluation value was small. Then, it is considered whether there is no relationship in the part set.

ここで考える部分集合は{国:groupA, GroupB, GroupC}である。
全ての国は、A,B,C,D(考慮外)のいずれかに属するものとなる。Gtoup数は最大で要素数(ここでは国の数)であり、最小で2である。
The subset considered here is {country: groupA, GroupB, GroupC}.
All countries belong to one of A, B, C, D (not considered). The maximum number of Gtoups is the number of elements (here, the number of countries), and the minimum is 2.

まず部分集合をすべてcheckするか、優先順位をつけて一部をcheckするかを決定する。手段としては以下のようなものがある。   First, decide whether to check all subsets, or prioritize some. There are the following means.

A1)ユーザ指定
A2)分散依存機械処理:年収との関係で平均国を抽出し(ここで当然USA)これとXX%以内の差異であるものとそうでないもの(上下)に分類
A3)個数依存機械処理:個数の多いものは公知のモデルに影響を与えるはずであるから少数のもの(ここではハンガリー、ホンジュラス、…)の影響に着目
A4)上記の組み合わせ
A1) User specified
A2) Dispersion-dependent machine processing: Average country is extracted in relation to annual income (naturally USA here), and it is classified into those that are within XX% and those that are not (up and down)
A3) Number-dependent machine processing: Focus on the effects of a small number (in this case Hungary, Honduras, ...) because a large number should affect known models
A4) Combination of the above

なお、全値を同一集合にまとめることには意味がない。先に式で示したが、BDeの評価式は親の値が特定の値に決まった場合に子の値が決まる確率の変化(平均分布からのずれ)を見ているため、値が一種であることに意味がないからである(100%はどう変化しても100%である)。   There is no point in putting all values into the same set. As shown above, the BDe evaluation formula looks at the change in probability that the child value is determined when the parent value is determined to be a specific value (deviation from the average distribution). There is no point in being (100% is 100% no matter how it changes).

そこで部分集合の評価を順番に見ていく。ここでは検索順序としてA3を採用し、groupingの決定にA2を利用する。   So we will go through the evaluation of the subsets in turn. Here, A3 is adopted as the search order, and A2 is used to determine grouping.

1)[(最小個の)ハンガリー(分布31.58%)とこれに(差分XX%で)類似したもの、それ以外]
ここで、XXを変えて繰り返す。ここでは平均が23.9なので(31.58-23.9)/5*n:n=1~5で5回繰り返す。評価xxの高いXXに該当するグループを覚えておく。
1) [(minimum) Hungary (31.58% distribution) and similar (with a difference of XX%), otherwise]
Here, change XX and repeat. Here, since the average is 23.9, (31.58-23.9) / 5 * n: n = 1 to 5 is repeated 5 times. Remember the group that corresponds to XX with a high rating xx.

2)[ホンジュラス(分布10%)とこれに(差分YY%で)類似したもの、それ以外]
ここで、YYを変えて繰り返す。ただし、上記これまで別のもの(ここではハンガリしかない)と類似とされたものは扱い省略する。ここでも、評価yy最大のYYは覚えておく。
2) [Honduras (10% distribution) and similar (with YY% difference), otherwise]
Here, repeat YY. However, those similar to the above-mentioned another (here, only hangar) are not treated. Again, remember YY with the highest yy rating.

3)[xxを出した際のグループ、yyを出したグループ(重複させない)、それ以外]
[xxを出した際のグループ、yyを出したグループ(重複させない)]
ここではじめて、要素数が2(最低必要数)を超えたので、「それ以外」、を検討外、とする選択肢ができる。
3) [Group that issued xx, group that issued yy (do not duplicate), otherwise]
[Group with xx, group with yy (not duplicated)]
For the first time, since the number of elements exceeds 2 (minimum required number), “other than that” can be selected as out of consideration.

この場合には母集団の個数が「それ以外」分減っているため、先の数式のNijが変化し、分母の変化により公知の方式にそのまま組み入れたのでは問題となる状況になる。補正係数(ゲタによるかさ上げ)が必要になる。   In this case, since the number of populations is reduced by “other than that”, Nij in the previous mathematical formula changes, and if it is incorporated into a known method as it is due to a change in the denominator, it becomes a problem. A correction coefficient (raising by getter) is required.

4)[xxを出した際のグループ、yyを出したグループ、zzを出したグループ、それ以外] 4) [Group with xx, group with yy, group with zz, etc.]

計算は公知と同様に実行する。以下は一例である。
{国:上記grouping}、[人種]、[年収]…に対し、(上記グループわけで順番に)まず普通に評価を再実行する。
The calculation is performed in the same manner as known. The following is an example.
{Country: Above grouping}, [Race], [Annual income], etc. First, the evaluation is re-executed normally (in order of the above groups).

(全要素47902)
[child,parent] := [0, 1]
add scoreDiff_i = 2821.2557579191407
[child,parent] := [1, 4]
add scoreDiff_i = 541.032507935146/*ある状態における出身と教育年数の関係評価値*/
[child,parent] := [4, 2]
add scoreDiff_i = 438.6759072416644
[child,parent] := [2, 3]
add scoreDiff_i = 234.67135951875343

Score =2881+541+438+234+…
(All elements 47902)
[child, parent]: = [0, 1]
add scoreDiff_i = 2821.2557579191407
[child, parent]: = [1, 4]
add scoreDiff_i = 541.032507935146 / * Evaluation value of relationship between birth and years of education in a certain state * /
[child, parent]: = [4, 2]
add scoreDiff_i = 438.6759072416644
[child, parent]: = [2, 3]
add scoreDiff_i = 234.67135951875343
...
Score = 2881 + 541 + 438 + 234 +…

モデルは
node[0] = 人種
node[1] = 出身
node[2] = 年収
node[3] = 年齢-div5
node[4] = 教育年数-div5
node[0] , x, , , ,
node[1] , , , , x,/*出身国が教育年数と関係している*/
node[2] , , , x, ,
node[3] , , , , ,
node[4] , , x, , ,
The model is
node [0] = race
node [1] = from
node [2] = annual income
node [3] = age-div5
node [4] = years of education-div5
node [0], x,,,,
node [1],,,, x, / * Country of origin is related to years of education * /
node [2],,, x,,
node [3],,,,,
node [4],, x,,,

となり新しい関係(出身国と教育年数:スコア541)が抽出される。   Next, a new relationship (country of origin and years of education: score 541) is extracted.

ところで、これは部分を見ての評価であるため(1)の状況では全体関係を破壊(細かすぎるものしか見なくなる)する要因となる。
単純にscore541の関係を元のmodelに組み入れると細かすぎるものをみることになる。
By the way, since this is an evaluation by looking at the part, in the situation of (1), it becomes a factor that destroys the whole relationship (only seeing too fine).
If you simply incorporate the relationship of score541 into the original model, you will see something too fine.

新しいモデルを採用すると、今度は元のモデルで見られた関係を無視することになる(年収と教育年数の関係が4092より438に落ちていることからもこれがわかる。最悪の場合、消えてしまう==閾値以下になる=この場合には0以下になる=こともある)。
そこで新しいモデルの新しい関係を補正した上で、関係の利用を判断する。
Adopting the new model will now ignore the relationship seen in the original model (this can also be seen from the fact that the relationship between annual income and the number of years of education falls from 4092 to 438. In the worst case, it disappears. == Below threshold value = In this case, it may be 0 or less).
Therefore, the use of the relationship is determined after correcting the new relationship of the new model.

ユーザが気に入った関係(これまでの経験から予想していた関係)を見つけた時点でそれを採用しても良いが、多くの場合には自動判定を行う。その場合には、   Although it may be adopted when the user finds a favorite relationship (a relationship expected from previous experience), in many cases, automatic determination is performed. In that case,

補正式
Score f1'=D2+w(上の得点群)
Correction formula
Score f1 '= D2 + w (upper score group)

を利用してf1'が大きいもの、一定以上をとるもので最初に発見されたもの、一定以上をとるもので事前に指定された条件に合致するもの等を採用する。   Use the one that has a large f1 ′, the one that is above a certain level, the one that was first discovered, the one that is above a certain level, and that meet the conditions specified in advance.

ここで、w、D2はこのデータの傾向にやユーザの希望(どこまで細かい関係をとりたいか)に応じて決定される補正条件である。wはこの部分集合の規模においてその関係がどの程度重要かを示すものであり、例えば最大強度の関係と比較してその関係がどの程度かを示す。上記の例で言えば、もっとも単純な決定法として、   Here, w and D2 are correction conditions that are determined according to the tendency of the data and the user's desire (how much detailed relationship to take). “w” indicates how important the relationship is in the scale of this subset, and indicates, for example, how much the relationship is compared to the maximum strength relationship. In the above example, the simplest decision method is

w (上の得点群)=最大関係と比較した場合の割合*該当モデルのサイズ=541/2821*4911*(47902/47902)=0.19*4911*1=933   w (Upper score group) = Ratio when compared with the maximum relationship * Size of the corresponding model = 541/2821 * 4911 * (47902/47902) = 0.19 * 4911 * 1 = 933

これは、ある部分集合を採用した場合に出現した関係のその部分集合からみた重要性である。   This is the importance of the relationship that appears when a certain subset is adopted from the perspective of that subset.

例えば上記の例で言えば、
教育年数→出身→人種---(A)
という関係において
出身score=541.032507935146
W=933
For example, in the above example:
Years of education → Origin → Race --- (A)
In this relationship, origin score = 541.032507935146
W = 933

という値が得られるが、これに対し、また別の部分集合に対して計算した場合、   , But if we calculate for another subset,

(全要素28543:計算外のrecordが19000件ほどある)
[child,parent] := [2, 1]
add scoreDiff_i = 4115.2899534634635
[child,parent] := [1, 3]
add scoreDiff_i = 4091.6699646188354
[child,parent] := [4, 0]
add scoreDiff_i = 2135.7989910176548
[child,parent] := [2, 3]
add scoreDiff_i = 1412.705668559298
[child,parent] := [4, 3]
add scoreDiff_i = 883.041889777498
[child,parent] := [0, 1]
add scoreDiff_i = 325.8174577299578
[child,parent] := [0, 3]
add scoreDiff_i = 93.33244284622924
node[0] = 人種
node[1] = 年収
node[2] = 年齢-div5
node[3] = 教育年数-div5
node[4] = 出身
node[0] , x, , x, ,
node[1] , , , x, ,
node[2] , x, , x, ,
node[3] , , , , ,
node[4] x, , , x, ,
人種→出身 & 教育年数→出身(要するに出身が親二つ)---(B)
出身score= 2135+883=3018
W=3018/4115*4911*(28543/47902)=0.733*4911*0.595=2141
(All elements 28543: There are about 19000 records that are not calculated)
[child, parent]: = [2, 1]
add scoreDiff_i = 4115.2899534634635
[child, parent]: = [1, 3]
add scoreDiff_i = 4091.6699646188354
[child, parent]: = [4, 0]
add scoreDiff_i = 2135.7989910176548
[child, parent]: = [2, 3]
add scoreDiff_i = 1412.705668559298
[child, parent]: = [4, 3]
add scoreDiff_i = 883.041889777498
[child, parent]: = [0, 1]
add scoreDiff_i = 325.8174577299578
[child, parent]: = [0, 3]
add scoreDiff_i = 93.33244284622924
node [0] = race
node [1] = annual income
node [2] = age-div5
node [3] = years of education -div5
node [4] = from
node [0], x,, x,,
node [1],,, x,,
node [2], x,, x,,
node [3],,,,,
node [4] x,,, x,,
Race → Birth & Years of Education → Birth (In short, parents are two parents) --- (B)
Origin score = 2135 + 883 = 3018
W = 3018/4115 * 4911 * (28543/47902) = 0.733 * 4911 * 0.595 = 2141

が得られた場合に、wが強力なものは後者(B)の場合であり、入れるのであれば関係(B)を採用すべき、という判定を行う。
これとは別にそもそもこれを元の関係に入れるべきか否かという問題は発生する。
If w is strong, it is the case of the latter (B) that makes w strong, and if it is included, it is determined that the relationship (B) should be adopted.
Apart from this, the problem of whether or not this should be put into the original relationship arises in the first place.

この問題を解決するために概念D2を導入し、足きり材料として利用する。D2により得られるモデルの複雑性が変化する。   In order to solve this problem, the concept D2 is introduced and used as a footing material. The complexity of the model obtained by D2 changes.

一定値に決定してこれを登録することもできるが、複数(人間が比較評価できる程度の少数)のD2を用いて複数のモデルを作成し、ユーザの選択を許す、もしくは予測機として利用するのであれば事前に与えられた学習データを用いた交差検定をそれぞれのモデルを使用して行い、最も性能の良いものを採用する、という手法が順当であると考える。単純にはその関係の強さを元のモデルの強さと比較しすることにより、   Although it is possible to determine a fixed value and register it, create multiple models using multiple D2s (a small number that can be compared and evaluated by humans) and allow users to select or use as a predictor If this is the case, it is considered appropriate to perform cross-validation using learning data given in advance using each model and adopt the one with the best performance. Simply compare the strength of the relationship with the strength of the original model,

f1'=D2+W, f1>max(元モデルの最大関係評価値)で採用と決定し、
D2=k*max((元モデルの最大関係評価値), k=0, 0.1, 0.2, …0.9
f1 '= D2 + W, f1> max (maximum relationship evaluation value of the original model)
D2 = k * max ((maximum relational evaluation value of the original model), k = 0, 0.1, 0.2,… 0.9

等とする手段が考えられる。   A means such as the above can be considered.

なお、今回は簡略化のために部分集合作成対象となったのは国であり、分布の考慮は年収に対してのみ行われたが、一般には部分集合同士の組み合わせや、分布考慮済み集合に対して別の分布を考慮することも行われる。   In this case, for simplification, it was the country that was the target of subset creation, and distribution was considered only for annual income, but in general, combinations of subsets or distribution-considered sets were considered. Another distribution is also considered.

(実施の形態2)
以下、本発明の実施の形態2として、簡易で認識しやすい医療経営モデル提示として、医療事務情報における病名統合処理について説明する。図4は実施の形態2の主要部分を示すフローチャートである。
(Embodiment 2)
Hereinafter, as Embodiment 2 of the present invention, a disease name integration process in medical office information will be described as a simple and easily recognizable medical management model presentation. FIG. 4 is a flowchart showing the main part of the second embodiment.

<データ概要>
医療経営モデルを提示する。
最終目標を経営解析(病室の稼働率、利潤等の予測)とする。
<Data overview>
Present a medical management model.
The final goal will be management analysis (predicting occupancy rate, profits, etc.).

この解析支援を目的として、ここでは入院所要日数(情報を与えられた日時よりの余入院日数)に対する影響モデルの作成処理の一部を例示する(==targetを残入院日数と定める)。   For the purpose of this analysis support, here is an example of a part of the process of creating an influence model for the number of days required for hospitalization (the number of days remaining after hospitalization given information) (== target is defined as the number of days remaining in hospital).

一般に医療費、入院日数に対する最大の影響要因は病名であると信じられており、これは間違いではない。しかし、病名は多岐にわたっており、単一病院における患者の傾向解析を行う場合には、年間に累計した情報程度ではここの病名単位の統計を取るにはたりない。従って、ある程度の分類にまとめる必要がある。なお、この解析では経営問題=日数関係=を対象とするため、同一症例による分類等は必須ではないものとする。   In general, it is believed that the most influential factor on medical expenses and hospitalization days is the name of the disease, which is no mistake. However, there are a wide variety of disease names, and when analyzing patient trends in a single hospital, there is no way to obtain statistics for each disease name here based on the information accumulated throughout the year. Therefore, it is necessary to collect them into a certain level of classification. In this analysis, management problem = day relation = is considered, so classification by the same case is not essential.

この分類としては、受診診療科、国際疾病分類等が考えられるが、受診診療科に関しては必ずしも病名をまとめていないこと(複合病、小児科の存在)、疾病分類に関しては大分類が問題部位による分類でありその軽重が計れないこと、小分類では病名分類数に近く、単一病院集計では統計上意味のある個数をまとめられないことから、独自のまとめ方が必要となる。   As this classification, the diagnosis department, international disease classification, etc. can be considered, but the diagnosis department does not necessarily summarize the name of the disease (complex disease, existence of pediatrics), and the classification is classified according to the problem site. Because it is difficult to measure the weight, it is close to the number of disease name classification in the small classification, and the statistically meaningful number cannot be collected in the single hospital aggregation, so an original way of summarizing is necessary.

また、薬品、処置に関しても、その種別は非常に多いものとなるため、ユーザによる認識支援を目的とした俗正数削減は有効である。   Moreover, since there are very many types of medicines and treatments, it is effective to reduce the common number for the purpose of assisting recognition by the user.

そこで、この多種に及ぶfield値種別を圧縮し、より簡易なモデルを作成し、ユーザに提示することにより、現状把握を容易にすることを考える。   Therefore, it is considered to make it easier to grasp the current state by compressing these various field value types, creating a simpler model, and presenting it to the user.

統合対象を、病名、使用薬品(履歴)、処置(履歴)、とし、学習データのデータベースから取得する(ステップS21)。   The integration target is a disease name, a drug used (history), and a treatment (history), and is acquired from the learning data database (step S21).

ここで、各field間に対して採用する関係強度計算方式と採用条件を指定し、部分集合の抽出対象を病名、使用薬品、処置に限定する(ステップS22)。関係の抽出に当たっては全field(年齢、性別、在院病室所在等のfield群)を考慮するが、例えば年齢、性別に関しては部分集合抽出対象とはしない。   Here, the relationship strength calculation method and the employment conditions adopted for each field are specified, and the subset extraction target is limited to the disease name, the medicine used, and the treatment (step S22). In extracting relationships, all fields (field groups such as age, sex, hospital room location, etc.) are considered, but for example, age and sex are not subject to subset extraction.

抽出される関係は、例えば[肺炎A,薬品B,処置C,年齢]というものになり、[肺炎A,薬品B,処置C,高齢]等は年齢に関して特定の部分のみを対照とするため、ここでは抽出されない。   The extracted relationship will be, for example, [Pneumonia A, Drug B, Treatment C, Age], and [Pneumonia A, Drug B, Treatment C, Older] etc. will control only a specific part regarding age, It is not extracted here.

Field群{病名、使用薬品、処置}に関してはそれぞれの属性と他のfield群との関係を判断し、field群{年齢、性別、在院病室所在}に関しては、各fieldそれぞれと他のfield群との関係を判断し部分集合抽出を実行する(ステップS23〜S25)。   Regarding the field group {disease name, drugs used, treatment}, the relationship between each attribute and the other field group is judged. Regarding the field group {age, sex, hospital room location}, each field and each other field group And the subset extraction is executed (steps S23 to S25).

部分関係強度計算(部分関係抽出)における関係f1としてある入院経過日における残日数の類似状況を採用し、部分関係抽出を行い、これを部分集合構成要素(類似度計算)を用いて属性統合処理を実行する(ステップS26)。   Adopting the similar situation of the number of days remaining on the hospitalization lapse date as the relation f1 in the partial relation strength calculation (partial relation extraction), partial relation extraction is performed, and this is attribute integration processing using a subset component (similarity calculation) Is executed (step S26).

類似度計算を用いると、「肺炎」と称される病名は複数存在するがその一部においてのみ他fieldの傾向の類似性が見られることが抽出できる(例えば、排他的に使用される注射と内服薬の使用期間分類により入院所要日数傾向が異なる等)。これがrelated1などとまとめられるため、ここでは肺炎A等とrenameしてユーザに提示する。   Using the similarity calculation, it is possible to extract that there are multiple disease names called “pneumonia”, but only some of them have similarities in the tendency of other fields (for example, injections used exclusively) The trend of hospitalization days varies depending on the period of use of internal medicines). Since this is summarized as related1, etc., it is renamed pneumonia A etc. and presented to the user.

なお、上記肺炎Aに属する病名群に関しては、先に示した国名統合の様に、その類似度計算をモデル作成処理内部で行うことも可能であるが、これが医療上一般的な知見である場合には、属性値群の一覧を指定可能とし、肺炎Aにまとめられるであろう病名群を指定し、指定病名群のまとめ処理による関係抽出が該当データ上において正当であるか否かを部分関係強度計算(部分関係抽出)もしくは部分集合構成要素(類似度計算)の手法を用いて確認する(指定病名群全体が部分関係強度計算(部分関係抽出)における部分集合として指定病名群を仮定した場合に関係強度がまとめ前より強くなることを確認する、もしくは部分集合構成要素(類似度計算)を用いてこの部分集合全体を1まとめにした状態が生成されることを確認する)、等の方法も考えられる。   In addition, regarding the disease name group belonging to the above pneumonia A, it is possible to perform the similarity calculation inside the model creation process as in the case of the country name integration described above, but this is a general medical knowledge Can specify a list of attribute value groups, specify a group of disease names that will be summarized in pneumonia A, and determine whether or not the relationship extraction by the summary processing of the specified disease name group is valid on the corresponding data Confirm by using the method of strength calculation (partial relationship extraction) or subset component (similarity calculation) (when the specified disease name group is assumed as a subset in partial relationship strength calculation (partial relationship extraction)) Confirm that the relationship strength is stronger than before, or that a subset of all the subsets is created using a subset component (similarity calculation)), etc. The method is also conceivable.

この後、同手順を繰り返し、肺炎B、肺炎Cを作成しても良いし、部分集合の排他部分に該当する属性値を一定値にまとめる機能を用いて「その他の肺炎」としてまとめてしまってもよい。
まとめられたデータを用いてモデルの作成を行うことにより、上記知識の反映された簡易なモデルを得ることができる。
After this, the same procedure may be repeated to create pneumonia B and pneumonia C, or it may be grouped as `` other pneumonia '' using a function that combines the attribute values corresponding to the exclusive part of the subset into a constant value. Also good.
By creating a model using the collected data, a simple model reflecting the knowledge can be obtained.

以上説明したように、本発明の実施の形態によれば、学習データにおいてfield間に部分的に成立する関係を抽出しこれをモデルに採用することにより、この、モデル全体への影響として計測した場合には小さいものの特定field関係としてみた場合には大きい関係、を推論処理に利用することが可能となり、これにより、推論処理性能を向上させることが可能となる。   As described above, according to the embodiment of the present invention, by extracting the relationship partially established between fields in the learning data and adopting it in the model, this was measured as an influence on the entire model. In some cases, a small relationship but a large relationship when used as a specific field relationship can be used for the inference processing, thereby improving the inference processing performance.

既存の機械的かつ単純なデータ数の数え上げにより抽出される関係によりfield間関係が希薄であると判断される(モデルの構成要素として採用する必要が無いと判断される)場合であっても、field間の特定の属性値間に着目するとデータ関係が強力になる状況が存在する。   Even if it is judged that the relationship between fields is sparse due to the relationship extracted by counting the existing mechanical and simple data count (it is judged that it is not necessary to adopt as a model component), There is a situation where the data relationship becomes strong when focusing on specific attribute values between fields.

本発明の実施の形態によれば、このような状況において特定の属性値間の関係を抽出し、抽出された関係を以ってモデル構築を行うことを可能とし、これにより、モデルを用いた推論性能の向上を目指すことができる。   According to the embodiment of the present invention, it is possible to extract a relationship between specific attribute values in such a situation, and to build a model with the extracted relationship, thereby using the model. Can improve inference performance.

なお、ここでいうモデルに該当するものとして以下を例示しておく。   In addition, the following is illustrated as what corresponds to the model here.

(Bayesian Network構築)
関係するfield群を結合することによりNetworkを構築し、このNetworkを基に推論処理を実行する。
(Bayesian Network construction)
A network is constructed by combining related field groups, and inference processing is executed based on this network.

従って、推論性能はこのNetworkに依存し、関係抽出が重要になる。
この際、全fieldの関係を総当りで定義するのはモデル的にも、モデルを用いた推論処理を実行する(際の所要メモリ量と所要時間)上でも望ましくない。
Therefore, inference performance depends on this network, and relationship extraction becomes important.
At this time, it is not desirable to define the relation of all fields as a brute force in terms of model or inference processing using the model (required memory amount and required time).

一般的に知られているこのNetworkの構築方法では、ある情報量基準に基づいた判定を行い、これを基に2 field間の関係の強さを決定し、強いもののみを有効としている。   In this generally known network construction method, a determination based on a certain amount of information criterion is performed, the strength of the relationship between the two fields is determined based on this determination, and only the strong one is valid.

現在BN構築ツールの情報量基準として一般的に利用されているMDL,AIC等は該当fieldに出現する属性値の分布全体を用いて算出を行うものであり、データの部分集合に対する関係の抽出は実施していない。   Currently, MDL, AIC, etc., which are generally used as information standards for BN construction tools, calculate using the entire distribution of attribute values appearing in the corresponding field. Not performed.

また、MBRはfield群の属性値分布とtarget fieldの値の分布を基に該当fieldの影響度(target値との関係の強さ)を決定している(MBR影響度決定)。   The MBR determines the influence degree of the corresponding field (strength of the relationship with the target value) based on the attribute value distribution of the field group and the distribution of the target field value (MBR influence degree determination).

この決定処理において、該当field値分布の一部を計算対象外とする、もしくはある特定の値にまとめる等の処理を行うと、現状において出力される影響度とは異なる値が算出され、異なった推論結果が得られる。   In this determination process, if a part of the field value distribution is excluded from the calculation target or is processed into a specific value, a value different from the currently output impact level is calculated and different. An inference result is obtained.

元のfieldの計算対象値部分とtargetの関係が充分強ければ、より正確な結果が得られる可能性がある。   If the relationship between the target value calculation part of the original field and target is sufficiently strong, a more accurate result may be obtained.

また、関係の有無が不明な多数のfieldが存在し、これより関係するfield群のみを抽出してこれをパラメータとする関数式を構築する(モデル式における変数抽出)。このパラメータ決定においても、field間の特定属性値群のみを対象とした関係を抽出することができる。   In addition, there are a large number of fields whose relations are unknown, and only a group of related fields is extracted from the fields, and a function expression using these as parameters is constructed (variable extraction in the model expression). Also in this parameter determination, it is possible to extract a relationship only for a specific attribute value group between fields.

上述した本発明の実施の形態において、各フローチャートに示したステップを構造解析プログラムとして、コンピュータにより読取り可能な記録媒体に記憶させることによって、構造解析方法をコンピュータに実行させることが可能となる。なお、本発明において、上記コンピュータにより読取り可能な記録媒体は、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
(付記1) 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出装置であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定手段と
を備えてなる属性間の部分関係抽出装置。
(付記2) 請求項1に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記全体関係強度計算手段により計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算することを特徴とする属性間の部分関係抽出装置。
(付記3) 付記1または付記2に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、検索対象において全検索を行い、最大の評価値のものを取得することを特徴とする属性間の部分関係抽出装置。
(付記4) 付記1または付記2に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、指定検索対象において全検索を行い、最大の部分関係強度のものを取得することを特徴とする属性間の部分関係抽出装置。
(付記5) 付記1または付記2に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、所定の基準値を上回る部分関係強度のものを取得することを特徴とする属性間の部分関係抽出装置。
(付記6) 付記1乃至付記5のいずれかに記載の属性間の部分関係抽出装置において、
前記field間関係設定手段は、前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出装置。
(付記7) 付記1乃至付記6のいずれかに記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の構成要素であるfield群属性値組み合わせを、複数の集合群に分類し、各分類単位で属性値を統合する第1統合手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記8) 付記1乃至付記7のいずれかに記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の排他部分に該当する属性値を一定値に統合する第2統合手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記9) 付記1乃至付記8のいずれかに記載の属性間の部分関係抽出装置において、
複数のfield間それぞれを対象として、各field間に対して採用する関係強度計算方式と採用条件を指定可能とする第1指定手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記10) 付記1乃至付記9のいずれかに記載の属性間の部分関係抽出装置において、
前記部分集合に属する可能性のある属性値群の一覧を指定可能とする第2指定手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記11) 付記7に記載の属性間の部分関係抽出装置において、
前記第1統合手段は、統合における適用条件又は適用順序を指定可能とする第3指定手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記12) 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法をコンピュータに実行させる属性間の部分関係抽出プログラムであって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出プログラム。
(付記13) 請求項12に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記全体関係強度計算ステップにより計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算することを特徴とする属性間の部分関係抽出プログラム。
(付記14) 付記12または付記13に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、検索対象において全検索を行い、最大の評価値のものを取得することを特徴とする属性間の部分関係抽出プログラム。
(付記15) 付記12または付記13に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、指定検索対象において全検索を行い、最大の部分関係強度のものを取得することを特徴とする属性間の部分関係抽出プログラム。
(付記16) 付記12または付記13に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、所定の基準値を上回る部分関係強度のものを取得することを特徴とする属性間の部分関係抽出プログラム。
(付記17) 付記12乃至付記16のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記field間関係設定ステップは、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出プログラム。
(付記18) 付記12乃至付記17のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の構成要素であるfield群属性値組み合わせを、複数の集合群に分類し、各分類単位で属性値を統合する第1統合ステップを備えることを特徴とする属性間の部分関係抽出プログラム。
(付記19) 付記12乃至付記18のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の排他部分に該当する属性値を一定値に統合する第2統合ステップを備えることを特徴とする属性間の部分関係抽出プログラム。
(付記20) 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出方法。
In the above-described embodiment of the present invention, the steps shown in the respective flowcharts are stored as a structure analysis program in a computer-readable recording medium, whereby the structure analysis method can be executed by the computer. In the present invention, the computer-readable recording medium is a portable storage medium such as a CD-ROM, a flexible disk, a DVD disk, a magneto-optical disk, an IC card, a database holding a computer program, or other Computer and its database, and also a transmission medium on a line.
(Supplementary note 1) A partial relation extraction device between attributes in a model creation device that constitutes a predetermined model based on attribute values in a plurality of fields each of a plurality of data and the appearance frequency of the attribute values,
An overall relationship strength calculating means for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for a given attribute and its frequency distribution;
Based on a subset of attribute values appearing in the field group for the predetermined attribute, partial relationship strength calculating means for calculating the strength of the partial relationship between the fields to which the attribute value belongs;
An inter-attribute partial relationship extraction device comprising: inter-field relationship setting means for determining a relationship between fields based on the strength of the partial relationship between fields calculated by the partial relationship strength calculating means.
(Additional remark 2) In the partial relationship extraction apparatus between the attributes of Claim 1,
The partial relation strength calculating means calculates the strength of the partial relation when the strength of the whole relation calculated by the whole relation strength calculating means is a predetermined threshold value or less. Extraction device.
(Supplementary Note 3) In the partial relation extraction device between attributes described in Supplementary Note 1 or Supplementary Note 2,
The partial relationship strength calculation means includes a subset acquisition means for acquiring a subset of the attribute values,
The partial relationship extracting unit is a partial relation extracting device between attributes, wherein the subset acquisition means performs a full search on a search target and acquires a maximum evaluation value.
(Supplementary Note 4) In the partial relationship extraction apparatus between attributes described in Supplementary Note 1 or Supplementary Note 2,
The partial relationship strength calculation means includes a subset acquisition means for acquiring a subset of the attribute values,
An apparatus for extracting a partial relationship between attributes, wherein the subset acquisition unit performs a full search on a designated search target and acquires a component having the maximum partial relationship strength.
(Supplementary Note 5) In the partial relation extracting device between attributes described in Supplementary Note 1 or Supplementary Note 2,
The partial relationship strength calculation means includes a subset acquisition means for acquiring a subset of the attribute values,
The apparatus for extracting a partial relationship between attributes, wherein the subset acquisition means acquires a partial relationship having a strength higher than a predetermined reference value.
(Supplementary note 6) In the partial relation extraction device between attributes described in any one of supplementary notes 1 to 5,
The inter-field relationship setting means, when the strength of the partial relation between fields calculated by the partial relation strength calculating means is greater than or equal to a predetermined threshold, the relation strength between the subsets as the relation between the fields A partial relation extracting device between attributes, characterized in that an evaluation point between fields is used, or whether or not there is a relation between subsets.
(Supplementary note 7) In the partial relation extraction device between attributes described in any one of supplementary notes 1 to 6,
The field group attribute value combinations that are constituent elements of the subset in which the strength of the partial relationship between fields calculated by the partial relationship strength calculating means is equal to or greater than a predetermined threshold are classified into a plurality of set groups, and each classification An apparatus for extracting a partial relationship between attributes, comprising first integration means for integrating attribute values in units.
(Supplementary note 8) In the partial relation extraction device between attributes described in any one of supplementary notes 1 to 7,
A second integration unit that integrates attribute values corresponding to an exclusive portion of the subset in which the strength of the partial relationship between fields calculated by the partial relationship strength calculation unit is equal to or greater than a predetermined threshold, to a constant value; A device for extracting a partial relationship between feature attributes.
(Supplementary note 9) In the partial relation extraction device between attributes described in any one of supplementary notes 1 to 8,
An apparatus for extracting a partial relationship between attributes, characterized by comprising a first designating means for designating a relation strength calculation method adopted for each field and a adoption condition for each of a plurality of fields.
(Supplementary note 10) In the partial relation extraction device between attributes described in any one of supplementary notes 1 to 9,
An apparatus for extracting a partial relationship between attributes, comprising: a second designating unit capable of designating a list of attribute value groups that may belong to the subset.
(Additional remark 11) In the partial relationship extraction apparatus between the attributes of Additional remark 7,
The apparatus for extracting a partial relationship between attributes, wherein the first integration unit includes a third specification unit that can specify an application condition or an application order in integration.
(Additional remark 12) Between attribute which makes a computer perform the partial relationship extraction method between the attributes in the model creation apparatus which comprises a predetermined model based on the attribute value in the some field which each of some data has, and the appearance frequency of this attribute value A partial relationship extraction program of
An overall relationship strength calculating step for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for a given attribute and its frequency distribution;
A partial relationship strength calculating step for calculating the strength of the partial relationship between fields to which the attribute value belongs based on a subset of attribute values appearing in the field group for the predetermined attribute;
An inter-attribute partial relationship extraction program comprising: an inter-field relationship setting step for determining a relationship between fields based on the strength of the partial relationship between fields calculated in the partial relationship strength calculating step.
(Additional remark 13) In the partial relationship extraction program between the attributes of Claim 12,
The partial relationship strength calculating step calculates the partial relationship strength when the strength of the overall relationship calculated by the overall relationship strength calculating step is equal to or less than a predetermined threshold. Extraction program.
(Supplementary Note 14) In the partial relationship extraction program between attributes described in Supplementary Note 12 or Supplementary Note 13,
The partial relationship strength calculation step includes a subset acquisition step of acquiring a subset of the attribute values,
The subset acquisition step is a program for extracting a partial relationship between attributes, characterized in that a search is performed for all search targets and the largest evaluation value is acquired.
(Supplementary Note 15) In the partial relationship extraction program between attributes described in Supplementary Note 12 or Supplementary Note 13,
The partial relationship strength calculation step includes a subset acquisition step of acquiring a subset of the attribute values,
The subset acquisition step is a program for extracting a partial relationship between attributes, characterized in that a full search is performed on a designated search target, and a component having the maximum partial relationship strength is acquired.
(Supplementary Note 16) In the partial relationship extraction program between attributes described in Supplementary Note 12 or Supplementary Note 13,
The partial relationship strength calculation step includes a subset acquisition step of acquiring a subset of the attribute values,
The partial set extraction step is a program for extracting a partial relationship between attributes, wherein a subset having a partial relationship strength exceeding a predetermined reference value is acquired.
(Supplementary Note 17) In the program for extracting a partial relationship between attributes described in any one of the supplementary notes 12 to 16,
The field relationship setting step includes a relationship strength between the subsets as a relationship between the fields when the strength of the partial relationship between fields calculated by the partial relationship strength calculation step is equal to or greater than a predetermined threshold. A program for extracting a partial relationship between attributes, characterized by defining an evaluation point between fields or determining whether or not there is a relationship between subsets.
(Supplementary note 18) In the partial relation extraction program between attributes described in any one of supplementary notes 12 to 17,
The field group attribute value combinations that are constituent elements of the subset in which the strength of the partial relationship between fields calculated by the partial relationship strength calculation step is equal to or greater than a predetermined threshold are classified into a plurality of set groups, and each classification A program for extracting a partial relationship between attributes, comprising a first integration step of integrating attribute values in units.
(Supplementary note 19) In the partial relationship extraction program between attributes described in any one of Supplementary notes 12 to 18,
A second integration step of integrating attribute values corresponding to exclusive portions of the subset in which the strength of the partial relationship between fields calculated in the partial relationship strength calculation step is equal to or greater than a predetermined threshold value to a constant value. A program for extracting partial relationships between feature attributes.
(Supplementary Note 20) A method for extracting a partial relationship between attributes in a model creation device that constitutes a predetermined model based on attribute values in a plurality of fields included in each of a plurality of data and the appearance frequency of the attribute values,
An overall relationship strength calculating step for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for a given attribute and its frequency distribution;
A partial relationship strength calculating step for calculating the strength of the partial relationship between fields to which the attribute value belongs based on a subset of attribute values appearing in the field group for the predetermined attribute;
A method of extracting a partial relationship between attributes, comprising: a step of setting a relationship between fields that determines a relationship between fields based on the strength of a partial relationship between fields calculated by the partial relationship strength calculation step.

本発明の実施の形態における概念を説明するブロック図である。It is a block diagram explaining the concept in embodiment of this invention. 本発明の実施の形態1の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of Embodiment 1 of this invention. 部分集合関係評価(部分集合類似度計算)を行う動作を示すフローチャートである。It is a flowchart which shows the operation | movement which performs a subset relationship evaluation (subset similarity calculation). 本発明の実施の形態2の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of Embodiment 2 of this invention. U.S.A.における個人情報のデータ例を示す図である。It is a figure which shows the example of data of the personal information in U.S.A. U.S.A.内個人情報モデルにおける出身分布を示す図である。It is a figure which shows the origin distribution in the personal information model in U.S.A. U.S.A.内個人情報モデルを示す図である。It is a figure which shows a U.S.A. personal information model. U.S.A.内個人情報モデルにおける出身国分布を示す図である。It is a figure which shows the origin country distribution in the personal information model in U.S.A. U.S.A.内個人情報モデルにおける出身国と学歴関係を示す図である。It is a figure which shows the country of origin and educational relations in the personal information model in U.S.A. U.S.A.内個人情報モデルにおける出身と学歴関係を示す図である。It is a figure which shows the origin and educational background relationship in a U.S.A. personal information model. 本実施の形態において得られるU.S.A.内個人情報モデルにおける出身国と学歴関係を示す図である。It is a figure which shows the country of origin and educational relationship in the U.S.A. personal information model obtained in this Embodiment. 本実施の形態におけるU.S.A.内個人情報モデルにおける出身国と学歴関係を示す図である。It is a figure which shows the origin country and educational relationship in the personal information model in U.S.A. in this Embodiment. 本実施の形態におけるU.S.A.内個人情報モデルを示す図である。It is a figure which shows the personal information model in U.S.A. in this Embodiment. BDe score計算法を示す図である。It is a figure which shows the BDe score calculation method. BDe 改造イメージを示す図である。It is a figure which shows a BDe remodeling image. 公知システムにおける出身−年収を示す図である。It is a figure which shows the origin-annual income in a well-known system. 本実施の形態における国と年収の関係を示す図である。It is a figure which shows the relationship between the country in this Embodiment, and annual income.

符号の説明Explanation of symbols

1 学習データの入力機構(DB)、2 モデル学習機構、3 評価基準計算機構(全体関係強度計算手段)、4 評価基準計算機構(部分関係強度計算手段)、5 関係強度の類似度計算機構(第1,第2統手段)、6 部分関係計算対象・条件指定機構(第1,第2,第3指定手段)、7 推論機構。   1 learning data input mechanism (DB), 2 model learning mechanism, 3 evaluation criteria calculation mechanism (overall relationship strength calculation means), 4 evaluation criteria calculation mechanism (partial relationship strength calculation means), 5 relationship strength similarity calculation mechanism ( (First and second means), 6 partial relation calculation object / condition designation mechanism (first, second, and third designation means), 7 inference mechanism.

Claims (8)

複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出装置であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定手段と
を備え
前記部分関係強度計算手段は、前記全体関係強度計算手段により計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算する属性間の部分関係抽出装置。
An apparatus for extracting a partial relationship between attributes in a model creation device that constitutes a predetermined model based on an attribute value in a plurality of fields included in each of a plurality of data and an appearance frequency of the attribute value,
An overall relationship strength calculating means for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for a predetermined attribute and its frequency distribution;
A partial relation strength calculating means for calculating the strength of a partial relation between fields to which the attribute value belongs based on a subset of attribute values appearing in the field group for the predetermined attribute;
An inter-field relationship setting means for determining a relationship between the fields based on the strength of the partial relationship between fields calculated by the partial relationship strength calculating means ;
The partial relationship intensity calculating means, partial relation extraction device between attributes strength of the calculated overall relationship by the overall relationship strength calculation means that to calculate the strength of the parts involved in the case of less than a predetermined threshold value.
請求項1に記載の属性間の部分関係抽出装置において、
前記field間関係設定手段は、前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出装置。
In the partial relationship extraction device between attributes according to claim 1,
The inter-field relationship setting means, when the strength of the partial relation between fields calculated by the partial relation strength calculating means is equal to or greater than a predetermined threshold, the relation strength between the subsets as the relation between the fields. Is an evaluation point between fields, or determines whether or not there is a relationship between subsets.
請求項1又は2に記載の属性間の部分関係抽出装置において、In the partial relationship extraction device between the attributes according to claim 1 or 2,
前記複数のfield間それぞれを対象として、各field間に対して採用する関係強度計算方式と採用条件とを指定可能とする指定手段を備えることを特徴とする属性間の部分関係抽出装置。An apparatus for extracting a partial relationship between attributes, characterized by comprising designation means for designating a relationship strength calculation method and an employment condition adopted for each field for each of the plurality of fields.
複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法をコンピュータに実行させる属性間の部分関係抽出プログラムであって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備え
前記部分関係強度計算ステップは、前記全体関係強度計算ステップにより計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算する属性間の部分関係抽出プログラム。
Extracting partial relations between attributes causing a computer to execute a method for extracting a partial relation between attributes in a model creation device that constitutes a predetermined model based on attribute values in a plurality of fields included in each of a plurality of data and the appearance frequency of the attribute values A program,
An overall relationship strength calculating step for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for a given attribute and its frequency distribution;
A partial relation strength calculating step for calculating the strength of a partial relation between fields to which the attribute value belongs based on a subset of attribute values appearing in the field group for the predetermined attribute;
A field relationship setting step for determining a relationship between the fields based on the strength of the partial relationship between fields calculated by the partial relationship strength calculating step ;
The partial relationship intensity calculating step, partial relationship extraction program between attributes strength of the calculated overall relationship by the overall relationship strength calculation step you calculate the strength of the parts involved in the case of less than a predetermined threshold value.
請求項に記載の属性間の部分関係抽出プログラムにおいて、
前記field間関係設定ステップは、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出プログラム。
In the partial relationship extraction program between the attributes according to claim 4 ,
In the inter-field relationship setting step, when the strength of the partial relationship between the fields calculated in the partial relationship strength calculating step is equal to or greater than a predetermined threshold, the relationship strength between the subsets is set as the relationship between the fields. Is an evaluation point between fields, or determines whether or not there is a relationship between subsets.
請求項4又は5に記載の属性間の部分関係抽出プログラムにおいて、In the partial relationship extraction program between the attributes according to claim 4 or 5,
前記複数のfield間それぞれを対象として、各field間に対して採用する関係強度計算方式と採用条件とを指定可能とする指定ステップを備えることを特徴とする属性間の部分関係抽出プログラム。A program for extracting a partial relationship between attributes, comprising a specifying step for specifying a relationship strength calculation method and a use condition adopted for each field for each of the plurality of fields.
複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備え
前記部分関係強度計算ステップは、前記全体関係強度計算ステップにより計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算する属性間の部分関係抽出方法。
A method for extracting a partial relationship between attributes in a model creation device that constitutes a predetermined model based on an attribute value in a plurality of fields included in each of a plurality of data and an appearance frequency of the attribute value,
An overall relationship strength calculating step for calculating the strength of the overall relationship between fields based on all attribute values appearing in the field group for a given attribute and its frequency distribution;
A partial relation strength calculating step for calculating the strength of a partial relation between fields to which the attribute value belongs based on a subset of attribute values appearing in the field group for the predetermined attribute;
A field relationship setting step for determining a relationship between the fields based on the strength of the partial relationship between fields calculated by the partial relationship strength calculating step ;
The partial relationship intensity calculating step, portions relation extraction method between attributes strength of the calculated overall relationship by the overall relationship strength calculation step you calculate the strength of the parts involved in the case of less than a predetermined threshold value.
請求項7に記載の属性間の部分関係抽出方法において、In the partial relationship extraction method between the attributes according to claim 7,
前記複数のfield間それぞれを対象として、各field間に対して採用する関係強度計算方式と採用条件とを指定可能とする指定ステップを備えることを特徴とする属性間の部分関係抽出方法。A method for extracting a partial relationship between attributes, comprising: a designation step for designating a relationship strength calculation method and an employment condition adopted for each field for each of the plurality of fields.
JP2006237540A 2006-09-01 2006-09-01 Apparatus, method, and program for extracting partial relationship between attributes Expired - Fee Related JP4957127B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006237540A JP4957127B2 (en) 2006-09-01 2006-09-01 Apparatus, method, and program for extracting partial relationship between attributes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006237540A JP4957127B2 (en) 2006-09-01 2006-09-01 Apparatus, method, and program for extracting partial relationship between attributes

Publications (2)

Publication Number Publication Date
JP2008059433A JP2008059433A (en) 2008-03-13
JP4957127B2 true JP4957127B2 (en) 2012-06-20

Family

ID=39242063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006237540A Expired - Fee Related JP4957127B2 (en) 2006-09-01 2006-09-01 Apparatus, method, and program for extracting partial relationship between attributes

Country Status (1)

Country Link
JP (1) JP4957127B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5146084B2 (en) * 2008-04-30 2013-02-20 富士通株式会社 Model creation support system, model creation support method, model creation support program
JP5434742B2 (en) * 2010-03-29 2014-03-05 富士通株式会社 Work amount estimation program, work amount estimation method, and work amount estimation device
US8745099B2 (en) 2011-11-11 2014-06-03 Håkan Wolgé Dimension limits in information mining and analysis
WO2018042550A1 (en) * 2016-08-31 2018-03-08 株式会社オプティム Annual salary proposal system, annual salary proposal method and program
JP6494576B2 (en) * 2016-09-16 2019-04-03 ヤフー株式会社 Estimation apparatus, estimation method, and estimation program
JP7067236B2 (en) * 2018-04-20 2022-05-16 富士通株式会社 Machine learning data generation method and machine learning data generation program
WO2023027107A1 (en) * 2021-08-25 2023-03-02 富士フイルム株式会社 Prediction device for predicting information about patient, operation method for prediction device, and program
JP7410209B2 (en) * 2022-04-20 2024-01-09 Lineヤフー株式会社 Information processing device, information processing method, and information processing program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3350815B2 (en) * 1999-07-08 2002-11-25 本田技研工業株式会社 Vehicle driving force control device
JP2001265596A (en) * 2000-03-15 2001-09-28 Mitsubishi Electric Corp Device and method for mining data

Also Published As

Publication number Publication date
JP2008059433A (en) 2008-03-13

Similar Documents

Publication Publication Date Title
Chen et al. Forecasting seasonal tourism demand using a multiseries structural time series method
JP4957127B2 (en) Apparatus, method, and program for extracting partial relationship between attributes
US11405344B2 (en) Social media influence of geographic locations
JP5885875B1 (en) Data analysis system, data analysis method, program, and recording medium
US8548996B2 (en) Ranking content items related to an event
US8880600B2 (en) Creating groups of users in a social networking system
JP6066826B2 (en) Analysis system and health business support method
US10545997B2 (en) Consensus sequence identification
US9110969B2 (en) Association acceleration for transaction databases
KR101897080B1 (en) Method and Apparatus for generating association rules between medical words in medical record document
US20190065550A1 (en) Query optimizer for combined structured and unstructured data records
US20160140190A1 (en) Data representation
Nelson et al. A measure of association for ordered categorical data in population-based studies
JP6003637B2 (en) Information processing apparatus, node extraction program, and node extraction method
Noh et al. An efficient Bayesian framework for updating PAGER loss estimates
De Neve et al. A Mann–Whitney type effect measure of interaction for factorial designs
Tate Indices of social vulnerability to hazards: model uncertainty and sensitivity
JP5933863B1 (en) Data analysis system, control method, control program, and recording medium
WO2016166598A1 (en) Requirements determination
KR101274431B1 (en) Apparatus and method for determining health using survey information, apparatus and method for generating health sort function
Li et al. InterVA4: An R package to analyze verbal autopsy data
WO2016056095A1 (en) Data analysis system, data analysis system control method, and data analysis system control program
CN113836313B (en) Audit information identification method and system based on map
US20230229937A1 (en) Ai training data creation support system, ai training data creation support method, and ai training data creation support program
Bakr et al. Cooperative spatial decision support system for controlling animal diseases outbreaks in Egypt

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees