JP2010152692A - Similarity calculation apparatus, similarity calculation method and program - Google Patents
Similarity calculation apparatus, similarity calculation method and program Download PDFInfo
- Publication number
- JP2010152692A JP2010152692A JP2008330765A JP2008330765A JP2010152692A JP 2010152692 A JP2010152692 A JP 2010152692A JP 2008330765 A JP2008330765 A JP 2008330765A JP 2008330765 A JP2008330765 A JP 2008330765A JP 2010152692 A JP2010152692 A JP 2010152692A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- similarity
- data
- value
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、類似度計算装置、類似度計算方法およびプログラムに関する。 The present invention relates to a similarity calculation device, a similarity calculation method, and a program.
複数の属性(項目とも称される)のそれぞれに1対1で対応する複数の属性データ(以下「属性値」と称する)を持つデータが、さまざまな分野で使用されている。 Data having a plurality of attribute data (hereinafter referred to as “attribute values”) one-to-one corresponding to each of a plurality of attributes (also referred to as items) is used in various fields.
例えば、自動車の複数センサから収集される複数の属性値を持つ車両状態データは、属性として、車両の速度、エンジン回転数、および、シフトポジション等を持つ。また、これらの属性の中には、データが取得される車両の車種や年式、グレード等により、属性値が取得されない属性(属性値が欠損している属性)が存在したり、または、センサの不具合により、車両状態データ内の一部の属性値が欠損してしまう場合もある。 For example, vehicle state data having a plurality of attribute values collected from a plurality of sensors of an automobile has a vehicle speed, an engine speed, a shift position, and the like as attributes. In addition, among these attributes, there is an attribute whose attribute value is not acquired (an attribute whose attribute value is missing) depending on the type, year, grade, etc. of the vehicle from which data is acquired, or a sensor Due to the above problem, some attribute values in the vehicle state data may be lost.
複数の属性値のうちの一部の属性値が欠損しているデータ同士の類似度を計算する方法として、欠損している属性値(以下「欠損値」と称する)自体をある代表値、例えば0や平均値などで補完し、欠損値が補完されたデータ同士の類似度を計算する方法がある。 As a method of calculating the similarity between data in which some of the attribute values are missing, the missing attribute value (hereinafter referred to as “missing value”) itself is a representative value, for example, There is a method of calculating the similarity between the data complemented with 0 or an average value and the missing value supplemented.
特許文献1には、欠損値を有する属性(以下「特定属性」と称する)以外の属性に対応する属性値を用いて、欠損値を持たないデータの中から、欠損値を持つデータに類似した類似データを求め、類似データが持つ属性値の中から、特定属性に対応する属性値を特定し、その特定された属性値で欠損値を補完する方法が記載されている。
欠損値を代表値で補完すると、データ間の類似度の計算の際に、類似度の偏りが生じてしまうという課題があった。 When the missing value is complemented with the representative value, there is a problem that the similarity is biased when calculating the similarity between the data.
また、類似データを用いて欠損値を補完したデータと、その類似データと、の間の類似度を計算すると、そのデータ間が不当に類似してしまう。このため、類似性の高いデータを用いて欠損値を補完する方法は、欠損値を持つデータと他のデータとの類似度を求める際には適した方法ではなかった。 Moreover, if the similarity between the data which complemented the missing value using similar data and the similar data is calculated, the data will be unfairly similar. For this reason, the method of complementing a missing value using highly similar data is not a suitable method for obtaining the similarity between data having a missing value and other data.
よって、欠損値を持つデータと他のデータとの類似度の計算では、類似度の計算結果の信頼性が低くなるという課題があった。 Therefore, in the calculation of the similarity between data having missing values and other data, there is a problem that the reliability of the calculation result of the similarity is lowered.
本発明の目的は、上記課題を解決可能な類似度計算装置、類似度計算方法およびプログラムを提供することである。 The objective of this invention is providing the similarity calculation apparatus, similarity calculation method, and program which can solve the said subject.
本発明の類似度計算装置は、予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付ける受付手段と、前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶する記憶手段と、前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算する第1計算手段と、前記第1計算手段にて計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する第2計算手段と、を含む。 In the similarity calculation device of the present invention, an attribute value corresponding to an attribute associated with the region is described in each region associated with each predetermined attribute on a one-to-one basis, or the attribute value is described. Receiving means for receiving the first and second data that has not been performed, storage means for storing distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute, for each attribute, and the attribute value For the attribute described in both the first and second data, the similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least one of the first and second data. About the attribute which does not exist, it calculated by the 1st calculation means which calculates the expected value of the similarity degree of the attribute value corresponding to the said attribute using the distribution information in the said storage means, and the said 1st calculation means Similarity and Based on the expected value of the similarity, and a second calculating means for calculating a similarity between the first and second data.
本発明の類似度計算方法は、類似度計算装置が行う類似度計算方法であって、予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付け、前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶手段に記憶し、前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算し、前記計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する。 The similarity calculation method of the present invention is a similarity calculation method performed by the similarity calculation device, and corresponds to each region associated with each predetermined attribute in a one-to-one correspondence with the attribute associated with the region. Distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute, for each attribute, accepting first and second data in which the attribute value is described or the attribute value is not described Is stored in the storage means, and for the attribute whose attribute value is described in both the first and second data, the similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least For an attribute that does not exist in one of the first and second data, an expected value of similarity between attribute values corresponding to the attribute is calculated using the distribution information in the storage unit, and the calculated Similarity and Based on the expected value of similarity score to calculate the similarity between the first and second data.
本発明のプログラムは、コンピュータに、予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付ける受付処理と、前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶手段に記憶する記憶処理と、前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算する第1計算処理と、前記計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する第2計算処理と、を実行させる。 According to the program of the present invention, an attribute value corresponding to an attribute associated with the area is described in each area associated with each predetermined attribute on the computer, or the attribute value is described. Receiving processing for receiving the first and second data that has not been performed, storage processing for storing distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute for each attribute in the storage means, For an attribute whose attribute value is described in both the first and second data, the similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least the first and second data. For the attribute that does not exist in one of the above, the first calculation process that calculates the expected value of the similarity between the attribute values corresponding to the attribute using the distribution information in the storage means, and the calculated similarity And based on the similarity of the expected value, a second calculation process of calculating a similarity between the first and second data, to the execution.
本発明によれば、欠損値を持つデータと他のデータとの類似度の計算において、類似度の計算結果の信頼性の低下を防止することが可能になる。 According to the present invention, in the calculation of the similarity between data having missing values and other data, it is possible to prevent a decrease in reliability of the calculation result of the similarity.
以下、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施の形態)
図1は、本発明の第1の実施の形態の類似度計算装置100を示したブロック図である。
(First embodiment)
FIG. 1 is a block diagram showing a
類似度計算装置100は、入力処理部110と、データ分布記憶部120と、計算部130および140と、を含む。計算部130は、属性間類似度計算処理部130aと、期待値計算処理部130bと、を含む。計算部140は、類似度統合処理部140aと、出力処理部140bと、を含む。
入力処理部110は、一般的に受付手段と呼ぶことができる。
入力処理部110は、データ間の類似度を計算する対象となるデータ(以下「計算対象データ」と称する)、あるいは、データ分布記憶部120に記憶させるデータ分布を表す分布情報を入力する機能を有する。
The
入力処理部110は、計算対象データとして、第1のデータおよび第2のデータを受け付ける。
The
第1のデータおよび第2のデータのそれぞれは、予め定められた各属性に1対1で関連づけられた各領域を有する。各領域には、その領域に関連づけられた属性に対応する属性値が記載されているか、または、その属性値が記載されていない。 Each of the first data and the second data has each area associated with each predetermined attribute on a one-to-one basis. In each area, an attribute value corresponding to an attribute associated with the area is described, or the attribute value is not described.
図2は、第1のデータの一例を示した説明図であり、図3は、第2のデータの一例を示した説明図である。図2および3では、属性として、車両の速度、エンジン回転数、および、シフトポジションが用いられている。なお、第1および第2のデータは、図2、3に示したものに限らず適宜変更可能である。 FIG. 2 is an explanatory diagram showing an example of the first data, and FIG. 3 is an explanatory diagram showing an example of the second data. 2 and 3, the vehicle speed, engine speed, and shift position are used as attributes. The first and second data are not limited to those shown in FIGS. 2 and 3 and can be changed as appropriate.
図2に示した第1のデータでは、属性である「速度」に関連づけられた領域2aには、「速度」に対応する属性値である「AAAA」が記載されている。また、属性である「エンジン回転数」に関連づけられた領域2bには、「エンジン回転数」に対応する属性値である「XXXX」が記載されている。また、属性である「シフトポジション」に関連づけられた領域2cには、「シフトポジション」に対応する属性値、さらに言えば、なんらの値も記載されていない。
In the first data shown in FIG. 2, the
図3に示した第2のデータでは、属性である「速度」に関連づけられた領域3aには、「速度」に対応する属性値である「BBBB」が記載されている。また、属性である「エンジン回転数」に関連づけられた領域3bには、「エンジン回転数」に対応する属性値、さらに言えば、なんらの値も記載されていない。また、属性である「シフトポジション」に関連づけられた領域3cには、「シフトポジション」に対応する属性値、さらに言えば、なんらの値も記載されていない。
In the second data shown in FIG. 3, the attribute value “BBBB” corresponding to “speed” is described in the
また、入力処理部110は、第1および第2のデータが有する属性ごとに、その属性に対応する属性値が取り得る値の分布(例えば、確率分布または確率密度関数)を表す分布情報を受け付ける。
Further, the
入力処理部110は、キーボード等のように人間から直接データを受け付ける装置のみならず、外部システム等と接続されるインターフェースなどでもよい。
The
データ分布記憶部120は、一般的に記憶手段と呼ぶことができる。
Data
データ分布記憶部120は、入力処理部110から入力された属性ごとの分布情報を記憶しておく機能を備えている。ただし、分布情報は、入力処理部110から入力されず、予め記憶されていてもよい。
The data
計算部130は、一般的に第1計算手段と呼ぶことができる。
計算部130は、属性値が第1および第2のデータの両方に存在する属性(例えば、図2および3での「速度」)については、その属性に対応する属性値同士の類似度を計算する。
For the attribute whose attribute value exists in both the first and second data (for example, “speed” in FIGS. 2 and 3), the
また、計算部130は、属性値が少なくとも第1および第2のデータの一方に存在しない属性(例えば、図2および3での「エンジン回転数」および「シフトポジション」)については、データ分布記憶部120内の分布情報を用いて、その属性に対応する属性値同士の類似度の期待値を計算する。
Further, the
例えば、計算部130は、属性ごとに、その属性に対応する属性値が、第1および第2のデータの両方に存在するか判定する。計算部130は、属性値が両方に存在する場合、その属性値同士の類似度を計算し、属性値が少なくとも第1および第2のデータの一方に存在しない場合、データ分布記憶部120内の分布情報を用いて、その属性に対応する属性値同士の類似度の期待値を計算する。
For example, for each attribute, the
属性間類似度計算処理部130aは、属性値が第1および第2のデータの両方に存在する属性について、その属性に対応する属性値同士の類似度を計算する。
The inter-attribute similarity
期待値計算処理部130bは、属性値が少なくとも第1および第2のデータの一方に存在しない属性について、データ分布記憶部120内の分布情報を用いて、その属性に対応する属性値同士の類似度の期待値を計算する。
The expected value
計算部140は、一般的に第2計算手段と呼ぶことができる。
計算部140は、計算部130にて計算された類似度および類似度の期待値に基づいて、第1および第2のデータの類似度を計算する。
The
例えば、計算部140は、計算部130にて計算された類似度および類似度の期待値を加算し、その加算結果を、第1および第2のデータの類似度とする。
For example, the
類似度統合処理部140aは、計算部130での属性ごとの計算結果を統合し、第1および第2のデータの類似度を計算する。
The similarity
出力処理部140bは、類似度統合処理部140aにて計算されたデータ間類似度を出力する機能を有する。出力処理部140bは、ディスプレイや音声による出力、あるいは外部システム等と接続されるインターフェースなどでもよい。
The
次に、動作を説明する。 Next, the operation will be described.
図4は、類似度計算装置100の動作を説明するためのフローチャートである。以下、図1および図4を参照して類似度計算装置100の動作を説明する。
FIG. 4 is a flowchart for explaining the operation of the
まず、入力処理部110は、類似度を計算する対象となる第1および第2のデータを受け付ける(ステップA1)。
First, the
以下説明のために、第1および第2のデータを、それぞれx1、x2とベクトルで表記する。 Hereinafter, for the sake of explanation, the first and second data are expressed by vectors x 1 and x 2 , respectively.
ただし、x1およびx2のj番目の属性は、同一の属性を表し、j番目の属性に対応する属性値をx1jおよびx2jと表記する。 However, the j-th attribute of x 1 and x 2 represents the same attribute, and attribute values corresponding to the j-th attribute are expressed as x 1j and x 2j .
なお、入力されたデータ内にj番目の属性に対応する属性値が存在しない場合、すなわち、j番目の属性に関連する領域内に値が無い(例えば、mull)場合には、その属性値は欠損値として扱われる。 If there is no attribute value corresponding to the jth attribute in the input data, that is, if there is no value in the area related to the jth attribute (for example, mull), the attribute value is Treated as missing values.
次に、計算部130は、x1およびx2の各属性に関して、以下に示すステップA2からステップA6の処理を繰り返し行なう。以下ではj番目の属性に関する処理を説明することとする。
Then,
まず、属性間類似度計算処理部130aは、x1jおよびx2jの少なくともいずれかが欠損しているかを確認する(ステップA2)。
First, the attribute similarity
x1jおよびx2jの両方とも欠損していない場合には(ステップA3)、属性間類似度計算処理部130aは、自己に記憶されている属性間類似度を計算するための計算式に基づいて、x1jとx2jとの属性間類似度を計算する(ステップA4)。
When neither x 1j nor x 2j is missing (step A3), the attribute similarity
ここで、属性間類似度は、x1jとx2jに関して計算される任意の関数で表され、j番目の属性に関する属性間類似度をgj(x1j,x2j)と表記する。 Here, the similarity between attributes is represented by an arbitrary function calculated with respect to x 1j and x 2j , and the similarity between attributes regarding the j-th attribute is expressed as g j (x 1j , x 2j ).
属性間類似度は、データが類似しているほど大きい値をとってもよいし、データが類似しているほど小さい値をとってもよいこととする。 The similarity between attributes may take a larger value as the data is similar, or may take a smaller value as the data is similar.
属性間類似度としては、例えば、j番目の属性に対応する属性値が連続値をとる場合には、2乗距離(x1j−x2j)2や絶対値距離|x1j−x2j|などを利用可能であるし、j番目の属性に対応する属性値が離散値をとる場合には、ハミング距離(x1jとx2jが一致する場合には0、一致しない場合には1)などを利用することが可能である。 As the similarity between attributes, for example, when the attribute value corresponding to the jth attribute takes a continuous value, the square distance (x 1j −x 2j ) 2 or the absolute value distance | x 1j −x 2j | If the attribute value corresponding to the jth attribute takes a discrete value, the Hamming distance (0 if x 1j and x 2j match, 1 if not, etc.) It is possible to use.
x1jあるいはx2jが欠損している場合には(ステップA3)、属性間類似度計算処理部130aは、gj(x1j,x2j)を直接計算することができない。このため、属性間類似度計算処理部130aは、期待値計算処理部130bを動作させる。期待値計算処理部130bは、データ分布記憶部120からj番目の属性に関する分布情報を読み込み、分布情報が表す確率分布(あるいは確率密度関数)pjを用いて、属性間類似度の期待値を計算する。期待値計算処理部130bは、その計算結果を属性間類似度計算処理部130aに提供する(ステップA5)。
When x 1j or x 2j is missing (step A3), the attribute similarity
このため、属性間類似度計算処理部130aは、属性ごとに、属性間類似度、または、属性間類似度の期待値を有することになる。
For this reason, the attribute similarity
ここで、pjとしては、j番目の属性に対応する属性値が離散値やシンボル値(変数の値を、整数などの実際の値ではなく、記号などのシンボルとして表現した値)をとる場合には、例えば、多項分布などの離散値の分布を利用することが可能であり、j番目の属性が実数値をとる場合には、正規分布などの連続値の分布を利用することが可能である。 Here, as p j , the attribute value corresponding to the j-th attribute takes a discrete value or a symbol value (a value representing a variable value as a symbol such as a symbol instead of an actual value such as an integer). For example, a discrete value distribution such as a multinomial distribution can be used. When the jth attribute takes a real value, a continuous value distribution such as a normal distribution can be used. is there.
以下、期待値の計算の具体的な手順を説明する。 Hereinafter, a specific procedure for calculating the expected value will be described.
まず、x1jとx2jのうち、片側のみが欠損している場合には、欠損していない属性値を活用するために、期待値計算処理部130bは、(1)式に従って、属性間類似度の期待値を計算する。
First, when only one side of x 1j and x 2j is missing, the expected value
なお、(1)式は、x2jのみが欠損している場合に用いる計算式であるが、x1jのみが欠損している場合には、期待値計算処理部130bは、(1)式のx1jをx2jに入れ替えることによって、同様の手法で属性間類似度の期待値を計算可能である。
Note that equation (1) is a calculation equation used when only x 2j is missing, but when only x 1j is missing, the expected value
なお、(1)式において、xとしては、j番目の属性に対応する属性値が取り得るすべての値が用いられる。 In Equation (1), as x, all values that can be taken by the attribute value corresponding to the j-th attribute are used.
次に、x1jとx2jの両方が欠損している場合には、期待値計算処理部130bは、データの持つ属性値を利用できないため、期待値計算処理部130bは、(2)式に従って、属性間類似度の期待値を計算する。
Next, when both x 1j and x 2j are missing, the expected value
なお、(2)式において、xおよびyとしては、j番目の属性に対応する属性値が取り得るすべての値が用いられる。 In Expression (2), as x and y, all values that can be taken by the attribute value corresponding to the j-th attribute are used.
(1)式および(2)式は、j番目の属性に対応する属性値が連続値をとる場合も含めるため、期待値の計算手法として積分が用いられているが、j番目の属性に対応する属性値が離散値をとる場合には、期待値計算処理部130bは、積分を和に置き換えて、属性間類似度の期待値を計算してもよい。
Equations (1) and (2) include the case where the attribute value corresponding to the jth attribute takes a continuous value, and therefore integration is used as the expected value calculation method, but this corresponds to the jth attribute. When the attribute value to be taken takes a discrete value, the expected value
なお、(1)式に従った期待値の計算は、j番目の属性に対応する属性値が有限数の離散値をとる場合には、事前に計算しておくことが可能であり、期待値計算処理部130bまたはデータ分布記憶部120は、その値を予め記憶しておいてもよい。
Note that the expected value according to the equation (1) can be calculated in advance when the attribute value corresponding to the jth attribute takes a finite number of discrete values. The
(2)式に従った期待値計算は、j番目の属性に対応する属性値の種類に関わらず事前に計算可能であるため、期待値計算処理部130bまたはデータ分布記憶部120は、その値を予め記憶しておいてもよい。
Since the expected value calculation according to the equation (2) can be calculated in advance regardless of the type of the attribute value corresponding to the jth attribute, the expected value
期待値の計算に関して、j番目の属性に対応する属性値が離散値をとり、gj(x1j,x2j)としてハミング距離を利用し、pjとして多項分布を利用する場合について説明すると、(1)式として(3)式を用いることが可能であり、(2)式として(4)式を用いることが可能である。 Regarding the calculation of the expected value, the case where the attribute value corresponding to the jth attribute takes a discrete value, uses the Hamming distance as g j (x 1j , x 2j ), and uses the multinomial distribution as p j . The expression (3) can be used as the expression (1), and the expression (4) can be used as the expression (2).
ただし、(3)式において、x1jはj番目の属性に対応する属性値が取り得る離散値のうちのk番目の離散値をとるとし、pk jはj番目の属性に対応する属性値としてk番目の離散値が出現する確率を表すとする。 In Equation (3), x 1j is the kth discrete value of the discrete values that can be taken by the attribute value corresponding to the jth attribute, and p k j is the attribute value corresponding to the jth attribute. Let k denote the probability that the k-th discrete value will appear.
属性間類似度計算処理部130aは、j番目の属性について、属性間類似度、または、属性間類似度の期待値を得ると、残りの属性があるか確認し、残りの属性がある場合には、計算の対象となる属性を更新して、処理をステップA2に戻し、残りの属性がなければ、処理をステップA7に進める(ステップA6)。
When the inter-attribute similarity
ステップA7では、類似度統合処理部140aは、ステップA2からステップA6で計算された各属性に関する属性間類似度あるいはその期待値を統合することによって、第1および第2のデータ間の類似度を計算する。
In step A7, the similarity
本実施形態では、類似度統合処理部140aは、ステップA2からステップA6で計算された、各属性に関する属性間類似度あるいはその期待値をsjとすると、(5)式に従って、第1および第2のデータ間の類似度を、sjに関する任意の関数として定義することが可能である。
In this embodiment, the similarity
ただし、fは任意の関数、dはx1およびx2が有する属性の数である。 Here, f is an arbitrary function, and d is the number of attributes that x 1 and x 2 have.
fの具体的な例としては、各属性の属性間類似度の和である(6)式が挙げられる。 As a specific example of f, Expression (6), which is the sum of similarity between attributes of each attribute, can be given.
また、sjに関する任意の非線形関数をfとして利用することが可能である。 It is also possible to use any nonlinear function related to s j as f.
出力処理部140bは、ステップA7で計算されたデータ間類似度を出力する(ステップA8)。
The
次に、本実施形態の効果を説明する。 Next, the effect of this embodiment will be described.
本実施形態によれば、計算部130は、属性値が第1および第2のデータの両方に存在する属性については、その属性に対応する属性値同士の類似度を計算し、属性値が少なくとも第1および第2のデータの一方に存在しない属性については、データ分布記憶部120内の分布情報を用いて、その属性に対応する属性値同士の類似度の期待値を計算する。
According to the present embodiment, for an attribute whose attribute value exists in both the first and second data, the
計算部140は、計算部130にて計算された類似度および類似度の期待値に基づいて、第1および第2のデータの類似度を計算する。
The
このため、類似度が計算される2つのデータの一方あるいは両方に欠損値がある場合であっても、その欠損している属性値の取りうる値の分布を利用して、その属性に関する属性間類似度の期待値を計算し、その期待値を利用して、第1および第2のデータの類似度が計算される。 For this reason, even if one or both of the two data for which the similarity is calculated has a missing value, the distribution of possible values of the missing attribute value is used to determine the attribute An expected value of similarity is calculated, and the similarity between the first and second data is calculated using the expected value.
よって、類似度が計算される2つのデータの一方あるいは両方に欠損値がある場合であっても、信頼性の高いデータ間類似度を計算することが可能となる。 Therefore, even when one or both of the two data whose similarity is calculated has a missing value, it is possible to calculate the similarity between data with high reliability.
また、本実施形態では、計算部140は、計算部130にて計算された類似度および類似度の期待値を加算し、その加算結果を、第1および第2のデータの類似度とする。
In the present embodiment, the
この場合、第1および第2のデータの類似度を容易に計算することができる。 In this case, the similarity between the first and second data can be easily calculated.
(第2の実施の形態)
次に、本発明の第2の実施の形態の類似度計算装置200を説明する。
(Second Embodiment)
Next, a
図5は、類似度計算装置200を示したブロック図である。図5において、図1に示したものと同一のものには同一符号を付してある。
FIG. 5 is a block diagram showing the
類似度計算装置200は、図1に示す類似度計算装置100の構成に加え、分布を学習するためのデータを入力する入力処理部210と、データの分布を学習するためのデータ分布学習処理部220と、を含む。
In addition to the configuration of the
入力処理部210は、一般的に学習用データ受付手段と呼ぶことができる。
入力処理部210は、各属性に1対1で関連づけられた各領域に、その領域に関連づけられた属性に対応する属性値が記載されているかまたはその属性値が記載されていない複数の学習用データを受け付ける。
The
データ分布学習処理部220は、一般的に処理手段と呼ぶことができる。
Data distribution
データ分布学習処理部220は、入力処理部210が受け付けた複数の学習用データに基づいて、属性ごとに分布情報を生成し、その分布情報をデータ分布記憶部120に記憶する。
The data distribution
類似度計算装置200は、入力処理部210とデータ分布学習処理部220とを含むため、必ずしも予め分布情報を記憶しておく必要がなく、データの分布が事前に計算可能な場合には、分布を学習するためのデータ(学習用データ)を入力し、そのデータから分布を計算、学習して記憶しておくことが可能となる。
Since the
類似度計算装置200の動作は、図4に示す類似度計算装置100の動作とほぼ同様であるが、期待値計算処理部130bが単一属性の属性間類似度の期待値を計算するステップA5のみが異なる。
The operation of the
類似度計算装置100では、単一属性の属性間類似度の期待値を計算する際、予め記憶されていた分布情報を利用したが、類似度計算装置200では、図6に示す動作で記憶した分布情報を利用して単一属性の属性間類似度の期待値を計算することができる。
In the
図6を参照すると、まず、入力処理部210が、複数の学習用データを受け付ける(ステップB1)。
Referring to FIG. 6, first, the
データ分布学習処理部220は、複数の学習用データに基づいて、属性ごとに、分布情報を計算する。この際、計算される分布は、例えば、離散値における多項分布などであるが、連続値などで分布を計算できないものについては、類似度計算装置100と同様に、予めデータ分布記憶部120に記憶しておくことで対応可能である(ステップB2)。
The data distribution
ステップB2の処理は、全属性に対して行われる。 The process of step B2 is performed for all attributes.
データ分布学習処理部220は、全属性について計算された分布情報をデータ分布記憶部120に記憶する(ステップB3)。
The data distribution
本実施形態では、データ分布学習処理部220は、入力処理部210が受け付けた複数の学習用データに基づいて、属性ごとに分布情報を生成し、その分布情報をデータ分布記憶部120に記憶する。
In the present embodiment, the data distribution
このため、必ずしも予め分布情報を記憶しておく必要がなく、分布情報を事前に計算可能な場合には、学習用データを用いて分布情報を計算、学習して記憶しておくことが可能となる。 For this reason, it is not always necessary to store the distribution information in advance, and if the distribution information can be calculated in advance, the distribution information can be calculated, learned and stored using learning data. Become.
上記各実施形態は、自動車の複数センサから収集される複数の属性値を持つデータ同士の類似度を計算する際、あるいは、様々な入力属性を利用する市場予測や金融関連の予測システム、更には様々なコンピュータ関連機器の状態類似度計算など、様々な用途に適用可能である。 In each of the above embodiments, when calculating the degree of similarity between data having a plurality of attribute values collected from a plurality of sensors of an automobile, or a market prediction or a financial related prediction system using various input attributes, It can be applied to various uses such as state similarity calculation of various computer-related devices.
なお、類似度計算装置100および200は、専用のハードウェアにより実現されるもの以外に、入力処理部110、データ分布記憶部120、計算部130および計算部140、入力処理部210、および、データ分布学習処理部220の各機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。
The
コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM(Compact Disk Read Only Memory)等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。 The computer-readable recording medium refers to a recording medium such as a flexible disk, a magneto-optical disk, a CD-ROM (Compact Disk Read Only Memory), and a storage device such as a hard disk device built in the computer system.
さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。 Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short period of time, as in the case of transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.
以上説明した各実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。 In each embodiment described above, the illustrated configuration is merely an example, and the present invention is not limited to the configuration.
100 類似度計算装置
110 入力処理装置
120 データ分布記憶装置
130 計算部
130a 属性間類似度計算処理部
130b 期待値計算処理部
140 計算部
140a 類似度統合処理部
140b 出力処理部
200 類似度計算装置
210 入力処理部
220 データ分布学習処理部
100
Claims (9)
前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶する記憶手段と、
前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算する第1計算手段と、
前記第1計算手段にて計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する第2計算手段と、を含む類似度計算装置。 First and second attribute values corresponding to the attribute associated with the region are described in each region associated with each predetermined attribute on a one-to-one basis, or the attribute value is not described. Receiving means for receiving data; and
Storage means for storing, for each attribute, distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute;
For an attribute whose attribute value is described in both the first and second data, a similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least the first and second data. For attributes that do not exist in one of the data, using the distribution information in the storage means, a first calculation means for calculating the expected value of the similarity between the attribute values corresponding to the attribute;
And a second calculation means for calculating the similarity between the first and second data based on the similarity calculated by the first calculation means and the expected value of the similarity.
前記各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない複数の学習用データを受け付ける学習用データ受付手段と、
前記複数の学習用データに基づいて、前記属性ごとに前記分布情報を生成し、当該分布情報を前記記憶手段に記憶する処理手段と、をさらに含む類似度計算装置。 The similarity calculation apparatus according to claim 1,
In each region, an attribute value corresponding to an attribute associated with the region is described, or learning data receiving means for receiving a plurality of learning data in which the attribute value is not described,
A similarity calculation device further comprising: processing means for generating the distribution information for each of the attributes based on the plurality of learning data and storing the distribution information in the storage means.
前記第2計算手段は、前記第1計算手段にて計算された類似度および類似度の期待値を加算し、その加算結果を、前記第1および第2のデータの類似度とする、類似度計算装置。 In the similarity calculation apparatus according to claim 1 or 2,
The second calculation means adds the similarity calculated by the first calculation means and the expected value of the similarity, and sets the addition result as the similarity of the first and second data. Computing device.
予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付け、
前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶手段に記憶し、
前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算し、
前記計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する、類似度計算方法。 A similarity calculation method performed by the similarity calculation device,
First and second attribute values corresponding to the attribute associated with the region are described in each region associated with each predetermined attribute on a one-to-one basis, or the attribute value is not described. Accept data,
For each of the attributes, distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute is stored in the storage unit,
For an attribute whose attribute value is described in both the first and second data, a similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least the first and second data. For attributes that do not exist in one of the data, the distribution information in the storage means is used to calculate the expected value of the similarity between the attribute values corresponding to the attribute,
A similarity calculation method for calculating a similarity between the first data and the second data based on the calculated similarity and an expected value of the similarity.
前記各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない複数の学習用データを受け付け、
前記複数の学習用データに基づいて、前記属性ごとに前記分布情報を生成すること、をさらに含み、
前記分布情報を記憶する際には、前記生成された分布情報を前記記憶手段に記憶する、類似度計算方法。 The similarity calculation method according to claim 4,
In each of the areas, an attribute value corresponding to an attribute associated with the area is described, or a plurality of learning data in which the attribute value is not described is received,
Generating the distribution information for each of the attributes based on the plurality of learning data,
A similarity calculation method of storing the generated distribution information in the storage means when storing the distribution information.
前記第1および第2のデータの類似度を計算する際に、前記計算された類似度および類似度の期待値を加算し、その加算結果を、前記第1および第2のデータの類似度とする、類似度計算方法。 The similarity calculation method according to claim 4 or 5,
When calculating the similarity between the first and second data, the calculated similarity and the expected value of the similarity are added, and the addition result is calculated as the similarity between the first and second data. A similarity calculation method.
予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付ける受付処理と、
前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶手段に記憶する記憶処理と、
前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算する第1計算処理と、
前記計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する第2計算処理と、を実行させるためのプログラム。 On the computer,
First and second attribute values corresponding to the attribute associated with the region are described in each region associated with each predetermined attribute on a one-to-one basis, or the attribute value is not described. A reception process for receiving data;
For each attribute, a storage process for storing distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute in a storage unit;
For an attribute whose attribute value is described in both the first and second data, a similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least the first and second data. For an attribute that does not exist in one of the data, using the distribution information in the storage means, a first calculation process that calculates an expected value of similarity between attribute values corresponding to the attribute;
A program for executing a second calculation process for calculating a similarity between the first and second data based on the calculated similarity and an expected value of the similarity.
前記コンピュータに、
前記各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない複数の学習用データを受け付ける学習用データ受付処理と、
前記複数の学習用データに基づいて、前記属性ごとに前記分布情報を生成する生成処理と、をさらに実行させ、
前記記憶処理では、前記生成された分布情報を前記記憶手段に記憶する、プログラム。 The program according to claim 7,
In the computer,
In each area, an attribute value corresponding to an attribute associated with the area is described or a learning data reception process for receiving a plurality of learning data in which the attribute value is not described;
A generation process for generating the distribution information for each of the attributes based on the plurality of learning data;
In the storage process, a program for storing the generated distribution information in the storage unit.
前記第1および第2のデータの類似度を計算する際に、前記計算された類似度および類似度の期待値を加算し、その加算結果を、前記第1および第2のデータの類似度とする、プログラム。 In the program according to claim 7 or 8,
When calculating the similarity between the first and second data, the calculated similarity and the expected value of the similarity are added, and the addition result is calculated as the similarity between the first and second data. Program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008330765A JP5386976B2 (en) | 2008-12-25 | 2008-12-25 | Similarity calculation device, similarity calculation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008330765A JP5386976B2 (en) | 2008-12-25 | 2008-12-25 | Similarity calculation device, similarity calculation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010152692A true JP2010152692A (en) | 2010-07-08 |
JP5386976B2 JP5386976B2 (en) | 2014-01-15 |
Family
ID=42571703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008330765A Active JP5386976B2 (en) | 2008-12-25 | 2008-12-25 | Similarity calculation device, similarity calculation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5386976B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013196609A (en) * | 2012-03-22 | 2013-09-30 | Toshiba Corp | Data analysis support device and data analysis support processing program |
JP2017037577A (en) * | 2015-08-13 | 2017-02-16 | カルチュア・コンビニエンス・クラブ株式会社 | Apparatus, method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08180071A (en) * | 1994-12-26 | 1996-07-12 | Nec Corp | Evaluating system for result of data base retrieval |
JPH10171834A (en) * | 1996-12-11 | 1998-06-26 | Nippon Telegr & Teleph Corp <Ntt> | Method for complementing and displaying defective data |
JP2002215646A (en) * | 2001-01-22 | 2002-08-02 | Nec Corp | Lacking data complementing method and lacking data complementing system |
JP2004355370A (en) * | 2003-05-29 | 2004-12-16 | Canon Inc | Document processing apparatus |
-
2008
- 2008-12-25 JP JP2008330765A patent/JP5386976B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08180071A (en) * | 1994-12-26 | 1996-07-12 | Nec Corp | Evaluating system for result of data base retrieval |
JPH10171834A (en) * | 1996-12-11 | 1998-06-26 | Nippon Telegr & Teleph Corp <Ntt> | Method for complementing and displaying defective data |
JP2002215646A (en) * | 2001-01-22 | 2002-08-02 | Nec Corp | Lacking data complementing method and lacking data complementing system |
JP2004355370A (en) * | 2003-05-29 | 2004-12-16 | Canon Inc | Document processing apparatus |
Non-Patent Citations (2)
Title |
---|
CSNG200501241001; 金子拓也: 'データマイニングにおける新しい欠損値補完方法の提案' 電子情報通信学会論文誌 VOL.J88-D-II NO.4, p.675-686, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO * |
JPN6013019886; 金子拓也: 'データマイニングにおける新しい欠損値補完方法の提案' 電子情報通信学会論文誌 VOL.J88-D-II NO.4, p.675-686, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013196609A (en) * | 2012-03-22 | 2013-09-30 | Toshiba Corp | Data analysis support device and data analysis support processing program |
JP2017037577A (en) * | 2015-08-13 | 2017-02-16 | カルチュア・コンビニエンス・クラブ株式会社 | Apparatus, method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5386976B2 (en) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105719001B (en) | Large scale classification in neural networks using hashing | |
JP7028345B2 (en) | Pattern recognition device, pattern recognition method, and program | |
CN108765340B (en) | Blurred image processing method and device and terminal equipment | |
WO2018170454A2 (en) | Using different data sources for a predictive model | |
CN108846124B (en) | Training method, training device, computer equipment and readable storage medium | |
CN112640037A (en) | Learning device, inference device, learning model generation method, and inference method | |
US11604999B2 (en) | Learning device, learning method, and computer program product | |
US11120298B2 (en) | Tensor image mapping device, method, and computer program product | |
JP5386976B2 (en) | Similarity calculation device, similarity calculation method, and program | |
US20220187486A1 (en) | Computer system and data processing method | |
US11568303B2 (en) | Electronic apparatus and control method thereof | |
CN111310912A (en) | Machine learning system, domain conversion device, and machine learning method | |
CN111833847A (en) | Speech processing model training method and device | |
JP6647475B2 (en) | Language processing apparatus, language processing system, and language processing method | |
US20210232947A1 (en) | Signal processing device, signal processing method, and computer program product | |
US20190026646A1 (en) | Method to leverage similarity and hierarchy of documents in nn training | |
JP2022185799A (en) | Information processing program, information processing method and information processing device | |
WO2020054402A1 (en) | Neural network processing device, computer program, neural network manufacturing method, neural network data manufacturing method, neural network use device, and neural network downscaling method | |
JPWO2009151002A1 (en) | Pattern identification method, apparatus and program | |
JP6453618B2 (en) | Calculation apparatus, method and program | |
US10460206B2 (en) | Differentiating physical and non-physical events | |
WO2023089745A1 (en) | Computation processing device | |
US11468257B2 (en) | Electronic apparatus for recognizing multimedia signal and operating method of the same | |
JP2010257341A (en) | Adaptive sight line position estimating method, adaptive sight line position estimating device, program, and recording medium | |
WO2024111113A1 (en) | Information processing device, information processing method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130923 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5386976 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |