JP2010152692A - Similarity calculation apparatus, similarity calculation method and program - Google Patents

Similarity calculation apparatus, similarity calculation method and program Download PDF

Info

Publication number
JP2010152692A
JP2010152692A JP2008330765A JP2008330765A JP2010152692A JP 2010152692 A JP2010152692 A JP 2010152692A JP 2008330765 A JP2008330765 A JP 2008330765A JP 2008330765 A JP2008330765 A JP 2008330765A JP 2010152692 A JP2010152692 A JP 2010152692A
Authority
JP
Japan
Prior art keywords
attribute
similarity
data
value
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008330765A
Other languages
Japanese (ja)
Other versions
JP5386976B2 (en
Inventor
Hidenori Tsukahara
英徳 塚原
Ryohei Fujimaki
遼平 藤巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008330765A priority Critical patent/JP5386976B2/en
Publication of JP2010152692A publication Critical patent/JP2010152692A/en
Application granted granted Critical
Publication of JP5386976B2 publication Critical patent/JP5386976B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a similarity calculation apparatus and a similarity calculation method that can prevent degradation of reliability of a similarity calculation result in calculating the similarity between data having missing values and other data. <P>SOLUTION: The similarity calculation apparatus includes a reception means for receiving first and second data having an area related to each attribute in which an attribute value for the attribute related to the area is or is not described, a storage means for storing distribution information about each attribute indicating the distribution of possible values of the attribute value for the attribute, a first calculation means for calculating the similarity between attribute values for attributes for which the attribute value is described in both first and second data, and as for attributes for which the attribute value is missing in at least either of the first and second data, calculating the similarity expectation between attribute values from the distribution information, and a second calculation means for calculating the similarity between the first and second data from the similarities and similarity expectations calculated by the first calculation means. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、類似度計算装置、類似度計算方法およびプログラムに関する。   The present invention relates to a similarity calculation device, a similarity calculation method, and a program.

複数の属性(項目とも称される)のそれぞれに1対1で対応する複数の属性データ(以下「属性値」と称する)を持つデータが、さまざまな分野で使用されている。   Data having a plurality of attribute data (hereinafter referred to as “attribute values”) one-to-one corresponding to each of a plurality of attributes (also referred to as items) is used in various fields.

例えば、自動車の複数センサから収集される複数の属性値を持つ車両状態データは、属性として、車両の速度、エンジン回転数、および、シフトポジション等を持つ。また、これらの属性の中には、データが取得される車両の車種や年式、グレード等により、属性値が取得されない属性(属性値が欠損している属性)が存在したり、または、センサの不具合により、車両状態データ内の一部の属性値が欠損してしまう場合もある。   For example, vehicle state data having a plurality of attribute values collected from a plurality of sensors of an automobile has a vehicle speed, an engine speed, a shift position, and the like as attributes. In addition, among these attributes, there is an attribute whose attribute value is not acquired (an attribute whose attribute value is missing) depending on the type, year, grade, etc. of the vehicle from which data is acquired, or a sensor Due to the above problem, some attribute values in the vehicle state data may be lost.

複数の属性値のうちの一部の属性値が欠損しているデータ同士の類似度を計算する方法として、欠損している属性値(以下「欠損値」と称する)自体をある代表値、例えば0や平均値などで補完し、欠損値が補完されたデータ同士の類似度を計算する方法がある。   As a method of calculating the similarity between data in which some of the attribute values are missing, the missing attribute value (hereinafter referred to as “missing value”) itself is a representative value, for example, There is a method of calculating the similarity between the data complemented with 0 or an average value and the missing value supplemented.

特許文献1には、欠損値を有する属性(以下「特定属性」と称する)以外の属性に対応する属性値を用いて、欠損値を持たないデータの中から、欠損値を持つデータに類似した類似データを求め、類似データが持つ属性値の中から、特定属性に対応する属性値を特定し、その特定された属性値で欠損値を補完する方法が記載されている。
特開2002−215646号公報
Patent Document 1 uses an attribute value corresponding to an attribute other than an attribute having a missing value (hereinafter referred to as a “specific attribute”) to resemble data having a missing value from data having no missing value. A method is described in which similar data is obtained, an attribute value corresponding to a specific attribute is specified from the attribute values of the similar data, and the missing value is complemented with the specified attribute value.
JP 2002-215646 A

欠損値を代表値で補完すると、データ間の類似度の計算の際に、類似度の偏りが生じてしまうという課題があった。   When the missing value is complemented with the representative value, there is a problem that the similarity is biased when calculating the similarity between the data.

また、類似データを用いて欠損値を補完したデータと、その類似データと、の間の類似度を計算すると、そのデータ間が不当に類似してしまう。このため、類似性の高いデータを用いて欠損値を補完する方法は、欠損値を持つデータと他のデータとの類似度を求める際には適した方法ではなかった。   Moreover, if the similarity between the data which complemented the missing value using similar data and the similar data is calculated, the data will be unfairly similar. For this reason, the method of complementing a missing value using highly similar data is not a suitable method for obtaining the similarity between data having a missing value and other data.

よって、欠損値を持つデータと他のデータとの類似度の計算では、類似度の計算結果の信頼性が低くなるという課題があった。   Therefore, in the calculation of the similarity between data having missing values and other data, there is a problem that the reliability of the calculation result of the similarity is lowered.

本発明の目的は、上記課題を解決可能な類似度計算装置、類似度計算方法およびプログラムを提供することである。   The objective of this invention is providing the similarity calculation apparatus, similarity calculation method, and program which can solve the said subject.

本発明の類似度計算装置は、予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付ける受付手段と、前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶する記憶手段と、前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算する第1計算手段と、前記第1計算手段にて計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する第2計算手段と、を含む。   In the similarity calculation device of the present invention, an attribute value corresponding to an attribute associated with the region is described in each region associated with each predetermined attribute on a one-to-one basis, or the attribute value is described. Receiving means for receiving the first and second data that has not been performed, storage means for storing distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute, for each attribute, and the attribute value For the attribute described in both the first and second data, the similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least one of the first and second data. About the attribute which does not exist, it calculated by the 1st calculation means which calculates the expected value of the similarity degree of the attribute value corresponding to the said attribute using the distribution information in the said storage means, and the said 1st calculation means Similarity and Based on the expected value of the similarity, and a second calculating means for calculating a similarity between the first and second data.

本発明の類似度計算方法は、類似度計算装置が行う類似度計算方法であって、予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付け、前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶手段に記憶し、前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算し、前記計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する。   The similarity calculation method of the present invention is a similarity calculation method performed by the similarity calculation device, and corresponds to each region associated with each predetermined attribute in a one-to-one correspondence with the attribute associated with the region. Distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute, for each attribute, accepting first and second data in which the attribute value is described or the attribute value is not described Is stored in the storage means, and for the attribute whose attribute value is described in both the first and second data, the similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least For an attribute that does not exist in one of the first and second data, an expected value of similarity between attribute values corresponding to the attribute is calculated using the distribution information in the storage unit, and the calculated Similarity and Based on the expected value of similarity score to calculate the similarity between the first and second data.

本発明のプログラムは、コンピュータに、予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付ける受付処理と、前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶手段に記憶する記憶処理と、前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算する第1計算処理と、前記計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する第2計算処理と、を実行させる。   According to the program of the present invention, an attribute value corresponding to an attribute associated with the area is described in each area associated with each predetermined attribute on the computer, or the attribute value is described. Receiving processing for receiving the first and second data that has not been performed, storage processing for storing distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute for each attribute in the storage means, For an attribute whose attribute value is described in both the first and second data, the similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least the first and second data. For the attribute that does not exist in one of the above, the first calculation process that calculates the expected value of the similarity between the attribute values corresponding to the attribute using the distribution information in the storage means, and the calculated similarity And based on the similarity of the expected value, a second calculation process of calculating a similarity between the first and second data, to the execution.

本発明によれば、欠損値を持つデータと他のデータとの類似度の計算において、類似度の計算結果の信頼性の低下を防止することが可能になる。   According to the present invention, in the calculation of the similarity between data having missing values and other data, it is possible to prevent a decrease in reliability of the calculation result of the similarity.

以下、本発明の実施の形態について図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(第1の実施の形態)
図1は、本発明の第1の実施の形態の類似度計算装置100を示したブロック図である。
(First embodiment)
FIG. 1 is a block diagram showing a similarity calculation apparatus 100 according to the first embodiment of this invention.

類似度計算装置100は、入力処理部110と、データ分布記憶部120と、計算部130および140と、を含む。計算部130は、属性間類似度計算処理部130aと、期待値計算処理部130bと、を含む。計算部140は、類似度統合処理部140aと、出力処理部140bと、を含む。   Similarity calculation apparatus 100 includes an input processing unit 110, a data distribution storage unit 120, and calculation units 130 and 140. The calculation unit 130 includes an attribute similarity calculation processing unit 130a and an expected value calculation processing unit 130b. The calculation unit 140 includes a similarity integration processing unit 140a and an output processing unit 140b.

入力処理部110は、一般的に受付手段と呼ぶことができる。   Input processing unit 110 can generally be referred to as accepting means.

入力処理部110は、データ間の類似度を計算する対象となるデータ(以下「計算対象データ」と称する)、あるいは、データ分布記憶部120に記憶させるデータ分布を表す分布情報を入力する機能を有する。   The input processing unit 110 has a function of inputting data that is a target for calculating the similarity between data (hereinafter referred to as “calculation target data”) or distribution information representing a data distribution to be stored in the data distribution storage unit 120. Have.

入力処理部110は、計算対象データとして、第1のデータおよび第2のデータを受け付ける。   The input processing unit 110 receives first data and second data as calculation target data.

第1のデータおよび第2のデータのそれぞれは、予め定められた各属性に1対1で関連づけられた各領域を有する。各領域には、その領域に関連づけられた属性に対応する属性値が記載されているか、または、その属性値が記載されていない。   Each of the first data and the second data has each area associated with each predetermined attribute on a one-to-one basis. In each area, an attribute value corresponding to an attribute associated with the area is described, or the attribute value is not described.

図2は、第1のデータの一例を示した説明図であり、図3は、第2のデータの一例を示した説明図である。図2および3では、属性として、車両の速度、エンジン回転数、および、シフトポジションが用いられている。なお、第1および第2のデータは、図2、3に示したものに限らず適宜変更可能である。   FIG. 2 is an explanatory diagram showing an example of the first data, and FIG. 3 is an explanatory diagram showing an example of the second data. 2 and 3, the vehicle speed, engine speed, and shift position are used as attributes. The first and second data are not limited to those shown in FIGS. 2 and 3 and can be changed as appropriate.

図2に示した第1のデータでは、属性である「速度」に関連づけられた領域2aには、「速度」に対応する属性値である「AAAA」が記載されている。また、属性である「エンジン回転数」に関連づけられた領域2bには、「エンジン回転数」に対応する属性値である「XXXX」が記載されている。また、属性である「シフトポジション」に関連づけられた領域2cには、「シフトポジション」に対応する属性値、さらに言えば、なんらの値も記載されていない。   In the first data shown in FIG. 2, the area 2a associated with the attribute “speed” describes “AAAA” as the attribute value corresponding to “speed”. In the area 2b associated with the attribute “engine speed”, “XXXX” that is an attribute value corresponding to “engine speed” is described. Further, in the area 2c associated with the attribute “shift position”, the attribute value corresponding to the “shift position”, that is, no value is described.

図3に示した第2のデータでは、属性である「速度」に関連づけられた領域3aには、「速度」に対応する属性値である「BBBB」が記載されている。また、属性である「エンジン回転数」に関連づけられた領域3bには、「エンジン回転数」に対応する属性値、さらに言えば、なんらの値も記載されていない。また、属性である「シフトポジション」に関連づけられた領域3cには、「シフトポジション」に対応する属性値、さらに言えば、なんらの値も記載されていない。   In the second data shown in FIG. 3, the attribute value “BBBB” corresponding to “speed” is described in the area 3a associated with the attribute “speed”. In addition, in the area 3b associated with the attribute “engine speed”, an attribute value corresponding to “engine speed”, that is, no value is described. In addition, in the area 3c associated with the attribute “shift position”, the attribute value corresponding to “shift position”, that is, no value is described.

また、入力処理部110は、第1および第2のデータが有する属性ごとに、その属性に対応する属性値が取り得る値の分布(例えば、確率分布または確率密度関数)を表す分布情報を受け付ける。   Further, the input processing unit 110 receives distribution information representing a distribution of values (for example, probability distribution or probability density function) that can be taken by the attribute value corresponding to the attribute for each attribute of the first and second data. .

入力処理部110は、キーボード等のように人間から直接データを受け付ける装置のみならず、外部システム等と接続されるインターフェースなどでもよい。   The input processing unit 110 is not limited to a device that directly receives data from a human such as a keyboard, but may be an interface connected to an external system or the like.

データ分布記憶部120は、一般的に記憶手段と呼ぶことができる。   Data distribution storage unit 120 can be generally referred to as storage means.

データ分布記憶部120は、入力処理部110から入力された属性ごとの分布情報を記憶しておく機能を備えている。ただし、分布情報は、入力処理部110から入力されず、予め記憶されていてもよい。   The data distribution storage unit 120 has a function of storing distribution information for each attribute input from the input processing unit 110. However, the distribution information may be stored in advance without being input from the input processing unit 110.

計算部130は、一般的に第1計算手段と呼ぶことができる。   Calculation unit 130 can be generally referred to as first calculation means.

計算部130は、属性値が第1および第2のデータの両方に存在する属性(例えば、図2および3での「速度」)については、その属性に対応する属性値同士の類似度を計算する。   For the attribute whose attribute value exists in both the first and second data (for example, “speed” in FIGS. 2 and 3), the calculation unit 130 calculates the similarity between the attribute values corresponding to the attribute. To do.

また、計算部130は、属性値が少なくとも第1および第2のデータの一方に存在しない属性(例えば、図2および3での「エンジン回転数」および「シフトポジション」)については、データ分布記憶部120内の分布情報を用いて、その属性に対応する属性値同士の類似度の期待値を計算する。   Further, the calculation unit 130 stores data distribution for an attribute whose attribute value does not exist in at least one of the first and second data (for example, “engine speed” and “shift position” in FIGS. 2 and 3). Using the distribution information in the unit 120, the expected value of the similarity between attribute values corresponding to the attribute is calculated.

例えば、計算部130は、属性ごとに、その属性に対応する属性値が、第1および第2のデータの両方に存在するか判定する。計算部130は、属性値が両方に存在する場合、その属性値同士の類似度を計算し、属性値が少なくとも第1および第2のデータの一方に存在しない場合、データ分布記憶部120内の分布情報を用いて、その属性に対応する属性値同士の類似度の期待値を計算する。   For example, for each attribute, the calculation unit 130 determines whether an attribute value corresponding to the attribute exists in both the first data and the second data. When the attribute value exists in both, the calculation unit 130 calculates the similarity between the attribute values. When the attribute value does not exist in at least one of the first and second data, the calculation unit 130 stores the attribute value in the data distribution storage unit 120. Using the distribution information, an expected value of similarity between attribute values corresponding to the attribute is calculated.

属性間類似度計算処理部130aは、属性値が第1および第2のデータの両方に存在する属性について、その属性に対応する属性値同士の類似度を計算する。   The inter-attribute similarity calculation processing unit 130a calculates the similarity between the attribute values corresponding to the attribute having the attribute value in both the first and second data.

期待値計算処理部130bは、属性値が少なくとも第1および第2のデータの一方に存在しない属性について、データ分布記憶部120内の分布情報を用いて、その属性に対応する属性値同士の類似度の期待値を計算する。   The expected value calculation processing unit 130b uses the distribution information in the data distribution storage unit 120 for attributes whose attribute values do not exist in at least one of the first and second data, and the similarity between attribute values corresponding to the attributes Calculate the expected value of degree.

計算部140は、一般的に第2計算手段と呼ぶことができる。   Calculation unit 140 can generally be referred to as second calculation means.

計算部140は、計算部130にて計算された類似度および類似度の期待値に基づいて、第1および第2のデータの類似度を計算する。   The calculation unit 140 calculates the similarity between the first and second data based on the similarity calculated by the calculation unit 130 and the expected value of the similarity.

例えば、計算部140は、計算部130にて計算された類似度および類似度の期待値を加算し、その加算結果を、第1および第2のデータの類似度とする。   For example, the calculation unit 140 adds the similarity calculated by the calculation unit 130 and the expected value of the similarity, and sets the addition result as the similarity between the first and second data.

類似度統合処理部140aは、計算部130での属性ごとの計算結果を統合し、第1および第2のデータの類似度を計算する。   The similarity integration processing unit 140a integrates the calculation results for each attribute in the calculation unit 130, and calculates the similarity between the first and second data.

出力処理部140bは、類似度統合処理部140aにて計算されたデータ間類似度を出力する機能を有する。出力処理部140bは、ディスプレイや音声による出力、あるいは外部システム等と接続されるインターフェースなどでもよい。   The output processing unit 140b has a function of outputting the inter-data similarity calculated by the similarity integration processing unit 140a. The output processing unit 140b may be a display, audio output, an interface connected to an external system, or the like.

次に、動作を説明する。   Next, the operation will be described.

図4は、類似度計算装置100の動作を説明するためのフローチャートである。以下、図1および図4を参照して類似度計算装置100の動作を説明する。   FIG. 4 is a flowchart for explaining the operation of the similarity calculation apparatus 100. Hereinafter, the operation of the similarity calculation apparatus 100 will be described with reference to FIGS. 1 and 4.

まず、入力処理部110は、類似度を計算する対象となる第1および第2のデータを受け付ける(ステップA1)。   First, the input processing unit 110 receives first and second data for which similarity is to be calculated (step A1).

以下説明のために、第1および第2のデータを、それぞれx1、x2とベクトルで表記する。 Hereinafter, for the sake of explanation, the first and second data are expressed by vectors x 1 and x 2 , respectively.

ただし、x1およびx2のj番目の属性は、同一の属性を表し、j番目の属性に対応する属性値をx1jおよびx2jと表記する。 However, the j-th attribute of x 1 and x 2 represents the same attribute, and attribute values corresponding to the j-th attribute are expressed as x 1j and x 2j .

なお、入力されたデータ内にj番目の属性に対応する属性値が存在しない場合、すなわち、j番目の属性に関連する領域内に値が無い(例えば、mull)場合には、その属性値は欠損値として扱われる。   If there is no attribute value corresponding to the jth attribute in the input data, that is, if there is no value in the area related to the jth attribute (for example, mull), the attribute value is Treated as missing values.

次に、計算部130は、x1およびx2の各属性に関して、以下に示すステップA2からステップA6の処理を繰り返し行なう。以下ではj番目の属性に関する処理を説明することとする。 Then, calculation section 130, for each attribute of x 1 and x 2, repeats the process of step A6 from step A2 shown below. In the following, processing regarding the jth attribute will be described.

まず、属性間類似度計算処理部130aは、x1jおよびx2jの少なくともいずれかが欠損しているかを確認する(ステップA2)。 First, the attribute similarity calculation processing unit 130a confirms whether at least one of x 1j and x 2j is missing (step A2).

1jおよびx2jの両方とも欠損していない場合には(ステップA3)、属性間類似度計算処理部130aは、自己に記憶されている属性間類似度を計算するための計算式に基づいて、x1jとx2jとの属性間類似度を計算する(ステップA4)。 When neither x 1j nor x 2j is missing (step A3), the attribute similarity calculation processing unit 130a is based on a calculation formula for calculating the attribute similarity stored in itself. , Similarity between attributes of x 1j and x 2j is calculated (step A4).

ここで、属性間類似度は、x1jとx2jに関して計算される任意の関数で表され、j番目の属性に関する属性間類似度をgj(x1j,x2j)と表記する。 Here, the similarity between attributes is represented by an arbitrary function calculated with respect to x 1j and x 2j , and the similarity between attributes regarding the j-th attribute is expressed as g j (x 1j , x 2j ).

属性間類似度は、データが類似しているほど大きい値をとってもよいし、データが類似しているほど小さい値をとってもよいこととする。   The similarity between attributes may take a larger value as the data is similar, or may take a smaller value as the data is similar.

属性間類似度としては、例えば、j番目の属性に対応する属性値が連続値をとる場合には、2乗距離(x1j−x2j2や絶対値距離|x1j−x2j|などを利用可能であるし、j番目の属性に対応する属性値が離散値をとる場合には、ハミング距離(x1jとx2jが一致する場合には0、一致しない場合には1)などを利用することが可能である。 As the similarity between attributes, for example, when the attribute value corresponding to the jth attribute takes a continuous value, the square distance (x 1j −x 2j ) 2 or the absolute value distance | x 1j −x 2j | If the attribute value corresponding to the jth attribute takes a discrete value, the Hamming distance (0 if x 1j and x 2j match, 1 if not, etc.) It is possible to use.

1jあるいはx2jが欠損している場合には(ステップA3)、属性間類似度計算処理部130aは、gj(x1j,x2j)を直接計算することができない。このため、属性間類似度計算処理部130aは、期待値計算処理部130bを動作させる。期待値計算処理部130bは、データ分布記憶部120からj番目の属性に関する分布情報を読み込み、分布情報が表す確率分布(あるいは確率密度関数)pjを用いて、属性間類似度の期待値を計算する。期待値計算処理部130bは、その計算結果を属性間類似度計算処理部130aに提供する(ステップA5)。 When x 1j or x 2j is missing (step A3), the attribute similarity calculation processing unit 130a cannot directly calculate g j (x 1j , x 2j ). Therefore, the attribute similarity calculation processing unit 130a operates the expected value calculation processing unit 130b. The expected value calculation processing unit 130b reads the distribution information related to the jth attribute from the data distribution storage unit 120, and uses the probability distribution (or probability density function) p j represented by the distribution information to calculate the expected value of the similarity between attributes. calculate. The expected value calculation processing unit 130b provides the calculation result to the attribute similarity calculation processing unit 130a (step A5).

このため、属性間類似度計算処理部130aは、属性ごとに、属性間類似度、または、属性間類似度の期待値を有することになる。   For this reason, the attribute similarity calculation processing unit 130a has an attribute similarity or an expected value of the attribute similarity for each attribute.

ここで、pjとしては、j番目の属性に対応する属性値が離散値やシンボル値(変数の値を、整数などの実際の値ではなく、記号などのシンボルとして表現した値)をとる場合には、例えば、多項分布などの離散値の分布を利用することが可能であり、j番目の属性が実数値をとる場合には、正規分布などの連続値の分布を利用することが可能である。 Here, as p j , the attribute value corresponding to the j-th attribute takes a discrete value or a symbol value (a value representing a variable value as a symbol such as a symbol instead of an actual value such as an integer). For example, a discrete value distribution such as a multinomial distribution can be used. When the jth attribute takes a real value, a continuous value distribution such as a normal distribution can be used. is there.

以下、期待値の計算の具体的な手順を説明する。   Hereinafter, a specific procedure for calculating the expected value will be described.

まず、x1jとx2jのうち、片側のみが欠損している場合には、欠損していない属性値を活用するために、期待値計算処理部130bは、(1)式に従って、属性間類似度の期待値を計算する。 First, when only one side of x 1j and x 2j is missing, the expected value calculation processing unit 130b uses the similarity between attributes according to the equation (1) in order to use the missing attribute value. Calculate the expected value of degree.

なお、(1)式は、x2jのみが欠損している場合に用いる計算式であるが、x1jのみが欠損している場合には、期待値計算処理部130bは、(1)式のx1jをx2jに入れ替えることによって、同様の手法で属性間類似度の期待値を計算可能である。 Note that equation (1) is a calculation equation used when only x 2j is missing, but when only x 1j is missing, the expected value calculation processing unit 130b determines that equation (1) By replacing x 1j with x 2j , the expected value of the similarity between attributes can be calculated by the same method.

Figure 2010152692
Figure 2010152692

なお、(1)式において、xとしては、j番目の属性に対応する属性値が取り得るすべての値が用いられる。   In Equation (1), as x, all values that can be taken by the attribute value corresponding to the j-th attribute are used.

次に、x1jとx2jの両方が欠損している場合には、期待値計算処理部130bは、データの持つ属性値を利用できないため、期待値計算処理部130bは、(2)式に従って、属性間類似度の期待値を計算する。 Next, when both x 1j and x 2j are missing, the expected value calculation processing unit 130b cannot use the attribute value of the data. Calculate the expected value of similarity between attributes.

Figure 2010152692
Figure 2010152692

なお、(2)式において、xおよびyとしては、j番目の属性に対応する属性値が取り得るすべての値が用いられる。   In Expression (2), as x and y, all values that can be taken by the attribute value corresponding to the j-th attribute are used.

(1)式および(2)式は、j番目の属性に対応する属性値が連続値をとる場合も含めるため、期待値の計算手法として積分が用いられているが、j番目の属性に対応する属性値が離散値をとる場合には、期待値計算処理部130bは、積分を和に置き換えて、属性間類似度の期待値を計算してもよい。   Equations (1) and (2) include the case where the attribute value corresponding to the jth attribute takes a continuous value, and therefore integration is used as the expected value calculation method, but this corresponds to the jth attribute. When the attribute value to be taken takes a discrete value, the expected value calculation processing unit 130b may calculate the expected value of the similarity between attributes by replacing the integral with the sum.

なお、(1)式に従った期待値の計算は、j番目の属性に対応する属性値が有限数の離散値をとる場合には、事前に計算しておくことが可能であり、期待値計算処理部130bまたはデータ分布記憶部120は、その値を予め記憶しておいてもよい。   Note that the expected value according to the equation (1) can be calculated in advance when the attribute value corresponding to the jth attribute takes a finite number of discrete values. The calculation processing unit 130b or the data distribution storage unit 120 may store the value in advance.

(2)式に従った期待値計算は、j番目の属性に対応する属性値の種類に関わらず事前に計算可能であるため、期待値計算処理部130bまたはデータ分布記憶部120は、その値を予め記憶しておいてもよい。   Since the expected value calculation according to the equation (2) can be calculated in advance regardless of the type of the attribute value corresponding to the jth attribute, the expected value calculation processing unit 130b or the data distribution storage unit 120 May be stored in advance.

期待値の計算に関して、j番目の属性に対応する属性値が離散値をとり、gj(x1j,x2j)としてハミング距離を利用し、pjとして多項分布を利用する場合について説明すると、(1)式として(3)式を用いることが可能であり、(2)式として(4)式を用いることが可能である。 Regarding the calculation of the expected value, the case where the attribute value corresponding to the jth attribute takes a discrete value, uses the Hamming distance as g j (x 1j , x 2j ), and uses the multinomial distribution as p j . The expression (3) can be used as the expression (1), and the expression (4) can be used as the expression (2).

ただし、(3)式において、x1jはj番目の属性に対応する属性値が取り得る離散値のうちのk番目の離散値をとるとし、pk jはj番目の属性に対応する属性値としてk番目の離散値が出現する確率を表すとする。 In Equation (3), x 1j is the kth discrete value of the discrete values that can be taken by the attribute value corresponding to the jth attribute, and p k j is the attribute value corresponding to the jth attribute. Let k denote the probability that the k-th discrete value will appear.

Figure 2010152692
Figure 2010152692

Figure 2010152692
Figure 2010152692

属性間類似度計算処理部130aは、j番目の属性について、属性間類似度、または、属性間類似度の期待値を得ると、残りの属性があるか確認し、残りの属性がある場合には、計算の対象となる属性を更新して、処理をステップA2に戻し、残りの属性がなければ、処理をステップA7に進める(ステップA6)。   When the inter-attribute similarity calculation processing unit 130a obtains the inter-attribute similarity or the expected value of the inter-attribute similarity for the j-th attribute, the inter-attribute similarity calculation processing unit 130a checks whether there is the remaining attribute. Updates the attribute to be calculated and returns the process to step A2. If there are no remaining attributes, the process proceeds to step A7 (step A6).

ステップA7では、類似度統合処理部140aは、ステップA2からステップA6で計算された各属性に関する属性間類似度あるいはその期待値を統合することによって、第1および第2のデータ間の類似度を計算する。   In step A7, the similarity integration processing unit 140a integrates the similarity between attributes or the expected value for each attribute calculated in steps A2 to A6, thereby calculating the similarity between the first and second data. calculate.

本実施形態では、類似度統合処理部140aは、ステップA2からステップA6で計算された、各属性に関する属性間類似度あるいはその期待値をsjとすると、(5)式に従って、第1および第2のデータ間の類似度を、sjに関する任意の関数として定義することが可能である。 In this embodiment, the similarity integration processing unit 140a calculates the first and first values according to equation (5), where s j is the similarity between attributes or the expected value for each attribute calculated in steps A2 to A6. It is possible to define the similarity between two data as an arbitrary function regarding s j .

Figure 2010152692
Figure 2010152692

ただし、fは任意の関数、dはx1およびx2が有する属性の数である。 Here, f is an arbitrary function, and d is the number of attributes that x 1 and x 2 have.

fの具体的な例としては、各属性の属性間類似度の和である(6)式が挙げられる。   As a specific example of f, Expression (6), which is the sum of similarity between attributes of each attribute, can be given.

Figure 2010152692
Figure 2010152692

また、sjに関する任意の非線形関数をfとして利用することが可能である。 It is also possible to use any nonlinear function related to s j as f.

出力処理部140bは、ステップA7で計算されたデータ間類似度を出力する(ステップA8)。   The output processing unit 140b outputs the similarity between data calculated in step A7 (step A8).

次に、本実施形態の効果を説明する。   Next, the effect of this embodiment will be described.

本実施形態によれば、計算部130は、属性値が第1および第2のデータの両方に存在する属性については、その属性に対応する属性値同士の類似度を計算し、属性値が少なくとも第1および第2のデータの一方に存在しない属性については、データ分布記憶部120内の分布情報を用いて、その属性に対応する属性値同士の類似度の期待値を計算する。   According to the present embodiment, for an attribute whose attribute value exists in both the first and second data, the calculation unit 130 calculates the similarity between attribute values corresponding to the attribute, and the attribute value is at least For an attribute that does not exist in one of the first and second data, the distribution information in the data distribution storage unit 120 is used to calculate the expected value of the similarity between the attribute values corresponding to the attribute.

計算部140は、計算部130にて計算された類似度および類似度の期待値に基づいて、第1および第2のデータの類似度を計算する。   The calculation unit 140 calculates the similarity between the first and second data based on the similarity calculated by the calculation unit 130 and the expected value of the similarity.

このため、類似度が計算される2つのデータの一方あるいは両方に欠損値がある場合であっても、その欠損している属性値の取りうる値の分布を利用して、その属性に関する属性間類似度の期待値を計算し、その期待値を利用して、第1および第2のデータの類似度が計算される。   For this reason, even if one or both of the two data for which the similarity is calculated has a missing value, the distribution of possible values of the missing attribute value is used to determine the attribute An expected value of similarity is calculated, and the similarity between the first and second data is calculated using the expected value.

よって、類似度が計算される2つのデータの一方あるいは両方に欠損値がある場合であっても、信頼性の高いデータ間類似度を計算することが可能となる。   Therefore, even when one or both of the two data whose similarity is calculated has a missing value, it is possible to calculate the similarity between data with high reliability.

また、本実施形態では、計算部140は、計算部130にて計算された類似度および類似度の期待値を加算し、その加算結果を、第1および第2のデータの類似度とする。   In the present embodiment, the calculation unit 140 adds the similarity calculated by the calculation unit 130 and the expected value of the similarity, and uses the addition result as the similarity between the first and second data.

この場合、第1および第2のデータの類似度を容易に計算することができる。   In this case, the similarity between the first and second data can be easily calculated.

(第2の実施の形態)
次に、本発明の第2の実施の形態の類似度計算装置200を説明する。
(Second Embodiment)
Next, a similarity calculation apparatus 200 according to the second embodiment of this invention will be described.

図5は、類似度計算装置200を示したブロック図である。図5において、図1に示したものと同一のものには同一符号を付してある。   FIG. 5 is a block diagram showing the similarity calculation device 200. In FIG. 5, the same components as those shown in FIG.

類似度計算装置200は、図1に示す類似度計算装置100の構成に加え、分布を学習するためのデータを入力する入力処理部210と、データの分布を学習するためのデータ分布学習処理部220と、を含む。   In addition to the configuration of the similarity calculation apparatus 100 shown in FIG. 1, the similarity calculation apparatus 200 includes an input processing unit 210 that inputs data for learning the distribution, and a data distribution learning processing unit for learning the data distribution. 220.

入力処理部210は、一般的に学習用データ受付手段と呼ぶことができる。   Input processing unit 210 can generally be referred to as learning data receiving means.

入力処理部210は、各属性に1対1で関連づけられた各領域に、その領域に関連づけられた属性に対応する属性値が記載されているかまたはその属性値が記載されていない複数の学習用データを受け付ける。   The input processing unit 210 has a plurality of learning objects in which attribute values corresponding to the attributes associated with each region are described in each region associated with each attribute on a one-to-one basis, or the attribute values are not described. Accept data.

データ分布学習処理部220は、一般的に処理手段と呼ぶことができる。   Data distribution learning processing unit 220 can be generally referred to as processing means.

データ分布学習処理部220は、入力処理部210が受け付けた複数の学習用データに基づいて、属性ごとに分布情報を生成し、その分布情報をデータ分布記憶部120に記憶する。   The data distribution learning processing unit 220 generates distribution information for each attribute based on the plurality of learning data received by the input processing unit 210 and stores the distribution information in the data distribution storage unit 120.

類似度計算装置200は、入力処理部210とデータ分布学習処理部220とを含むため、必ずしも予め分布情報を記憶しておく必要がなく、データの分布が事前に計算可能な場合には、分布を学習するためのデータ(学習用データ)を入力し、そのデータから分布を計算、学習して記憶しておくことが可能となる。   Since the similarity calculation device 200 includes an input processing unit 210 and a data distribution learning processing unit 220, it is not always necessary to store distribution information in advance, and if the distribution of data can be calculated in advance, the distribution It is possible to input data for learning (learning data), calculate the distribution from the data, learn it, and store it.

類似度計算装置200の動作は、図4に示す類似度計算装置100の動作とほぼ同様であるが、期待値計算処理部130bが単一属性の属性間類似度の期待値を計算するステップA5のみが異なる。   The operation of the similarity calculation device 200 is substantially the same as the operation of the similarity calculation device 100 shown in FIG. 4, but the expected value calculation processing unit 130b calculates the expected value of the similarity between attributes of a single attribute Step A5 Only the difference.

類似度計算装置100では、単一属性の属性間類似度の期待値を計算する際、予め記憶されていた分布情報を利用したが、類似度計算装置200では、図6に示す動作で記憶した分布情報を利用して単一属性の属性間類似度の期待値を計算することができる。   In the similarity calculation device 100, the distribution information stored in advance was used when calculating the expected value of the similarity between attributes of a single attribute, but in the similarity calculation device 200, it was stored by the operation shown in FIG. The expected value of similarity between attributes of a single attribute can be calculated using the distribution information.

図6を参照すると、まず、入力処理部210が、複数の学習用データを受け付ける(ステップB1)。   Referring to FIG. 6, first, the input processing unit 210 receives a plurality of learning data (step B1).

データ分布学習処理部220は、複数の学習用データに基づいて、属性ごとに、分布情報を計算する。この際、計算される分布は、例えば、離散値における多項分布などであるが、連続値などで分布を計算できないものについては、類似度計算装置100と同様に、予めデータ分布記憶部120に記憶しておくことで対応可能である(ステップB2)。   The data distribution learning processing unit 220 calculates distribution information for each attribute based on a plurality of learning data. At this time, the distribution to be calculated is, for example, a multinomial distribution with discrete values, but those that cannot be calculated with continuous values or the like are stored in advance in the data distribution storage unit 120 as in the similarity calculation device 100. This can be handled (step B2).

ステップB2の処理は、全属性に対して行われる。   The process of step B2 is performed for all attributes.

データ分布学習処理部220は、全属性について計算された分布情報をデータ分布記憶部120に記憶する(ステップB3)。   The data distribution learning processing unit 220 stores the distribution information calculated for all attributes in the data distribution storage unit 120 (step B3).

本実施形態では、データ分布学習処理部220は、入力処理部210が受け付けた複数の学習用データに基づいて、属性ごとに分布情報を生成し、その分布情報をデータ分布記憶部120に記憶する。   In the present embodiment, the data distribution learning processing unit 220 generates distribution information for each attribute based on a plurality of learning data received by the input processing unit 210 and stores the distribution information in the data distribution storage unit 120. .

このため、必ずしも予め分布情報を記憶しておく必要がなく、分布情報を事前に計算可能な場合には、学習用データを用いて分布情報を計算、学習して記憶しておくことが可能となる。   For this reason, it is not always necessary to store the distribution information in advance, and if the distribution information can be calculated in advance, the distribution information can be calculated, learned and stored using learning data. Become.

上記各実施形態は、自動車の複数センサから収集される複数の属性値を持つデータ同士の類似度を計算する際、あるいは、様々な入力属性を利用する市場予測や金融関連の予測システム、更には様々なコンピュータ関連機器の状態類似度計算など、様々な用途に適用可能である。   In each of the above embodiments, when calculating the degree of similarity between data having a plurality of attribute values collected from a plurality of sensors of an automobile, or a market prediction or a financial related prediction system using various input attributes, It can be applied to various uses such as state similarity calculation of various computer-related devices.

なお、類似度計算装置100および200は、専用のハードウェアにより実現されるもの以外に、入力処理部110、データ分布記憶部120、計算部130および計算部140、入力処理部210、および、データ分布学習処理部220の各機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。   The similarity calculation devices 100 and 200 are not only realized by dedicated hardware, but also include an input processing unit 110, a data distribution storage unit 120, a calculation unit 130 and a calculation unit 140, an input processing unit 210, and data A program for realizing each function of the distribution learning processing unit 220 may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read and executed by a computer system. .

コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM(Compact Disk Read Only Memory)等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。   The computer-readable recording medium refers to a recording medium such as a flexible disk, a magneto-optical disk, a CD-ROM (Compact Disk Read Only Memory), and a storage device such as a hard disk device built in the computer system.

さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。   Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short period of time, as in the case of transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.

以上説明した各実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。   In each embodiment described above, the illustrated configuration is merely an example, and the present invention is not limited to the configuration.

本発明の第1の実施の形態の類似度計算装置100を示したブロック図である。It is the block diagram which showed the similarity calculation apparatus 100 of the 1st Embodiment of this invention. 第1のデータの一例を示した説明図である。It is explanatory drawing which showed an example of 1st data. 第2のデータの一例を示した説明図である。It is explanatory drawing which showed an example of 2nd data. 類似度計算装置100の動作を説明するためのフローチャートである。6 is a flowchart for explaining the operation of the similarity calculation device 100. 類似度計算装置200を示したブロック図である。2 is a block diagram showing a similarity calculation device 200. FIG. 類似度計算装置200の動作の一部を説明するためのフローチャートである。5 is a flowchart for explaining a part of the operation of the similarity calculation device 200.

符号の説明Explanation of symbols

100 類似度計算装置
110 入力処理装置
120 データ分布記憶装置
130 計算部
130a 属性間類似度計算処理部
130b 期待値計算処理部
140 計算部
140a 類似度統合処理部
140b 出力処理部
200 類似度計算装置
210 入力処理部
220 データ分布学習処理部
100 Similarity Calculation Device 110 Input Processing Device 120 Data Distribution Storage Device 130 Calculation Unit 130a Inter-attribute Similarity Calculation Processing Unit 130b Expected Value Calculation Processing Unit 140 Calculation Unit 140a Similarity Integration Processing Unit 140b Output Processing Unit 200 Similarity Calculation Device 210 Input processing unit 220 Data distribution learning processing unit

Claims (9)

予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付ける受付手段と、
前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶する記憶手段と、
前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算する第1計算手段と、
前記第1計算手段にて計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する第2計算手段と、を含む類似度計算装置。
First and second attribute values corresponding to the attribute associated with the region are described in each region associated with each predetermined attribute on a one-to-one basis, or the attribute value is not described. Receiving means for receiving data; and
Storage means for storing, for each attribute, distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute;
For an attribute whose attribute value is described in both the first and second data, a similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least the first and second data. For attributes that do not exist in one of the data, using the distribution information in the storage means, a first calculation means for calculating the expected value of the similarity between the attribute values corresponding to the attribute;
And a second calculation means for calculating the similarity between the first and second data based on the similarity calculated by the first calculation means and the expected value of the similarity.
請求項1に記載の類似度計算装置において、
前記各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない複数の学習用データを受け付ける学習用データ受付手段と、
前記複数の学習用データに基づいて、前記属性ごとに前記分布情報を生成し、当該分布情報を前記記憶手段に記憶する処理手段と、をさらに含む類似度計算装置。
The similarity calculation apparatus according to claim 1,
In each region, an attribute value corresponding to an attribute associated with the region is described, or learning data receiving means for receiving a plurality of learning data in which the attribute value is not described,
A similarity calculation device further comprising: processing means for generating the distribution information for each of the attributes based on the plurality of learning data and storing the distribution information in the storage means.
請求項1または2に記載の類似度計算装置において、
前記第2計算手段は、前記第1計算手段にて計算された類似度および類似度の期待値を加算し、その加算結果を、前記第1および第2のデータの類似度とする、類似度計算装置。
In the similarity calculation apparatus according to claim 1 or 2,
The second calculation means adds the similarity calculated by the first calculation means and the expected value of the similarity, and sets the addition result as the similarity of the first and second data. Computing device.
類似度計算装置が行う類似度計算方法であって、
予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付け、
前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶手段に記憶し、
前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算し、
前記計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する、類似度計算方法。
A similarity calculation method performed by the similarity calculation device,
First and second attribute values corresponding to the attribute associated with the region are described in each region associated with each predetermined attribute on a one-to-one basis, or the attribute value is not described. Accept data,
For each of the attributes, distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute is stored in the storage unit,
For an attribute whose attribute value is described in both the first and second data, a similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least the first and second data. For attributes that do not exist in one of the data, the distribution information in the storage means is used to calculate the expected value of the similarity between the attribute values corresponding to the attribute,
A similarity calculation method for calculating a similarity between the first data and the second data based on the calculated similarity and an expected value of the similarity.
請求項4に記載の類似度計算方法において、
前記各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない複数の学習用データを受け付け、
前記複数の学習用データに基づいて、前記属性ごとに前記分布情報を生成すること、をさらに含み、
前記分布情報を記憶する際には、前記生成された分布情報を前記記憶手段に記憶する、類似度計算方法。
The similarity calculation method according to claim 4,
In each of the areas, an attribute value corresponding to an attribute associated with the area is described, or a plurality of learning data in which the attribute value is not described is received,
Generating the distribution information for each of the attributes based on the plurality of learning data,
A similarity calculation method of storing the generated distribution information in the storage means when storing the distribution information.
請求項4または5に記載の類似度計算方法において、
前記第1および第2のデータの類似度を計算する際に、前記計算された類似度および類似度の期待値を加算し、その加算結果を、前記第1および第2のデータの類似度とする、類似度計算方法。
The similarity calculation method according to claim 4 or 5,
When calculating the similarity between the first and second data, the calculated similarity and the expected value of the similarity are added, and the addition result is calculated as the similarity between the first and second data. A similarity calculation method.
コンピュータに、
予め定められた各属性に1対1で関連づけられた各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない第1および第2のデータを、受け付ける受付処理と、
前記属性ごとに、当該属性に対応する属性値が取り得る値の分布を表す分布情報を記憶手段に記憶する記憶処理と、
前記属性値が前記第1および第2のデータの両方に記載されている属性については、当該属性に対応する属性値同士の類似度を計算し、前記属性値が少なくとも前記第1および第2のデータの一方に存在しない属性については、前記記憶手段内の分布情報を用いて、当該属性に対応する属性値同士の類似度の期待値を計算する第1計算処理と、
前記計算された類似度および類似度の期待値に基づいて、前記第1および第2のデータの類似度を計算する第2計算処理と、を実行させるためのプログラム。
On the computer,
First and second attribute values corresponding to the attribute associated with the region are described in each region associated with each predetermined attribute on a one-to-one basis, or the attribute value is not described. A reception process for receiving data;
For each attribute, a storage process for storing distribution information representing a distribution of values that can be taken by the attribute value corresponding to the attribute in a storage unit;
For an attribute whose attribute value is described in both the first and second data, a similarity between attribute values corresponding to the attribute is calculated, and the attribute value is at least the first and second data. For an attribute that does not exist in one of the data, using the distribution information in the storage means, a first calculation process that calculates an expected value of similarity between attribute values corresponding to the attribute;
A program for executing a second calculation process for calculating a similarity between the first and second data based on the calculated similarity and an expected value of the similarity.
請求項7に記載のプログラムにおいて、
前記コンピュータに、
前記各領域に、当該領域に関連づけられた属性に対応する属性値が記載されているかまたは当該属性値が記載されていない複数の学習用データを受け付ける学習用データ受付処理と、
前記複数の学習用データに基づいて、前記属性ごとに前記分布情報を生成する生成処理と、をさらに実行させ、
前記記憶処理では、前記生成された分布情報を前記記憶手段に記憶する、プログラム。
The program according to claim 7,
In the computer,
In each area, an attribute value corresponding to an attribute associated with the area is described or a learning data reception process for receiving a plurality of learning data in which the attribute value is not described;
A generation process for generating the distribution information for each of the attributes based on the plurality of learning data;
In the storage process, a program for storing the generated distribution information in the storage unit.
請求項7または8に記載のプログラムにおいて、
前記第1および第2のデータの類似度を計算する際に、前記計算された類似度および類似度の期待値を加算し、その加算結果を、前記第1および第2のデータの類似度とする、プログラム。
In the program according to claim 7 or 8,
When calculating the similarity between the first and second data, the calculated similarity and the expected value of the similarity are added, and the addition result is calculated as the similarity between the first and second data. Program.
JP2008330765A 2008-12-25 2008-12-25 Similarity calculation device, similarity calculation method, and program Active JP5386976B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008330765A JP5386976B2 (en) 2008-12-25 2008-12-25 Similarity calculation device, similarity calculation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008330765A JP5386976B2 (en) 2008-12-25 2008-12-25 Similarity calculation device, similarity calculation method, and program

Publications (2)

Publication Number Publication Date
JP2010152692A true JP2010152692A (en) 2010-07-08
JP5386976B2 JP5386976B2 (en) 2014-01-15

Family

ID=42571703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008330765A Active JP5386976B2 (en) 2008-12-25 2008-12-25 Similarity calculation device, similarity calculation method, and program

Country Status (1)

Country Link
JP (1) JP5386976B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196609A (en) * 2012-03-22 2013-09-30 Toshiba Corp Data analysis support device and data analysis support processing program
JP2017037577A (en) * 2015-08-13 2017-02-16 カルチュア・コンビニエンス・クラブ株式会社 Apparatus, method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180071A (en) * 1994-12-26 1996-07-12 Nec Corp Evaluating system for result of data base retrieval
JPH10171834A (en) * 1996-12-11 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> Method for complementing and displaying defective data
JP2002215646A (en) * 2001-01-22 2002-08-02 Nec Corp Lacking data complementing method and lacking data complementing system
JP2004355370A (en) * 2003-05-29 2004-12-16 Canon Inc Document processing apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180071A (en) * 1994-12-26 1996-07-12 Nec Corp Evaluating system for result of data base retrieval
JPH10171834A (en) * 1996-12-11 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> Method for complementing and displaying defective data
JP2002215646A (en) * 2001-01-22 2002-08-02 Nec Corp Lacking data complementing method and lacking data complementing system
JP2004355370A (en) * 2003-05-29 2004-12-16 Canon Inc Document processing apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200501241001; 金子拓也: 'データマイニングにおける新しい欠損値補完方法の提案' 電子情報通信学会論文誌 VOL.J88-D-II NO.4, p.675-686, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *
JPN6013019886; 金子拓也: 'データマイニングにおける新しい欠損値補完方法の提案' 電子情報通信学会論文誌 VOL.J88-D-II NO.4, p.675-686, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196609A (en) * 2012-03-22 2013-09-30 Toshiba Corp Data analysis support device and data analysis support processing program
JP2017037577A (en) * 2015-08-13 2017-02-16 カルチュア・コンビニエンス・クラブ株式会社 Apparatus, method, and program

Also Published As

Publication number Publication date
JP5386976B2 (en) 2014-01-15

Similar Documents

Publication Publication Date Title
CN105719001B (en) Large scale classification in neural networks using hashing
JP7028345B2 (en) Pattern recognition device, pattern recognition method, and program
CN108765340B (en) Blurred image processing method and device and terminal equipment
WO2018170454A2 (en) Using different data sources for a predictive model
CN108846124B (en) Training method, training device, computer equipment and readable storage medium
CN112640037A (en) Learning device, inference device, learning model generation method, and inference method
US11604999B2 (en) Learning device, learning method, and computer program product
US11120298B2 (en) Tensor image mapping device, method, and computer program product
JP5386976B2 (en) Similarity calculation device, similarity calculation method, and program
US20220187486A1 (en) Computer system and data processing method
US11568303B2 (en) Electronic apparatus and control method thereof
CN111310912A (en) Machine learning system, domain conversion device, and machine learning method
CN111833847A (en) Speech processing model training method and device
JP6647475B2 (en) Language processing apparatus, language processing system, and language processing method
US20210232947A1 (en) Signal processing device, signal processing method, and computer program product
US20190026646A1 (en) Method to leverage similarity and hierarchy of documents in nn training
JP2022185799A (en) Information processing program, information processing method and information processing device
WO2020054402A1 (en) Neural network processing device, computer program, neural network manufacturing method, neural network data manufacturing method, neural network use device, and neural network downscaling method
JPWO2009151002A1 (en) Pattern identification method, apparatus and program
JP6453618B2 (en) Calculation apparatus, method and program
US10460206B2 (en) Differentiating physical and non-physical events
WO2023089745A1 (en) Computation processing device
US11468257B2 (en) Electronic apparatus for recognizing multimedia signal and operating method of the same
JP2010257341A (en) Adaptive sight line position estimating method, adaptive sight line position estimating device, program, and recording medium
WO2024111113A1 (en) Information processing device, information processing method, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130923

R150 Certificate of patent or registration of utility model

Ref document number: 5386976

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150