JP5640796B2 - Name identification support processing apparatus, method and program - Google Patents
Name identification support processing apparatus, method and program Download PDFInfo
- Publication number
- JP5640796B2 JP5640796B2 JP2011032645A JP2011032645A JP5640796B2 JP 5640796 B2 JP5640796 B2 JP 5640796B2 JP 2011032645 A JP2011032645 A JP 2011032645A JP 2011032645 A JP2011032645 A JP 2011032645A JP 5640796 B2 JP5640796 B2 JP 5640796B2
- Authority
- JP
- Japan
- Prior art keywords
- column
- data
- correlation coefficient
- similarity
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本技術は、名寄せを支援するための技術に関する。 The present technology relates to a technology for supporting name identification.
名寄せとは、データベースにおいて、同一の実体を表す複数のレコードを発見し、統合することである。例えば、顧客データベースにおいて、顧客企業又は顧客個人について複数のレコードがあれば、それらを統合する処理である。典型的には、名寄せの対象とするデータベース中には多くのカラムが存在することが多く、膨大なデータ量となるため、そのまま名寄せ処理を行うと計算量が増大し、大変な処理時間が要する原因となる。そのため、名寄せを行う前にはカラム選択が行われる。このカラム選択は、データベース中のどのカラムを名寄せの処理対象にするか決める処理である。通常は、カラム選択において適切なカラムを選択することによって、名寄せ処理の精度を保ちつつ処理速度が向上する。なお、元のデータベース中に名寄せに悪影響を与えるようなカラムが存在する場合には、適切なカラムを選択するにより、名寄せの精度も向上することが期待される。 Name identification refers to finding and integrating multiple records representing the same entity in a database. For example, in a customer database, if there are a plurality of records for a customer company or a customer individual, a process of integrating them. Typically, there are many columns in the database that is subject to name identification, and the amount of data is enormous. Therefore, if the name identification process is performed as it is, the calculation amount increases and a long processing time is required. Cause. Therefore, column selection is performed before name identification. This column selection is a process of determining which column in the database is to be processed for name identification. Normally, by selecting an appropriate column in the column selection, the processing speed is improved while maintaining the accuracy of the name identification process. If there is a column that adversely affects name identification in the original database, it is expected that the accuracy of name identification will be improved by selecting an appropriate column.
しかし、従来では、人間の経験と勘から名寄せのためのカラム選択を行ったり、機械学習を行った上でカラム選択を行ったり、カラム毎の異なり値数を計算して一定数以上の異なり値数を有するカラムを選択したりしていた。しかし、このような方法では、手間がかかったり、適切ではないカラムが選択されたりする場合がある。適切ではないカラムの例としては、例えば「会社漢字名」と「会社カナ名」のようにほとんど同じ情報を表す冗長なカラムが両方とも選択されてしまう場合や、取引商品名といった顧客企業の名寄せには無関係なカラムが選択されてしまう場合もある。 However, in the past, column selection for name identification was performed based on human experience and intuition, column selection was performed after machine learning, or the number of different values for each column was calculated and a certain number of different values were calculated. Or a column having a number was selected. However, such a method may be time consuming and may select an inappropriate column. Examples of columns that are not appropriate include cases where both redundant columns representing almost the same information such as “company kanji name” and “company kana name” are selected, or customer company name identification such as trade product names. In some cases, an unrelated column is selected.
なお、名寄せは、レコード間の同一性を発見する技術であるが、カラム間の同一性を発見するための技術としては、以下がある。複数のテーブルにおける項目間の関連を検出する技術については既に存在している。例えば、テーブルにおける項目毎に、項目中の値毎の出現回数に基づく値である項目スコアを算出し、複数のテーブルの中から互いに異なるテーブルを関連元テーブル及び関連先テーブルとして選択し、関連元テーブル中の項目である関連元項目と関連先テーブル中の項目である関連先項目とを選択し、関連元項目と関連先項目の組み合わせを関連として生成する。そして、生成された関連毎に、関連先項目における関連元項目中の値毎の出現回数と関連元項目の項目スコアと関連先項目の項目スコアとに基づく値である関連スコアを算出するものである。しかしながら、一般的に、名寄せで複数のテーブルにおける項目間の関連を検出することはない。なお、複数のテーブルにおけるレコードの同一性を発見する技術として、参照名寄せがあるが本技術では対象としない。 Note that name identification is a technique for finding the identity between records, and the technique for finding the identity between columns is as follows. A technique for detecting an association between items in a plurality of tables already exists. For example, for each item in the table, calculate an item score that is a value based on the number of appearances for each value in the item, select different tables from the plurality of tables as the association source table and the association destination table, A relation source item that is an item in the table and a relation destination item that is an item in the relation destination table are selected, and a combination of the relation source item and the relation destination item is generated as a relation. Then, for each generated association, a related score that is a value based on the number of appearances of each value in the related source item in the related destination item, the item score of the related source item, and the item score of the related destination item is calculated. is there. However, in general, the association between items in a plurality of tables is not detected by name identification. As a technique for finding the identity of records in a plurality of tables, there is a reference name collation, but this technique is not targeted.
また、各レコードの全てのカラムにデータが登録されていればよいが、データ欠損が存在している場合もある。このような場合には、対象データ中の欠損値を含む部分を除外し、残ったデータに対して通常の解析を行う方法があるが、非欠損値の数が少ないと相関係数値の信頼性が低下するといった問題がある。また、統計的に意味のある数値(平均値、回帰推定値、最悪値など)を各カラムの欠損箇所に代入するというような方法があるが、自然な分散値を外れる危険性が高く、結果として相関係数値が不正確になるという問題がある。さらに、欠損値を複数通り推定し、複数のデータセットを生成して解析し、最後に結果を統合するというような方法もあるが、データ規模や欠損の数によっては計算量が膨大になり、名寄せの分野では現実的な対策ではない。 In addition, data may be registered in all columns of each record, but there may be data loss. In such cases, there is a method to exclude the part containing missing values in the target data and perform normal analysis on the remaining data, but if the number of non-missing values is small, the reliability of the correlation coefficient value There is a problem that decreases. In addition, there is a method of substituting statistically meaningful numerical values (average value, regression estimation value, worst value, etc.) into the missing part of each column, but there is a high risk of deviating from the natural variance value. There is a problem that the correlation coefficient value becomes inaccurate. In addition, there are methods such as estimating multiple missing values, generating and analyzing multiple data sets, and finally integrating the results, but depending on the data size and number of missing data, the amount of calculation becomes enormous, It is not a realistic measure in the field of name identification.
従って、本技術の目的は、一側面において、名寄せを精度良く行うのに役立つ可能性のあるカラムを自動的に選択するための技術を提供することである。 Accordingly, an object of the present technology is, in one aspect, to provide a technology for automatically selecting a column that may help to perform name identification with high accuracy.
本技術の一側面に係る名寄せ支援処理方法は、(A)データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、(B)カラムの組み合わせの各々についてデータ格納部に格納されている第1のデータ類似度の相関係数を算出し、データ格納部に格納するステップと、(C)カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、注目レコードと特定されたレコードとの間の各々における、カラム毎の第2のデータ類似度を算出又は特定してデータ格納部に格納すると共に、注目カラムと他のカラムとの組み合わせの各々についてデータ格納部に格納されている第2のデータ類似度の相関係数を近傍相関係数として算出してデータ格納部に格納する近傍相関係数算出ステップと、(D)正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠損が発生していないレコードの割合が乗じられた正の近傍相関係数が算出されたカラムの組み合わせを、データ格納部から抽出する第1抽出処理を実施する第1抽出ステップとを含む。 A name identification support processing method according to an aspect of the present technology includes (A) calculating a first data similarity between records for each column in the database and storing the first data similarity in a data storage unit; and (B) a combination of columns. Calculating a correlation coefficient of the first data similarity stored in the data storage unit for each of the data, and storing the correlation coefficient in the data storage unit; and (C) an arbitrary column in the target column which is an arbitrary column of the columns The record having data similar to or similar to the data in the target record that is the record of the record is specified, and the second data similarity for each column is calculated in each of the range between the target record and the specified record Alternatively, the second data stored in the data storage unit for each combination of the column of interest and the other column is specified and stored in the data storage unit. A neighborhood correlation coefficient calculation step of calculating a correlation coefficient of the data similarity degree as a neighborhood correlation coefficient and storing it in the data storage unit; and (D) a positive correlation coefficient that is calculated and exceeds a predetermined significance level. A first extraction process is performed to extract a combination of columns from which a positive neighborhood correlation coefficient calculated by multiplying the percentage of records having no neighborhood correlation coefficient or data loss has been calculated from the data storage unit. An extraction step.
名寄せを精度良く行うのに役に立つ可能性のあるカラムを自動的に選択できるようになる。 You can automatically select columns that may be useful for accurate name identification.
[実施の形態1]
本実施の形態では、名寄せに役に立つカラム、すなわち実体を1又は少数に限定することができるカラム(例えば顧客企業の名寄せであれば企業名、住所など)を、新たな指標を導入することによって抽出する。
[Embodiment 1]
In this embodiment, a column that is useful for name identification, that is, a column that can limit the number of entities to one or a small number (for example, company name, address, etc. in the case of name identification of a customer company) is extracted by introducing a new index. To do.
具体的には、よく知られている相関(より具体的には相関係数)と近傍相関(より具体的には近傍相関係数)とを組み合わせて用いる。近傍相関とは、後に詳細な計算方法を示すが、特定のカラムにおいて類似する少数のレコードの範囲で複数のカラムの値が同時に一致又は類似している度合いを表す指標である。以下、相関と近傍相関との関係について説明する。 Specifically, a well-known correlation (more specifically, a correlation coefficient) and a neighborhood correlation (more specifically, a neighborhood correlation coefficient) are used in combination. The neighborhood correlation, which will be described later in detail, is an index that represents the degree to which the values of a plurality of columns simultaneously match or are similar within a range of a small number of similar records in a specific column. Hereinafter, the relationship between the correlation and the neighborhood correlation will be described.
まず、図1を用いて相関と近傍相関について概観する。 First, an overview of correlation and neighborhood correlation will be given with reference to FIG.
ここでは、以下のような典型例が成り立つものとする。(1)名寄せ可能なレコードの集合においては、名寄せに役立つカラムのペアのカラム値は、「ともに一致又は非常に類似する」ことが多い。すなわち、この場合、2つのカラムの類似度は連動する。(2)名寄せ可能性の高いレコードが存在する場合でも、その部分のデータ数はデータベースの全レコード数に比べると非常に小さい。 Here, it is assumed that the following typical example holds. (1) In a set of records that can be identified, the column values of pairs of columns useful for name identification are often “both coincide or are very similar”. That is, in this case, the similarity between the two columns is linked. (2) Even when there is a record with a high possibility of name identification, the number of data in that portion is very small compared to the total number of records in the database.
図1左上に示すように、相関は、分析対象のデータベース全体における、特定のカラムペアの類似度の連動性を示している。カラムペアの相関係数が大きい場合、主な原因はカラムの冗長性である。例えば、「会社漢字名」と「会社カナ名」とは相関係数が大きくなるが、名寄せとしては冗長なカラムのペアであり、そのまま両方とも用いると、精度には変わりがないものの、処理時間が増大する。なお、典型例(2)より、名寄せの可能性が高いレコードの絶対数は非常に少ないので、それらは相関の増加にはほとんど寄与しない。すなわち、相関係数単独では、名寄せに役立つカラムは埋もれてしまって抽出できない。 As shown in the upper left of FIG. 1, the correlation indicates the linkage of the similarity of a specific column pair in the entire analysis target database. When the correlation coefficient of a column pair is large, the main cause is column redundancy. For example, “Company Kanji Name” and “Company Kana Name” have a large correlation coefficient, but they are redundant column pairs for name collation. Will increase. Since the absolute number of records having a high possibility of name identification is very small compared to the typical example (2), they hardly contribute to an increase in correlation. That is, the correlation coefficient alone cannot be extracted because the column useful for name identification is buried.
一方、近傍相関は、図1左上でハッチングが付されている部分のように、特定カラム(例えば「会社漢字名」)のカラム値が類似するレコードの集合(図1右下)を抽出することによって得られる、局所的に類似性が強いデータ集合における、カラムペアの類似性の連動性を示している。カラムペアの近傍相関係数が大きい場合、典型例(1)から名寄せの可能性が高いレコードを多く含むことが推定され、名寄せに役立つカラムが含まれる可能性が高くなる。但し、冗長性を完全に排除できるわけではない。 On the other hand, the neighborhood correlation is to extract a set of records (lower right in FIG. 1) having similar column values of a specific column (for example, “company kanji name”), such as the hatched portion in the upper left in FIG. This shows the linkage of the similarity of column pairs in a data set with strong local similarity. When the neighborhood correlation coefficient of the column pair is large, it is estimated from the typical example (1) that many records having a high possibility of name identification are included, and there is a high possibility that a column useful for name identification is included. However, redundancy cannot be completely eliminated.
次に、図2及び図3を用いて相関についてもう少し詳細に検討する。図2は散布図であって、横軸は例えば取引商品カラム内のカラム値の類似度を表し、縦軸は例えば住所カラム内のカラム値の類似度を表し、黒点はレコードのペアを表す。図2の例のように、相関がほぼ0(無相関)の場合には、いずれのカラムの類似度の大小も互いに無関係であり、このようなカラムペアは名寄せに役に立つことはない。 Next, the correlation will be examined in more detail with reference to FIGS. FIG. 2 is a scatter diagram, in which the horizontal axis represents, for example, the similarity of column values in the transaction product column, the vertical axis represents, for example, the similarity of column values in the address column, and the black dots represent record pairs. As in the example of FIG. 2, when the correlation is almost 0 (non-correlated), the degree of similarity of any column is irrelevant to each other, and such a column pair is not useful for name identification.
なお、相関の大小の判定には、統計学における相関係数の有意性の判定を用いるものとする。すなわち、有意水準の限界値αと相関係数rとの関係がr>αを満たせば相関大であり、満たさない場合には相関小ということとする。 Note that the determination of the magnitude of the correlation uses the determination of the significance of the correlation coefficient in statistics. That is, if the relationship between the limit value α of the significance level and the correlation coefficient r satisfies r> α, the correlation is high, and if not, the correlation is low.
一方、図3も散布図であり、横軸は例えば会社漢字名カラム内のカラム値の類似度を表し、縦軸は例えば会社カナ名カラム内のカラム値の類似度を表す。図3の例では、一方のカラムの類似度が大きい場合には他方のカラムの類似度も大きく、一方のカラムの類似度が小さい場合には他方のカラムの類似度も小さくなっている。このように、両方のカラムの類似度の挙動がほぼ同じになっている場合には、冗長なカラムペアということになる。従って、いずれのカラムを用いてもほぼ同様の結果が期待される。このように、図3のような類似度の相関係数が大きいカラムペアについては、冗長性のあるカラムペアであり、以下で述べるように近傍相関との関係で利用することができる。 On the other hand, FIG. 3 is also a scatter diagram, where the horizontal axis represents, for example, the similarity of column values in the company kanji name column, and the vertical axis represents, for example, the similarity of column values in the company kana name column. In the example of FIG. 3, when the similarity of one column is large, the similarity of the other column is also large, and when the similarity of one column is small, the similarity of the other column is also small. Thus, when the behavior of the similarity of both columns is almost the same, this is a redundant column pair. Therefore, almost the same result is expected regardless of which column is used. As described above, the column pair having a large correlation coefficient of similarity as shown in FIG. 3 is a redundant column pair and can be used in relation to the neighborhood correlation as described below.
次に、図4乃至図8を用いて相関と近傍相関についてもう少し詳細に検討する。 Next, the correlation and the neighborhood correlation will be examined in a little more detail with reference to FIGS.
なお、近傍相関の大小判定についても、相関の大小の判定と同様に、相関係数の有意性の検定手法を用いるものとする。 Note that the correlation coefficient significance test method is also used for the determination of the magnitude of the neighborhood correlation, as in the determination of the magnitude of the correlation.
図4は散布図であり、縦軸は例えば住所カラムの類似度を表し、横軸は取引商品カラムの類似度を表している。このカラムペアについては、類似度の相関が非常に小さいことが分かる。また、取引商品カラムの類似度を基準にして、取引商品カラムの類似度が高いレコード(すなわち取引商品カラムの類似度が1に近いハッチング部分)の住所カラムの類似度もばらばらであるから、近傍相関も小さいことがわかる。このようなカラムペアは、名寄せには役に立たない。 FIG. 4 is a scatter diagram, where the vertical axis represents, for example, the similarity of the address column, and the horizontal axis represents the similarity of the transaction product column. For this column pair, it can be seen that the similarity correlation is very small. In addition, since the similarity of the address column of the record having a high similarity of the transaction product column (that is, the hatched portion where the similarity of the transaction product column is close to 1) is also different based on the similarity of the transaction product column. It can be seen that the correlation is also small. Such column pairs are useless for name identification.
また、図5も散布図であり、縦軸は例えば会社カナ名の類似度を表し、横軸は会社漢字名カラムの類似度を表している。このカラムペアについては、類似度の相関が大きいことが分かる。また、会社漢字名カラムの類似度を基準として、会社漢字名カラムの類似度が高いレコード(すなわち会社漢字名カラムの類似度が1に近いハッチング部分)の会社カナ名カラムの類似度も高くなっている。すなわち近傍相関も大きくなっている。しかし、カラムペアの相関の大きさがそのまま近傍相関の値に反映されているだけなので、相関が大きく且つ近傍相関が大きいというカラムペアは、それだけで名寄せに役に立つペアとは言えない。 FIG. 5 is also a scatter diagram, where the vertical axis represents, for example, the similarity of the company name, and the horizontal axis represents the similarity of the company kanji name column. It can be seen that this column pair has a large correlation in similarity. In addition, based on the similarity of the company kanji name column, the similarity of the company kana name column of the record having a high similarity of the company kanji name column (that is, the hatched portion where the similarity of the company kanji name column is close to 1) is also increased. ing. That is, the neighborhood correlation is also increased. However, since the magnitude of the correlation of the column pair is simply reflected in the neighborhood correlation value as it is, a column pair with a large correlation and a large neighborhood correlation cannot be said to be a useful pair for name identification by itself.
さらに、図6も散布図であり、縦軸は例えば会社カナ名カラムの類似度を表し、横軸は住所カラムの類似度を表している。このカラムペアについては、全体の相関は小さいことが分かる。しかしながら、住所カラムの類似度を基準として、会社カナ名カラムの類似度が高いレコード(すなわち住所カラムの類似度が1に近いハッチング部分)の会社カナ名カラムの類似度は高くなっている。すなわち近傍相関が大きくなっている。このように、特定のカラムについての類似度が高いレコードに着目すると他方のカラムについても類似度が高いということであれば、名寄せすべきレコードが存在していることを暗示しているので、このようなカラムペアについては、名寄せに役立つカラムペアと言える。 FIG. 6 is also a scatter diagram, where the vertical axis represents, for example, the similarity of the company name column, and the horizontal axis represents the similarity of the address column. It can be seen that the overall correlation is small for this column pair. However, on the basis of the similarity of the address column, the similarity of the company Kana name column of the record having a high similarity of the company Kana name column (that is, the hatched portion where the similarity of the address column is close to 1) is high. That is, the neighborhood correlation is large. In this way, if attention is focused on a record with a high degree of similarity for a particular column, if the degree of similarity is also high for the other column, it implies that there is a record to be named, so this Such column pairs can be said to be useful for name identification.
さらに、図7も散布図であり、縦軸は例えば電話番号カラムの類似度を表し、横軸は会社カナ名カラムの類似度を表している。このカラムペアについては、全体として相関が高いことが分かる。さらに、会社カナ名カラムの類似度を基準として、会社カナ名カラムの類似度が高いレコード(すなわち会社カナ名カラムの類似度が1に近いハッチング部分)の電話番号カラムの類似度の連動性が高くなっていることが分かる。すなわち、近傍相関の大きさは、相関の大きさよりも大きくなっている。このようなカラムペアは、特定のカラムについての類似度が高いレコードに着目すると他方のカラムについても類似度が非常に連動して高いということであれば、名寄せすべきレコードが存在していることを暗示している。従って、このようなカラムペアについては、名寄せに役立つカラムペアと言える。なお、会社漢字名カラムと会社カナ名カラムとがこのような態様に該当する場合には、漢字と読みの関係が多対一(同音異字語)、一対多(複数読みの語)のケースを多く含む場合などが該当する。 Furthermore, FIG. 7 is also a scatter diagram, where the vertical axis represents, for example, the similarity of the telephone number column, and the horizontal axis represents the similarity of the company name column. It can be seen that this column pair has a high correlation as a whole. Furthermore, based on the similarity of the Company Kana name column, the linkage of the similarity of the phone number column of the record with a high similarity of the Company Kana name column (that is, the hatched portion where the similarity of the Company Kana name column is close to 1) is You can see that it is getting higher. That is, the magnitude of the neighborhood correlation is larger than the magnitude of the correlation. If such a column pair is focused on a record with a high degree of similarity for a particular column and the degree of similarity is also very high for the other column, it means that there is a record to be identified. It is implied. Therefore, such a column pair can be said to be a column pair useful for name identification. When the company kanji name column and the company kana name column fall under this aspect, there are many cases where the relationship between kanji and reading is many-to-one (same syllables) and one-to-many (words with multiple readings). This includes cases where it is included.
このように近傍相関が大きい場合には、特定のカラムについての類似度が高いレコードに着目すると他方のカラムについても類似度が高く連動性がある、すなわち散布図であれば直線的に並ぶということである。 When the neighborhood correlation is large in this way, focusing on the record with high similarity for a specific column, the other column also has high similarity and linkage, that is, if it is a scatter diagram, it is linearly arranged It is.
図4乃至図7を用いて説明した典型的なケースをまとめると図8のようになる。なお、後に詳細を述べるが、本実施の形態においては、近傍相関の値から相関の値を引いたものを有用度とする。具体的には、図4のような「相関:小且つ近傍相関:小」のケースであれば、カラムペアに冗長性は無いが、カラムペアが名寄せに役立つ可能性は無い。従って、名寄せに対する有用度は0に近いものである。また、図5のような「相関:大且つ近傍相関:大」のケースであれば、カラムペアに冗長性があるだけで、カラムペアが名寄せに役に立つ可能性は無い。従って、名寄せに対する有用度は0に近い。一方、図6のような「相関:小且つ近傍相関:大」のケースであれば、カラムペアに冗長性も無く、カラムペアが名寄せに役に立つ可能性がある。従って、名寄せに対する有用度は正の値となる。さらに、図7のような「相関:大且つ近傍相関:非常に大」のケースであれば、カラムペアに冗長性もあるが、カラムペアが名寄せに役に立つ可能性がある。従って、名寄せに対する有用度は正の値となる。 The typical cases described with reference to FIGS. 4 to 7 are summarized as shown in FIG. As will be described in detail later, in the present embodiment, the value obtained by subtracting the correlation value from the neighborhood correlation value is used. Specifically, in the case of “correlation: small and neighborhood correlation: small” as shown in FIG. 4, the column pair has no redundancy, but the column pair is not likely to be useful for name identification. Therefore, the usefulness for name identification is close to zero. Further, in the case of “correlation: large and neighborhood correlation: large” as shown in FIG. 5, there is no possibility that the column pair is useful for name identification because the column pair has only redundancy. Therefore, the usefulness for name identification is close to zero. On the other hand, in the case of “correlation: small and neighborhood correlation: large” as shown in FIG. 6, there is no redundancy in the column pair, and the column pair may be useful for name identification. Therefore, the usefulness for name identification is a positive value. Further, in the case of “correlation: large and neighborhood correlation: very large” as shown in FIG. 7, the column pair has redundancy, but the column pair may be useful for name identification. Therefore, the usefulness for name identification is a positive value.
従って、まず図8のテーブルにおいて下2行のように、類似度の相関が正で小又は大で、類似度の近傍相関が正で大又は非常に大といった特徴のあるカラムペアを探索することが好ましい。 Therefore, first, as shown in the lower two rows in the table of FIG. 8, a column pair having a characteristic such that the correlation of similarity is positive and small or large and the neighborhood correlation of similarity is positive and large or very large can be searched. preferable.
その後、以下で述べるような指標を導入することで、適切に名寄せに役に立つカラムを抽出することができるようになる。 After that, by introducing the indicators described below, it is possible to appropriately extract columns useful for name identification.
なお、本実施の形態では、データベースにはテーブル状のデータ構造が用意されており、カラムとレコードとして把握されるものを念頭に説明する。 In the present embodiment, a table-like data structure is prepared in the database, and what is grasped as a column and a record will be described in mind.
図9に、本実施の形態における名寄せ支援処理装置の機能ブロック図を示す。本名寄せ支援処理装置100は、(A)名寄せ対象データベース500からデータを読み出すデータ読み込み部110と、(B)第1データ格納部120と、(C)相関計算部130と、(D)近傍相関計算部140と、(E)第2データ格納部150と、(F)カラム処理部160と、(G)出力データ格納部170とを有する。
FIG. 9 shows a functional block diagram of the name identification support processing apparatus according to the present embodiment. The real name identification
データ読み込み部110は、名寄せ対象データベース500から読み込んだデータを第1データ格納部120に格納するようになっている。また、相関計算部130は、第1データ格納部120に格納されているデータを用いて処理を行い、処理途中のデータ及び処理結果を第2データ格納部150に格納するようになっている。近傍相関計算部140は、第1データ格納部120に格納されているデータを用いて処理を行い、処理途中のデータ及び処理結果を第2データ格納部150に格納するようになっている。カラム処理部160は、第1データ格納部120及び第2データ格納部150に格納されているデータを用いて処理を行い、最終の処理結果を出力データ格納部170に格納するようになっている。また、カラム処理部160も、処理途中のデータについては第2データ格納部150に格納する。また、カラム処理部160は、カラム優先度計算部161とカラム抽出処理部162と出力部163とを有する。
The data reading unit 110 stores the data read from the name
なお、名寄せ対象データベース500は、例えばネットワークを介して接続されている他のコンピュータに管理されているものとする。なお、当該他のコンピュータが名寄せ支援処理装置であってもよい。
Note that the name
次に、図10乃至図28を用いて、図9に示した名寄せ支援処理装置100の処理内容について説明する。
Next, processing contents of the name identification
まず、データ読み込み部110は、名寄せ対象データベース500から処理対象データを読み込み、第1データ格納部120に格納する(図10:ステップS1)。なお、本実施の形態では、レコードを識別するためのレコードIDが各レコードに付与されており、このレコードIDのカラムとカラム選択の対象となるカラムとが読み出されるものとする。図11に、読み出されたデータの一例を示す。図11の例では、レコードIDのカラムと、会社漢字名のカラムと、会社カナ名のカラムと、住所のカラムと、取引部品名のカラムとが含まれ、全部で11レコードが抽出された例を示している。このほかのカラムが含まれても良いし、レコード数はより多い方が正しい処理が行われる。
First, the data reading unit 110 reads processing target data from the name
次に、相関計算部130は、カラム間の相関算出処理を実施する(ステップS3)。この処理については、図12乃至図16を用いて説明する。
Next, the
まず、相関計算部130は、未処理のレコードペアを、第1データ格納部120内において1つ特定する(図12:ステップS21)。
First, the
また、相関計算部130は、未処理のカラムを1つ特定する(ステップS23)。そして、相関計算部130は、特定されたカラムにおけるレコードペア間について類似度を算出し、第2データ格納部150に格納する(ステップS25)。本実施の形態では、類似度は、編集距離に基づく類似度を用いる。例えば、レコードID「10000001」と「10000004」のレコードペアが特定された場合には、会社漢字名カラムにおける△△△株式会社と○○ヤユヨ株式会社とを比較する。そうすると、図13に示すように「株式会社」の4文字以外は全て異なっているので、以下のように類似度は算出される。なお、図13において二重丸は一致を示しており、×は編集(置換、削除、挿入)が必要な部分を示している。
In addition, the
類似度=1.0−(同一化に必要な文字の編集数/長い方の文字数)
=1.0−5/9=0.4444
Similarity = 1.0− (number of characters required for identification / number of longer characters)
= 1.0-5 / 9 = 0.4444
そして、相関計算部130は、全てのカラムについて処理したか判断する(ステップS27)。未処理のカラムが存在している場合には、ステップS23に戻る。全てのカラムについて処理した場合には、相関計算部130は、全てのレコードペアについて処理したか判断する(ステップS29)。未処理のレコードペアが存在する場合にはステップS21に戻る。一方、全てのレコードペアについて処理した場合には、ステップS31に移行する。
Then, the
この段階で、図11に示したデータを処理すると、図14に示すような類似度テーブルが得られる。図14の例では、レコードIDペアの列と、会社漢字名の類似度の列と、会社カナ名の類似度の列と、住所の類似度の列と、取引部品名の類似度の列とが設けられており、各レコードペアについて、類似度が登録されている。 At this stage, when the data shown in FIG. 11 is processed, a similarity table as shown in FIG. 14 is obtained. In the example of FIG. 14, a record ID pair column, a company Kanji name similarity column, a company Kana name similarity column, an address similarity column, a transaction part name similarity column, The similarity is registered for each record pair.
そして、相関計算部130は、図14のような類似度テーブルにおいて、未処理のカラムペアを特定する(ステップS31)。図14においては既に「会社漢字名」と「会社カナ名」のカラムペアを選択する場面を一例として示している。
Then, the
その後、相関計算部130は、カラムペアの類似度から、類似度についての相関係数を算出し、第2データ格納部150に格納する(ステップS33)。相関係数の算出方法は、従来と同じであるが、以下に示すような算式が用いられる。
After that, the
なお、xiは、カラムXにおけるi番目の類似度を表し、yiは、カラムYにおけるi番目の類似度とを表す。また、xバー(xの上にバーを乗せた記号)はカラムXについての類似度の平均値を表し、yバー(yの上にバーを乗せた記号)はカラムYについての類似度の平均値を表す。 Incidentally, x i represents the i-th similarity in column X, y i denotes the i-th similarity in the column Y. Further, x bar (a symbol with a bar on x) represents an average value of similarity for column X, and y bar (a symbol with a bar on y) represents an average of similarity for column Y. Represents a value.
そして、相関計算部130は、全てのカラムペアについて処理したか判断する(ステップS35)。未処理のカラムペアが存在する場合にはステップS31に戻る。一方、全てのカラムペアについて処理した場合には、元の処理に戻る。
Then, the
ここまで処理を行うと、例えば図15に示すようなデータが、第2データ格納部150に格納される。図15の例では、同一のカラムペアであっても順番が異なれば異なるカラムペアとして値を示しているが、実際は同一の相関係数が得られるので、いずれかを算出すればよい。上で述べた例では、太字で示されている「会社漢字名」と「会社カナ名」のカラムペアについて相関係数が算出されているが、「会社カナ名」と「会社漢字名」のカラムペアについての相関係数も同一の値になる。
When the processing is performed so far, for example, data as illustrated in FIG. 15 is stored in the second
図10の処理の説明に戻って、次に、近傍相関計算部140は、カラム間の近傍相関算出処理を実施する(ステップS5)。カラム間の近傍相関算出処理については、図16乃至図21を用いて説明する。
Returning to the description of the processing in FIG. 10, next, the neighborhood
まず、近傍相関計算部140は、第1データ格納部120に格納されている処理対象データにおける未処理のカラムを1つ特定する(図16:ステップS41)。また、近傍相関計算部140は、特定されたカラムをベースにレコードをソートし、ソート結果を例えば第2データ格納部150に格納する(ステップS43)。図11に示した処理対象データを会社漢字名カラムをベースに辞書順でソートすると、図17に示すようなデータが得られるものとする。辞書順にソートすると、あるレコードに着目した場合、特定されたカラムにおいて、そのレコードの近傍には、ある程度類似した値を有するレコードが配置されるようになる。このような性質を用いて、特定されたカラムにおいて類似した値を有するレコードを比較的軽い処理で収集しやすくしている。
First, the neighborhood
但し、図14に示したように、カラム毎に既に各レコードペアについての類似度が計算されている場合には、特定されたカラムにおいて、同じレコードIDをレコードペアの片方のレコードのIDとして有する行について類似度でソートすることによって、正確に類似度が高い行、すなわち特定されたカラムについて特定のレコードに着目した場合に類似度が高い他方のレコードを特定することができる。 However, as shown in FIG. 14, if the similarity for each record pair has already been calculated for each column, the same record ID is used as the ID of one record of the record pair in the specified column. By sorting the rows by similarity, it is possible to specify a row having a high degree of similarity, that is, the other record having a high degree of similarity when focusing on a specific record for the specified column.
次に、近傍相関計算部140は、各レコードについて、ソート結果に基づき近傍レコードを抽出し、当該近傍レコードのデータを第2データ格納部150に格納する(ステップS45)。例えば、特定のレコードの上下3つのレコードを抽出すものとする。例えば、図17の例で、第1のレコードを選択した場合、上レコードは存在しないので、下レコード3つを近傍レコードとして特定する。なお、自レコードは近傍に含めない。また、近傍レコードの抽出方法は、例えば編集距離、すなわち上で述べた類似度を採用してもよいし、bi-gram検索などを採用しても良い。さらに、近傍の抽出範囲については、固定レコード単位でなくともよい。類似度が閾値を超えたレコードのみを抽出するようにしても良い。さらに、全てのレコードを基準とするのではなく、無作為に抽出するようにしても良い。
Next, the neighborhood
例えば、上で最初に述べた基準で近傍レコードを抽出すると、例えば図18に示すようなデータが第2データ格納部150に格納されるようになる。図18の例では、比較元レコードのIDと、比較先近傍レコードのIDとが対応付けて登録されるようになっている。
For example, when the neighborhood record is extracted based on the criteria described above, for example, data as shown in FIG. 18 is stored in the second
そして、近傍相関計算部140は、図18のようなテーブルにおいて、未処理の比較元レコードを1つ特定する(ステップS47)。そして、近傍相関計算部140は、特定された比較元レコードとその各比較先近傍レコードとの間について、各カラムの類似度を算出し、第2データ格納部150に格納する(ステップS49)。例えば、比較元レコードのIDが「10000010」であれば、比較先近傍レコードは「1000001」「10000007」「10000004」「10000009」であるから、これらのレコードとの間について、各カラムで類似度を算出して登録すると、図19に示すようなデータ(始めの4レコード)が得られる。図19の例では、レコードIDペアの行と、会社漢字名の類似度の列と、会社カナ名の類似度の列と、住所の類似度の列と、取引部品名の類似度の列とが設けられており、比較元レコードと比較先近傍レコードとの組み合わせ毎に、各カラムの類似度が登録されるようになっている。なお、類似度は既にステップS3で計算されているので、レコードペアとカラムペアとから既に計算された類似度を読み出して、第2データ格納部150に登録するようにしても良い。
Then, the neighborhood
その後、近傍相関計算部140は、全ての比較元レコードについて処理したか判断する(ステップS51)。未処理の比較元レコードが存在している場合にはステップS47に戻る。全ての比較元レコードを処理した場合には、図19に示すようなデータが揃うことになる。
Thereafter, the neighborhood
そして、近傍相関計算部140は、図19のようなデータにおいて未処理のカラムペアを1つ特定する(ステップS53)。その後、近傍相関計算部140は、特定されたカラムペアの類似度から、相関係数を近傍相関係数として算出し、第2データ格納部150に格納する(ステップS55)。相関係数の算出方法については、ステップS33で説明した方法と同様の方法で算出する。そして処理は端子Aを介して図20の処理に移行する。
Then, the neighborhood
図20の処理の説明に移行して、近傍相関計算部140は、全てのカラムペアについて処理したか判断する(ステップS57)。未処理のカラムペアが存在する場合には端子Cを介してステップS53に戻る。一方、全てのカラムペアについて処理した場合には、近傍相関計算部140は、図11に示すようなデータにおける全てのカラムについて処理したか判断する(ステップS59)。未処理のカラムが存在する場合にはステップS41に戻る。一方、全てのカラムについて処理した場合には、元の処理に戻る。
Shifting to the description of the processing in FIG. 20, the neighborhood
ここまで処理すると例えば図21に示すようなデータが、第2データ格納部150に格納される。図21の例では、各カラムペアについて、近傍相関係数が登録されるようになっている。同一カラム間の近傍相関係数については計算することはないが、「1」であるので図21では示している。また、カラム毎にレコードをソートするので、相関とは異なり、カラムペアにおける比較元カラムが異なれば近傍相関係数の値は異なってくる。なお、ステップS53乃至S57を1回実行すると、図21のようなテーブルにおける1行中の1つの近傍相関係数が算出され、ステップS53乃至S57を全てのカラムペアについて繰り返すと図21のようなテーブルにおける1行分の近傍相関係数が算出される。そして、ステップS41乃至ステップS59を全てのカラムについて繰り返せば、図21のようなテーブルの全ての行の近傍相関係数が算出されるようになる。また、図19に示すようなデータは、ステップS41乃至ステップS51を実施する毎に異なるデータが生成される。
When processing is performed up to this point, for example, data as shown in FIG. 21 is stored in the second
このようにして、近傍相関が算出され、第2データ格納部150に格納される。このように、相関計算部130によって算出され且つ第2データ格納部150に格納されている類似度を用いずに近傍相関算出処理を実施する場合には、ステップS3とステップS5との処理順番については入れ替え可能であり、さらに並列実行可能である。
In this way, the neighborhood correlation is calculated and stored in the second
図10の処理の説明に戻って、次に、カラム処理部160のカラム優先度計算部161は、カラムの優先度算出処理を実施する(ステップS7)。このカラムの優先度算出処理については、図22A乃至図23を用いて説明する。
Returning to the description of the processing in FIG. 10, the column priority calculation unit 161 of the
まず、カラム優先度計算部161は、データ数から、各相関係数及び各近傍相関係数について有意水準の限界値を算出し、例えば第2データ格納部150に格納する(ステップS61)。例えば、相関係数の場合には図14のようなデータのレコード数を計数して自由度として特定する。また、近傍相関係数の場合には図19のようなデータのレコード数を計数して自由度として特定する。また、有意水準には5%と1%が良く用いられるが、いずれかの限界値表(r表とも呼ぶ。限界値は危険率とも呼ぶ。)を予め用意しておき、自由度に応じた限界値を特定する。自由度に対応する限界値が登録されていない場合には、自由度が近い値の限界値を補間して算出するようにしても良い。
First, the column priority calculation unit 161 calculates the limit value of the significance level for each correlation coefficient and each neighboring correlation coefficient from the number of data, and stores it in the second
第2データ格納部150に格納されている、ステップS5及びS7の処理結果及び限界値をまとめると、図22Bに示すようになる。図22Bの例では、各カラムについて、対応するカラムの相関係数及び近傍相関係数の値が登録されており、さらに、相関係数及び近傍相関係数のデータ数及び当該データ数に対応する5%有意水準の限界値も登録されている。
The processing results and limit values of steps S5 and S7 stored in the second
次に、カラム優先度計算部161は、相関係数が正であって、対応する有意水準の限界値を超えるカラムペアを、全てのカラムペアから抽出し、例えば第2データ格納部150に格納する(ステップS63)。 Next, the column priority calculation unit 161 extracts column pairs having a positive correlation coefficient and exceeding the limit value of the corresponding significance level from all the column pairs, and stores the column pairs in, for example, the second data storage unit 150 ( Step S63).
図22Bの例では、「会社漢字名」と「会社カナ名」のカラムペアが該当する。具体的には、このカラムペアの相関係数「0.8902」と、対応する5%有意水準の限界値「0.2649」とを比較して判断している。なお、ステップS63を実行することによって、冗長性のあるカラムペアが特定されたことになる。このようなカラムペアは、後に以下で抽出するカラムペアとの関係で用いられる。 In the example of FIG. 22B, a column pair of “company kanji name” and “company kana name” corresponds. Specifically, the correlation coefficient “0.8902” of the column pair is compared with the corresponding limit value “0.2649” of the 5% significance level. By executing step S63, a redundant column pair is specified. Such a column pair is used in relation to a column pair to be extracted later.
また、カラム優先度計算部161は、相関係数及び近傍相関係数が正であって、近傍相関係数が対応する有意水準の限界値を超えているカラムペアを、全てのカラムペアから抽出し、例えば第2データ格納部150に格納する(ステップS65)。 Further, the column priority calculation unit 161 extracts, from all column pairs, column pairs in which the correlation coefficient and the neighborhood correlation coefficient are positive and the neighborhood correlation coefficient exceeds the corresponding limit value of the significance level, For example, it is stored in the second data storage unit 150 (step S65).
図22Bの例では、ハッチングが付加されている部分、すなわち「会社漢字名」と「会社カナ名」のカラムペアと、「会社カナ名」と「会社漢字名」のカラムペアと、「会社カナ名」と「住所」のカラムペアと、「住所」と「会社カナ名」のカラムペアとが抽出される。相関のみが検討対象であれば比較元と比較先の区別はないが、近傍相関の場合には比較元と比較先とを区別する。これによって名寄せに役立つ可能性のあるカラムペアが特定される。しかしながら、ステップS65で得られたカラムペアには、上でも述べたように冗長性を有するカラムペアも含まれている可能性がある。 In the example of FIG. 22B, hatched portions, that is, a column pair of “company kanji name” and “company kana name”, a column pair of “company kana name” and “company kanji name”, and “company kana name” And a column pair of “address” and a column pair of “address” and “company name” are extracted. There is no distinction between the comparison source and the comparison destination if only the correlation is considered, but in the case of the neighborhood correlation, the comparison source and the comparison destination are distinguished. This identifies column pairs that may be useful for name identification. However, the column pair obtained in step S65 may include a column pair having redundancy as described above.
そこで、カラム優先度算出部161は、ステップS63で得られたカラムペアとステップS65で得られたカラムペアから、名寄せに役に立つカラムを特定する(ステップS67)。例えば、ステップS63及びS65で得られたカラムペアに含まれるカラムの和集合で特定される。上で述べた例では、「会社漢字名」と「会社カナ名」と「住所」とが特定される。 Therefore, the column priority calculation unit 161 identifies a column useful for name identification from the column pair obtained in step S63 and the column pair obtained in step S65 (step S67). For example, it is specified by the union of columns included in the column pair obtained in steps S63 and S65. In the example described above, “company kanji name”, “company kana name”, and “address” are specified.
なお、上で述べた例ではステップS63及びS65で特定されるカラムの数が少ないのでこのような処理が可能である。一方、ステップS63及びS65で特定されたカラムの数が多い場合には、例えばデータベースの各カラムについて、ステップS63及びS65に含まれるカラムペアのいずれかに含まれているか否かを判断する。そして、含まれている場合には名寄せに役に立つ可能性のあるカラムと判定し、含まれていない場合には名寄せに役に立たないカラムと判定するようにしてもよい。 In the example described above, such a process is possible because the number of columns specified in steps S63 and S65 is small. On the other hand, when the number of columns specified in steps S63 and S65 is large, for example, it is determined whether or not each column of the database is included in any of the column pairs included in steps S63 and S65. If it is included, it may be determined that the column may be useful for name identification. If it is not included, it may be determined that the column is not useful for name identification.
そして、カラム優先度算出部161は、特定されたカラムの各々について、有用度及び優先度を計算し、第2データ格納部150に格納する(ステップS69)。処理はこの後元の処理に戻る。 Then, the column priority calculation unit 161 calculates the usefulness and the priority for each of the identified columns, and stores it in the second data storage unit 150 (step S69). The process then returns to the original process.
本実施の形態では、ステップS67で特定されたカラムの各組み合わせについて、以下の計算を行う。例えば、比較元カラムCiと比較先カラムCjとについて考える。
有用度Δ(Ci,Cj)=近傍相関(Ci,Ci)−相関(Ci,Cj)
In the present embodiment, the following calculation is performed for each combination of columns specified in step S67. For example, consider the comparison source column C i and the comparison destination column C j .
Usefulness Δ (C i , C j ) = neighbor correlation (C i , C i ) −correlation (C i , C j )
カラムペアの近傍相関係数の中には、冗長性が含まれている可能性があるので、カラムペアの有用度により、相関に現れる冗長性の部分を除いた正味の役立ち度合いを求めるものである。 Since there is a possibility that the neighborhood correlation coefficient of the column pair includes redundancy, the usefulness of the column pair is used to obtain the net usefulness excluding the redundancy portion that appears in the correlation.
さらに、各カラムCiの優先度を以下のように算出する。
Ciの優先度=maxj{Δ(Ci,Cj),Δ(Cj,Ci)}
Further, the priority of each column C i is calculated as follows.
C i priority = max j {Δ (C i , C j ), Δ (C j , C i )}
この意味は、自カラムからみた有用度及び他のカラムから自カラムをみた有用度の最大値を求めるということである。具体的には、上で述べた例からすると、「会社漢字名」を自カラムとすると、他のカラム「会社カナ名」「住所」との有用度と、「会社カナ名」から「会社漢字名」に対する有用度と、「住所」から「会社漢字名」に対する有用度とを比較することになる。 This means that the maximum value of the usefulness seen from the own column and the usefulness seen from the other column is obtained from the other columns. Specifically, from the example described above, if “Company Kanji Name” is the own column, the usefulness of other columns “Company Kana Name” and “Address” and “Company Kanji Name” to “Company Kanji Name” The usefulness for “name” is compared with the usefulness for “company kanji name” from “address”.
図23に有用度及び優先度の計算結果を表す。図23の例では、各カラムについて、相関係数、近傍相関係数及び有用度を対応する他のカラム毎に列挙すると共に優先度も示すようになっている。上で述べたように「会社漢字名」を自カラムとすると、比較すべき有用度はハッチングが付されている部分の数値となるため、矢印で示すように優先度「0.0811」が選択される。同様にして、各カラムの優先度の根拠を矢印で示している。 FIG. 23 shows the calculation results of the usefulness and the priority. In the example of FIG. 23, for each column, the correlation coefficient, the neighborhood correlation coefficient, and the usefulness are listed for each other corresponding column and the priority is also shown. As described above, if “Company Kanji Name” is the own column, the usefulness to be compared is the numerical value of the hatched part, so the priority “0.0811” is selected as shown by the arrow Is done. Similarly, the basis for the priority of each column is indicated by an arrow.
なお、優先度の算出方法は、他の方法であってもよい。例えば上で述べた有用度の総和、平均値などであってもよい。 The priority calculation method may be another method. For example, the sum of usefulness described above, an average value, or the like may be used.
以上述べたように、相関に加えて近傍相関を用いて、名寄せの役に立つ可能性の度合いを表す有用度と、比較時に優先すべき度合いを表す優先度とが決定される。 As described above, using the neighborhood correlation in addition to the correlation, the usefulness indicating the degree of possibility of being useful for name identification and the priority indicating the degree to be prioritized at the time of comparison are determined.
図10の処理の説明に戻って、カラム処理部160のカラム抽出処理部162は、冗長カラム群の一元化処理を実施する(ステップS9)。この処理については図24乃至図28を用いて説明する。
Returning to the description of the processing in FIG. 10, the column
カラム抽出処理部162は、有用性のあるカラム(ステップS67で特定されたカラム)のうち、相関が有意であるカラムペア(ステップS63で抽出されたカラム)と共通するカラムとを、冗長カラムグループに分類し、分類結果を第2データ格納部150に格納する(図24:ステップS71)。図25に模式的に示すように、「会社漢字名」「会社カナ名」「住所」が有用性のあるカラムとしてステップS67で抽出されており、ステップS63では「会社漢字名」と「会社カナ名」のカラムペアが抽出されているので、冗長カラムグループは、共通する「会社漢字名」及び「会社カナ名」を冗長カラムグループとして分類する。上で述べた例ではカラムペアが1つしか抽出されていないので、冗長カラムグループも1つしか生成されない。一方、冗長でないカラムは「住所」カラムである。
The column
次に、カラム抽出処理部162は、有用性のあるカラムのうち、冗長カラムグループに属さないカラムを非冗長カラムグループに登録して、非冗長カラムグループについてのデータを第2データ格納部150に格納する(ステップS73)。さらに、カラム抽出処理部162は、各冗長カラムグループの中で優先度が最大のカラムを代表カラムとして選択して、選択結果を第2データ格納部150に格納する(ステップS75)。図26に模式的に示すように、「会社漢字名」及び「会社カナ名」のうち、優先度が高い「会社カナ名」が代表カラムとして選択される。
Next, the column
そして、カラム抽出処理部162は、代表カラムと非冗長カラムとのうち、閾値以上の優先度を有するカラムを抽出し、最終的なカラム選択結果として当該カラムのデータを第2データ格納部150に格納する(ステップS77)。閾値は、例えば近傍相関についての有意水準の限界値/2を採用する。図27に模式的に示すように、冗長カラムグループの代表カラムも非冗長カラムグループのカラムも、優先度閾値より大きいので、「会社カナ名」及び「住所」が両方とも選択される。そして元の処理に戻る。
Then, the column
図10の処理の説明に戻って、出力部163は、第2データ格納部150に格納されているデータを読み出して、出力データ格納部170に格納する又は出力装置(表示装置や印刷装置など)などに出力する(ステップS11)。例えば、図28に示すようなデータを出力する。図28の例では、カラム毎に、優先度及び冗長グループについてのデータとを含む。冗長グループについては、当該冗長グループに属する他のカラムの名称と、相関係数(=冗長度)及び優先度が含まれている。
Returning to the description of the processing in FIG. 10, the
このようなデータを参照すれば、ユーザはどのカラムを名寄せに用いるべきか分かるようになる。このように選択されたカラムを用いれば、名寄せの精度を高めることができ、処理速度も速くなることが期待される。なお、ユーザに出力しないでそのまま名寄せ処理を行うコンピュータやプロセスに出力するようにしても良い。 By referring to such data, the user can know which column should be used for name identification. If the column thus selected is used, it is expected that the accuracy of name identification can be improved and the processing speed can be increased. In addition, you may make it output to the computer and process which perform a name identification process as it is, without outputting to a user.
[実施の形態2]
次に、レコードの何れかのカラムにデータ欠損が存在している場合の実施の形態について説明する。本実施の形態では、第1の実施の形態の構成を利用する。本実施の形態では、図9において名寄せ支援処理装置に含まれる機能を一部以下で述べるように変更したカラム選択部600として含み、図29に示すような名寄せ支援処理装置700を用いる。
[Embodiment 2]
Next, an embodiment in the case where data loss exists in any column of the record will be described. In the present embodiment, the configuration of the first embodiment is used. In the present embodiment, a part of the functions included in the name identification support processing apparatus in FIG. 9 is included as a
名寄せ支援処理装置700は、カラム選択部600と、前処理部710と、推定部720と、第3データ格納部730とを有する。カラム選択部600は、図9に示したように、第1データ格納部120と、第2データ格納部150と、出力データ格納部170とを有する。
The name identification
前処理部710は、第1データ格納部120に格納されている名寄せ対象データベース500に格納されているデータに対して以下で説明する前処理を実施して処理結果を第3データ格納部730に格納する。推定部720は、第1データ格納部120と第2データ格納部150と出力データ格納部170と第3データ格納部730とに格納されているデータを用いて処理を行い、第2データ格納部150に処理結果を格納する。なお、推定部720は、処理途中のデータを第3データ格納部730に格納する。
The
次に、図30乃至図45を用いて本実施の形態における処理を説明する。 Next, processing in the present embodiment will be described with reference to FIGS. 30 to 45.
最初に、カラム選択部600は、第1カラム選択処理を実施する(図30:ステップS101)。第1カラム選択処理は、第1の実施の形態で説明した処理を一部変更した処理である。第1データ格納部120には、例えば図31Aにおいて「N/A」と示すようにデータ欠損が含まれるレコード群を格納されているので、一部異なる処理を行うことになる。よって、あるカラムについてあるレコードペアの類似度を算出する際に、一方又は両方のデータが存在していないという場合が生ずる。この場合には、類似度が算出されないことになる。すなわち、図14に示すような類似度のデータにおいても類似度が算出されない欄が発生する。そうすると、その欄に係るカラムと他のカラムとの組み合わせについての相関係数算出には、その欄に係るレコードペアは考慮されなくなる。
First, the
同様に、図19に示すような類似度のデータにおいても類似度が算出されない欄が発生する。但し、図19の場合には、特定のカラム(図19の場合には「会社漢字名」)について類似するレコードとのレコードペアについて類似度を算出するので、特定のカラムについては類似度の欠損は存在しないが、他のカラムについては類似度が算出できないため、類似度が算出されない欄が発生する。そうすると、その欄に係るカラムとの組み合わせについての近傍相関係数算出には、その欄に係るレコードペアは考慮されなくなる。 Similarly, in the similarity data as shown in FIG. 19, a column in which the similarity is not calculated occurs. However, in the case of FIG. 19, the similarity is calculated for a record pair with a similar record for a specific column (in the case of FIG. 19, “company kanji name”). Does not exist, but since the similarity cannot be calculated for other columns, a column in which the similarity is not calculated occurs. Then, the record pair according to the column is not taken into consideration in calculating the neighborhood correlation coefficient for the combination with the column according to the column.
このように有効なレコードペアの数が減少するので、相関係数及び近傍相関係数についてはそのままの値を用いることができない。本実施の形態では、有意水準については、有効なレコードペアの数に応じて設定する。従って、有効なレコードペアの数を図14及び図19のデータにおいて計数する。一方、相関係数又は近傍相関係数に対しては重みdを乗じた値を用いる。重みdは、本願発明者の実験等によれば、レコード単位の非欠損率を用いることが好ましい。図31Aの例で、企業漢字名カラムと企業カナ名カラムとのカラムペアを検討する場合には、図31Bに模式的に示すように、1レコードで何れか一方又は両方のデータが欠損している場合には、そのレコードを除外して、両方ともデータが登録されているレコードの割合を算出し、重みdとして用いる。具体的には、2つのカラムについて両方共にデータが登録されているレコード数を全レコード数で除することによって重みdを算出する。図31Bの場合には、8レコード中3レコードが除外されるので、0.625がdに設定される。よって、相関係数及び近傍相関係数の有意性判定においては、有意水準<相関係数又は近傍相関係数×dが成立するかを判断する。 Since the number of effective record pairs decreases in this way, the values as they are cannot be used for the correlation coefficient and the neighborhood correlation coefficient. In this embodiment, the significance level is set according to the number of valid record pairs. Therefore, the number of valid record pairs is counted in the data of FIGS. On the other hand, a value obtained by multiplying the correlation coefficient or the neighborhood correlation coefficient by the weight d is used. As the weight d, it is preferable to use a non-missing rate in units of records according to the experiment of the present inventors. In the example of FIG. 31A, when considering a column pair of a company kanji name column and a company kana name column, as shown schematically in FIG. 31B, one or both data are missing in one record. In this case, the record is excluded, and the ratio of records in which both data are registered is calculated and used as the weight d. Specifically, the weight d is calculated by dividing the number of records in which data is registered in both columns by the total number of records. In the case of FIG. 31B, since 3 records out of 8 records are excluded, 0.625 is set to d. Therefore, in the significance determination of the correlation coefficient and the neighborhood correlation coefficient, it is determined whether the significance level <the correlation coefficient or the neighborhood correlation coefficient × d.
なお、重みdを算出する処理については、カラム選択部600の処理の途中で行っても良いし、前処理部710が、カラム選択部600が第1データ格納部120に名寄せ対象データベース500からデータを読み込んだ後にカラムペア毎に一括して算出して、カラム選択部600の第1データ格納部120等(第2データ格納部150など)に出力するようにしても良い。
Note that the process of calculating the weight d may be performed in the middle of the process of the
さらに、図14のような類似度を算出する際には、各カラムについて、類似度の平均値及び分散値なども算出して、第2データ格納部150等に格納しておく。
Furthermore, when calculating the similarity as shown in FIG. 14, the average value and the variance of the similarity are calculated for each column and stored in the second
次に、前処理部710は、前処理を実施し、処理結果を第3データ格納部730に格納する(ステップS103)。前処理は、本実施の形態において用いるデータを生成する処理であり、各カラムの出現頻度表を生成する処理を含む。出現頻度表は、例えば図32のような表である。図32は企業カナ名についての出現頻度表であり、企業カナ名のカラムに各データ値が何回出現したかをカウントした結果が登録される。
Next, the
その後、推定部720は、欠損値推定処理を実施する(ステップS105)。欠損値推定処理については、図33乃至図43を用いて説明する。
Thereafter, the
まず、推定部720は、推定可能カラム決定処理を実施する(図33:ステップS111)。この推定可能カラム決定処理については、図34乃至図36を用いて説明する。
First, the
まず、推定部720は、非選択カラム(第1カラム選択処理において選択され且つ出力データ格納部170に格納されているカラム以外のカラム)のうち未処理のカラムC1を1つ特定する(図34:ステップS131)。そして、推定部720は、第1データ格納部120に格納されている名寄せ対象データにおいて、特定されたカラムC1に欠損値が存在するか判断する(ステップS133)。特定されたカラムC1に欠損値が存在しない場合には、推定することはないので、端子Jを介して図36のステップS145に移行する。一方、特定されたカラムC1に欠損値が存在する場合には、推定部720は、選択カラム(第1カラム選択処理において選択され且つ出力データ格納部170に格納されているカラム)のうち未処理のカラムC2を1つ特定する(ステップS135)。そして、推定部720は、第2データ格納部150に格納されている、カラムC1とカラムC2の相関係数は閾値以上であるか判断する(ステップS137)。本ステップにおける閾値には、例えば統計的有意水準を用いる。両カラム共に類似度が算出されたレコードペアの数で統計的有意水準を特定する。本ステップS137では、第1カラム選択処理において計算された相関係数をそのまま用いる。これは、本処理は、欠損値が多いために、正しく評価されなかったカラムを救済するために行うためである。
First, the
カラムC1とカラムC2の相関係数が閾値未満であれば端子Hを介して図36のステップS143に移行する。一方、カラムC1とカラムC2の相関係数が閾値以上であれば、推定部720は、カラムC1及びC2のデータ値が共に欠損値となっていないレコードが所定数以上(又は所定割合以上)であるか判断する(ステップS139)。重みdを算出する際に得られたレコード数を用いるか、重みdそのもので判断する。本ステップは、統計的な信頼性を保持するためである。カラムC1及びC2のデータ値が共に欠損値となっていないレコードが所定数未満であれば、端子Hを介して図36のステップS143に移行する。
If the correlation coefficient between the columns C1 and C2 is less than the threshold value, the process proceeds to step S143 in FIG. On the other hand, if the correlation coefficient between the column C1 and the column C2 is equal to or greater than the threshold, the
一方、カラムC1及びC2のデータ値が共に欠損値となっていないレコードが所定数以上であれば、推定部720は、第3データ格納部730における推定可能カラムペアリストに、カラムC1及びC2を登録する(ステップS141)。そして、端子Hを介して図36のステップS143に移行する。
On the other hand, if the number of records in which the data values of the columns C1 and C2 are not missing values is equal to or greater than a predetermined number, the
例えば図35Aに示すように第1カラム選択処理の処理結果であるカラムC2が特定されており、図35Bに示すように残余の非選択カラムC1が特定されているものとする。ここで、図35Bに示すようにデータ値の欠損が存在しているか否かを判断すると、ステップS135以降では図35Cに示すような非選択カラムC1が処理されることになる。そして、選択カラムC2とデータの欠損がある非選択カラムC1との相関係数と、その有意水準とを図35Dに示すように比較すると、「企業漢字名」カラムと「企業カナ名」カラムとのカラムペアと、「郵便番号」カラムと「住所」カラムとのカラムペアとが、相関係数が有意水準以上となるカラムペアとして特定される。そうすると、それらのカラムペアが、図35Eに示すように、推定可能カラムペアリストに登録される。 For example, it is assumed that the column C2 that is the processing result of the first column selection process is specified as shown in FIG. 35A, and the remaining non-selected column C1 is specified as shown in FIG. 35B. Here, when it is determined whether or not there is a missing data value as shown in FIG. 35B, the non-selected column C1 as shown in FIG. 35C is processed after step S135. Then, when the correlation coefficient between the selected column C2 and the non-selected column C1 with missing data is compared with its significance level as shown in FIG. 35D, the “company kanji name” column and the “company kana name” column are And the column pair of the “zip code” column and the “address” column are identified as column pairs having a correlation coefficient equal to or higher than the significance level. Then, those column pairs are registered in the estimable column pair list as shown in FIG. 35E.
図36の処理の説明に端子Hを介して移行して、推定部720は、選択カラムについて未処理のカラムが存在しているか判断する(図36:ステップS143)。選択カラムにおいて未処理のカラムが存在する場合には、端子Iを介して図34のステップS135に戻る。一方、選択カラムにおいて未処理のカラムが存在しない場合には、非選択カラムについて未処理のカラムが存在するか判断する(ステップS145)。非選択カラムについて未処理のカラムが存在する場合には、端子Kを介して図34のステップS131に戻る。一方、非選択カラムについて未処理のカラムが存在しない場合には、呼び出し元の処理に戻る。
36, the
このようにすれば、図35Eに示すように推定可能カラムペアリストの非選択カラムの列において推定可能な非選択カラムが特定される。推定可能カラムペアリストの選択カラムの列に登録された選択カラムについては、類似度を推定する際の根拠として用いられる。 In this way, as shown in FIG. 35E, a non-selectable column that can be estimated in the column of the non-selected column of the estimable column pair list is specified. The selected column registered in the selected column column of the estimable column pair list is used as a basis for estimating the similarity.
図33の処理の説明に戻って、推定部720は、第2データ格納部150に格納されているデータ(例えば図14に示す各レコードペアについての類似度のデータ)から、推定可能なカラムの回帰分析を実施して回帰係数を算出し、第3データ格納部730に格納する(ステップS113)。以下で述べるように名寄せの可能性が低いカラムペアについては回帰分析の結果を用いて類似度を推定するためである。なお、推定可能なカラムのカラムペアとして推定可能カラムペアリストに登録されている選択カラムとの間の回帰計算を実施する。推定可能カラムペアリストに登録されている選択カラムが複数存在している場合には、重回帰分析を実施して、その回帰係数を第3データ格納部730に格納しておく。なお、他のカラムをさらに用いて回帰分析を実施するようにしても良い。
Returning to the description of the processing in FIG. 33, the
そして、推定部720は、第1データ格納部120において、未処理のレコードペアを1つ特定する(ステップS115)。その後、推定部720は、名寄せ可能性推定処理を実施する(ステップS117)。この名寄せ可能性推定処理については、図37を用いて説明する。
Then, the
まず、推定部720は、特定されたレコードペアにおける選択カラムのデータの類似度が閾値(例えば0.8や0.9など)を超えるか判断する(図37:ステップS151)。ここで用いられる選択カラムは、推定可能カラムペアリストの選択カラムに登録されているカラムである。第1の実施の形態でも述べたように、名寄せに役立つカラムの類似度が名寄せ可能性の度合いを反映するためである。推定可能カラムペアリストの選択カラムが複数含まれている場合には、類似度の和が閾値を超えているかを判断したり、類似度の最小値が閾値を超えているか判断する。
First, the
特定されたレコードペアにおける選択カラムのデータの類似度が閾値を超えた場合には、推定部720は、特定されたレコードペアを、第3データ格納部730における高名寄せ可能性リストに登録する(ステップS153)。その後呼び出し元の処理に戻る。一方、特定されたレコードペアにおける選択カラムのデータの類似度が閾値以下であれば、呼び出し元の処理に戻る。
When the similarity of the data in the selected column in the identified record pair exceeds the threshold, the
例えば図38Aに模式的に示すように、ID「100001」「100009」のレコードペアについて、選択カラムC2「企業漢字名」の類似度が「1.0」であり、閾値0.9を超えている場合には、推定可能な非選択カラムである「企業カナ名」についても、類似度が高いものと推定される。すなわち、これらのレコードペアの名寄せの可能性は高いと推定され、このようなレコードペアの場合には高名寄せ可能性リストに登録する。 For example, as schematically shown in FIG. 38A, for the record pair with IDs “100001” and “100009”, the similarity of the selection column C2 “enterprise kanji name” is “1.0”, which exceeds the threshold value 0.9. If it is, the “established company name” which is a non-selectable column that can be estimated is also estimated to have a high degree of similarity. That is, it is presumed that the possibility of name identification of these record pairs is high, and such record pairs are registered in the high name identification possibility list.
一方、図38Bに模式的に示すように、ID「100014」「100017」のレコードペアについて、選択カラムC2「企業漢字名」の類似度が「0.36」であり、閾値0.9以下である場合には、推定可能な非選択カラムである「企業カナ名」についても、類似度が低いものと推定される。すなわち、これらのレコードペアの名寄せの可能性は低いと推定され、このようなレコードペアの場合には高名寄せ可能性リストには登録されない。 On the other hand, as schematically shown in FIG. 38B, for the record pair with IDs “100014” and “100017”, the similarity of the selection column C2 “enterprise kanji name” is “0.36” and the threshold is 0.9 or less. In some cases, it is estimated that “established company name” which is a non-selectable column that can be estimated is also low in similarity. That is, the possibility of name identification of these record pairs is estimated to be low, and such record pairs are not registered in the high name identification possibility list.
図33の処理の説明に戻って、推定部720は、未処理の推定可能な非選択カラムを1つ特定する(ステップS119)。そして、推定部720は、特定された推定可能な非選択カラムにおいて、特定されたレコードペアの一方のみ欠損しているか判断する(ステップS121)。両方共欠損していない場合には推定は不要であり、両方共欠損している場合には推定不可と判断する。従って、特定された推定可能な非選択カラムにおいて、特定されたレコードペアの一方のみが欠損している状態ではない場合には、端子Eを介して図39のステップS167に移行する。一方、特定された推定可能な非選択カラムにおいて、特定されたレコードペアの一方のみが欠損している場合には、端子Dを介して図39のステップS161に移行する。
Returning to the description of the processing in FIG. 33, the
図39の処理の説明に端子Dを介して移行して、推定部720は、本レコードペアがステップS117で高名寄せ可能性リストに登録されたか判断する(図39:ステップS161)。本レコードペアが高名寄せ可能性リストに登録されていれば、推定部720は、第1推定処理を実施する(ステップS163)。第1推定処理については、図40乃至図41Cを用いて説明する。なお、第1推定処理が完了すると、ステップS167に移行する。
39, the
まず、推定部720は、推定可能な非選択カラムC1の出現頻度表から、特定されたレコードペアの非欠損値v1を特定する(図40:ステップS171)。図41Aに模式的に示すように、ID「100001」「100009」のレコードペアについて処理する場合、推定可能な非選択カラム「企業カナ名」において非欠損値v1は、「エービーシーショウジ」である。そして、図41Bに模式的に示す、「企業カナ名」の出現頻度表において、矢印の行「エービーシーショウジ」を特定する。
First, the estimating
そして、推定部720は、出現頻度表において非欠損値v1の前後近傍a個のデータ値について、非欠損値v1との類似度を算出する(ステップS173)。ステップS175の処理と併せて、閾値未満になるまで近傍のデータ値について非欠損値v1との類似度を算出するようにしても良い。図41Bの例では、a=1であるとして、前後1つずつ非欠損値v1「エービーシーショウジ」との類似度を算出する。図41Bの例では、「エービーシ」については類似度「0.60」、「エービーシーショウテン」については類似度「0.82」が算出されている。なお、a=1より大きな値を採用するようにしても良い。
Then, the
そうすると、推定部720は、閾値(例えば0.8)以上の類似度が算出された近傍のデータ値(自分自身を含む)の出現頻度を用いて重み付けした類似度の加算値を、類似度の推定値として算出し、第2データ格納部150に格納する(ステップS175)。
Then, the
図41Bの例では、閾値が0.8なので、「エービーシー」は用いられず、「エービーシーショウジ」及び「エービーシーショウテン」が用いられる。そして、出現頻度の総数に対する、該当する出現頻度の割合で重み付けした類似度を加算する。すなわち、「エービーシーショウジ」については(3/(3+1))×1.0=0.75が算出され、「エービーシーショウテン」については(1/(3+1))×0.82=0.205が算出される。従って、これらを合計して、類似度の推定値は0.955が得られる。 In the example of FIG. 41B, since the threshold value is 0.8, “ABC” is not used, and “ABC show” and “ABC show ten” are used. And the similarity weighted by the ratio of the applicable appearance frequency with respect to the total number of appearance frequencies is added. That is, (3 / (3 + 1)) × 1.0 = 0.75 is calculated for “ABC show”, and (1 / (3 + 1)) × 0.82 = 0.205 is calculated for “ABC show ten”. Is done. Therefore, these are added together to obtain 0.955 as the estimated value of similarity.
一般的には以下のように表される。なお、Wkは、類似度が閾値以上の近傍データ値kについての重みを表し、(該当近傍データ値kの出現頻度)/(類似度が閾値以上の近傍データ値についての出現頻度の総和)である。Skは、近傍データ値kと非欠損値v1との類似度を表す。 Generally, it is expressed as follows. Note that W k represents a weight for the neighborhood data value k having a similarity equal to or greater than a threshold, and (appearance frequency of the corresponding neighborhood data value k) / (sum of appearance frequencies for neighboring data values having a similarity equal to or greater than the threshold). It is. S k represents the degree of similarity between the neighborhood data value k and the non-missing value v1.
図41A及び41Bの例からすれば、ステップS175では、図41Cに示すようなデータが、第2データ格納部150に格納される。すなわち、ID「100001」「100009」のレコードペアについて、「企業カナ名」についての類似度の推定値は「0.955」と登録される。
41A and 41B, in step S175, data as shown in FIG. 41C is stored in the second
このようにして、名寄せの可能性が高いレコードペアについては、出現頻度表における非欠損値v1の近傍のデータ値の類似度から推定される。 In this way, a record pair with a high possibility of name identification is estimated from the similarity of data values in the vicinity of the non-missing value v1 in the appearance frequency table.
図39の処理の説明に戻って、特定されたレコードペアが高名寄せ可能性リストに登録されていない場合、推定部720は、第2推定処理を実施する(ステップS165)。第2推定処理については、従来技術を用いる。具体的には、ステップS113で算出され第3データ格納部730に格納された回帰係数を用いる。
Returning to the description of the processing in FIG. 39, when the identified record pair is not registered in the high name matchability list, the
例えば、図38Bのような場合、推定可能な非選択カラム「企業カナ名」に対して相関係数が閾値以上の選択カラムが「企業漢字名」のみである場合には、図42に示すような回帰直線が、回帰分析によって得られる。そこで、この回帰直線から、図38Bで示すようにID「100014」「100017」というレコードペアの選択カラムの類似度「0.36」に対応する推定類似度「0.39」を得る。さらに、図14のような類似度を算出する際に併せて算出した推定可能な非選択カラムの平均値及び分散値に従う正規乱数を生成して、推定類似度に加算する。例えば、乱数「0.01」が算出されれば、0.39+0.01=0.40が最終的な推定類似度として算出される。この最終的な推定類似度が、図43に示したように、第2データ格納部150に格納される。これによって、分散値の偏りを是正する。そしてステップS167に移行する。
For example, in the case as shown in FIG. 38B, when the only selection column whose correlation coefficient is equal to or greater than the threshold for the estimable non-selected column “company Kana name” is “company kanji name”, as shown in FIG. A simple regression line is obtained by regression analysis. Therefore, from this regression line, as shown in FIG. 38B, an estimated similarity “0.39” corresponding to the similarity “0.36” of the selected columns of the record pairs with IDs “100014” and “100017” is obtained. Further, a normal random number is generated according to the average value and the variance value of the estimable non-selected columns calculated when calculating the similarity as shown in FIG. 14 and added to the estimated similarity. For example, if the random number “0.01” is calculated, 0.39 + 0.01 = 0.40 is calculated as the final estimated similarity. This final estimated similarity is stored in the second
ステップS167に移行して、推定部720は、推定可能カラムペアリストにおいて未処理の推定可能な非選択カラムが存在するか判断する(ステップS167)。未処理の推定可能な非選択カラムが存在する場合には、端子Fを介してステップS119に戻る。一方、未処理の推定可能な非選択カラムが存在しない場合には、推定部720は、未処理のレコードペアが存在しているか判断する(ステップS169)。未処理のレコードペアが存在している場合には、端子Gを介してステップS115に戻る。一方、未処理のレコードペアが存在していない場合には、呼び出し元の処理に戻る。
Proceeding to step S167, the estimating
このように、名寄せの可能性が高い場合には、類似するデータ値についての類似度及び出現頻度を基に類似度を算出する。一方、名寄せの可能性が低い場合には、他のデータの傾向にあった類似度を分散値の偏りを是正しつつ算出する。但し、全ての欠損についてレコードペアの類似度を算出できるわけではない。 As described above, when the possibility of name identification is high, the similarity is calculated based on the similarity and appearance frequency of similar data values. On the other hand, when the possibility of name identification is low, the similarity corresponding to the tendency of other data is calculated while correcting the deviation of the variance value. However, it is not possible to calculate the similarity of record pairs for all the deficiencies.
図30の処理の説明に戻って、推定部720は、第2データ格納部150に格納した推定類似度のデータを、相関係数算出用のテーブル(図14)及び近傍相関係数算出用のテーブル(図19)に設定する(ステップS107)。このようにすれば、欠損部分を減少させることができる。
Returning to the description of the processing in FIG. 30, the
そして、カラム選択部600は、第2カラム選択処理を実施する(ステップS109)。第2カラム選択処理については、第1カラム選択処理とは異なり、図14及び図19のようなデータは生成されているので、各カラムペアについて相関係数及び近傍相関係数を算出する。その他は同じである。欠損はまだ存在するので、重みdについては算出し直し、有意水準も欠損の状況に応じて特定し直す。
Then, the
以上のような処理を実施することで、名寄せ分野におけるカラム選択において、分析対象データに欠損部分があっても、これに名寄せ問題に適した推定を行うことにより、より正確な相関係数を計算することができ、有用なカラム選択結果を得ることができるようになる。 By performing the above processing, even if there is a missing part in the data to be analyzed in column selection in the name identification field, a more accurate correlation coefficient can be calculated by performing an estimation suitable for the name identification problem. And useful column selection results can be obtained.
なお、名寄せ可能性推定処理(図37)については、図44に示すような処理に変更することも可能である。具体的には、推定部720は、特定されたレコードペアにおける選択カラムの類似度が閾値を超え且つ選択カラムのデータ値が珍しいかを判断する(図44:ステップS181)。具体的には、選択カラムの出現頻度表において、出現頻度が閾値未満であるかを判断する。例えば、図38Aのような状況を想定した場合、選択カラムC2の「ABC商事」について図45に示すような出現頻度表から出現頻度「3」を得る。出現頻度に対する閾値「10」から、「ABC商事」を珍しいと判断しても良いし、レコード数で除した相対頻度(出現確率)を算出し、相対頻度に対する閾値との比較で珍しいと判断しても良い。なお、選択カラムC2の値がレコードペアにおいて異なる場合があるが、その場合には例えば両方の値を加算した上で判断する。平均値で判断しても良い。このような処理は、名寄せされるようなレコードのデータ値は頻繁に出現するようなデータ値ではないので、珍しいという条件を付加したものである。
Note that the name identification possibility estimation process (FIG. 37) can be changed to the process shown in FIG. Specifically, the
以上本技術の形態について説明したが、本技術はこれに限定されるものではない。例えば、上では優先度を算出する処理を実施する例を示したが、十分少ない数までカラムが絞り込むことができていれば、例えばステップS67まで実施するだけでも十分な場合もある。同様に絞り込みができていれば、ステップS65の処理結果だけを提示するだけでも、ユーザが判断可能な場合もある。 Although the embodiment of the present technology has been described above, the present technology is not limited to this. For example, although the example which performs the process which calculates a priority was shown above, as long as the column can be narrowed down to a sufficiently small number, it may be enough only to implement to step S67, for example. Similarly, if narrowing down is possible, the user may be able to determine just by presenting only the processing result of step S65.
さらに、図9及び図29に示した機能ブロック図は一例であって、必ずしも実際のプログラムモジュール構成と一致しない場合がある。また、処理フローについても処理結果が変わらない限り、順番を入れ替えたり、並列実行するようにしても良い。 Furthermore, the functional block diagrams shown in FIGS. 9 and 29 are examples, and may not necessarily match the actual program module configuration. As for the processing flow, as long as the processing result does not change, the order may be changed or it may be executed in parallel.
また、処理フロー中のループの構成も同様の処理結果が得られるのであれば変更可能である。第2の実施の形態では、カラムペア毎に、レコード単位の非欠損率を算出することになるので、欠損レコード又は非欠損レコードをカウントしやすいように処理フローを変更することも可能である。 The configuration of the loop in the processing flow can be changed as long as the same processing result is obtained. In the second embodiment, since the non-missing rate in units of records is calculated for each column pair, the processing flow can be changed so that missing records or non-missing records can be easily counted.
なお、上で述べた名寄せ支援処理装置100及び700は、コンピュータ装置であって、図46に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
The name identification
以上述べた本実施の形態をまとめると、以下のようになる。 The above-described embodiment can be summarized as follows.
本実施の形態に係る名寄せ支援処理方法は、(A)データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、(B)カラムの組み合わせの各々についてデータ格納部に格納されている第1のデータ類似度の相関係数を算出し、データ格納部に格納するステップと、(C)カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、注目レコードと特定されたレコードとの間の各々における、カラム毎の第2のデータ類似度を算出又は特定してデータ格納部に格納すると共に、注目カラムと他のカラムとの組み合わせの各々についてデータ格納部に格納されている第2のデータ類似度の相関係数を近傍相関係数として算出してデータ格納部に格納する近傍相関係数算出ステップと、(D)正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠落が発生していないレコードの割合が乗じられた正の近傍相関係数が算出されたカラムの組み合わせを、データ格納部から抽出する第1抽出処理を実施する第1抽出ステップとを含む。 In the name identification support processing method according to the present embodiment, (A) a step of calculating a first data similarity between records for each column in the database and storing it in a data storage unit; and (B) a combination of columns Calculating a correlation coefficient of the first data similarity stored in the data storage unit for each, and storing the correlation coefficient in the data storage unit; and (C) an arbitrary column in the target column which is an arbitrary column of the columns A record having data similar to or similar to data in the target record that is a record is specified, and a second data similarity for each column in each of the range between the target record and the specified record is calculated or The second data stored in the data storage unit for each combination of the column of interest and other columns is specified and stored in the data storage unit. A neighborhood correlation coefficient calculation step of calculating a correlation coefficient of the similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and (D) a positive correlation coefficient that is calculated and exceeds a predetermined significance level. A first extraction for performing a first extraction process for extracting from the data storage unit a combination of columns for which a positive neighborhood correlation coefficient is multiplied by a neighborhood correlation coefficient or a ratio of records in which no data is missing. Steps.
このように相関に加えて近傍相関を導入することによって、名寄せに役立つ可能性のあるカラムを自動的に抽出することができるようになる。また、処理も高速化される。なお、データ欠損が発生していないレコードの割合は、抽出しようとするカラムの組み合わせで判断することが好ましい。 Thus, by introducing neighborhood correlation in addition to correlation, columns that may be useful for name identification can be automatically extracted. In addition, the processing speed is increased. Note that the ratio of records in which no data is missing is preferably determined based on the combination of columns to be extracted.
なお、上で述べた近傍相関係数算出ステップが、(c1)注目カラムのデータでレコードをソートするステップと、(c2)ソート後の並びにおいて注目レコードの前後所定数のレコードを注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定するステップとを含むようにしてもよい。このようにすれば処理負荷を下げて近傍相関係数を算出することができるようになる。なお、第1のデータ類似度を基に類似するレコードを特定するようにしても良い。 Note that the neighborhood correlation coefficient calculating step described above includes (c1) a step of sorting records by the data of the target column, and (c2) a predetermined number of records before and after the target record in the sorted sequence. And identifying as a record having data similar to or similar to the data. In this way, the neighborhood correlation coefficient can be calculated with a reduced processing load. Note that similar records may be specified based on the first data similarity.
さらに、本名寄せ支援処理方法は、(E)抽出されたカラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の相関係数と近傍相関係数との差を有用度として算出し、データ格納部に格納するステップと、(F)抽出カラムの各々について、当該抽出カラムについて算出された有用度と他の抽出カラムについて算出された当該抽出カラムとの有用度とから優先度を算出し、データ格納部に格納するステップとをさらに含むようにしてもよい。このようにすれば、名寄せに役立つ度合いと、抽出されたカラムの組み合わせに含まれるカラムを比較する際の基準とが得られるようになる。なお、優先度の算出方法は、最大値、平均値、総和などであっても良い。 Further, the name identification support processing method (E) for each extraction column that is a column included in the combination of extracted columns, the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient And calculating the difference between the usefulness calculated for the extracted column and the extracted column calculated for the other extracted columns for each of the extracted columns, And calculating the priority from the usefulness of the data and storing the priority in the data storage unit. In this way, it is possible to obtain a degree useful for name identification and a standard for comparing columns included in the extracted column combination. Note that the priority calculation method may be a maximum value, an average value, a sum, or the like.
さらに、名寄せ支援処理方法は、(G)データ格納部から、所定の有意水準を超える正の相関係数が算出されたカラムの組み合わせを抽出する第2抽出ステップと、(H)第1抽出ステップにおいて抽出されたカラムの組み合わせに含まれるカラムと第2抽出ステップにおいて抽出されたカラムの組み合わせに含まれるカラムとに共通するカラムのうち、優先度が最も高いカラムを抽出するステップとをさらに含むようにしてもよい。このようにすれば、冗長性を有するカラム群のうち最も優先すべきカラムを特定することができるようになる。
Further, the name identification support processing method includes: (G) a second extraction step for extracting a combination of columns for which a positive correlation coefficient exceeding a predetermined significance level is calculated; and (H) a first extraction step. And extracting a column having the highest priority among columns common to the columns included in the column combination extracted in
さらに、名寄せ支援処理方法は、(I)第1抽出ステップにおいて抽出されたカラムの組み合わせに含まれるカラムから第2抽出ステップにおいて抽出されたカラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、優先度が最も高いカラムとの組み合わせを生成する組み合わせ生成ステップをさらに含むようにしてもよい。このようにすれば自動的に名寄せに使用すべきカラムが得られるようになる。 Further, the name identification support processing method is (I) a column after excluding columns included in the combination of columns extracted in the second extraction step from columns included in the combination of columns extracted in the first extraction step. You may make it further include the combination production | generation step which produces | generates the combination of a 2nd extraction column and a column with the highest priority. In this way, the column that should be used for name identification is automatically obtained.
なお、データ格納部に格納されている第2抽出カラムの優先度と優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせられるようにしてもよい。名寄せの精度を高めるためである。 The priority of the second extraction column stored in the data storage unit and the priority of the column with the highest priority may be combined when they are equal to or higher than a predetermined threshold. This is to increase the accuracy of name identification.
さらに、名寄せ支援処理方法は、(J)第1抽出ステップにおいて抽出されたカラム又は組み合わせ生成ステップにおいて生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定するステップと、(K)各レコードペアについて、第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ第3カラムに出現する類似データ(例えば、類似度の条件のみで抽出される場合もあれば、データ数の制限がある場合もある)の類似度の重み付け加算値を第3のカラムについての類似度として算出し、第2の所定の条件を満たさない場合には第1のカラムと第3のカラムとの他の方法に基づき算出した第2の値を第3のカラムについての類似度として算出し、データ格納部に格納する推定ステップと、(L)推定ステップの処理結果を格納するデータ格納部に格納されているデータを用いて、第1の類似度の相関係数を再度算出し、第2の類似度の相関係数を再度算出するステップと、(M)相関係数の再計算結果及び近傍相関係数の再計算結果から、正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数が算出されたカラムの組み合わせを、データ格納部から抽出する第3抽出ステップとを含むようにしても良い。 Further, the name identification support processing method includes: (J) a second column that is a column other than the first column that is a column extracted in the first extraction step or a column related to the combination generated in the combination generation step; Identifying a third column that satisfies a first predetermined condition including a condition that data loss has occurred and a correlation coefficient with the first column is equal to or greater than a threshold; and (K) each record pair If the second predetermined condition including the condition that the similarity of the data in the first column is equal to or greater than the second threshold is satisfied, the similarity with the non-missing data of the record pair in the third column Is more than the third threshold value and similar data appearing in the third column (for example, there are cases where the data is extracted only under the similarity condition or there is a limit on the number of data The weighted addition value of the similarity is calculated as the similarity for the third column, and when the second predetermined condition is not satisfied, based on other methods of the first column and the third column The calculated second value is calculated as the degree of similarity for the third column, and the data stored in the data storage unit that stores the estimation step for storing in the data storage unit and (L) the processing result of the estimation step is stored. And calculating again the correlation coefficient of the first similarity and re-calculating the correlation coefficient of the second similarity, and (M) recalculating the correlation coefficient and re-calculating the neighborhood correlation coefficient. A third extraction step of extracting from the data storage unit a combination of columns for which a positive correlation coefficient is calculated from the calculation result and a positive neighborhood correlation coefficient exceeding a predetermined significance level is calculated may be included. .
このようにすればデータの欠落がある場合においても、名寄せの可能性に応じた適切な手法にて類似度を推定することができ、推定結果を用いれば全体としても適切なカラムが抽出されるようになる。 In this way, even if there is missing data, the similarity can be estimated by an appropriate method according to the possibility of name identification, and if the estimation result is used, an appropriate column as a whole is extracted. It becomes like this.
なお、上で述べた第1の所定の条件が、第1のカラムと第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含むようにしてもよい。推定の信頼性を担保するためである。 Note that the first predetermined condition described above may further include a condition that the number of records in which data is not missing in both the first column and the second column is greater than or equal to the fourth threshold. . This is to ensure the reliability of the estimation.
さらに、上で述べた第2の所定の条件が、当該レコードペアについて第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含むようにしてもよい。名寄せの可能性が高い場合には、そのカラムのデータ値は頻繁に出現するようなデータ値ではないためである。 Furthermore, the second predetermined condition described above may further include a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold. This is because when the possibility of name identification is high, the data value of the column is not a data value that appears frequently.
さらに、上で述べた重み付け加算値の重み値が、上記類似データの出現頻度の総和に対する当該類似データの出現頻度の比であってもよい。このようにすれば、出現頻度を適切に推定類似度に反映させることができるようになる。 Further, the weight value of the weighted addition value described above may be a ratio of the appearance frequency of the similar data to the sum of the appearance frequencies of the similar data. In this way, the appearance frequency can be appropriately reflected in the estimated similarity.
さらに、上で述べた第2の値が、第1のカラムと第3のカラムとの回帰計算結果から第1のカラムにおけるデータの類似度に対応する第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である場合もある。これによって推定値の分散の偏りを是正できるようになる。 Further, the second value described above calculates the similarity in the third column corresponding to the similarity of the data in the first column from the regression calculation result of the first column and the third column, It may be the result of adding a random value to the calculated similarity. This makes it possible to correct the variance of the estimated value.
なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。 A program for causing a computer to perform the processing described above can be created, such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory (for example, ROM), a hard disk, etc. Stored in a computer-readable storage medium or storage device. Note that data being processed is temporarily stored in a storage device such as a RAM.
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following supplementary notes are further disclosed with respect to the embodiments including the above examples.
(付記1)
データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納し、前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納する相関係数算出部と、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出部と、
正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠損が発生していないレコードの割合が乗じられた前記正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出処理を実施するカラム処理部と、
を有する名寄せ支援処理装置。
(Appendix 1)
For each column in the database, a first data similarity between records is calculated, stored in a data storage unit, and the first data similarity stored in the data storage unit for each combination of the columns A correlation coefficient calculating unit that calculates a correlation coefficient and stores the correlation coefficient in the data storage unit;
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. A neighborhood correlation coefficient calculation unit that calculates a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and stores it in the data storage unit;
The positive neighborhood correlation coefficient for which the positive correlation coefficient has been calculated and multiplied by the percentage of records that have a positive neighborhood correlation coefficient exceeding the predetermined significance level or no data loss has occurred is calculated. A column processing unit for performing a first extraction process for extracting a combination from the data storage unit;
A name identification support processing apparatus.
(付記2)
前記近傍相関係数算出部が、
前記注目カラムのデータで前記レコードをソートし、当該ソート後の並びにおいて前記注目レコードの前後所定数のレコードを前記注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定する
付記1記載の名寄せ支援処理装置。
(Appendix 2)
The neighborhood correlation coefficient calculating unit
The records are sorted by the data of the column of interest, and a predetermined number of records before and after the record of interest are specified as records having data similar or similar to the data in the record of interest in the sorted sequence. 1. The name identification support processing device according to 1.
(付記3)
前記カラム処理部は、
抽出された前記カラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の前記相関係数と前記近傍相関係数との差を有用度として算出し、前記データ格納部に格納し、
前記抽出カラムの各々について、当該抽出カラムについて算出された前記有用度と前記他の抽出カラムについて算出された当該抽出カラムとの前記有用度とから優先度を算出し、前記データ格納部に格納する、
付記1又は2記載の名寄せ支援処理装置。
(Appendix 3)
The column processing unit
For each extraction column that is a column included in the extracted combination of columns, the difference between the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient is calculated as a usefulness. , Stored in the data storage unit,
For each of the extraction columns, a priority is calculated from the usefulness calculated for the extraction column and the usefulness of the extraction column calculated for the other extraction column, and stored in the data storage unit ,
The name identification support processing device according to
(付記4)
前記カラム処理部は、
前記データ格納部から、所定の有意水準を超える正の相関係数又はデータ欠損が発生していないレコードの割合が乗じられた前記正の近傍相関係数が算出された前記カラムの組み合わせを抽出する第2抽出処理を実施し、
前記第1抽出処理において抽出された前記カラムの組み合わせに含まれるカラムと前記第2抽出処理において抽出された前記カラムの組み合わせに含まれるカラムとに共通するカラムのうち、前記優先度が最も高いカラムを抽出する、
付記3記載の名寄せ支援処理装置。
(Appendix 4)
The column processing unit
Extracting from the data storage unit a combination of the columns in which the positive correlation coefficient exceeding a predetermined significance level or the positive neighborhood correlation coefficient multiplied by the ratio of records in which no data loss has occurred is calculated. Perform the second extraction process,
The column having the highest priority among the columns common to the columns included in the combination of columns extracted in the first extraction process and the columns included in the combination of columns extracted in the second extraction process Extract,
The name identification support processing device according to
(付記5)
前記カラム処理部は、
前記第1抽出処理において抽出された前記カラムの組み合わせに含まれるカラムから前記第2抽出処理において抽出された前記カラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、前記優先度が最も高いカラムとの組み合わせを生成する
付記4記載の名寄せ支援処理装置。
(Appendix 5)
The column processing unit
A second extraction column that is a column after excluding a column included in the combination of columns extracted in the second extraction process from a column included in the combination of columns extracted in the first extraction process; The name identification support processing device according to appendix 4, which generates a combination with a column having the highest priority.
(付記6)
前記データ格納部に格納されている前記第2抽出カラムの優先度と前記優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせる
ことを特徴とする付記5記載の名寄せ支援処理装置。
(Appendix 6)
The name identification according to
(付記7)
前記カラム処理部により抽出されたカラム又は生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ前記第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定し、各レコードペアについて、前記第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には前記第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ前記第3カラムに出現する類似データの類似度の重み付け加算値を前記第3のカラムについての類似度として算出し、前記第2の所定の条件を満たさない場合には前記第1のカラムと前記第3のカラムとの他の方法に基づき算出した第2の値を前記第3のカラムについての類似度として算出し、前記データ格納部に格納する類似度推定部、
をさらに有し、
前記類似度推定部の処理結果を格納する前記データ格納部に格納されているデータを用いて、前記相関係数算出部が、前記第1の類似度の相関係数を再度算出し、前記近傍相関係数算出部が、前記第2の類似度の相関係数を再度算出し、
前記カラム処理部が処理を再度行う
付記1乃至6のいずれか1つ記載の名寄せ支援処理装置。
(Appendix 7)
Of the second column that is a column other than the first column that is the column extracted by the column processing unit or the generated combination, the data loss has occurred and the first column A third column that satisfies a first predetermined condition including a condition that the correlation coefficient is equal to or greater than a threshold is specified, and for each record pair, the data similarity in the first column is equal to or greater than the second threshold. If the second predetermined condition including the condition of being present satisfies the second predetermined condition, the similarity with the non-missing data of the record pair in the third column is equal to or higher than a third threshold and appears in the third column A weighted addition value of the similarity of data is calculated as the similarity for the third column, and when the second predetermined condition is not satisfied, the first column and the third column The second value is calculated as the similarity for said third column, the similarity degree estimation unit for storing in the data storage unit that is based on other methods calculation,
Further comprising
Using the data stored in the data storage unit that stores the processing result of the similarity estimation unit, the correlation coefficient calculation unit calculates the correlation coefficient of the first similarity again, and the neighborhood The correlation coefficient calculation unit calculates the correlation coefficient of the second similarity again,
The name identification support processing device according to any one of
(付記8)
前記第1の所定の条件が、前記第1のカラムと前記第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含む
付記7記載の名寄せ支援処理装置。
(Appendix 8)
The name identification support according to appendix 7, wherein the first predetermined condition further includes a condition that the number of records in which no data is missing in the first column and the second column is equal to or greater than a fourth threshold value. Processing equipment.
(付記9)
前記第2の所定の条件が、当該レコードペアについて前記第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含む
付記7又は8記載の名寄せ支援処理装置。
(Appendix 9)
The name identification support processing device according to appendix 7 or 8, wherein the second predetermined condition further includes a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold.
(付記10)
前記重み付け加算値の重み値が、前記類似データの出現頻度の総和に対する当該類似データの出現頻度の比である
付記7乃至9のいずれか1つ記載の名寄せ支援処理装置。
(Appendix 10)
The name identification support processing device according to any one of appendices 7 to 9, wherein the weight value of the weighted addition value is a ratio of the appearance frequency of the similar data to the sum of the appearance frequencies of the similar data.
(付記11)
前記第2の値が、
前記第1のカラムと前記第3のカラムとの回帰計算結果から前記第1のカラムにおけるデータの類似度に対応する前記第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である
付記7乃至10のいずれか1つ記載の名寄せ支援処理装置。
(Appendix 11)
The second value is
The similarity in the third column corresponding to the data similarity in the first column is calculated from the regression calculation result of the first column and the third column, and the calculated similarity is calculated with respect to the calculated similarity The name identification support processing device according to any one of appendices 7 to 10, which is a result of adding random numbers.
(付記12)
データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、
前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納するステップと、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出ステップと、
正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠損が発生していないレコードの割合が乗じられた前記正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出ステップと、
を含み、コンピュータにより実行される名寄せ支援処理方法。
(Appendix 12)
Calculating a first data similarity between records for each column in the database and storing in a data storage unit;
Calculating a correlation coefficient of the first data similarity stored in the data storage unit for each combination of the columns, and storing the correlation coefficient in the data storage unit;
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. Calculating a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and
The positive neighborhood correlation coefficient for which the positive correlation coefficient has been calculated and multiplied by the percentage of records that have a positive neighborhood correlation coefficient exceeding the predetermined significance level or no data loss has occurred is calculated. A first extraction step of extracting a combination from the data storage;
And a name identification support processing method executed by a computer.
(付記13)
前記近傍相関係数算出ステップが、
前記注目カラムのデータで前記レコードをソートするステップと、
ソート後の並びにおいて前記注目レコードの前後所定数のレコードを前記注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定するステップと、
を含む付記12記載の名寄せ支援処理方法。
(Appendix 13)
The neighborhood correlation coefficient calculating step includes:
Sorting the records by the data of the column of interest;
Identifying a predetermined number of records before and after the record of interest in the sorted sequence as records having data similar or similar to the data in the record of interest;
The name collation support processing method of Additional remark 12 containing.
(付記14)
抽出された前記カラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の前記相関係数と前記近傍相関係数との差を有用度として算出し、前記データ格納部に格納するステップと、
前記抽出カラムの各々について、当該抽出カラムについて算出された前記有用度と前記他の抽出カラムについて算出された当該抽出カラムとの前記有用度とから優先度を算出し、前記データ格納部に格納するステップと、
をさらに含む付記12又は13記載の名寄せ支援処理方法。
(Appendix 14)
For each extraction column that is a column included in the extracted combination of columns, the difference between the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient is calculated as a usefulness. Storing in the data storage unit;
For each of the extraction columns, a priority is calculated from the usefulness calculated for the extraction column and the usefulness of the extraction column calculated for the other extraction column, and stored in the data storage unit Steps,
The name identification support processing method according to appendix 12 or 13, further including:
(付記15)
前記データ格納部から、所定の有意水準を超える正の相関係数が算出された前記カラムの組み合わせを抽出する第2抽出ステップと、
前記第1抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムと前記第2抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムとに共通するカラムのうち、前記優先度が最も高いカラムを抽出するステップと、
をさらに含む付記14記載の名寄せ支援処理方法。
(Appendix 15)
A second extraction step of extracting a combination of the columns for which a positive correlation coefficient exceeding a predetermined significance level is calculated from the data storage unit;
Of the columns common to the columns included in the column combination extracted in the first extraction step and the columns included in the column combination extracted in the second extraction step, the column having the highest priority Extracting the
The name identification support processing method according to supplementary note 14, further comprising:
(付記16)
前記第1抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムから前記第2抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、前記優先度が最も高いカラムとの組み合わせを生成する組み合わせ生成ステップ
をさらに含む付記15記載の名寄せ支援処理方法。
(Appendix 16)
A second extraction column that is a column after excluding a column included in the combination of columns extracted in the second extraction step from a column included in the combination of columns extracted in the first extraction step; The name identification support processing method according to supplementary note 15, further including a combination generation step of generating a combination with a column having the highest priority.
(付記17)
前記データ格納部に格納されている前記第2抽出カラムの優先度と前記優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせられることを特徴とする
付記16記載の名寄せ支援処理方法。
(Appendix 17)
17. The supplementary note 16, wherein the priority of the second extraction column stored in the data storage unit and the priority of the column having the highest priority are combined when they are equal to or higher than a predetermined threshold value. Name identification support processing method.
(付記18)
前記第1抽出ステップにおいて抽出されたカラム又は前記組み合わせ生成ステップにおいて生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ前記第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定するステップと、
各レコードペアについて、前記第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には前記第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ前記第3カラムに出現する類似データの類似度の重み付け加算値を前記第3のカラムについての類似度として算出し、前記第2の所定の条件を満たさない場合には前記第1のカラムと前記第3のカラムとの他の方法に基づき算出した第2の値を前記第3のカラムについての類似度として算出し、前記データ格納部に格納する推定ステップと、
前記推定ステップの処理結果を格納する前記データ格納部に格納されているデータを用いて、前記第1の類似度の相関係数を再度算出し、前記第2の類似度の相関係数を再度算出するステップと、
前記相関係数の再計算結果及び前記近傍相関係数の再計算結果から、正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第3抽出ステップと、
をさらに含む付記12乃至17のいずれか1つ記載の名寄せ支援処理方法。
(Appendix 18)
Of the column extracted in the first extraction step or the second column other than the first column that is a column related to the combination generated in the combination generation step, data loss has occurred and Identifying a third column that satisfies a first predetermined condition including a condition that a correlation coefficient with the first column is equal to or greater than a threshold;
For each record pair, if the second predetermined condition including the condition that the data similarity in the first column is greater than or equal to the second threshold is satisfied, the record pair in the third column is not missing Calculating a weighted addition value of the similarity of similar data appearing in the third column, the similarity with the data being equal to or greater than a third threshold, and calculating the second predetermined When the condition is not satisfied, a second value calculated based on another method of the first column and the third column is calculated as a similarity degree for the third column, and the data storage unit stores the second value. An estimation step to store;
Using the data stored in the data storage unit that stores the processing result of the estimation step, the correlation coefficient of the first similarity is calculated again, and the correlation coefficient of the second similarity is again calculated. A calculating step;
From the recalculation result of the correlation coefficient and the recalculation result of the neighborhood correlation coefficient, a combination of the columns in which a positive correlation coefficient is calculated and a positive neighborhood correlation coefficient exceeding a predetermined significance level is calculated. A third extraction step for extracting from the data storage unit;
The name identification support processing method according to any one of appendices 12 to 17, further including:
(付記19)
前記第1の所定の条件が、前記第1のカラムと前記第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含む
付記18記載の名寄せ支援処理方法。
(Appendix 19)
The name identification support according to appendix 18, wherein the first predetermined condition further includes a condition that the number of records in which no data is missing in the first column and the second column is equal to or greater than a fourth threshold value. Processing method.
(付記20)
前記第2の所定の条件が、当該レコードペアについて前記第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含む
付記18又は19記載の名寄せ支援処理方法。
(Appendix 20)
The name identification support processing method according to appendix 18 or 19, wherein the second predetermined condition further includes a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold.
(付記21)
前記重み付け加算値の重み値が、前記類似データの出現頻度の総和に対する当該類似データの出現頻度の比である
付記18乃至20のいずれか1つ記載の名寄せ支援処理方法。
(Appendix 21)
The name identification support processing method according to any one of appendices 18 to 20, wherein a weight value of the weighted addition value is a ratio of an appearance frequency of the similar data to a total sum of the appearance frequencies of the similar data.
(付記22)
前記第2の値が、
前記第1のカラムと前記第3のカラムとの回帰計算結果から前記第1のカラムにおけるデータの類似度に対応する前記第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である
付記18乃至21のいずれか1つ記載の名寄せ支援処理方法。
(Appendix 22)
The second value is
The similarity in the third column corresponding to the data similarity in the first column is calculated from the regression calculation result of the first column and the third column, and the calculated similarity is calculated with respect to the calculated similarity The name identification support processing method according to any one of appendices 18 to 21, which is a result of adding a random value.
(付記23)
データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、
前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納するステップと、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出ステップと、
正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠損が発生していないレコードの割合が乗じられた前記正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出ステップと、
を、コンピュータに実行させるための名寄せ支援処理プログラム。
(Appendix 23)
Calculating a first data similarity between records for each column in the database and storing in a data storage unit;
Calculating a correlation coefficient of the first data similarity stored in the data storage unit for each combination of the columns, and storing the correlation coefficient in the data storage unit;
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. Calculating a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and
The positive neighborhood correlation coefficient for which the positive correlation coefficient has been calculated and multiplied by the percentage of records that have a positive neighborhood correlation coefficient exceeding the predetermined significance level or no data loss has occurred is calculated. A first extraction step of extracting a combination from the data storage;
Name identification support processing program for causing a computer to execute
(付記24)
前記近傍相関係数算出ステップが、
前記注目カラムのデータで前記レコードをソートするステップと、
ソート後の並びにおいて前記注目レコードの前後所定数のレコードを前記注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定するステップと、
を含む付記23記載の名寄せ支援処理プログラム。
(Appendix 24)
The neighborhood correlation coefficient calculating step includes:
Sorting the records by the data of the column of interest;
Identifying a predetermined number of records before and after the record of interest in the sorted sequence as records having data similar or similar to the data in the record of interest;
A name identification support processing program according to appendix 23, including:
(付記25)
抽出された前記カラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の前記相関係数と前記近傍相関係数との差を有用度として算出し、前記データ格納部に格納するステップと、
前記抽出カラムの各々について、当該抽出カラムについて算出された前記有用度と前記他の抽出カラムについて算出された当該抽出カラムとの前記有用度とから優先度を算出し、前記データ格納部に格納するステップと、
をさらに含む付記23又は24記載の名寄せ支援処理プログラム。
(Appendix 25)
For each extraction column that is a column included in the extracted combination of columns, the difference between the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient is calculated as a usefulness. Storing in the data storage unit;
For each of the extraction columns, a priority is calculated from the usefulness calculated for the extraction column and the usefulness of the extraction column calculated for the other extraction column, and stored in the data storage unit Steps,
The name identification support processing program according to appendix 23 or 24, further including:
(付記26)
前記データ格納部から、所定の有意水準を超える正の相関係数が算出された前記カラムの組み合わせを抽出する第2抽出ステップと、
前記第1抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムと前記第2抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムとに共通するカラムのうち、前記優先度が最も高いカラムを抽出するステップと、
をさらに含む付記25記載の名寄せ支援処理プログラム。
(Appendix 26)
A second extraction step of extracting a combination of the columns for which a positive correlation coefficient exceeding a predetermined significance level is calculated from the data storage unit;
Of the columns common to the columns included in the column combination extracted in the first extraction step and the columns included in the column combination extracted in the second extraction step, the column having the highest priority Extracting the
The name identification support processing program according to appendix 25, further including:
(付記27)
前記第1抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムから前記第2抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、前記優先度が最も高いカラムとの組み合わせを生成する組み合わせ生成ステップ
をさらに含む付記26記載の名寄せ支援処理プログラム。
(Appendix 27)
A second extraction column that is a column after excluding a column included in the combination of columns extracted in the second extraction step from a column included in the combination of columns extracted in the first extraction step; 27. The name identification support processing program according to appendix 26, further including a combination generation step of generating a combination with a column having the highest priority.
(付記28)
前記データ格納部に格納されている前記第2抽出カラムの優先度と前記優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせられることを特徴とする
付記27記載の名寄せ支援処理プログラム。
(Appendix 28)
28. The combination of claim 27, wherein the priority of the second extraction column stored in the data storage unit and the priority of the column having the highest priority are combined when they are equal to or higher than a predetermined threshold. Name identification support processing program.
(付記29)(追加)
前記第1抽出ステップにおいて抽出されたカラム又は前記組み合わせ生成ステップにおいて生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ前記第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定するステップと、
各レコードペアについて、前記第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には前記第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ前記第3カラムに出現する類似データの類似度の重み付け加算値を前記第3のカラムについての類似度として算出し、前記第2の所定の条件を満たさない場合には前記第1のカラムと前記第3のカラムとの他の方法に基づき算出した第2の値を前記第3のカラムについての類似度として算出し、前記データ格納部に格納する推定ステップと、
前記推定ステップの処理結果を格納する前記データ格納部に格納されているデータを用いて、前記第1の類似度の相関係数を再度算出し、前記第2の類似度の相関係数を再度算出するステップと、
前記相関係数の再計算結果及び前記近傍相関係数の再計算結果から、正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第3抽出ステップと、
をさらに含む付記23乃至28のいずれか1つ記載の名寄せ支援処理プログラム。
(Appendix 29) (Addition)
Of the column extracted in the first extraction step or the second column other than the first column that is a column related to the combination generated in the combination generation step, data loss has occurred and Identifying a third column that satisfies a first predetermined condition including a condition that a correlation coefficient with the first column is equal to or greater than a threshold;
For each record pair, if the second predetermined condition including the condition that the data similarity in the first column is greater than or equal to the second threshold is satisfied, the record pair in the third column is not missing Calculating a weighted addition value of the similarity of similar data appearing in the third column, the similarity with the data being equal to or greater than a third threshold, and calculating the second predetermined When the condition is not satisfied, a second value calculated based on another method of the first column and the third column is calculated as a similarity degree for the third column, and the data storage unit stores the second value. An estimation step to store;
Using the data stored in the data storage unit that stores the processing result of the estimation step, the correlation coefficient of the first similarity is calculated again, and the correlation coefficient of the second similarity is again calculated. A calculating step;
From the recalculation result of the correlation coefficient and the recalculation result of the neighborhood correlation coefficient, a combination of the columns in which a positive correlation coefficient is calculated and a positive neighborhood correlation coefficient exceeding a predetermined significance level is calculated. A third extraction step for extracting from the data storage unit;
The name identification support processing program according to any one of appendices 23 to 28, further including:
(付記30)
前記第1の所定の条件が、前記第1のカラムと前記第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含む
付記29記載の名寄せ支援処理プログラム。
(Appendix 30)
The name identification support according to appendix 29, wherein the first predetermined condition further includes a condition that the number of records in which no data is missing in the first column and the second column is equal to or greater than a fourth threshold. Processing program.
(付記31)
前記第2の所定の条件が、当該レコードペアについて前記第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含む
付記29又は30記載の名寄せ支援処理プログラム。
(Appendix 31)
The name identification support processing program according to attachment 29 or 30, wherein the second predetermined condition further includes a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold.
(付記32)
前記重み付け加算値の重み値が、前記類似データの出現頻度の総和に対する当該類似データの出現頻度の比である
付記29乃至31のいずれか1つ記載の名寄せ支援処理プログラム。
(Appendix 32)
32. The name identification support processing program according to any one of supplementary notes 29 to 31, wherein a weight value of the weighted addition value is a ratio of an appearance frequency of the similar data to a sum of the appearance frequencies of the similar data.
(付記33)
前記第2の値が、
前記第1のカラムと前記第3のカラムとの回帰計算結果から前記第1のカラムにおけるデータの類似度に対応する前記第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である
付記29乃至32のいずれか1つ記載の名寄せ支援処理プログラム。
(Appendix 33)
The second value is
The similarity in the third column corresponding to the data similarity in the first column is calculated from the regression calculation result of the first column and the third column, and the calculated similarity is calculated with respect to the calculated similarity 34. The name identification support processing program according to any one of supplementary notes 29 to 32, which is a result of adding random number values.
100,700 名寄せ支援処理装置
110 データ読み込み部 120 第1データ格納部
130 相関計算部 140 近傍相関計算部
150 第2データ格納部 160 カラム処理部
170 出力データ格納部
161 カラム優先度計算部 162 カラム抽出処理部
163 出力部
600 カラム選択部 710 前処理部
720 推定部 730 第3データ格納部
100,700 Name identification support processing device 110
Claims (13)
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出部と、
前記相関係数算出部で算出された前記相関係数が正の値であり、且つ前記近傍相関係数算出部で算出された前記近傍相関係数又は当該近傍相関係数にデータ欠損が発生していないレコードの割合を乗じた積が所定の有意水準を超える正の値である前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出処理を実施するカラム処理部と、
を有する名寄せ支援処理装置。 For each column in the database, a first data similarity between records is calculated, stored in a data storage unit, and the first data similarity stored in the data storage unit for each combination of the columns A correlation coefficient calculating unit that calculates a correlation coefficient and stores the correlation coefficient in the data storage unit;
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. A neighborhood correlation coefficient calculation unit that calculates a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and stores it in the data storage unit;
The correlation coefficient calculated by the correlation coefficient calculation unit is a positive value, and data loss occurs in the neighborhood correlation coefficient or the neighborhood correlation coefficient calculated by the neighborhood correlation coefficient calculation unit. A column processing unit that performs a first extraction process of extracting from the data storage unit a combination of the columns that is a positive value in which a product obtained by multiplying a ratio of records that does not exceed a predetermined significance level ;
A name identification support processing apparatus.
前記注目カラムのデータで前記レコードをソートし、当該ソート後の並びにおいて前記注目レコードの前後所定数のレコードを前記注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定する
請求項1記載の名寄せ支援処理装置。 The neighborhood correlation coefficient calculating unit
The records are sorted by the data of the target column, and a predetermined number of records before and after the target record are specified as records having data similar to or similar to the data in the target record in the sorted sequence. Item 1. The name identification support processing device according to Item 1.
抽出された前記カラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の前記相関係数と前記近傍相関係数との差を有用度として算出し、前記データ格納部に格納し、
前記抽出カラムの各々について、当該抽出カラムについて算出された前記有用度と前記他の抽出カラムについて算出された当該抽出カラムとの前記有用度とから優先度を算出し、前記データ格納部に格納する、
請求項1又は2記載の名寄せ支援処理装置。 The column processing unit
For each extraction column that is a column included in the extracted combination of columns, the difference between the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient is calculated as a usefulness. , Stored in the data storage unit,
For each of the extraction columns, a priority is calculated from the usefulness calculated for the extraction column and the usefulness of the extraction column calculated for the other extraction column, and stored in the data storage unit ,
The name identification support processing apparatus according to claim 1 or 2.
前記データ格納部から、前記相関係数算出部で算出された前記相関係数又は当該相関係数にデータ欠損が発生していないレコードの割合を乗じた積が所定の有意水準を超える正の値である前記カラムの組み合わせを抽出する第2抽出処理を実施し、
前記第1抽出処理において抽出された前記カラムの組み合わせに含まれるカラムと前記第2抽出処理において抽出された前記カラムの組み合わせに含まれるカラムとに共通するカラムのうち、前記優先度が最も高いカラムを抽出する、
請求項3記載の名寄せ支援処理装置。 The column processing unit
A positive value in which the product obtained by multiplying the correlation coefficient calculated by the correlation coefficient calculation unit or the ratio of records in which no data loss has occurred in the correlation coefficient calculation unit from the data storage unit exceeds a predetermined significance level A second extraction process for extracting a combination of the columns,
The column having the highest priority among the columns common to the columns included in the combination of columns extracted in the first extraction process and the columns included in the combination of columns extracted in the second extraction process Extract,
The name identification support processing apparatus according to claim 3.
前記第1抽出処理において抽出された前記カラムの組み合わせに含まれるカラムから前記第2抽出処理において抽出された前記カラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、前記優先度が最も高いカラムとの組み合わせを生成する
請求項4記載の名寄せ支援処理装置。 The column processing unit
A second extraction column that is a column after excluding a column included in the combination of columns extracted in the second extraction process from a column included in the combination of columns extracted in the first extraction process; The name identification support processing apparatus according to claim 4, wherein a combination with a column having the highest priority is generated.
ことを特徴とする請求項5記載の名寄せ支援処理装置。 The combination according to claim 5, wherein the priority of the second extraction column stored in the data storage unit and the priority of the column having the highest priority are combined when they are equal to or higher than a predetermined threshold. Name identification support processing device.
をさらに有し、
前記類似度推定部の処理結果を格納する前記データ格納部に格納されているデータを用いて、前記相関係数算出部が、前記第1の類似度の相関係数を再度算出し、前記近傍相関係数算出部が、前記第2の類似度の相関係数を再度算出し、
前記カラム処理部が処理を再度行う
請求項1乃至6のいずれか1つ記載の名寄せ支援処理装置。 Of the second column that is a column other than the first column that is the column extracted by the column processing unit or the generated combination, the data loss has occurred and the first column A third column that satisfies a first predetermined condition including a condition that the correlation coefficient is equal to or greater than a threshold is specified, and for each record pair, the data similarity in the first column is equal to or greater than the second threshold. If the second predetermined condition including the condition of being present satisfies the second predetermined condition, the similarity with the non-missing data of the record pair in the third column is equal to or higher than a third threshold and appears in the third column A weighted addition value of the similarity of data is calculated as the similarity for the third column, and when the second predetermined condition is not satisfied, the first column and the third column A second value calculated as the similarity for said third column, similarity degree estimation unit to be stored in the data storage unit, which is calculated based on other methods,
Further comprising
Using the data stored in the data storage unit that stores the processing result of the similarity estimation unit, the correlation coefficient calculation unit calculates the correlation coefficient of the first similarity again, and the neighborhood The correlation coefficient calculation unit calculates the correlation coefficient of the second similarity again,
The name identification support processing apparatus according to any one of claims 1 to 6, wherein the column processing unit performs the process again.
請求項7記載の名寄せ支援処理装置。 The name collation according to claim 7, wherein the first predetermined condition further includes a condition that the number of records in which no data is missing in the first column and the second column is equal to or greater than a fourth threshold. Support processing device.
請求項7又は8記載の名寄せ支援処理装置。 The name collation support processing apparatus according to claim 7 or 8, wherein the second predetermined condition further includes a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold.
請求項7乃至9のいずれか1つ記載の名寄せ支援処理装置。 The name identification support processing apparatus according to any one of claims 7 to 9, wherein a weight value of the weighted addition value is a ratio of an appearance frequency of the similar data to a sum of the appearance frequencies of the similar data.
前記第1のカラムと前記第3のカラムとの回帰計算結果から前記第1のカラムにおけるデータの類似度に対応する前記第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である
請求項7乃至10のいずれか1つ記載の名寄せ支援処理装置。 The second value is
The similarity in the third column corresponding to the data similarity in the first column is calculated from the regression calculation result of the first column and the third column, and the calculated similarity is calculated with respect to the calculated similarity The name identification support processing device according to any one of claims 7 to 10, wherein the name identification support processing device is a result of adding random values.
前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納する相関係数算出ステップと、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出ステップと、
前記相関係数算出ステップで算出された前記相関係数が正の値であり、且つ前記近傍相関係数算出ステップで算出された前記近傍相関係数又は当該近傍相関係数にデータ欠損が発生していないレコードの割合を乗じた積が所定の有意水準を超える正の値である前記カラムの組み合わせを、前記データ格納部から抽出する抽出する第1抽出ステップと、
を含み、コンピュータにより実行される名寄せ支援処理方法。 Calculating a first data similarity between records for each column in the database and storing in a data storage unit;
Calculating a correlation coefficient of the first data similarity for each of the combinations of the column is stored in the data storage unit, a correlation coefficient calculating step of storing in the data storage unit,
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. Calculating a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and
The correlation coefficient calculated in the correlation coefficient calculation step is a positive value, and data loss occurs in the neighborhood correlation coefficient calculated in the neighborhood correlation coefficient calculation step or the neighborhood correlation coefficient. A first extraction step of extracting from the data storage unit a combination of the columns that is a positive value in which a product obtained by multiplying the percentage of records that is not greater than a predetermined significance level ;
And a name identification support processing method executed by a computer.
前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納する相関係数算出ステップと、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出ステップと、
前記相関係数算出ステップで算出された前記相関係数が正の値であり、且つ前記近傍相関係数算出ステップで算出された前記近傍相関係数又は当該近傍相関係数にデータ欠損が発生していないレコードの割合を乗じた積が所定の有意水準を超える正の値である前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出ステップと、
を、コンピュータに実行させる名寄せ支援処理プログラム。 Calculating a first data similarity between records for each column in the database and storing in a data storage unit;
Calculating a correlation coefficient of the first data similarity for each of the combinations of the column is stored in the data storage unit, a correlation coefficient calculating step of storing in the data storage unit,
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. Calculating a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and
The correlation coefficient calculated in the correlation coefficient calculation step is a positive value, and data loss occurs in the neighborhood correlation coefficient calculated in the neighborhood correlation coefficient calculation step or the neighborhood correlation coefficient. A first extraction step of extracting, from the data storage unit, a combination of the columns that is a positive value in which a product obtained by multiplying a ratio of records that is not greater than a predetermined significance level ;
Name identification support processing program that causes a computer to execute
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032645A JP5640796B2 (en) | 2010-06-04 | 2011-02-17 | Name identification support processing apparatus, method and program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010129184 | 2010-06-04 | ||
JP2010129184 | 2010-06-04 | ||
JP2011032645A JP5640796B2 (en) | 2010-06-04 | 2011-02-17 | Name identification support processing apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014684A JP2012014684A (en) | 2012-01-19 |
JP5640796B2 true JP5640796B2 (en) | 2014-12-17 |
Family
ID=45600981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011032645A Expired - Fee Related JP5640796B2 (en) | 2010-06-04 | 2011-02-17 | Name identification support processing apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5640796B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5367112B2 (en) * | 2012-03-22 | 2013-12-11 | 株式会社東芝 | Data analysis support device and data analysis support processing program |
US20180247163A1 (en) * | 2016-03-23 | 2018-08-30 | Hitachi, Ltd. | Computer system and data classification method |
JP6690399B2 (en) * | 2016-05-18 | 2020-04-28 | 富士通株式会社 | Evaluation program, evaluation method, and information processing device |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3651550B2 (en) * | 1998-02-23 | 2005-05-25 | 三菱電機株式会社 | Attribute compression apparatus and method |
JP2000353163A (en) * | 1999-06-11 | 2000-12-19 | Just Syst Corp | Database processor and storage medium stored with program for database processing |
JP5064791B2 (en) * | 2006-12-27 | 2012-10-31 | キヤノンソフトウェア株式会社 | Form data search device, form data search method and program |
-
2011
- 2011-02-17 JP JP2011032645A patent/JP5640796B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012014684A (en) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7169369B2 (en) | Method, system for generating data for machine learning algorithms | |
JP4429236B2 (en) | Classification rule creation support method | |
CN108683530B (en) | Data analysis method and device for multi-dimensional data and storage medium | |
TW202030685A (en) | Computer implemented event risk assessment method and device | |
US20120239596A1 (en) | Classification of stream-based data using machine learning | |
KR20080075501A (en) | Information classification paradigm | |
CN112685324B (en) | Method and system for generating test scheme | |
CN112163553B (en) | Material price accounting method, device, storage medium and computer equipment | |
CN110490237B (en) | Data processing method and device, storage medium and electronic equipment | |
JP2019503541A (en) | An annotation system for extracting attributes from electronic data structures | |
CN112395881B (en) | Material label construction method and device, readable storage medium and electronic equipment | |
CN111369294B (en) | Software cost estimation method and device | |
CN114936158A (en) | Software defect positioning method based on graph convolution neural network | |
JP2012073812A (en) | Data analysis support system and method | |
JP5391637B2 (en) | Data similarity calculation system, data similarity calculation method, and data similarity calculation program | |
JP5640796B2 (en) | Name identification support processing apparatus, method and program | |
CN113360350A (en) | Method, device, equipment and storage medium for positioning root cause alarm of network equipment | |
US10007593B2 (en) | Injection of data into a software application | |
CN112631889A (en) | Portrayal method, device and equipment for application system and readable storage medium | |
JP4479745B2 (en) | Document similarity correction method, program, and computer | |
CN115936748A (en) | Business big data analysis method and system | |
EP3379461A1 (en) | Method for computer-assisted determination of the performance of a classification model | |
CN117891811B (en) | Customer data acquisition and analysis method and device and cloud server | |
JP7491410B2 (en) | Data classification device, data classification method and data classification program | |
CN117648635B (en) | Sensitive information classification and classification method and system and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140603 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140930 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141013 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5640796 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |