JP5640796B2 - Name identification support processing apparatus, method and program - Google Patents

Name identification support processing apparatus, method and program Download PDF

Info

Publication number
JP5640796B2
JP5640796B2 JP2011032645A JP2011032645A JP5640796B2 JP 5640796 B2 JP5640796 B2 JP 5640796B2 JP 2011032645 A JP2011032645 A JP 2011032645A JP 2011032645 A JP2011032645 A JP 2011032645A JP 5640796 B2 JP5640796 B2 JP 5640796B2
Authority
JP
Japan
Prior art keywords
column
data
correlation coefficient
similarity
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011032645A
Other languages
Japanese (ja)
Other versions
JP2012014684A (en
Inventor
星合 忠
忠 星合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011032645A priority Critical patent/JP5640796B2/en
Publication of JP2012014684A publication Critical patent/JP2012014684A/en
Application granted granted Critical
Publication of JP5640796B2 publication Critical patent/JP5640796B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本技術は、名寄せを支援するための技術に関する。   The present technology relates to a technology for supporting name identification.

名寄せとは、データベースにおいて、同一の実体を表す複数のレコードを発見し、統合することである。例えば、顧客データベースにおいて、顧客企業又は顧客個人について複数のレコードがあれば、それらを統合する処理である。典型的には、名寄せの対象とするデータベース中には多くのカラムが存在することが多く、膨大なデータ量となるため、そのまま名寄せ処理を行うと計算量が増大し、大変な処理時間が要する原因となる。そのため、名寄せを行う前にはカラム選択が行われる。このカラム選択は、データベース中のどのカラムを名寄せの処理対象にするか決める処理である。通常は、カラム選択において適切なカラムを選択することによって、名寄せ処理の精度を保ちつつ処理速度が向上する。なお、元のデータベース中に名寄せに悪影響を与えるようなカラムが存在する場合には、適切なカラムを選択するにより、名寄せの精度も向上することが期待される。   Name identification refers to finding and integrating multiple records representing the same entity in a database. For example, in a customer database, if there are a plurality of records for a customer company or a customer individual, a process of integrating them. Typically, there are many columns in the database that is subject to name identification, and the amount of data is enormous. Therefore, if the name identification process is performed as it is, the calculation amount increases and a long processing time is required. Cause. Therefore, column selection is performed before name identification. This column selection is a process of determining which column in the database is to be processed for name identification. Normally, by selecting an appropriate column in the column selection, the processing speed is improved while maintaining the accuracy of the name identification process. If there is a column that adversely affects name identification in the original database, it is expected that the accuracy of name identification will be improved by selecting an appropriate column.

しかし、従来では、人間の経験と勘から名寄せのためのカラム選択を行ったり、機械学習を行った上でカラム選択を行ったり、カラム毎の異なり値数を計算して一定数以上の異なり値数を有するカラムを選択したりしていた。しかし、このような方法では、手間がかかったり、適切ではないカラムが選択されたりする場合がある。適切ではないカラムの例としては、例えば「会社漢字名」と「会社カナ名」のようにほとんど同じ情報を表す冗長なカラムが両方とも選択されてしまう場合や、取引商品名といった顧客企業の名寄せには無関係なカラムが選択されてしまう場合もある。   However, in the past, column selection for name identification was performed based on human experience and intuition, column selection was performed after machine learning, or the number of different values for each column was calculated and a certain number of different values were calculated. Or a column having a number was selected. However, such a method may be time consuming and may select an inappropriate column. Examples of columns that are not appropriate include cases where both redundant columns representing almost the same information such as “company kanji name” and “company kana name” are selected, or customer company name identification such as trade product names. In some cases, an unrelated column is selected.

なお、名寄せは、レコード間の同一性を発見する技術であるが、カラム間の同一性を発見するための技術としては、以下がある。複数のテーブルにおける項目間の関連を検出する技術については既に存在している。例えば、テーブルにおける項目毎に、項目中の値毎の出現回数に基づく値である項目スコアを算出し、複数のテーブルの中から互いに異なるテーブルを関連元テーブル及び関連先テーブルとして選択し、関連元テーブル中の項目である関連元項目と関連先テーブル中の項目である関連先項目とを選択し、関連元項目と関連先項目の組み合わせを関連として生成する。そして、生成された関連毎に、関連先項目における関連元項目中の値毎の出現回数と関連元項目の項目スコアと関連先項目の項目スコアとに基づく値である関連スコアを算出するものである。しかしながら、一般的に、名寄せで複数のテーブルにおける項目間の関連を検出することはない。なお、複数のテーブルにおけるレコードの同一性を発見する技術として、参照名寄せがあるが本技術では対象としない。   Note that name identification is a technique for finding the identity between records, and the technique for finding the identity between columns is as follows. A technique for detecting an association between items in a plurality of tables already exists. For example, for each item in the table, calculate an item score that is a value based on the number of appearances for each value in the item, select different tables from the plurality of tables as the association source table and the association destination table, A relation source item that is an item in the table and a relation destination item that is an item in the relation destination table are selected, and a combination of the relation source item and the relation destination item is generated as a relation. Then, for each generated association, a related score that is a value based on the number of appearances of each value in the related source item in the related destination item, the item score of the related source item, and the item score of the related destination item is calculated. is there. However, in general, the association between items in a plurality of tables is not detected by name identification. As a technique for finding the identity of records in a plurality of tables, there is a reference name collation, but this technique is not targeted.

また、各レコードの全てのカラムにデータが登録されていればよいが、データ欠損が存在している場合もある。このような場合には、対象データ中の欠損値を含む部分を除外し、残ったデータに対して通常の解析を行う方法があるが、非欠損値の数が少ないと相関係数値の信頼性が低下するといった問題がある。また、統計的に意味のある数値(平均値、回帰推定値、最悪値など)を各カラムの欠損箇所に代入するというような方法があるが、自然な分散値を外れる危険性が高く、結果として相関係数値が不正確になるという問題がある。さらに、欠損値を複数通り推定し、複数のデータセットを生成して解析し、最後に結果を統合するというような方法もあるが、データ規模や欠損の数によっては計算量が膨大になり、名寄せの分野では現実的な対策ではない。   In addition, data may be registered in all columns of each record, but there may be data loss. In such cases, there is a method to exclude the part containing missing values in the target data and perform normal analysis on the remaining data, but if the number of non-missing values is small, the reliability of the correlation coefficient value There is a problem that decreases. In addition, there is a method of substituting statistically meaningful numerical values (average value, regression estimation value, worst value, etc.) into the missing part of each column, but there is a high risk of deviating from the natural variance value. There is a problem that the correlation coefficient value becomes inaccurate. In addition, there are methods such as estimating multiple missing values, generating and analyzing multiple data sets, and finally integrating the results, but depending on the data size and number of missing data, the amount of calculation becomes enormous, It is not a realistic measure in the field of name identification.

特開2008−27072号公報JP 2008-27072 A

従って、本技術の目的は、一側面において、名寄せを精度良く行うのに役立つ可能性のあるカラムを自動的に選択するための技術を提供することである。   Accordingly, an object of the present technology is, in one aspect, to provide a technology for automatically selecting a column that may help to perform name identification with high accuracy.

本技術の一側面に係る名寄せ支援処理方法は、(A)データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、(B)カラムの組み合わせの各々についてデータ格納部に格納されている第1のデータ類似度の相関係数を算出し、データ格納部に格納するステップと、(C)カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、注目レコードと特定されたレコードとの間の各々における、カラム毎の第2のデータ類似度を算出又は特定してデータ格納部に格納すると共に、注目カラムと他のカラムとの組み合わせの各々についてデータ格納部に格納されている第2のデータ類似度の相関係数を近傍相関係数として算出してデータ格納部に格納する近傍相関係数算出ステップと、(D)正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠損が発生していないレコードの割合が乗じられた正の近傍相関係数が算出されたカラムの組み合わせを、データ格納部から抽出する第1抽出処理を実施する第1抽出ステップとを含む。   A name identification support processing method according to an aspect of the present technology includes (A) calculating a first data similarity between records for each column in the database and storing the first data similarity in a data storage unit; and (B) a combination of columns. Calculating a correlation coefficient of the first data similarity stored in the data storage unit for each of the data, and storing the correlation coefficient in the data storage unit; and (C) an arbitrary column in the target column which is an arbitrary column of the columns The record having data similar to or similar to the data in the target record that is the record of the record is specified, and the second data similarity for each column is calculated in each of the range between the target record and the specified record Alternatively, the second data stored in the data storage unit for each combination of the column of interest and the other column is specified and stored in the data storage unit. A neighborhood correlation coefficient calculation step of calculating a correlation coefficient of the data similarity degree as a neighborhood correlation coefficient and storing it in the data storage unit; and (D) a positive correlation coefficient that is calculated and exceeds a predetermined significance level. A first extraction process is performed to extract a combination of columns from which a positive neighborhood correlation coefficient calculated by multiplying the percentage of records having no neighborhood correlation coefficient or data loss has been calculated from the data storage unit. An extraction step.

名寄せを精度良く行うのに役に立つ可能性のあるカラムを自動的に選択できるようになる。   You can automatically select columns that may be useful for accurate name identification.

図1は、相関と近傍相関を説明するための図である。FIG. 1 is a diagram for explaining the correlation and the neighborhood correlation. 図2は、相関について説明するための図である。FIG. 2 is a diagram for explaining the correlation. 図3は、相関について説明するための図である。FIG. 3 is a diagram for explaining the correlation. 図4は、相関と近傍相関を説明するための図である。FIG. 4 is a diagram for explaining the correlation and the neighborhood correlation. 図5は、相関と近傍相関を説明するための図である。FIG. 5 is a diagram for explaining the correlation and the neighborhood correlation. 図6は、相関と近傍相関を説明するための図である。FIG. 6 is a diagram for explaining the correlation and the neighborhood correlation. 図7は、相関と近傍相関を説明するための図である。FIG. 7 is a diagram for explaining the correlation and the neighborhood correlation. 図8は、相関と近傍相関の関係を説明するための図である。FIG. 8 is a diagram for explaining the relationship between the correlation and the neighborhood correlation. 図9は、名寄せ支援処理装置の機能ブロック図である。FIG. 9 is a functional block diagram of the name identification support processing device. 図10は、本実施の形態におけるメインの処理フローを示す図である。FIG. 10 is a diagram showing a main processing flow in the present embodiment. 図11は、読み出されたデータの一例を示す図である。FIG. 11 is a diagram illustrating an example of the read data. 図12は、相関算出処理の処理フローを示す図である。FIG. 12 is a diagram illustrating a processing flow of correlation calculation processing. 図13は、類似度算出を説明するための図である。FIG. 13 is a diagram for explaining similarity calculation. 図14は、類似度の算出結果を表す図である。FIG. 14 is a diagram illustrating a calculation result of similarity. 図15は、相関係数の算出結果を表す図である。FIG. 15 is a diagram illustrating a calculation result of the correlation coefficient. 図16は、近傍相関算出処理の処理フローを示す図である。FIG. 16 is a diagram illustrating a process flow of the neighborhood correlation calculation process. 図17は、特定のカラムに着目してソートした場合の一例を示す図である。FIG. 17 is a diagram illustrating an example of sorting when focusing on a specific column. 図18は、各レコードについて近傍レコードを抽出した場合の一例を示す図である。FIG. 18 is a diagram illustrating an example of a case where neighboring records are extracted for each record. 図19は、類似度の算出結果を表す図である。FIG. 19 is a diagram illustrating the calculation result of the similarity. 図20は、近傍相関算出処理の処理フローを示す図である。FIG. 20 is a diagram illustrating a process flow of the neighborhood correlation calculation process. 図21は、1つのカラムについて算出された近傍相関係数の一例を示す図である。FIG. 21 is a diagram illustrating an example of the neighborhood correlation coefficient calculated for one column. 図22Aは、カラムの優先度算出処理の処理フローを示す図である。FIG. 22A is a diagram illustrating a processing flow of column priority calculation processing. 図22Bは、相関及び近傍相関の算出結果をまとめた図である。FIG. 22B is a table summarizing the calculation results of the correlation and the neighborhood correlation. 図23は、有用度及び優先度の計算結果をまとめた図である。FIG. 23 is a table summarizing the calculation results of the usefulness and the priority. 図24は、冗長カラム群の一元化処理の処理フローを示す図である。FIG. 24 is a diagram illustrating a processing flow of the unification processing of redundant column groups. 図25は、冗長カラムグループの分類について説明するための図である。FIG. 25 is a diagram for explaining the classification of redundant column groups. 図26は、冗長カラムグループ内において優先するカラムの選択を説明するための図である。FIG. 26 is a diagram for explaining selection of a column having priority in a redundant column group. 図27は、最終的なカラム選択結果を説明するための図である。FIG. 27 is a diagram for explaining the final column selection result. 図28は、結果出力の一例を示す図である。FIG. 28 is a diagram illustrating an example of a result output. 図29は、第2の実施の形態に係る名寄せ支援処理装置の機能ブロック図である。FIG. 29 is a functional block diagram of the name identification support processing device according to the second embodiment. 図30は、第2の実施の形態に係るメインの処理フローを示す図である。FIG. 30 is a diagram illustrating a main processing flow according to the second embodiment. 図31Aは、欠損のあるデータの一例を示す図である。FIG. 31A is a diagram illustrating an example of missing data. 図31Bは、重みdの算出方法を説明するための図である。FIG. 31B is a diagram for explaining a method of calculating the weight d. 図32は、出現頻度表の一例を示す図である。FIG. 32 is a diagram illustrating an example of an appearance frequency table. 図33は、欠損値推定処理の処理フローを示す図である。FIG. 33 is a diagram showing a processing flow of missing value estimation processing. 図34は、推定可能カラム決定処理の処理フローを示す図である。FIG. 34 is a diagram illustrating a process flow of the estimable column determination process. 図35Aは、推定可能カラム決定処理を説明するための図である。FIG. 35A is a diagram for explaining an estimable column determination process. 図35Bは、推定可能カラム決定処理を説明するための図である。FIG. 35B is a diagram for explaining an estimable column determination process. 図35Cは、推定可能カラム決定処理を説明するための図である。FIG. 35C is a diagram for describing an estimable column determination process. 図35Dは、推定可能カラム決定処理を説明するための図である。FIG. 35D is a diagram for describing an estimable column determination process. 図35Eは、推定可能カラムペアリストの一例を示す図である。FIG. 35E is a diagram illustrating an example of an estimable column pair list. 図36は、推定可能カラム決定処理の処理フローを示す図である。FIG. 36 is a diagram illustrating a processing flow of estimable column determination processing. 図37は、名寄せ可能性推定処理の処理フローを示す図である。FIG. 37 is a diagram illustrating a processing flow of name identification possibility estimation processing. 図38Aは、名寄せ可能性推定処理を説明するための図である。FIG. 38A is a diagram for describing name identification possibility estimation processing. 図38Bは、名寄せ可能性推定処理を説明するための図である。FIG. 38B is a diagram for describing name identification possibility estimation processing. 図39は、欠損値推定処理の処理フローを示す図である。FIG. 39 is a diagram showing a processing flow of missing value estimation processing. 図40は、第1推定処理の処理フローを示す図である。FIG. 40 is a diagram illustrating a processing flow of the first estimation processing. 図41Aは、第1推定処理を説明するための図である。FIG. 41A is a diagram for describing the first estimation process. 図41Bは、第1推定処理を説明するための図である。FIG. 41B is a diagram for describing the first estimation process. 図41Cは、第1推定処理を説明するための図である。FIG. 41C is a diagram for describing the first estimation process. 図42は、第2推定処理を説明するための図である。FIG. 42 is a diagram for describing the second estimation process. 図43は、第2推定処理を説明するための図である。FIG. 43 is a diagram for describing the second estimation process. 図44は、第2名寄せ可能性推定処理の処理フローを示す図である。FIG. 44 is a diagram illustrating a process flow of the second name identification possibility estimation process. 図45は、第2名寄せ可能性推定処理を説明するための図である。FIG. 45 is a diagram for describing the second name identification possibility estimation process. 図46は、コンピュータの機能ブロック図である。FIG. 46 is a functional block diagram of a computer.

[実施の形態1]
本実施の形態では、名寄せに役に立つカラム、すなわち実体を1又は少数に限定することができるカラム(例えば顧客企業の名寄せであれば企業名、住所など)を、新たな指標を導入することによって抽出する。
[Embodiment 1]
In this embodiment, a column that is useful for name identification, that is, a column that can limit the number of entities to one or a small number (for example, company name, address, etc. in the case of name identification of a customer company) is extracted by introducing a new index. To do.

具体的には、よく知られている相関(より具体的には相関係数)と近傍相関(より具体的には近傍相関係数)とを組み合わせて用いる。近傍相関とは、後に詳細な計算方法を示すが、特定のカラムにおいて類似する少数のレコードの範囲で複数のカラムの値が同時に一致又は類似している度合いを表す指標である。以下、相関と近傍相関との関係について説明する。   Specifically, a well-known correlation (more specifically, a correlation coefficient) and a neighborhood correlation (more specifically, a neighborhood correlation coefficient) are used in combination. The neighborhood correlation, which will be described later in detail, is an index that represents the degree to which the values of a plurality of columns simultaneously match or are similar within a range of a small number of similar records in a specific column. Hereinafter, the relationship between the correlation and the neighborhood correlation will be described.

まず、図1を用いて相関と近傍相関について概観する。   First, an overview of correlation and neighborhood correlation will be given with reference to FIG.

ここでは、以下のような典型例が成り立つものとする。(1)名寄せ可能なレコードの集合においては、名寄せに役立つカラムのペアのカラム値は、「ともに一致又は非常に類似する」ことが多い。すなわち、この場合、2つのカラムの類似度は連動する。(2)名寄せ可能性の高いレコードが存在する場合でも、その部分のデータ数はデータベースの全レコード数に比べると非常に小さい。   Here, it is assumed that the following typical example holds. (1) In a set of records that can be identified, the column values of pairs of columns useful for name identification are often “both coincide or are very similar”. That is, in this case, the similarity between the two columns is linked. (2) Even when there is a record with a high possibility of name identification, the number of data in that portion is very small compared to the total number of records in the database.

図1左上に示すように、相関は、分析対象のデータベース全体における、特定のカラムペアの類似度の連動性を示している。カラムペアの相関係数が大きい場合、主な原因はカラムの冗長性である。例えば、「会社漢字名」と「会社カナ名」とは相関係数が大きくなるが、名寄せとしては冗長なカラムのペアであり、そのまま両方とも用いると、精度には変わりがないものの、処理時間が増大する。なお、典型例(2)より、名寄せの可能性が高いレコードの絶対数は非常に少ないので、それらは相関の増加にはほとんど寄与しない。すなわち、相関係数単独では、名寄せに役立つカラムは埋もれてしまって抽出できない。   As shown in the upper left of FIG. 1, the correlation indicates the linkage of the similarity of a specific column pair in the entire analysis target database. When the correlation coefficient of a column pair is large, the main cause is column redundancy. For example, “Company Kanji Name” and “Company Kana Name” have a large correlation coefficient, but they are redundant column pairs for name collation. Will increase. Since the absolute number of records having a high possibility of name identification is very small compared to the typical example (2), they hardly contribute to an increase in correlation. That is, the correlation coefficient alone cannot be extracted because the column useful for name identification is buried.

一方、近傍相関は、図1左上でハッチングが付されている部分のように、特定カラム(例えば「会社漢字名」)のカラム値が類似するレコードの集合(図1右下)を抽出することによって得られる、局所的に類似性が強いデータ集合における、カラムペアの類似性の連動性を示している。カラムペアの近傍相関係数が大きい場合、典型例(1)から名寄せの可能性が高いレコードを多く含むことが推定され、名寄せに役立つカラムが含まれる可能性が高くなる。但し、冗長性を完全に排除できるわけではない。   On the other hand, the neighborhood correlation is to extract a set of records (lower right in FIG. 1) having similar column values of a specific column (for example, “company kanji name”), such as the hatched portion in the upper left in FIG. This shows the linkage of the similarity of column pairs in a data set with strong local similarity. When the neighborhood correlation coefficient of the column pair is large, it is estimated from the typical example (1) that many records having a high possibility of name identification are included, and there is a high possibility that a column useful for name identification is included. However, redundancy cannot be completely eliminated.

次に、図2及び図3を用いて相関についてもう少し詳細に検討する。図2は散布図であって、横軸は例えば取引商品カラム内のカラム値の類似度を表し、縦軸は例えば住所カラム内のカラム値の類似度を表し、黒点はレコードのペアを表す。図2の例のように、相関がほぼ0(無相関)の場合には、いずれのカラムの類似度の大小も互いに無関係であり、このようなカラムペアは名寄せに役に立つことはない。   Next, the correlation will be examined in more detail with reference to FIGS. FIG. 2 is a scatter diagram, in which the horizontal axis represents, for example, the similarity of column values in the transaction product column, the vertical axis represents, for example, the similarity of column values in the address column, and the black dots represent record pairs. As in the example of FIG. 2, when the correlation is almost 0 (non-correlated), the degree of similarity of any column is irrelevant to each other, and such a column pair is not useful for name identification.

なお、相関の大小の判定には、統計学における相関係数の有意性の判定を用いるものとする。すなわち、有意水準の限界値αと相関係数rとの関係がr>αを満たせば相関大であり、満たさない場合には相関小ということとする。   Note that the determination of the magnitude of the correlation uses the determination of the significance of the correlation coefficient in statistics. That is, if the relationship between the limit value α of the significance level and the correlation coefficient r satisfies r> α, the correlation is high, and if not, the correlation is low.

一方、図3も散布図であり、横軸は例えば会社漢字名カラム内のカラム値の類似度を表し、縦軸は例えば会社カナ名カラム内のカラム値の類似度を表す。図3の例では、一方のカラムの類似度が大きい場合には他方のカラムの類似度も大きく、一方のカラムの類似度が小さい場合には他方のカラムの類似度も小さくなっている。このように、両方のカラムの類似度の挙動がほぼ同じになっている場合には、冗長なカラムペアということになる。従って、いずれのカラムを用いてもほぼ同様の結果が期待される。このように、図3のような類似度の相関係数が大きいカラムペアについては、冗長性のあるカラムペアであり、以下で述べるように近傍相関との関係で利用することができる。   On the other hand, FIG. 3 is also a scatter diagram, where the horizontal axis represents, for example, the similarity of column values in the company kanji name column, and the vertical axis represents, for example, the similarity of column values in the company kana name column. In the example of FIG. 3, when the similarity of one column is large, the similarity of the other column is also large, and when the similarity of one column is small, the similarity of the other column is also small. Thus, when the behavior of the similarity of both columns is almost the same, this is a redundant column pair. Therefore, almost the same result is expected regardless of which column is used. As described above, the column pair having a large correlation coefficient of similarity as shown in FIG. 3 is a redundant column pair and can be used in relation to the neighborhood correlation as described below.

次に、図4乃至図8を用いて相関と近傍相関についてもう少し詳細に検討する。   Next, the correlation and the neighborhood correlation will be examined in a little more detail with reference to FIGS.

なお、近傍相関の大小判定についても、相関の大小の判定と同様に、相関係数の有意性の検定手法を用いるものとする。   Note that the correlation coefficient significance test method is also used for the determination of the magnitude of the neighborhood correlation, as in the determination of the magnitude of the correlation.

図4は散布図であり、縦軸は例えば住所カラムの類似度を表し、横軸は取引商品カラムの類似度を表している。このカラムペアについては、類似度の相関が非常に小さいことが分かる。また、取引商品カラムの類似度を基準にして、取引商品カラムの類似度が高いレコード(すなわち取引商品カラムの類似度が1に近いハッチング部分)の住所カラムの類似度もばらばらであるから、近傍相関も小さいことがわかる。このようなカラムペアは、名寄せには役に立たない。   FIG. 4 is a scatter diagram, where the vertical axis represents, for example, the similarity of the address column, and the horizontal axis represents the similarity of the transaction product column. For this column pair, it can be seen that the similarity correlation is very small. In addition, since the similarity of the address column of the record having a high similarity of the transaction product column (that is, the hatched portion where the similarity of the transaction product column is close to 1) is also different based on the similarity of the transaction product column. It can be seen that the correlation is also small. Such column pairs are useless for name identification.

また、図5も散布図であり、縦軸は例えば会社カナ名の類似度を表し、横軸は会社漢字名カラムの類似度を表している。このカラムペアについては、類似度の相関が大きいことが分かる。また、会社漢字名カラムの類似度を基準として、会社漢字名カラムの類似度が高いレコード(すなわち会社漢字名カラムの類似度が1に近いハッチング部分)の会社カナ名カラムの類似度も高くなっている。すなわち近傍相関も大きくなっている。しかし、カラムペアの相関の大きさがそのまま近傍相関の値に反映されているだけなので、相関が大きく且つ近傍相関が大きいというカラムペアは、それだけで名寄せに役に立つペアとは言えない。   FIG. 5 is also a scatter diagram, where the vertical axis represents, for example, the similarity of the company name, and the horizontal axis represents the similarity of the company kanji name column. It can be seen that this column pair has a large correlation in similarity. In addition, based on the similarity of the company kanji name column, the similarity of the company kana name column of the record having a high similarity of the company kanji name column (that is, the hatched portion where the similarity of the company kanji name column is close to 1) is also increased. ing. That is, the neighborhood correlation is also increased. However, since the magnitude of the correlation of the column pair is simply reflected in the neighborhood correlation value as it is, a column pair with a large correlation and a large neighborhood correlation cannot be said to be a useful pair for name identification by itself.

さらに、図6も散布図であり、縦軸は例えば会社カナ名カラムの類似度を表し、横軸は住所カラムの類似度を表している。このカラムペアについては、全体の相関は小さいことが分かる。しかしながら、住所カラムの類似度を基準として、会社カナ名カラムの類似度が高いレコード(すなわち住所カラムの類似度が1に近いハッチング部分)の会社カナ名カラムの類似度は高くなっている。すなわち近傍相関が大きくなっている。このように、特定のカラムについての類似度が高いレコードに着目すると他方のカラムについても類似度が高いということであれば、名寄せすべきレコードが存在していることを暗示しているので、このようなカラムペアについては、名寄せに役立つカラムペアと言える。   FIG. 6 is also a scatter diagram, where the vertical axis represents, for example, the similarity of the company name column, and the horizontal axis represents the similarity of the address column. It can be seen that the overall correlation is small for this column pair. However, on the basis of the similarity of the address column, the similarity of the company Kana name column of the record having a high similarity of the company Kana name column (that is, the hatched portion where the similarity of the address column is close to 1) is high. That is, the neighborhood correlation is large. In this way, if attention is focused on a record with a high degree of similarity for a particular column, if the degree of similarity is also high for the other column, it implies that there is a record to be named, so this Such column pairs can be said to be useful for name identification.

さらに、図7も散布図であり、縦軸は例えば電話番号カラムの類似度を表し、横軸は会社カナ名カラムの類似度を表している。このカラムペアについては、全体として相関が高いことが分かる。さらに、会社カナ名カラムの類似度を基準として、会社カナ名カラムの類似度が高いレコード(すなわち会社カナ名カラムの類似度が1に近いハッチング部分)の電話番号カラムの類似度の連動性が高くなっていることが分かる。すなわち、近傍相関の大きさは、相関の大きさよりも大きくなっている。このようなカラムペアは、特定のカラムについての類似度が高いレコードに着目すると他方のカラムについても類似度が非常に連動して高いということであれば、名寄せすべきレコードが存在していることを暗示している。従って、このようなカラムペアについては、名寄せに役立つカラムペアと言える。なお、会社漢字名カラムと会社カナ名カラムとがこのような態様に該当する場合には、漢字と読みの関係が多対一(同音異字語)、一対多(複数読みの語)のケースを多く含む場合などが該当する。   Furthermore, FIG. 7 is also a scatter diagram, where the vertical axis represents, for example, the similarity of the telephone number column, and the horizontal axis represents the similarity of the company name column. It can be seen that this column pair has a high correlation as a whole. Furthermore, based on the similarity of the Company Kana name column, the linkage of the similarity of the phone number column of the record with a high similarity of the Company Kana name column (that is, the hatched portion where the similarity of the Company Kana name column is close to 1) is You can see that it is getting higher. That is, the magnitude of the neighborhood correlation is larger than the magnitude of the correlation. If such a column pair is focused on a record with a high degree of similarity for a particular column and the degree of similarity is also very high for the other column, it means that there is a record to be identified. It is implied. Therefore, such a column pair can be said to be a column pair useful for name identification. When the company kanji name column and the company kana name column fall under this aspect, there are many cases where the relationship between kanji and reading is many-to-one (same syllables) and one-to-many (words with multiple readings). This includes cases where it is included.

このように近傍相関が大きい場合には、特定のカラムについての類似度が高いレコードに着目すると他方のカラムについても類似度が高く連動性がある、すなわち散布図であれば直線的に並ぶということである。   When the neighborhood correlation is large in this way, focusing on the record with high similarity for a specific column, the other column also has high similarity and linkage, that is, if it is a scatter diagram, it is linearly arranged It is.

図4乃至図7を用いて説明した典型的なケースをまとめると図8のようになる。なお、後に詳細を述べるが、本実施の形態においては、近傍相関の値から相関の値を引いたものを有用度とする。具体的には、図4のような「相関:小且つ近傍相関:小」のケースであれば、カラムペアに冗長性は無いが、カラムペアが名寄せに役立つ可能性は無い。従って、名寄せに対する有用度は0に近いものである。また、図5のような「相関:大且つ近傍相関:大」のケースであれば、カラムペアに冗長性があるだけで、カラムペアが名寄せに役に立つ可能性は無い。従って、名寄せに対する有用度は0に近い。一方、図6のような「相関:小且つ近傍相関:大」のケースであれば、カラムペアに冗長性も無く、カラムペアが名寄せに役に立つ可能性がある。従って、名寄せに対する有用度は正の値となる。さらに、図7のような「相関:大且つ近傍相関:非常に大」のケースであれば、カラムペアに冗長性もあるが、カラムペアが名寄せに役に立つ可能性がある。従って、名寄せに対する有用度は正の値となる。   The typical cases described with reference to FIGS. 4 to 7 are summarized as shown in FIG. As will be described in detail later, in the present embodiment, the value obtained by subtracting the correlation value from the neighborhood correlation value is used. Specifically, in the case of “correlation: small and neighborhood correlation: small” as shown in FIG. 4, the column pair has no redundancy, but the column pair is not likely to be useful for name identification. Therefore, the usefulness for name identification is close to zero. Further, in the case of “correlation: large and neighborhood correlation: large” as shown in FIG. 5, there is no possibility that the column pair is useful for name identification because the column pair has only redundancy. Therefore, the usefulness for name identification is close to zero. On the other hand, in the case of “correlation: small and neighborhood correlation: large” as shown in FIG. 6, there is no redundancy in the column pair, and the column pair may be useful for name identification. Therefore, the usefulness for name identification is a positive value. Further, in the case of “correlation: large and neighborhood correlation: very large” as shown in FIG. 7, the column pair has redundancy, but the column pair may be useful for name identification. Therefore, the usefulness for name identification is a positive value.

従って、まず図8のテーブルにおいて下2行のように、類似度の相関が正で小又は大で、類似度の近傍相関が正で大又は非常に大といった特徴のあるカラムペアを探索することが好ましい。   Therefore, first, as shown in the lower two rows in the table of FIG. 8, a column pair having a characteristic such that the correlation of similarity is positive and small or large and the neighborhood correlation of similarity is positive and large or very large can be searched. preferable.

その後、以下で述べるような指標を導入することで、適切に名寄せに役に立つカラムを抽出することができるようになる。   After that, by introducing the indicators described below, it is possible to appropriately extract columns useful for name identification.

なお、本実施の形態では、データベースにはテーブル状のデータ構造が用意されており、カラムとレコードとして把握されるものを念頭に説明する。   In the present embodiment, a table-like data structure is prepared in the database, and what is grasped as a column and a record will be described in mind.

図9に、本実施の形態における名寄せ支援処理装置の機能ブロック図を示す。本名寄せ支援処理装置100は、(A)名寄せ対象データベース500からデータを読み出すデータ読み込み部110と、(B)第1データ格納部120と、(C)相関計算部130と、(D)近傍相関計算部140と、(E)第2データ格納部150と、(F)カラム処理部160と、(G)出力データ格納部170とを有する。   FIG. 9 shows a functional block diagram of the name identification support processing apparatus according to the present embodiment. The real name identification support processing device 100 includes (A) a data reading unit 110 that reads data from the name identification target database 500, (B) a first data storage unit 120, (C) a correlation calculation unit 130, and (D) a neighborhood correlation. The calculation unit 140 includes (E) a second data storage unit 150, (F) a column processing unit 160, and (G) an output data storage unit 170.

データ読み込み部110は、名寄せ対象データベース500から読み込んだデータを第1データ格納部120に格納するようになっている。また、相関計算部130は、第1データ格納部120に格納されているデータを用いて処理を行い、処理途中のデータ及び処理結果を第2データ格納部150に格納するようになっている。近傍相関計算部140は、第1データ格納部120に格納されているデータを用いて処理を行い、処理途中のデータ及び処理結果を第2データ格納部150に格納するようになっている。カラム処理部160は、第1データ格納部120及び第2データ格納部150に格納されているデータを用いて処理を行い、最終の処理結果を出力データ格納部170に格納するようになっている。また、カラム処理部160も、処理途中のデータについては第2データ格納部150に格納する。また、カラム処理部160は、カラム優先度計算部161とカラム抽出処理部162と出力部163とを有する。   The data reading unit 110 stores the data read from the name identification target database 500 in the first data storage unit 120. In addition, the correlation calculation unit 130 performs processing using data stored in the first data storage unit 120 and stores data being processed and processing results in the second data storage unit 150. The neighborhood correlation calculation unit 140 performs processing using the data stored in the first data storage unit 120, and stores data being processed and the processing result in the second data storage unit 150. The column processing unit 160 performs processing using the data stored in the first data storage unit 120 and the second data storage unit 150, and stores the final processing result in the output data storage unit 170. . The column processing unit 160 also stores data being processed in the second data storage unit 150. The column processing unit 160 includes a column priority calculation unit 161, a column extraction processing unit 162, and an output unit 163.

なお、名寄せ対象データベース500は、例えばネットワークを介して接続されている他のコンピュータに管理されているものとする。なお、当該他のコンピュータが名寄せ支援処理装置であってもよい。   Note that the name identification target database 500 is managed by, for example, another computer connected via a network. The other computer may be a name identification support processing device.

次に、図10乃至図28を用いて、図9に示した名寄せ支援処理装置100の処理内容について説明する。   Next, processing contents of the name identification support processing apparatus 100 shown in FIG. 9 will be described with reference to FIGS. 10 to 28.

まず、データ読み込み部110は、名寄せ対象データベース500から処理対象データを読み込み、第1データ格納部120に格納する(図10:ステップS1)。なお、本実施の形態では、レコードを識別するためのレコードIDが各レコードに付与されており、このレコードIDのカラムとカラム選択の対象となるカラムとが読み出されるものとする。図11に、読み出されたデータの一例を示す。図11の例では、レコードIDのカラムと、会社漢字名のカラムと、会社カナ名のカラムと、住所のカラムと、取引部品名のカラムとが含まれ、全部で11レコードが抽出された例を示している。このほかのカラムが含まれても良いし、レコード数はより多い方が正しい処理が行われる。   First, the data reading unit 110 reads processing target data from the name identification target database 500 and stores it in the first data storage unit 120 (FIG. 10: step S1). In this embodiment, it is assumed that a record ID for identifying a record is assigned to each record, and the column of this record ID and the column to be selected are read out. FIG. 11 shows an example of the read data. In the example of FIG. 11, a record ID column, a company kanji name column, a company kana name column, an address column, and a transaction part name column are included, and a total of 11 records are extracted. Is shown. Other columns may be included, and correct processing is performed with a larger number of records.

次に、相関計算部130は、カラム間の相関算出処理を実施する(ステップS3)。この処理については、図12乃至図16を用いて説明する。   Next, the correlation calculation unit 130 performs a correlation calculation process between columns (step S3). This process will be described with reference to FIGS.

まず、相関計算部130は、未処理のレコードペアを、第1データ格納部120内において1つ特定する(図12:ステップS21)。   First, the correlation calculation unit 130 identifies one unprocessed record pair in the first data storage unit 120 (FIG. 12: step S21).

また、相関計算部130は、未処理のカラムを1つ特定する(ステップS23)。そして、相関計算部130は、特定されたカラムにおけるレコードペア間について類似度を算出し、第2データ格納部150に格納する(ステップS25)。本実施の形態では、類似度は、編集距離に基づく類似度を用いる。例えば、レコードID「10000001」と「10000004」のレコードペアが特定された場合には、会社漢字名カラムにおける△△△株式会社と○○ヤユヨ株式会社とを比較する。そうすると、図13に示すように「株式会社」の4文字以外は全て異なっているので、以下のように類似度は算出される。なお、図13において二重丸は一致を示しており、×は編集(置換、削除、挿入)が必要な部分を示している。   In addition, the correlation calculation unit 130 identifies one unprocessed column (step S23). Then, the correlation calculation unit 130 calculates the similarity between the record pairs in the identified column, and stores it in the second data storage unit 150 (step S25). In the present embodiment, the similarity is based on the similarity based on the edit distance. For example, if a record pair with the record IDs “10000001” and “10000004” is specified, ΔΔΔ Corporation and XX Yayuyo Corporation in the company kanji name column are compared. Then, as shown in FIG. 13, all but the four characters “corporation” are different, so the similarity is calculated as follows. In FIG. 13, double circles indicate coincidence, and x indicates a portion that requires editing (replacement, deletion, insertion).

類似度=1.0−(同一化に必要な文字の編集数/長い方の文字数)
=1.0−5/9=0.4444
Similarity = 1.0− (number of characters required for identification / number of longer characters)
= 1.0-5 / 9 = 0.4444

そして、相関計算部130は、全てのカラムについて処理したか判断する(ステップS27)。未処理のカラムが存在している場合には、ステップS23に戻る。全てのカラムについて処理した場合には、相関計算部130は、全てのレコードペアについて処理したか判断する(ステップS29)。未処理のレコードペアが存在する場合にはステップS21に戻る。一方、全てのレコードペアについて処理した場合には、ステップS31に移行する。   Then, the correlation calculation unit 130 determines whether all columns have been processed (step S27). If an unprocessed column exists, the process returns to step S23. If all columns have been processed, the correlation calculation unit 130 determines whether all record pairs have been processed (step S29). If there is an unprocessed record pair, the process returns to step S21. On the other hand, if all record pairs have been processed, the process proceeds to step S31.

この段階で、図11に示したデータを処理すると、図14に示すような類似度テーブルが得られる。図14の例では、レコードIDペアの列と、会社漢字名の類似度の列と、会社カナ名の類似度の列と、住所の類似度の列と、取引部品名の類似度の列とが設けられており、各レコードペアについて、類似度が登録されている。   At this stage, when the data shown in FIG. 11 is processed, a similarity table as shown in FIG. 14 is obtained. In the example of FIG. 14, a record ID pair column, a company Kanji name similarity column, a company Kana name similarity column, an address similarity column, a transaction part name similarity column, The similarity is registered for each record pair.

そして、相関計算部130は、図14のような類似度テーブルにおいて、未処理のカラムペアを特定する(ステップS31)。図14においては既に「会社漢字名」と「会社カナ名」のカラムペアを選択する場面を一例として示している。   Then, the correlation calculation unit 130 identifies an unprocessed column pair in the similarity table as shown in FIG. 14 (step S31). FIG. 14 shows an example in which a column pair of “company kanji name” and “company kana name” has already been selected.

その後、相関計算部130は、カラムペアの類似度から、類似度についての相関係数を算出し、第2データ格納部150に格納する(ステップS33)。相関係数の算出方法は、従来と同じであるが、以下に示すような算式が用いられる。   After that, the correlation calculation unit 130 calculates a correlation coefficient for the similarity from the similarity of the column pair, and stores it in the second data storage unit 150 (step S33). The calculation method of the correlation coefficient is the same as the conventional method, but the following formula is used.

Figure 0005640796
Figure 0005640796

なお、xiは、カラムXにおけるi番目の類似度を表し、yiは、カラムYにおけるi番目の類似度とを表す。また、xバー(xの上にバーを乗せた記号)はカラムXについての類似度の平均値を表し、yバー(yの上にバーを乗せた記号)はカラムYについての類似度の平均値を表す。 Incidentally, x i represents the i-th similarity in column X, y i denotes the i-th similarity in the column Y. Further, x bar (a symbol with a bar on x) represents an average value of similarity for column X, and y bar (a symbol with a bar on y) represents an average of similarity for column Y. Represents a value.

そして、相関計算部130は、全てのカラムペアについて処理したか判断する(ステップS35)。未処理のカラムペアが存在する場合にはステップS31に戻る。一方、全てのカラムペアについて処理した場合には、元の処理に戻る。   Then, the correlation calculation unit 130 determines whether all the column pairs have been processed (step S35). If there is an unprocessed column pair, the process returns to step S31. On the other hand, if all column pairs have been processed, the process returns to the original process.

ここまで処理を行うと、例えば図15に示すようなデータが、第2データ格納部150に格納される。図15の例では、同一のカラムペアであっても順番が異なれば異なるカラムペアとして値を示しているが、実際は同一の相関係数が得られるので、いずれかを算出すればよい。上で述べた例では、太字で示されている「会社漢字名」と「会社カナ名」のカラムペアについて相関係数が算出されているが、「会社カナ名」と「会社漢字名」のカラムペアについての相関係数も同一の値になる。   When the processing is performed so far, for example, data as illustrated in FIG. 15 is stored in the second data storage unit 150. In the example of FIG. 15, even if the column pair is the same, the values are shown as different column pairs if the order is different. However, since the same correlation coefficient is actually obtained, any one may be calculated. In the above example, the correlation coefficient is calculated for the column pair of “company kanji name” and “company kana name” shown in bold, but the column pair of “company kana name” and “company kanji name” The correlation coefficient for is also the same value.

図10の処理の説明に戻って、次に、近傍相関計算部140は、カラム間の近傍相関算出処理を実施する(ステップS5)。カラム間の近傍相関算出処理については、図16乃至図21を用いて説明する。   Returning to the description of the processing in FIG. 10, next, the neighborhood correlation calculation unit 140 performs neighborhood correlation calculation processing between columns (step S <b> 5). The neighborhood correlation calculation process between columns will be described with reference to FIGS.

まず、近傍相関計算部140は、第1データ格納部120に格納されている処理対象データにおける未処理のカラムを1つ特定する(図16:ステップS41)。また、近傍相関計算部140は、特定されたカラムをベースにレコードをソートし、ソート結果を例えば第2データ格納部150に格納する(ステップS43)。図11に示した処理対象データを会社漢字名カラムをベースに辞書順でソートすると、図17に示すようなデータが得られるものとする。辞書順にソートすると、あるレコードに着目した場合、特定されたカラムにおいて、そのレコードの近傍には、ある程度類似した値を有するレコードが配置されるようになる。このような性質を用いて、特定されたカラムにおいて類似した値を有するレコードを比較的軽い処理で収集しやすくしている。   First, the neighborhood correlation calculation unit 140 identifies one unprocessed column in the processing target data stored in the first data storage unit 120 (FIG. 16: step S41). Further, the neighborhood correlation calculation unit 140 sorts the records based on the identified column, and stores the sorting result in, for example, the second data storage unit 150 (step S43). When the processing target data shown in FIG. 11 is sorted in dictionary order based on the company kanji name column, data as shown in FIG. 17 is obtained. When sorting in the dictionary order, when attention is paid to a certain record, a record having a somewhat similar value is arranged in the vicinity of the record in the specified column. Using such a property, it is easy to collect records having similar values in the specified column by relatively light processing.

但し、図14に示したように、カラム毎に既に各レコードペアについての類似度が計算されている場合には、特定されたカラムにおいて、同じレコードIDをレコードペアの片方のレコードのIDとして有する行について類似度でソートすることによって、正確に類似度が高い行、すなわち特定されたカラムについて特定のレコードに着目した場合に類似度が高い他方のレコードを特定することができる。   However, as shown in FIG. 14, if the similarity for each record pair has already been calculated for each column, the same record ID is used as the ID of one record of the record pair in the specified column. By sorting the rows by similarity, it is possible to specify a row having a high degree of similarity, that is, the other record having a high degree of similarity when focusing on a specific record for the specified column.

次に、近傍相関計算部140は、各レコードについて、ソート結果に基づき近傍レコードを抽出し、当該近傍レコードのデータを第2データ格納部150に格納する(ステップS45)。例えば、特定のレコードの上下3つのレコードを抽出すものとする。例えば、図17の例で、第1のレコードを選択した場合、上レコードは存在しないので、下レコード3つを近傍レコードとして特定する。なお、自レコードは近傍に含めない。また、近傍レコードの抽出方法は、例えば編集距離、すなわち上で述べた類似度を採用してもよいし、bi-gram検索などを採用しても良い。さらに、近傍の抽出範囲については、固定レコード単位でなくともよい。類似度が閾値を超えたレコードのみを抽出するようにしても良い。さらに、全てのレコードを基準とするのではなく、無作為に抽出するようにしても良い。   Next, the neighborhood correlation calculation unit 140 extracts a neighborhood record for each record based on the sorting result, and stores the data of the neighborhood record in the second data storage unit 150 (step S45). For example, assume that three records above and below a specific record are extracted. For example, in the example of FIG. 17, when the first record is selected, there is no upper record, so three lower records are specified as neighboring records. The own record is not included in the vicinity. As a method for extracting neighboring records, for example, the edit distance, that is, the similarity described above may be employed, or bi-gram search or the like may be employed. Further, the extraction range in the vicinity may not be a fixed record unit. Only records whose similarity exceeds a threshold value may be extracted. Furthermore, instead of using all records as a reference, the records may be extracted at random.

例えば、上で最初に述べた基準で近傍レコードを抽出すると、例えば図18に示すようなデータが第2データ格納部150に格納されるようになる。図18の例では、比較元レコードのIDと、比較先近傍レコードのIDとが対応付けて登録されるようになっている。   For example, when the neighborhood record is extracted based on the criteria described above, for example, data as shown in FIG. 18 is stored in the second data storage unit 150. In the example of FIG. 18, the ID of the comparison source record and the ID of the comparison destination neighboring record are registered in association with each other.

そして、近傍相関計算部140は、図18のようなテーブルにおいて、未処理の比較元レコードを1つ特定する(ステップS47)。そして、近傍相関計算部140は、特定された比較元レコードとその各比較先近傍レコードとの間について、各カラムの類似度を算出し、第2データ格納部150に格納する(ステップS49)。例えば、比較元レコードのIDが「10000010」であれば、比較先近傍レコードは「1000001」「10000007」「10000004」「10000009」であるから、これらのレコードとの間について、各カラムで類似度を算出して登録すると、図19に示すようなデータ(始めの4レコード)が得られる。図19の例では、レコードIDペアの行と、会社漢字名の類似度の列と、会社カナ名の類似度の列と、住所の類似度の列と、取引部品名の類似度の列とが設けられており、比較元レコードと比較先近傍レコードとの組み合わせ毎に、各カラムの類似度が登録されるようになっている。なお、類似度は既にステップS3で計算されているので、レコードペアとカラムペアとから既に計算された類似度を読み出して、第2データ格納部150に登録するようにしても良い。   Then, the neighborhood correlation calculation unit 140 identifies one unprocessed comparison source record in the table as shown in FIG. 18 (step S47). Then, the neighborhood correlation calculation unit 140 calculates the similarity of each column between the identified comparison source record and each comparison destination neighborhood record, and stores it in the second data storage unit 150 (step S49). For example, if the ID of the comparison source record is “10000010”, the comparison destination neighboring records are “1000001”, “10000007”, “10000004”, and “10000009”. When calculated and registered, data (first four records) as shown in FIG. 19 is obtained. In the example of FIG. 19, a row of record ID pairs, a column of company Kanji name similarity, a column of similarity of company Kana name, a column of similarity of address, and a column of similarity of transaction part names Is provided, and the similarity of each column is registered for each combination of the comparison source record and the comparison destination neighboring record. Since the similarity has already been calculated in step S3, the similarity already calculated from the record pair and the column pair may be read and registered in the second data storage unit 150.

その後、近傍相関計算部140は、全ての比較元レコードについて処理したか判断する(ステップS51)。未処理の比較元レコードが存在している場合にはステップS47に戻る。全ての比較元レコードを処理した場合には、図19に示すようなデータが揃うことになる。   Thereafter, the neighborhood correlation calculation unit 140 determines whether all comparison source records have been processed (step S51). If there is an unprocessed comparison source record, the process returns to step S47. When all the comparison source records are processed, data as shown in FIG. 19 is prepared.

そして、近傍相関計算部140は、図19のようなデータにおいて未処理のカラムペアを1つ特定する(ステップS53)。その後、近傍相関計算部140は、特定されたカラムペアの類似度から、相関係数を近傍相関係数として算出し、第2データ格納部150に格納する(ステップS55)。相関係数の算出方法については、ステップS33で説明した方法と同様の方法で算出する。そして処理は端子Aを介して図20の処理に移行する。   Then, the neighborhood correlation calculation unit 140 identifies one unprocessed column pair in the data as shown in FIG. 19 (step S53). Thereafter, the neighborhood correlation calculation unit 140 calculates a correlation coefficient as a neighborhood correlation coefficient from the similarity of the identified column pair, and stores it in the second data storage unit 150 (step S55). About the calculation method of a correlation coefficient, it calculates with the method similar to the method demonstrated by step S33. Then, the processing shifts to the processing in FIG.

図20の処理の説明に移行して、近傍相関計算部140は、全てのカラムペアについて処理したか判断する(ステップS57)。未処理のカラムペアが存在する場合には端子Cを介してステップS53に戻る。一方、全てのカラムペアについて処理した場合には、近傍相関計算部140は、図11に示すようなデータにおける全てのカラムについて処理したか判断する(ステップS59)。未処理のカラムが存在する場合にはステップS41に戻る。一方、全てのカラムについて処理した場合には、元の処理に戻る。   Shifting to the description of the processing in FIG. 20, the neighborhood correlation calculation unit 140 determines whether or not all column pairs have been processed (step S57). If there is an unprocessed column pair, the process returns to step S53 via the terminal C. On the other hand, if processing has been performed for all column pairs, the neighborhood correlation calculation unit 140 determines whether processing has been performed for all columns in the data as illustrated in FIG. 11 (step S59). If there is an unprocessed column, the process returns to step S41. On the other hand, if all columns have been processed, the process returns to the original process.

ここまで処理すると例えば図21に示すようなデータが、第2データ格納部150に格納される。図21の例では、各カラムペアについて、近傍相関係数が登録されるようになっている。同一カラム間の近傍相関係数については計算することはないが、「1」であるので図21では示している。また、カラム毎にレコードをソートするので、相関とは異なり、カラムペアにおける比較元カラムが異なれば近傍相関係数の値は異なってくる。なお、ステップS53乃至S57を1回実行すると、図21のようなテーブルにおける1行中の1つの近傍相関係数が算出され、ステップS53乃至S57を全てのカラムペアについて繰り返すと図21のようなテーブルにおける1行分の近傍相関係数が算出される。そして、ステップS41乃至ステップS59を全てのカラムについて繰り返せば、図21のようなテーブルの全ての行の近傍相関係数が算出されるようになる。また、図19に示すようなデータは、ステップS41乃至ステップS51を実施する毎に異なるデータが生成される。   When processing is performed up to this point, for example, data as shown in FIG. 21 is stored in the second data storage unit 150. In the example of FIG. 21, the neighborhood correlation coefficient is registered for each column pair. Although the neighborhood correlation coefficient between the same columns is not calculated, it is “1” and is shown in FIG. In addition, since records are sorted for each column, unlike the correlation, the value of the neighborhood correlation coefficient differs if the comparison source column in the column pair is different. When steps S53 to S57 are executed once, one neighborhood correlation coefficient in one row in the table as shown in FIG. 21 is calculated, and when steps S53 to S57 are repeated for all the column pairs, a table as shown in FIG. The neighborhood correlation coefficient for one row at is calculated. If Steps S41 to S59 are repeated for all the columns, the neighborhood correlation coefficients of all the rows in the table as shown in FIG. 21 are calculated. In addition, as shown in FIG. 19, different data is generated every time Step S41 to Step S51 are performed.

このようにして、近傍相関が算出され、第2データ格納部150に格納される。このように、相関計算部130によって算出され且つ第2データ格納部150に格納されている類似度を用いずに近傍相関算出処理を実施する場合には、ステップS3とステップS5との処理順番については入れ替え可能であり、さらに並列実行可能である。   In this way, the neighborhood correlation is calculated and stored in the second data storage unit 150. As described above, when the neighborhood correlation calculation process is performed without using the similarity calculated by the correlation calculation unit 130 and stored in the second data storage unit 150, the processing order of step S3 and step S5 is as follows. Are interchangeable and can be executed in parallel.

図10の処理の説明に戻って、次に、カラム処理部160のカラム優先度計算部161は、カラムの優先度算出処理を実施する(ステップS7)。このカラムの優先度算出処理については、図22A乃至図23を用いて説明する。   Returning to the description of the processing in FIG. 10, the column priority calculation unit 161 of the column processing unit 160 performs column priority calculation processing (step S7). The column priority calculation processing will be described with reference to FIGS. 22A to 23.

まず、カラム優先度計算部161は、データ数から、各相関係数及び各近傍相関係数について有意水準の限界値を算出し、例えば第2データ格納部150に格納する(ステップS61)。例えば、相関係数の場合には図14のようなデータのレコード数を計数して自由度として特定する。また、近傍相関係数の場合には図19のようなデータのレコード数を計数して自由度として特定する。また、有意水準には5%と1%が良く用いられるが、いずれかの限界値表(r表とも呼ぶ。限界値は危険率とも呼ぶ。)を予め用意しておき、自由度に応じた限界値を特定する。自由度に対応する限界値が登録されていない場合には、自由度が近い値の限界値を補間して算出するようにしても良い。   First, the column priority calculation unit 161 calculates the limit value of the significance level for each correlation coefficient and each neighboring correlation coefficient from the number of data, and stores it in the second data storage unit 150, for example (step S61). For example, in the case of a correlation coefficient, the number of data records as shown in FIG. 14 is counted and specified as the degree of freedom. In the case of the neighborhood correlation coefficient, the number of data records as shown in FIG. 19 is counted and specified as the degree of freedom. In addition, 5% and 1% are often used as the significance level, but one of the limit value tables (also referred to as r table. The limit value is also referred to as the risk factor) is prepared in advance, and according to the degree of freedom. Identify limit values. When the limit value corresponding to the degree of freedom is not registered, the limit value having a value with a close degree of freedom may be calculated by interpolation.

第2データ格納部150に格納されている、ステップS5及びS7の処理結果及び限界値をまとめると、図22Bに示すようになる。図22Bの例では、各カラムについて、対応するカラムの相関係数及び近傍相関係数の値が登録されており、さらに、相関係数及び近傍相関係数のデータ数及び当該データ数に対応する5%有意水準の限界値も登録されている。   The processing results and limit values of steps S5 and S7 stored in the second data storage unit 150 are summarized as shown in FIG. 22B. In the example of FIG. 22B, for each column, the values of the correlation coefficient and the neighborhood correlation coefficient of the corresponding column are registered, and further, the number of data of the correlation coefficient and the neighborhood correlation coefficient and the number of the data correspond A limit value of 5% significance level is also registered.

次に、カラム優先度計算部161は、相関係数が正であって、対応する有意水準の限界値を超えるカラムペアを、全てのカラムペアから抽出し、例えば第2データ格納部150に格納する(ステップS63)。   Next, the column priority calculation unit 161 extracts column pairs having a positive correlation coefficient and exceeding the limit value of the corresponding significance level from all the column pairs, and stores the column pairs in, for example, the second data storage unit 150 ( Step S63).

図22Bの例では、「会社漢字名」と「会社カナ名」のカラムペアが該当する。具体的には、このカラムペアの相関係数「0.8902」と、対応する5%有意水準の限界値「0.2649」とを比較して判断している。なお、ステップS63を実行することによって、冗長性のあるカラムペアが特定されたことになる。このようなカラムペアは、後に以下で抽出するカラムペアとの関係で用いられる。   In the example of FIG. 22B, a column pair of “company kanji name” and “company kana name” corresponds. Specifically, the correlation coefficient “0.8902” of the column pair is compared with the corresponding limit value “0.2649” of the 5% significance level. By executing step S63, a redundant column pair is specified. Such a column pair is used in relation to a column pair to be extracted later.

また、カラム優先度計算部161は、相関係数及び近傍相関係数が正であって、近傍相関係数が対応する有意水準の限界値を超えているカラムペアを、全てのカラムペアから抽出し、例えば第2データ格納部150に格納する(ステップS65)。   Further, the column priority calculation unit 161 extracts, from all column pairs, column pairs in which the correlation coefficient and the neighborhood correlation coefficient are positive and the neighborhood correlation coefficient exceeds the corresponding limit value of the significance level, For example, it is stored in the second data storage unit 150 (step S65).

図22Bの例では、ハッチングが付加されている部分、すなわち「会社漢字名」と「会社カナ名」のカラムペアと、「会社カナ名」と「会社漢字名」のカラムペアと、「会社カナ名」と「住所」のカラムペアと、「住所」と「会社カナ名」のカラムペアとが抽出される。相関のみが検討対象であれば比較元と比較先の区別はないが、近傍相関の場合には比較元と比較先とを区別する。これによって名寄せに役立つ可能性のあるカラムペアが特定される。しかしながら、ステップS65で得られたカラムペアには、上でも述べたように冗長性を有するカラムペアも含まれている可能性がある。   In the example of FIG. 22B, hatched portions, that is, a column pair of “company kanji name” and “company kana name”, a column pair of “company kana name” and “company kanji name”, and “company kana name” And a column pair of “address” and a column pair of “address” and “company name” are extracted. There is no distinction between the comparison source and the comparison destination if only the correlation is considered, but in the case of the neighborhood correlation, the comparison source and the comparison destination are distinguished. This identifies column pairs that may be useful for name identification. However, the column pair obtained in step S65 may include a column pair having redundancy as described above.

そこで、カラム優先度算出部161は、ステップS63で得られたカラムペアとステップS65で得られたカラムペアから、名寄せに役に立つカラムを特定する(ステップS67)。例えば、ステップS63及びS65で得られたカラムペアに含まれるカラムの和集合で特定される。上で述べた例では、「会社漢字名」と「会社カナ名」と「住所」とが特定される。   Therefore, the column priority calculation unit 161 identifies a column useful for name identification from the column pair obtained in step S63 and the column pair obtained in step S65 (step S67). For example, it is specified by the union of columns included in the column pair obtained in steps S63 and S65. In the example described above, “company kanji name”, “company kana name”, and “address” are specified.

なお、上で述べた例ではステップS63及びS65で特定されるカラムの数が少ないのでこのような処理が可能である。一方、ステップS63及びS65で特定されたカラムの数が多い場合には、例えばデータベースの各カラムについて、ステップS63及びS65に含まれるカラムペアのいずれかに含まれているか否かを判断する。そして、含まれている場合には名寄せに役に立つ可能性のあるカラムと判定し、含まれていない場合には名寄せに役に立たないカラムと判定するようにしてもよい。   In the example described above, such a process is possible because the number of columns specified in steps S63 and S65 is small. On the other hand, when the number of columns specified in steps S63 and S65 is large, for example, it is determined whether or not each column of the database is included in any of the column pairs included in steps S63 and S65. If it is included, it may be determined that the column may be useful for name identification. If it is not included, it may be determined that the column is not useful for name identification.

そして、カラム優先度算出部161は、特定されたカラムの各々について、有用度及び優先度を計算し、第2データ格納部150に格納する(ステップS69)。処理はこの後元の処理に戻る。   Then, the column priority calculation unit 161 calculates the usefulness and the priority for each of the identified columns, and stores it in the second data storage unit 150 (step S69). The process then returns to the original process.

本実施の形態では、ステップS67で特定されたカラムの各組み合わせについて、以下の計算を行う。例えば、比較元カラムCiと比較先カラムCjとについて考える。
有用度Δ(Ci,Cj)=近傍相関(Ci,Ci)−相関(Ci,Cj
In the present embodiment, the following calculation is performed for each combination of columns specified in step S67. For example, consider the comparison source column C i and the comparison destination column C j .
Usefulness Δ (C i , C j ) = neighbor correlation (C i , C i ) −correlation (C i , C j )

カラムペアの近傍相関係数の中には、冗長性が含まれている可能性があるので、カラムペアの有用度により、相関に現れる冗長性の部分を除いた正味の役立ち度合いを求めるものである。   Since there is a possibility that the neighborhood correlation coefficient of the column pair includes redundancy, the usefulness of the column pair is used to obtain the net usefulness excluding the redundancy portion that appears in the correlation.

さらに、各カラムCiの優先度を以下のように算出する。
iの優先度=maxj{Δ(Ci,Cj),Δ(Cj,Ci)}
Further, the priority of each column C i is calculated as follows.
C i priority = max j {Δ (C i , C j ), Δ (C j , C i )}

この意味は、自カラムからみた有用度及び他のカラムから自カラムをみた有用度の最大値を求めるということである。具体的には、上で述べた例からすると、「会社漢字名」を自カラムとすると、他のカラム「会社カナ名」「住所」との有用度と、「会社カナ名」から「会社漢字名」に対する有用度と、「住所」から「会社漢字名」に対する有用度とを比較することになる。   This means that the maximum value of the usefulness seen from the own column and the usefulness seen from the other column is obtained from the other columns. Specifically, from the example described above, if “Company Kanji Name” is the own column, the usefulness of other columns “Company Kana Name” and “Address” and “Company Kanji Name” to “Company Kanji Name” The usefulness for “name” is compared with the usefulness for “company kanji name” from “address”.

図23に有用度及び優先度の計算結果を表す。図23の例では、各カラムについて、相関係数、近傍相関係数及び有用度を対応する他のカラム毎に列挙すると共に優先度も示すようになっている。上で述べたように「会社漢字名」を自カラムとすると、比較すべき有用度はハッチングが付されている部分の数値となるため、矢印で示すように優先度「0.0811」が選択される。同様にして、各カラムの優先度の根拠を矢印で示している。   FIG. 23 shows the calculation results of the usefulness and the priority. In the example of FIG. 23, for each column, the correlation coefficient, the neighborhood correlation coefficient, and the usefulness are listed for each other corresponding column and the priority is also shown. As described above, if “Company Kanji Name” is the own column, the usefulness to be compared is the numerical value of the hatched part, so the priority “0.0811” is selected as shown by the arrow Is done. Similarly, the basis for the priority of each column is indicated by an arrow.

なお、優先度の算出方法は、他の方法であってもよい。例えば上で述べた有用度の総和、平均値などであってもよい。   The priority calculation method may be another method. For example, the sum of usefulness described above, an average value, or the like may be used.

以上述べたように、相関に加えて近傍相関を用いて、名寄せの役に立つ可能性の度合いを表す有用度と、比較時に優先すべき度合いを表す優先度とが決定される。   As described above, using the neighborhood correlation in addition to the correlation, the usefulness indicating the degree of possibility of being useful for name identification and the priority indicating the degree to be prioritized at the time of comparison are determined.

図10の処理の説明に戻って、カラム処理部160のカラム抽出処理部162は、冗長カラム群の一元化処理を実施する(ステップS9)。この処理については図24乃至図28を用いて説明する。   Returning to the description of the processing in FIG. 10, the column extraction processing unit 162 of the column processing unit 160 performs the unification processing of the redundant column group (step S <b> 9). This process will be described with reference to FIGS.

カラム抽出処理部162は、有用性のあるカラム(ステップS67で特定されたカラム)のうち、相関が有意であるカラムペア(ステップS63で抽出されたカラム)と共通するカラムとを、冗長カラムグループに分類し、分類結果を第2データ格納部150に格納する(図24:ステップS71)。図25に模式的に示すように、「会社漢字名」「会社カナ名」「住所」が有用性のあるカラムとしてステップS67で抽出されており、ステップS63では「会社漢字名」と「会社カナ名」のカラムペアが抽出されているので、冗長カラムグループは、共通する「会社漢字名」及び「会社カナ名」を冗長カラムグループとして分類する。上で述べた例ではカラムペアが1つしか抽出されていないので、冗長カラムグループも1つしか生成されない。一方、冗長でないカラムは「住所」カラムである。   The column extraction processing unit 162 converts, among the useful columns (the column identified in step S67), the common column pair (the column extracted in step S63) having a significant correlation to the redundant column group. Classification is performed, and the classification result is stored in the second data storage unit 150 (FIG. 24: step S71). As schematically shown in FIG. 25, “company kanji name”, “company kana name”, and “address” are extracted as useful columns in step S67. In step S63, “company kanji name” and “company kana name” are extracted. Since the “name” column pair is extracted, the redundant column group classifies the common “company kanji name” and “company kana name” as the redundant column group. In the example described above, since only one column pair is extracted, only one redundant column group is generated. On the other hand, the non-redundant column is an “address” column.

次に、カラム抽出処理部162は、有用性のあるカラムのうち、冗長カラムグループに属さないカラムを非冗長カラムグループに登録して、非冗長カラムグループについてのデータを第2データ格納部150に格納する(ステップS73)。さらに、カラム抽出処理部162は、各冗長カラムグループの中で優先度が最大のカラムを代表カラムとして選択して、選択結果を第2データ格納部150に格納する(ステップS75)。図26に模式的に示すように、「会社漢字名」及び「会社カナ名」のうち、優先度が高い「会社カナ名」が代表カラムとして選択される。   Next, the column extraction processing unit 162 registers columns that do not belong to the redundant column group among the useful columns to the non-redundant column group, and stores the data about the non-redundant column group in the second data storage unit 150. Store (step S73). Further, the column extraction processing unit 162 selects the column with the highest priority among the redundant column groups as the representative column, and stores the selection result in the second data storage unit 150 (step S75). As schematically shown in FIG. 26, “company name” having high priority is selected as the representative column from “company name” and “company name”.

そして、カラム抽出処理部162は、代表カラムと非冗長カラムとのうち、閾値以上の優先度を有するカラムを抽出し、最終的なカラム選択結果として当該カラムのデータを第2データ格納部150に格納する(ステップS77)。閾値は、例えば近傍相関についての有意水準の限界値/2を採用する。図27に模式的に示すように、冗長カラムグループの代表カラムも非冗長カラムグループのカラムも、優先度閾値より大きいので、「会社カナ名」及び「住所」が両方とも選択される。そして元の処理に戻る。   Then, the column extraction processing unit 162 extracts a column having a priority level equal to or higher than the threshold from the representative column and the non-redundant column, and stores the data of the column in the second data storage unit 150 as a final column selection result. Store (step S77). As the threshold value, for example, the limit value / 2 of the significance level for the neighborhood correlation is adopted. As schematically shown in FIG. 27, since both the representative column of the redundant column group and the column of the non-redundant column group are larger than the priority threshold value, both “company name” and “address” are selected. Then, the process returns to the original process.

図10の処理の説明に戻って、出力部163は、第2データ格納部150に格納されているデータを読み出して、出力データ格納部170に格納する又は出力装置(表示装置や印刷装置など)などに出力する(ステップS11)。例えば、図28に示すようなデータを出力する。図28の例では、カラム毎に、優先度及び冗長グループについてのデータとを含む。冗長グループについては、当該冗長グループに属する他のカラムの名称と、相関係数(=冗長度)及び優先度が含まれている。   Returning to the description of the processing in FIG. 10, the output unit 163 reads the data stored in the second data storage unit 150 and stores the data in the output data storage unit 170 or an output device (display device, printing device, or the like). (Step S11). For example, data as shown in FIG. 28 is output. In the example of FIG. 28, each column includes data on priority and redundancy groups. The redundancy group includes the names of other columns belonging to the redundancy group, the correlation coefficient (= redundancy), and the priority.

このようなデータを参照すれば、ユーザはどのカラムを名寄せに用いるべきか分かるようになる。このように選択されたカラムを用いれば、名寄せの精度を高めることができ、処理速度も速くなることが期待される。なお、ユーザに出力しないでそのまま名寄せ処理を行うコンピュータやプロセスに出力するようにしても良い。   By referring to such data, the user can know which column should be used for name identification. If the column thus selected is used, it is expected that the accuracy of name identification can be improved and the processing speed can be increased. In addition, you may make it output to the computer and process which perform a name identification process as it is, without outputting to a user.

[実施の形態2]
次に、レコードの何れかのカラムにデータ欠損が存在している場合の実施の形態について説明する。本実施の形態では、第1の実施の形態の構成を利用する。本実施の形態では、図9において名寄せ支援処理装置に含まれる機能を一部以下で述べるように変更したカラム選択部600として含み、図29に示すような名寄せ支援処理装置700を用いる。
[Embodiment 2]
Next, an embodiment in the case where data loss exists in any column of the record will be described. In the present embodiment, the configuration of the first embodiment is used. In the present embodiment, a part of the functions included in the name identification support processing apparatus in FIG. 9 is included as a column selection unit 600 modified as described below, and a name identification support processing apparatus 700 as shown in FIG. 29 is used.

名寄せ支援処理装置700は、カラム選択部600と、前処理部710と、推定部720と、第3データ格納部730とを有する。カラム選択部600は、図9に示したように、第1データ格納部120と、第2データ格納部150と、出力データ格納部170とを有する。   The name identification support processing device 700 includes a column selection unit 600, a preprocessing unit 710, an estimation unit 720, and a third data storage unit 730. As illustrated in FIG. 9, the column selection unit 600 includes a first data storage unit 120, a second data storage unit 150, and an output data storage unit 170.

前処理部710は、第1データ格納部120に格納されている名寄せ対象データベース500に格納されているデータに対して以下で説明する前処理を実施して処理結果を第3データ格納部730に格納する。推定部720は、第1データ格納部120と第2データ格納部150と出力データ格納部170と第3データ格納部730とに格納されているデータを用いて処理を行い、第2データ格納部150に処理結果を格納する。なお、推定部720は、処理途中のデータを第3データ格納部730に格納する。   The pre-processing unit 710 performs pre-processing described below on the data stored in the name identification target database 500 stored in the first data storage unit 120 and sends the processing result to the third data storage unit 730. Store. The estimation unit 720 performs processing using the data stored in the first data storage unit 120, the second data storage unit 150, the output data storage unit 170, and the third data storage unit 730, and performs the second data storage unit The processing result is stored in 150. Note that the estimation unit 720 stores data being processed in the third data storage unit 730.

次に、図30乃至図45を用いて本実施の形態における処理を説明する。   Next, processing in the present embodiment will be described with reference to FIGS. 30 to 45.

最初に、カラム選択部600は、第1カラム選択処理を実施する(図30:ステップS101)。第1カラム選択処理は、第1の実施の形態で説明した処理を一部変更した処理である。第1データ格納部120には、例えば図31Aにおいて「N/A」と示すようにデータ欠損が含まれるレコード群を格納されているので、一部異なる処理を行うことになる。よって、あるカラムについてあるレコードペアの類似度を算出する際に、一方又は両方のデータが存在していないという場合が生ずる。この場合には、類似度が算出されないことになる。すなわち、図14に示すような類似度のデータにおいても類似度が算出されない欄が発生する。そうすると、その欄に係るカラムと他のカラムとの組み合わせについての相関係数算出には、その欄に係るレコードペアは考慮されなくなる。   First, the column selection unit 600 performs a first column selection process (FIG. 30: Step S101). The first column selection process is a process in which the process described in the first embodiment is partially changed. In the first data storage unit 120, for example, a record group including data loss is stored as indicated by “N / A” in FIG. Therefore, when calculating the similarity of a certain record pair for a certain column, there is a case where one or both of the data does not exist. In this case, the similarity is not calculated. That is, even in the similarity data as shown in FIG. 14, a column in which the similarity is not calculated occurs. Then, the record pair related to the column is not taken into account in calculating the correlation coefficient for the combination of the column related to the column and another column.

同様に、図19に示すような類似度のデータにおいても類似度が算出されない欄が発生する。但し、図19の場合には、特定のカラム(図19の場合には「会社漢字名」)について類似するレコードとのレコードペアについて類似度を算出するので、特定のカラムについては類似度の欠損は存在しないが、他のカラムについては類似度が算出できないため、類似度が算出されない欄が発生する。そうすると、その欄に係るカラムとの組み合わせについての近傍相関係数算出には、その欄に係るレコードペアは考慮されなくなる。   Similarly, in the similarity data as shown in FIG. 19, a column in which the similarity is not calculated occurs. However, in the case of FIG. 19, the similarity is calculated for a record pair with a similar record for a specific column (in the case of FIG. 19, “company kanji name”). Does not exist, but since the similarity cannot be calculated for other columns, a column in which the similarity is not calculated occurs. Then, the record pair according to the column is not taken into consideration in calculating the neighborhood correlation coefficient for the combination with the column according to the column.

このように有効なレコードペアの数が減少するので、相関係数及び近傍相関係数についてはそのままの値を用いることができない。本実施の形態では、有意水準については、有効なレコードペアの数に応じて設定する。従って、有効なレコードペアの数を図14及び図19のデータにおいて計数する。一方、相関係数又は近傍相関係数に対しては重みdを乗じた値を用いる。重みdは、本願発明者の実験等によれば、レコード単位の非欠損率を用いることが好ましい。図31Aの例で、企業漢字名カラムと企業カナ名カラムとのカラムペアを検討する場合には、図31Bに模式的に示すように、1レコードで何れか一方又は両方のデータが欠損している場合には、そのレコードを除外して、両方ともデータが登録されているレコードの割合を算出し、重みdとして用いる。具体的には、2つのカラムについて両方共にデータが登録されているレコード数を全レコード数で除することによって重みdを算出する。図31Bの場合には、8レコード中3レコードが除外されるので、0.625がdに設定される。よって、相関係数及び近傍相関係数の有意性判定においては、有意水準<相関係数又は近傍相関係数×dが成立するかを判断する。   Since the number of effective record pairs decreases in this way, the values as they are cannot be used for the correlation coefficient and the neighborhood correlation coefficient. In this embodiment, the significance level is set according to the number of valid record pairs. Therefore, the number of valid record pairs is counted in the data of FIGS. On the other hand, a value obtained by multiplying the correlation coefficient or the neighborhood correlation coefficient by the weight d is used. As the weight d, it is preferable to use a non-missing rate in units of records according to the experiment of the present inventors. In the example of FIG. 31A, when considering a column pair of a company kanji name column and a company kana name column, as shown schematically in FIG. 31B, one or both data are missing in one record. In this case, the record is excluded, and the ratio of records in which both data are registered is calculated and used as the weight d. Specifically, the weight d is calculated by dividing the number of records in which data is registered in both columns by the total number of records. In the case of FIG. 31B, since 3 records out of 8 records are excluded, 0.625 is set to d. Therefore, in the significance determination of the correlation coefficient and the neighborhood correlation coefficient, it is determined whether the significance level <the correlation coefficient or the neighborhood correlation coefficient × d.

なお、重みdを算出する処理については、カラム選択部600の処理の途中で行っても良いし、前処理部710が、カラム選択部600が第1データ格納部120に名寄せ対象データベース500からデータを読み込んだ後にカラムペア毎に一括して算出して、カラム選択部600の第1データ格納部120等(第2データ格納部150など)に出力するようにしても良い。   Note that the process of calculating the weight d may be performed in the middle of the process of the column selection unit 600, or the preprocessing unit 710 causes the column selection unit 600 to transfer data from the name identification target database 500 to the first data storage unit 120. May be collectively calculated for each column pair and output to the first data storage unit 120 or the like (second data storage unit 150 or the like) of the column selection unit 600.

さらに、図14のような類似度を算出する際には、各カラムについて、類似度の平均値及び分散値なども算出して、第2データ格納部150等に格納しておく。   Furthermore, when calculating the similarity as shown in FIG. 14, the average value and the variance of the similarity are calculated for each column and stored in the second data storage unit 150 or the like.

次に、前処理部710は、前処理を実施し、処理結果を第3データ格納部730に格納する(ステップS103)。前処理は、本実施の形態において用いるデータを生成する処理であり、各カラムの出現頻度表を生成する処理を含む。出現頻度表は、例えば図32のような表である。図32は企業カナ名についての出現頻度表であり、企業カナ名のカラムに各データ値が何回出現したかをカウントした結果が登録される。   Next, the preprocessing unit 710 performs preprocessing and stores the processing result in the third data storage unit 730 (step S103). The preprocessing is processing for generating data used in the present embodiment, and includes processing for generating an appearance frequency table for each column. The appearance frequency table is a table as shown in FIG. 32, for example. FIG. 32 is an appearance frequency table for the company name, and the result of counting how many times each data value appears in the company name column is registered.

その後、推定部720は、欠損値推定処理を実施する(ステップS105)。欠損値推定処理については、図33乃至図43を用いて説明する。   Thereafter, the estimation unit 720 performs a missing value estimation process (step S105). The missing value estimation process will be described with reference to FIGS.

まず、推定部720は、推定可能カラム決定処理を実施する(図33:ステップS111)。この推定可能カラム決定処理については、図34乃至図36を用いて説明する。   First, the estimation unit 720 performs an estimable column determination process (FIG. 33: step S111). This estimable column determination process will be described with reference to FIGS.

まず、推定部720は、非選択カラム(第1カラム選択処理において選択され且つ出力データ格納部170に格納されているカラム以外のカラム)のうち未処理のカラムC1を1つ特定する(図34:ステップS131)。そして、推定部720は、第1データ格納部120に格納されている名寄せ対象データにおいて、特定されたカラムC1に欠損値が存在するか判断する(ステップS133)。特定されたカラムC1に欠損値が存在しない場合には、推定することはないので、端子Jを介して図36のステップS145に移行する。一方、特定されたカラムC1に欠損値が存在する場合には、推定部720は、選択カラム(第1カラム選択処理において選択され且つ出力データ格納部170に格納されているカラム)のうち未処理のカラムC2を1つ特定する(ステップS135)。そして、推定部720は、第2データ格納部150に格納されている、カラムC1とカラムC2の相関係数は閾値以上であるか判断する(ステップS137)。本ステップにおける閾値には、例えば統計的有意水準を用いる。両カラム共に類似度が算出されたレコードペアの数で統計的有意水準を特定する。本ステップS137では、第1カラム選択処理において計算された相関係数をそのまま用いる。これは、本処理は、欠損値が多いために、正しく評価されなかったカラムを救済するために行うためである。   First, the estimation unit 720 specifies one unprocessed column C1 among non-selected columns (columns other than the column selected in the first column selection process and stored in the output data storage unit 170) (FIG. 34). : Step S131). Then, the estimation unit 720 determines whether or not a missing value exists in the identified column C1 in the name identification target data stored in the first data storage unit 120 (step S133). If there is no missing value in the identified column C1, no estimation is made, and the process proceeds to step S145 in FIG. On the other hand, when there is a missing value in the specified column C1, the estimation unit 720 performs unprocessed processing among the selected columns (the columns selected in the first column selection process and stored in the output data storage unit 170). One column C2 is identified (step S135). Then, the estimation unit 720 determines whether the correlation coefficient between the column C1 and the column C2 stored in the second data storage unit 150 is equal to or greater than a threshold value (step S137). For example, a statistical significance level is used as the threshold value in this step. The statistical significance level is specified by the number of record pairs whose similarity is calculated in both columns. In step S137, the correlation coefficient calculated in the first column selection process is used as it is. This is because this processing is performed to relieve a column that has not been evaluated correctly due to many missing values.

カラムC1とカラムC2の相関係数が閾値未満であれば端子Hを介して図36のステップS143に移行する。一方、カラムC1とカラムC2の相関係数が閾値以上であれば、推定部720は、カラムC1及びC2のデータ値が共に欠損値となっていないレコードが所定数以上(又は所定割合以上)であるか判断する(ステップS139)。重みdを算出する際に得られたレコード数を用いるか、重みdそのもので判断する。本ステップは、統計的な信頼性を保持するためである。カラムC1及びC2のデータ値が共に欠損値となっていないレコードが所定数未満であれば、端子Hを介して図36のステップS143に移行する。   If the correlation coefficient between the columns C1 and C2 is less than the threshold value, the process proceeds to step S143 in FIG. On the other hand, if the correlation coefficient between the column C1 and the column C2 is equal to or greater than the threshold, the estimation unit 720 has a predetermined number or more (or a predetermined ratio or more) of records in which the data values of the columns C1 and C2 are not missing values. It is determined whether or not there is (step S139). Whether to use the number of records obtained when calculating the weight d or the weight d itself is used. This step is for maintaining statistical reliability. If there are less than a predetermined number of records whose data values in columns C1 and C2 are not missing values, the process proceeds to step S143 in FIG.

一方、カラムC1及びC2のデータ値が共に欠損値となっていないレコードが所定数以上であれば、推定部720は、第3データ格納部730における推定可能カラムペアリストに、カラムC1及びC2を登録する(ステップS141)。そして、端子Hを介して図36のステップS143に移行する。   On the other hand, if the number of records in which the data values of the columns C1 and C2 are not missing values is equal to or greater than a predetermined number, the estimation unit 720 adds the columns C1 and C2 to the estimable column pair list in the third data storage unit 730. Registration is performed (step S141). Then, the process proceeds to step S143 in FIG.

例えば図35Aに示すように第1カラム選択処理の処理結果であるカラムC2が特定されており、図35Bに示すように残余の非選択カラムC1が特定されているものとする。ここで、図35Bに示すようにデータ値の欠損が存在しているか否かを判断すると、ステップS135以降では図35Cに示すような非選択カラムC1が処理されることになる。そして、選択カラムC2とデータの欠損がある非選択カラムC1との相関係数と、その有意水準とを図35Dに示すように比較すると、「企業漢字名」カラムと「企業カナ名」カラムとのカラムペアと、「郵便番号」カラムと「住所」カラムとのカラムペアとが、相関係数が有意水準以上となるカラムペアとして特定される。そうすると、それらのカラムペアが、図35Eに示すように、推定可能カラムペアリストに登録される。   For example, it is assumed that the column C2 that is the processing result of the first column selection process is specified as shown in FIG. 35A, and the remaining non-selected column C1 is specified as shown in FIG. 35B. Here, when it is determined whether or not there is a missing data value as shown in FIG. 35B, the non-selected column C1 as shown in FIG. 35C is processed after step S135. Then, when the correlation coefficient between the selected column C2 and the non-selected column C1 with missing data is compared with its significance level as shown in FIG. 35D, the “company kanji name” column and the “company kana name” column are And the column pair of the “zip code” column and the “address” column are identified as column pairs having a correlation coefficient equal to or higher than the significance level. Then, those column pairs are registered in the estimable column pair list as shown in FIG. 35E.

図36の処理の説明に端子Hを介して移行して、推定部720は、選択カラムについて未処理のカラムが存在しているか判断する(図36:ステップS143)。選択カラムにおいて未処理のカラムが存在する場合には、端子Iを介して図34のステップS135に戻る。一方、選択カラムにおいて未処理のカラムが存在しない場合には、非選択カラムについて未処理のカラムが存在するか判断する(ステップS145)。非選択カラムについて未処理のカラムが存在する場合には、端子Kを介して図34のステップS131に戻る。一方、非選択カラムについて未処理のカラムが存在しない場合には、呼び出し元の処理に戻る。   36, the estimation unit 720 determines whether there is an unprocessed column for the selected column (FIG. 36: step S143). If there is an unprocessed column in the selected column, the process returns to step S135 in FIG. On the other hand, if there is no unprocessed column in the selected column, it is determined whether there is an unprocessed column for the unselected column (step S145). If there is an unprocessed column for the non-selected column, the process returns to step S131 in FIG. On the other hand, if there is no unprocessed column for the non-selected column, the process returns to the caller process.

このようにすれば、図35Eに示すように推定可能カラムペアリストの非選択カラムの列において推定可能な非選択カラムが特定される。推定可能カラムペアリストの選択カラムの列に登録された選択カラムについては、類似度を推定する際の根拠として用いられる。   In this way, as shown in FIG. 35E, a non-selectable column that can be estimated in the column of the non-selected column of the estimable column pair list is specified. The selected column registered in the selected column column of the estimable column pair list is used as a basis for estimating the similarity.

図33の処理の説明に戻って、推定部720は、第2データ格納部150に格納されているデータ(例えば図14に示す各レコードペアについての類似度のデータ)から、推定可能なカラムの回帰分析を実施して回帰係数を算出し、第3データ格納部730に格納する(ステップS113)。以下で述べるように名寄せの可能性が低いカラムペアについては回帰分析の結果を用いて類似度を推定するためである。なお、推定可能なカラムのカラムペアとして推定可能カラムペアリストに登録されている選択カラムとの間の回帰計算を実施する。推定可能カラムペアリストに登録されている選択カラムが複数存在している場合には、重回帰分析を実施して、その回帰係数を第3データ格納部730に格納しておく。なお、他のカラムをさらに用いて回帰分析を実施するようにしても良い。   Returning to the description of the processing in FIG. 33, the estimation unit 720 determines the column of the column that can be estimated from the data stored in the second data storage unit 150 (for example, the data of the similarity for each record pair shown in FIG. 14). Regression analysis is performed to calculate a regression coefficient, which is stored in the third data storage unit 730 (step S113). This is because, as described below, for column pairs with a low possibility of name identification, the similarity is estimated using the results of regression analysis. Note that a regression calculation is performed with a selected column registered in the estimable column pair list as a column pair of estimable columns. When there are a plurality of selected columns registered in the estimable column pair list, multiple regression analysis is performed and the regression coefficients are stored in the third data storage unit 730. Note that the regression analysis may be performed using another column.

そして、推定部720は、第1データ格納部120において、未処理のレコードペアを1つ特定する(ステップS115)。その後、推定部720は、名寄せ可能性推定処理を実施する(ステップS117)。この名寄せ可能性推定処理については、図37を用いて説明する。   Then, the estimation unit 720 specifies one unprocessed record pair in the first data storage unit 120 (step S115). Thereafter, the estimation unit 720 performs a name identification possibility estimation process (step S117). This name identification possibility estimation process will be described with reference to FIG.

まず、推定部720は、特定されたレコードペアにおける選択カラムのデータの類似度が閾値(例えば0.8や0.9など)を超えるか判断する(図37:ステップS151)。ここで用いられる選択カラムは、推定可能カラムペアリストの選択カラムに登録されているカラムである。第1の実施の形態でも述べたように、名寄せに役立つカラムの類似度が名寄せ可能性の度合いを反映するためである。推定可能カラムペアリストの選択カラムが複数含まれている場合には、類似度の和が閾値を超えているかを判断したり、類似度の最小値が閾値を超えているか判断する。   First, the estimation unit 720 determines whether the similarity of the data in the selected column in the identified record pair exceeds a threshold (for example, 0.8 or 0.9) (FIG. 37: step S151). The selection column used here is a column registered in the selection column of the estimable column pair list. This is because, as described in the first embodiment, the similarity of columns useful for name identification reflects the degree of possibility of name identification. When a plurality of selectable columns in the estimable column pair list are included, it is determined whether the sum of similarities exceeds a threshold or whether the minimum value of similarities exceeds the threshold.

特定されたレコードペアにおける選択カラムのデータの類似度が閾値を超えた場合には、推定部720は、特定されたレコードペアを、第3データ格納部730における高名寄せ可能性リストに登録する(ステップS153)。その後呼び出し元の処理に戻る。一方、特定されたレコードペアにおける選択カラムのデータの類似度が閾値以下であれば、呼び出し元の処理に戻る。   When the similarity of the data in the selected column in the identified record pair exceeds the threshold, the estimation unit 720 registers the identified record pair in the high name identification list in the third data storage unit 730 ( Step S153). Thereafter, the process returns to the calling process. On the other hand, if the similarity of the data in the selected column in the identified record pair is less than or equal to the threshold value, the process returns to the caller process.

例えば図38Aに模式的に示すように、ID「100001」「100009」のレコードペアについて、選択カラムC2「企業漢字名」の類似度が「1.0」であり、閾値0.9を超えている場合には、推定可能な非選択カラムである「企業カナ名」についても、類似度が高いものと推定される。すなわち、これらのレコードペアの名寄せの可能性は高いと推定され、このようなレコードペアの場合には高名寄せ可能性リストに登録する。   For example, as schematically shown in FIG. 38A, for the record pair with IDs “100001” and “100009”, the similarity of the selection column C2 “enterprise kanji name” is “1.0”, which exceeds the threshold value 0.9. If it is, the “established company name” which is a non-selectable column that can be estimated is also estimated to have a high degree of similarity. That is, it is presumed that the possibility of name identification of these record pairs is high, and such record pairs are registered in the high name identification possibility list.

一方、図38Bに模式的に示すように、ID「100014」「100017」のレコードペアについて、選択カラムC2「企業漢字名」の類似度が「0.36」であり、閾値0.9以下である場合には、推定可能な非選択カラムである「企業カナ名」についても、類似度が低いものと推定される。すなわち、これらのレコードペアの名寄せの可能性は低いと推定され、このようなレコードペアの場合には高名寄せ可能性リストには登録されない。   On the other hand, as schematically shown in FIG. 38B, for the record pair with IDs “100014” and “100017”, the similarity of the selection column C2 “enterprise kanji name” is “0.36” and the threshold is 0.9 or less. In some cases, it is estimated that “established company name” which is a non-selectable column that can be estimated is also low in similarity. That is, the possibility of name identification of these record pairs is estimated to be low, and such record pairs are not registered in the high name identification possibility list.

図33の処理の説明に戻って、推定部720は、未処理の推定可能な非選択カラムを1つ特定する(ステップS119)。そして、推定部720は、特定された推定可能な非選択カラムにおいて、特定されたレコードペアの一方のみ欠損しているか判断する(ステップS121)。両方共欠損していない場合には推定は不要であり、両方共欠損している場合には推定不可と判断する。従って、特定された推定可能な非選択カラムにおいて、特定されたレコードペアの一方のみが欠損している状態ではない場合には、端子Eを介して図39のステップS167に移行する。一方、特定された推定可能な非選択カラムにおいて、特定されたレコードペアの一方のみが欠損している場合には、端子Dを介して図39のステップS161に移行する。   Returning to the description of the processing in FIG. 33, the estimation unit 720 identifies one unprocessed estimable non-selected column (step S <b> 119). Then, the estimation unit 720 determines whether only one of the identified record pairs is missing in the identified non-selectable column that can be estimated (step S121). If both are not missing, estimation is unnecessary, and if both are missing, it is determined that estimation is impossible. Therefore, in the specified non-selectable column that can be estimated, when only one of the specified record pairs is not missing, the process proceeds to step S167 in FIG. On the other hand, if only one of the identified record pairs is missing in the identified non-selectable column that can be estimated, the process proceeds to step S161 in FIG.

図39の処理の説明に端子Dを介して移行して、推定部720は、本レコードペアがステップS117で高名寄せ可能性リストに登録されたか判断する(図39:ステップS161)。本レコードペアが高名寄せ可能性リストに登録されていれば、推定部720は、第1推定処理を実施する(ステップS163)。第1推定処理については、図40乃至図41Cを用いて説明する。なお、第1推定処理が完了すると、ステップS167に移行する。   39, the estimation unit 720 determines whether or not this record pair is registered in the high name collation possibility list in step S117 (FIG. 39: step S161). If this record pair is registered in the high possibility collation list, the estimation unit 720 performs the first estimation process (step S163). The first estimation process will be described with reference to FIGS. 40 to 41C. When the first estimation process is completed, the process proceeds to step S167.

まず、推定部720は、推定可能な非選択カラムC1の出現頻度表から、特定されたレコードペアの非欠損値v1を特定する(図40:ステップS171)。図41Aに模式的に示すように、ID「100001」「100009」のレコードペアについて処理する場合、推定可能な非選択カラム「企業カナ名」において非欠損値v1は、「エービーシーショウジ」である。そして、図41Bに模式的に示す、「企業カナ名」の出現頻度表において、矢印の行「エービーシーショウジ」を特定する。   First, the estimating unit 720 specifies the non-missing value v1 of the specified record pair from the appearance frequency table of the non-selectable column C1 that can be estimated (FIG. 40: Step S171). As schematically illustrated in FIG. 41A, when processing is performed on the record pairs with IDs “100001” and “100009”, the non-missing value v1 in the presumable non-selection column “company name” is “ABC show”. Then, in the appearance frequency table of “company name” shown schematically in FIG. 41B, an arrow row “ABC show” is specified.

そして、推定部720は、出現頻度表において非欠損値v1の前後近傍a個のデータ値について、非欠損値v1との類似度を算出する(ステップS173)。ステップS175の処理と併せて、閾値未満になるまで近傍のデータ値について非欠損値v1との類似度を算出するようにしても良い。図41Bの例では、a=1であるとして、前後1つずつ非欠損値v1「エービーシーショウジ」との類似度を算出する。図41Bの例では、「エービーシ」については類似度「0.60」、「エービーシーショウテン」については類似度「0.82」が算出されている。なお、a=1より大きな値を採用するようにしても良い。   Then, the estimation unit 720 calculates the similarity with the non-missing value v1 for a data value in the vicinity of the non-missing value v1 in the appearance frequency table (step S173). In combination with the processing in step S175, the similarity between the nearby data value and the non-missing value v1 may be calculated until the value becomes less than the threshold value. In the example of FIG. 41B, assuming that a = 1, the similarity to the non-missing value v1 “ABC show” is calculated one by one before and after. In the example of FIG. 41B, the similarity “0.60” is calculated for “ABC”, and the similarity “0.82” is calculated for “ABC SHOW TEN”. A value larger than a = 1 may be adopted.

そうすると、推定部720は、閾値(例えば0.8)以上の類似度が算出された近傍のデータ値(自分自身を含む)の出現頻度を用いて重み付けした類似度の加算値を、類似度の推定値として算出し、第2データ格納部150に格納する(ステップS175)。   Then, the estimation unit 720 calculates the similarity addition value weighted by using the appearance frequency of neighboring data values (including itself) for which a similarity degree equal to or greater than a threshold (for example, 0.8) is calculated. The estimated value is calculated and stored in the second data storage unit 150 (step S175).

図41Bの例では、閾値が0.8なので、「エービーシー」は用いられず、「エービーシーショウジ」及び「エービーシーショウテン」が用いられる。そして、出現頻度の総数に対する、該当する出現頻度の割合で重み付けした類似度を加算する。すなわち、「エービーシーショウジ」については(3/(3+1))×1.0=0.75が算出され、「エービーシーショウテン」については(1/(3+1))×0.82=0.205が算出される。従って、これらを合計して、類似度の推定値は0.955が得られる。   In the example of FIG. 41B, since the threshold value is 0.8, “ABC” is not used, and “ABC show” and “ABC show ten” are used. And the similarity weighted by the ratio of the applicable appearance frequency with respect to the total number of appearance frequencies is added. That is, (3 / (3 + 1)) × 1.0 = 0.75 is calculated for “ABC show”, and (1 / (3 + 1)) × 0.82 = 0.205 is calculated for “ABC show ten”. Is done. Therefore, these are added together to obtain 0.955 as the estimated value of similarity.

一般的には以下のように表される。なお、Wkは、類似度が閾値以上の近傍データ値kについての重みを表し、(該当近傍データ値kの出現頻度)/(類似度が閾値以上の近傍データ値についての出現頻度の総和)である。Skは、近傍データ値kと非欠損値v1との類似度を表す。 Generally, it is expressed as follows. Note that W k represents a weight for the neighborhood data value k having a similarity equal to or greater than a threshold, and (appearance frequency of the corresponding neighborhood data value k) / (sum of appearance frequencies for neighboring data values having a similarity equal to or greater than the threshold). It is. S k represents the degree of similarity between the neighborhood data value k and the non-missing value v1.

Figure 0005640796
Figure 0005640796

図41A及び41Bの例からすれば、ステップS175では、図41Cに示すようなデータが、第2データ格納部150に格納される。すなわち、ID「100001」「100009」のレコードペアについて、「企業カナ名」についての類似度の推定値は「0.955」と登録される。   41A and 41B, in step S175, data as shown in FIG. 41C is stored in the second data storage unit 150. That is, for the record pair with IDs “100001” and “100009”, the estimated similarity value for “company name” is registered as “0.955”.

このようにして、名寄せの可能性が高いレコードペアについては、出現頻度表における非欠損値v1の近傍のデータ値の類似度から推定される。   In this way, a record pair with a high possibility of name identification is estimated from the similarity of data values in the vicinity of the non-missing value v1 in the appearance frequency table.

図39の処理の説明に戻って、特定されたレコードペアが高名寄せ可能性リストに登録されていない場合、推定部720は、第2推定処理を実施する(ステップS165)。第2推定処理については、従来技術を用いる。具体的には、ステップS113で算出され第3データ格納部730に格納された回帰係数を用いる。   Returning to the description of the processing in FIG. 39, when the identified record pair is not registered in the high name matchability list, the estimation unit 720 performs the second estimation processing (step S165). For the second estimation process, a conventional technique is used. Specifically, the regression coefficient calculated in step S113 and stored in the third data storage unit 730 is used.

例えば、図38Bのような場合、推定可能な非選択カラム「企業カナ名」に対して相関係数が閾値以上の選択カラムが「企業漢字名」のみである場合には、図42に示すような回帰直線が、回帰分析によって得られる。そこで、この回帰直線から、図38Bで示すようにID「100014」「100017」というレコードペアの選択カラムの類似度「0.36」に対応する推定類似度「0.39」を得る。さらに、図14のような類似度を算出する際に併せて算出した推定可能な非選択カラムの平均値及び分散値に従う正規乱数を生成して、推定類似度に加算する。例えば、乱数「0.01」が算出されれば、0.39+0.01=0.40が最終的な推定類似度として算出される。この最終的な推定類似度が、図43に示したように、第2データ格納部150に格納される。これによって、分散値の偏りを是正する。そしてステップS167に移行する。   For example, in the case as shown in FIG. 38B, when the only selection column whose correlation coefficient is equal to or greater than the threshold for the estimable non-selected column “company Kana name” is “company kanji name”, as shown in FIG. A simple regression line is obtained by regression analysis. Therefore, from this regression line, as shown in FIG. 38B, an estimated similarity “0.39” corresponding to the similarity “0.36” of the selected columns of the record pairs with IDs “100014” and “100017” is obtained. Further, a normal random number is generated according to the average value and the variance value of the estimable non-selected columns calculated when calculating the similarity as shown in FIG. 14 and added to the estimated similarity. For example, if the random number “0.01” is calculated, 0.39 + 0.01 = 0.40 is calculated as the final estimated similarity. This final estimated similarity is stored in the second data storage unit 150 as shown in FIG. This corrects the deviation of the variance value. Then, control goes to a step S167.

ステップS167に移行して、推定部720は、推定可能カラムペアリストにおいて未処理の推定可能な非選択カラムが存在するか判断する(ステップS167)。未処理の推定可能な非選択カラムが存在する場合には、端子Fを介してステップS119に戻る。一方、未処理の推定可能な非選択カラムが存在しない場合には、推定部720は、未処理のレコードペアが存在しているか判断する(ステップS169)。未処理のレコードペアが存在している場合には、端子Gを介してステップS115に戻る。一方、未処理のレコードペアが存在していない場合には、呼び出し元の処理に戻る。   Proceeding to step S167, the estimating unit 720 determines whether there is an unprocessable estimable non-selected column in the estimable column pair list (step S167). If there is an unprocessable estimable unselected column, the process returns to step S119 via the terminal F. On the other hand, when there is no unprocessable estimable non-selected column, the estimation unit 720 determines whether there is an unprocessed record pair (step S169). If there is an unprocessed record pair, the process returns to step S115 via the terminal G. On the other hand, if there is no unprocessed record pair, the process returns to the caller process.

このように、名寄せの可能性が高い場合には、類似するデータ値についての類似度及び出現頻度を基に類似度を算出する。一方、名寄せの可能性が低い場合には、他のデータの傾向にあった類似度を分散値の偏りを是正しつつ算出する。但し、全ての欠損についてレコードペアの類似度を算出できるわけではない。   As described above, when the possibility of name identification is high, the similarity is calculated based on the similarity and appearance frequency of similar data values. On the other hand, when the possibility of name identification is low, the similarity corresponding to the tendency of other data is calculated while correcting the deviation of the variance value. However, it is not possible to calculate the similarity of record pairs for all the deficiencies.

図30の処理の説明に戻って、推定部720は、第2データ格納部150に格納した推定類似度のデータを、相関係数算出用のテーブル(図14)及び近傍相関係数算出用のテーブル(図19)に設定する(ステップS107)。このようにすれば、欠損部分を減少させることができる。   Returning to the description of the processing in FIG. 30, the estimation unit 720 converts the estimated similarity data stored in the second data storage unit 150 into the correlation coefficient calculation table (FIG. 14) and the neighborhood correlation coefficient calculation. It sets to a table (FIG. 19) (step S107). In this way, a defective part can be reduced.

そして、カラム選択部600は、第2カラム選択処理を実施する(ステップS109)。第2カラム選択処理については、第1カラム選択処理とは異なり、図14及び図19のようなデータは生成されているので、各カラムペアについて相関係数及び近傍相関係数を算出する。その他は同じである。欠損はまだ存在するので、重みdについては算出し直し、有意水準も欠損の状況に応じて特定し直す。   Then, the column selection unit 600 performs the second column selection process (step S109). In the second column selection process, unlike the first column selection process, data as shown in FIG. 14 and FIG. 19 is generated. Therefore, the correlation coefficient and the neighborhood correlation coefficient are calculated for each column pair. Others are the same. Since the defect still exists, the weight d is recalculated, and the significance level is re-specified according to the condition of the defect.

以上のような処理を実施することで、名寄せ分野におけるカラム選択において、分析対象データに欠損部分があっても、これに名寄せ問題に適した推定を行うことにより、より正確な相関係数を計算することができ、有用なカラム選択結果を得ることができるようになる。   By performing the above processing, even if there is a missing part in the data to be analyzed in column selection in the name identification field, a more accurate correlation coefficient can be calculated by performing an estimation suitable for the name identification problem. And useful column selection results can be obtained.

なお、名寄せ可能性推定処理(図37)については、図44に示すような処理に変更することも可能である。具体的には、推定部720は、特定されたレコードペアにおける選択カラムの類似度が閾値を超え且つ選択カラムのデータ値が珍しいかを判断する(図44:ステップS181)。具体的には、選択カラムの出現頻度表において、出現頻度が閾値未満であるかを判断する。例えば、図38Aのような状況を想定した場合、選択カラムC2の「ABC商事」について図45に示すような出現頻度表から出現頻度「3」を得る。出現頻度に対する閾値「10」から、「ABC商事」を珍しいと判断しても良いし、レコード数で除した相対頻度(出現確率)を算出し、相対頻度に対する閾値との比較で珍しいと判断しても良い。なお、選択カラムC2の値がレコードペアにおいて異なる場合があるが、その場合には例えば両方の値を加算した上で判断する。平均値で判断しても良い。このような処理は、名寄せされるようなレコードのデータ値は頻繁に出現するようなデータ値ではないので、珍しいという条件を付加したものである。   Note that the name identification possibility estimation process (FIG. 37) can be changed to the process shown in FIG. Specifically, the estimation unit 720 determines whether the similarity of the selected column in the identified record pair exceeds a threshold value and the data value of the selected column is unusual (FIG. 44: step S181). Specifically, it is determined whether the appearance frequency is less than a threshold in the appearance frequency table of the selected column. For example, assuming the situation shown in FIG. 38A, the appearance frequency “3” is obtained from the appearance frequency table shown in FIG. 45 for “ABC Trading” in the selection column C2. From the threshold “10” for the appearance frequency, it may be determined that “ABC Trading” is unusual, or the relative frequency (appearance probability) divided by the number of records is calculated, and it is determined that it is unusual in comparison with the threshold for the relative frequency. May be. Note that the value of the selected column C2 may be different in the record pair. In this case, for example, the determination is made after adding both values. You may judge by an average value. Such processing adds a condition that the data value of the record to be identified is unusual because the data value does not appear frequently.

以上本技術の形態について説明したが、本技術はこれに限定されるものではない。例えば、上では優先度を算出する処理を実施する例を示したが、十分少ない数までカラムが絞り込むことができていれば、例えばステップS67まで実施するだけでも十分な場合もある。同様に絞り込みができていれば、ステップS65の処理結果だけを提示するだけでも、ユーザが判断可能な場合もある。   Although the embodiment of the present technology has been described above, the present technology is not limited to this. For example, although the example which performs the process which calculates a priority was shown above, as long as the column can be narrowed down to a sufficiently small number, it may be enough only to implement to step S67, for example. Similarly, if narrowing down is possible, the user may be able to determine just by presenting only the processing result of step S65.

さらに、図9及び図29に示した機能ブロック図は一例であって、必ずしも実際のプログラムモジュール構成と一致しない場合がある。また、処理フローについても処理結果が変わらない限り、順番を入れ替えたり、並列実行するようにしても良い。   Furthermore, the functional block diagrams shown in FIGS. 9 and 29 are examples, and may not necessarily match the actual program module configuration. As for the processing flow, as long as the processing result does not change, the order may be changed or it may be executed in parallel.

また、処理フロー中のループの構成も同様の処理結果が得られるのであれば変更可能である。第2の実施の形態では、カラムペア毎に、レコード単位の非欠損率を算出することになるので、欠損レコード又は非欠損レコードをカウントしやすいように処理フローを変更することも可能である。   The configuration of the loop in the processing flow can be changed as long as the same processing result is obtained. In the second embodiment, since the non-missing rate in units of records is calculated for each column pair, the processing flow can be changed so that missing records or non-missing records can be easily counted.

なお、上で述べた名寄せ支援処理装置100及び700は、コンピュータ装置であって、図46に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。   The name identification support processing devices 100 and 700 described above are computer devices, and display control connected to a memory 2501, a CPU 2503, a hard disk drive (HDD) 2505, and a display device 2509 as shown in FIG. A unit 2507, a drive device 2513 for a removable disk 2511, an input device 2515, and a communication control unit 2517 for connecting to a network are connected by a bus 2519. An operating system (OS) and an application program for executing the processing in this embodiment are stored in the HDD 2505, and are read from the HDD 2505 to the memory 2501 when executed by the CPU 2503. If necessary, the CPU 2503 controls the display control unit 2507, the communication control unit 2517, and the drive device 2513 to perform necessary operations. Further, data in the middle of processing is stored in the memory 2501 and stored in the HDD 2505 if necessary. In an embodiment of the present technology, an application program for performing the above-described processing is stored in a computer-readable removable disk 2511 and distributed, and installed from the drive device 2513 to the HDD 2505. In some cases, the HDD 2505 may be installed via a network such as the Internet and the communication control unit 2517. Such a computer apparatus realizes various functions as described above by organically cooperating hardware such as the CPU 2503 and the memory 2501 described above, the OS, and necessary application programs.

以上述べた本実施の形態をまとめると、以下のようになる。   The above-described embodiment can be summarized as follows.

本実施の形態に係る名寄せ支援処理方法は、(A)データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、(B)カラムの組み合わせの各々についてデータ格納部に格納されている第1のデータ類似度の相関係数を算出し、データ格納部に格納するステップと、(C)カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、注目レコードと特定されたレコードとの間の各々における、カラム毎の第2のデータ類似度を算出又は特定してデータ格納部に格納すると共に、注目カラムと他のカラムとの組み合わせの各々についてデータ格納部に格納されている第2のデータ類似度の相関係数を近傍相関係数として算出してデータ格納部に格納する近傍相関係数算出ステップと、(D)正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠落が発生していないレコードの割合が乗じられた正の近傍相関係数が算出されたカラムの組み合わせを、データ格納部から抽出する第1抽出処理を実施する第1抽出ステップとを含む。   In the name identification support processing method according to the present embodiment, (A) a step of calculating a first data similarity between records for each column in the database and storing it in a data storage unit; and (B) a combination of columns Calculating a correlation coefficient of the first data similarity stored in the data storage unit for each, and storing the correlation coefficient in the data storage unit; and (C) an arbitrary column in the target column which is an arbitrary column of the columns A record having data similar to or similar to data in the target record that is a record is specified, and a second data similarity for each column in each of the range between the target record and the specified record is calculated or The second data stored in the data storage unit for each combination of the column of interest and other columns is specified and stored in the data storage unit. A neighborhood correlation coefficient calculation step of calculating a correlation coefficient of the similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and (D) a positive correlation coefficient that is calculated and exceeds a predetermined significance level. A first extraction for performing a first extraction process for extracting from the data storage unit a combination of columns for which a positive neighborhood correlation coefficient is multiplied by a neighborhood correlation coefficient or a ratio of records in which no data is missing. Steps.

このように相関に加えて近傍相関を導入することによって、名寄せに役立つ可能性のあるカラムを自動的に抽出することができるようになる。また、処理も高速化される。なお、データ欠損が発生していないレコードの割合は、抽出しようとするカラムの組み合わせで判断することが好ましい。   Thus, by introducing neighborhood correlation in addition to correlation, columns that may be useful for name identification can be automatically extracted. In addition, the processing speed is increased. Note that the ratio of records in which no data is missing is preferably determined based on the combination of columns to be extracted.

なお、上で述べた近傍相関係数算出ステップが、(c1)注目カラムのデータでレコードをソートするステップと、(c2)ソート後の並びにおいて注目レコードの前後所定数のレコードを注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定するステップとを含むようにしてもよい。このようにすれば処理負荷を下げて近傍相関係数を算出することができるようになる。なお、第1のデータ類似度を基に類似するレコードを特定するようにしても良い。   Note that the neighborhood correlation coefficient calculating step described above includes (c1) a step of sorting records by the data of the target column, and (c2) a predetermined number of records before and after the target record in the sorted sequence. And identifying as a record having data similar to or similar to the data. In this way, the neighborhood correlation coefficient can be calculated with a reduced processing load. Note that similar records may be specified based on the first data similarity.

さらに、本名寄せ支援処理方法は、(E)抽出されたカラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の相関係数と近傍相関係数との差を有用度として算出し、データ格納部に格納するステップと、(F)抽出カラムの各々について、当該抽出カラムについて算出された有用度と他の抽出カラムについて算出された当該抽出カラムとの有用度とから優先度を算出し、データ格納部に格納するステップとをさらに含むようにしてもよい。このようにすれば、名寄せに役立つ度合いと、抽出されたカラムの組み合わせに含まれるカラムを比較する際の基準とが得られるようになる。なお、優先度の算出方法は、最大値、平均値、総和などであっても良い。   Further, the name identification support processing method (E) for each extraction column that is a column included in the combination of extracted columns, the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient And calculating the difference between the usefulness calculated for the extracted column and the extracted column calculated for the other extracted columns for each of the extracted columns, And calculating the priority from the usefulness of the data and storing the priority in the data storage unit. In this way, it is possible to obtain a degree useful for name identification and a standard for comparing columns included in the extracted column combination. Note that the priority calculation method may be a maximum value, an average value, a sum, or the like.

さらに、名寄せ支援処理方法は、(G)データ格納部から、所定の有意水準を超える正の相関係数が算出されたカラムの組み合わせを抽出する第2抽出ステップと、(H)第1抽出ステップにおいて抽出されたカラムの組み合わせに含まれるカラムと第2抽出ステップにおいて抽出されたカラムの組み合わせに含まれるカラムとに共通するカラムのうち、優先度が最も高いカラムを抽出するステップとをさらに含むようにしてもよい。このようにすれば、冗長性を有するカラム群のうち最も優先すべきカラムを特定することができるようになる。   Further, the name identification support processing method includes: (G) a second extraction step for extracting a combination of columns for which a positive correlation coefficient exceeding a predetermined significance level is calculated; and (H) a first extraction step. And extracting a column having the highest priority among columns common to the columns included in the column combination extracted in step 2 and the columns included in the column combination extracted in the second extraction step. Also good. In this way, it is possible to specify the column that has the highest priority among the column groups having redundancy.

さらに、名寄せ支援処理方法は、(I)第1抽出ステップにおいて抽出されたカラムの組み合わせに含まれるカラムから第2抽出ステップにおいて抽出されたカラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、優先度が最も高いカラムとの組み合わせを生成する組み合わせ生成ステップをさらに含むようにしてもよい。このようにすれば自動的に名寄せに使用すべきカラムが得られるようになる。   Further, the name identification support processing method is (I) a column after excluding columns included in the combination of columns extracted in the second extraction step from columns included in the combination of columns extracted in the first extraction step. You may make it further include the combination production | generation step which produces | generates the combination of a 2nd extraction column and a column with the highest priority. In this way, the column that should be used for name identification is automatically obtained.

なお、データ格納部に格納されている第2抽出カラムの優先度と優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせられるようにしてもよい。名寄せの精度を高めるためである。   The priority of the second extraction column stored in the data storage unit and the priority of the column with the highest priority may be combined when they are equal to or higher than a predetermined threshold. This is to increase the accuracy of name identification.

さらに、名寄せ支援処理方法は、(J)第1抽出ステップにおいて抽出されたカラム又は組み合わせ生成ステップにおいて生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定するステップと、(K)各レコードペアについて、第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ第3カラムに出現する類似データ(例えば、類似度の条件のみで抽出される場合もあれば、データ数の制限がある場合もある)の類似度の重み付け加算値を第3のカラムについての類似度として算出し、第2の所定の条件を満たさない場合には第1のカラムと第3のカラムとの他の方法に基づき算出した第2の値を第3のカラムについての類似度として算出し、データ格納部に格納する推定ステップと、(L)推定ステップの処理結果を格納するデータ格納部に格納されているデータを用いて、第1の類似度の相関係数を再度算出し、第2の類似度の相関係数を再度算出するステップと、(M)相関係数の再計算結果及び近傍相関係数の再計算結果から、正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数が算出されたカラムの組み合わせを、データ格納部から抽出する第3抽出ステップとを含むようにしても良い。   Further, the name identification support processing method includes: (J) a second column that is a column other than the first column that is a column extracted in the first extraction step or a column related to the combination generated in the combination generation step; Identifying a third column that satisfies a first predetermined condition including a condition that data loss has occurred and a correlation coefficient with the first column is equal to or greater than a threshold; and (K) each record pair If the second predetermined condition including the condition that the similarity of the data in the first column is equal to or greater than the second threshold is satisfied, the similarity with the non-missing data of the record pair in the third column Is more than the third threshold value and similar data appearing in the third column (for example, there are cases where the data is extracted only under the similarity condition or there is a limit on the number of data The weighted addition value of the similarity is calculated as the similarity for the third column, and when the second predetermined condition is not satisfied, based on other methods of the first column and the third column The calculated second value is calculated as the degree of similarity for the third column, and the data stored in the data storage unit that stores the estimation step for storing in the data storage unit and (L) the processing result of the estimation step is stored. And calculating again the correlation coefficient of the first similarity and re-calculating the correlation coefficient of the second similarity, and (M) recalculating the correlation coefficient and re-calculating the neighborhood correlation coefficient. A third extraction step of extracting from the data storage unit a combination of columns for which a positive correlation coefficient is calculated from the calculation result and a positive neighborhood correlation coefficient exceeding a predetermined significance level is calculated may be included. .

このようにすればデータの欠落がある場合においても、名寄せの可能性に応じた適切な手法にて類似度を推定することができ、推定結果を用いれば全体としても適切なカラムが抽出されるようになる。   In this way, even if there is missing data, the similarity can be estimated by an appropriate method according to the possibility of name identification, and if the estimation result is used, an appropriate column as a whole is extracted. It becomes like this.

なお、上で述べた第1の所定の条件が、第1のカラムと第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含むようにしてもよい。推定の信頼性を担保するためである。   Note that the first predetermined condition described above may further include a condition that the number of records in which data is not missing in both the first column and the second column is greater than or equal to the fourth threshold. . This is to ensure the reliability of the estimation.

さらに、上で述べた第2の所定の条件が、当該レコードペアについて第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含むようにしてもよい。名寄せの可能性が高い場合には、そのカラムのデータ値は頻繁に出現するようなデータ値ではないためである。   Furthermore, the second predetermined condition described above may further include a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold. This is because when the possibility of name identification is high, the data value of the column is not a data value that appears frequently.

さらに、上で述べた重み付け加算値の重み値が、上記類似データの出現頻度の総和に対する当該類似データの出現頻度の比であってもよい。このようにすれば、出現頻度を適切に推定類似度に反映させることができるようになる。   Further, the weight value of the weighted addition value described above may be a ratio of the appearance frequency of the similar data to the sum of the appearance frequencies of the similar data. In this way, the appearance frequency can be appropriately reflected in the estimated similarity.

さらに、上で述べた第2の値が、第1のカラムと第3のカラムとの回帰計算結果から第1のカラムにおけるデータの類似度に対応する第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である場合もある。これによって推定値の分散の偏りを是正できるようになる。   Further, the second value described above calculates the similarity in the third column corresponding to the similarity of the data in the first column from the regression calculation result of the first column and the third column, It may be the result of adding a random value to the calculated similarity. This makes it possible to correct the variance of the estimated value.

なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。   A program for causing a computer to perform the processing described above can be created, such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory (for example, ROM), a hard disk, etc. Stored in a computer-readable storage medium or storage device. Note that data being processed is temporarily stored in a storage device such as a RAM.

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。   The following supplementary notes are further disclosed with respect to the embodiments including the above examples.

(付記1)
データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納し、前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納する相関係数算出部と、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出部と、
正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠損が発生していないレコードの割合が乗じられた前記正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出処理を実施するカラム処理部と、
を有する名寄せ支援処理装置。
(Appendix 1)
For each column in the database, a first data similarity between records is calculated, stored in a data storage unit, and the first data similarity stored in the data storage unit for each combination of the columns A correlation coefficient calculating unit that calculates a correlation coefficient and stores the correlation coefficient in the data storage unit;
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. A neighborhood correlation coefficient calculation unit that calculates a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and stores it in the data storage unit;
The positive neighborhood correlation coefficient for which the positive correlation coefficient has been calculated and multiplied by the percentage of records that have a positive neighborhood correlation coefficient exceeding the predetermined significance level or no data loss has occurred is calculated. A column processing unit for performing a first extraction process for extracting a combination from the data storage unit;
A name identification support processing apparatus.

(付記2)
前記近傍相関係数算出部が、
前記注目カラムのデータで前記レコードをソートし、当該ソート後の並びにおいて前記注目レコードの前後所定数のレコードを前記注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定する
付記1記載の名寄せ支援処理装置。
(Appendix 2)
The neighborhood correlation coefficient calculating unit
The records are sorted by the data of the column of interest, and a predetermined number of records before and after the record of interest are specified as records having data similar or similar to the data in the record of interest in the sorted sequence. 1. The name identification support processing device according to 1.

(付記3)
前記カラム処理部は、
抽出された前記カラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の前記相関係数と前記近傍相関係数との差を有用度として算出し、前記データ格納部に格納し、
前記抽出カラムの各々について、当該抽出カラムについて算出された前記有用度と前記他の抽出カラムについて算出された当該抽出カラムとの前記有用度とから優先度を算出し、前記データ格納部に格納する、
付記1又は2記載の名寄せ支援処理装置。
(Appendix 3)
The column processing unit
For each extraction column that is a column included in the extracted combination of columns, the difference between the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient is calculated as a usefulness. , Stored in the data storage unit,
For each of the extraction columns, a priority is calculated from the usefulness calculated for the extraction column and the usefulness of the extraction column calculated for the other extraction column, and stored in the data storage unit ,
The name identification support processing device according to attachment 1 or 2.

(付記4)
前記カラム処理部は、
前記データ格納部から、所定の有意水準を超える正の相関係数又はデータ欠損が発生していないレコードの割合が乗じられた前記正の近傍相関係数が算出された前記カラムの組み合わせを抽出する第2抽出処理を実施し、
前記第1抽出処理において抽出された前記カラムの組み合わせに含まれるカラムと前記第2抽出処理において抽出された前記カラムの組み合わせに含まれるカラムとに共通するカラムのうち、前記優先度が最も高いカラムを抽出する、
付記3記載の名寄せ支援処理装置。
(Appendix 4)
The column processing unit
Extracting from the data storage unit a combination of the columns in which the positive correlation coefficient exceeding a predetermined significance level or the positive neighborhood correlation coefficient multiplied by the ratio of records in which no data loss has occurred is calculated. Perform the second extraction process,
The column having the highest priority among the columns common to the columns included in the combination of columns extracted in the first extraction process and the columns included in the combination of columns extracted in the second extraction process Extract,
The name identification support processing device according to attachment 3.

(付記5)
前記カラム処理部は、
前記第1抽出処理において抽出された前記カラムの組み合わせに含まれるカラムから前記第2抽出処理において抽出された前記カラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、前記優先度が最も高いカラムとの組み合わせを生成する
付記4記載の名寄せ支援処理装置。
(Appendix 5)
The column processing unit
A second extraction column that is a column after excluding a column included in the combination of columns extracted in the second extraction process from a column included in the combination of columns extracted in the first extraction process; The name identification support processing device according to appendix 4, which generates a combination with a column having the highest priority.

(付記6)
前記データ格納部に格納されている前記第2抽出カラムの優先度と前記優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせる
ことを特徴とする付記5記載の名寄せ支援処理装置。
(Appendix 6)
The name identification according to appendix 5, wherein the priority of the second extraction column stored in the data storage unit and the priority of the column having the highest priority are combined when they are equal to or higher than a predetermined threshold. Support processing device.

(付記7)
前記カラム処理部により抽出されたカラム又は生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ前記第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定し、各レコードペアについて、前記第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には前記第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ前記第3カラムに出現する類似データの類似度の重み付け加算値を前記第3のカラムについての類似度として算出し、前記第2の所定の条件を満たさない場合には前記第1のカラムと前記第3のカラムとの他の方法に基づき算出した第2の値を前記第3のカラムについての類似度として算出し、前記データ格納部に格納する類似度推定部、
をさらに有し、
前記類似度推定部の処理結果を格納する前記データ格納部に格納されているデータを用いて、前記相関係数算出部が、前記第1の類似度の相関係数を再度算出し、前記近傍相関係数算出部が、前記第2の類似度の相関係数を再度算出し、
前記カラム処理部が処理を再度行う
付記1乃至6のいずれか1つ記載の名寄せ支援処理装置。
(Appendix 7)
Of the second column that is a column other than the first column that is the column extracted by the column processing unit or the generated combination, the data loss has occurred and the first column A third column that satisfies a first predetermined condition including a condition that the correlation coefficient is equal to or greater than a threshold is specified, and for each record pair, the data similarity in the first column is equal to or greater than the second threshold. If the second predetermined condition including the condition of being present satisfies the second predetermined condition, the similarity with the non-missing data of the record pair in the third column is equal to or higher than a third threshold and appears in the third column A weighted addition value of the similarity of data is calculated as the similarity for the third column, and when the second predetermined condition is not satisfied, the first column and the third column The second value is calculated as the similarity for said third column, the similarity degree estimation unit for storing in the data storage unit that is based on other methods calculation,
Further comprising
Using the data stored in the data storage unit that stores the processing result of the similarity estimation unit, the correlation coefficient calculation unit calculates the correlation coefficient of the first similarity again, and the neighborhood The correlation coefficient calculation unit calculates the correlation coefficient of the second similarity again,
The name identification support processing device according to any one of supplementary notes 1 to 6, wherein the column processing unit performs processing again.

(付記8)
前記第1の所定の条件が、前記第1のカラムと前記第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含む
付記7記載の名寄せ支援処理装置。
(Appendix 8)
The name identification support according to appendix 7, wherein the first predetermined condition further includes a condition that the number of records in which no data is missing in the first column and the second column is equal to or greater than a fourth threshold value. Processing equipment.

(付記9)
前記第2の所定の条件が、当該レコードペアについて前記第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含む
付記7又は8記載の名寄せ支援処理装置。
(Appendix 9)
The name identification support processing device according to appendix 7 or 8, wherein the second predetermined condition further includes a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold.

(付記10)
前記重み付け加算値の重み値が、前記類似データの出現頻度の総和に対する当該類似データの出現頻度の比である
付記7乃至9のいずれか1つ記載の名寄せ支援処理装置。
(Appendix 10)
The name identification support processing device according to any one of appendices 7 to 9, wherein the weight value of the weighted addition value is a ratio of the appearance frequency of the similar data to the sum of the appearance frequencies of the similar data.

(付記11)
前記第2の値が、
前記第1のカラムと前記第3のカラムとの回帰計算結果から前記第1のカラムにおけるデータの類似度に対応する前記第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である
付記7乃至10のいずれか1つ記載の名寄せ支援処理装置。
(Appendix 11)
The second value is
The similarity in the third column corresponding to the data similarity in the first column is calculated from the regression calculation result of the first column and the third column, and the calculated similarity is calculated with respect to the calculated similarity The name identification support processing device according to any one of appendices 7 to 10, which is a result of adding random numbers.

(付記12)
データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、
前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納するステップと、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出ステップと、
正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠損が発生していないレコードの割合が乗じられた前記正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出ステップと、
を含み、コンピュータにより実行される名寄せ支援処理方法。
(Appendix 12)
Calculating a first data similarity between records for each column in the database and storing in a data storage unit;
Calculating a correlation coefficient of the first data similarity stored in the data storage unit for each combination of the columns, and storing the correlation coefficient in the data storage unit;
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. Calculating a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and
The positive neighborhood correlation coefficient for which the positive correlation coefficient has been calculated and multiplied by the percentage of records that have a positive neighborhood correlation coefficient exceeding the predetermined significance level or no data loss has occurred is calculated. A first extraction step of extracting a combination from the data storage;
And a name identification support processing method executed by a computer.

(付記13)
前記近傍相関係数算出ステップが、
前記注目カラムのデータで前記レコードをソートするステップと、
ソート後の並びにおいて前記注目レコードの前後所定数のレコードを前記注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定するステップと、
を含む付記12記載の名寄せ支援処理方法。
(Appendix 13)
The neighborhood correlation coefficient calculating step includes:
Sorting the records by the data of the column of interest;
Identifying a predetermined number of records before and after the record of interest in the sorted sequence as records having data similar or similar to the data in the record of interest;
The name collation support processing method of Additional remark 12 containing.

(付記14)
抽出された前記カラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の前記相関係数と前記近傍相関係数との差を有用度として算出し、前記データ格納部に格納するステップと、
前記抽出カラムの各々について、当該抽出カラムについて算出された前記有用度と前記他の抽出カラムについて算出された当該抽出カラムとの前記有用度とから優先度を算出し、前記データ格納部に格納するステップと、
をさらに含む付記12又は13記載の名寄せ支援処理方法。
(Appendix 14)
For each extraction column that is a column included in the extracted combination of columns, the difference between the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient is calculated as a usefulness. Storing in the data storage unit;
For each of the extraction columns, a priority is calculated from the usefulness calculated for the extraction column and the usefulness of the extraction column calculated for the other extraction column, and stored in the data storage unit Steps,
The name identification support processing method according to appendix 12 or 13, further including:

(付記15)
前記データ格納部から、所定の有意水準を超える正の相関係数が算出された前記カラムの組み合わせを抽出する第2抽出ステップと、
前記第1抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムと前記第2抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムとに共通するカラムのうち、前記優先度が最も高いカラムを抽出するステップと、
をさらに含む付記14記載の名寄せ支援処理方法。
(Appendix 15)
A second extraction step of extracting a combination of the columns for which a positive correlation coefficient exceeding a predetermined significance level is calculated from the data storage unit;
Of the columns common to the columns included in the column combination extracted in the first extraction step and the columns included in the column combination extracted in the second extraction step, the column having the highest priority Extracting the
The name identification support processing method according to supplementary note 14, further comprising:

(付記16)
前記第1抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムから前記第2抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、前記優先度が最も高いカラムとの組み合わせを生成する組み合わせ生成ステップ
をさらに含む付記15記載の名寄せ支援処理方法。
(Appendix 16)
A second extraction column that is a column after excluding a column included in the combination of columns extracted in the second extraction step from a column included in the combination of columns extracted in the first extraction step; The name identification support processing method according to supplementary note 15, further including a combination generation step of generating a combination with a column having the highest priority.

(付記17)
前記データ格納部に格納されている前記第2抽出カラムの優先度と前記優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせられることを特徴とする
付記16記載の名寄せ支援処理方法。
(Appendix 17)
17. The supplementary note 16, wherein the priority of the second extraction column stored in the data storage unit and the priority of the column having the highest priority are combined when they are equal to or higher than a predetermined threshold value. Name identification support processing method.

(付記18)
前記第1抽出ステップにおいて抽出されたカラム又は前記組み合わせ生成ステップにおいて生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ前記第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定するステップと、
各レコードペアについて、前記第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には前記第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ前記第3カラムに出現する類似データの類似度の重み付け加算値を前記第3のカラムについての類似度として算出し、前記第2の所定の条件を満たさない場合には前記第1のカラムと前記第3のカラムとの他の方法に基づき算出した第2の値を前記第3のカラムについての類似度として算出し、前記データ格納部に格納する推定ステップと、
前記推定ステップの処理結果を格納する前記データ格納部に格納されているデータを用いて、前記第1の類似度の相関係数を再度算出し、前記第2の類似度の相関係数を再度算出するステップと、
前記相関係数の再計算結果及び前記近傍相関係数の再計算結果から、正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第3抽出ステップと、
をさらに含む付記12乃至17のいずれか1つ記載の名寄せ支援処理方法。
(Appendix 18)
Of the column extracted in the first extraction step or the second column other than the first column that is a column related to the combination generated in the combination generation step, data loss has occurred and Identifying a third column that satisfies a first predetermined condition including a condition that a correlation coefficient with the first column is equal to or greater than a threshold;
For each record pair, if the second predetermined condition including the condition that the data similarity in the first column is greater than or equal to the second threshold is satisfied, the record pair in the third column is not missing Calculating a weighted addition value of the similarity of similar data appearing in the third column, the similarity with the data being equal to or greater than a third threshold, and calculating the second predetermined When the condition is not satisfied, a second value calculated based on another method of the first column and the third column is calculated as a similarity degree for the third column, and the data storage unit stores the second value. An estimation step to store;
Using the data stored in the data storage unit that stores the processing result of the estimation step, the correlation coefficient of the first similarity is calculated again, and the correlation coefficient of the second similarity is again calculated. A calculating step;
From the recalculation result of the correlation coefficient and the recalculation result of the neighborhood correlation coefficient, a combination of the columns in which a positive correlation coefficient is calculated and a positive neighborhood correlation coefficient exceeding a predetermined significance level is calculated. A third extraction step for extracting from the data storage unit;
The name identification support processing method according to any one of appendices 12 to 17, further including:

(付記19)
前記第1の所定の条件が、前記第1のカラムと前記第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含む
付記18記載の名寄せ支援処理方法。
(Appendix 19)
The name identification support according to appendix 18, wherein the first predetermined condition further includes a condition that the number of records in which no data is missing in the first column and the second column is equal to or greater than a fourth threshold value. Processing method.

(付記20)
前記第2の所定の条件が、当該レコードペアについて前記第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含む
付記18又は19記載の名寄せ支援処理方法。
(Appendix 20)
The name identification support processing method according to appendix 18 or 19, wherein the second predetermined condition further includes a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold.

(付記21)
前記重み付け加算値の重み値が、前記類似データの出現頻度の総和に対する当該類似データの出現頻度の比である
付記18乃至20のいずれか1つ記載の名寄せ支援処理方法。
(Appendix 21)
The name identification support processing method according to any one of appendices 18 to 20, wherein a weight value of the weighted addition value is a ratio of an appearance frequency of the similar data to a total sum of the appearance frequencies of the similar data.

(付記22)
前記第2の値が、
前記第1のカラムと前記第3のカラムとの回帰計算結果から前記第1のカラムにおけるデータの類似度に対応する前記第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である
付記18乃至21のいずれか1つ記載の名寄せ支援処理方法。
(Appendix 22)
The second value is
The similarity in the third column corresponding to the data similarity in the first column is calculated from the regression calculation result of the first column and the third column, and the calculated similarity is calculated with respect to the calculated similarity The name identification support processing method according to any one of appendices 18 to 21, which is a result of adding a random value.

(付記23)
データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、
前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納するステップと、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出ステップと、
正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数又はデータ欠損が発生していないレコードの割合が乗じられた前記正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出ステップと、
を、コンピュータに実行させるための名寄せ支援処理プログラム。
(Appendix 23)
Calculating a first data similarity between records for each column in the database and storing in a data storage unit;
Calculating a correlation coefficient of the first data similarity stored in the data storage unit for each combination of the columns, and storing the correlation coefficient in the data storage unit;
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. Calculating a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and
The positive neighborhood correlation coefficient for which the positive correlation coefficient has been calculated and multiplied by the percentage of records that have a positive neighborhood correlation coefficient exceeding the predetermined significance level or no data loss has occurred is calculated. A first extraction step of extracting a combination from the data storage;
Name identification support processing program for causing a computer to execute

(付記24)
前記近傍相関係数算出ステップが、
前記注目カラムのデータで前記レコードをソートするステップと、
ソート後の並びにおいて前記注目レコードの前後所定数のレコードを前記注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定するステップと、
を含む付記23記載の名寄せ支援処理プログラム。
(Appendix 24)
The neighborhood correlation coefficient calculating step includes:
Sorting the records by the data of the column of interest;
Identifying a predetermined number of records before and after the record of interest in the sorted sequence as records having data similar or similar to the data in the record of interest;
A name identification support processing program according to appendix 23, including:

(付記25)
抽出された前記カラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の前記相関係数と前記近傍相関係数との差を有用度として算出し、前記データ格納部に格納するステップと、
前記抽出カラムの各々について、当該抽出カラムについて算出された前記有用度と前記他の抽出カラムについて算出された当該抽出カラムとの前記有用度とから優先度を算出し、前記データ格納部に格納するステップと、
をさらに含む付記23又は24記載の名寄せ支援処理プログラム。
(Appendix 25)
For each extraction column that is a column included in the extracted combination of columns, the difference between the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient is calculated as a usefulness. Storing in the data storage unit;
For each of the extraction columns, a priority is calculated from the usefulness calculated for the extraction column and the usefulness of the extraction column calculated for the other extraction column, and stored in the data storage unit Steps,
The name identification support processing program according to appendix 23 or 24, further including:

(付記26)
前記データ格納部から、所定の有意水準を超える正の相関係数が算出された前記カラムの組み合わせを抽出する第2抽出ステップと、
前記第1抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムと前記第2抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムとに共通するカラムのうち、前記優先度が最も高いカラムを抽出するステップと、
をさらに含む付記25記載の名寄せ支援処理プログラム。
(Appendix 26)
A second extraction step of extracting a combination of the columns for which a positive correlation coefficient exceeding a predetermined significance level is calculated from the data storage unit;
Of the columns common to the columns included in the column combination extracted in the first extraction step and the columns included in the column combination extracted in the second extraction step, the column having the highest priority Extracting the
The name identification support processing program according to appendix 25, further including:

(付記27)
前記第1抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムから前記第2抽出ステップにおいて抽出された前記カラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、前記優先度が最も高いカラムとの組み合わせを生成する組み合わせ生成ステップ
をさらに含む付記26記載の名寄せ支援処理プログラム。
(Appendix 27)
A second extraction column that is a column after excluding a column included in the combination of columns extracted in the second extraction step from a column included in the combination of columns extracted in the first extraction step; 27. The name identification support processing program according to appendix 26, further including a combination generation step of generating a combination with a column having the highest priority.

(付記28)
前記データ格納部に格納されている前記第2抽出カラムの優先度と前記優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせられることを特徴とする
付記27記載の名寄せ支援処理プログラム。
(Appendix 28)
28. The combination of claim 27, wherein the priority of the second extraction column stored in the data storage unit and the priority of the column having the highest priority are combined when they are equal to or higher than a predetermined threshold. Name identification support processing program.

(付記29)(追加)
前記第1抽出ステップにおいて抽出されたカラム又は前記組み合わせ生成ステップにおいて生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ前記第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定するステップと、
各レコードペアについて、前記第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には前記第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ前記第3カラムに出現する類似データの類似度の重み付け加算値を前記第3のカラムについての類似度として算出し、前記第2の所定の条件を満たさない場合には前記第1のカラムと前記第3のカラムとの他の方法に基づき算出した第2の値を前記第3のカラムについての類似度として算出し、前記データ格納部に格納する推定ステップと、
前記推定ステップの処理結果を格納する前記データ格納部に格納されているデータを用いて、前記第1の類似度の相関係数を再度算出し、前記第2の類似度の相関係数を再度算出するステップと、
前記相関係数の再計算結果及び前記近傍相関係数の再計算結果から、正の相関係数が算出され且つ所定の有意水準を超える正の近傍相関係数が算出された前記カラムの組み合わせを、前記データ格納部から抽出する第3抽出ステップと、
をさらに含む付記23乃至28のいずれか1つ記載の名寄せ支援処理プログラム。
(Appendix 29) (Addition)
Of the column extracted in the first extraction step or the second column other than the first column that is a column related to the combination generated in the combination generation step, data loss has occurred and Identifying a third column that satisfies a first predetermined condition including a condition that a correlation coefficient with the first column is equal to or greater than a threshold;
For each record pair, if the second predetermined condition including the condition that the data similarity in the first column is greater than or equal to the second threshold is satisfied, the record pair in the third column is not missing Calculating a weighted addition value of the similarity of similar data appearing in the third column, the similarity with the data being equal to or greater than a third threshold, and calculating the second predetermined When the condition is not satisfied, a second value calculated based on another method of the first column and the third column is calculated as a similarity degree for the third column, and the data storage unit stores the second value. An estimation step to store;
Using the data stored in the data storage unit that stores the processing result of the estimation step, the correlation coefficient of the first similarity is calculated again, and the correlation coefficient of the second similarity is again calculated. A calculating step;
From the recalculation result of the correlation coefficient and the recalculation result of the neighborhood correlation coefficient, a combination of the columns in which a positive correlation coefficient is calculated and a positive neighborhood correlation coefficient exceeding a predetermined significance level is calculated. A third extraction step for extracting from the data storage unit;
The name identification support processing program according to any one of appendices 23 to 28, further including:

(付記30)
前記第1の所定の条件が、前記第1のカラムと前記第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含む
付記29記載の名寄せ支援処理プログラム。
(Appendix 30)
The name identification support according to appendix 29, wherein the first predetermined condition further includes a condition that the number of records in which no data is missing in the first column and the second column is equal to or greater than a fourth threshold. Processing program.

(付記31)
前記第2の所定の条件が、当該レコードペアについて前記第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含む
付記29又は30記載の名寄せ支援処理プログラム。
(Appendix 31)
The name identification support processing program according to attachment 29 or 30, wherein the second predetermined condition further includes a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold.

(付記32)
前記重み付け加算値の重み値が、前記類似データの出現頻度の総和に対する当該類似データの出現頻度の比である
付記29乃至31のいずれか1つ記載の名寄せ支援処理プログラム。
(Appendix 32)
32. The name identification support processing program according to any one of supplementary notes 29 to 31, wherein a weight value of the weighted addition value is a ratio of an appearance frequency of the similar data to a sum of the appearance frequencies of the similar data.

(付記33)
前記第2の値が、
前記第1のカラムと前記第3のカラムとの回帰計算結果から前記第1のカラムにおけるデータの類似度に対応する前記第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である
付記29乃至32のいずれか1つ記載の名寄せ支援処理プログラム。
(Appendix 33)
The second value is
The similarity in the third column corresponding to the data similarity in the first column is calculated from the regression calculation result of the first column and the third column, and the calculated similarity is calculated with respect to the calculated similarity 34. The name identification support processing program according to any one of supplementary notes 29 to 32, which is a result of adding random number values.

100,700 名寄せ支援処理装置
110 データ読み込み部 120 第1データ格納部
130 相関計算部 140 近傍相関計算部
150 第2データ格納部 160 カラム処理部
170 出力データ格納部
161 カラム優先度計算部 162 カラム抽出処理部
163 出力部
600 カラム選択部 710 前処理部
720 推定部 730 第3データ格納部
100,700 Name identification support processing device 110 Data reading unit 120 First data storage unit 130 Correlation calculation unit 140 Neighborhood correlation calculation unit 150 Second data storage unit 160 Column processing unit 170 Output data storage unit 161 Column priority calculation unit 162 Column extraction Processing unit 163 Output unit 600 Column selection unit 710 Preprocessing unit 720 Estimation unit 730 Third data storage unit

Claims (13)

データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納し、前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納する相関係数算出部と、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出部と、
前記相関係数算出部で算出された前記相関係数が正の値であり、且つ前記近傍相関係数算出部で算出された前記近傍相関係数又は当該近傍相関係数にデータ欠損が発生していないレコードの割合乗じた積が所定の有意水準を超える正の値である前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出処理を実施するカラム処理部と、
を有する名寄せ支援処理装置。
For each column in the database, a first data similarity between records is calculated, stored in a data storage unit, and the first data similarity stored in the data storage unit for each combination of the columns A correlation coefficient calculating unit that calculates a correlation coefficient and stores the correlation coefficient in the data storage unit;
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. A neighborhood correlation coefficient calculation unit that calculates a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and stores it in the data storage unit;
The correlation coefficient calculated by the correlation coefficient calculation unit is a positive value, and data loss occurs in the neighborhood correlation coefficient or the neighborhood correlation coefficient calculated by the neighborhood correlation coefficient calculation unit. A column processing unit that performs a first extraction process of extracting from the data storage unit a combination of the columns that is a positive value in which a product obtained by multiplying a ratio of records that does not exceed a predetermined significance level ;
A name identification support processing apparatus.
前記近傍相関係数算出部が、
前記注目カラムのデータで前記レコードをソートし、当該ソート後の並びにおいて前記注目レコードの前後所定数のレコードを前記注目レコード内のデータに類似する又は類似するとされるデータを有するレコードとして特定する
請求項1記載の名寄せ支援処理装置。
The neighborhood correlation coefficient calculating unit
The records are sorted by the data of the target column, and a predetermined number of records before and after the target record are specified as records having data similar to or similar to the data in the target record in the sorted sequence. Item 1. The name identification support processing device according to Item 1.
前記カラム処理部は、
抽出された前記カラムの組み合わせに含まれるカラムである抽出カラムの各々について、当該抽出カラムと他の抽出カラムとの間の前記相関係数と前記近傍相関係数との差を有用度として算出し、前記データ格納部に格納し、
前記抽出カラムの各々について、当該抽出カラムについて算出された前記有用度と前記他の抽出カラムについて算出された当該抽出カラムとの前記有用度とから優先度を算出し、前記データ格納部に格納する、
請求項1又は2記載の名寄せ支援処理装置。
The column processing unit
For each extraction column that is a column included in the extracted combination of columns, the difference between the correlation coefficient between the extraction column and another extraction column and the neighborhood correlation coefficient is calculated as a usefulness. , Stored in the data storage unit,
For each of the extraction columns, a priority is calculated from the usefulness calculated for the extraction column and the usefulness of the extraction column calculated for the other extraction column, and stored in the data storage unit ,
The name identification support processing apparatus according to claim 1 or 2.
前記カラム処理部は、
前記データ格納部から、前記相関係数算出部で算出された前記相関係数又は当該相関係数にデータ欠損が発生していないレコードの割合乗じた積が所定の有意水準を超える正の値である前記カラムの組み合わせを抽出する第2抽出処理を実施し、
前記第1抽出処理において抽出された前記カラムの組み合わせに含まれるカラムと前記第2抽出処理において抽出された前記カラムの組み合わせに含まれるカラムとに共通するカラムのうち、前記優先度が最も高いカラムを抽出する、
請求項3記載の名寄せ支援処理装置。
The column processing unit
A positive value in which the product obtained by multiplying the correlation coefficient calculated by the correlation coefficient calculation unit or the ratio of records in which no data loss has occurred in the correlation coefficient calculation unit from the data storage unit exceeds a predetermined significance level A second extraction process for extracting a combination of the columns,
The column having the highest priority among the columns common to the columns included in the combination of columns extracted in the first extraction process and the columns included in the combination of columns extracted in the second extraction process Extract,
The name identification support processing apparatus according to claim 3.
前記カラム処理部は、
前記第1抽出処理において抽出された前記カラムの組み合わせに含まれるカラムから前記第2抽出処理において抽出された前記カラムの組み合わせに含まれるカラムを除外した後のカラムである第2抽出カラムと、前記優先度が最も高いカラムとの組み合わせを生成する
請求項4記載の名寄せ支援処理装置。
The column processing unit
A second extraction column that is a column after excluding a column included in the combination of columns extracted in the second extraction process from a column included in the combination of columns extracted in the first extraction process; The name identification support processing apparatus according to claim 4, wherein a combination with a column having the highest priority is generated.
前記データ格納部に格納されている前記第2抽出カラムの優先度と前記優先度が最も高いカラムの優先度とが、所定の閾値以上である場合に組み合わせる
ことを特徴とする請求項5記載の名寄せ支援処理装置。
The combination according to claim 5, wherein the priority of the second extraction column stored in the data storage unit and the priority of the column having the highest priority are combined when they are equal to or higher than a predetermined threshold. Name identification support processing device.
前記カラム処理部により抽出されたカラム又は生成された組み合わせに係るカラムである第1のカラム以外のカラムである第2のカラムのうち、データ欠損が発生しており且つ前記第1のカラムとの相関係数が閾値以上であるという条件を含む第1の所定の条件を満たす第3のカラムを特定し、各レコードペアについて、前記第1のカラムにおけるデータの類似度が第2の閾値以上であるという条件を含む第2の所定の条件を満たす場合には前記第3のカラムにおける当該レコードペアの非欠損データとの類似度が第3の閾値以上であり且つ前記第3カラムに出現する類似データの類似度の重み付け加算値を前記第3のカラムについての類似度として算出し、前記第2の所定の条件を満たさない場合には前記第1のカラムと前記第3のカラムとの他の方法に基づき算出した第2の値を前記第3のカラムについての類似度として算出し、前記データ格納部に格納する類似度推定部と、
をさらに有し、
前記類似度推定部の処理結果を格納する前記データ格納部に格納されているデータを用いて、前記相関係数算出部が、前記第1の類似度の相関係数を再度算出し、前記近傍相関係数算出部が、前記第2の類似度の相関係数を再度算出し、
前記カラム処理部が処理を再度行う
請求項1乃至6のいずれか1つ記載の名寄せ支援処理装置。
Of the second column that is a column other than the first column that is the column extracted by the column processing unit or the generated combination, the data loss has occurred and the first column A third column that satisfies a first predetermined condition including a condition that the correlation coefficient is equal to or greater than a threshold is specified, and for each record pair, the data similarity in the first column is equal to or greater than the second threshold. If the second predetermined condition including the condition of being present satisfies the second predetermined condition, the similarity with the non-missing data of the record pair in the third column is equal to or higher than a third threshold and appears in the third column A weighted addition value of the similarity of data is calculated as the similarity for the third column, and when the second predetermined condition is not satisfied, the first column and the third column A second value calculated as the similarity for said third column, similarity degree estimation unit to be stored in the data storage unit, which is calculated based on other methods,
Further comprising
Using the data stored in the data storage unit that stores the processing result of the similarity estimation unit, the correlation coefficient calculation unit calculates the correlation coefficient of the first similarity again, and the neighborhood The correlation coefficient calculation unit calculates the correlation coefficient of the second similarity again,
The name identification support processing apparatus according to any one of claims 1 to 6, wherein the column processing unit performs the process again.
前記第1の所定の条件が、前記第1のカラムと前記第2のカラムとにおいて共にデータ欠損となっていないレコード数が第4の閾値以上存在するという条件をさらに含む
請求項7記載の名寄せ支援処理装置。
The name collation according to claim 7, wherein the first predetermined condition further includes a condition that the number of records in which no data is missing in the first column and the second column is equal to or greater than a fourth threshold. Support processing device.
前記第2の所定の条件が、当該レコードペアについて前記第1のカラムにおけるデータの出現頻度が第5の閾値未満である条件をさらに含む
請求項7又は8記載の名寄せ支援処理装置。
The name collation support processing apparatus according to claim 7 or 8, wherein the second predetermined condition further includes a condition in which the appearance frequency of data in the first column for the record pair is less than a fifth threshold.
前記重み付け加算値の重み値が、前記類似データの出現頻度の総和に対する当該類似データの出現頻度の比である
請求項7乃至9のいずれか1つ記載の名寄せ支援処理装置。
The name identification support processing apparatus according to any one of claims 7 to 9, wherein a weight value of the weighted addition value is a ratio of an appearance frequency of the similar data to a sum of the appearance frequencies of the similar data.
前記第2の値が、
前記第1のカラムと前記第3のカラムとの回帰計算結果から前記第1のカラムにおけるデータの類似度に対応する前記第3のカラムにおける類似度を算出し、当該算出した類似度に対して乱数値を加算した結果である
請求項7乃至10のいずれか1つ記載の名寄せ支援処理装置。
The second value is
The similarity in the third column corresponding to the data similarity in the first column is calculated from the regression calculation result of the first column and the third column, and the calculated similarity is calculated with respect to the calculated similarity The name identification support processing device according to any one of claims 7 to 10, wherein the name identification support processing device is a result of adding random values.
データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、
前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納する相関係数算出ステップと、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出ステップと、
前記相関係数算出ステップで算出された前記相関係数が正の値であり、且つ前記近傍相関係数算出ステップで算出された前記近傍相関係数又は当該近傍相関係数にデータ欠損が発生していないレコードの割合乗じた積が所定の有意水準を超える正の値である前記カラムの組み合わせを、前記データ格納部から抽出する抽出する第1抽出ステップと、
を含み、コンピュータにより実行される名寄せ支援処理方法。
Calculating a first data similarity between records for each column in the database and storing in a data storage unit;
Calculating a correlation coefficient of the first data similarity for each of the combinations of the column is stored in the data storage unit, a correlation coefficient calculating step of storing in the data storage unit,
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. Calculating a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and
The correlation coefficient calculated in the correlation coefficient calculation step is a positive value, and data loss occurs in the neighborhood correlation coefficient calculated in the neighborhood correlation coefficient calculation step or the neighborhood correlation coefficient. A first extraction step of extracting from the data storage unit a combination of the columns that is a positive value in which a product obtained by multiplying the percentage of records that is not greater than a predetermined significance level ;
And a name identification support processing method executed by a computer.
データベースにおけるカラム毎に、レコード間の第1のデータ類似度を算出し、データ格納部に格納するステップと、
前記カラムの組み合わせの各々について前記データ格納部に格納されている前記第1のデータ類似度の相関係数を算出し、前記データ格納部に格納する相関係数算出ステップと、
前記カラムのうちの任意のカラムである注目カラムにおける任意のレコードである注目レコード内のデータに類似する又は類似するとされるデータを有するレコードを特定し、前記注目レコードと特定されたレコードとの間の各々における、前記カラム毎の第2のデータ類似度を算出又は特定して前記データ格納部に格納すると共に、前記注目カラムと他のカラムとの組み合わせの各々について前記データ格納部に格納されている前記第2のデータ類似度の相関係数を近傍相関係数として算出して前記データ格納部に格納する近傍相関係数算出ステップと、
前記相関係数算出ステップで算出された前記相関係数が正の値であり、且つ前記近傍相関係数算出ステップで算出された前記近傍相関係数又は当該近傍相関係数にデータ欠損が発生していないレコードの割合乗じた積が所定の有意水準を超える正の値である前記カラムの組み合わせを、前記データ格納部から抽出する第1抽出ステップと、
を、コンピュータに実行させる名寄せ支援処理プログラム。
Calculating a first data similarity between records for each column in the database and storing in a data storage unit;
Calculating a correlation coefficient of the first data similarity for each of the combinations of the column is stored in the data storage unit, a correlation coefficient calculating step of storing in the data storage unit,
A record having data similar to or similar to data in an attention record that is an arbitrary record in an attention column that is an arbitrary column of the columns is identified, and the record between the attention record and the identified record is specified. And calculating or specifying the second data similarity for each column and storing it in the data storage unit, and storing each combination of the column of interest and other columns in the data storage unit. Calculating a correlation coefficient of the second data similarity as a neighborhood correlation coefficient and storing it in the data storage unit; and
The correlation coefficient calculated in the correlation coefficient calculation step is a positive value, and data loss occurs in the neighborhood correlation coefficient calculated in the neighborhood correlation coefficient calculation step or the neighborhood correlation coefficient. A first extraction step of extracting, from the data storage unit, a combination of the columns that is a positive value in which a product obtained by multiplying a ratio of records that is not greater than a predetermined significance level ;
Name identification support processing program that causes a computer to execute
JP2011032645A 2010-06-04 2011-02-17 Name identification support processing apparatus, method and program Expired - Fee Related JP5640796B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011032645A JP5640796B2 (en) 2010-06-04 2011-02-17 Name identification support processing apparatus, method and program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010129184 2010-06-04
JP2010129184 2010-06-04
JP2011032645A JP5640796B2 (en) 2010-06-04 2011-02-17 Name identification support processing apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2012014684A JP2012014684A (en) 2012-01-19
JP5640796B2 true JP5640796B2 (en) 2014-12-17

Family

ID=45600981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011032645A Expired - Fee Related JP5640796B2 (en) 2010-06-04 2011-02-17 Name identification support processing apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5640796B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5367112B2 (en) * 2012-03-22 2013-12-11 株式会社東芝 Data analysis support device and data analysis support processing program
US20180247163A1 (en) * 2016-03-23 2018-08-30 Hitachi, Ltd. Computer system and data classification method
JP6690399B2 (en) * 2016-05-18 2020-04-28 富士通株式会社 Evaluation program, evaluation method, and information processing device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3651550B2 (en) * 1998-02-23 2005-05-25 三菱電機株式会社 Attribute compression apparatus and method
JP2000353163A (en) * 1999-06-11 2000-12-19 Just Syst Corp Database processor and storage medium stored with program for database processing
JP5064791B2 (en) * 2006-12-27 2012-10-31 キヤノンソフトウェア株式会社 Form data search device, form data search method and program

Also Published As

Publication number Publication date
JP2012014684A (en) 2012-01-19

Similar Documents

Publication Publication Date Title
JP7169369B2 (en) Method, system for generating data for machine learning algorithms
JP4429236B2 (en) Classification rule creation support method
CN108683530B (en) Data analysis method and device for multi-dimensional data and storage medium
TW202030685A (en) Computer implemented event risk assessment method and device
US20120239596A1 (en) Classification of stream-based data using machine learning
KR20080075501A (en) Information classification paradigm
CN112685324B (en) Method and system for generating test scheme
CN112163553B (en) Material price accounting method, device, storage medium and computer equipment
CN110490237B (en) Data processing method and device, storage medium and electronic equipment
JP2019503541A (en) An annotation system for extracting attributes from electronic data structures
CN112395881B (en) Material label construction method and device, readable storage medium and electronic equipment
CN111369294B (en) Software cost estimation method and device
CN114936158A (en) Software defect positioning method based on graph convolution neural network
JP2012073812A (en) Data analysis support system and method
JP5391637B2 (en) Data similarity calculation system, data similarity calculation method, and data similarity calculation program
JP5640796B2 (en) Name identification support processing apparatus, method and program
CN113360350A (en) Method, device, equipment and storage medium for positioning root cause alarm of network equipment
US10007593B2 (en) Injection of data into a software application
CN112631889A (en) Portrayal method, device and equipment for application system and readable storage medium
JP4479745B2 (en) Document similarity correction method, program, and computer
CN115936748A (en) Business big data analysis method and system
EP3379461A1 (en) Method for computer-assisted determination of the performance of a classification model
CN117891811B (en) Customer data acquisition and analysis method and device and cloud server
JP7491410B2 (en) Data classification device, data classification method and data classification program
CN117648635B (en) Sensitive information classification and classification method and system and electronic equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140930

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141013

R150 Certificate of patent or registration of utility model

Ref document number: 5640796

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees