JP2004227037A - フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法 - Google Patents
フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法 Download PDFInfo
- Publication number
- JP2004227037A JP2004227037A JP2003010528A JP2003010528A JP2004227037A JP 2004227037 A JP2004227037 A JP 2004227037A JP 2003010528 A JP2003010528 A JP 2003010528A JP 2003010528 A JP2003010528 A JP 2003010528A JP 2004227037 A JP2004227037 A JP 2004227037A
- Authority
- JP
- Japan
- Prior art keywords
- field
- value
- distance
- calculating
- variance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】本発明は、複数の表情報の間のフィールドの同一性判断を言語によらず簡単且つ確実に行えるフィールドマッチング装置、プログラム、記憶媒体及び同一フィールド判定方法を提供することを目的とする。
【解決手段】本発明は、比較する表情報の各フィールドを構成する各要素に対して、要素の文字コードの加算値を計算するコード加算手段12と、フィールドごとに加算値の平均値を求める平均演算手段14と、偏差値または分散を計算する偏り演算手段15と、フィールドを、平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の距離を演算する距離演算手段17と、この距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段18とを備え、同一フィールドを文字コードで判定することを特徴とする。
【選択図】 図1
【解決手段】本発明は、比較する表情報の各フィールドを構成する各要素に対して、要素の文字コードの加算値を計算するコード加算手段12と、フィールドごとに加算値の平均値を求める平均演算手段14と、偏差値または分散を計算する偏り演算手段15と、フィールドを、平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の距離を演算する距離演算手段17と、この距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段18とを備え、同一フィールドを文字コードで判定することを特徴とする。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、比較する複数の表情報の間で同じ種類のデータを格納したフィールドを同一フィールドとして判定するフィールドマッチング装置と、それをコンピュータで実行するためのプログラム、さらにそれを格納した記憶媒体、及び同一フィールドを判定するための同一フィールド判定方法に関する。
【0002】
【従来の技術】
インターネットの普及により、ウェブページは情報入手の有力なツールの1つになってきている。しかし、目的のウェブページのURL(Uniform Resource Locator)が分かっている場合はきわめて少なく、通常検索エンジンを使って検索することが行われる。すなわち、検索エンジンに単語やキーワードを与え、これらを(一般にはすべて)含むウェブページが検索結果として表示される。この検索集合は検索条件にマッチしたウェブページのURLとタイトル、簡単な説明文など同種種情報を含んでいる。
【0003】
また、ウェブ上には同種の情報を繰り返し列挙するタイプのウェブページが多数存在する。例えば、オークションのリストは1つのウェブページ中に商品に関するデータ(製品名、型番、購入日、傷の有無、保証書の有無など)が繰り返し表示される。
【0004】
従って、上述の検索エンジンによる検索集合、あるいは同種の情報を繰り返すウェブページは、利用の仕方を工夫すればデータベースのような使い方が可能になる。
【0005】
現在、一つのウェブサイトの情報を構造化し、属性名のない表形式のデータに変換する研究がすすめられている(非特許文献1)。これは、表計算ソフトで作ったような行列配置の純然たる表ではないが、同様の構造で1つの表情報として認められるものである。そこで以下、この純然たる表のほか、構造化された属性名のない表形式のデータのような表情報等まで含めて、表情報という。
【0006】
この表情報には、複数の属性からなるひとかたまりのデータが複数集まっており、このひとかたまりを一般にレコードとよんでいる。名簿の表の場合は、1レコードが1人分のデータであり、これは例えば「氏名」「年齢」「性別」「電話番号」などの属性からなる。なお、各属性ごとのデータの集合をフィールドとよぶ。ウェブ上のデータには、もともと属性名がない場合が多いので、上述の変換された表情報には「タイトル」「URL」といった属性名は通常付与されていない。
【0007】
さて、こうした2つ以上の表情報、場合によっては1の表情報内のフィールドが同一フィールドであるか否かを判定するのは、同種情報をもった複数のウェブサイト間の情報を統一的に扱いたい場合などに問題となる。この比較したフィールドが同一フィールドであると判断できれば、複数のサイトの同種情報を統合することが可能になる。しかし、属性名が付与されている場合でも、個別に自由に付与された2つの属性名が同一フィールドに属するのか否かを判定するのはきわめて難しい。表現の「ゆれ」もある。その上、上述したようにウェブページからラッパー生成したデータには通常属性名はないし、通常の関係データベースの表情報でも共通の属性名を持っていることは希であり、属性名がある場合より一段と困難になる。
【0008】
すなわち、あるサイトに設けられた名簿と、別のサイトに設けられた名簿を統一的に扱おうとしたとき、記述するマークアップ言語や、表示順もばらばらであり、属性名がある場合これが氏名であれば、「氏名」「名前」「名称」「会社名」「顧客」といった表記の異なった属性名が付されていることが多い。また、属性名が付与されていない場合はリストもしくは単なる記載が掲載されているだけのことが多い。また、属性自体も多種多様で、所属や役職、電話、メール、住所等さまざまのフィールドがあり、各名簿ごとに属性名、フィールド構成が相違している。
【0009】
このような同一フィールドであるにも関わらず、異なった属性名が付けられていたり、属性名がない場合に、これを同一フィールドであると機械的に判断することはきわめて困難である。
【0010】
同様のことは既成のデータベース間においても発生する。データベースごとに各レコードを分類したフィールドとその属性名が異なっていることが多く、これを統合するのは1つ1つの検討を手作業で行わない限り難しい。しかし、これを克服して同一フィールドか否かの推定ができれば、簡単にこれを統合することができるはずである。そして、現在存在する多数の検索エンジンの出力形式はそれぞれ異なっているが、これができれば各エンジンによる検索結果を統一して扱うことが可能になる。
【0011】
また、ウェブデータや関係データベースは多数の国で利用されており、内容はそれぞれの言語で記述されている。従って、どこでも通用し、どのような検索も行える同一フィールド判定は、属性名を使わず、また内容を記述する言語に依存しない方法であることが望ましいが、これを実行するための方向性すら見当たらないことも、同一フィールド判定が実行不可能と解されている要因の1つである。
【0012】
【非特許文献1】
山田,池田,廣川共著,「Web上の多言語テキストデータからのラッパー自動生成(Automatic Wrapper Generation for Multilingual Web Resources)」,Proc. of the 5th International Conference on Discovery Science,Lecture Notes in Computer Science,(ドイツ国),シュプリンガー(Springer),2002年11月24日,第2534巻,p.332−339
【発明が解決しようとする課題】
従来1つの表の中で、ある要素がどのフィールドに属するか否かを決定する方法はいろいろ検討されてきた。また、このとき問題となるレコードの表記の「ゆれ」、例えば「日本銀行」といったり「日銀」といったりする「ゆれ」を吸収する方法の研究も行われている。
【0013】
しかし、無関係のデータベース間で、双方の表のフィールドが同一フィールドに当るか否かを推定して関連付ける方法は難問であり、現在手付かずの状態にある。そしてこの場合もレコードの表記の「ゆれ」を吸収できるものでなければ、同一と判断することはできない。
【0014】
また、ウェブ上のテキストデータを、あたかもデータベースのように、扱い易く、強力且つ確実な情報入手ツールとして利用したいというニーズは高いが、これを実現するためには複数のサイト間の同種情報を統一して扱う必要がある。しかし、各サイトごとに必要な情報を抜き出して表形式に変換したとしても、この表情報には一般には属性名はないし、また完全な表情報でも共通の属性名を持っていることは少ない。従って、ウェブ上のテキストデータをデータベースのように利用するためには、無関係の表情報間でフィールドが同一フィールドに当るか否かを判定する方法が不可欠である。
【0015】
そして、これは既成のデータベース間においても同様であり、データベースごとに各レコードを分類したフィールドとその属性名が異なっていることが多く、これを統合するのは難問であり、これを統合する方法の開発が望まれる。
【0016】
また、ウェブデータや関係データベースは多数の国で利用されており、内容はそれぞれの言語で記述されている。属性名を使わず内容、つまり、データによる同一フィールド判定は、内容を記述する言語に依存しない方法が必要である。
【0017】
そこで本発明は、表情報間のフィールドの同一性判断を言語によらず簡単且つ確実に行えるフィールドマッチング装置を提供することを目的とする。
【0018】
また本発明は、表情報間のフィールドの同一性判断を言語によらず簡単且つ確実に行えるプログラムを提供することを目的とする。
【0019】
そして本発明は、表情報間のフィールドの同一性判断が言語によらず簡単且つ確実に行えるプログラムを記録した記憶媒体を提供することを目的とする。
【0020】
さらに本発明は、表情報間のフィールドの同一性判断が言語によらず簡単且つ確実に行える同一フィールド判定方法を提供することを目的とする。
【0021】
【課題を解決するための手段】
上記の課題を解決するために本発明のフィールドマッチング装置は、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段と、フィールドごとに加算値の平均値を求める平均演算手段と、フィールドごとに加算値の偏差値または分散を計算する偏り演算手段と、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段と、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段とを備え、比較する表情報の同一フィールドを文字コードで判定することを特徴とする。
【0022】
本発明は、この構成により、表情報間のフィールドの同一性判断を言語によらず簡単且つ確実に行える。
【0023】
【発明の実施の形態】
本発明の第1の発明は、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段と、フィールドごとに加算値の平均値を求める平均演算手段と、フィールドごとに加算値の偏差値または分散を計算する偏り演算手段と、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段と、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段とを備え、比較する表情報の同一フィールドを文字コードで判定することを特徴とするフィールドマッチング装置であり、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、フィールドを構成する要素の文字列には数字、記号、ひらかな、カタカナ、アルファベット、漢字等の文字種が含まれているが、これらはコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには文字種ごとに似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。これにより距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0024】
本発明の第2の発明は、距離演算手段が、平均値と偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項1記載のフィールドマッチング装置であり、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、偏りの内容を正確に把握できる。
【0025】
本発明の第3の発明は、平均値と偏差値または分散の集合の中で最大値を抽出するスケール調整手段を備え、異なる要素の数に対して最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項2記載のフィールドマッチング装置であり、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0026】
本発明の第4の発明は、1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項1〜3のいずれかに記載のフィールドマッチング装置であり、同一フィールドとはできないが、文字列情報が類似しているフィールドを対応付けからおとし、同一フィールドの判定の確度を上げることができる。
【0027】
本発明の第5の発明は、コンピュータを、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段、フィールドごとに加算値の平均値を求める平均演算手段、フィールドごとに加算値の偏差値または分散を計算する偏り演算手段、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段、として機能させるためのプログラムであり、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、数字、記号、ひらかな、カタカナ、アルファベット、漢字等はコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには文字種ごとに似た重みを持つという傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと文字列の要素の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。コンピュータを使って簡単に平均値や偏差値または分散、距離を演算させることができ、距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0028】
本発明の第6の発明は、距離演算手段が、平均値と偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項5記載のプログラムであり、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、コンピュータによって偏りの内容を正確に把握できる。
【0029】
本発明の第7の発明は、平均値と偏差値または分散の集合の中で最大値を抽出するスケール調整手段として機能し、異なる要素の数に対して最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項6記載のプログラムであり、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、コンピュータを使って偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0030】
本発明の第8の発明は、1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項5〜7のいずれかに記載のプログラムであり、同一フィールドではない文字列情報が類似しているフィールドを対応付けからおとし、コンピュータを使って同一フィールドの判定の確度を上げることができる。
【0031】
本発明の第9の発明は、コンピュータを、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段、フィールドごとに加算値の平均値を求める平均演算手段、フィールドごとに加算値の偏差値または分散を計算する偏り演算手段、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段、として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であり、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、数字、記号、ひらかな、カタカナ、アルファベット、漢字等はコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには同じ文字種は似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。コンピュータを使って簡単に平均値や偏差値または分散、距離を演算させることができ、距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0032】
本発明の第10の発明は、距離演算手段が、平均値と偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項11記載のプログラムを記録したコンピュータ読み取り可能な記録媒体であり、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、コンピュータによって偏りの内容を正確に把握できる。
【0033】
本発明の第11の発明は、平均値と偏差値または分散の集合の中で最大値を抽出するスケール調整手段として機能し、異なる要素の数に対して最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項10記載のプログラムを記録したコンピュータ読み取り可能な記録媒体であり、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、コンピュータを使って偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0034】
本発明の第12の発明は、1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項9〜11のいずれかに記載のプログラムを記録したコンピュータ読み取り可能な記録媒体であり、同一フィールドではない文字列情報が類似しているフィールドを対応付けからおとし、コンピュータを使って同一フィールドの判定の確度を上げることができる。
【0035】
本発明の第13の発明は、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するとともにフィールドごとに加算値の平均値を求め、フィールドごとに加算値の偏差値または分散を計算し、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を求め、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けることを特徴とする同一フィールド判定方法であり、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、フィールドを構成する要素の文字列には数字、記号、ひらかな、カタカナ、アルファベット、漢字等の文字種が含まれているが、これらはコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには同じ文字種は似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が出現しているかを反映する。これにより距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0036】
本発明の第14の発明は、平均値と偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項13記載の同一フィールド判定方であり、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、偏りの内容を正確に把握できる。
【0037】
本発明の第15の発明は、平均値と偏差値または分散の集合の中で最大値を抽出し、異なる要素の数に対して該最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項14記載の同一フィールド判定方法であり、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0038】
本発明の第16の発明は、1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項13〜15のいずれかに記載の同一フィールド判定方法であり、同一フィールドではない文字列情報が類似しているフィールドを対応付けからおとし、同一フィールドの判定の確度を上げることができる。
【0039】
本発明の第17の発明は、文字コード表が16進数で特定される場合、10進数に変換して、各要素ごとに文字コードの加算値を計算することを特徴とする請求項13〜16のいずれかに記載の同一フィールド判定方法であり、文字コードの表現によらず加算値の計算が可能になる。
(実施の形態1)
以下、本発明の実施の形態1におけるフィールドマッチング装置と、そのプログラム、またそれを記録したコンピュータ読み取り可能な記録媒体、さらにその同一フィールド判定方法について説明する。図1(a)は本発明における実施の形態1におけるフィールドマッチング装置の構成図、図1(b)は(a)のフィールドマッチング装置のプログラム構成図、図2(a)は本発明における実施の形態1における第1の表情報の説明図、図2(b)は本発明における実施の形態1における第2の表情報の説明図、図3は文字コード表の要部説明図、図4(a)は本発明における実施の形態1における第1の表情報の写像空間におけるフィールドの点の座標の説明図、図4(b)は本発明における実施の形態1における第2の表情報の写像空間におけるフィールドの点の座標の説明図、図5(a)は本発明における実施の形態1における2つの表情報のフィールドの点分布図、図5(b)は(a)のフィールド点間の対応関係と最短距離の説明図、図6は本発明における実施の形態1における同一フィールド判定方法のフローチャート、図7は図6のフローチャートにおけるフィールドの座標計算のフローチャートである。
【0040】
本発明の実施の形態1におけるフィールドマッチング装置は、図1(a)(b)に示すように構成される。図1(a)において、1は中央演算処理装置(CPUであり、本発明のコンピュータ)等から構成されプログラムをロードして演算を行いシステム制御し各種機能を実行するフィールドマッチング装置の中央演算/制御部、2は中央演算/制御部1が実行するプログラムを記憶した記憶媒体から構成される記憶部、3はキーボードやマウス等の入力手段、4はディスプレー等に表示させる表示手段、5はインターネット等のネットワークと接続するための通信制御部、6はネットワークとの通信管理を行うネットワークサーバ部である。なお、入力される表情報は記憶部2に格納されているものとするが、実施の形態1のフィールドマッチング装置は通信制御部5やネットワークサーバ部6を備えているから、プロトコルTCP/IP等でネットワークからマークアップ言語で記載された表情報のファイルをダウンロードしたり、入力手段から、もしくは関係データベースから表情報を受け取ることも可能である。また、実施の形態1のフィールドマッチング装置は、フィールドが同一であると判定したときには、同一フィールドを関係づけて記憶し、場合によっては2以上の表情報のフィールドを統合し、これを基に各要素を統合させることができる。
【0041】
なお、実施の形態1のフィールドマッチング装置は、ネットワークとの通信を行うため通信制御部5やネットワークサーバ部6を備えている。しかし、この通信制御部5やネットワークサーバ部6は、ネットワークからデータのダウンロードを行わなければ必ずしも必要でない。この場合、フィールドマッチング装置は単にフィールドマッチングだけを行うマシンとなる。
【0042】
次に、フィールドマッチング装置の中央演算/制御部1の詳細について説明する。そして以下説明する各機能手段はいずれも中央処理装置(コンピュータ)にプログラムを記憶媒体から読み込んで処理を実行する手段である。図1(b)において、11は表情報からUNICODEやシフトJIS、ASCII等の文字コード表を参照してフィールドの各要素のコード情報を得て、これを写像空間上で位置付ける一連の計算を処理及び管理するフィールド座標処理手段である。なお、詳細は後述するが、このコード情報は各フィールドの特徴を与える指標となるもので、要素の「平均値」、「偏差値または分散」、「独立の要素数」の3つの座標軸からなる3次元空間上の点として表される。この実施の形態1においては3次元の座標を使って各フィールドの特徴を表現したが、事情に応じて2次元または4次元以上の座標で表現するのがよい場合もある。また、表情報には、表計算ソフトで作ったような表のほか、構造化された属性名のない表形式のデータのような表情報等が含まれることは上述した通りである。
【0043】
フィールドの各要素から計算されるコード情報がフィールドの特徴を示す理由は、同一フィールドに属する要素が文字コードで表されたとき一定の傾向をもっていることに原因する。すなわち、アルファベット、数字、ひらかな、カタカナ、漢字、記号は、コード表の中でそれぞれまとまった状態(連続番号のかたまり)で分散して配置されており、文字列を文字コードの列として把握したとき、各文字コードの総和が文字列の特徴を反映するからである。
【0044】
すなわち、あるフィールドの文字列が数字や記号だけで表現された短い文字列の場合なら総和の平均値と偏差値または分散は共に小さく、漢字とアルファベットが混在しているような場合には文字コードがばらばらな大きさで、当然その総和も要素ごとにばらついてしまう。このため、この偏りの指標として偏差値または分散を計算すれば、偏りの程度が分かることになる。さらに、あるフィールドに同一文字列が多数あった場合とない場合とで、偏差値または分散に差が生じるため、異なった文字列の要素数の情報を指標にすると、偏りの精度が向上する。
そして、この異なった文字列の「要素数」は「平均値」、「偏差値または分散」と異なって文字コードと関係せず、しかも、小さい差でも重要であるため、この座標軸のスケールを調整して使用するのが同一判定の感度を向上させる。
【0045】
図1(b)において、12はフィールド座標処理手段11からフィールド内のある要素を受け取ると各要素の座標を得るために各文字の文字コードを抽出する文字コード選択手段、13は文字コード選択手段12が抽出した各要素の文字コードを加算するコード加算手段である。14はフィールドに属する要素の各要素の加算値からフィールドにおける平均値を演算する平均値演算手段、15は平均値演算手段14が取得した平均値を使って各要素の偏りの指標として偏差値または分散を計算する偏り演算手段、16は写像空間における各フィールドの特徴を分かり易く示すために平均値演算手段14と偏り演算手段15が算出した値の中で最大値Mをもとめてスケール調整を行うスケール調整手段、17はフィールド座標処理手段11が出力した各要素の座標間の距離を演算する距離演算手段、18は要素間の座標上の距離から最小距離のフィールドを同一性ありとして対応付けるフィールド対応付け手段である。
【0046】
そこで、具体的な表情報からコード情報を得て、各フィールドの特徴を与える指標となる写像空間上の点の座標を取得するプロセスについて図2(a)(b)に基づいて具体的に説明する。図2(a)はA大学a1学部の教官名簿である。この教官名簿によれば、フィールドの数は「5」であって、第1のフィールドの属性名は教授等の「官職」である。第2のフィールドの属性名は「学位」、第3のフィールドの属性名は「名前」、第4のフィールドの属性名は「メールアドレス」、第5のフィールドの属性名は「電話」である。なお、これらの属性名は説明の都合上付与しているが、もともとの名簿データにはこれらの属性名は存在しておらず、従って、表形式に変換したあとも(手作業で付与しないかぎり)属性名は存在していないものである。
【0047】
これに対し、図2(b)に示しているのはB大学b1学部の教官名簿である。フィールドの数は「6」であって、第1のフィールドの属性名は教授等の「官職」であり、第2のフィールドの属性名は「氏名」、第3のフィールドの属性名は「名前(アルファベット表記)」、第4のフィールドの属性名は「内線」、第5のフィールドの属性名は「所在」、第6の属性名は「メールアドレス」である。
【0048】
A大学の教官名簿について、コード情報は次のようにして得られる。なお、実施の形態1においてはUNICODEを参照するものとする。その他JIS等他の文字コード表でもよい。図3は16進数によるUNICODEの文字コードを示している。例えば、第1のレコードのセルに記載された「九大太郎」は文字列「九」「大」「太」「郎」であるが、この「九」のUNICODEにおける文字コードは16進数で「4E5D」であり、10進数に変換すると「20061」となる。同様に、「大」のコードは16進数で「5927」10進数「22823」、「太」のコードは16進数で「592A」10進数で「22826」、「郎」のコードは16進数で「90CE」10進数で「37070」となる。フィールド座標処理手段11がこの文字列を抽出し、文字コード選択手段12がこの文字列に対して記憶部2に格納されているコード表(図3参照)を参照してこれらの文字のコードを読み出す。次いで、コード加算手段13が各文字のコードを加算する。「20061」、「22823」、「22826」、「37070」の和をとって「102780」を得る。
【0049】
同様に、第2のレコードの「特許花子」は文字列「特」「許」「花」「子」であり、これは10進数表現でそれぞれ文字コード「29305」「35377」「33457」「23376」に対応し、その和をとると「121515」となる。このほか図示はしないが第3のレコード、・・・が同様に計算される。
【0050】
また、第1レコードの他のセル「教授」は「25945」「25480」に対応するから、その和は「51425」となる。同じく「助教授」は文字列「助」「教」「授」と分解され「21161」「25945」「25480」となるから、その和として「72586」が得られる。さらに、電話番号「2296」は文字コード「50」「50」「57」「54」の列となるからその和は「211」となる。さらに、電話番号「2298」は「50」「50」「57」「56」であり、和は「213」である。
【0051】
次に、メールアドレスの「kyudai@・・・」は文字列「107」「121」「117」「100」「97」・・・であり、その和は「2346」となる。同様に、「hanako@・・・」は文字列「104」「97」「110」「97」「107」・・・であり、和として「2327」が得られる。
【0052】
同様、にB大学の教官名簿についても、第1のレコードのセルに記載された「繊維太郎」は「繊」「維」「太」「郎」の文字列として各文字コードが参照されて加算され、「Seni,Tarou」は「S」「e」「n」「i」「,」「T」「a」「r」「o」「u」がぞれぞれの文字コードが読み出され加算される。「7413」「4−104」「seni@・・・」についても同様に文字コードに変換されて和が計算される。第2のレコードについても同様であり、詳細は省略する。
【0053】
さて、上述したように各フィールドの特徴は、要素の「平均値」、「偏差値または分散」、「スケール調整を行った独立の要素数」の3つの座標軸で構成される3次元空間上の点として表される。この点の算出方法について以下説明する。なお、この実施の形態1においては写像空間として3次元の空間で特徴を表したが、条件によっては「要素の平均値」、「要素の偏差値または分散」だけの2次元、または他の要素を加えた4次元以上の写像空間で表現するのもよい。
【0054】
表がf1,f2,f3,・・・,fmのフィールドと、r1,r2,r3,・・・,rnのレコードから構成されたものとし、更にあるフィールドfiにおいて、各レコードに属する要素の文字コードの全文字分の合計値をvi1,vi2,vi3,・・・,vin、各フィールドfiの要素数nのうち独立した要素数(本発明の異なる要素の数)をNiとすると、このフィールドの平均値aviは(数1)、偏差値sviは(数2)で表される。なお、偏差値sviに代えて分散を使うのでもよい。
【0055】
【数1】
【0056】
【数2】
平均値演算手段14が加算値から(数1)に従って平均値aviを演算し、偏り演算手段15が(数2)に従って偏差値sviを計算する。
【0057】
ところで、このようにして得た全フィールドの平均値aviと偏差値sviの中で、最大値をMとすると、独立の要素数N1,N2,N3,・・・,Nmのスケールをavi,svi程度の大きさに調整することができる。すなわち、フィールドfiのNiに対してスケール調整を行い、Ni・M/niに変換する。なお、niはフィールドfiの全要素数である。通常、平均値aviと偏差値sviは文字コードに依存しほぼ同じスケールを有しているが、独立の要素数Niは文字コードを処理したものとは異なって絶対値が小さい。そこで、独立の要素数NiをMのオーダにするために、M/niをかけている。このスケール調整はスケール調整手段16によって実施される。
【0058】
このように各フィールドf1,f2,f3,・・・,fmの特徴を写像空間上の点で示したとき、座標(av1,sv1,N1・M/n1)がf1を特徴付ける点p1となり、座標(av2,sv2,N2・M/n2),・・・,座標(avm,svm,Nm・M/nm)がそれぞれフィールドf2を表す点p2、・・・、フィールドfmを表す点pmとなる。
【0059】
実施の形態1のフィールドマッチング装置は、第1の表情報についてフィールドfA 1,fA 2,・・・,fA i、また第2の表情報についてフィールドfB 1,fB 2,・・・,fBjの特徴を表す指標をそれぞれ写像空間上の点で表し、各点間距離を比較し、どのフィールドが同一かを判断する。以下このプロセスについて説明する。
【0060】
実施の形態1のフィールドマッチング装置のフィールド座標処理手段11は、第1の表情報から写像空間上の点p1,p2,・・・,piの座標を得たら、続いて第2の表情報から写像空間上の点q1,q2,・・・,qjの座標を計算する。次いでフィールド座標処理手段11はこのデータを距離演算手段17に送り、距離演算手段17が点p1,p2,・・・,piと点q1,q2,・・・,qjとの間のij通りの距離Lh(g=1〜i,h=1〜j)を算出する。次いでフィールド対応付け手段18が、点p1,p2,・・・,piからそれぞれ最小距離L1hmin〜Lihminに存在する点qm1,qm2・・・,qmiを選択する。
この最小距離L1hmin〜Lihminを満たす点のペア(p1,qm1),(p2, qm2),・・・,(pi , qmi)が同一フィールドの最初の候補となる。なお、後述するように2つ以上の最小値がある場合もあるが、この場合距離が小さい方を最小値とする。また、同一性の判断の確実性を増すために閾値を設け、最小距離L1hmin〜Lihminがこの閾値より小さい場合にだけ同一フィールドと判断するのも好適である。
【0061】
以上説明したフィールドの同一性判断の流れを図2(a)(b)のA大学a1学部の教官名簿とB大学b1学部の教官名簿で具体的に説明する。なお、図2(a)(b)に記載の各レコードは説明用事例として作成したものであるが、これには根拠があり、実際にウェブ上で検索を行って得た2大学の教官名簿から各20人分のデータ(つまり、レコード数各20)を抽出し作成したものである。図4(a)(b)はこの実際に検索して得たデータに基づいて、平均値avi、偏差値svi、スケール調整した独立の要素数Ni・M/niを計算したものである。図4(a)によれば、フィールド「官職」「学位」「氏名」はいずれも漢字の文字コードで計算されたものであるが、漢字は数字やアルファベットに比して文字コードは格段に大きく、かつ、漢字の文字数も非常に多いため文字コードのバラツキも大きくなり、平均値、偏差値がいずれも大きくなる。一方、「官職」や「学位」は似た用語が使われているため独立の要素数が比較的小さいが、「氏名」はバラバラであるため比較的大きい。また、「メールアドレス」はアルファベットであるため、平均値、偏差値、独立の要素数の値は比較的いずれの値も小さいが、中でも独立の要素数が相対的に大きい。同様に、電話番号は数字を使っている上に番号の最初の方は同一であるため、偏りが小さいことが分かる。
【0062】
これに対し、図4(b)によれば、「官職」「氏名」は漢字で記述されたものであるが、B大学のフィールド「名前」はアルファベットで記述されているため、両者で平均値、偏差値、独立の要素数で大きく異なっている。「メールアドレス」はアルファベット、「内線」は数字を使っているため、いずれもコード表において小さい文字コードがまとまって割り当てられているためコードの和も小さく、平均値、偏差値または分散、とくに偏差値または分散が小さいことが分かる。さらに、「所在」は数字と漢字の混じったものであるため、偏差値と独立の要素数で特徴的なものとなっている。
【0063】
そこで、この図4(a)(b)の各フィールドの特徴を表す点を3次元の写像空間で概念的に示したものが図5(a)である。このとき、A大学a1学部の教官名簿はフィールド数が5であり、B大学b1学部の教官名簿はフィールド数が6である。そこで、A大学a1学部の教官名簿の各フィールドを示す5点と、B大学b1学部の教官名簿の各フィールドを示す6点間で最短距離にある点同士を求めると、図5(b)に示すように、A大学の名簿の「官職」に対してはB大学の名簿の「官職」が最短距離で7492.94の距離にあり、A大学の名簿の「学位」に対してはB大学の名簿の「官職」が最短距離で75070.27、A大学の名簿の「名前」に対してはB大学の名簿の「氏名」が最短距離で64334.27、A大学の名簿の「メールアドレス」に対してはB大学の名簿の「メールアドレス」が最短距離で564.80、A大学の名簿の「電話番号」に対してはB大学の名簿の「内線」が最短距離で30.89であることが分かる。
【0064】
なお距離dは、通常のユークリッド距離である。つまり、2点(x1,y1,z1), (x2,y2,z2)間の距離dは(数3)で与えられる。
【0065】
【数3】
B大学の名簿のフィールドである「官職」は、A大学の名簿の「官職」と「学位」の2つのフィールドと最短距離にあって関係付けられているが、「官職」と「官職」の距離は7492.94、「官職」と「学位」の距離は75070.27であり、距離の小さな「官職」と「官職」の方が同一フィールドではないかとの推定が可能になる。なお、最短距離に対して閾値を設けておき、所定の距離以上の距離がない場合は同一と判断しないようにするのでもよい。
【0066】
また、A大学の「名前」とB大学の「名前」とはかなり離れていて、B大学の「氏名」がA大学の「名前」と最短距離にあることが分かる。従って、B大学の名簿には個人名に関して「氏名」「名前」という2つのフィールドが存在するが、アルファベットで記載したフィールドの「名前」は別フィールドで、属性名は異なる「氏名」の方がA大学の名簿の「名前」と同一のフィールドであると判断できる。
【0067】
このように図4(a)(b)は、現に2大学の教官名簿の検索をウェブ上で行い、レコード数A大学20、B大学20の事例で実験を行ったものである。またこれとは別に、主要検索エンジン4サイトを使って、所定のキーワードに関し英語で記述されたHTMLファイルを2組づつ取り出して6通りの組合わせで実験を行った。レコード数100で実施した。このとき、各エンジンの検索リストには、URL、タイトル、要約のフィールドが存在するが、何れの場合もフィールドの同一性を正確に判定できた。さらに、C大学の名簿をレコード数10づつの2つに分け、フィールド判定を行った。この場合も正確に同一性を正確に判定できることが確認された。
【0068】
続いて、本実施の形態1における表情報の間でのフィールドの同一性の判断を行う同一フィールド判定方法について図6,図7を用いて説明する。図6において、第1の表と第2の表の2つの表情報の間でのフィールドの同一性判断を開始すると、まず第1表の全フィールドの処理が終了したか否かがチェックされる(step1)。すべてのフィールドの処理が終了していないときは、未処理のフィールドの座標計算を行う(step2)。なお、この座標計算の具体的なサブルーチン処理の内容については後述する。
【0069】
次いで、第2の表の全フィールドを処理したか否かがチェックされる(step3)。処理が終了していない場合、未処理のフィールドの座標計算を行い(step4)、第1の表と第2の表のフィールドの間の距離を計算して(step5)、step3に戻る。step3で処理が終了した場合、最も距離の小さいフィールド同士を対応付け(step6)、step1に戻る。step1において、すべてのフィールドの処理が終了したときは、第2の表のフィールドが2重に割り当てられているか否かがチェックされる(step7)。2重に割り当てられているときは距離の小さなフィールドのみを対応付けて(step8)、終了する。step7において2重に割り当てられていないときはそのまま終了する。
【0070】
なお、フィールドを表す点間の距離に閾値を設け、最小距離が計算された場合でも、平均値が異常に大きかったり、異常にばらついているものは、対応付けを外すこともできる。この場合、図示はしないがstep9として閾値との比較を行うステップを設け、閾値より小さい場合だけを対応付けて終了することになる。
【0071】
ところで、以上説明した座標計算のサブルーチン処理の内容について説明する。フィールドの座標計算をする場合、最初にコード表を参照して各要素の文字列の文字コードを読み出して要素内の文字コードの和を計算する(step11)。次いで該フィールドの全要素n個の値の平均値、偏差値を計算し(step12)、全フィールドの平均値と偏差値の最大値Mを求める(step13)。この最大値Mはスケール調整のために使用する。次いで、該フィールドに現われる異なる要素の数(独立の要素数)Nを数える(step14)。そして、これらの値から、フィールドの座標(平均値,偏差値,MN/n)を計算するものである。このサブルーチン処理は、同一フィールド判定方法のstep2,step4で実行される。
【0072】
以上説明したように実施の形態1のフィールドマッチング装置とそれで使用するプログラム、記憶媒体、さらに同一フィールド判定方法は、2つの表情報について各フィールドを写像空間上の点で表し、最短距離となるフィールド同士を基にどのフィールドが同一か否かの同一性を判断することができる。従って、属性名の記載の有無に関わらず、また属性名が異なって付与されていても同一性の判定が容易に行える。1つのフィールドが2つのフィールドと関係付けられる場合でも、距離の小さい方を同一の属性のフィールドとすることで、類似するフィールドであっても容易に同一性を判断できる。既存のデータベースの統合も可能になる。各レコードの「ゆれ」を吸収することもできる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0073】
そして、実施の形態1のフィールドマッチング装置とそれで使用するプログラム、記憶媒体、さらに同一フィールド判定方法によれば、同種の情報をもった複数のサイト間の情報を統一的に扱いたい場合などで利用可能なだけでなく、あるサイトから必要な情報を抜き出してまとめた後、このサイトの表示のスタイルが変更された場合に自動的に処理することが可能になる。すなわち、サイトの表示が変更された前にまとめた表に属性名を付けておけば、表示が変更された後に実施の形態1のフィールドマッチング装置と同一フィールド判定方法で同一フィールドを判定し、予めつけておいた属性名を付与すれば自動的に各フィールドに属性名を付与した表情報を得ることができる。例えば、検索エンジンの検索結果を表示する表示フォーマットには変更が加えられることが多いが、一度属性名を付与すれば、後の変更ではすべて自動的に属性名を付与できる。さらに、複数の検索エンジンの検索結果を統合させることも可能になる。
【0074】
【発明の効果】
本発明のフィールドマッチング装置と同一フィールド判定方法によれば、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、フィールドを構成する要素の文字列には数字、記号、ひらかな、カタカナ、アルファベット、漢字等の文字種が含まれているが、これらはコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには同じ文字種は似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。これにより距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0075】
異なる要素の数を反映した3次元の写像空間で距離を演算することにより、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、偏りの内容を正確に把握できる。
【0076】
異なる要素の数に対して最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことにより、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0077】
1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けるから、同一フィールドではない文字列情報が類似しているフィールドを対応付けからおとし、同一フィールドの判定の確度を上げることができる。
【0078】
本発明のプログラム、コンピュータ読み取り可能な記録媒体によれば、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、数字、記号、ひらかな、カタカナ、アルファベット、漢字等はコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには文字種ごとに似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。コンピュータを使って簡単に平均値や偏差値または分散、距離を演算させることができ、距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0079】
また異なる要素の数(独立の同一文字列の数)を示す指標があるから、コンピュータによって偏りの内容を正確に把握できる。全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、コンピュータを使って偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0080】
1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けるため、文字列情報が類似しているフィールドを対応付けからおとし、コンピュータを使って同一フィールドの判定の確度を上げることができる。偏差値または分散を使うことにより、コンピュータを使い簡単な演算で偏り具合を容易且つ正確に把握できる。文字コード表の文字コードの表現によらず加算値の計算が可能になる。
【図面の簡単な説明】
【図1】(a)本発明における実施の形態1におけるフィールドマッチング装置の構成図
(b)(a)のフィールドマッチング装置のプログラム構成図
【図2】(a)本発明における実施の形態1における第1の表情報の説明図
(b)本発明における実施の形態1における第2の表情報の説明図
【図3】文字コード表の要部説明図
【図4】(a)本発明における実施の形態1における第1の表情報の写像空間におけるフィールドの点の座標の説明図
(b)本発明における実施の形態1における第2の表情報の写像空間におけるフィールドの点の座標の説明図
【図5】(a)本発明における実施の形態1における2つの表情報のフィールドの点分布図
(b)(a)のフィールド点間の対応関係と最短距離の説明図
【図6】本発明における実施の形態1における同一フィールド判定方法のフローチャート
【図7】図6のフローチャートにおけるフィールドの座標計算のフローチャート
【符号の説明】
1 中央演算/制御部
2 記憶部
3 入力手段
4 表示手段
5 通信制御部
6 ネットワークサーバ部
11 フィールド座標処理手段
12 文字コード選択手段
13 コード加算手段
14 平均値演算手段
15 偏り演算手段
16 スケール調整手段
17 距離演算手段
18 フィールド対応付け手段
【発明の属する技術分野】
本発明は、比較する複数の表情報の間で同じ種類のデータを格納したフィールドを同一フィールドとして判定するフィールドマッチング装置と、それをコンピュータで実行するためのプログラム、さらにそれを格納した記憶媒体、及び同一フィールドを判定するための同一フィールド判定方法に関する。
【0002】
【従来の技術】
インターネットの普及により、ウェブページは情報入手の有力なツールの1つになってきている。しかし、目的のウェブページのURL(Uniform Resource Locator)が分かっている場合はきわめて少なく、通常検索エンジンを使って検索することが行われる。すなわち、検索エンジンに単語やキーワードを与え、これらを(一般にはすべて)含むウェブページが検索結果として表示される。この検索集合は検索条件にマッチしたウェブページのURLとタイトル、簡単な説明文など同種種情報を含んでいる。
【0003】
また、ウェブ上には同種の情報を繰り返し列挙するタイプのウェブページが多数存在する。例えば、オークションのリストは1つのウェブページ中に商品に関するデータ(製品名、型番、購入日、傷の有無、保証書の有無など)が繰り返し表示される。
【0004】
従って、上述の検索エンジンによる検索集合、あるいは同種の情報を繰り返すウェブページは、利用の仕方を工夫すればデータベースのような使い方が可能になる。
【0005】
現在、一つのウェブサイトの情報を構造化し、属性名のない表形式のデータに変換する研究がすすめられている(非特許文献1)。これは、表計算ソフトで作ったような行列配置の純然たる表ではないが、同様の構造で1つの表情報として認められるものである。そこで以下、この純然たる表のほか、構造化された属性名のない表形式のデータのような表情報等まで含めて、表情報という。
【0006】
この表情報には、複数の属性からなるひとかたまりのデータが複数集まっており、このひとかたまりを一般にレコードとよんでいる。名簿の表の場合は、1レコードが1人分のデータであり、これは例えば「氏名」「年齢」「性別」「電話番号」などの属性からなる。なお、各属性ごとのデータの集合をフィールドとよぶ。ウェブ上のデータには、もともと属性名がない場合が多いので、上述の変換された表情報には「タイトル」「URL」といった属性名は通常付与されていない。
【0007】
さて、こうした2つ以上の表情報、場合によっては1の表情報内のフィールドが同一フィールドであるか否かを判定するのは、同種情報をもった複数のウェブサイト間の情報を統一的に扱いたい場合などに問題となる。この比較したフィールドが同一フィールドであると判断できれば、複数のサイトの同種情報を統合することが可能になる。しかし、属性名が付与されている場合でも、個別に自由に付与された2つの属性名が同一フィールドに属するのか否かを判定するのはきわめて難しい。表現の「ゆれ」もある。その上、上述したようにウェブページからラッパー生成したデータには通常属性名はないし、通常の関係データベースの表情報でも共通の属性名を持っていることは希であり、属性名がある場合より一段と困難になる。
【0008】
すなわち、あるサイトに設けられた名簿と、別のサイトに設けられた名簿を統一的に扱おうとしたとき、記述するマークアップ言語や、表示順もばらばらであり、属性名がある場合これが氏名であれば、「氏名」「名前」「名称」「会社名」「顧客」といった表記の異なった属性名が付されていることが多い。また、属性名が付与されていない場合はリストもしくは単なる記載が掲載されているだけのことが多い。また、属性自体も多種多様で、所属や役職、電話、メール、住所等さまざまのフィールドがあり、各名簿ごとに属性名、フィールド構成が相違している。
【0009】
このような同一フィールドであるにも関わらず、異なった属性名が付けられていたり、属性名がない場合に、これを同一フィールドであると機械的に判断することはきわめて困難である。
【0010】
同様のことは既成のデータベース間においても発生する。データベースごとに各レコードを分類したフィールドとその属性名が異なっていることが多く、これを統合するのは1つ1つの検討を手作業で行わない限り難しい。しかし、これを克服して同一フィールドか否かの推定ができれば、簡単にこれを統合することができるはずである。そして、現在存在する多数の検索エンジンの出力形式はそれぞれ異なっているが、これができれば各エンジンによる検索結果を統一して扱うことが可能になる。
【0011】
また、ウェブデータや関係データベースは多数の国で利用されており、内容はそれぞれの言語で記述されている。従って、どこでも通用し、どのような検索も行える同一フィールド判定は、属性名を使わず、また内容を記述する言語に依存しない方法であることが望ましいが、これを実行するための方向性すら見当たらないことも、同一フィールド判定が実行不可能と解されている要因の1つである。
【0012】
【非特許文献1】
山田,池田,廣川共著,「Web上の多言語テキストデータからのラッパー自動生成(Automatic Wrapper Generation for Multilingual Web Resources)」,Proc. of the 5th International Conference on Discovery Science,Lecture Notes in Computer Science,(ドイツ国),シュプリンガー(Springer),2002年11月24日,第2534巻,p.332−339
【発明が解決しようとする課題】
従来1つの表の中で、ある要素がどのフィールドに属するか否かを決定する方法はいろいろ検討されてきた。また、このとき問題となるレコードの表記の「ゆれ」、例えば「日本銀行」といったり「日銀」といったりする「ゆれ」を吸収する方法の研究も行われている。
【0013】
しかし、無関係のデータベース間で、双方の表のフィールドが同一フィールドに当るか否かを推定して関連付ける方法は難問であり、現在手付かずの状態にある。そしてこの場合もレコードの表記の「ゆれ」を吸収できるものでなければ、同一と判断することはできない。
【0014】
また、ウェブ上のテキストデータを、あたかもデータベースのように、扱い易く、強力且つ確実な情報入手ツールとして利用したいというニーズは高いが、これを実現するためには複数のサイト間の同種情報を統一して扱う必要がある。しかし、各サイトごとに必要な情報を抜き出して表形式に変換したとしても、この表情報には一般には属性名はないし、また完全な表情報でも共通の属性名を持っていることは少ない。従って、ウェブ上のテキストデータをデータベースのように利用するためには、無関係の表情報間でフィールドが同一フィールドに当るか否かを判定する方法が不可欠である。
【0015】
そして、これは既成のデータベース間においても同様であり、データベースごとに各レコードを分類したフィールドとその属性名が異なっていることが多く、これを統合するのは難問であり、これを統合する方法の開発が望まれる。
【0016】
また、ウェブデータや関係データベースは多数の国で利用されており、内容はそれぞれの言語で記述されている。属性名を使わず内容、つまり、データによる同一フィールド判定は、内容を記述する言語に依存しない方法が必要である。
【0017】
そこで本発明は、表情報間のフィールドの同一性判断を言語によらず簡単且つ確実に行えるフィールドマッチング装置を提供することを目的とする。
【0018】
また本発明は、表情報間のフィールドの同一性判断を言語によらず簡単且つ確実に行えるプログラムを提供することを目的とする。
【0019】
そして本発明は、表情報間のフィールドの同一性判断が言語によらず簡単且つ確実に行えるプログラムを記録した記憶媒体を提供することを目的とする。
【0020】
さらに本発明は、表情報間のフィールドの同一性判断が言語によらず簡単且つ確実に行える同一フィールド判定方法を提供することを目的とする。
【0021】
【課題を解決するための手段】
上記の課題を解決するために本発明のフィールドマッチング装置は、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段と、フィールドごとに加算値の平均値を求める平均演算手段と、フィールドごとに加算値の偏差値または分散を計算する偏り演算手段と、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段と、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段とを備え、比較する表情報の同一フィールドを文字コードで判定することを特徴とする。
【0022】
本発明は、この構成により、表情報間のフィールドの同一性判断を言語によらず簡単且つ確実に行える。
【0023】
【発明の実施の形態】
本発明の第1の発明は、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段と、フィールドごとに加算値の平均値を求める平均演算手段と、フィールドごとに加算値の偏差値または分散を計算する偏り演算手段と、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段と、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段とを備え、比較する表情報の同一フィールドを文字コードで判定することを特徴とするフィールドマッチング装置であり、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、フィールドを構成する要素の文字列には数字、記号、ひらかな、カタカナ、アルファベット、漢字等の文字種が含まれているが、これらはコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには文字種ごとに似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。これにより距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0024】
本発明の第2の発明は、距離演算手段が、平均値と偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項1記載のフィールドマッチング装置であり、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、偏りの内容を正確に把握できる。
【0025】
本発明の第3の発明は、平均値と偏差値または分散の集合の中で最大値を抽出するスケール調整手段を備え、異なる要素の数に対して最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項2記載のフィールドマッチング装置であり、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0026】
本発明の第4の発明は、1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項1〜3のいずれかに記載のフィールドマッチング装置であり、同一フィールドとはできないが、文字列情報が類似しているフィールドを対応付けからおとし、同一フィールドの判定の確度を上げることができる。
【0027】
本発明の第5の発明は、コンピュータを、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段、フィールドごとに加算値の平均値を求める平均演算手段、フィールドごとに加算値の偏差値または分散を計算する偏り演算手段、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段、として機能させるためのプログラムであり、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、数字、記号、ひらかな、カタカナ、アルファベット、漢字等はコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには文字種ごとに似た重みを持つという傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと文字列の要素の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。コンピュータを使って簡単に平均値や偏差値または分散、距離を演算させることができ、距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0028】
本発明の第6の発明は、距離演算手段が、平均値と偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項5記載のプログラムであり、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、コンピュータによって偏りの内容を正確に把握できる。
【0029】
本発明の第7の発明は、平均値と偏差値または分散の集合の中で最大値を抽出するスケール調整手段として機能し、異なる要素の数に対して最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項6記載のプログラムであり、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、コンピュータを使って偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0030】
本発明の第8の発明は、1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項5〜7のいずれかに記載のプログラムであり、同一フィールドではない文字列情報が類似しているフィールドを対応付けからおとし、コンピュータを使って同一フィールドの判定の確度を上げることができる。
【0031】
本発明の第9の発明は、コンピュータを、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段、フィールドごとに加算値の平均値を求める平均演算手段、フィールドごとに加算値の偏差値または分散を計算する偏り演算手段、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段、として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であり、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、数字、記号、ひらかな、カタカナ、アルファベット、漢字等はコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには同じ文字種は似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。コンピュータを使って簡単に平均値や偏差値または分散、距離を演算させることができ、距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0032】
本発明の第10の発明は、距離演算手段が、平均値と偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項11記載のプログラムを記録したコンピュータ読み取り可能な記録媒体であり、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、コンピュータによって偏りの内容を正確に把握できる。
【0033】
本発明の第11の発明は、平均値と偏差値または分散の集合の中で最大値を抽出するスケール調整手段として機能し、異なる要素の数に対して最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項10記載のプログラムを記録したコンピュータ読み取り可能な記録媒体であり、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、コンピュータを使って偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0034】
本発明の第12の発明は、1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項9〜11のいずれかに記載のプログラムを記録したコンピュータ読み取り可能な記録媒体であり、同一フィールドではない文字列情報が類似しているフィールドを対応付けからおとし、コンピュータを使って同一フィールドの判定の確度を上げることができる。
【0035】
本発明の第13の発明は、比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するとともにフィールドごとに加算値の平均値を求め、フィールドごとに加算値の偏差値または分散を計算し、フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を求め、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けることを特徴とする同一フィールド判定方法であり、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、フィールドを構成する要素の文字列には数字、記号、ひらかな、カタカナ、アルファベット、漢字等の文字種が含まれているが、これらはコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには同じ文字種は似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が出現しているかを反映する。これにより距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0036】
本発明の第14の発明は、平均値と偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項13記載の同一フィールド判定方であり、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、偏りの内容を正確に把握できる。
【0037】
本発明の第15の発明は、平均値と偏差値または分散の集合の中で最大値を抽出し、異なる要素の数に対して該最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項14記載の同一フィールド判定方法であり、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0038】
本発明の第16の発明は、1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項13〜15のいずれかに記載の同一フィールド判定方法であり、同一フィールドではない文字列情報が類似しているフィールドを対応付けからおとし、同一フィールドの判定の確度を上げることができる。
【0039】
本発明の第17の発明は、文字コード表が16進数で特定される場合、10進数に変換して、各要素ごとに文字コードの加算値を計算することを特徴とする請求項13〜16のいずれかに記載の同一フィールド判定方法であり、文字コードの表現によらず加算値の計算が可能になる。
(実施の形態1)
以下、本発明の実施の形態1におけるフィールドマッチング装置と、そのプログラム、またそれを記録したコンピュータ読み取り可能な記録媒体、さらにその同一フィールド判定方法について説明する。図1(a)は本発明における実施の形態1におけるフィールドマッチング装置の構成図、図1(b)は(a)のフィールドマッチング装置のプログラム構成図、図2(a)は本発明における実施の形態1における第1の表情報の説明図、図2(b)は本発明における実施の形態1における第2の表情報の説明図、図3は文字コード表の要部説明図、図4(a)は本発明における実施の形態1における第1の表情報の写像空間におけるフィールドの点の座標の説明図、図4(b)は本発明における実施の形態1における第2の表情報の写像空間におけるフィールドの点の座標の説明図、図5(a)は本発明における実施の形態1における2つの表情報のフィールドの点分布図、図5(b)は(a)のフィールド点間の対応関係と最短距離の説明図、図6は本発明における実施の形態1における同一フィールド判定方法のフローチャート、図7は図6のフローチャートにおけるフィールドの座標計算のフローチャートである。
【0040】
本発明の実施の形態1におけるフィールドマッチング装置は、図1(a)(b)に示すように構成される。図1(a)において、1は中央演算処理装置(CPUであり、本発明のコンピュータ)等から構成されプログラムをロードして演算を行いシステム制御し各種機能を実行するフィールドマッチング装置の中央演算/制御部、2は中央演算/制御部1が実行するプログラムを記憶した記憶媒体から構成される記憶部、3はキーボードやマウス等の入力手段、4はディスプレー等に表示させる表示手段、5はインターネット等のネットワークと接続するための通信制御部、6はネットワークとの通信管理を行うネットワークサーバ部である。なお、入力される表情報は記憶部2に格納されているものとするが、実施の形態1のフィールドマッチング装置は通信制御部5やネットワークサーバ部6を備えているから、プロトコルTCP/IP等でネットワークからマークアップ言語で記載された表情報のファイルをダウンロードしたり、入力手段から、もしくは関係データベースから表情報を受け取ることも可能である。また、実施の形態1のフィールドマッチング装置は、フィールドが同一であると判定したときには、同一フィールドを関係づけて記憶し、場合によっては2以上の表情報のフィールドを統合し、これを基に各要素を統合させることができる。
【0041】
なお、実施の形態1のフィールドマッチング装置は、ネットワークとの通信を行うため通信制御部5やネットワークサーバ部6を備えている。しかし、この通信制御部5やネットワークサーバ部6は、ネットワークからデータのダウンロードを行わなければ必ずしも必要でない。この場合、フィールドマッチング装置は単にフィールドマッチングだけを行うマシンとなる。
【0042】
次に、フィールドマッチング装置の中央演算/制御部1の詳細について説明する。そして以下説明する各機能手段はいずれも中央処理装置(コンピュータ)にプログラムを記憶媒体から読み込んで処理を実行する手段である。図1(b)において、11は表情報からUNICODEやシフトJIS、ASCII等の文字コード表を参照してフィールドの各要素のコード情報を得て、これを写像空間上で位置付ける一連の計算を処理及び管理するフィールド座標処理手段である。なお、詳細は後述するが、このコード情報は各フィールドの特徴を与える指標となるもので、要素の「平均値」、「偏差値または分散」、「独立の要素数」の3つの座標軸からなる3次元空間上の点として表される。この実施の形態1においては3次元の座標を使って各フィールドの特徴を表現したが、事情に応じて2次元または4次元以上の座標で表現するのがよい場合もある。また、表情報には、表計算ソフトで作ったような表のほか、構造化された属性名のない表形式のデータのような表情報等が含まれることは上述した通りである。
【0043】
フィールドの各要素から計算されるコード情報がフィールドの特徴を示す理由は、同一フィールドに属する要素が文字コードで表されたとき一定の傾向をもっていることに原因する。すなわち、アルファベット、数字、ひらかな、カタカナ、漢字、記号は、コード表の中でそれぞれまとまった状態(連続番号のかたまり)で分散して配置されており、文字列を文字コードの列として把握したとき、各文字コードの総和が文字列の特徴を反映するからである。
【0044】
すなわち、あるフィールドの文字列が数字や記号だけで表現された短い文字列の場合なら総和の平均値と偏差値または分散は共に小さく、漢字とアルファベットが混在しているような場合には文字コードがばらばらな大きさで、当然その総和も要素ごとにばらついてしまう。このため、この偏りの指標として偏差値または分散を計算すれば、偏りの程度が分かることになる。さらに、あるフィールドに同一文字列が多数あった場合とない場合とで、偏差値または分散に差が生じるため、異なった文字列の要素数の情報を指標にすると、偏りの精度が向上する。
そして、この異なった文字列の「要素数」は「平均値」、「偏差値または分散」と異なって文字コードと関係せず、しかも、小さい差でも重要であるため、この座標軸のスケールを調整して使用するのが同一判定の感度を向上させる。
【0045】
図1(b)において、12はフィールド座標処理手段11からフィールド内のある要素を受け取ると各要素の座標を得るために各文字の文字コードを抽出する文字コード選択手段、13は文字コード選択手段12が抽出した各要素の文字コードを加算するコード加算手段である。14はフィールドに属する要素の各要素の加算値からフィールドにおける平均値を演算する平均値演算手段、15は平均値演算手段14が取得した平均値を使って各要素の偏りの指標として偏差値または分散を計算する偏り演算手段、16は写像空間における各フィールドの特徴を分かり易く示すために平均値演算手段14と偏り演算手段15が算出した値の中で最大値Mをもとめてスケール調整を行うスケール調整手段、17はフィールド座標処理手段11が出力した各要素の座標間の距離を演算する距離演算手段、18は要素間の座標上の距離から最小距離のフィールドを同一性ありとして対応付けるフィールド対応付け手段である。
【0046】
そこで、具体的な表情報からコード情報を得て、各フィールドの特徴を与える指標となる写像空間上の点の座標を取得するプロセスについて図2(a)(b)に基づいて具体的に説明する。図2(a)はA大学a1学部の教官名簿である。この教官名簿によれば、フィールドの数は「5」であって、第1のフィールドの属性名は教授等の「官職」である。第2のフィールドの属性名は「学位」、第3のフィールドの属性名は「名前」、第4のフィールドの属性名は「メールアドレス」、第5のフィールドの属性名は「電話」である。なお、これらの属性名は説明の都合上付与しているが、もともとの名簿データにはこれらの属性名は存在しておらず、従って、表形式に変換したあとも(手作業で付与しないかぎり)属性名は存在していないものである。
【0047】
これに対し、図2(b)に示しているのはB大学b1学部の教官名簿である。フィールドの数は「6」であって、第1のフィールドの属性名は教授等の「官職」であり、第2のフィールドの属性名は「氏名」、第3のフィールドの属性名は「名前(アルファベット表記)」、第4のフィールドの属性名は「内線」、第5のフィールドの属性名は「所在」、第6の属性名は「メールアドレス」である。
【0048】
A大学の教官名簿について、コード情報は次のようにして得られる。なお、実施の形態1においてはUNICODEを参照するものとする。その他JIS等他の文字コード表でもよい。図3は16進数によるUNICODEの文字コードを示している。例えば、第1のレコードのセルに記載された「九大太郎」は文字列「九」「大」「太」「郎」であるが、この「九」のUNICODEにおける文字コードは16進数で「4E5D」であり、10進数に変換すると「20061」となる。同様に、「大」のコードは16進数で「5927」10進数「22823」、「太」のコードは16進数で「592A」10進数で「22826」、「郎」のコードは16進数で「90CE」10進数で「37070」となる。フィールド座標処理手段11がこの文字列を抽出し、文字コード選択手段12がこの文字列に対して記憶部2に格納されているコード表(図3参照)を参照してこれらの文字のコードを読み出す。次いで、コード加算手段13が各文字のコードを加算する。「20061」、「22823」、「22826」、「37070」の和をとって「102780」を得る。
【0049】
同様に、第2のレコードの「特許花子」は文字列「特」「許」「花」「子」であり、これは10進数表現でそれぞれ文字コード「29305」「35377」「33457」「23376」に対応し、その和をとると「121515」となる。このほか図示はしないが第3のレコード、・・・が同様に計算される。
【0050】
また、第1レコードの他のセル「教授」は「25945」「25480」に対応するから、その和は「51425」となる。同じく「助教授」は文字列「助」「教」「授」と分解され「21161」「25945」「25480」となるから、その和として「72586」が得られる。さらに、電話番号「2296」は文字コード「50」「50」「57」「54」の列となるからその和は「211」となる。さらに、電話番号「2298」は「50」「50」「57」「56」であり、和は「213」である。
【0051】
次に、メールアドレスの「kyudai@・・・」は文字列「107」「121」「117」「100」「97」・・・であり、その和は「2346」となる。同様に、「hanako@・・・」は文字列「104」「97」「110」「97」「107」・・・であり、和として「2327」が得られる。
【0052】
同様、にB大学の教官名簿についても、第1のレコードのセルに記載された「繊維太郎」は「繊」「維」「太」「郎」の文字列として各文字コードが参照されて加算され、「Seni,Tarou」は「S」「e」「n」「i」「,」「T」「a」「r」「o」「u」がぞれぞれの文字コードが読み出され加算される。「7413」「4−104」「seni@・・・」についても同様に文字コードに変換されて和が計算される。第2のレコードについても同様であり、詳細は省略する。
【0053】
さて、上述したように各フィールドの特徴は、要素の「平均値」、「偏差値または分散」、「スケール調整を行った独立の要素数」の3つの座標軸で構成される3次元空間上の点として表される。この点の算出方法について以下説明する。なお、この実施の形態1においては写像空間として3次元の空間で特徴を表したが、条件によっては「要素の平均値」、「要素の偏差値または分散」だけの2次元、または他の要素を加えた4次元以上の写像空間で表現するのもよい。
【0054】
表がf1,f2,f3,・・・,fmのフィールドと、r1,r2,r3,・・・,rnのレコードから構成されたものとし、更にあるフィールドfiにおいて、各レコードに属する要素の文字コードの全文字分の合計値をvi1,vi2,vi3,・・・,vin、各フィールドfiの要素数nのうち独立した要素数(本発明の異なる要素の数)をNiとすると、このフィールドの平均値aviは(数1)、偏差値sviは(数2)で表される。なお、偏差値sviに代えて分散を使うのでもよい。
【0055】
【数1】
【0056】
【数2】
平均値演算手段14が加算値から(数1)に従って平均値aviを演算し、偏り演算手段15が(数2)に従って偏差値sviを計算する。
【0057】
ところで、このようにして得た全フィールドの平均値aviと偏差値sviの中で、最大値をMとすると、独立の要素数N1,N2,N3,・・・,Nmのスケールをavi,svi程度の大きさに調整することができる。すなわち、フィールドfiのNiに対してスケール調整を行い、Ni・M/niに変換する。なお、niはフィールドfiの全要素数である。通常、平均値aviと偏差値sviは文字コードに依存しほぼ同じスケールを有しているが、独立の要素数Niは文字コードを処理したものとは異なって絶対値が小さい。そこで、独立の要素数NiをMのオーダにするために、M/niをかけている。このスケール調整はスケール調整手段16によって実施される。
【0058】
このように各フィールドf1,f2,f3,・・・,fmの特徴を写像空間上の点で示したとき、座標(av1,sv1,N1・M/n1)がf1を特徴付ける点p1となり、座標(av2,sv2,N2・M/n2),・・・,座標(avm,svm,Nm・M/nm)がそれぞれフィールドf2を表す点p2、・・・、フィールドfmを表す点pmとなる。
【0059】
実施の形態1のフィールドマッチング装置は、第1の表情報についてフィールドfA 1,fA 2,・・・,fA i、また第2の表情報についてフィールドfB 1,fB 2,・・・,fBjの特徴を表す指標をそれぞれ写像空間上の点で表し、各点間距離を比較し、どのフィールドが同一かを判断する。以下このプロセスについて説明する。
【0060】
実施の形態1のフィールドマッチング装置のフィールド座標処理手段11は、第1の表情報から写像空間上の点p1,p2,・・・,piの座標を得たら、続いて第2の表情報から写像空間上の点q1,q2,・・・,qjの座標を計算する。次いでフィールド座標処理手段11はこのデータを距離演算手段17に送り、距離演算手段17が点p1,p2,・・・,piと点q1,q2,・・・,qjとの間のij通りの距離Lh(g=1〜i,h=1〜j)を算出する。次いでフィールド対応付け手段18が、点p1,p2,・・・,piからそれぞれ最小距離L1hmin〜Lihminに存在する点qm1,qm2・・・,qmiを選択する。
この最小距離L1hmin〜Lihminを満たす点のペア(p1,qm1),(p2, qm2),・・・,(pi , qmi)が同一フィールドの最初の候補となる。なお、後述するように2つ以上の最小値がある場合もあるが、この場合距離が小さい方を最小値とする。また、同一性の判断の確実性を増すために閾値を設け、最小距離L1hmin〜Lihminがこの閾値より小さい場合にだけ同一フィールドと判断するのも好適である。
【0061】
以上説明したフィールドの同一性判断の流れを図2(a)(b)のA大学a1学部の教官名簿とB大学b1学部の教官名簿で具体的に説明する。なお、図2(a)(b)に記載の各レコードは説明用事例として作成したものであるが、これには根拠があり、実際にウェブ上で検索を行って得た2大学の教官名簿から各20人分のデータ(つまり、レコード数各20)を抽出し作成したものである。図4(a)(b)はこの実際に検索して得たデータに基づいて、平均値avi、偏差値svi、スケール調整した独立の要素数Ni・M/niを計算したものである。図4(a)によれば、フィールド「官職」「学位」「氏名」はいずれも漢字の文字コードで計算されたものであるが、漢字は数字やアルファベットに比して文字コードは格段に大きく、かつ、漢字の文字数も非常に多いため文字コードのバラツキも大きくなり、平均値、偏差値がいずれも大きくなる。一方、「官職」や「学位」は似た用語が使われているため独立の要素数が比較的小さいが、「氏名」はバラバラであるため比較的大きい。また、「メールアドレス」はアルファベットであるため、平均値、偏差値、独立の要素数の値は比較的いずれの値も小さいが、中でも独立の要素数が相対的に大きい。同様に、電話番号は数字を使っている上に番号の最初の方は同一であるため、偏りが小さいことが分かる。
【0062】
これに対し、図4(b)によれば、「官職」「氏名」は漢字で記述されたものであるが、B大学のフィールド「名前」はアルファベットで記述されているため、両者で平均値、偏差値、独立の要素数で大きく異なっている。「メールアドレス」はアルファベット、「内線」は数字を使っているため、いずれもコード表において小さい文字コードがまとまって割り当てられているためコードの和も小さく、平均値、偏差値または分散、とくに偏差値または分散が小さいことが分かる。さらに、「所在」は数字と漢字の混じったものであるため、偏差値と独立の要素数で特徴的なものとなっている。
【0063】
そこで、この図4(a)(b)の各フィールドの特徴を表す点を3次元の写像空間で概念的に示したものが図5(a)である。このとき、A大学a1学部の教官名簿はフィールド数が5であり、B大学b1学部の教官名簿はフィールド数が6である。そこで、A大学a1学部の教官名簿の各フィールドを示す5点と、B大学b1学部の教官名簿の各フィールドを示す6点間で最短距離にある点同士を求めると、図5(b)に示すように、A大学の名簿の「官職」に対してはB大学の名簿の「官職」が最短距離で7492.94の距離にあり、A大学の名簿の「学位」に対してはB大学の名簿の「官職」が最短距離で75070.27、A大学の名簿の「名前」に対してはB大学の名簿の「氏名」が最短距離で64334.27、A大学の名簿の「メールアドレス」に対してはB大学の名簿の「メールアドレス」が最短距離で564.80、A大学の名簿の「電話番号」に対してはB大学の名簿の「内線」が最短距離で30.89であることが分かる。
【0064】
なお距離dは、通常のユークリッド距離である。つまり、2点(x1,y1,z1), (x2,y2,z2)間の距離dは(数3)で与えられる。
【0065】
【数3】
B大学の名簿のフィールドである「官職」は、A大学の名簿の「官職」と「学位」の2つのフィールドと最短距離にあって関係付けられているが、「官職」と「官職」の距離は7492.94、「官職」と「学位」の距離は75070.27であり、距離の小さな「官職」と「官職」の方が同一フィールドではないかとの推定が可能になる。なお、最短距離に対して閾値を設けておき、所定の距離以上の距離がない場合は同一と判断しないようにするのでもよい。
【0066】
また、A大学の「名前」とB大学の「名前」とはかなり離れていて、B大学の「氏名」がA大学の「名前」と最短距離にあることが分かる。従って、B大学の名簿には個人名に関して「氏名」「名前」という2つのフィールドが存在するが、アルファベットで記載したフィールドの「名前」は別フィールドで、属性名は異なる「氏名」の方がA大学の名簿の「名前」と同一のフィールドであると判断できる。
【0067】
このように図4(a)(b)は、現に2大学の教官名簿の検索をウェブ上で行い、レコード数A大学20、B大学20の事例で実験を行ったものである。またこれとは別に、主要検索エンジン4サイトを使って、所定のキーワードに関し英語で記述されたHTMLファイルを2組づつ取り出して6通りの組合わせで実験を行った。レコード数100で実施した。このとき、各エンジンの検索リストには、URL、タイトル、要約のフィールドが存在するが、何れの場合もフィールドの同一性を正確に判定できた。さらに、C大学の名簿をレコード数10づつの2つに分け、フィールド判定を行った。この場合も正確に同一性を正確に判定できることが確認された。
【0068】
続いて、本実施の形態1における表情報の間でのフィールドの同一性の判断を行う同一フィールド判定方法について図6,図7を用いて説明する。図6において、第1の表と第2の表の2つの表情報の間でのフィールドの同一性判断を開始すると、まず第1表の全フィールドの処理が終了したか否かがチェックされる(step1)。すべてのフィールドの処理が終了していないときは、未処理のフィールドの座標計算を行う(step2)。なお、この座標計算の具体的なサブルーチン処理の内容については後述する。
【0069】
次いで、第2の表の全フィールドを処理したか否かがチェックされる(step3)。処理が終了していない場合、未処理のフィールドの座標計算を行い(step4)、第1の表と第2の表のフィールドの間の距離を計算して(step5)、step3に戻る。step3で処理が終了した場合、最も距離の小さいフィールド同士を対応付け(step6)、step1に戻る。step1において、すべてのフィールドの処理が終了したときは、第2の表のフィールドが2重に割り当てられているか否かがチェックされる(step7)。2重に割り当てられているときは距離の小さなフィールドのみを対応付けて(step8)、終了する。step7において2重に割り当てられていないときはそのまま終了する。
【0070】
なお、フィールドを表す点間の距離に閾値を設け、最小距離が計算された場合でも、平均値が異常に大きかったり、異常にばらついているものは、対応付けを外すこともできる。この場合、図示はしないがstep9として閾値との比較を行うステップを設け、閾値より小さい場合だけを対応付けて終了することになる。
【0071】
ところで、以上説明した座標計算のサブルーチン処理の内容について説明する。フィールドの座標計算をする場合、最初にコード表を参照して各要素の文字列の文字コードを読み出して要素内の文字コードの和を計算する(step11)。次いで該フィールドの全要素n個の値の平均値、偏差値を計算し(step12)、全フィールドの平均値と偏差値の最大値Mを求める(step13)。この最大値Mはスケール調整のために使用する。次いで、該フィールドに現われる異なる要素の数(独立の要素数)Nを数える(step14)。そして、これらの値から、フィールドの座標(平均値,偏差値,MN/n)を計算するものである。このサブルーチン処理は、同一フィールド判定方法のstep2,step4で実行される。
【0072】
以上説明したように実施の形態1のフィールドマッチング装置とそれで使用するプログラム、記憶媒体、さらに同一フィールド判定方法は、2つの表情報について各フィールドを写像空間上の点で表し、最短距離となるフィールド同士を基にどのフィールドが同一か否かの同一性を判断することができる。従って、属性名の記載の有無に関わらず、また属性名が異なって付与されていても同一性の判定が容易に行える。1つのフィールドが2つのフィールドと関係付けられる場合でも、距離の小さい方を同一の属性のフィールドとすることで、類似するフィールドであっても容易に同一性を判断できる。既存のデータベースの統合も可能になる。各レコードの「ゆれ」を吸収することもできる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0073】
そして、実施の形態1のフィールドマッチング装置とそれで使用するプログラム、記憶媒体、さらに同一フィールド判定方法によれば、同種の情報をもった複数のサイト間の情報を統一的に扱いたい場合などで利用可能なだけでなく、あるサイトから必要な情報を抜き出してまとめた後、このサイトの表示のスタイルが変更された場合に自動的に処理することが可能になる。すなわち、サイトの表示が変更された前にまとめた表に属性名を付けておけば、表示が変更された後に実施の形態1のフィールドマッチング装置と同一フィールド判定方法で同一フィールドを判定し、予めつけておいた属性名を付与すれば自動的に各フィールドに属性名を付与した表情報を得ることができる。例えば、検索エンジンの検索結果を表示する表示フォーマットには変更が加えられることが多いが、一度属性名を付与すれば、後の変更ではすべて自動的に属性名を付与できる。さらに、複数の検索エンジンの検索結果を統合させることも可能になる。
【0074】
【発明の効果】
本発明のフィールドマッチング装置と同一フィールド判定方法によれば、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、フィールドを構成する要素の文字列には数字、記号、ひらかな、カタカナ、アルファベット、漢字等の文字種が含まれているが、これらはコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには同じ文字種は似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。これにより距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0075】
異なる要素の数を反映した3次元の写像空間で距離を演算することにより、異なる要素の数(独立の同一文字列の数)を示す指標の存在によって、偏りの内容を正確に把握できる。
【0076】
異なる要素の数に対して最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことにより、全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0077】
1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けるから、同一フィールドではない文字列情報が類似しているフィールドを対応付けからおとし、同一フィールドの判定の確度を上げることができる。
【0078】
本発明のプログラム、コンピュータ読み取り可能な記録媒体によれば、各フィールドを示す点は写像空間において異なった位置に配置され、距離が接近していれば同一フィールドとの評価が可能になる。すなわち、数字、記号、ひらかな、カタカナ、アルファベット、漢字等はコード表ではそれぞれまとまって離れた位置に配置され、文字コードを重みとしてみたときには文字種ごとに似た重みを持つ傾向を有している。従って、文字コードの加算値はその要素が文字の種別で何を主体として記述されているのかと要素の文字列の長さを、また偏差値または分散は要素中にどれだけ異なる文字種が現れるかを反映する。コンピュータを使って簡単に平均値や偏差値または分散、距離を演算させることができ、距離が接近しているフィールドは同一フィールドと判断できる。また、文字コードのみに着目し文法的な処理は一切行わないので、データを記述する言語に依存せずどのような言語にも適用可能になる。
【0079】
また異なる要素の数(独立の同一文字列の数)を示す指標があるから、コンピュータによって偏りの内容を正確に把握できる。全体の中で異なる要素の割合(独立の同一文字列の割合)を示す指標の存在によって、コンピュータを使って偏りの内容を正確に把握でき、スケール調整を行っているので同一文字列が繰返して出現することを感度よく反映できる。
【0080】
1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けるため、文字列情報が類似しているフィールドを対応付けからおとし、コンピュータを使って同一フィールドの判定の確度を上げることができる。偏差値または分散を使うことにより、コンピュータを使い簡単な演算で偏り具合を容易且つ正確に把握できる。文字コード表の文字コードの表現によらず加算値の計算が可能になる。
【図面の簡単な説明】
【図1】(a)本発明における実施の形態1におけるフィールドマッチング装置の構成図
(b)(a)のフィールドマッチング装置のプログラム構成図
【図2】(a)本発明における実施の形態1における第1の表情報の説明図
(b)本発明における実施の形態1における第2の表情報の説明図
【図3】文字コード表の要部説明図
【図4】(a)本発明における実施の形態1における第1の表情報の写像空間におけるフィールドの点の座標の説明図
(b)本発明における実施の形態1における第2の表情報の写像空間におけるフィールドの点の座標の説明図
【図5】(a)本発明における実施の形態1における2つの表情報のフィールドの点分布図
(b)(a)のフィールド点間の対応関係と最短距離の説明図
【図6】本発明における実施の形態1における同一フィールド判定方法のフローチャート
【図7】図6のフローチャートにおけるフィールドの座標計算のフローチャート
【符号の説明】
1 中央演算/制御部
2 記憶部
3 入力手段
4 表示手段
5 通信制御部
6 ネットワークサーバ部
11 フィールド座標処理手段
12 文字コード選択手段
13 コード加算手段
14 平均値演算手段
15 偏り演算手段
16 スケール調整手段
17 距離演算手段
18 フィールド対応付け手段
Claims (17)
- 比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段と、
前記フィールドごとに前記加算値の平均値を求める平均演算手段と、
前記フィールドごとに前記加算値の偏差値または分散を計算する偏り演算手段と、
前記フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段と、
比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段とを備え、
比較する表情報の同一フィールドを文字コードで判定することを特徴とするフィールドマッチング装置。 - 前記距離演算手段が、前記平均値と前記偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項1記載のフィールドマッチング装置。
- 前記平均値と前記偏差値または分散の集合の中で最大値を抽出するスケール調整手段を備え、前記異なる要素の数に対して前記最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項2記載のフィールドマッチング装置。
- 1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、前記フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項1〜3のいずれかに記載のフィールドマッチング装置。
- コンピュータを、
比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段、
前記フィールドごとに前記加算値の平均値を求める平均演算手段、
前記フィールドごとに前記加算値の偏差値または分散を計算する偏り演算手段、
前記フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段、
比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段、として機能させるためのプログラム。 - 前記距離演算手段が、前記平均値と前記偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項5記載のプログラム。
- 前記平均値と前記偏差値または分散の集合の中で最大値を抽出するスケール調整手段として機能し、前記異なる要素の数に対して前記最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項6記載のプログラム。
- 1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、前記フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項5〜7のいずれかに記載のプログラム。
- コンピュータを、
比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するコード加算手段、
前記フィールドごとに前記加算値の平均値を求める平均演算手段、
前記フィールドごとに前記加算値の偏差値または分散を計算する偏り演算手段、
前記フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を演算する距離演算手段、
比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けるフィールド対応付け手段、として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記距離演算手段が、前記平均値と前記偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項11記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
- 前記平均値と前記偏差値または分散の集合の中で最大値を抽出するスケール調整手段として機能し、前記異なる要素の数に対して前記最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項10記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
- 1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、前記フィールド対応付け手段が、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項9〜11のいずれかに記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
- 比較する表情報の各フィールドを構成する各要素に対して、該要素の各文字に対する文字コードの加算値を計算するとともに前記フィールドごとに前記加算値の平均値を求め、前記フィールドごとに前記加算値の偏差値または分散を計算し、前記フィールドを、少なくとも平均値と偏差値または分散の座標軸で構成される2次元以上の写像空間上の点として表し、各フィールドに対応する点間の写像空間上の距離を求め、比較する表情報の写像空間上の点間で計算される距離の中で、最小距離を有するフィールド同士を同一フィールドとして対応付けることを特徴とする同一フィールド判定方法。
- 前記平均値と前記偏差値または分散の座標軸に加え、フィールドを構成する要素の中で異なる要素の数を座標軸とする3次元の写像空間で距離を演算することを特徴とする請求項13記載の同一フィールド判定方法。
- 前記平均値と前記偏差値または分散の集合の中で最大値を抽出し、前記異なる要素の数に対して該最大値と1フィールド内の全要素の数の比を積算して座標のスケール調整を行うことを特徴とする請求項14記載の同一フィールド判定方法。
- 1つのフィールドに対して2つ以上のフィールドが最小距離を有する場合に、最小距離の中で最も小さい距離を有するフィールドを同一フィールドとして対応付けることを特徴とする請求項13〜15のいずれかに記載の同一フィールド判定方法。
- 前記文字コード表が16進数で特定される場合、10進数に変換して、各要素ごとに文字コードの加算値を計算することを特徴とする請求項13〜16のいずれかに記載の同一フィールド判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003010528A JP2004227037A (ja) | 2003-01-20 | 2003-01-20 | フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003010528A JP2004227037A (ja) | 2003-01-20 | 2003-01-20 | フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004227037A true JP2004227037A (ja) | 2004-08-12 |
Family
ID=32899694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003010528A Pending JP2004227037A (ja) | 2003-01-20 | 2003-01-20 | フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004227037A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007188343A (ja) * | 2006-01-13 | 2007-07-26 | Mitsubishi Electric Corp | スキーマ統合支援装置、スキーマ統合支援方法およびスキーマ統合支援プログラム |
JP2008077153A (ja) * | 2006-09-19 | 2008-04-03 | Fujitsu Ltd | データ登録方法 |
JP2010541079A (ja) * | 2007-09-28 | 2010-12-24 | イニシエイト システムズ, インコーポレイテッド | 複数言語によるデータ記録を関連付ける方法およびシステム |
JP2012234343A (ja) * | 2011-04-28 | 2012-11-29 | Fujitsu Ltd | 類似文字コード群検索支援方法、類似候補抽出方法、類似候補抽出プログラムおよび類似候補抽出装置 |
JP5170466B2 (ja) * | 2007-03-09 | 2013-03-27 | 日本電気株式会社 | フィールド照合方法及びシステムと、そのプログラム |
JP6159908B1 (ja) * | 2016-03-31 | 2017-07-05 | スマートインサイト株式会社 | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム |
WO2017170459A1 (ja) * | 2016-03-31 | 2017-10-05 | スマートインサイト株式会社 | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム |
-
2003
- 2003-01-20 JP JP2003010528A patent/JP2004227037A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007188343A (ja) * | 2006-01-13 | 2007-07-26 | Mitsubishi Electric Corp | スキーマ統合支援装置、スキーマ統合支援方法およびスキーマ統合支援プログラム |
JP2008077153A (ja) * | 2006-09-19 | 2008-04-03 | Fujitsu Ltd | データ登録方法 |
JP5170466B2 (ja) * | 2007-03-09 | 2013-03-27 | 日本電気株式会社 | フィールド照合方法及びシステムと、そのプログラム |
US8843818B2 (en) | 2007-03-09 | 2014-09-23 | Nec Corporation | Field correlation method and system, and program thereof |
JP2010541079A (ja) * | 2007-09-28 | 2010-12-24 | イニシエイト システムズ, インコーポレイテッド | 複数言語によるデータ記録を関連付ける方法およびシステム |
JP2012234343A (ja) * | 2011-04-28 | 2012-11-29 | Fujitsu Ltd | 類似文字コード群検索支援方法、類似候補抽出方法、類似候補抽出プログラムおよび類似候補抽出装置 |
US9442901B2 (en) | 2011-04-28 | 2016-09-13 | Fujitsu Limited | Resembling character data search supporting method, resembling candidate extracting method, and resembling candidate extracting apparatus |
JP6159908B1 (ja) * | 2016-03-31 | 2017-07-05 | スマートインサイト株式会社 | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム |
WO2017170459A1 (ja) * | 2016-03-31 | 2017-10-05 | スマートインサイト株式会社 | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582704B (zh) | 招聘信息和求职简历匹配的方法 | |
US8325189B2 (en) | Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products | |
US9031935B2 (en) | Search system, search method, and program | |
KR100816934B1 (ko) | 문서검색 결과를 이용한 군집화 시스템 및 그 방법 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN102955848B (zh) | 一种基于语义的三维模型检索系统和方法 | |
JP4878624B2 (ja) | 文書処理装置および文書処理方法 | |
JP6691280B1 (ja) | 管理システム及び管理方法 | |
EP1522933A2 (en) | Computer aided query to task mapping | |
CN101567011A (zh) | 文档处理装置和文档处理方法 | |
CN105426360A (zh) | 一种关键词抽取方法及装置 | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN109948154B (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
JP2004227037A (ja) | フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法 | |
JP2017146869A (ja) | 情報検索プログラム及び情報検索装置 | |
JP2013174988A (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
CN115860283B (zh) | 基于知识工作者画像的贡献度预测方法及装置 | |
CN117171650A (zh) | 基于网络爬虫技术的文献数据处理方法、系统及介质 | |
JP2011170535A (ja) | 文書品質評価システムおよび文書品質評価プログラム | |
JPWO2019176398A1 (ja) | 情報処理装置、情報処理方法、および、プログラム | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
RU2305314C1 (ru) | Способ поиска и выборки информации из различных баз данных | |
JP5890413B2 (ja) | 多数のデータレコードをサーチする方法及びサーチエンジン | |
KR20140073775A (ko) | 제품명 유사 검색 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090602 |