JP4451624B2 - 情報体系対応付け装置および対応付け方法 - Google Patents

情報体系対応付け装置および対応付け方法 Download PDF

Info

Publication number
JP4451624B2
JP4451624B2 JP2003295728A JP2003295728A JP4451624B2 JP 4451624 B2 JP4451624 B2 JP 4451624B2 JP 2003295728 A JP2003295728 A JP 2003295728A JP 2003295728 A JP2003295728 A JP 2003295728A JP 4451624 B2 JP4451624 B2 JP 4451624B2
Authority
JP
Japan
Prior art keywords
information
category
information element
pair
belonging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003295728A
Other languages
English (en)
Other versions
JP2005063332A (ja
Inventor
忠 星合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003295728A priority Critical patent/JP4451624B2/ja
Publication of JP2005063332A publication Critical patent/JP2005063332A/ja
Application granted granted Critical
Publication of JP4451624B2 publication Critical patent/JP4451624B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は計算機による情報体系対応付け方式に係わり、具体的分野としては、第一に、テキストデータの分類体系、あるいは、メタデータと関連付けられた任意の対象物の分類体系の利用・管理に関わる分野がある。
ここでテキストデータとは、プレーンテキスト、ワープロ等による一般文書、Webページ、電子メールなどの文書類、あるいは、断片的な情報であっても、意味の取れるひとかたまりの文字列を指す。
メタデータとは、商品や道具、機械、紙あるいは電子媒体の書籍・文書、人物、組織など分類可能な任意の対象物(具体物および抽象物の双方とも可)に関して、その個々の対象物に本来備わった客観的な特徴、性質、および、人為的に付与されたデータ(商品の価格や、文書の発信日付、図書に関する感想・コメントなど)の情報を、その情報種別ごとに構造化してまとめたデータを指す。メタデータのデータ形式としては、個々の特徴等を属性名−属性値対として表現し、個々の対象物は、属性名−属性値対の組からなる属性データ群として表現する方法や、XML形式やRDF(リソース・デスクリプション・フレームワーク)形式などを利用して、属性間の入れ子構造に合わせたタグ構造の中で、複雑な属性−属性値関係やメタ属性(属性の属性)を表現する方法などがある。
第二に、XML, SGML, RDF, HTML などのタグ付き構造化文書のタグの体系(階層構造)の利用・管理に関わる分野があり、第三に、関係データベース(RDB)システムにおける、テーブル中のフィールド群の体系の利用・管理に関わる分野、あるいは、オブジェクト指向データベース(ODB)における、オブジェクト(クラス)の属性群の体系の利用・管理に関わる分野がある。
本発明はこのような各種の分野におけるデータ統合、例えば企業内の異なる部門の間でのデータ統合や、企業合併時のデータ統合の支援を行なうものである。
例えば、図書の分類体系としては、DDC(デューイ十進分類法), UDC(国際十進分類法), CC(コロン分類法), LCC(米国議会図書館分類法), NDC(日本十進分類法), NDLC(国会図書館分類法) など、国際レベル、国内レベルで有名な分類法だけでも数多くある。一般に、異なる分類基準で作成された分類カテゴリは、互いに、カテゴリ名称の不一致や粒度の違い、階層構造の違いなどにより、互換性が無い。従って、異なる分類法で分類された情報の間にも分類ラベル(カテゴリ名称)の互換性は無い。
近年のグローバル化やマルチベンダー化の流れにおいて、複数の情報体系の間における情報共有や相互運用の重要性や、別の情報体系から話題を同じくする情報群を取り込んで利用することの重要性は高まってきている。このためには、分類ラベル(カテゴリ)の対応付けを行う必要があるが、例えば、100カテゴリ規模の分類体系同士の対応関係は10000のオーダーとなり、規模の2乗に比例するため、人手による複数の体系間のカテゴリ同士の対応付けには、大規模になればなるほど多大の作業工数を要する。このような場合には、機械処理による支援が必然となる。
また、図書分類の対象領域と一部重なる専門分野でも、特定の学問分野や産業分野に固有の細分類が必要であるし、同一分野でも業界や研究機関、研究者が異なると、分類の粒度が異なることや、細かいレベルで分類が異なることが多く、カテゴリの対応付けの障害となる。
また、近年、脚光を浴びているeコマースの分野においても、商品分類体系が業界や個別企業レベルで異なるため、電子取引の完全自動化の障害となっている。特に、e-commerceやweb serviceにおいては、互換性を意識して、商品記述や取引記録などとして、XMLなどのタグ付き文書を利用することが多くなりつつあるが、企業や企業グループによりタグ体系(DTD,ドキュメント・タイプ・デフィニッション)が異なることが多く、分類体系の非互換性と同質の問題を含んでいる。
データベースの分野においても、同様である。関係データベースの場合は、既存の異なるデータベースの間でデータの共有や統合を行う場合、複数のテーブル−フィールド群の体系の間の対応付け(例えば、人事DBの住所録テーブルの氏名フィールド = 総務DBの従業員持株会テーブルの従業員フィールドの関係を見つけること)が課題である。また、オブジェクト指向データベースの場合は、オブジェクト(クラス)−属性群の体系の間の対応付けが課題となる。
以上をまとめると、ある情報体系(分類体系、タグ体系、RDBテーブル−フィールド体系、ODBクラス−属性体系など)と別の情報体系との統合や、相互運用を行う場合には、多くの場合、情報クラス(分類カテゴリ、タグ、RDBフィールド、ODB属性など)の非互換性が生じ、人手作業では対応しきれない作業工数が発生するので、機械処理により、異なる情報体系間の対応付けを行う必要性がある。
異なる分類体系間のカテゴリ対応付け方法の従来技術として次の文献がある。
特開平10−116290号公報「文書分類管理方法及び文書検索方法」 特開2001−184358号公報「カテゴリ因子による情報検索装置、情報検索方法およびそのプログラム記録媒体」 特開2000−250919号公報「文書処理装置及びそのプログラム記憶媒体」 市瀬他:階層的知識間の調整規則の学習、人工知能学会論文誌、17巻、3号F、PP.230-238(2002年)
特許文献1の技術はカテゴリ単位でのベクトル空間法に基づいている。対象としている情報の種類はタグ付き文書であり、文書中のタグにより指定された属性名−属性値の対からなる文書パラメタベクトルを生成する。次に、文書パラメタベクトルを文書クラス(本発明における分類カテゴリ、あるいは、単にカテゴリと同意である。)ごとにまとめて、それらのベクトルの重心を、文書クラスパラメタベクトル(本発明におけるカテゴリ特徴ベクトルと同意である。)として、2つの分類体系におけるカテゴリ特徴ベクトルの類似度を比較して、分類カテゴリの対応関係を見つける。
実行順序は逐次的(カテゴリ番号順)であり、カテゴリの木構造に沿った処理は行わない。カテゴリの対応関係は1対1対応が基本である。終端カテゴリのみを対象としているので、1対多対応の関係が見つかった場合には、2つの体系のカテゴリ間で上位と下位の関係になるように対応付ける。但し、1対多対応の抽出は実行順序や類似度誤差の影響を受ける。また、分類階層全体としてのカテゴリの対応関係の整合性の評価は行っていない。
特許文献2には異なる情報源の間のボキャブラリの違いを吸収するため、全文検索のような文字列/単語レベルの検索でなく、カテゴリデータのレベルで検索を行う手法が開示されている。
対象とする文書ベースから、特許文献3の技術により話題分野(=カテゴリレベル)を抽出することにより、カテゴリ階層を1階層から2階層へと細分割する。この2階層目のカテゴリが話題分野であり、異なる情報源間でこの話題分野を対応付ける。対応付けはベクトル空間で内積により類似度を計算し、体系AのカテゴリCAと最も類似度の高い体系BのカテゴリCBが対応する話題分野(カテゴリ)となる。ベクトルの内積計算自体は新しいわけではないが、カテゴリの対応関係は両方の体系から計算するので、1対1対応関係だけでなく、1対n対応関係も見つけることができるのが特徴である。
非特許文献1の技術はある概念体系として分類済みの知識源のインスタンス(文書、Webページ等)を、別の異なる概念体系のインスタンスとして取り込むための方法である。(ここで、'概念'とは、本発明における'分類カテゴリ' 、あるいは、単に'カテゴリ'と同意である。)
異なる2つの分類体系で分類済みのWebページの内の共通部分を教師情報として利用しており、一致性の検定(κ統計量)を利用して、2つの分類体系間のカテゴリの類似関係を見つけている。分類階層の構造は、木構造であり、ラティス構造は対象としていない。
トップダウンの再帰的アルゴリズムであり、隣接する階層関係のみの対応関係を調べる。従って、直交する分類基準や見掛け上離れたカテゴリの対応関係は見つけることができない。これも、分類階層全体としてのカテゴリの対応関係の整合性の評価は行っていない。
以上に述べた従来技術においては、カテゴリ対(分類体系間で対応付けられたカテゴリの対)の抽出方法では、ベクトル空間上での類似性、2体系間で共有されるデータの一致性の検定、のように単独の手法を用いている。しかし、前者は、階層における上位や下位の関係を扱うことができず、後者は、1階層の上位−下位関係は扱うものの、階層全体における対応関係の整合性は取り扱えないし、対象とするデータ群の中身(属性情報や出現単語特性など)は扱えない。このように、どちらも一長一短があり、統合的な整合性を判断する必要がある。従来の手法は、このような事情を考慮したものではなかった。
本発明の第1の課題は、例えば2つの分類体系における特徴ベクトルの類似度の比較のための共通の空間を設け、その空間で類似度を比較することによって、また更に名称の類似性を加えた統合的な類似度を使用することにより検出される情報要素対、例えばカテゴリ対の類似度を更に高めることである。
本発明の第2の課題は、検出された要素対を構成する要素の情報体系内の位置が、複数の情報体系内で相互に整合しているかを示す構造的整合性を評価して、全体として整合性の高い要素対集合、例えばカテゴリ対集合の検出を可能とすることである、
すなわち、本発明はこのように異なる情報体系の間で類似する情報要素の対を検出してデータ統合を効率的に支援することを目的とするものである。
図1は本発明の情報体系対応付け装置1の原理構成ブロック図である。図1において特徴分析手段2は、複数の情報体系に属する情報要素のデータに対するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析するものであり、要素対検出手段3は、その分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、その共通空間上で異なる情報体系に属する情報要素の間で、要素のデータの統計的特徴が類似する要素を要素対として検出するものである。
情報体系対応付け位置1は、異なる情報体系に属する要素の間での要素名称の類似性を検出する名称類似性検出手段4を更に備え、要素対検出手段3が前述の統計的特徴の類似性と、名称の類似性とを統合した統合的類似性の高い要素対を検出することもできる。
更に情報体系対応付け装置1は、要素対検出手段3によって検出された要素対を構成する要素の情報体系内の位置が、複数の情報体系の間で相互に整合しているかを示す構造的整合性を評価する整合性評価手段5を備えることもできる。
発明の実施の形態においては、整合性評価手段5が有向グラフ的関係を示す複数の情報体系の間で、検出された要素対を構成する要素と、検出された他の要素対を構成する要素との情報体系内における上位−下位関係、および/または要素間の距離を含む階層的関係の整合性を構造的整合性として評価することもでき、また無向グラフ的関係を示す複数の情報体系の間で、検出された要素対を構成する要素と、検出された他の要素対を構成する要素との距離を含む近隣的関係の整合性を構造的整合性として評価することもできる。
また実施の形態においては、情報体系対応付け装置1が、複数の情報体系の間で、構造的整合性の高い要求対の集合を最適要素対集合として出力する最適要素対出力手段を更に備えることも、また要素対検出手段3によって検出された要素対のうちで、構造的整合性が最も高い要素対から、構造的整合性の高さが複数番目までの要素対を表示する要素対表示手段を更に備えることも、また複数の情報体系内の情報要素と、その要素に対応するデータとの対応を記憶する要素対応データ記憶手段と、要素対応データ記憶手段の記憶内容と構造的整合性の高い要素対のデータとを用いて、異種情報源の同一分野のデータ、あるいはそのデータの論理演算に対応するデータの検索を行なうデータ検索手段とを更に備えることもできる。
更に実施の形態においては、要素対検出手段3が、複数の情報体系に属する要素の間で、外部から指定される要素対の教師データを用いて、その教師データに適合する要素対を検出することもできる。
次に本発明の情報体系対応付け方法においては、複数の情報体系に属する情報要素のデータに対するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析し、その分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、その共通空間上で異なる情報体系に属する情報要素の間で、要素データの統計的特徴が類似する要素を要素対として検出する方法が用いられる。またこの方法に対応する手順を計算機に実行させるためのプログラムと、そのプログラムを格納した計算機読み出し可能可搬型記憶媒体が用いられる。
情報システムの分類体系に関わる分野においては、分類カテゴリの対応付けにおいて、分類体系の全体的な階層構造を反映させることにより、最適なカテゴリ対の集合を得ることができる。これにより、従来人手作業に依存していた異なる分類体系間のカテゴリ対応付け作業の自動化への道を開くことになる。また、カテゴリ対の候補の生成においても複数の観点からの統合的な類似度基準を反映させた、より適切なカテゴリ対の候補を生成することができる。
XML等のタグつき構造化文書に関わる分野においては、タグ体系におけるタグの対応付けにおいて、タグ体系の全体的な階層構造を反映させることにより、最適なタグ対の集合を得ることができる。また、タグ対の候補の生成においても複数の観点からの統合的な類似度基準を反映させたより適切なタグ対の候補を生成することができる。
データベースシステムに関わる分野においては、データベーステーブルにおけるフィールドの対応付けの際に、複数の観点からの統合的な類似度基準を反映させた、より適切なフィールド対の候補を生成することができる。
このように、本発明によれば異なる情報体系のデータの統合を効率的に実行することが可能となる。例えば企業の合併、買収、提携時や、社内の異なる部門間での大規模なデータベース間の関連付けや、分類体系の統合などにおいて、多大なコストの削減や時間短縮を実現することができる。
以下、本発明の実施形態を、情報体系における情報要素の具体例に対応して3つの実施例にわけて説明する。まず第1の実施例は情報体系が情報分類体系であり、情報要素が分類ラベルとしてのカテゴリである場合の実施例である。
図2は異種分類体系の間のカテゴリ対応付けの説明図である。図2における分類体系A,Bは、同一分野あるいは類似分野における分類体系であるとする。同一分野であっても、これらはしばしば異なる分類基準により作成されている。それぞれの分類階層は木構造あるいはラティス構造で表現される。階層構造中のノードは、それぞれ分類体系中の1つの分類カテゴリを示す。分類体系AおよびBは、同一あるいは類似分野の情報体系であるので、それぞれの分類体系中のカテゴリ同士の中には実質的に同義、あるいは類義のカテゴリが含まれていると想定される。例えば、図2における点線の矢印は、分類体系A中のカテゴリA2と分類体系B中のカテゴリB1とが同一あるいは類似のカテゴリの対応関係を表す。同様に、体系A,B中のA5とB3、あるいは、A6とB5、A10とB10のカテゴリ対は同一、あるいは類似のカテゴリである。
同一あるいは類似のカテゴリは、カテゴリ名だけから判断できれば簡単であるが、一般には同一語、同義語、類義語が用いられるとは限らないため、これらの関係を自動的あるいは半自動的に見つけようとするのが本発明の目的である。
図3は第1の実施例における情報体系対応付け装置の構成ブロック図である。制御部C10においては、全体の処理の流れを制御する。
カテゴリ別情報格納部(IAおよびIB)11a,11bには、それぞれ分類体系AおよびBのカテゴリごとに所属する情報(テキストデータや属性名−属性値対など)が格納される。
情報階層関係格納部(HAおよびHB) 12a,12bには、それぞれ分類体系AおよびBの分類階層における各カテゴリの上位−下位関係のデータが格納される。
カテゴリ特徴処理部(CC,カテゴリキャラクタリスティクス)13では、カテゴリ別情報格納部(IA)11aからカテゴリごとに所属する情報を、また、情報階層関係格納部(HA)12aから分類体系Aにおける各カテゴリの上位−下位関係のデータを受け取り、階層構造を反映させたカテゴリ別特徴語を抽出し、カテゴリ特徴ベクトルを作成し、カテゴリ特徴ベクトル格納部(VA)14aに格納する。同様にして、カテゴリ別情報格納部(IB)11bからカテゴリごとに所属する情報を、また、情報階層関係格納部(HB)12bから分類体系Bにおける各カテゴリの上位−下位関係のデータを受け取り、カテゴリ特徴ベクトルを作成し、カテゴリ特徴ベクトル格納部(VB)14bに格納する。
カテゴリ特徴ベクトル格納部(VA)14aおよびカテゴリ特徴ベクトル格納部(VB)14bには、テキストデータ、あるいはメタデータから抽出した特徴量を基にして生成された特徴ベクトルを格納する。
カテゴリ対格納部(CP、カテゴリペア)15には、分類体系Aと分類体系Bの間の対応するカテゴリ対を格納する。
ベクトル類似度処理部(VS、ベクトル シミラリティ)16では、カテゴリ特徴ベクトル格納部(VA)14aおよびカテゴリ特徴ベクトル格納部(VB)14bからカテゴリ特徴ベクトルを読み込んで、分類体系Aと分類体系Bの間の対応するカテゴリ対を見つけて、カテゴリ対格納部CP15に格納する。
カテゴリ名類似度処理部(LS、ラベル シミラリティ)17では、カテゴリ別情報格納部(IA)11aおよび(IB)11bから個々のカテゴリの名称を読み込んで、カテゴリ名同士の類似度を計算し、カテゴリ対格納部CP15に格納する。
階層関係整合性処理部HC(ハイアラーキ コンシステンシー)18は、カテゴリ対格納部CP15に格納されたカテゴリ対のカテゴリが、元々2つの体系A,Bの階層関係において相互に整合性を持っているかを、階層的整合性として検出するものである。
図3においてカテゴリ特徴処理部CC13とベクトル類似度処理部VS16は、本発明の特許請求の範囲の請求項1における特徴分析手段と要素対検出手段に対応する。
またカテゴリ名類似度処理部LS17は請求項2における名称類似性検出手段に対応し、階層関係整合処理部HC18は請求項において階層的関係の整合性を、構造的整合性として評価する整合性評価手段に対応する。
図4は第1の実施形態におけるカテゴリマッチングの全体処理フローチャートである。第1の実施形態においては、例えば階層的な構造を持つカテゴリ体系Aとカテゴリ体系Bとの体系要素、すなわちノードのデータのサンプルデータを用いて、カテゴリマッチングが行なわれる。
まずステップS1で、2つの体系A,Bのサンプルデータを用いて形態素解析と、階層的特徴語の抽出処理が行なわれる。この処理は、前述の文献などの公知の技術を用いて行なわれる。
続いてステップS2で、多次元空間における類似マッチング、すなわちベクトル空間における類似マッチングと、カテゴリの名称による類似マッチングが行なわれる。そして例えば多次元空間において求められた類似度、名称類似マッチングによって求められた類似度が統合され、その統合類似度によって体系A側のカテゴリとの類似度が高い体系B側のカテゴリが組み合わされて、カテゴリ対候補としてステップS3で出力される。
続いてステップS4でカテゴリ対(候補)の構造的整合性、すなわちカテゴリ対を構成している2つのカテゴリが、それぞれ属するカテゴリ体系の中で占める位置が相互に整合しているかを評価する処理が行なわれ、その処理の結果、構造的整合性の高いカテゴリ対がステップS5で最適カテゴリ対候補として出力される。
図4で説明したように、本発明においては情報体系毎のサンプルデータが必要である。ステップS2の多次元空間における類似マッチングにおいては、サンプルデータに基づいてカテゴリ特徴ベクトルの空間内の位置が決定される。サンプルデータがない場合には分布を作成することができず、カテゴリ特徴ベクトルの空間内の位置を決めることができない。カテゴリの名称による類似マッチングはサンプルデータが存在しなくても可能ではあるが、カテゴリの名称だけでは情報量が少ないため、マッチングの精度を上げることはできない。
サンプルデータの量については多い方がよいことは当然であるが、経験的には1カテゴリあたり数十文書が必要であり、グラフの終端ノードに対しては、例えばWebページでは10ページ位のサンプルデータがあることが望ましい。十分なサンプルデータを用いることにより、情報体系の特徴を明白にすることができるため、類似マッチングにおけるカテゴリ対の類似度が向上することになる。
図5は異種体系間におけるカテゴリ特徴ベクトルの比較の説明図である。2つの情報源の分類体系のマッチングに用いる特徴ベクトルの類似度の計算に関して説明する。分類体系Aと分類体系Bの間のカテゴリの対応付けの候補を見つける手段として、ベクトル空間上におけるカテゴリ特徴ベクトルを生成する必要がある。カテゴリ特徴ベクトルに必要な特徴量は、分類体系上のカテゴリ毎のサンプルデータの特徴量を用いる。
前述の通り、サンプルデータの特徴量には2通りあり、種類に応じてカテゴリ特徴ベクトルを作成する。まず、サンプルデータがメタデータの場合は、メタデータ中の各属性が座標軸となり、当該属性の値が座標値となる。この座標軸−座標値対の関係がベクトルの要素となる。
また、テキストデータの場合は、対象テキストデータから、次の特許文献4の技術を用いて、分類体系AおよびBからカテゴリ別の特徴語を抽出し、カテゴリと特徴語の関連度を求めることができ、その結果の特徴語を座標軸に対応させ、関連度をその座標値に対応させることにより、やはり、座標軸−座標値対の関係をベクトルの要素として使うことができる。
特願2002−185173号「特徴語抽出システム」 これにより、それぞれの分類体系の中の各カテゴリは、それぞれの分類体系に対応するベクトル空間上のベクトルに対応付けられる。図5では、分類体系A上のカテゴリは、ベクトル空間上のAのカテゴリ分布の白丸として表現し、分類体系B上のカテゴリは、ベクトル空間上のBのカテゴリ分布の黒丸として表現している。
このままでは、ベクトル空間V(A)のm次元の座標軸(特徴語に対応)と、V(B) のn次元の座標軸とは相違部分が存在するので、共通な座標軸の部分だけを採用した部分空間の上で比較する必要がある。このためには、分類体系Aにおける特徴語の集合と、分類体系Bにおける特徴語の集合との共通部分(積集合)を求めて、その特徴語集合に対応する座標軸を採用して、ベクトル空間V(A∩B)を構築すればよい。このベクトル空間上に分類体系A、および分類体系Bの各カテゴリに対応するベクトルを配置すれば、異なる分類体系のカテゴリ特徴ベクトルの類似性の比較が可能になる。
空間上の2つのベクトルの類似性の比較の基準には、コサイン尺度(cosine measure)、ユークリッド距離、ハミング距離などがある。また、ベクトルの正規化(絶対値=1となるようにすること)の有無の選択も考えられるので、これらの比較条件を対象データの性質や利用目的に合わせて選択すればよい。なお2つのベクトルの成す角をαとするとき、内積(スカラ積)の値と各ベクトルの絶対値を用いて計算されるcosαの値がコサイン尺度であり、角αを角度距離と呼ぶ。
類似性の評価に関しては、距離は小さい方が類似している、また、コサイン尺度は大きくて1に近い方が2つのベクトルは類似しているので、比較基準に合わせて判断すればよい。カテゴリ特徴ベクトルの類似度は、後の処理で他の基準による類似度と組み合わせて使用される。本発明では、多くのカテゴリ群の中からよく類似しているカテゴリを見つけやすくするため、他の基準値との合成によく用いられる演算の和や積に対して貢献できるように、ベクトルが類似していればいるほど「ベクトルによるカテゴリ類似度」が(正で)大きくなるようにする。従って、ベクトルの比較に距離の概念を使用した場合には、必要に応じて「逆数をとる」あるいは「−1をかける」などにより、ベクトルによるカテゴリ類似度を定めればよい。また、ベクトルによるカテゴリ類似度の値域を調節するような変換(線形変換など)を施せばよい。これにより、カテゴリ特徴ベクトルの類似度が計算できる。
最後に、類似カテゴリ対の候補が候補条件を満たしているか否かをチェックする。例えば、ベクトル空間上の類似度に関する閾値などのチェックを行う。例えば、cosine measureのような類似度の尺度では、以下のように下限を規定する。
SimVECT ≧ cosα ・・・・・・(1)
また、ユークリッド距離や角度距離などのような距離尺度では、以下のように上限を規定する。
SimVECT ≦ αVECT ・・・・・・(2)
図6は、図5で説明したベクトル空間上の類似カテゴリの検出処理、すなわち図4のステップS2における多次元空間における類似マッチングの詳細処理フローチャートである。同図において処理が開始されると、まずステップS11〜S16、およびステップS17〜S22で、2つのカテゴリ体系A,Bをそれぞれ対象として、それぞれのベクトル空間におけるカテゴリ分布、すなわち図5の右側と左側のカテゴリ分布が求められる。
ステップS11で分類体系Aが分析対象とされ、ステップS12でその体系の要素、すなわちノードのカテゴリデータがテキストデータであるか、メタデータとしての属性データであるか否かが判定され、属性データでなく、テキストデータである場合には、ステップS13で階層的特徴語が抽出され、ステップS14でカテゴリ特徴ベクトルが計算された後に、またメタデータの属性データである場合には、ステップS15で属性特徴ベクトルが計算された後に、ステップS16で体系Aに対するベクトル空間V(A)上にカテゴリ分布が形成される。
同様の処理が、分類体系Bに対してステップS17〜S22で実行され、体系Bに対応するベクトル空間V(B)上にカテゴリ分布が形成された後に、ステップS23で2つの体系AとBに対するデータの準備が完了したか否か、すなわち2つのカテゴリ体系Aと体系Bとのそれぞれについてカテゴリ分布が得られたか否かが判定され、得られていない場合には2つのカテゴリ分布が得られるまでステップS23の処理が繰返される。
ステップS23で2つの体系に対するカテゴリ分布のデータが得られたと判定されると、ステップS24でそれぞれのベクトル空間V(A)とV(B)との共通特徴語が求められ、ステップS25で2つの体系に共通な比較空間が形成され、ステップS26で2つの体系AとBとの間での類似カテゴリ対の検出とその比較が行なわれ、図5の中央における最近接カテゴリ対が類似カテゴリ対として得られ、ステップS27でその類似カテゴリ対が候補条件を満足するか、例えば(1)式、あるいは(2)式を満足するかがチェックされて、処理を終了する。
以上のように本実施形態では2つの体系にそれぞれ対応するベクトル空間に共通な比較空間が形成されて、類似カテゴリ対の検出が行なわれる。すなわち本実施形態では終端カテゴリだけでなく、非終端カテゴリを含めてベクトル空間法を適用し、終端カテゴリからトップのルートカテゴリまでの全ての階層関係を反映させて、類似カテゴリ対の抽出が行なわれる。体系Aに対するm次元の座標空間と、体系Bに対応するn次元の座標空間との間で、共通な座標軸の部分だけを採用した共通ベクトル空間でのカテゴリの比較が第1の実施形態の大きな特徴であり、従来技術で1つのベクトル空間しか使用していなかった場合と比較して、2つの情報体系のマッチングの精度が大いに向上する。
次に図4のステップS2におけるカテゴリの名称による類似マッチングについて説明する。この処理では、分類体系AとBにおけるカテゴリの名称の文字列レベルの同一性、あるいは類似性の判定、および、同義類義語辞書の参照が行われる。
分類体系Aにおけるカテゴリaiの名称の文字列をname(ai)とし、体系Bにおけるカテゴリbjの名称の文字列をname(bj)とする。文字列の同一性は、name(ai) = name(bj) すなわち完全一致を意味する。文字列の類似性は、一方が他方の部分文字列となっている、あるいは構成する文字の集合の共通部分の多さ、などにより判定する。
例えば、図7のような場合分けを行い、それぞれの文字列レベルの類似度
を設定する。図7において下方包含の式における記号“*”は、任意の文字列を示す。例えばaの名前が“応用数字”や“基礎数学”であり、bの名前が“数学”である場合にはaはbの下位のカテゴリであることになる。上方包含、あるいは中間包含の意味も同様であり、例えば“数学演習”は数学の下位カテゴリである。
例えば下方部分一致単語における“word”は辞書の見出しにすでに登録されている単語を意味する。この辞書としては同義類義語辞書、形態素解析辞書、その他の電子化辞書のいずれでもよく、これらの辞書を組み合わせた辞書でもよい。またaiとbjとが兄弟の関係であるということは、後述するようにカテゴリノードの階層関係において、aiとbjとに対応するノードが直近上位のノードを共有するということを意味し、またいとこ関係であることは2つのノードが直近上位ではないが、ルートノード以外の共通のノードを上位に持つことを意味する。
下方部分一致における“str” も任意の文字列を意味するが、この文字列はaiの名前とbjの名前とに共通であり、*の記号で示される任意文字列が2つの名前の間で異なっている。
文字列レベルの類似度の値としては、類似性の種別に期待されるカテゴリ関係などを参考にして決める。例えば、以下のように定める。
γeq=0.9,γli =0.8,γui=0.7,γmi=0.4,γlpw=0.6,γlps=0.5,γpw=0.3,γoo=0.2,γo=0.1
また、strの文字数、あるいは、共通文字の構成比率、共通文字の出現順一致率などをパラメータとして可変な数値としてもよい。
同義類義語辞書が利用可能な場合は、文字列レベルの類似度の計算より、その辞書を優先的に利用する。図8に同義類義語辞書の構成を示す。
同義類義語辞書は、「代表語」としての文字列、「同義類義語」としての文字列、「類似度」の値(0≦x≦1)、「登録日付」、「AUTHORIZED」の有無、「分野情報」、「多義語」などから構成する。この内、代表語と同義類義語、類似度の項目は必須である(*で示す)。代表語は、同義類義語の集合の要素の1つで、その同義類義語の集合を代表するような語を選ぶ。同義類義語の集合から代表語を除いたものを同義類義語の項目に書く。AUTHORIZEDは、辞書管理者の組織、グループとして合意の取れている場合に1、そうでない場合は0とする。すなわち、担当者レベルの個人的な判断の段階では対象となるデータのAUTHORIZEDの値は0である。合意が取れた場合は、登録日付の値を合意した日付に変更すべきである。分野情報には、政治、経済、IT、医学、日常一般などの専門分野名でもよいし、適当な階層的分類体系のカテゴリ名でもよい。多義語は、分野情報に書かれた対象分野において同義類義語が複数の語義を有する場合にその語義を記入し、他の場合に0とする。
また、類似度の値は、作業者あるいは辞書管理組織の判断により、適切な制約条件の下に定める。例えば、以下のように定める。
同義: 0.9≦x≦1.0 ・・・・・・(3)
類義: αNAME≦x≦0.9 ・・・・・・(4)
但し、ここでαNAME (≧0)は名前の類似度の閾値であり、名前の類似性によるカテゴリ対の候補となるためには、以下の条件を満足する必要がある。
SimNAME ≧αNAME ・・・・・・(5)
同義類義語辞書によるカテゴリ名の類似性の判定は、以下のように行う。このために、図9に示す同義性、類義性の判定方法を利用する。調査対象の2つの単語(文字列)をword1, word2とする。word1とword2が以下の条件のいずれかを満たすとき、同義性あるいは類義性があると判定される。これをword1とword2の辞書的類似度SimDIC( word1, word2 )とする。
・word1 とword2の内、一方が代表語で、他方がその代表語に対する同義類義語となる場合(類似度は、その同義類義語の類似度)
・word1 とword2がともに同一の代表語に対する同義類義語となる場合(類似度は、それらの同義類義語の類似度の小さい方)
このような、同義類義語辞書が利用可能な状態にある場合には、図10のフローチャートに示されるカテゴリ名類似性判定処理が行なわれる。図10においては、体系Aにおけるカテゴリaiの名称と、体系Bにおけるカテゴリbjの名称との類似性の判定が行なわれる。
まずステップS31で2つのカテゴリの名称が、図8で説明した同義類義語辞書に登録されているか否かが判定され、登録されている場合には、ステップS32で同義類義語辞書によるカテゴリの名称の類似性の判定結果がカテゴリ名の類似度とされ、辞書に登録されていない場合には、ステップS33で文字列類似度によるカテゴリ名称の類似性の判定結果がカテゴリ名の類似度とされた後に、ステップS34で類似カテゴリ対の候補条件のチェックとして、(5)式を満足するか否かが判定されて処理を終了する。
なお(5)式において用いられる閾値の値は例えば実験によって決定される。その方法としては、例えば後述する構造的整合性の高いカテゴリ対の集合(正解)を用意し、閾値の値を変化させて得られる類似度の高いカテゴリ対集合のうちで、より正確に近いものが得られる値を採用することが考えられる。
次に図5、図6で説明したベクトル空間上のカテゴリ対の類似度と、図7〜図10で説明した名前の類似度とを統合した統合類似度について説明する。
体系A,B間の類似度(similarity)は、(1)、(2)式によって規定されるベクトル空間におけるカテゴリak とbl の類似度
や、図10のステップS22、またはS23で求められたカテゴリak とbl の名前の類似度
として求められるので、これを基にして体系A,B間で類似するカテゴリ対を求めることができる。また、この異なる2種の基準を統合した類似度を設定することにより、カテゴリ間の統計的特徴と名前の類似度の両方が高い場合にカテゴリ間の類似度がさらに高くなるように設定できる。例えば、次の(6)式で定義される統合類似度を用いて、統合的な観点から類似したカテゴリ対の候補を見つけることができる。
: ベクトル空間におけるカテゴリak とbl の類似度
: カテゴリak とblの名前の類似度
: ベクトル類似度の重み(>0)、
: 名前類似度の重み(>0)
続いて、このような類似度の計算によって検出されたカテゴリ対、およびカテゴリ対集合の構造的整合性の評価について説明する。ベクトル空間法による類似度の計算において、同一分類体系内におけるカテゴリ間の階層関係(上位−下位関係)は前述の特許文献4の技術を用いることにより計算上反映される。しかし、求めたカテゴリ対に関して、一方の体系Aにおける階層関係におけるカテゴリの位置と、カテゴリ対の他方の側の体系Bにおける階層関係におけるカテゴリの位置の関係の整合性に関する情報を知ることはできない。最適な解を得るためには、カテゴリ対全体としての階層関係が最も良く当てはまるような対応関係となるようなカテゴリ対の集合を見つける必要がある。
分類体系の中の個々のカテゴリの間の関係には、階層関係(有向グラフ的関係)と、近隣関係(無向グラフ的関係)とがある。階層関係としては、上位−下位関係や全体−部分関係などがある。階層関係は有向グラフ(個々のノードを矢印付きのリンクでつなげたもの)にて表現され、近隣関係は無向グラフ(個々のノードを矢印無しのリンクでつなげたもの)で表現される。
従って、カテゴリの関係の整合性には、階層関係の整合性以外に近隣関係の整合性についても必要に応じて考えるべきである。以下にそれぞれの場合について、整合性の計算の考え方を説明する。また、階層関係の整合性および近隣関係の整合性を総称して、構造的整合性と呼ぶことにする。まず階層関係の整合性について図11によって説明する。図11中の実線および点線は、カテゴリ対の候補であり、前述の方法により求めておく。本項では、与えられたカテゴリ対全体が、2つの分類体系の階層の上位−下位関係によくフィットしているか、あるいは、ねじれ現象を起こしているか、の総合的な判定を行う仕組みを構築する。
今、分類体系AとBがあり、類似するカテゴリ対の候補として、体系AにおけるカテゴリA3と体系BにおけるカテゴリB6が挙げられている場合に、この二つのカテゴリの対応関係がそれぞれの分類階層の中の位置と比べて整合性があるか(収まりがよいか)を評価することにより、カテゴリ対 A3−B6が正しい対応関係にあるか否かを判定する仕組みを説明する。ここでは、この評価対象のカテゴリ対 A3−B6 を基準カテゴリ対、基準カテゴリ対を構成するカテゴリA3, B6を基準カテゴリと呼ぶことにする。なお、後述するように、求められた複数のカテゴリ対、すなわちカテゴリ集合の中で、各カテゴリ対が順次基準カテゴリ対とされて整合性の評価が行なわれる。
例えば、図11中の(1)のカテゴリ対に関しては、基準カテゴリA3の1階層上位にカテゴリA1があり、A1と対になっている体系B上のカテゴリB2は、基準カテゴリB6に対してちょうど1階層上位の関係にある。従って、カテゴリ対 A1−B2 に関わるカテゴリA1とB2は両方ともそれぞれの基準カテゴリに対して同じ1階層上位の関係にあるので、この2つのカテゴリ対に関する限りは体系A,Bのそれぞれの階層構造と非常に整合性が良いことが分かる。
また、図11中の(2)のカテゴリ対に関しては、基準カテゴリA3の1階層上位にカテゴリA1があり、A1と対になっている体系B上のカテゴリB9は、基準カテゴリB6に対して反対に1階層下位の関係にある。従って、カテゴリ対 A1−B9 に関わるカテゴリA1とB9は互いに基準カテゴリに対して反対の階層関係にあるので、この2つのカテゴリ対に関する限りは体系A,Bのそれぞれの階層構造とねじれが生じており、整合性が悪いことが分かる。
次に、図11中の(3)のカテゴリ対に関しては、基準カテゴリA3の1階層上位にカテゴリA1があり、A1と対になっている体系B上のカテゴリB7は、基準カテゴリB6に対していとこ関係にある。ここで、いとこ関係とは2つのカテゴリが同じ上位カテゴリ(ルートカテゴリを除く)を共有する場合を指す。2つのカテゴリが直接の上位カテゴリを共有する場合は、特に兄弟関係と呼ぶが、本発明においては、より広い概念としてのいとこ関係という用語で統一する。従って、カテゴリ対 A1−B7 に関わるカテゴリA1とB7は、基準カテゴリに対して、片や上位関係、片やいとこ関係にあるので、この2つのカテゴリ対に関する限りは体系A,Bのそれぞれの階層構造と整合性が良いか悪いか、一見してよく分からない。このような場合は、それぞれの階層関係やリンク距離などを基にしてカテゴリ対 A1−B7 の階層的整合性を評価する必要がある。なお、ここでリンク距離とは、当該カテゴリから基準カテゴリへ到達するために経由するリンクの数とし、もし、当該カテゴリから基準カテゴリへの経路が複数個ある場合には、その中で経由するリンクの数が最小の経路のリンク数を距離とする。
このようにして、基準カテゴリに対するカテゴリ関係の種類より、カテゴリ対の階層的整合性の種類も異なるので、次にこれらをまとめて整理する。図12は、2つの分類体系間の2対のカテゴリ関係の階層的な整合性の評価について説明する図である。ここでは、基準カテゴリに対するカテゴリ関係は、上位、下位、いとこ、無関係の4種に分けて考える。但し、ここで無関係とは、2つのカテゴリがルートカテゴリ以外のカテゴリを上位カテゴリとして共有しないことを指す。
図中で、体系A側で上位の場合においては、前述の説明のように、体系B側で上位の場合はカテゴリ関係は上位として一致、体系B側で下位の場合は逆順序、体系B側でいとこ関係の場合はその他、体系B側で無関係の場合は無関係である。
次に、体系A側で下位の場合も、上位の場合と同様に考える。すなわち、体系B側で上位の場合はカテゴリ関係は逆順序、体系B側で下位の場合は下位として一致、体系B側でいとこ関係の場合はその他、体系B側で無関係の場合は無関係となる。
さらに、体系A側でいとこ関係の場合は、体系B側で上位の、あるいは下位の場合はその他、体系B側でいとこ関係の場合はいとこ関係として一致、体系B側で無関係の場合は無関係となる。
また、体系A側で無関係の場合は、体系B側の関係に関わり無く、結果は無関係となる。
2つの分類体系間で2対のカテゴリ対だけに着目した場合の整合性を階層的適合度として評価する。実際のカテゴリ対の階層的適合度を計算する際には、図12における、一致、逆順序、その他、無関係などに対して適当な重み付けを考慮して、適合度を決定する。
例えば、階層関係が一致するカテゴリ対を優先し、逆順序関係をなるべく避けるために、基準カテゴリ対ai−bjに対するak−blの階層的適合度
として、以下のように設定することができる。
一致(上位): 1.0
一致(下位): 1.0
一致(いとこ): 0.4
逆順序: −1.0
その他: 0.1
無関係: 0.0
あるいは、以下のようにリンク距離に応じて増減させることもできる。但し、λ(>0)をリンク重みとし、la, lB を基準カテゴリとのリンク距離、
とする。
一致(上位)
上位リンク重み: λsup > 0
一致(下位)
下位リンク重み: λsub > 0
一致(いとこ)
いとこ関係重み
逆順序:
逆順序重み: λrev > 0
その他
その他関係重み
無関係: 0.0
以上のようにして、適切に階層的適合度を決めることができる。なお、ここで用いる各種の重みについても実験的に決定することができる。
カテゴリ対の集合Ωの階層的整合性
を求めるには、まず、基準カテゴリ対aiーbjに対するカテゴリ対akーblの階層的整合性
を以下により求める。
: カテゴリ対ai−bjに対するakーblの階層的適合度
次に、カテゴリ対aiーbjの階層的整合性
を、以下により求める。
Ω: カテゴリ対の集合、
|Ω|: カテゴリ対の集合の大きさ(集合の要素数)
最後に、以下のように、カテゴリ対全体について階層的整合性を求めることができる。
この階層的整合性
を最大にするようなカテゴリ対の集合が、階層関係の観点から見た最適解である。
次にカテゴリ対、およびカテゴリ対集合の近隣関係の整合性について説明する。図13はカテゴリ対の近隣関係の整合性の説明図である。図13中の実線および点線は、カテゴリ対の候補であり、前述の方法により求めておく。本項では、与えられたカテゴリ対全体が、2つの分類体系の近隣関係によくフィットしているか、あるいは、ねじれ現象を起こしているか、の総合的な判定を行う仕組みを構築する。
今、分類体系AとBがあり、類似するカテゴリ対の候補として、体系AにおけるカテゴリA3と体系BにおけるカテゴリB6が挙げられている場合に、この二つのカテゴリの対応関係がそれぞれの無向グラフの中の位置と比べて整合性があるか(収まりがよいか)を評価することにより、カテゴリ対 A3−B6 が正しい対応関係にあるか否かを判定する仕組みを説明する。ここでは、この評価対象のカテゴリ対 A3−B6 を基準カテゴリ対、基準カテゴリ対を構成するカテゴリA3, B6を基準カテゴリと呼ぶことにする。
例えば、図13中の(1)のカテゴリ対に関しては、基準カテゴリA3とカテゴリA1とはリンク1本でつながっており、A1と対になっている体系B上のカテゴリB2は、基準カテゴリB6に対してちょうどリンク1本の距離にある。従って、カテゴリ対 A1−B2 に関わるカテゴリA1とB2は両方ともそれぞれの基準カテゴリに対して同じリンク距離=1の関係にあるので、この2つのカテゴリ対に関する限りは体系A,Bのそれぞれの無向グラフと非常に整合性が良いことが分かる。
また、図13中の(2)のカテゴリ対に関しては、基準カテゴリA3とカテゴリA1とはリンク1本でつながっており、A1と対になっている体系B上のカテゴリB9は、基準カテゴリB6に対してやはりリンク1本の距離にある。従って、カテゴリ対 A1−B9 に関わるカテゴリA1とB9は両方ともそれぞれの基準カテゴリに対して同じリンク距離=1の関係にあるので、この2つのカテゴリ対に関する限りは体系A,Bのそれぞれの無向グラフと非常に整合性が良いことが分かる。
それから、図13中の(3)のカテゴリ対に関しては、基準カテゴリA3とカテゴリA1とはリンク1本でつながっており、A1と対になっている体系B上のカテゴリB7は、基準カテゴリB6に対してリンク3本でつながっている。従って、カテゴリ対 A1−B7 に関わるカテゴリA1とB7は、基準カテゴリに対して、リンク距離が異なるので、この2つのカテゴリ対は、(1)や(2)のカテゴリ対に比べて、体系A,Bのそれぞれの無向グラフにおける 整合性が良くない。整合性の程度を比べるためには、それぞれリンク距離を基にして評価すればよい。
例えば、体系Aにおけるカテゴリakの基準カテゴリaiに対するリンク距離をlAとし、体系Bにおいてakと対をなすカテゴリblの基準カテゴリbjに対するリンク距離をlBとすると、カテゴリ対ak−blの基準カテゴリ対に対する近隣関係適合度を以下のように表すことができる。
すなわち、リンク距離の差が小さいほど適合度の値が大きく、最大値は1、最小値は0である。
また、上記の式は近くでの距離の一致と遠くでの距離の一致が同じ評価になるが、基準カテゴリ対との距離が近いカテゴリ対の評価値を高くしたいという考え方もある。この場合は、例えば、以下のような評価式を設定することにより、遠方よりも近隣での距離の一致を優先することができる。
例えば、λ1=0.05, λ2=0.1 の場合、近隣関係適合度は図14に示される値となる。
図14を見れば、近隣における距離の一致が強調されていることが分かる。この場合、リンク距離が5より大きいときには、たとえリンク距離が一致しても評価値は0になる。従って、近隣部分のリンク距離のみを計算すればよく、計算効率の向上にも貢献する。
カテゴリ対集合Ω内で任意のカテゴリ対ak−bl の基準カテゴリ対ai−bj に対する近隣関係適合度を基にして、階層的整合性を求める(7)〜(9)式と同様にして近隣関係整合性が求められる。
カテゴリ対の集合Ωの近隣関係整合性
を求めるには、基準カテゴリ対ai−bjに対するカテゴリ対ak−blの近隣関係整合性
を以下により求める。
: カテゴリ対ai−bjに対するカテゴリ対ak−blの近隣関係適合度
次に、カテゴリ対ai−bjの近隣関係整合性
を、以下により求める。
Ω: カテゴリ対の集合、
|Ω|: カテゴリ対の集合の大きさ
最後に、以下のように、カテゴリ対全体について近隣関係整合性を求めることができる。
この近隣関係整合性
を最大にするようなカテゴリ対の集合が、近隣関係の観点から見た最適解である。
また、階層的整合性と近隣関係整合性を統合することにより、双方の観点から見た最適解を得ることができる。この構造的整合性
は、例えば、以下で求めることができる。
図15は、カテゴリ対集合の中のカテゴリ対を入れ替えながら、集合全体の構造的整合性が最適となる最適カテゴリ対集合を出力する処理のフローチャートである。
同図において処理が開始されると、まずステップS41で、例えばベクトルによる類似度を用いて各カテゴリに対して類似度のランキングが1位となるカテゴリを組み合わせて、そのようなカテゴリ対を最近接カテゴリ対候補として、その集合Ωが生成され、集合Ωに対する構造的整合性の最適値CONMAXに“0”が代入された後に、そのカテゴリ対集合Ωの整合性を求めるステップS42の処理に移行する。
ここでは構造的整合性として、(7)〜(9)式において説明した階層的整合性を求める例を説明するが、(12)〜(14)式で説明した近隣関係整合性を求めてもよく、あるいは2つの整合性を統合した(15)式で説明した構造的整合性を求めてもよいことは当然である。
カテゴリ対集合Ωの整合性を求める処理として、ステップS42でカテゴリ対ai−bjを基準カテゴリ対として、この基準カテゴリ対を変化させて、ステップS43〜S45の処理が繰返される。
ステップS43では、カテゴリ対集合Ωの中で、基準カテゴリ対ai−bj以外のカテゴリ対ak−bl以外を変化させながら、ステップS44の処理が実行される。ステップS44では基準カテゴリ対ai−bjに対するカテゴリ対ak−blをの整合性、ここでは(7)式で与えられる階層的整合性が求められ、ステップS43の繰返しが終了すると、ステップS45で基準カテゴリ対ai−bjの階層的整合性、すなわち(8)式の値が求められ、ステップS42の基準カテゴリ対を変化させる繰返しが終了した時点で、ステップS46の処理に移行する。
ステップS46ではカテゴリ対集合Ω全体についての構造的整合性、ここでは(9)式によって与えられる階層的整合性CON(Ω)が求められ、ステップS47で求められた整合性の値が整合性最適値CONMAXより大きいか否かが判定される。大きい場合にはステップS48でその値が最適値CONMAXに代入され、その集合Ωがカテゴリ対集合最適解ΩMAXに代入される。
ここではステップS41でCONMAXが“0”とされているため、ステップS46で求められた階層的整合性が整合性最適値とされて、ステップS49の処理に移行する。ステップS47で、例えばメモリに格納されている整合性最適値の値がステップS46で求められた整合性の値より大きい場合には、直ちにステップS49の処理に移行する。
ステップS49では、終了条件の判定が行なわれる。終了条件としては、例えばあらかじめ定められた繰返し回数の終了、前回のステップS46で求められた階層的整合性と今回求められた階層的整合性との差があらかじめ定められた値より小さくなること、あるいは階層的整合性の増減率の絶対値があらかじめ定められた値より小さくなることなどのいずれかを考えることができる。
終了条件が満足されていないと判定されると、ステップS50でカテゴリ対候補の入れ替え処理が行なわれる。すなわちステップS51でカテゴリ対集合Ωの中の1部のカテゴリ対が削除され、他のカテゴリ対との交換や、カテゴリ対の追加などが行なわれ、ステップS52で新たなカテゴリ対集合がΩと置かれた後に、ステップS42以降の処理が繰返される。
ステップS49で終了条件が満足されたと判定されると、ステップS53で構造的整合性最適値CONMAXと、カテゴリ対集合の最適解ΩMAXが出力されて、処理を終了する。
前述のように、構造的整合性として階層的整合性の代わりに、近隣関係整合性を用いて図15の処理を実行することもでき、また階層的整合性と近隣関係整合性を統合した(15)式で与えられる構造的整合性を用いて、図15の処理を実行することもできる。
なお、図15のステップS51でカテゴリ対候補を入れ替えた後のステップS42〜S46における集合Ωの構造的整合性を求める処理では、入替のあったカテゴリ対に関連する部分のみを計算対象とすることによって計算効率の向上を図ることができる。
以下に、本発明の請求項、すなわち教師データの利用について説明する。本発明は、異なる分類体系の間の一致するカテゴリ対あるいは類似するカテゴリ対を求めることが目的であるが、正解のカテゴリ対の内の一部が何らかの理由(例えば、専門家による判断など)により既知となっている場合も考えられる。このような場合には、もちろん、既知の正解カテゴリ対を対象データから外して、残りのデータだけに類似カテゴリ対の判定法を適用して、残りのカテゴリ対を見つけるという方法も考えられる。
しかし、もう一つの方法として、既知の正解カテゴリ対のデータも含めた全体のデータについて、類似カテゴリ対の判定法を適用して、全体の分析結果としての類似カテゴリ対を求めれば、既知の正解カテゴリ対との結果のつき合わせができるので、もし相違部分があれば、その相違が小さくなるように評価基準のパラメータや式、あるいは、個別類似度の合成のパラメータや式を変更する手掛かりとなる。
もし、教師情報と実際の結果との差異が求められれば、評価基準の自動的変更を繰り返し行うことにより、最終的に最適な結果を得る手法が人工知能の分野の機械学習という手法にあるので、機械学習の手法の内の適切なものを選んで適用することにより、より適切なカテゴリ対を結果として得ることができる。これにより、予め正解の内の幾つかが分かっている場合には、正解の手掛かりが無い場合に比べて良好な結果を得ることができる。
本発明の請求項、すなわち最適カテゴリ対集合の出力について説明する。
前述の図15において、最適カテゴリ対集合を得た後、この最適カテゴリ対集合の全てが正解(体系AとBの間で同一あるいは類似のカテゴリと言える)であるとみなして、その結果を出力する。出力先としては、ディスプレイ装置、あるいは、記憶媒体上のファイル、プログラム間で受け渡し可能な構造体などを指定できるようにしておく。この条件の下で、出力された最適なカテゴリ対の組を、他のプログラムやネットワーク用の通信ソケットなどが連携して自動的に利用することにより、様々な効果が得られる。
例えば、分類体系Aを有し、分類済み情報の統合管理を行うプログラムと連携させれば、異なる分類体系Bの中のカテゴリの内、体系Aの中の特定のカテゴリと対応付けられたカテゴリに関しては、その体系B中のカテゴリに属する文書あるいはWebページなどの情報を自動的に体系Aの中の対応するカテゴリにコピーし、その後、元々体系A上に存在した情報と同じ扱いで、参照、検索、種々の分析などが行えるというメリットが生じる。
また、これ以外の自動化の実現法としては、構造的整合性の評価を行わずに、ベクトル空間上の類似性やカテゴリ名の類似性により求まるカテゴリ対候補、あるいは、この2つの類似性を統合した(6)式の統合類似度を用いて求められたカテゴリ対候補を正解とみなして、その結果を前述と同様の出力先に出力し、他のプログラムと連携することにより、様々な効果を得るという方法も考えられる。
本発明の請求項、すなわち整合性の高いカテゴリ対の表示について説明する。前述の図15において、最適カテゴリ対集合だけでなく、構造的整合性の比較的高かったカテゴリ対集合に関する情報も保存しておき、構造的整合性の高い順にカテゴリ対集合、およびカテゴリ対のランキングを作成し、そのランキング結果をディスプレイ装置に表示する。
カテゴリ対に関する情報として、画面上では、ランキング順位、カテゴリ対の両側のカテゴリの名称、ベクトル空間上の類似度、カテゴリ名の類似度、統合的類似度、体系A側の階層関係、体系B側の階層関係、階層的適合度、階層的整合性、(もしあれば)近隣関係適合度、近隣関係整合性、属するカテゴリ対集合の識別子のリストなどを表示する。
また、カテゴリ対集合に関する情報として、ランキング順位、カテゴリ対集合識別子、カテゴリ対集合の構造的整合性、共通カテゴリ対のリスト、非共通カテゴリ対のリストなどを表示する。ここで共通カテゴリ対とはランキングの異なるカテゴリ対集合の間で共通に存在するカテゴリ対であり、非共通カテゴリ対とは例えば一方のカテゴリ対集合にのみ存在するカテゴリ対である。
また、分類体系Aの階層構造を表す図、分類体系Bの階層構造を表す図、および、体系A,B間で対応するカテゴリ対などを表示する。
画面には、当初、最適カテゴリ対集合に属するカテゴリ対のみが強調表示される。ユーザは、これらの情報を1画面あるいは複数画面上で確認しながら、自分の判断により望ましいと思うカテゴリ対を追加したり、望ましくないと思うカテゴリ対を削除することが可能である。このカテゴリ対の追加・削除の機能は、文字列レベルおよびグラフィックレベルの両方の対話インタフェースで実現可能とする。
ユーザが入力した情報に従って、カテゴリ対の集合の内容を変化させ、画面上の表示内容もそれに応じて変化させる。また、カテゴリ対集合の変化内容や変化後の状態に関する情報、および、編集履歴もシステム内部に格納し、再利用可能にする。
また、これ以外の自動化の実現法としては、構造的整合性の評価を行わずに、ベクトル空間上の類似性やカテゴリ名の類似性により求まるカテゴリ対候補、あるいは、この2つの類似性を統合した統合的類似度から求まるカテゴリ対候補、の上位n位までを求めて、その結果を前述と同様の出力先で表示、編集するという方法も考えられる。
本発明の請求項、すなわちデータ検索方式について説明する。ここでは検索のために入力される単語に関連するカテゴリに対応した文書群が検索されるものとする。
前述の図15において、最適カテゴリ対集合を得た後、この最適カテゴリ対集合の全てが正解であるとみなして、複数の分類体系間のカテゴリを対応付ける。当初の分類体系に加えて、カテゴリの対応関係を反映させた共通カテゴリテーブルを作成する。テーブルの項目としては、体系A側のカテゴリ識別子、体系B側のカテゴリ識別子、階層的適合度などを含むものとする。
図16はこのデータ検索処理を実行するための、情報体系対応付け装置の構成を示すブロック図である。図3の情報体系対応付け装置において、検索処理に無関係な部分を省略し、検索処理に必要なブロックを追加したものである。
図16において、データ検索処理のために後述する3種類のテーブルをそれぞれ格納する共通カテゴリテーブル格納部CC(コモンカテゴリ)20、カテゴリ体系Aに対する文書−カテゴリインデックス(テーブル)格納部DC(ドキュメントカテゴリ)A21a、同様に体系Bに対する格納部21b、単語−カテゴリインデックス(テーブル)格納部WC(ワードカテゴリ)22、これらの3種類のテーブルを作成するインデックス作成部23、例えばユーザからの検索要求を処理する検索要求処理部24、検索要求に対応して3種類のテーブル20、21a、21b、22に格納されているテーブルを用いて、入力される単語に関連するカテゴリに対応した文書群を検索結果として出力するカテゴリレベル検索部25、その検索結果を格納する検索結果格納部26、および検索結果を表示する検索結果表示部27を備えている。なお、検索要求処理部24は、例えばユーザから入力される検索のためのキーワードを用いた検索が可能か否かを実際の検索に先立って判定するために単語−カテゴリインデックス格納部WC22の内容を参照できるものとする。
図17は、共通カテゴリテーブルのデータ構造である。最適カテゴリ対集合内のカテゴリが一対一対応の場合(CC.1,CC.2など)に関しては、そのカテゴリ対の体系1側のカテゴリの識別子(第1カテゴリID)および、体系2側のカテゴリの識別子(第2カテゴリID1)、当該カテゴリ対の構造的整合性を共通カテゴリテーブルの対応部分へ格納する。カテゴリ対が一対多対応の場合(CC.51,CC56など)に関しては、1個のみのカテゴリの側を第1カテゴリIDとし、複数のカテゴリの側を第2カテゴリID1、第2カテゴリID2、・・・とする。同様に、構造的整合性1、構造的整合性2を格納する。
最適カテゴリ対集合内のカテゴリ対のカテゴリとなっていないカテゴリについては、体系A側の孤立したカテゴリ(C.A.2など)を共通カテゴリテーブルの体系A側のカテゴリの識別子項目の値(C.A.2およびCC.58など)として格納する。同一レコードの他の項目は空欄とする。また、体系B側の孤立したカテゴリ(C.B.4など)を共通カテゴリテーブルの体系B側のカテゴリの識別子項目の値(C.B.4およびCC.97など)として格納する。これも同一レコードの他の項目は空欄とする。
次に、文書−カテゴリインデックステーブルを作成する。図18に文書−カテゴリインデックステーブルの構成を示す。例えば体系A内の各カテゴリと当該カテゴリに所属する文書との対応関係をインデックステーブル化する。すなわち、インデックステーブルの項目としては、カテゴリID、文書−適合度リストからなり、後者は、所属文書の識別子(文書ID1、文書ID2、・・・)とカテゴリ適合度(適合度1、適合度2、・・・)から構成される。他の体系Bなどについても、体系Aの文書−カテゴリインデックステーブルと同様に作成する。
なお文書とカテゴリとの適合度については、前述の特許文献2の図5と[0048]に文書とカテゴリ因子の適合度が説明されており、カテゴリ因子をカテゴリと読み替えればよい。
図19は単語−カテゴリインデックステーブルのデータ構造を示す。テーブルの項目としては単語ID、単語表記、共通カテゴリテーブルにおける識別子(共通カテゴリID)、および単語とカテゴリとの関連度である。このうち単語とカテゴリとの関連度については、前述の特許文献4に特徴語とカテゴリでの関連度として説明されており、特徴語を単語と置き替えることによって、その説明を利用することができる。
単語−カテゴリインデックステーブルには共通カテゴリテーブル内の各カテゴリに関連する全ての特徴語の識別子および表記が、それぞれ単語IDおよび単語表記として格納される。例えば体系Aの中の各カテゴリの全特徴語についてこれらの表記が格納され、また体系B内の各カテゴリの全特徴語についても同様にこれらの表記が格納される。カテゴリIDとしては、共通カテゴリテーブル内の対応する共通カテゴリIDの値が格納される。
関連度については、共通カテゴリテーブル上で共通カテゴリID=Ck *に関連する体系別のカテゴリ(第1カテゴリID,第2カテゴリIDリスト)のそれぞれと単語、すなわち特徴語との関連度の加重平均が求められ、関連度、γ(wi,Ck *)として格納される。
すなわち関連度の計算は、例えば以下のように行なわれる。
(1)共通カテゴリCk *に対応するカテゴリ対が1個以上存在する場合、
ここで
:共通カテゴリCk *に対するカテゴリ対の集合、
:Ck *に属するカテゴリ対ai−bjの構造的整合性
(2)共通カテゴリCk *に対応するカテゴリ対が存在せず、1つのカテゴリaiが孤立している場合、すなわちCk *=aiである場合、
以上により、必要なインデックステーブルの情報が揃うので、順にテーブル参照を行うことにより、検索入力の語に関連したカテゴリに所属する文書群のリストが得られる。すなわち、1)単語−カテゴリインデックステーブル(単語→共通カテゴリテーブル識別子)、2) 共通カテゴリテーブル(共通カテゴリテーブル識別子→体系別カテゴリ識別子)、3) 文書−カテゴリインデックステーブル(体系別カテゴリ識別子→文書識別子)の順にインデックステーブルをたどることにより、目的の文書群が特定できる。
以上の説明では、例えばユーザから入力されるキーワードに対応して、そのキーワードに関連するカテゴリに対応する文書群を検索するものとしたが、検索対象は文書群に限定されず、各種の形式のデータとすることも当然可能であり、またそのような文書以外のデータに対して論理演算が施された結果としてのデータを検索することも可能である。
次に第2の実施例について説明する。第2の実施例では、情報体系がXML,SGML,HTMLなどのタグ付き構造化文書のタグ体系である。図20におけるタグ体系A,Bは、同一分野あるいは類似分野におけるタグ体系であるとする。同一分野であっても、これらはしばしば異なる基準により設計されている。それぞれのタグ階層は木構造、あるいはラティス構造で表現される。階層構造中のノードは、それぞれタグ体系中の1つのタグを示す。タグ体系AおよびBは、類似分野の情報体系であるので、それぞれのタグ体系中のタグ同士の中には実質的に同義、あるいは類義のタグが含まれていると想定される。例えば、図20における点線の矢印は、タグ体系A中のタグ<a1>とタグ体系B中のタグ<b1>とが同一、あるいは類似のタグであることを示す。同様に、体系A,B中の<a3>と<b5>、あるいは<a5>と<b6>、<a6>と<b2>のタグ対は、同一あるいは類似のタグである。
同一あるいは類似のタグを、タグ名だけから判断できれば簡単であるが、一般には同一語、同義語、類義語が用いられるとは限らないため、これらの関係を自動的あるいは半自動的に見つけようとするのが第2の実施例の目的である。
第2の実施例における構造化文書のタグ体系は、第1の実施例におけるカテゴリ体系と比較すると、情報体系としては基本的に同一の構造を持つ。従って第1の実施例としての図2〜図19の説明は基本的にそのまま用いることができ、第1の実施例における分類体系をタグ体系、カテゴリをタグと読み替えることにより、例えば図3で説明した情報体系対応付け装置、図4で説明したマッチング全体処理のフローチャートを始めとする技術を、そのまま第2の実施例において利用することが可能である。
続いて第3の実施例、すなわち情報体系が、例えば関係データベースのテーブルであり、情報要素がそのフィールドである実施例について説明する。
図21におけるデータベーステーブルA, Bは、同一分野あるいは類似分野におけるデータベーステーブルであるとする。同一分野であっても、これらはしばしば異なる基準により設計されている。データベーステーブルAおよびBは、類似分野の情報体系であるので、それぞれのデータベーステーブル中のフィールド同士の中には実質的に同義、あるいは類義のフィールドが含まれていると想定される。例えば、図21における点線の矢印は、データベーステーブルA中のフィールドa1とデータベーステーブルB中のフィールドb2とが同一、あるいは類似のフィールドであることを示す。同様に、体系A中のa3と体系B中のb3のフィールド対は同一、あるいは類似のフィールドである。
同一、あるいは類似のフィールドを、フィールド名だけから判断できれば簡単であるが、一般には同一語、同義語、類義語が用いられるとは限らないため、これらの関係を自動的あるいは半自動的に見つけようとするのが第3の実施例の目的である。
第3の実施例におけるデータベーステーブルのフィールド体系は第1の実施例におけるカテゴリ体系と比較すると情報体系としての考え方は基本的に同じである。
しかしながら関係データベースシステムにおけるデータベーステーブルのフィールド体系は、例えば図2で説明した分類体系としてのカテゴリ体系のように階層構造を持たず、フラットな構造となっている。従って図11〜図15で説明した構造的整合性の評価を利用した最適要素対、すなわち最適フィールド対検出の技術を利用することはできない。
その他の技術については、第1の実施例における分類体系をデータベーステーブル、カテゴリをフィールドと読み替えることによって、そのまま利用することが可能である。なおここでは関係データベースにおけるフィールド体系を対象として第3の実施例を説明したが、データベースがオブジェクト指向データベースであり、情報体系がオブジェクト(クラス)の属性群の体系であってもよいことは当然である。
以上において本発明の情報体系対応付け装置、および対応付け方法について詳細に説明したが、この情報体系対応付け装置は当然一般的なコンピュータシステムを基本として構成することが可能である。図22はそのようなコンピュータシステム、すなわちハードウエア環境の構成ブロック図である。
図22においてコンピュータシステムは中央処理装置(CPU)30、リードオンリメモリ(ROM)31、ランダムアクセスメモリ(RAM)32、通信インタフェース33、記憶装置34、入出力装置35、可搬型記憶媒体の読み取り装置36、およびこれらの全てが接続されたバス37によって構成されている。
記憶装置34としてはハードディスク、磁気ディスクなど様々な形式の記憶装置を使用することができ、このような記憶装置34、またはROM31に図4,図6,図10、および図15などのフローチャートに示されたプログラムや、本発明の特許請求の範囲の請求項のプログラムなどが格納され、そのようなプログラムがCPU30によって実行されることにより、本実施形態における共通ベクトル空間における特徴ベクトルの比較、名称類似度によるカテゴリ対検出、検出カテゴリ対の構造的整合性の評価などが可能となる。
このようなプログラムは、プログラム提供者38側からネットワーク39、および通信インタフェース33を介して、例えば記憶装置34に格納されることも、また市販され、流通している可搬型記憶媒体40に格納され、読み取り装置36にセットされて、CPU30によって実行されることも可能である。可搬型記憶媒体40としてはメモリカード、CD−ROM、フレキシブルディスク、光ディスク、光磁気ディスク、DVDなど様々な形式の記憶媒体を使用することができ、このような記憶媒体に格納されたプログラムが読み取り装置36によって読み取られることにより、本実施形態における構造的整合性の高い最適カテゴリ対集合の検出などが可能となる。
(付記1) 複数の情報体系を対象として、体系間のマッチングを調べる情報体系対応付け装置において、
複数の情報体系に属する情報要素のデータに対応するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析する特徴分析手段と、
該分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、該共通空間上で異なる情報体系に属する情報要素の間で、該要素のデータの統計的特徴が類似する要素を要素対として検出する要素対検出手段とを備えることを特徴とする情報体系対応付け装置。
(付記2) 前記情報体系対応付け装置において、異なる情報体系に属する情報要素の間での要素名称の類似性を検出する名称類似性検出手段を更に備え、
前記要素対検出手段が、前記要素のデータの統計的特徴の類似性と、該名称の類似性とを統合した統合的類似性の高い要素対を検出することを特徴とする付記1記載の情報体系対応付け装置。
(付記3) 前記情報体系対応付け装置において、前記要素対検出手段によって検出された要素対を構成する要素の情報体系内の位置が、検出された他の要素対を構成する要素の体系内の位置と相互に整合しているかを示す構造的整合性を評価する整合性評価手段を更に備えることを特徴とする付記1記載の情報体系対応付け装置。
(付記4) 前記整合性評価手段が、有向グラフ的関係を示す複数の情報体系の間で、前記検出された要素対を構成する要素と、検出された他の要素対を構成する要素との体系内における上位−下位関係、および/または要素間の距離を含む階層的関係の整合性を、前記構造的整合性として評価することを特徴とする付記3記載の情報体系対応付け装置。
(付記5) 前記整合性評価手段が、無向グラフ的関係を示す複数の情報体系の間で、前記検出された要素対を構成する要素と、検出された他の要素対を構成する要素との距離を含む近隣的関係の整合性を、前記構造的整合性として評価することを特徴とする付記3記載の情報体系対応付け装置。
(付記6) 前記情報体系対応付け装置において、
前記複数の情報体系の間で、前記構造的整合性の高い要素対の集合を、最適要素対集合として出力する最適要素対出力手段を更に備えることを特徴とする付記3記載の情報体系対応付け装置。
(付記7) 前記情報体系対応付け装置において、
前記要素対検出手段によって検出された要素対のうちで、前記整合性評価手段によって評価された構造的整合性が最も高い要素対から、該構造的整合性の高さが複数番目までの要素対を表示する要素対表示手段を更に備えることを特徴とする付記3記載の情報体系対応付け装置。
(付記8) 前記情報体系対応付け装置において、
前記複数の各情報体系内の情報要素と、該要素に対応するデータとの対応を記憶する要素対応データ記憶手段と、
該要素対応データ記憶手段の記憶内容と、前記整合性評価手段によって評価された構造的整合性の高い要素対のデータとを用いて、異種情報源の同一分野のデータ、あるいは該データの論理演算に対応するデータの検索を行なうデータ検索手段とを更に備えることを特徴とする付記3記載の情報体系対応付装置。
(付記9) 前記要素対検出手段が、複数の情報体系に属する要素の間で、外部から指定される要素対の教師データを用いて、該教師データに適合する要素対を検出することを特徴とする付記1記載の情報体系対応付け装置。
(付記10) 前記情報体系が情報分類体系としてのカテゴリ体系であり、前記要素が該カテゴリ体系を構成するカテゴリであることを特徴とする付記1記載の情報体系対応付け装置。
(付記11) 前記カテゴリのデータが、文書類から抽出されるテキストデータ、あるいは意味を有する文字列としてのテキストデータであることを特徴とする付記10記載の情報体系対応付け装置。
(付記12) 前記カテゴリのデータが、分類可能な任意の対象に関する属性データを含むメタデータであることを特徴とする付記10記載の情報体系対応付け装置。
(付記13) 前記情報体系がタグ付き構造化文書に対応するタグ体系であり、前記要素が該タグ体系を構成するタグであることを特徴とする付記1記載の情報体系対応付け装置。
(付記14) 前記情報体系がデータベーステーブルであり、前記要素が該データベーステーブルのフィールドであることを特徴とする付記1記載の情報体系対応付け装置。
(付記15) 複数の情報体系を対象として、体系間のマッチングを調べる情報体系対応付け方法において、
複数の情報体系に属する情報要素のデータに対応するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析し、
該分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、該共通空間上で異なる情報体系に属する情報要素の間で、該要素のデータの統計的特徴が類似する要素を要素対として検出することを特徴とする情報体系対応付け方法。
(付記16) 複数の情報体系を対象として、体系間のマッチングを調べる計算機によって実行されるプログラムにおいて、
複数の情報体系に属する情報要素のデータに対応するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析する手順と、
該分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、該共通空間上で異なる情報体系に属する情報要素の間で、該要素のデータの統計的特徴が類似する要素を要素対として検出する手順とを計算機に実行させるためのプログラム。
(付記17) 複数の情報体系を対象として、体系間のマッチングを調べる計算機によって使用される記憶媒体において、
複数の情報体系に属する情報要素のデータに対応するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析するステップと、
該分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、該共通空間上で異なる情報体系に属する情報要素の間で、該要素のデータの統計的特徴が類似する要素を要素対として検出するステップとを計算機に実行させるプログラムを格納した計算機読み出し可能可搬型記憶媒体。
本発明は体系を構成するような大量のデータを利用するあらゆる産業において利用可能である。
本発明の情報体系対応付け装置の原理構成ブロック図である。 異種分類体系におけるカテゴリの対応付けを説明する図である。 第1の実施例における情報体系対応付け装置の構成を示すブロック図である。 第1の実施例におけるカテゴリマッチング処理の全体フローチャートである。 体系間におけるカテゴリ特徴ベクトルの比較の説明図である。 ベクトル類似度による類似カテゴリ対検出処理の詳細フローチャートである。 文字列レベルの類似度を説明する図である。 同義類義語辞書の構成例を示す図である。 同義類義語辞書による類似性判定方法の説明図である。 カテゴリ名類似性判定処理のフローチャートである。 異種分類体系における階層関係の整合性を説明する図である。 2つのカテゴリ対の階層関係における適合度を説明する図である。 異種分類体系における近隣関係の整合性を説明する図である。 リンク距離に対応する近隣関係適合度の値を示す図である。 最適カテゴリ対集合検出処理の詳細フローチャートである。 データ検索処理に対応する情報体系対応付け装置の構成を示すブロック図である。 共通カテゴリテーブルのデータ構造を示す図である。 文書−カテゴリインデックステーブルのデータ構造を示す図である。 単語−カテゴリインデックステーブルのデータ構造を示す図である。 第2の実施例としての異なるタグ体系におけるタグの対応付けの説明図である。 第3の実施例としての異なるデータベースにおけるフィールドの対応付けの説明図である。 本発明におけるプログラムのコンピュータへのローディングを説明する図である。
1 情報体系対応付け装置
2 特徴分析手段
3 要素対検出手段
4 名称類似性検出手段
5 整合性評価手段
10 制御部
11 カテゴリ別情報格納部
12 情報階層関係格納部
13 カテゴリ特徴処理部
14 カテゴリ特徴ベクトル格納部
15 カテゴリ対格納部
16 ベクトル類似度処理部
17 カテゴリ名類似度処理部
18 階層関係整合性処理部
20 共通カテゴリテーブル格納部
21 文書−カテゴリインデックス格納部
22 単語−カテゴリインデックス格納部
23 インデックス作成部
24 検索要求処理部
25 カテゴリレベル検索部
26 検索結果格納部
27 検索結果表示部
30 中央処理装置(CPU)
31 リードオンリメモリ(ROM)
32 ランダムアクセスメモリ(RAM)
33 通信インタフェース
34 記憶装置
35 入出力装置
36 読み取り装置
37 バス
38 プログラム提供者
39 ネットワーク
40 可搬型記憶媒体

Claims (9)

  1. 複数の情報体系を対象として、体系間のマッチングを調べる情報体系対応付け装置であって
    第1の情報体系に属する各情報要素のテキストデータを格納する第1の格納手段と、
    第2の情報体系に属する各情報要素のテキストデータを格納する第2の格納手段と、
    前記第1及び第2の情報体系に属する情報要素のテキストデータから特徴語を抽出し、該第1の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合と該第2の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合に共通する特徴語を抽出し、該共通する特徴語を座標軸とし、情報要素と特徴語の関連度を座標値とするベクトル空間において、該第1の情報体系に属する各情報要素の特徴ベクトルと該第2の情報体系に属する各情報要素の特徴ベクトルを求める特徴分析手段と、
    前記第1の情報体系に属する各情報要素の特徴ベクトルを格納する第3の格納手段と、
    前記第2の情報体系に属する各情報要素の特徴ベクトルを格納する第4の格納手段と、
    前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度を求め、該類似度が閾値以上となる情報要素対を検出する要素対検出手段とを備えることを特徴とする情報体系対応付け装置。
  2. 前記第1の情報体系に属する情報要素要素名称と前記第2の情報体系に属する各情報要素の類似を検出する名称類似性検出手段を更に備え、
    前記要素対検出手段が、前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度と、前記第1の情報体系に属する各情報要素の要素名称と前記第2の情報体系に属する各情報要素の類似度とを統合した統合類似度の高い情報要素対を検出することを特徴とする請求項1記載の情報体系対応付け装置。
  3. 前記第1及び第2の情報体系の情報要素が上位−下位関係を示すリンクで接続された階層構造を有する場合に、前記要素対検出手段により検出された情報要素対からなる要素対集合内の各情報要素対を評価対象として、該評価対象の情報要素対のそれぞれの情報要素と該要素対集合内の他の情報要素対のそれぞれの情報要素との階層構造における上位−下位関係と、該他の情報要素対の類似度とに基づいて、該第1及び第2の情報体系における該評価対象の情報要素対の階層的適合度を求め、該要素対集合内の全情報要素対の階層的適合度の総和を評価値として求める処理を、該要素対集合内の情報要素対を入れ替えながら繰り返し、得られた評価値が最大となる情報要素対の集合を求める整合性評価手段を更に備えることを特徴とする請求項1記載の情報体系対応付け装置。
  4. 前記第1及び第2の情報体系の情報要素がリンクで接続された階層構造を有する場合に、前記要素対検出手段により検出された情報要素対からなる要素対集合内の各情報要素対を評価対象として、該評価対象の情報要素対のそれぞれの情報要素間のリンク距離と該要素対集合内の他の情報要素対のそれぞれの情報要素間のリンク距離の差と、該他の情報要素対の類似度とに基づいて、該第1及び第2の情報体系における該評価対象の情報要素対の近隣関係適合度を求め、該要素対集合内の全情報要素対の近隣関係適合度の総和を評価値として求める処理を、該要素対集合内の情報要素対を入れ替えながら繰り返し、得られた評価値が最大となる情報要素対の集合を求める整合性評価手段を更に備えることを特徴とする請求項記載の情報体系対応付け装置。
  5. 前記評価値が最大となる情報要素対の集合内の各情報要素対と単語との対応関係を記憶する単語対応要素記憶手段と、
    前記第1及び第2の情報体系の情報要素と、該情報要素に対応するデータとの対応関係を記憶する要素対応データ記憶手段と、
    入力された単語に対応する情報要素対を前記単語対応要素記憶手段から検索し、得られた情報要素対のそれぞれの情報要素に対応するデータを前記要素対応データ記憶手段から検索して出力するデータ検索手段とを更に備えることを特徴とする請求項3又は4記載の情報体系対応付装置。
  6. 前記要素対検出手段が、正解の情報要素対のそれぞれの情報要素を前記第1及び第2の情報体系から除いた残りの情報要素の特徴ベクトルを用いて、前記類似度が閾値以上となる情報要素対を検出することを特徴とする請求項1記載の情報体系対応付け装置。
  7. 複数の情報体系を対象として、計算機が体系間のマッチングを調べる情報体系対応付け方法であって
    前記計算機が、第1の格納手段に格納された第1の情報体系に属する情報要素のテキストデータと第2の格納手段に格納された第2の情報体系に属する各情報要素のテキストデータから特徴語をそれぞれ抽出し、
    前記計算機が、前記第1の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合と該第2の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合に共通する特徴語を抽出し、
    前記計算機が、前記共通する特徴語を座標軸とし、情報要素と特徴語の関連度を座標値とするベクトル空間において、該第1の情報体系に属する各情報要素の特徴ベクトルと該第2の情報体系に属する各情報要素の特徴ベクトルを求め
    前記計算機が、前記第1の情報体系に属する各情報要素の特徴ベクトルを第3の格納手段に格納し、前記第2の情報体系に属する各情報要素の特徴ベクトルを第4の格納手段に格納し、
    前記計算機が、前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度を求め、該類似度が閾値以上となる情報要素対を検出することを特徴とする情報体系対応付け方法。
  8. 複数の情報体系を対象として、体系間のマッチングを調べる処理を計算機に実行させるためのプログラムであって
    第1の格納手段に格納された第1の情報体系に属する情報要素のテキストデータと第2の格納手段に格納された第2の情報体系に属する各情報要素のテキストデータから特徴語をそれぞれ抽出するステップと、
    前記第1の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合と該第2の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合に共通する特徴語を抽出するステップと、
    前記共通する特徴語を座標軸とし、情報要素と特徴語の関連度を座標値とするベクトル空間において、該第1の情報体系に属する各情報要素の特徴ベクトルと該第2の情報体系に属する各情報要素の特徴ベクトルを求めるステップと
    前記第1の情報体系に属する各情報要素の特徴ベクトルを第3の格納手段に格納し、前記第2の情報体系に属する各情報要素の特徴ベクトルを第4の格納手段に格納するステップと、
    前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度を求め、該類似度が閾値以上となる情報要素対を検出するステップとを前記計算機に実行させるためのプログラム。
  9. 複数の情報体系を対象として、体系間のマッチングを調べる処理を計算機に実行させるプログラムを記録した記憶媒体であって
    第1の格納手段に格納された第1の情報体系に属する情報要素のテキストデータと第2の格納手段に格納された第2の情報体系に属する各情報要素のテキストデータから特徴語をそれぞれ抽出するステップと、
    前記第1の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合と該第2の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合に共通する特徴語を抽出するステップと、
    前記共通する特徴語を座標軸とし、情報要素と特徴語の関連度を座標値とするベクトル空間において、該第1の情報体系に属する各情報要素の特徴ベクトルと該第2の情報体系に属する各情報要素の特徴ベクトルを求めるステップと
    前記第1の情報体系に属する各情報要素の特徴ベクトルを第3の格納手段に格納し、前記第2の情報体系に属する各情報要素の特徴ベクトルを第4の格納手段に格納するステップと、
    前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度を求め、該類似度が閾値以上となる情報要素対を検出するステップとを前記計算機に実行させるプログラムを記録した計算機読み出し可能記憶媒体。
JP2003295728A 2003-08-19 2003-08-19 情報体系対応付け装置および対応付け方法 Expired - Fee Related JP4451624B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003295728A JP4451624B2 (ja) 2003-08-19 2003-08-19 情報体系対応付け装置および対応付け方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003295728A JP4451624B2 (ja) 2003-08-19 2003-08-19 情報体系対応付け装置および対応付け方法

Publications (2)

Publication Number Publication Date
JP2005063332A JP2005063332A (ja) 2005-03-10
JP4451624B2 true JP4451624B2 (ja) 2010-04-14

Family

ID=34371847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003295728A Expired - Fee Related JP4451624B2 (ja) 2003-08-19 2003-08-19 情報体系対応付け装置および対応付け方法

Country Status (1)

Country Link
JP (1) JP4451624B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580376B2 (en) 2017-06-09 2023-02-14 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for optimizing trained model

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668594B2 (en) 2005-08-19 2010-02-23 Cardiac Pacemakers, Inc. Method and apparatus for delivering chronic and post-ischemia cardiac therapies
JP4913360B2 (ja) * 2005-04-22 2012-04-11 Kddi株式会社 プロファイル管理装置およびコンピュータプログラム
US7917210B2 (en) 2005-05-13 2011-03-29 Cardiac Pacemakers, Inc. Method and apparatus for cardiac protection pacing
US7894896B2 (en) 2005-05-13 2011-02-22 Cardiac Pacemakers, Inc. Method and apparatus for initiating and delivering cardiac protection pacing
JP4892868B2 (ja) * 2005-05-20 2012-03-07 富士通株式会社 集合間関連性判定プログラム及び集合間関連性判定装置
JP2006338086A (ja) * 2005-05-31 2006-12-14 Nomura Research Institute Ltd 話題規模管理装置
US7922669B2 (en) 2005-06-08 2011-04-12 Cardiac Pacemakers, Inc. Ischemia detection using a heart sound sensor
US7774057B2 (en) 2005-09-06 2010-08-10 Cardiac Pacemakers, Inc. Method and apparatus for device controlled gene expression for cardiac protection
JP4796865B2 (ja) * 2006-02-28 2011-10-19 株式会社日本総合研究所 分類対応方法、分類対応システム及び分類対応プログラム
US7974984B2 (en) * 2006-04-19 2011-07-05 Mobile Content Networks, Inc. Method and system for managing single and multiple taxonomies
US7526486B2 (en) 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
US7698268B1 (en) 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
WO2008111424A1 (ja) 2007-03-09 2008-09-18 Nec Corporation フィールド照合方法及びシステムと、そのプログラム
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
CN101878461B (zh) 2007-09-28 2014-03-12 国际商业机器公司 分析用于匹配数据记录的系统的方法和系统
JP4895988B2 (ja) * 2007-12-13 2012-03-14 ヤフー株式会社 文書分類装置の余分構造減退方法
JP5500070B2 (ja) 2008-07-30 2014-05-21 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP5423676B2 (ja) 2008-07-30 2014-02-19 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP5626554B2 (ja) * 2009-03-11 2014-11-19 日本電気株式会社 同一性判定装置、同一性判定方法、及び同一性判定用プログラム
CN101840402B (zh) * 2009-03-18 2014-05-07 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
JP5250463B2 (ja) * 2009-03-23 2013-07-31 エヌ・ティ・ティ・コムウェア株式会社 意味的対応付け装置及びその処理方法とプログラム
JP5532053B2 (ja) 2009-11-04 2014-06-25 富士通株式会社 運用管理装置及び運用管理方法
JP6352761B2 (ja) * 2014-10-08 2018-07-04 株式会社日立製作所 データ処理システム、データ処理方法、及びプログラム
US11144565B2 (en) 2014-12-15 2021-10-12 Inter-University Research Institute Corporation Research Organization Of Information And Systems Information extraction apparatus, information extraction method, and information extraction program
JP6424756B2 (ja) * 2015-07-13 2018-11-21 トヨタ自動車株式会社 データ処理装置およびデータ処理方法
JP6159908B6 (ja) * 2016-03-31 2018-06-27 スマートインサイト株式会社 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
US20190317938A1 (en) * 2016-03-31 2019-10-17 Smart Insight Corporation Method, program, and system for automatic discovery of relationship between fields in environment where different types of data sources coexist
JP6088091B1 (ja) * 2016-05-20 2017-03-01 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
EP3475887B1 (en) 2016-08-22 2023-07-19 Oracle International Corporation System and method for dynamic lineage tracking, reconstruction, and lifecycle management
US11182394B2 (en) * 2017-10-30 2021-11-23 Bank Of America Corporation Performing database file management using statistics maintenance and column similarity
JP7403431B2 (ja) * 2020-11-13 2023-12-22 株式会社日立製作所 データ統合方法およびデータ統合システム
JP6905724B1 (ja) * 2021-01-27 2021-07-21 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
WO2022254504A1 (ja) 2021-05-31 2022-12-08 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580376B2 (en) 2017-06-09 2023-02-14 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for optimizing trained model

Also Published As

Publication number Publication date
JP2005063332A (ja) 2005-03-10

Similar Documents

Publication Publication Date Title
JP4451624B2 (ja) 情報体系対応付け装置および対応付け方法
US10019509B1 (en) Multi-dimensional modeling in a functional information system
EP3920044A1 (en) Data-driven structure extraction from text documents
Brehmer et al. A multi-level typology of abstract visualization tasks
US9659071B2 (en) Patent mapping
US9904729B2 (en) System, method, and computer program for a consumer defined information architecture
JP6118414B2 (ja) インデックス付き文字列マッチングを用いたコンテキストブラインドデータ変換
US11366858B2 (en) Data preparation using semantic roles
Verdonck et al. Ontology-driven conceptual modeling: A systematic literature mapping and review
US20180075161A1 (en) Extensible automatic query language generator for semantic data
Mirończuk The BigGrams: the semi-supervised information extraction system from HTML: an improvement in the wrapper induction
AU2013270517B2 (en) Patent mapping
US10896163B1 (en) Method and apparatus for query formulation
EP1774432A2 (en) Patent mapping
Aladakatti et al. Exploring natural language processing techniques to extract semantics from unstructured dataset which will aid in effective semantic interlinking
KR102096328B1 (ko) 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법
Tzanis et al. Graphie: A network-based visual interface for UK's Primary Legislation
Koutela Data analysis from the Greek National Catalogue of Services with the use of KNIME
Sharma et al. Anomalies resolution and semantification of tabular data
Huang et al. A NETWORK-BASED METHOD FOR CONSTRUCTING A TECHNOLOGY ROADMAP
US11681700B1 (en) Methods and apparatuses for clustered storage of information
Tzanis et al. Graphie: A network-based visual interface for the UK's primary legislation [version 1; peer review: awaiting peer
Imdadi et al. An approach to owl concept extraction and integration across multiple ontologies
Jusevičius Atvirojo kodo algebrinio modeliavimo ir matematinio optimizavimo sistemos kūrimas ir tyrimas
Evers Question-Answer patterns in GIS: Semantic analysis of geo-analytical questions in Human Geography

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140205

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees