JP4451624B2 - 情報体系対応付け装置および対応付け方法 - Google Patents
情報体系対応付け装置および対応付け方法 Download PDFInfo
- Publication number
- JP4451624B2 JP4451624B2 JP2003295728A JP2003295728A JP4451624B2 JP 4451624 B2 JP4451624 B2 JP 4451624B2 JP 2003295728 A JP2003295728 A JP 2003295728A JP 2003295728 A JP2003295728 A JP 2003295728A JP 4451624 B2 JP4451624 B2 JP 4451624B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- category
- information element
- pair
- belonging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
異なる2つの分類体系で分類済みのWebページの内の共通部分を教師情報として利用しており、一致性の検定(κ統計量)を利用して、2つの分類体系間のカテゴリの類似関係を見つけている。分類階層の構造は、木構造であり、ラティス構造は対象としていない。
すなわち、本発明はこのように異なる情報体系の間で類似する情報要素の対を検出してデータ統合を効率的に支援することを目的とするものである。
データベースシステムに関わる分野においては、データベーステーブルにおけるフィールドの対応付けの際に、複数の観点からの統合的な類似度基準を反映させた、より適切なフィールド対の候補を生成することができる。
カテゴリ別情報格納部(IAおよびIB)11a,11bには、それぞれ分類体系AおよびBのカテゴリごとに所属する情報(テキストデータや属性名−属性値対など)が格納される。
カテゴリ特徴処理部(CC,カテゴリキャラクタリスティクス)13では、カテゴリ別情報格納部(IA)11aからカテゴリごとに所属する情報を、また、情報階層関係格納部(HA)12aから分類体系Aにおける各カテゴリの上位−下位関係のデータを受け取り、階層構造を反映させたカテゴリ別特徴語を抽出し、カテゴリ特徴ベクトルを作成し、カテゴリ特徴ベクトル格納部(VA)14aに格納する。同様にして、カテゴリ別情報格納部(IB)11bからカテゴリごとに所属する情報を、また、情報階層関係格納部(HB)12bから分類体系Bにおける各カテゴリの上位−下位関係のデータを受け取り、カテゴリ特徴ベクトルを作成し、カテゴリ特徴ベクトル格納部(VB)14bに格納する。
ベクトル類似度処理部(VS、ベクトル シミラリティ)16では、カテゴリ特徴ベクトル格納部(VA)14aおよびカテゴリ特徴ベクトル格納部(VB)14bからカテゴリ特徴ベクトルを読み込んで、分類体系Aと分類体系Bの間の対応するカテゴリ対を見つけて、カテゴリ対格納部CP15に格納する。
またカテゴリ名類似度処理部LS17は請求項2における名称類似性検出手段に対応し、階層関係整合処理部HC18は請求項3において階層的関係の整合性を、構造的整合性として評価する整合性評価手段に対応する。
また、ユークリッド距離や角度距離などのような距離尺度では、以下のように上限を規定する。
図6は、図5で説明したベクトル空間上の類似カテゴリの検出処理、すなわち図4のステップS2における多次元空間における類似マッチングの詳細処理フローチャートである。同図において処理が開始されると、まずステップS11〜S16、およびステップS17〜S22で、2つのカテゴリ体系A,Bをそれぞれ対象として、それぞれのベクトル空間におけるカテゴリ分布、すなわち図5の右側と左側のカテゴリ分布が求められる。
例えば、図7のような場合分けを行い、それぞれの文字列レベルの類似度
例えば下方部分一致単語における“word”は辞書の見出しにすでに登録されている単語を意味する。この辞書としては同義類義語辞書、形態素解析辞書、その他の電子化辞書のいずれでもよく、これらの辞書を組み合わせた辞書でもよい。またaiとbjとが兄弟の関係であるということは、後述するようにカテゴリノードの階層関係において、aiとbjとに対応するノードが直近上位のノードを共有するということを意味し、またいとこ関係であることは2つのノードが直近上位ではないが、ルートノード以外の共通のノードを上位に持つことを意味する。
γeq=0.9,γli =0.8,γui=0.7,γmi=0.4,γlpw=0.6,γlps=0.5,γpw=0.3,γoo=0.2,γo=0.1
また、strの文字数、あるいは、共通文字の構成比率、共通文字の出現順一致率などをパラメータとして可変な数値としてもよい。
同義類義語辞書は、「代表語」としての文字列、「同義類義語」としての文字列、「類似度」の値(0≦x≦1)、「登録日付」、「AUTHORIZED」の有無、「分野情報」、「多義語」などから構成する。この内、代表語と同義類義語、類似度の項目は必須である(*で示す)。代表語は、同義類義語の集合の要素の1つで、その同義類義語の集合を代表するような語を選ぶ。同義類義語の集合から代表語を除いたものを同義類義語の項目に書く。AUTHORIZEDは、辞書管理者の組織、グループとして合意の取れている場合に1、そうでない場合は0とする。すなわち、担当者レベルの個人的な判断の段階では対象となるデータのAUTHORIZEDの値は0である。合意が取れた場合は、登録日付の値を合意した日付に変更すべきである。分野情報には、政治、経済、IT、医学、日常一般などの専門分野名でもよいし、適当な階層的分類体系のカテゴリ名でもよい。多義語は、分野情報に書かれた対象分野において同義類義語が複数の語義を有する場合にその語義を記入し、他の場合に0とする。
同義: 0.9≦x≦1.0 ・・・・・・(3)
類義: αNAME≦x≦0.9 ・・・・・・(4)
但し、ここでαNAME (≧0)は名前の類似度の閾値であり、名前の類似性によるカテゴリ対の候補となるためには、以下の条件を満足する必要がある。
同義類義語辞書によるカテゴリ名の類似性の判定は、以下のように行う。このために、図9に示す同義性、類義性の判定方法を利用する。調査対象の2つの単語(文字列)をword1, word2とする。word1とword2が以下の条件のいずれかを満たすとき、同義性あるいは類義性があると判定される。これをword1とword2の辞書的類似度SimDIC( word1, word2 )とする。
・word1 とword2の内、一方が代表語で、他方がその代表語に対する同義類義語となる場合(類似度は、その同義類義語の類似度)
・word1 とword2がともに同一の代表語に対する同義類義語となる場合(類似度は、それらの同義類義語の類似度の小さい方)
このような、同義類義語辞書が利用可能な状態にある場合には、図10のフローチャートに示されるカテゴリ名類似性判定処理が行なわれる。図10においては、体系Aにおけるカテゴリaiの名称と、体系Bにおけるカテゴリbjの名称との類似性の判定が行なわれる。
体系A,B間の類似度(similarity)は、(1)、(2)式によって規定されるベクトル空間におけるカテゴリak とbl の類似度
続いて、このような類似度の計算によって検出されたカテゴリ対、およびカテゴリ対集合の構造的整合性の評価について説明する。ベクトル空間法による類似度の計算において、同一分類体系内におけるカテゴリ間の階層関係(上位−下位関係)は前述の特許文献4の技術を用いることにより計算上反映される。しかし、求めたカテゴリ対に関して、一方の体系Aにおける階層関係におけるカテゴリの位置と、カテゴリ対の他方の側の体系Bにおける階層関係におけるカテゴリの位置の関係の整合性に関する情報を知ることはできない。最適な解を得るためには、カテゴリ対全体としての階層関係が最も良く当てはまるような対応関係となるようなカテゴリ対の集合を見つける必要がある。
2つの分類体系間で2対のカテゴリ対だけに着目した場合の整合性を階層的適合度として評価する。実際のカテゴリ対の階層的適合度を計算する際には、図12における、一致、逆順序、その他、無関係などに対して適当な重み付けを考慮して、適合度を決定する。
一致(上位): 1.0
一致(下位): 1.0
一致(いとこ): 0.4
逆順序: −1.0
その他: 0.1
無関係: 0.0
あるいは、以下のようにリンク距離に応じて増減させることもできる。但し、λ(>0)をリンク重みとし、la, lB を基準カテゴリとのリンク距離、
一致(上位)
一致(下位)
一致(いとこ)
その他
以上のようにして、適切に階層的適合度を決めることができる。なお、ここで用いる各種の重みについても実験的に決定することができる。
次に、カテゴリ対aiーbjの階層的整合性
|Ω|: カテゴリ対の集合の大きさ(集合の要素数)
最後に、以下のように、カテゴリ対全体について階層的整合性を求めることができる。
次にカテゴリ対、およびカテゴリ対集合の近隣関係の整合性について説明する。図13はカテゴリ対の近隣関係の整合性の説明図である。図13中の実線および点線は、カテゴリ対の候補であり、前述の方法により求めておく。本項では、与えられたカテゴリ対全体が、2つの分類体系の近隣関係によくフィットしているか、あるいは、ねじれ現象を起こしているか、の総合的な判定を行う仕組みを構築する。
また、上記の式は近くでの距離の一致と遠くでの距離の一致が同じ評価になるが、基準カテゴリ対との距離が近いカテゴリ対の評価値を高くしたいという考え方もある。この場合は、例えば、以下のような評価式を設定することにより、遠方よりも近隣での距離の一致を優先することができる。
図14を見れば、近隣における距離の一致が強調されていることが分かる。この場合、リンク距離が5より大きいときには、たとえリンク距離が一致しても評価値は0になる。従って、近隣部分のリンク距離のみを計算すればよく、計算効率の向上にも貢献する。
次に、カテゴリ対ai−bjの近隣関係整合性
|Ω|: カテゴリ対の集合の大きさ
最後に、以下のように、カテゴリ対全体について近隣関係整合性を求めることができる。
また、階層的整合性と近隣関係整合性を統合することにより、双方の観点から見た最適解を得ることができる。この構造的整合性
同図において処理が開始されると、まずステップS41で、例えばベクトルによる類似度を用いて各カテゴリに対して類似度のランキングが1位となるカテゴリを組み合わせて、そのようなカテゴリ対を最近接カテゴリ対候補として、その集合Ωが生成され、集合Ωに対する構造的整合性の最適値CONMAXに“0”が代入された後に、そのカテゴリ対集合Ωの整合性を求めるステップS42の処理に移行する。
前述のように、構造的整合性として階層的整合性の代わりに、近隣関係整合性を用いて図15の処理を実行することもでき、また階層的整合性と近隣関係整合性を統合した(15)式で与えられる構造的整合性を用いて、図15の処理を実行することもできる。
前述の図15において、最適カテゴリ対集合を得た後、この最適カテゴリ対集合の全てが正解(体系AとBの間で同一あるいは類似のカテゴリと言える)であるとみなして、その結果を出力する。出力先としては、ディスプレイ装置、あるいは、記憶媒体上のファイル、プログラム間で受け渡し可能な構造体などを指定できるようにしておく。この条件の下で、出力された最適なカテゴリ対の組を、他のプログラムやネットワーク用の通信ソケットなどが連携して自動的に利用することにより、様々な効果が得られる。
例えば、分類体系Aを有し、分類済み情報の統合管理を行うプログラムと連携させれば、異なる分類体系Bの中のカテゴリの内、体系Aの中の特定のカテゴリと対応付けられたカテゴリに関しては、その体系B中のカテゴリに属する文書あるいはWebページなどの情報を自動的に体系Aの中の対応するカテゴリにコピーし、その後、元々体系A上に存在した情報と同じ扱いで、参照、検索、種々の分析などが行えるというメリットが生じる。
また、これ以外の自動化の実現法としては、構造的整合性の評価を行わずに、ベクトル空間上の類似性やカテゴリ名の類似性により求まるカテゴリ対候補、あるいは、この2つの類似性を統合した(6)式の統合類似度を用いて求められたカテゴリ対候補を正解とみなして、その結果を前述と同様の出力先に出力し、他のプログラムと連携することにより、様々な効果を得るという方法も考えられる。
画面には、当初、最適カテゴリ対集合に属するカテゴリ対のみが強調表示される。ユーザは、これらの情報を1画面あるいは複数画面上で確認しながら、自分の判断により望ましいと思うカテゴリ対を追加したり、望ましくないと思うカテゴリ対を削除することが可能である。このカテゴリ対の追加・削除の機能は、文字列レベルおよびグラフィックレベルの両方の対話インタフェースで実現可能とする。
前述の図15において、最適カテゴリ対集合を得た後、この最適カテゴリ対集合の全てが正解であるとみなして、複数の分類体系間のカテゴリを対応付ける。当初の分類体系に加えて、カテゴリの対応関係を反映させた共通カテゴリテーブルを作成する。テーブルの項目としては、体系A側のカテゴリ識別子、体系B側のカテゴリ識別子、階層的適合度などを含むものとする。
(1)共通カテゴリCk *に対応するカテゴリ対が1個以上存在する場合、
(2)共通カテゴリCk *に対応するカテゴリ対が存在せず、1つのカテゴリaiが孤立している場合、すなわちCk *=aiである場合、
図21におけるデータベーステーブルA, Bは、同一分野あるいは類似分野におけるデータベーステーブルであるとする。同一分野であっても、これらはしばしば異なる基準により設計されている。データベーステーブルAおよびBは、類似分野の情報体系であるので、それぞれのデータベーステーブル中のフィールド同士の中には実質的に同義、あるいは類義のフィールドが含まれていると想定される。例えば、図21における点線の矢印は、データベーステーブルA中のフィールドa1とデータベーステーブルB中のフィールドb2とが同一、あるいは類似のフィールドであることを示す。同様に、体系A中のa3と体系B中のb3のフィールド対は同一、あるいは類似のフィールドである。
同一、あるいは類似のフィールドを、フィールド名だけから判断できれば簡単であるが、一般には同一語、同義語、類義語が用いられるとは限らないため、これらの関係を自動的あるいは半自動的に見つけようとするのが第3の実施例の目的である。
しかしながら関係データベースシステムにおけるデータベーステーブルのフィールド体系は、例えば図2で説明した分類体系としてのカテゴリ体系のように階層構造を持たず、フラットな構造となっている。従って図11〜図15で説明した構造的整合性の評価を利用した最適要素対、すなわち最適フィールド対検出の技術を利用することはできない。
複数の情報体系に属する情報要素のデータに対応するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析する特徴分析手段と、
該分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、該共通空間上で異なる情報体系に属する情報要素の間で、該要素のデータの統計的特徴が類似する要素を要素対として検出する要素対検出手段とを備えることを特徴とする情報体系対応付け装置。
前記要素対検出手段が、前記要素のデータの統計的特徴の類似性と、該名称の類似性とを統合した統合的類似性の高い要素対を検出することを特徴とする付記1記載の情報体系対応付け装置。
前記複数の情報体系の間で、前記構造的整合性の高い要素対の集合を、最適要素対集合として出力する最適要素対出力手段を更に備えることを特徴とする付記3記載の情報体系対応付け装置。
前記要素対検出手段によって検出された要素対のうちで、前記整合性評価手段によって評価された構造的整合性が最も高い要素対から、該構造的整合性の高さが複数番目までの要素対を表示する要素対表示手段を更に備えることを特徴とする付記3記載の情報体系対応付け装置。
前記複数の各情報体系内の情報要素と、該要素に対応するデータとの対応を記憶する要素対応データ記憶手段と、
該要素対応データ記憶手段の記憶内容と、前記整合性評価手段によって評価された構造的整合性の高い要素対のデータとを用いて、異種情報源の同一分野のデータ、あるいは該データの論理演算に対応するデータの検索を行なうデータ検索手段とを更に備えることを特徴とする付記3記載の情報体系対応付装置。
(付記13) 前記情報体系がタグ付き構造化文書に対応するタグ体系であり、前記要素が該タグ体系を構成するタグであることを特徴とする付記1記載の情報体系対応付け装置。
(付記15) 複数の情報体系を対象として、体系間のマッチングを調べる情報体系対応付け方法において、
複数の情報体系に属する情報要素のデータに対応するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析し、
該分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、該共通空間上で異なる情報体系に属する情報要素の間で、該要素のデータの統計的特徴が類似する要素を要素対として検出することを特徴とする情報体系対応付け方法。
複数の情報体系に属する情報要素のデータに対応するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析する手順と、
該分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、該共通空間上で異なる情報体系に属する情報要素の間で、該要素のデータの統計的特徴が類似する要素を要素対として検出する手順とを計算機に実行させるためのプログラム。
複数の情報体系に属する情報要素のデータに対応するサンプルデータに基づいて、各情報体系に属する個々の情報要素のデータの統計的特徴を分析するステップと、
該分析結果に基づいて、複数の情報体系を比較するための共通の空間を設け、該共通空間上で異なる情報体系に属する情報要素の間で、該要素のデータの統計的特徴が類似する要素を要素対として検出するステップとを計算機に実行させるプログラムを格納した計算機読み出し可能可搬型記憶媒体。
2 特徴分析手段
3 要素対検出手段
4 名称類似性検出手段
5 整合性評価手段
10 制御部
11 カテゴリ別情報格納部
12 情報階層関係格納部
13 カテゴリ特徴処理部
14 カテゴリ特徴ベクトル格納部
15 カテゴリ対格納部
16 ベクトル類似度処理部
17 カテゴリ名類似度処理部
18 階層関係整合性処理部
20 共通カテゴリテーブル格納部
21 文書−カテゴリインデックス格納部
22 単語−カテゴリインデックス格納部
23 インデックス作成部
24 検索要求処理部
25 カテゴリレベル検索部
26 検索結果格納部
27 検索結果表示部
30 中央処理装置(CPU)
31 リードオンリメモリ(ROM)
32 ランダムアクセスメモリ(RAM)
33 通信インタフェース
34 記憶装置
35 入出力装置
36 読み取り装置
37 バス
38 プログラム提供者
39 ネットワーク
40 可搬型記憶媒体
Claims (9)
- 複数の情報体系を対象として、体系間のマッチングを調べる情報体系対応付け装置であって、
第1の情報体系に属する各情報要素のテキストデータを格納する第1の格納手段と、
第2の情報体系に属する各情報要素のテキストデータを格納する第2の格納手段と、
前記第1及び第2の情報体系に属する各情報要素のテキストデータから特徴語を抽出し、該第1の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合と該第2の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合に共通する特徴語を抽出し、該共通する特徴語を座標軸とし、情報要素と特徴語の関連度を座標値とするベクトル空間において、該第1の情報体系に属する各情報要素の特徴ベクトルと該第2の情報体系に属する各情報要素の特徴ベクトルを求める特徴分析手段と、
前記第1の情報体系に属する各情報要素の特徴ベクトルを格納する第3の格納手段と、
前記第2の情報体系に属する各情報要素の特徴ベクトルを格納する第4の格納手段と、
前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度を求め、該類似度が閾値以上となる情報要素対を検出する要素対検出手段とを備えることを特徴とする情報体系対応付け装置。 - 前記第1の情報体系に属する各情報要素の要素名称と前記第2の情報体系に属する各情報要素の類似度を検出する名称類似性検出手段を更に備え、
前記要素対検出手段が、前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度と、前記第1の情報体系に属する各情報要素の要素名称と前記第2の情報体系に属する各情報要素の類似度とを統合した統合類似度の高い情報要素対を検出することを特徴とする請求項1記載の情報体系対応付け装置。 - 前記第1及び第2の情報体系の情報要素が上位−下位関係を示すリンクで接続された階層構造を有する場合に、前記要素対検出手段により検出された情報要素対からなる要素対集合内の各情報要素対を評価対象として、該評価対象の情報要素対のそれぞれの情報要素と該要素対集合内の他の情報要素対のそれぞれの情報要素との階層構造における上位−下位関係と、該他の情報要素対の類似度とに基づいて、該第1及び第2の情報体系における該評価対象の情報要素対の階層的適合度を求め、該要素対集合内の全情報要素対の階層的適合度の総和を評価値として求める処理を、該要素対集合内の情報要素対を入れ替えながら繰り返し、得られた評価値が最大となる情報要素対の集合を求める整合性評価手段を更に備えることを特徴とする請求項1記載の情報体系対応付け装置。
- 前記第1及び第2の情報体系の情報要素がリンクで接続された階層構造を有する場合に、前記要素対検出手段により検出された情報要素対からなる要素対集合内の各情報要素対を評価対象として、該評価対象の情報要素対のそれぞれの情報要素間のリンク距離と該要素対集合内の他の情報要素対のそれぞれの情報要素間のリンク距離の差と、該他の情報要素対の類似度とに基づいて、該第1及び第2の情報体系における該評価対象の情報要素対の近隣関係適合度を求め、該要素対集合内の全情報要素対の近隣関係適合度の総和を評価値として求める処理を、該要素対集合内の情報要素対を入れ替えながら繰り返し、得られた評価値が最大となる情報要素対の集合を求める整合性評価手段を更に備えることを特徴とする請求項1記載の情報体系対応付け装置。
- 前記評価値が最大となる情報要素対の集合内の各情報要素対と単語との対応関係を記憶する単語対応要素記憶手段と、
前記第1及び第2の情報体系の各情報要素と、該情報要素に対応するデータとの対応関係を記憶する要素対応データ記憶手段と、
入力された単語に対応する情報要素対を前記単語対応要素記憶手段から検索し、得られた情報要素対のそれぞれの情報要素に対応するデータを前記要素対応データ記憶手段から検索して出力するデータ検索手段とを更に備えることを特徴とする請求項3又は4記載の情報体系対応付け装置。 - 前記要素対検出手段が、正解の情報要素対のそれぞれの情報要素を前記第1及び第2の情報体系から除いた残りの情報要素の特徴ベクトルを用いて、前記類似度が閾値以上となる情報要素対を検出することを特徴とする請求項1記載の情報体系対応付け装置。
- 複数の情報体系を対象として、計算機が体系間のマッチングを調べる情報体系対応付け方法であって、
前記計算機が、第1の格納手段に格納された第1の情報体系に属する各情報要素のテキストデータと第2の格納手段に格納された第2の情報体系に属する各情報要素のテキストデータから特徴語をそれぞれ抽出し、
前記計算機が、前記第1の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合と該第2の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合に共通する特徴語を抽出し、
前記計算機が、前記共通する特徴語を座標軸とし、情報要素と特徴語の関連度を座標値とするベクトル空間において、該第1の情報体系に属する各情報要素の特徴ベクトルと該第2の情報体系に属する各情報要素の特徴ベクトルを求め、
前記計算機が、前記第1の情報体系に属する各情報要素の特徴ベクトルを第3の格納手段に格納し、前記第2の情報体系に属する各情報要素の特徴ベクトルを第4の格納手段に格納し、
前記計算機が、前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度を求め、該類似度が閾値以上となる情報要素対を検出することを特徴とする情報体系対応付け方法。 - 複数の情報体系を対象として、体系間のマッチングを調べる処理を計算機に実行させるためのプログラムであって、
第1の格納手段に格納された第1の情報体系に属する各情報要素のテキストデータと第2の格納手段に格納された第2の情報体系に属する各情報要素のテキストデータから特徴語をそれぞれ抽出するステップと、
前記第1の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合と該第2の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合に共通する特徴語を抽出するステップと、
前記共通する特徴語を座標軸とし、情報要素と特徴語の関連度を座標値とするベクトル空間において、該第1の情報体系に属する各情報要素の特徴ベクトルと該第2の情報体系に属する各情報要素の特徴ベクトルを求めるステップと、
前記第1の情報体系に属する各情報要素の特徴ベクトルを第3の格納手段に格納し、前記第2の情報体系に属する各情報要素の特徴ベクトルを第4の格納手段に格納するステップと、
前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度を求め、該類似度が閾値以上となる情報要素対を検出するステップとを前記計算機に実行させるためのプログラム。 - 複数の情報体系を対象として、体系間のマッチングを調べる処理を計算機に実行させるプログラムを記録した記憶媒体であって、
第1の格納手段に格納された第1の情報体系に属する各情報要素のテキストデータと第2の格納手段に格納された第2の情報体系に属する各情報要素のテキストデータから特徴語をそれぞれ抽出するステップと、
前記第1の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合と該第2の情報体系に属する各情報要素のテキストデータから抽出された特徴語の集合に共通する特徴語を抽出するステップと、
前記共通する特徴語を座標軸とし、情報要素と特徴語の関連度を座標値とするベクトル空間において、該第1の情報体系に属する各情報要素の特徴ベクトルと該第2の情報体系に属する各情報要素の特徴ベクトルを求めるステップと、
前記第1の情報体系に属する各情報要素の特徴ベクトルを第3の格納手段に格納し、前記第2の情報体系に属する各情報要素の特徴ベクトルを第4の格納手段に格納するステップと、
前記第1の情報体系に属する各情報要素の特徴ベクトルと前記第2の情報体系に属する各情報要素の特徴ベクトルの類似度を求め、該類似度が閾値以上となる情報要素対を検出するステップとを前記計算機に実行させるプログラムを記録した計算機読み出し可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003295728A JP4451624B2 (ja) | 2003-08-19 | 2003-08-19 | 情報体系対応付け装置および対応付け方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003295728A JP4451624B2 (ja) | 2003-08-19 | 2003-08-19 | 情報体系対応付け装置および対応付け方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005063332A JP2005063332A (ja) | 2005-03-10 |
JP4451624B2 true JP4451624B2 (ja) | 2010-04-14 |
Family
ID=34371847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003295728A Expired - Fee Related JP4451624B2 (ja) | 2003-08-19 | 2003-08-19 | 情報体系対応付け装置および対応付け方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4451624B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11580376B2 (en) | 2017-06-09 | 2023-02-14 | Korea Advanced Institute Of Science And Technology | Electronic apparatus and method for optimizing trained model |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668594B2 (en) | 2005-08-19 | 2010-02-23 | Cardiac Pacemakers, Inc. | Method and apparatus for delivering chronic and post-ischemia cardiac therapies |
JP4913360B2 (ja) * | 2005-04-22 | 2012-04-11 | Kddi株式会社 | プロファイル管理装置およびコンピュータプログラム |
US7917210B2 (en) | 2005-05-13 | 2011-03-29 | Cardiac Pacemakers, Inc. | Method and apparatus for cardiac protection pacing |
US7894896B2 (en) | 2005-05-13 | 2011-02-22 | Cardiac Pacemakers, Inc. | Method and apparatus for initiating and delivering cardiac protection pacing |
JP4892868B2 (ja) * | 2005-05-20 | 2012-03-07 | 富士通株式会社 | 集合間関連性判定プログラム及び集合間関連性判定装置 |
JP2006338086A (ja) * | 2005-05-31 | 2006-12-14 | Nomura Research Institute Ltd | 話題規模管理装置 |
US7922669B2 (en) | 2005-06-08 | 2011-04-12 | Cardiac Pacemakers, Inc. | Ischemia detection using a heart sound sensor |
US7774057B2 (en) | 2005-09-06 | 2010-08-10 | Cardiac Pacemakers, Inc. | Method and apparatus for device controlled gene expression for cardiac protection |
JP4796865B2 (ja) * | 2006-02-28 | 2011-10-19 | 株式会社日本総合研究所 | 分類対応方法、分類対応システム及び分類対応プログラム |
US7974984B2 (en) * | 2006-04-19 | 2011-07-05 | Mobile Content Networks, Inc. | Method and system for managing single and multiple taxonomies |
US7526486B2 (en) | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
US7698268B1 (en) | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
WO2008111424A1 (ja) | 2007-03-09 | 2008-09-18 | Nec Corporation | フィールド照合方法及びシステムと、そのプログラム |
US8515926B2 (en) | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
CN101878461B (zh) | 2007-09-28 | 2014-03-12 | 国际商业机器公司 | 分析用于匹配数据记录的系统的方法和系统 |
JP4895988B2 (ja) * | 2007-12-13 | 2012-03-14 | ヤフー株式会社 | 文書分類装置の余分構造減退方法 |
JP5500070B2 (ja) | 2008-07-30 | 2014-05-21 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
JP5423676B2 (ja) | 2008-07-30 | 2014-02-19 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
JP5626554B2 (ja) * | 2009-03-11 | 2014-11-19 | 日本電気株式会社 | 同一性判定装置、同一性判定方法、及び同一性判定用プログラム |
CN101840402B (zh) * | 2009-03-18 | 2014-05-07 | 日电(中国)有限公司 | 从多语言网站构建多语言的对象层次结构的方法和系统 |
JP5250463B2 (ja) * | 2009-03-23 | 2013-07-31 | エヌ・ティ・ティ・コムウェア株式会社 | 意味的対応付け装置及びその処理方法とプログラム |
JP5532053B2 (ja) | 2009-11-04 | 2014-06-25 | 富士通株式会社 | 運用管理装置及び運用管理方法 |
JP6352761B2 (ja) * | 2014-10-08 | 2018-07-04 | 株式会社日立製作所 | データ処理システム、データ処理方法、及びプログラム |
US11144565B2 (en) | 2014-12-15 | 2021-10-12 | Inter-University Research Institute Corporation Research Organization Of Information And Systems | Information extraction apparatus, information extraction method, and information extraction program |
JP6424756B2 (ja) * | 2015-07-13 | 2018-11-21 | トヨタ自動車株式会社 | データ処理装置およびデータ処理方法 |
JP6159908B6 (ja) * | 2016-03-31 | 2018-06-27 | スマートインサイト株式会社 | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム |
US20190317938A1 (en) * | 2016-03-31 | 2019-10-17 | Smart Insight Corporation | Method, program, and system for automatic discovery of relationship between fields in environment where different types of data sources coexist |
JP6088091B1 (ja) * | 2016-05-20 | 2017-03-01 | ヤフー株式会社 | 更新装置、更新方法、及び更新プログラム |
EP3475887B1 (en) | 2016-08-22 | 2023-07-19 | Oracle International Corporation | System and method for dynamic lineage tracking, reconstruction, and lifecycle management |
US11182394B2 (en) * | 2017-10-30 | 2021-11-23 | Bank Of America Corporation | Performing database file management using statistics maintenance and column similarity |
JP7403431B2 (ja) * | 2020-11-13 | 2023-12-22 | 株式会社日立製作所 | データ統合方法およびデータ統合システム |
JP6905724B1 (ja) * | 2021-01-27 | 2021-07-21 | 株式会社 情報システムエンジニアリング | 情報提供システム及び情報提供方法 |
WO2022254504A1 (ja) | 2021-05-31 | 2022-12-08 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
-
2003
- 2003-08-19 JP JP2003295728A patent/JP4451624B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11580376B2 (en) | 2017-06-09 | 2023-02-14 | Korea Advanced Institute Of Science And Technology | Electronic apparatus and method for optimizing trained model |
Also Published As
Publication number | Publication date |
---|---|
JP2005063332A (ja) | 2005-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4451624B2 (ja) | 情報体系対応付け装置および対応付け方法 | |
US10019509B1 (en) | Multi-dimensional modeling in a functional information system | |
EP3920044A1 (en) | Data-driven structure extraction from text documents | |
Brehmer et al. | A multi-level typology of abstract visualization tasks | |
US9659071B2 (en) | Patent mapping | |
US9904729B2 (en) | System, method, and computer program for a consumer defined information architecture | |
JP6118414B2 (ja) | インデックス付き文字列マッチングを用いたコンテキストブラインドデータ変換 | |
US11366858B2 (en) | Data preparation using semantic roles | |
Verdonck et al. | Ontology-driven conceptual modeling: A systematic literature mapping and review | |
US20180075161A1 (en) | Extensible automatic query language generator for semantic data | |
Mirończuk | The BigGrams: the semi-supervised information extraction system from HTML: an improvement in the wrapper induction | |
AU2013270517B2 (en) | Patent mapping | |
US10896163B1 (en) | Method and apparatus for query formulation | |
EP1774432A2 (en) | Patent mapping | |
Aladakatti et al. | Exploring natural language processing techniques to extract semantics from unstructured dataset which will aid in effective semantic interlinking | |
KR102096328B1 (ko) | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 | |
Tzanis et al. | Graphie: A network-based visual interface for UK's Primary Legislation | |
Koutela | Data analysis from the Greek National Catalogue of Services with the use of KNIME | |
Sharma et al. | Anomalies resolution and semantification of tabular data | |
Huang et al. | A NETWORK-BASED METHOD FOR CONSTRUCTING A TECHNOLOGY ROADMAP | |
US11681700B1 (en) | Methods and apparatuses for clustered storage of information | |
Tzanis et al. | Graphie: A network-based visual interface for the UK's primary legislation [version 1; peer review: awaiting peer | |
Imdadi et al. | An approach to owl concept extraction and integration across multiple ontologies | |
Jusevičius | Atvirojo kodo algebrinio modeliavimo ir matematinio optimizavimo sistemos kūrimas ir tyrimas | |
Evers | Question-Answer patterns in GIS: Semantic analysis of geo-analytical questions in Human Geography |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100128 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140205 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |