JP3897409B2 - 情報処理装置およびその方法、プログラムを格納した記憶媒体 - Google Patents
情報処理装置およびその方法、プログラムを格納した記憶媒体 Download PDFInfo
- Publication number
- JP3897409B2 JP3897409B2 JP23698097A JP23698097A JP3897409B2 JP 3897409 B2 JP3897409 B2 JP 3897409B2 JP 23698097 A JP23698097 A JP 23698097A JP 23698097 A JP23698097 A JP 23698097A JP 3897409 B2 JP3897409 B2 JP 3897409B2
- Authority
- JP
- Japan
- Prior art keywords
- slot
- pair
- price
- pairs
- slots
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、複数の情報源間の表現形式の違いを対応付けて、情報の検索、統合等の処理を行なう情報処理装置およびその方法およびプログラムを格納した記憶媒体に関するものである。
【0002】
【従来の技術】
対象の属性項目を表現するスロットを列挙したフレーム形式で表現される情報を扱う従来の情報処理装置では、複数の情報源の情報を処理するには、各情報源のフレームが同一であることを仮定するか、各情報源のフレームのスロットを対応付けた対応スロットデータを人手で作成し、対応スロットデータを利用して、異なるフレームで表現された情報の検索、統合といった処理を行なう。
【0003】
対応スロットデータを利用する装置の一例として、「情報処理学会第54回全国大会講演論文集(3)」151頁と152頁及び「日経マルチメディア」誌1997年7月号24頁と25頁に記載の情報処理装置がある。
【0004】
図9と図10は、従来例の情報処理装置が検索の対象にするフレーム形式を示している。(前記の文献では、これらをスキーマ定義と呼んでいる。)
【0005】
ここで、各行が一つの属性に関する情報を記述するスロットであり、その名称であるスロット名が定義されている。
【0006】
図11と図12は、フレーム形式で表現された情報の例を示す(前記の文献では、これらをデータ実体と呼んでいる。)。図の列1101、1201にはスロット名が入り、列1102、1202には情報が表現する対象(オブジェクトと呼ぶ)でその属性が何であるかを表現するスロット値が入る。
【0007】
ここで、「価格が5000円以下で産地が新潟」という検索条件で検索することを考える。
【0008】
図11の情報は、この検索条件で検索可能だが、図12の情報は検索できない。そこで、従来の情報処理装置では、図7に示す対応スロットデータ(前記の文献では、これらをスキーマ辞書と呼んでいる。)を用意することで、「価格が5000円以下で産地が秋田」という検索条件を「値段が5000円以下で蔵元が秋田」という検索条件に置き換え、図12に示す情報も検索可能にしている。
【0009】
図7の対応スロットデータは、同じ行において、列701のスロット名と列702のスロット名とで表わされるスロットが対応することを示している。この対応スロットデータを利用することで、異なる情報源に対して、検索以外の様々な処理を行なうことができる。
【0010】
例えば、あるオブジェクトに対する属性で、ある情報源にはないが、他の情報源にあるものを補完して、新しい情報を作成することができる。
【0011】
【発明が解決しようとする課題】
しかしながら、従来の装置では、対応スロットデータを人手で作るのに相当な負担を強いられたり、過去に作られた情報についての対応スロットデータは、その内容を把握している人がいないなどの理由から作成が困難であったりするという問題があった。
【0012】
即ち、従来の技術では、対応スロットデータの作成は人手を期待している。しかし、WWWのような情報発信形態では、全ての情報発信者に統合は期待ができず、また仲介者が統合を行うにしてもスロットが大量にある場合や速報性求められる場合は、人手では無理がある。
【0013】
本発明は上記の問題に鑑みてなされたものであり、実際の情報を用いて、対応スロットデータの作成を自動的に行う情報処理装置を提供することを目的とする。
【0014】
【課題を解決するための手段】
上記の課題を解決するために本発明の情報処理方法は以下のような構成を備える。即ち、複数のスロットを含むフレーム定義情報をフレーム定義情報保持手段に保持させる保持制御工程と、前記スロットのスロットの対をそれぞれ異なる前記フレーム定義情報から抽出するスロット対抽出工程と、前記抽出されたスロット対を少なくとも1対以上組み合わせたスロット対の組を作成するスロット対の組作成工程と、前記作成されたスロット対の組それぞれのうち、前記フレーム定義情報で同じフレームに存在するスロットに対応する値がそれぞれ異なるインスタンスの数を用いて計算した値が閾値以下のスロットを含むスロット対の組を、前記作成されたスロット対の組から削除するスロット対の組削除工程と、前記削除工程でスロット対の組を削除して残ったスロット対の組に含まれるスロットの値をそれぞれ異なるフレーム内で比較し、前記異なるフレームから等価なスロット対の組を判断する等価スロット対の組判断工程と、前記判断工程で等価だと判断されたスロット対を用いて、前記異なるフレームを対応させる対応作成工程と、を備える。
【0015】
また、上記の課題を解決するために、本発明の情報処理装置は以下のような構成を備える。複数のスロットを含むフレーム定義情報を保持するフレーム定義情報保持手段と、前記スロットのスロットの対をそれぞれ異なる前記フレーム定義情報から抽出するスロット対抽出手段と、前記抽出されたスロット対を少なくとも1対以上組み合わせたスロット対の組を作成するスロット対の組作成手段と、前記作成されたスロット対の組それぞれのうち、前記フレーム定義情報で同じフレームに存在するスロットに対応する値がそれぞれ異なるインスタンスの数を用いて計算した値が閾値以下のスロットを含むスロット対の組を、前記作成されたスロット対の組から削除するスロット対の組削除手段と、前記削除手段でスロット対の組を削除して残ったスロット対の組に含まれるスロットの値をそれぞれ異なるフレーム内で比較し、前記異なるフレームから等価なスロット対の組を判断する等価スロット対の組判断手段と、前記判断手段で等価だと判断されたスロット対を用いて、前記異なるフレームを対応させる対応作成手段と、を備える。
【0016】
また、上記の課題を解決するために、本発明の情報処理装置で実行されるプログラムを格納する記憶媒体は、以下のような構成を備える。即ち、該プログラムが、複数のスロットを含むフレーム定義情報をフレーム定義情報保持手段に保持させる保持制御手順と、前記スロットのスロットの対をそれぞれ異なる前記フレーム定義情報から抽出するスロット対抽出手順と、前記抽出されたスロット対を少なくとも1対以上組み合わせたスロット対の組を作成するスロット対の組作成手順と、前記作成されたスロット対の組それぞれのうち、前記フレーム定義情報で同じフレームに存在するスロットに対応する値がそれぞれ異なるインスタンスの数を用いて計算した値が閾値以下のスロットを含むスロット対の組を、前記作成されたスロット対の組から削除するスロット対の組削除手順と、前記削除工程でスロット対の組を削除して残ったスロット対の組に含まれるスロットの値をそれぞれ異なるフレーム内で比較し、前記異なるフレームから等価なスロット対の組を判断する等価スロット対の組判断手順と、前記判断工程で等価だと判断されたスロット対を用いて、前記異なるフレームを対応させる対応作成手順と、を備える。
【0020】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を詳細に説明する。
【0021】
図1は、本発明の一実施形態に係る装置の基本構成を示すブロック図である。
【0022】
同図において、101は、少なくとも2つの異なるフレーム形式の定義情報を保持するフレーム定義保持部である。
【0023】
102は、フレーム定義保持部101に保持されているフレーム形式で記述された情報を保持する情報保持部である。
【0024】
103は、情報保持部102に保持されている情報を用いて、フレーム定義保持部101に保持されている少なくとも2つのフレーム形式において対応するスロットを求める対応スロットデータ作成部である。
【0025】
104は、対応スロットデータ作成部103で作成された対応スロットデータを保持する対応スロットデータ保持部である。
【0026】
図2は、本実施形態の情報処理装置の具体的構成を示す図である。
【0027】
同図において、201はCPUであり、後述する手順を実現するプログラムに従って動作する。201は、図1の対応スロットデータ作成部103に対応している。
【0028】
202はRAMであり、対応スロットデータ保持部104と上記プログラムの動作に必要な記憶領域とを提供する。
【0029】
203はROMであり、後述する手順を実現するプログラムを保持する。
【0030】
204はディスク装置であり、フレーム定義保持部101と情報保持部102を実現する。
【0031】
205はバスである。
【0032】
206は、ディスク装置204に格納されている情報を検索するための条件等を入力する入力部であり、キーボードおよびマウス等で構成される。
【0033】
207は、ディスク装置204から検索された検索結果を表示する表示部であり、CRTやLCDである。
【0034】
以下、図3のフローチャートを参照して、本実施形態の情報処理装置における対応スロットデータ作成処理の手順を示す。図3に示すフローチャート、即ち、対応スロットデータの作成は、ユーザの指示に応じて起動する、或いは新しくフレーム形式の異なる情報が登録された場合に起動される。
【0035】
まず、ステップS301では、フレーム定義保持部101に保持されている一方のフレームをf、もう一方のフレームをf'とし、フレームfのスロットの集合をSf(f)で表わしたとき、双方のフレームのスロットを任意に組み合わせた仮説
Ps = {(s,s') | s ∈ Sf(f), s' ∈ Sf(f')}
を生成し、仮説を集めた仮説集合Hを作成する。
【0036】
例えば、図9と図10に示すフレームに対しては、Hの内容は以下の通りになる。この場合、1〜3組のスロット対がある。
【0037】
まず、1組のスロット対としては、以下の12種類の組み合わせがある。
【0038】
{(商品名、銘柄)}、{(商品名、値段)}、{(商品名、蔵元)}、{(商品名、容量)}、{(価格、銘柄)}、{(価格、値段)}、{(価格、蔵元)}、{(価格、容量)}、{(産地、銘柄)}、{(産地、値段)}、{(産地、蔵元)}、{(産地、容量)}
【0039】
また、2組のスロット対としては、以下の36種類の組み合わせがある。
【0040】
{(商品名、銘柄)、(価格、値段)}、{(商品名、銘柄)、(価格、蔵元)}、{(商品名、銘柄)、(価格、容量)}、{(商品名、値段)、(価格、銘柄)}、{(商品名、値段)、(価格、蔵元)}、{(商品名、値段)、(価格、容量)}、{(商品名、蔵元)、(価格、銘柄)}、{(商品名、蔵元)、(価格、値段)}、{(商品名、蔵元)、(価格、容量)}、{(商品名、容量)、(価格、銘柄)}、{(商品名、容量)、(価格、値段)}、{(商品名、容量)、(価格、蔵元)}、{(商品名、銘柄)、(産地、値段)}、{(商品名、銘柄)、(産地、蔵元)}、{(商品名、銘柄)、(産地、容量)}、{(商品名、値段)、(産地、銘柄)}、{(商品名、値段)、(産地、蔵元)}、{(商品名、値段)、(産地、容量)}、{(商品名、蔵元)、(産地、銘柄)}、{(商品名、蔵元)、(産地、値段)}、{(商品名、蔵元)、(産地、容量)}、{(商品名、容量)、(産地、銘柄)}、{(商品名、容量)、(産地、値段)}、{(商品名、容量)、(産地、蔵元)}、{(価格、銘柄)、(産地、値段)}、{(価格、銘柄)、(産地、蔵元)}、{(価格、銘柄)、(産地、容量)}、{(価格、値段)、(産地、銘柄)}、{(価格、値段)、(産地、蔵元)}、{(価格、値段)、(産地、容量)}、{(価格、蔵元)、(産地、銘柄)}、{(価格、蔵元)、(産地、値段)}、{(価格、蔵元)、(産地、容量)}、{(価格、容量)、(産地、銘柄)}、{(価格、容量)、(産地、値段)}、{(価格、容量)、(産地、蔵元)}
【0041】
また、3組のスロット対としては、以下の24種類の組み合わせがある。
【0042】
{(商品名、銘柄)、(価格、値段)、(産地、蔵元)}、{(商品名、銘柄)、(価格、値段)、(産地、容量)}、{(商品名、銘柄)、(価格、蔵元)、(産地、値段)}、{(商品名、銘柄)、(価格、蔵元)、(産地、容量)}、{(商品名、銘柄)、(価格、容量)、(産地、値段)}、{(商品名、銘柄)、(価格、容量)、(産地、蔵元)}、{(商品名、値段)、(価格、銘柄)、(産地、蔵元)}、{(商品名、値段)、(価格、銘柄)、(産地、容量)}、{(商品名、値段)、(価格、蔵元)、(産地、銘柄)}、{(商品名、値段)、(価格、蔵元)、(産地、容量)}、{(商品名、値段)、(価格、容量)、(産地、銘柄)}、{(商品名、値段)、(価格、容量)、(産地、蔵元)}、{(商品名、蔵元)、(価格、銘柄)、(産地、値段)}、{(商品名、蔵元)、(価格、銘柄)、(産地、容量)}、{(商品名、蔵元)、(価格、値段)、(産地、銘柄)}、{(商品名、蔵元)、(価格、値段)、(産地、容量)}、{(商品名、蔵元)、(価格、容量)、(産地、銘柄)}、{(商品名、蔵元)、(価格、容量)、(産地、値段)}、{(商品名、容量)、(価格、銘柄)、(産地、値段)}、{(商品名、容量)、(価格、銘柄)、(産地、蔵元)}、{(商品名、容量)、(価格、値段)、(産地、銘柄)}、{(商品名、容量)、(価格、値段)、(産地、蔵元)}、{(商品名、容量)、(価格、蔵元)、(産地、銘柄)}、{(商品名、容量)、(価格、蔵元)、(産地、値段)}
【0043】
このように、ステップS301により、72種類の仮説集合Hが得られる。
【0044】
そして、ステップS302に移る。
【0045】
ステップS302では、上で求めた仮説集合Hから、仮説を構成するスロットの集合のうち、一方のフレームに関するスロット対の集合をとったときに、そのスロット値の組み合わせが、情報源中の情報(以下、インスタンスと呼ぶ)において全て異なるような仮説だけを残す。
【0046】
以下に、図13および図14を用いて、ステップS302について具体的に説明する。特に、1組のスロットについては、ステップS301で得られた{(商品名、銘柄)}、2組のスロットについては、ステップS301で得られた{(商品名、銘柄)、(価格、値段)}、{(商品名、値段)、(価格、蔵元)}、3組のスロットについては、ステップS301で得られた{(商品名、銘柄)、(価格、値段)、(産地、蔵元)}を用いて説明する。
【0047】
まず、1組のスロット対{(商品名、銘柄)}について、商品名(一方のフレーム)のスロット値で図13の1301〜1304の値が全て異なるか否かを判断する。商品名について図13を見ると、それぞれ○○○、◇◇◇、☆☆☆、▽▽▽であり、全て異なっており、銘柄についても図14について同様に比較をすると、全て異なっているので、{(商品名、銘柄)}は仮説として残ることになる。
【0048】
以下同様に比較をすると、以下の仮説が残る。
{(商品名、銘柄)}、{(商品名、値段)}
【0049】
また、2組のスロット{(商品名、銘柄)、(価格、値段)}についても1組のスロットと同様に比較をすればよいが、2組の場合、商品名と価格、或いは銘柄と値段の両方を組み合わせた値について、図13の1301〜1304の全てで異なる必要がある。この場合、1303と1304の価格が6000円で同じ値であるが、商品名が☆☆☆と▽▽▽で異なるので、{(商品名、銘柄)、(価格、値段)}の仮説は残ることになる。一方、{(商品名、値段)、(価格、蔵元)}について比較すると、値段と蔵元が同じもの(値段:3500円、蔵元:秋田)が図14に2つ(1401,1402)あるので、情報が唯一に定まらず、{(商品名、値段)、(価格、蔵元)}は仮説として残らない。
【0050】
以下同様に比較をすると、以下の仮説が残る。
{(商品名、銘柄)、(価格、値段)}、{(商品名、銘柄)、(価格、蔵元)}、{(商品名、銘柄)、(価格、容量)}、{(商品名、値段)、(価格、銘柄)}、{(商品名、蔵元)、(価格、銘柄)}、{(商品名、容量)、(価格、銘柄)}、{(商品名、銘柄)、(産地、値段)}、{(商品名、銘柄)、(産地、蔵元)}、{(商品名、銘柄)、(産地、容量)}、{(商品名、値段)、(産地、銘柄)}、{(商品名、蔵元)、(産地、銘柄)}、{(商品名、容量)、(産地、銘柄)}
【0051】
また、3組のスロット{(商品名、銘柄)、(価格、値段)、(産地、蔵元)}については、商品名、価格、産地の値が図13の1301〜1304、銘柄、値段、蔵元の値が図14の1401〜1403の全ての値が異なっているので、{(商品名、銘柄)、(価格、値段)、(産地、蔵元)}の仮説は残ることになる。以下同様に比較すると、以下の仮説が残ることになる。
{(商品名、銘柄)、(価格、値段)、(産地、蔵元)}、{(商品名、銘柄)、(価格、値段)、(産地、容量)}、{(商品名、銘柄)、(価格、蔵元)、(産地、値段)}、{(商品名、銘柄)、(価格、蔵元)、(産地、容量)}、{(商品名、銘柄)、(価格、容量)、(産地、値段)}、{(商品名、銘柄)、(価格、容量)、(産地、蔵元)}、{(商品名、値段)、(価格、銘柄)、(産地、蔵元)}、{(商品名、値段)、(価格、銘柄)、(産地、容量)}、{(商品名、値段)、(価格、蔵元)、(産地、銘柄)}、{(商品名、値段)、(価格、容量)、(産地、銘柄)}、{(商品名、蔵元)、(価格、銘柄)、(産地、値段)}、{(商品名、蔵元)、(価格、銘柄)、(産地、容量)}、{(商品名、蔵元)、(価格、値段)、(産地、銘柄)}、{(商品名、蔵元)、(価格、容量)、(産地、銘柄)}、{(商品名、容量)、(価格、銘柄)、(産地、値段)}、{(商品名、容量)、(価格、銘柄)、(産地、蔵元)}、{(商品名、容量)、(価格、値段)、(産地、銘柄)}、{(商品名、容量)、(価格、蔵元)、(産地、銘柄)}
【0052】
このようにして、ステップS302では、情報が唯一に定まる仮説だけを残す処理を行っている。
【0053】
そして、次はステップS303に移る。
【0054】
ステップS303では、H中の全ての仮説について、仮説中の全てのスロット対において、スロット値が一致するインスタンスを求め、それを仮説のインスタンス対集合とする。
【0055】
そのようなインスタンスが一つもない場合は、その仮説をHから除く。先の例では、残る仮説は次の通りである。
{(商品名、銘柄)}、{(商品名、銘柄)、(価格、値段)}、{(商品名、銘柄)、(価格、値段)、(産地、蔵元)}
【0056】
そして、ステップS304に移る。
【0057】
ステップS304では、仮説中のスロット対の数が同じ仮説で、求まったインスタンス対の数が最大のものをとる。最大のものが複数ある場合は、例えば先に生成された仮説をとる。これを、要素数の昇順でKに並べる。その結果、
{(商品名、銘柄)}、{(商品名、銘柄)、(価格、値段)}、{(商品名、銘柄)、(産地、蔵元)}、{(商品名、銘柄)、(価格、値段)、(産地、蔵元)}
が得られる。
【0058】
そして、ステップS305に移る。
【0059】
ステップS305では、Kに仮説が残ったか否かを調べ、残っている場合はステップS306に移る。残っていない場合は、全ての処理を終了する。この場合、対応スロットデータは得られない。
【0060】
ステップS306では、Kのj番目の仮説hjに対して求まったインスタンス対の数をnjとした時、nj-1 / nj < 1/2を満足する最大のjをとる。
そのような仮説がなければj=1とする。
【0061】
そして、ステップS307に移る。
【0062】
ステップS307では、hjのスロット対を対応スロット対データとして、対応スロット対データ保持部104に保持する。そして、全ての処理を終了する。
【0063】
先の例では、{(商品名、銘柄)、(価格、値段)、(産地、蔵元)}が最終的な仮説として残るので、図7に示すような対応スロットデータが得られる。
【0064】
このように、異なるフレーム形式で記述された情報源の情報の処理を、人手で対応スロットデータを与えることなく、自動的に実行できるという効果が得られる。
【0065】
(他の実施形態)
前記実施形態においては、全てのスロットの組み合わせを仮説とする場合について説明したが、これに限定されるものではない。
【0066】
例えば、ユニーク度を定義し、ユニーク度が一定値(例えば0.7)以上のスロットの組み合わせだけを仮説とする方法がある。ここで、情報源rのスロットsのユニーク度uniq(s、r)は、例えば次のように定義できる。
【0067】
今、情報源rのインスタンス集合Irの各インスタンスikが生起する確率p(ik)は全て1/n(Ir)で等しいと考える。ここで、集合Aの要素数をn(A)で表している。
【0068】
このとき、Irの各インスタンスが生起する事象Xの平均情報量はエントロピーH(X)に等しく、
【0069】
【外1】
である。
【0070】
次に、スロットsに対して、集合Vを
V={val(s,ik)|1<k<n(Ir)}
と定める。ここで、val(s、i)はインスタンスiのスロットsの値である。Vのj番目の要素をvVjで、Irにおいてvk = vVjとなるインスタンスikの個数をcjと表すと、値vVjが生起する確率は
p(vVj) = cj / n(Ir)
である。
【0071】
従って、値Vが生起する事象Yと事象Xとの相互情報量I(X;Y)は、vVjとikが同時に生起する確率p(vVj,ik)が、
【0072】
【外2】
であることを考えると、
【0073】
【外3】
となる。
【0074】
以上の準備の上で、情報源rにおけるスロットsのユニーク度uniq(s、r)をI(X;Y)/H(X)と定義する。
【0075】
すなわち、
【0076】
【外4】
である。
【0077】
定義から明らかなように、情報源rにおいて、スロットsの値が全て異なる場合にユニーク度は1になり、全て同じ場合に0になる。この場合、ユニーク度が低いスロットは仮説に入らない。そこで、仮説が最終的に定まった後、以下の処理を行ない仮説に含まれない対応スロットを求める必要がある。
【0078】
以下、図4のフローチャートを参照して、仮説外対応スロット作成処理の手順を示す。
【0079】
ステップS401では、採用された仮説Psに対して、一方のフレームに対応する全スロット集合Sから仮説に使用されているスロットを除いた集合をSnとする。同様に、もう一方のフレームに対するスロット集合をS'nとする。そしてステップS402に移る。
【0080】
ステップS402では、SnとS'nのスロットを一つずつ任意に組み合わせたスロット対psで構成するスロット対集合Psを作成する。そしてステップS403に移る。
【0081】
ステップS403では、Psが空か否かを調べる。空である場合は、仮説外対応スロット作成処理を終了する。空でない場合は、ステップS404に移る。ステップS404では、Psから一つの要素psを取る。そしてステップS405に移る。
【0082】
ステップS405では、仮説で同定されたインスタンス対集合Piの全ての要素piにおいて、
val(s、i) = val(s'、i')であるか否かを調べ、
全てのインスタンス対で成り立つ場合は、ステップS406に移る。
【0083】
一つでも成り立たないインスタンス対がある場合は、ステップS403に戻る。ステップS406では、インスタンス対Piのスロットsを持つ側のインスタンス集合をIsとしたとき、スロットsの値が生起する事象と、Isのインスタンスが生起する事象の相互情報量をI(s、Pi)としたとき、I(s、Pi)とI(s'、Pi)が共に1ビット以上である場合は、ステップS407に移る。そうでない場合は、ステップS403に戻る。
【0084】
ステップS407では、スロット対psを対応スロットデータに追加して、対応スロットデータ保持部104に保持する。
【0085】
そしてステップS403に戻る。
【0086】
この実施例では、対応スロットデータ保持部104として、図15に示す形式を利用する。
【0087】
図15では、仮説に含まれたスロット対を同定用スロット対保持部1503に保持し、仮説外対応スロット作成処理により求まったスロット対を、非同定用スロット対保持部1504に保持する。
【0088】
(他の実施形態)
上記実施例においては、スロット値が完全に一致するときに、インスタンスを同定したり、対応スロットを求めたりしていたが、これに限定されるものではなく、スロット値の類似性が高い場合に、インスタンスの同定や対応スロットを求めてもよい。
【0089】
ここで、スロット値v,v'の類似度sim(v,v')として、例えば、長尾真編「自然言語処理」岩波書店、1996年、431頁から434頁で述べられている最適照合検索のスコアを0から1の間に正規化したものを用いる。
【0090】
類似度を使用する場合、上記実施形態の一部を次のように変更する必要がある。
【0091】
まず、ステップS303で、仮説のスロット対で全てのスロット値が一致するインスタンス対を求めていたが、これはスロット値の類似度が一定値以上である場合に変更する。この場合、一つのインスタンスに対して、複数のインスタンスが対応することがある。その場合は、スコアmi(pi)が最も高いものを対とする。このとき、2番目に高いスコアとの比が一定値以下の場合は、その対を棄却してもよい。
【0092】
インスタンス対のスコアmi(pi)は、次のように定義する。
【0093】
ここで、v = val(i、s)、 v'=val(i'、s')を表わす。
【0094】
【外5】
ここで、prob(pi)は、スロット値の一致の優位性を示すもので、
【0095】
【外6】
である。また、m's(ps)は、
m's(ps) = Cs ・ uniq(s,r) ・ uniq(S',r')
である。ここで、Csは定数で例えば0.8をとる。
【0096】
インスタンス対Piが求まったら、次に、スコアが高いインスタンス対の個数が多い場合に値が高くなるようなフレームスコアを求める。例えば以下の式で定義されるスコアを用いる。
【0097】
【外7】
その上で、ステップS304の最良仮説の選択では、フレームスコアm'f(pf、Pi)が最も高くなる仮説を選択する。ステップS307の対応スロットデータの保存処理では、対応スロットデータを図8に示す形式で保存する。図8で、801はフレームスコアを保持する。あとは、各行において、列802と列803のスロットが対応する尺度を示すスロットスコアを列804に保持する。スロットスコアの値としては、例えば、フレームスコアと同じ値を取る方法がある。
【0098】
(他の実施形態)
上記実施形態においては、スロット値の類似度として、文字列と似ている尺度を出す最適照合検索を用いる場合について説明したが、これに限定されるものではなく、他の尺度を用いてもよい。
【0099】
例えば、数字から構成されるスロット値では、数値としての類似度を利用する方法が考えられる。
【0100】
また、アルファベットのスロット値とカタカナのスロット値の類似度は、アルファベットで表記された英単語などをカタカナ表記に変換し(例えば、情報処理学会誌 Vol。35、No。1、住吉、相澤「英語固有名詞の片カナ変換」に記載の方法がある)、変換したカタカナ文字列ともう一方のカタカナ文字列の類似度を利用する方法がある。
【0101】
あるいは、シソーラスを用いて、シソーラス上での距離が短い方が、類似度が高いとする方法がある。さらには、こうした複数の類似度を全て求めて、そのうち最も高い値を採用する方法もある。
【0102】
(他の実施形態)
上記実施形態においては、2つのフレーム間の対応スロットデータを求める場合について説明したが、これに限定されるものではなく、3以上のフレーム間で対応スロットデータを求めてもよい。
【0103】
この場合、共通の事例から直接対応スロットを求めるだけでなく、他のフレームを介して対応するスロットを求めることができる。
【0104】
以下、図16のフローチャートを参照して、本実施形態の処理手順を示す。ステップS1601では、更新フラグFを偽にする。そしてステップS1602に移る。ステップS1602では、フレームの2個ずつ組み合わせ全てを作成し、集合Pfに入れる。そしてステップS1603に移る。
【0105】
ステップS1603では、Pfが空か否かを調べ、空の場合は、ステップS1605に移る。空でない場合は、ステップS1604に移る。
【0106】
ステップS1604では、Pfからフレームの組を一つ取り出し、その組の対応スロットデータ作成処理を行なう。なお、以前のスコアより微小量以上高いスコアが得られたときのみ、対応スロットデータ保持部へ保存する。この場合、更新フラグFを真にする。そしてステップS1605に戻る。
【0107】
ステップS1605では、更新フラグの値を調べ、真であればステップS1606に移る。偽であれば全ての処理を終了する。
【0108】
ステップS1606では、対応スロットデータの補完を行なう。
【0109】
以下の条件を満たす任意のスロットのリストL = (s0,s1,・・・,sn)をとる。
【0110】
・スロットsjが属するフレームをfs(sj)で表すとき、
∀j∀k j≠k,0<j<n,0<k<n,fs(sj)≠fs(sk)
・n > 1。
【0111】
ここで、p's = (s0,sn),p'sj = (sj-1,sj)と表したとき、
【0112】
【外8】
m > tsかつ m - ms(p's) > δであれば、
ms(p's) = m とする。
そして、ステップS1601に戻る。
【0113】
本実施形態では、対応スロットデータ保持部の形式として、図8に示す形式を使用する。スロット値の完全一致の場合のみ対応スロットを作成する場合は、スコアを1として、図8に示す形式を利用する。
【0114】
(他の実施形態)
上記実施形態においては、全てあるいはユニーク度が高いスロットを仮説に入れる場合について説明したが、これに限定されるものではない。
【0115】
例えば、整理番号など、値が一致する可能性が高いが、対応はしないスロットでも、仮説がそのスロットだけから構成されていると対応するスロット対と認定されてしまう。これを防ぐ目的で、仮説を構成するスロット対が一つであって、そのうち一方のスロットが、他の対応スロットデータに含まれないスロットである場合は、その仮説を棄却する方法がある。
【0116】
(他の実施形態)
上記実施形態においては、各部を同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。
【0117】
図5は、本発明の別の実施形態に係る装置の基本構成を示すブロック図である。
【0118】
同図において、501は、処理の対象となる情報源を指す情報を保持する情報源保持部である。502は、情報源保持部501に保持されている情報源を指す情報から、情報源にネットワーク経由でアクセスして、情報源のフレーム定義を獲得するフレーム定義獲得部である。503は、情報源保持部501に保持されている情報源を指す情報から、情報源にネットワーク経由でアクセスして、情報を獲得する情報獲得部である。
【0119】
504は、フレーム定義獲得部502により獲得されたフレーム定義を保持するフレーム定義保持部である。505は、情報獲得部503により獲得された情報を保持する情報保持部である。506は、情報保持部505に保持されている情報を用いて、フレーム定義保持部504に保持されている二つのフレーム形式において対応するスロットを求める対応スロットデータ作成部である。507は、対応スロットデータ作成部506で作成された対応スロットデータを保持する対応スロットデータ保持部である。
【0120】
図6は、上記実施形態の情報処理装置の具体的構成を示す図である。
【0121】
同図において、601はCPUであり、後述する手順を実現するプログラムに従って動作する。602はRAMであり、対応スロットデータ保持部507と上記プログラムの動作に必要な記憶領域とを提供する。603はROMであり、後述する手順を実現するプログラムを保持する。
【0122】
604はディスク装置であり、フレーム定義保持部504と情報保持部505を実現する。604はディスク装置であり、フレーム定義保持部101と情報保持部102を実現する。605はネットワークを介して他の装置に存在する情報源からフレーム定義や情報を獲得するためのネットワークインタフェースである。606はバスである。
【0123】
(他の実施形態)
上記実施形態においては、対応スロットデータ保持部104をRAMで、フレーム定義保持部101と情報保持部102をディスク装置で実現する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。
【0124】
上記実施形態においては、プログラムをROMに保持する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0125】
なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0126】
プログラムコードを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CDーROM、CDーR、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0127】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0128】
更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0129】
【発明の効果】
以上説明したように、本発明によれば、異なるフレーム形式で記述された情報源の情報の処理を、人手で対応スロットデータを与えることなく自動的に実行できるという効果が得られる。
【図面の簡単な説明】
【図1】本発明に係る情報処理装置の実施形態の基本構成を示すブロック図である。
【図2】本発明の実施形態の具体的構成を示す図である。
【図3】本発明の実施形態における対応スロットデータ作成処理の概要を示すフローチャートである。
【図4】本発明の実施形態における仮説外対応スロット作成処理の概要を示すフローチャートである。
【図5】本発明の別の実施形態の基本構成を示すブロック図である。
【図6】本発明の別の実施形態の具体的構成を示す図である。
【図7】本発明の実施形態における対応スロットデータ保持部の構成を示す図である。
【図8】本発明の別の実施形態における対応スロットデータ保持部の構成を示す図である。
【図9】フレーム定義の例を示す図である。
【図10】フレーム定義の別の例を示す図である。
【図11】フレーム形式情報の例を示す図である。
【図12】フレーム形式情報の別の例を示す図である。
【図13】フレーム形式情報を保持する情報源の例を示す図である。
【図14】フレーム形式情報を保持する別の情報源の例を示す図である。
【図15】本発明の別の実施形態における対応スロット対データ保持部の構成を示す図である。
【図16】本発明の別の実施形態における対応スロットデータ作成処理の概要を示すフローチャートである。
【符号の説明】
101 フレーム定義保持部
102 情報保持部
103 対応スロットデータ作成部
104 対応スロットデータ保持部
Claims (6)
- 情報処理装置を制御する方法であって、
複数のスロットを含むフレーム定義情報をフレーム定義情報保持手段に保持させる保持制御工程と、
前記情報処理装置の備えるスロット対抽出手段が、前記スロットのスロットの対をそれぞれ異なる前記フレーム定義情報から抽出するスロット対抽出工程と、
前記情報処理装置の備える組作成手段が、前記抽出されたスロット対を少なくとも1対以上組み合わせたスロット対の組を作成するスロット対の組作成工程と、
前記情報処理装置の備える組削除手段が、前記作成されたスロット対の組それぞれのうち、前記フレーム定義情報で同じフレームに存在するスロットに対応する値がそれぞれ異なるインスタンスの数を用いて計算した値が閾値以下のスロットを含むスロット対の組を、前記作成されたスロット対の組から削除するスロット対の組削除工程と、
前記情報処理装置の備える組判断手段が、前記削除工程でスロット対の組を削除して残ったスロット対の組に含まれるスロットの値をそれぞれ異なるフレーム内で比較し、前記異なるフレームから等価なスロット対の組を判断する等価スロット対の組判断工程と、
前記情報処理装置の備える対応作成手段が、前記判断工程で等価だと判断されたスロット対を用いて、前記異なるフレームを対応させる対応作成工程と、
を備えることを特徴とする情報処理方法。 - 前記判断工程で、前記スロットの値の類似度が閾値以上のスロット対の組を等価と判断することを特徴とする請求項1記載の情報処理方法。
- 前記対応作成工程で、前記判断工程で等価だと判断されたスロット対の数が閾値以上の場合に前記異なるフレームを対応させることを特徴とする請求項1記載の情報処理方法。
- 前記対応作成工程で対応させたフレームを複数組み合わせることにより、等価なスロット対の生成を行う生成工程をさらに備えることを特徴とする請求項1記載の情報処理方法。
- 複数のスロットを含むフレーム定義情報を保持するフレーム定義情報保持手段と、
前記スロットのスロットの対をそれぞれ異なる前記フレーム定義情報から抽出するスロット対抽出手段と、
前記抽出されたスロット対を少なくとも1対以上組み合わせたスロット対の組を作成するスロット対の組作成手段と、
前記作成されたスロット対の組それぞれのうち、前記フレーム定義情報で同じフレームに存在するスロットに対応する値がそれぞれ異なるインスタンスの数を用いて計算した値が閾値以下のスロットを含むスロット対の組を、前記作成されたスロット対の組から削除するスロット対の組削除手段と、
前記削除手段でスロット対の組を削除して残ったスロット対の組に含まれるスロットの値をそれぞれ異なるフレーム内で比較し、前記異なるフレームから等価なスロット対の組を判断する等価スロット対の組判断手段と、
前記判断手段で等価だと判断されたスロット対を用いて、前記異なるフレームを対応させる対応作成手段と、
を備えることを特徴とする情報処理装置。 - 情報処理装置で実行されるプログラムを格納する記憶媒体であって、該プログラムが、
複数のスロットを含むフレーム定義情報をフレーム定義情報保持手段に保持させる保持制御手順と、
前記スロットのスロットの対をそれぞれ異なる前記フレーム定義情報から抽出するスロット対抽出手順と、
前記抽出されたスロット対を少なくとも1対以上組み合わせたスロット対の組を作成するスロット対の組作成手順と、
前記作成されたスロット対の組それぞれのうち、前記フレーム定義情報で同じフレームに存在するスロットに対応する値がそれぞれ異なるインスタンスの数を用いて計算した値が閾値以下のスロットを含むスロット対の組を、前記作成されたスロット対の組から削除するスロット対の組削除手順と、
前記削除工程でスロット対の組を削除して残ったスロット対の組に含まれるスロットの値をそれぞれ異なるフレーム内で比較し、前記異なるフレームから等価なスロット対の組を判断する等価スロット対の組判断手順と、
前記判断工程で等価だと判断されたスロット対を用いて、前記異なるフレームを対応させる対応作成手順と、
を備えることを特徴とする記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23698097A JP3897409B2 (ja) | 1997-09-02 | 1997-09-02 | 情報処理装置およびその方法、プログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23698097A JP3897409B2 (ja) | 1997-09-02 | 1997-09-02 | 情報処理装置およびその方法、プログラムを格納した記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185777A JPH1185777A (ja) | 1999-03-30 |
JP3897409B2 true JP3897409B2 (ja) | 2007-03-22 |
Family
ID=17008617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23698097A Expired - Fee Related JP3897409B2 (ja) | 1997-09-02 | 1997-09-02 | 情報処理装置およびその方法、プログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3897409B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223907B2 (en) * | 2008-11-14 | 2019-03-05 | Apple Inc. | System and method for capturing remote control device command signals |
-
1997
- 1997-09-02 JP JP23698097A patent/JP3897409B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1185777A (ja) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7343371B2 (en) | Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
JP6165913B1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2000348041A (ja) | 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
KR20220064016A (ko) | 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법 | |
US7739743B2 (en) | Information presentation apparatus, and information presentation method and program for use therein | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
US20050065947A1 (en) | Thesaurus maintaining system and method | |
US11301441B2 (en) | Information processing system and information processing method | |
US11645312B2 (en) | Attribute extraction apparatus and attribute extraction method | |
JP2000020537A (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5112027B2 (ja) | 文書群提示装置および文書群提示プログラム | |
JP3897409B2 (ja) | 情報処理装置およびその方法、プログラムを格納した記憶媒体 | |
JP2005107931A (ja) | 画像検索装置 | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN111666479A (zh) | 搜索网页的方法和计算机可读存储介质 | |
JPH1173415A (ja) | 類似文書検索装置及び類似文書検索方法 | |
CN115146030A (zh) | 一种基于知识图谱的公务文书写作方法及系统 | |
JPH07134720A (ja) | 文章作成システムにおける関連情報提示方法及び装置 | |
JP2885489B2 (ja) | 文書内容検索装置 | |
JPH0991305A (ja) | 情報処理方法及び装置 | |
JPH11175562A (ja) | 情報検索装置及び方法及び記憶媒体 | |
JP2000076254A (ja) | キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体 | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040521 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060919 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061219 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110105 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120105 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130105 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140105 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |