JPH11312115A - デ―タベ―ス登録装置 - Google Patents

デ―タベ―ス登録装置

Info

Publication number
JPH11312115A
JPH11312115A JP11075060A JP7506099A JPH11312115A JP H11312115 A JPH11312115 A JP H11312115A JP 11075060 A JP11075060 A JP 11075060A JP 7506099 A JP7506099 A JP 7506099A JP H11312115 A JPH11312115 A JP H11312115A
Authority
JP
Japan
Prior art keywords
data
feature vector
keyword
link
new data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11075060A
Other languages
English (en)
Other versions
JP3444223B2 (ja
Inventor
Masayuki Nakae
政行 中江
Hidehiko Okada
英彦 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP07506099A priority Critical patent/JP3444223B2/ja
Publication of JPH11312115A publication Critical patent/JPH11312115A/ja
Application granted granted Critical
Publication of JP3444223B2 publication Critical patent/JP3444223B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 非定型的なデータを、単一の方法で特徴づけ
て登録でき、かつ登録するデータと既に蓄積された関連
データ間で自動的にリンクづけする。 【解決手段】 利用者は、入力データに対し、キーワー
ド集合から任意のキーワードを選択し且つ各キーワード
に対して重みづけを行う。特徴ベクトル生成手段20は、
それらに基づいて入力データの特徴ベクトルを生成す
る。位置グループ抽出部12は、入力データとデータ蓄積
手段21中の既存データの特徴ベクトルどうしの距離を計
算し、入力データと関連するデータを近傍データとして
抽出する。リンク方向判定手段22は、近傍データ及び入
力データ双方のカテゴリから、リンク付け規則を用いて
近傍データと入力データとの間に追加するべきリンクの
方向を判定する。ノード追加手段24は、近傍データと入
力データとの間にリンクを追加し、入力データ,その特
徴ベクトル,リンクについての情報をデータ蓄積手段21
に蓄積する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は非定型データに対す
る効率的で高精度な関連データ検索を可能にするデータ
ベース検索装置に好適なデータベース登録装置に関す
る。
【0002】
【従来の技術】従来、データの意味情報を用いた検索を
可能にするデータベースは、例えば、技術文書のデータ
ベースや、図書館蔵書のデータベースなどのように、一
般に蓄積されたデータ中から自動的にキーワードを抽出
し、予め経験的に作られた類義語辞書などを用いて、デ
ータ間の関連度を計算するものであった。
【0003】一方、画像や音声などのように言語によら
ないデータの場合は、データの特徴量をベクトルの形で
表し、データ間の関連度を双方のベクトル間距離で表す
方法が知られている。このような方法には、例えば、特
開昭58−147799号公報,特開昭60−1895
85号公報,特開昭64−17182号公報,特開平4
−15777号公報などのように、音声パターンや文字
パターンの特徴ベクトル間のユークリッド距離をもって
類似度とする方法がある。この他にも、例えば、特開昭
60−202491号公報や特開昭63−780号公報
のように、特徴ベクトルの各成分の差の絶対値の総和を
もって類似度とする方法もある。いずれの方法にして
も、特徴ベクトルは音声データや画像データを特徴づけ
る物理量の系列であり、その特徴ベクトルの各成分は予
め全て決定されていることが前提となっている。
【0004】また、近年、文書,画像,音声などを統一
的に取り扱うデータ形式として、ハイパーテキストが注
目されている。ハイパーテキストは文書,画像,音声な
どから構成されるノードと呼ばれる情報単位をもち、ノ
ード間をリンクにより関連づけすることができる。デー
タベースの分野においても、このハイパーテキストで表
現されたデータを対象とすることで、文書,画像,音声
といったデータ型の区別のない新しいメディアとして応
用されている。
【0005】ここで、ハイパーテキストシステムへの新
規ノード追加の際、新規ノードから関連ノードへのリン
クもしくは関連ノードから新規ノードへのリンクを自動
的に付加する手法が望まれている。このような手法に
は、特開平3−278247号公報のように、ノードの
内容が変更されると、差分情報またはノードの全情報が
新しいバージョンのノードとして保持され、変更前のノ
ードへ新しいノードからリンクが付加されるといったも
のがある。また、特開平4−317172号公報のよう
に、通常の情報を持ったノード(検索対象ノード)の他
に、検索のために用いるノード(検索ノード)を用意し
て対応する検索対象ノードとリンクしておき、検索対象
ノードに変更があると、変更の必要な検索ノードのリン
クについて、更新,追加が行われるという手法もある。
最後に、特開平5−20363号公報のように、各情報
に定性的な検索条件を予め記載しておき、情報表示時に
検索条件を同時に表示し、そこで選択された検索条件を
元に他の情報があいまい検索されるという手法もある。
尚、ここでいう定性的な検索条件とは、例えば画像の暗
さのように、画像のコントラストなどの物理量により判
断可能な条件である。また、ハイパーテキストデータベ
ースにおいて、従来、検索結果の表示については一般
に、検索式に適合するノードへのリンクのリストが表示
されていた。
【0006】
【発明が解決しようとする課題】第1の問題点として、
データの登録について、データの意味を定義するため
に、データ中のキーワード自動抽出もしくは登録者によ
る自由なキーワード登録を行うような従来技術では、例
えばユーザインタフェースに関するデータのようにユー
ザ特性,タスク特性,システム特性など様々な視点から
特徴づけを行う必要があり、かつキーワードとして適当
な語彙が明確でない場合、データの意味を代表するキー
ワードを適切に定義することは難しく、そのためデータ
への適切な特徴づけが困難であるなどの問題があった。
【0007】第2の問題点として、ハイパーテキストデ
ータベースにおいて、新規ノードの登録の際、各ノード
に付加された定性的情報を用いて自動的にリンクを生成
するような従来の方法では、(1)文書,画像,音声な
どの任意な組み合わせを認めるような非定型データに対
して対応できない、(2)互いにリンク付けされるノー
ド対に対し、リンクの方向を動的に決定できない、など
の問題があった。
【0008】そこで本発明では、文書,画像,音声など
を自由に組み合わせた非定型的なデータに対し、単一の
方法で特徴づけることができ、かつ新規に登録されるデ
ータと既に蓄積された関連データとの間で自動的なリン
クづけを行うデータベース登録装置を提供することを目
的とする。
【0009】
【課題を解決するための手段】本発明のデータベース登
録装置は、データ登録者が新規データの内容を入力する
ためのコンテンツ登録手段と、予め定められたキーワー
ド集合の中から前記新規データの特徴を表すのに適当な
キーワードをデータ登録者が選択するためのキーワード
選択手段と、前記キーワード選択手段で用いるキーワー
ド集合を保存しておくキーワード集合保存手段と、前記
キーワード選択手段で選択された各キーワードに対して
[0,1]なる実数による重みづけをデータ登録者が入
力するための重みづけ入力手段と、前記キーワード選択
手段で選択されたキーワードと前記重みづけ入力手段で
入力された重みづけとから新規データの特徴ベクトルを
生成する特徴ベクトル生成手段と、データを蓄積するデ
ータ蓄積手段と、前記特徴ベクトル生成手段で生成され
た新規データの特徴ベクトルおよび前記データ蓄積手段
に保存されている各データに付加されている特徴ベクト
ル間の距離が予め定められたしきい値以下となる前記デ
ータ蓄積手段に保存されているデータを前記新規データ
に対する近傍データとして求める位置グループ抽出手段
と、前記位置グループ抽出手段により求められた近傍デ
ータのカテゴリと前記新規データのカテゴリとから、予
め定められたリンク付け規則を用いて、前記近傍データ
と前記新規データとの間に新たに追加するべきリンクの
方向を判定するリンク方向判定手段と、前記近傍データ
と前記新規データとの間に前記リンク方向判定手段によ
り判定された方向にリンクを追加し、前記新規データ及
び前記新規データの特徴ベクトル並びに前記リンクにつ
いての情報を前記データ蓄積手段に蓄積するノード追加
手段とを備えている。また、前記位置グループ抽出手段
は、特徴ベクトルの成分間の相関度の表を保存しておく
成分間相関表保存手段と、前記特徴ベクトル生成手段で
生成された新規データの特徴ベクトルおよび前記データ
蓄積手段に保存されている各データに付加されている特
徴ベクトルの未定義成分を、これらのベクトルで定義済
みの成分と前記成分間相関表保存手段に保存された成分
間の相関度の表とを用いて補完する未定義成分補完手段
と、前記未定義成分補完手段で未定義部分が補完された
前記新規データの特徴ベクトルと前記データ蓄積手段に
保存されている前記データの特徴ベクトルとの距離を求
めるベクトル間距離計算手段と、前記ベクトル間距離計
算手段で計算された特徴ベクトル間の距離が予め定めら
れたしきい値以下であれば前記データを前記新規データ
に対する近傍データと判定する近傍データ判定手段と、
前記近傍データ判定手段において近傍データの判定に用
いる予め定められたしきい値を保存しておくしきい値保
存手段とから構成されている。
【0010】このような構成のデータベース登録装置に
あっては、テキスト,画像,音声などの任意の組み合わ
せによる非定型データに対して、適切なキーワードの付
与を単一の方法で行うことができる。また、ハイパーテ
キストノードの新規作成における意味的に関連する他の
ノードへの自動的なリンクづけが可能となる。
【0011】また前記未定義成分補完手段は、前記特徴
ベクトル生成手段で生成された特徴ベクトルおよび予め
保存されたデータの特徴ベクトルの未定義成分の補完値
を求めるために必要な、その未定義成分と相関をもつ定
義された成分がない場合、その未定義成分をどのような
値との差をとっても常に0となるような特別な記号に置
き換えるため、前記のように未定義部分の補完が行えな
かった場合にも、ベクトル間の距離を求めて関連度を計
ることができる。
【0012】
【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明するが、その前に、本発
明のデータベース登録装置を使って登録されたデータを
検索する装置(データベース検索装置)について説明し
ておく。
【0013】図1を参照すると、データベース検索装置
の一例は、ユーザが希望のデータの特徴を入力するため
の問合せ入力手段1と、入力された問合せを特徴ベクト
ルに変換する問合せベクトル生成手段2と、データ及び
データの特徴ベクトルを保存してあるデータ保存手段3
と、特徴ベクトルに含まれる未定義成分を補完する未定
義成分補完手段4と、未定義成分補完手段4で用いる成
分間相関表を保存してある成分間相関表保存手段5と、
問合せおよび保存データの特徴ベクトル間の距離を求め
るベクトル間距離計算手段6と、問合せの特徴ベクトル
に対して或るしきい値以下の距離にある特徴ベクトルを
持つ保存データを判定する近傍データ判定手段7と、そ
のしきい値を保存してあるしきい値保存手段8と、近傍
データ判定手段7で求められた近傍データの一覧を表示
する検索結果表示手段9と、検索結果表示手段9で表示
された近傍データの一覧中からユーザが任意のデータを
指示するためのデータ指示手段10と、指示されたデー
タの内容を表示するデータ表示手段11とを含む。ここ
で、未定義成分補完手段4,成分間相関表保存手段5,
ベクトル間距離計算手段6,近傍データ判定手段7及び
しきい値保存手段8で、位置グループ抽出部12が構成
される。
【0014】問合せ入力手段1およびデータ指示手段1
0は、例えばマウスおよびキーボードなどの情報入力装
置で構成され、検索結果表示手段9およびデータ表示手
段11は、例えばVDTなどの情報表示装置で構成され
る。また、データ保存手段3は、例えば固定ディスクな
どの外部記憶装置で構成され、問合せベクトル生成手段
2および位置グループ抽出部12は、例えばPC(パー
ソナルコンピュータ)やWS(ワークステーション)な
どで動作するプログラムで構成される。
【0015】データ保存手段3に保存されたデータは、
文書,画像,音声などを任意に組み合わせた、他のデー
タへの関係を0個以上もつデータと、そのデータに対応
する特徴ベクトルとから構成される。例えば、データA
とデータBがあり、それぞれの特徴ベクトルがv
[A],v[B]であって、かつデータAが持つ関係の
一つにデータBへの関係があるとき、データ保存手段3
では図2のような形で保存される。
【0016】次に、図1のように構成されたデータベー
ス検索装置の動作について図を参照して説明する。
【0017】図1を参照すると、問合せ入力手段1にお
いて、例えばキーボードやマウスなどを用いて、ユーザ
からキーワードを選択し、それぞれに[0,1]なる実
数により重みづけを行ったものとする。例えば、図3
(a)に示したように予め任意のシステムのユーザイン
タフェースのデザイン事例などのデータの特徴を表すキ
ーワード集合が定められているとして、今、ユーザによ
って、図3(b)に示したキーワードが選択され、それ
ぞれ上から順に「未選択,0.8,0.2, 未選択,0.8,
0.7, 未選択, 0.1, 0.2」と重みづけが行われたとす
る。このとき、問合せベクトル生成手段2により、入力
された問合せに対応する特徴ベクトル(問合せベクト
ル)が以下のように生成される。 (x[1],0.8,0.2, x[2], 0.8, 0.7, x[3], 0.1, 0.2) …(a) ここで、x[1],x[2],x[3]は未定義成分を
示す。
【0018】次に、上記問合せベクトルおよび検索対象
となるデータ保存手段3中の各データの特徴ベクトルの
それぞれについて、未定義成分を含む場合は未定義成分
補完手段4で、それらのデータの特徴ベクトルにおける
定義済み成分と、成分間相関表保存手段5により予め保
存された属性値間の相関表とから、未定義成分の補完値
が決定される。
【0019】図4に成分間相関表保存手段5に保存され
ている属性値間の相関表の一例を示す。この表では、行
方向および列方向に属性値が列挙されており、行と列と
の交差点に相関の有無および相関度を記載してある。或
る属性値αと相関を持つ他の属性値を調べる場合、上部
に列挙された属性値群から属性値αを選択し、その列と
各行との交差点に記載された値を調べる。数値pが記載
されていればその行の左横に記載された属性値と相関が
あってその相関度がpであり、「−」の場合は相関がな
いことになる。例えば、属性値「初心者向け」と相関を
持つ他の属性値を調べる場合は、表の上部に列挙された
属性値群における属性値「初心者向け」の列と各行との
交差点の値を調べる。図の場合、属性値「幼児向け」,
「一般向け」,「高齢者向け」と相関があり、その相関
度はそれぞれ0.9,0.3,0.8である。
【0020】さて、未定義成分補完手段4は、例えば上
記問合せベクトル(a)の場合、x[1]とx[2]と
x[3]の3つの未定義成分を含むため、以下のような
処理を行う。
【0021】図4の相関表を見ると、x[2]に対応す
る属性値「初心者向け」と相関があるのは、「幼児向
け」,「一般向け」,「高齢者向け」の3つの属性値で
あるが、問合せベクトル(a)において「幼児向け」の
属性値は未定義成分x[1]であるため除外され、残り
の「一般向け」,「高齢者向け」のうち最も相関度の高
い「高齢者向け」が選択される。この相関値の意味は
「高齢者であれば、かなりの確からしさで初心者であ
る」ことを示している。相関表を見ると、その相関度は
0.8であり、問合せベクトル(a)で「高齢者向け」
に割り当てられている重み付けは0.2なので、 x[2]=0.2・0.8=0.16 と補完される。
【0022】同様に、x[3]に相当する「視覚障害対
応」は、図4の相関表を見ると、「高齢者向け」とのみ
0.7の相関度をもち、上記問合せベクトル(a)では属
性値「高齢者向け」の重み付けは0.2なので、 x[3]=0.2・0.7=0.14 と補完される。
【0023】一方、x[1]に対応する属性値「幼児向
け」は、図4の相関表では属性値「初心者向け」とだけ
相関を持つが、上記問合せベクトル(a)では属性値
「初心者向け」は未定義成分x[2]である。従って、
補完値を求めることができない。このような場合には、
⊥を割り当てる。⊥は後段のベクトル間距離計算の際、
当該成分を距離計算に用いないことを示す。すなわち、
差を求めようとする2つのベクトルの成分のうち、少な
くとも一方が⊥であるとき、その差を常に0とする。こ
うすることで、補完できなかった未定義成分が後段の距
離計算に影響を与えることがなくなり、したがって依然
としてベクトル間距離を2つのデータの意味的関連度の
指標とすることができる。以上のような補完の結果、前
記問合せベクトル(a)は次のようになる。 (⊥,0.8,0.2, 0.16, 0.8, 0.7, 0.14, 0.1, 0.2) …(b)
【0024】なお、図4の相関表では、各属性値が少な
くとも他の1つの属性値と相関を持つようになっている
が、他の属性値と全く相関を持たない属性値が存在する
場合も考えられ、若し、そのような属性値が未定義成分
として現れた場合には、先と同様に補完値を求めること
ができない。このような場合には、⊥を割り当てる。
【0025】この後、ベクトル間距離計算手段6で、上
記のように未定義成分が補完された問合せベクトル
(b)および各データの特徴ベクトルの間で、距離計算
が行われる。この距離の定義として、(1)各成分ごと
の差の絶対値の総和、もしくは(2)ユークリッド距離
の2通りが考えられるが、問合せと検索対象となる各デ
ータとの意味的関連度の指標としてはどちらでも同じ効
果である。そこで、ここでは距離を各成分間の差の絶対
値の総和と定義する。そして、近傍データ判定手段7
で、しきい値保存手段8に予め登録されたしきい値と上
記ベクトル間距離を比較し、当該ベクトル間距離がしき
い値以下であれば、位置グループGpに当該検索対象デ
ータが加えられる。
【0026】こうして得られた位置グループGp中のデ
ータ集合がユーザからの問合せに対する検索結果であ
り、そこに含まれるデータおよびデータ間の関係の一覧
をディスプレイ装置などの検索結果表示手段9で表示す
る。なお、ハイパーテキストの場合、上記一覧には各デ
ータのタイトルなどが含まれる。ユーザが、このような
一覧を見て、データ指示手段10を用いて一覧中の任意
のデータを指示すると、指示されたデータの詳細な内容
がデータ表示手段11により表示される。
【0027】以上により、ユーザの問合せ入力において
検索式などを用いない直観的な入力を行うことが可能に
なり、特徴ベクトルを用いた効率的で高精度な関連度計
算が可能になり、特徴ベクトル中に未定義の成分があっ
てもデータ間の意味的関連度という意味を損なわずに特
徴ベクトル間の距離を計算することが可能となる。
【0028】次に、データベース検索装置の他の例につ
いて図を参照して説明する。
【0029】図5を参照すると、データベース検索装置
の他の例は、予めデータ間に関係が定められており、か
つデータが幾つかのカテゴリに分類されている場合、位
置グループ抽出部12で得られた各近傍データの属する
カテゴリと、前記近傍データから関係を辿って到達でき
るデータの属するカテゴリとから、カテゴリ間規則保存
手段14に保存されている予め定められたカテゴリ間規
則を用いて、前記近傍データから関係を辿って到達でき
るデータを検索結果に含めるか否かを判断する関係デー
タ判定手段13を含むという点で、図1に示される例の
データベース検索装置と異なる。なお、関係データ判定
手段13とカテゴリ間規則保存手段14とで関係グルー
プ抽出部15が構成されている。関係グループ抽出部1
5は、例えばPCまたはWSなどで動作するプログラム
によって実現される。
【0030】また、データ保存手段3に保存されたデー
タは、文書,画像,音声などを任意に組み合わせた、他
のデータへの関係を0個以上もつデータと、そのデータ
に対応する特徴ベクトル及びそのデータの属するカテゴ
リとから構成される。例えば、データAとデータBがあ
り、それぞれの特徴ベクトルがv[A],v[B]、そ
れぞれのカテゴリがC1,C2であって、かつデータA
がもつ関係の一つにデータBへの関係があるとき、デー
タ保存手段3では図6のような形で保存される。
【0031】次に図5に示されるデータベース検索装置
の動作を、図1に示したデータベース検索装置との相違
部分を中心に、図を参照しながら詳しく説明する。
【0032】図5を参照すると、関係データ判定手段1
3は、近傍データ判定手段7で得られた位置グループG
pに属する任意のデータAについて、当該データから辿
ることのできる関係を辿り、その先にある任意のデータ
Bを求める。そして、データAおよびデータBの属する
カテゴリと、カテゴリ間規則保存手段14で保存されて
いる予め定められたカテゴリ間規則とを用いて、データ
Bをデータ集合Grに含めるか否かを判定する。例え
ば、カテゴリとして「ガイドライン」,「デザイン事
例」,「評価事例」という3つが予め定められており、
Gpに「デザイン事例」に属するデータAが含まれてい
るとする。そして、データAはデータB,データC,デ
ータDへの関係を持ち、それぞれのデータのカテゴリ
が、データBは「ガイドライン」,データCは「デザイ
ン事例」,データDは「評価事例」であるとする。ま
た、カテゴリ間規則保存手段14で図8のようなカテゴ
リ間規則が保存されているとする。このとき、図7を参
照すると、関係データ判定手段13では、まずGrがG
r=Gpと初期化され、Gpに属するデータAについ
て、カテゴリ間規則を参照する。カテゴリ間規則では、
「デザイン事例」から「ガイドライン」への関係、およ
び「デザイン事例」から「評価事例」への関係をともに
Grに含めると定められているので、データBおよびデ
ータDはGrに追加される。一方、「デザイン事例」か
ら「デザイン事例」への関係はGrに含めないとされて
いるので、データCはGrに追加されない。したがっ
て、データAについて、データBおよびデータDが新た
にGrに追加される。このような処理をGpに属する全
てのデータについて行う。
【0033】こうして得られたデータ集合Grがユーザ
からの問合せに対する検索結果であり、そこに含まれる
データおよびデータ間の関係の一覧を検索結果表示手段
9で表示する。そして、ユーザがデータ指示手段10を
用いて任意のデータを指示すると、指示されたデータの
内容がデータ表示手段11により表示される。
【0034】これにより、ユーザは検索結果に含まれる
データのそれぞれについて、自身の求めるデータである
か否かを判断するに際して、問合せとの関連度だけでな
く、そこからどのようなデータを得ることができるかに
ついての情報を共に用いて、多角的に判断することがで
きる。
【0035】次に本発明に係るデータベース登録装置の
一実施の形態について、図を参照しながら説明する。
【0036】図9を参照すると、本発明に係るデータベ
ース登録装置の実施の形態の構成は、データ登録者がデ
ータ(ノード)の内容を登録するコンテンツ登録手段1
6と、予め定められたキーワード集合を保存してあるキ
ーワード集合保存手段17と、そのキーワード集合から
ノードの内容を適切に表すキーワードをデータ登録者が
選ぶためのキーワード選択手段18と、データ登録者が
各選択キーワードに[0,1]なる実数を用いて重みづ
けを行うための重みづけ入力手段19と、重みづけされ
た選択キーワードの集合から特徴ベクトルを生成する特
徴ベクトル生成手段20と、データ(ノード)を蓄積す
るデータ蓄積手段21と、関連ノードの集合を求める位
置グループ抽出部12と、登録ノードと近傍ノードとの
間にリンクを追加する際にリンクの方向を判定するため
のリンク方向判定手段22と、その判定に用いる規則を
保存してあるリンクづけ規則保存手段23と、登録ノー
ドをデータ蓄積手段21に追加してリンク方向判定手段
22で決定された方向に登録ノードと近傍ノードとの間
にリンクを追加するノード追加手段24とを含む。
【0037】ここで、データ蓄積手段21に格納される
データは、前述した図6に示されるものと同様で、文
書,画像,音声などを任意に組み合わせた、他のデータ
への関係を0個以上持つデータと、そのデータに対応す
る特徴ベクトル及びそのデータの属するカテゴリとから
構成される。
【0038】また、位置グループ抽出部12の内部構造
は、図1に示したデータベース検索装置の主要部を構成
する位置グループ抽出部12と同じ構成であり、図10
に示すように、特徴ベクトルの成分間の相関度の表を保
存しておく成分間相関表保存手段5と、特徴ベクトル生
成手段20で生成された新規ノードの特徴ベクトルおよ
びデータ蓄積手段21に保存されている各ノードに付加
されている特徴ベクトルの未定義成分を、これらのベク
トルで定義済みの成分と成分間相関表保存手段5に保存
された成分間の相関度の表とを用いて補完する未定義成
分補完手段4と、未定義成分補完手段4で未定義部分が
補完された新規ノードの特徴ベクトルとデータ蓄積手段
21に保存されているノードの特徴ベクトルとの距離を
求めるベクトル間距離計算手段6と、ベクトル間距離計
算手段6で計算された特徴ベクトル間の距離が予め定め
られたしきい値以下であれば前記ノードを前記新規ノー
ドに対する近傍データと判定する近傍データ判定手段7
と、近傍データ判定手段7において近傍データの判定に
用いる予め定められたしきい値を保存しておくしきい値
保存手段8とから構成されている。また、未定義成分補
完手段4は、特徴ベクトル生成手段20で生成された特
徴ベクトルおよび予め保存されたデータの特徴ベクトル
の未定義成分の補完値を求めるために必要な、その未定
義成分と相関をもつ定義された成分がない場合、その未
定義成分をどのような値との差をとっても常に0となる
ような特別な記号に置き換える。
【0039】なお、図9に示すコンテンツ登録手段1
6,キーワード選択手段18,重みづけ入力手段19
は、マウスおよびキーボードなどの情報入力装置であ
り、キーワード集合保存手段17,特徴ベクトル生成手
段20,位置グループ抽出部12,リンク方向判定手段
22,リンクづけ規則保存手段23およびノード追加手
段24は、例えばPCやWSなどで動作するプログラム
で実現される。また、データ蓄積手段21は、例えば固
定ディスクなどの外部記憶装置である。
【0040】このような構成のデータベース登録装置の
動作について図を参照しながら説明する。
【0041】図9を参照すると、まず登録者は登録ノー
ドの内容を予め文書,画像,音声を任意に組み合わせて
作成し、コンテンツ登録手段16により入力する。ま
た、この登録ノードのカテゴリ(後述するガイドライ
ン,デザイン事例,評価事例など)をコンテンツ登録手
段16により入力する。そして、キーワード選択手段1
8により、コンテンツ登録手段16で入力したノードの
内容にしたがって、キーワード集合保存手段17に予め
保存されたキーワード集合の中から適当なキーワードを
選択する。したがって、選択されないキーワードも存在
する。ここで、キーワード集合はユーザにとってわかり
やすいように幾つかのカテゴリに分類されていてもよ
い。例えば、図11を参照すると、「一般」,「初心
者」,「視覚」などのキーワード集合(属性値)は、
「年齢層」,「システム経験」,「タスク知識」,「障
害」の4つのカテゴリ(属性)に分類されている。そし
て、登録者は、選択した各キーワードに対し、重みづけ
入力手段19により[0,1]なる実数を当該キーワー
ドの重要度として割り当てる。このとき、前記カテゴリ
に対して実数を割り当てることを許してもよい。この場
合、そのカテゴリに属するキーワード全てにカテゴリに
対して割り当てられた実数を割り当てる。こうすること
で、キーワードの一括選択を行うことになり、ユーザの
重み付け入力時の手間が軽減される。また、各キーワー
ドに実数を割り当て、かつカテゴリにも実数を割り当て
ることを許してもよい。この場合、実数の与えられたカ
テゴリに属するキーワード全てについて、それぞれのキ
ーワードに割り当てられた実数と当該カテゴリに与えら
れた実数との積を求め、その値を当該キーワードに再び
割り当てる。こうすることで、繰り返し検索を行う際の
重みづけの調整にかかる手間を軽減できる。
【0042】さて、特徴ベクトル生成手段20は前段ま
での結果から当該登録ノードに対応する特徴ベクトルを
生成する。その際、キーワード選択手段18で選択され
なかったキーワードには未定義であることを示す特別な
記号xを割り当てる。このようなxとして、例えば−1
のように[0,1]でない実数を用いてもよいし、ある
いは例えば“x”のように文字を用いてもよい。そし
て、上記のように各キーワードに割り当てられた実数
を、ある一定の順序に並べたベクトルが、登録ノードに
対応する特徴ベクトルである。例えば、上記で例として
挙げたキーワード集合に対して、「一般」,「初心
者」,「熟練者」,「乏しい」,「普通」,「豊富」,
「視覚」,「肢体」の8つのキーワードがキーワード選
択手段18で選択され、続いて重みづけ入力手段19で
図12のように重要度がユーザにより定められたとき、
登録データに対応する特徴ベクトルは、 (x, 0.8,x,0.9, x,0.7, 0.3, 0.8, 0.7,
0.7, x,0.1) (xは未定義部分)のようになる。
【0043】次に位置グループ抽出部12により、特徴
ベクトル生成手段20で決定された登録ノードの特徴ベ
クトルと、データ蓄積手段21に保存された各ノードの
特徴ベクトルとの間の距離が計算され、予め定められた
しきい値以下の距離にあるノードの集合Gpを求める。
即ち、図10を参照すると、未定義成分補完手段4は、
特徴ベクトル生成手段20で生成された新規ノードの特
徴ベクトルおよびデータ蓄積手段21に保存されている
各ノードに付加されている特徴ベクトルの未定義成分
を、これらのベクトルで定義済みの成分と成分間相関表
保存手段5に保存された成分間の相関度の表とを用いて
補完し、ベクトル間距離計算手段6は、未定義部分が補
完された新規ノードの特徴ベクトルとデータ蓄積手段2
1に保存されているノードの特徴ベクトルとの距離を求
め、近傍データ判定手段7は、ベクトル間距離計算手段
6で計算された特徴ベクトル間の距離が予め定められた
しきい値以下であれば前記ノードを前記新規ノードに対
する近傍データと判定して、集合Gpに含ませる。
【0044】次にリンク方向判定手段22は、位置グル
ープ抽出部12で求められたGpの各ノードについて、
登録ノードに対するリンク方向を判定する。その際、図
9のリンクづけ規則保存手段23に予め保存されたリン
クづけ規則が適用される。リンクづけ規則はノードのカ
テゴリをもとに定められており、例えば「ガイドライ
ン」,「デザイン事例」,「評価事例」の3つのカテゴ
リについては図13のようなリンクづけ規則となる。
今、登録ノードが「ガイドライン」に属し、ノードA,
B,Cがそれぞれ「ガイドライン」,「デザイン事
例」,「評価事例」に属しているとすると、図13のリ
ンクづけ規則に従って登録ノードとノードA,B,Cそ
れぞれとの間のリンク方向は、図14のように判定され
る。
【0045】最後に、ノード追加手段24によって、登
録ノードとその特徴ベクトル並びにカテゴリ、および位
置グループGpに属する各ノードへの(からの)リンク
を、リンク方向判定手段22で決定された方向に追加
し、ノード蓄積手段21へ蓄積する。
【0046】以上により、新規データの登録時に、新規
データ及び近傍データの属するカテゴリ情報と、カテゴ
リを用いたリンクづけ規則とにより、新規データと近傍
データとの間に追加するリンク方向を判定し、その方向
にリンクを自動的に追加して新規データ及びそのリンク
情報を蓄積するため、ハイパーテキストの新規ノード作
成時の関連ノード探索とリンク追加にかかる手間を軽減
することができる。
【0047】
【発明の効果】以上説明したように本発明によれば以下
のような効果を得ることができる。
【0048】請求項1および2に記載の発明によれば、
データの登録時に、入力データに対して予め定められた
キーワード集合からユーザの任意によりキーワードを選
択し、選択されたそれぞれのキーワードに対して重みづ
けを行った結果から入力データの特徴ベクトルを生成す
るため、文書,画像,音声などの任意の組み合わせによ
る非定型データに対して、データ登録者にとってわかり
やすい単一の方法で特徴づけることができ、かつ適切な
キーワード付与にかかる手間を軽減することができる。
また、新規データ及び近傍データの属するカテゴリ情報
とカテゴリを用いたリンクづけ規則とにより、新規デー
タと近傍データとの間に追加するリンク方向を判定し、
その方向にリンクを自動的に追加して新規データ及びそ
のリンク情報を蓄積するため、ハイパーテキストの新規
ノード作成時の関連ノード探索とリンク追加にかかる手
間を軽減することができる。
【0049】また、請求項3に記載の発明によれば、特
徴ベクトルの或る未定義部分の補完値を求めるために必
要な定義された成分がない場合、任意の値に対する差に
ついて0となるような特別な記号で当該未定義部分を置
き換えるため、後段のベクトル間距離計算手段において
未定義部分の存在する部分が無視される。したがって、
特徴ベクトル中に多くの未定義部分が存在する場合にも
特徴ベクトルを用いた効率のよい関連度計算を行うこと
ができる。
【図面の簡単な説明】
【図1】データベース検索装置の一例を示すブロック図
である。
【図2】図1中のデータ保存手段に保存されているデー
タの説明図である。
【図3】問合せ入力時にユーザに提示されるキーワード
集合の例とユーザが実際に選択したキーワードの例とを
示す図である。
【図4】成分間相関表の例を示す図である。
【図5】データベース検索装置の他の例を示すブロック
図である。
【図6】図5中のデータ保存手段に保存されているデー
タの説明図である。
【図7】関係データ判定手段の動作説明図である。
【図8】カテゴリ間規則の例を示す図である。
【図9】本発明に係るデータベース登録装置の実施の形
態のブロック図である。
【図10】データベース登録装置における位置グループ
抽出部の構成例を示すブロック図である。
【図11】キーボード集合保存手段に保存されているキ
ーワード集合(属性値)の例とカテゴリの例とを示す図
である。
【図12】データ登録者が新規ノードの登録時にそのノ
ードに対して選択したキーワード(属性値)とその重要
度(重みづけ)の例を示す図である。
【図13】リンクづけ規則の例を示す図である。
【図14】登録された新規ノードに付与されたリンクの
例を示す図である。
【符号の説明】
1 問合せ入力手段 2 問合せベクトル生成手段 3 データ保存手段 4 未定義成分補完手段 5 成分間相関表保存手段 6 ベクトル間距離計算手段 7 近傍データ判定手段 8 しきい値保存手段 9 検索結果表示手段 10 データ指示手段 11 データ表示手段 12 位置グループ抽出部 13 関係データ判定手段 14 カテゴリ間規則保存手段 15 関係グループ抽出部 16 コンテンツ登録手段 17 キーワード集合保存手段 18 キーワード選択手段 19 重みづけ入力手段 20 特徴ベクトル生成手段 21 データ蓄積手段 22 リンク方向判定手段 23 リンクづけ規則保存手段 24 ノード追加手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/419 320

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 データ登録者が新規データの内容を入力
    するためのコンテンツ登録手段と、 予め定められたキーワード集合の中から前記新規データ
    の特徴を表すのに適当なキーワードをデータ登録者が選
    択するためのキーワード選択手段と、 前記キーワード選択手段で用いるキーワード集合を保存
    しておくキーワード集合保存手段と、 前記キーワード選択手段で選択された各キーワードに対
    して[0,1]なる実数による重みづけをデータ登録者
    が入力するための重みづけ入力手段と、 前記キーワード選択手段で選択されたキーワードと前記
    重みづけ入力手段で入力された重みづけとから新規デー
    タの特徴ベクトルを生成する特徴ベクトル生成手段と、 データを蓄積するデータ蓄積手段と、 前記特徴ベクトル生成手段で生成された新規データの特
    徴ベクトルおよび前記データ蓄積手段に保存されている
    各データに付加されている特徴ベクトル間の距離が予め
    定められたしきい値以下となる前記データ蓄積手段に保
    存されているデータを前記新規データに対する近傍デー
    タとして求める位置グループ抽出手段と、 前記位置グループ抽出手段により求められた近傍データ
    のカテゴリと前記新規データのカテゴリとから、予め定
    められたリンク付け規則を用いて、前記近傍データと前
    記新規データとの間に新たに追加するべきリンクの方向
    を判定するリンク方向判定手段と、 前記近傍データと前記新規データとの間に前記リンク方
    向判定手段により判定された方向にリンクを追加し、前
    記新規データ及び前記新規データの特徴ベクトル並びに
    前記リンクについての情報を前記データ蓄積手段に蓄積
    するノード追加手段とを備えることを特徴とするデータ
    ベース登録装置。
  2. 【請求項2】 データ登録者が新規データの内容を入力
    するためのコンテンツ登録手段と、 予め定められたキーワード集合の中から前記新規データ
    の特徴を表すのに適当なキーワードをデータ登録者が選
    択するためのキーワード選択手段と、 前記キーワード選択手段で用いるキーワード集合を保存
    しておくキーワード集合保存手段と、 前記キーワード選択手段で選択された各キーワードに対
    して[0,1]なる実数による重みづけをデータ登録者
    が入力するための重みづけ入力手段と、 前記キーワード選択手段で選択されたキーワードと前記
    重みづけ入力手段で入力された重みづけとから新規デー
    タの特徴ベクトルを生成する特徴ベクトル生成手段と、 データを蓄積するデータ蓄積手段と、 特徴ベクトルの成分間の相関度の表を保存しておく成分
    間相関表保存手段と、 前記特徴ベクトル生成手段で生成された新規データの特
    徴ベクトルおよび前記データ蓄積手段に保存されている
    各データに付加されている特徴ベクトルの未定義成分
    を、これらのベクトルで定義済みの成分と前記成分間相
    関表保存手段に保存された成分間の相関度の表とを用い
    て補完する未定義成分補完手段と、 前記未定義成分補完手段で未定義部分が補完された前記
    新規データの特徴ベクトルと前記データ蓄積手段に保存
    されている前記データの特徴ベクトルとの距離を求める
    ベクトル間距離計算手段と、 前記ベクトル間距離計算手段で計算された特徴ベクトル
    間の距離が予め定められたしきい値以下であれば前記デ
    ータを前記新規データに対する近傍データと判定する近
    傍データ判定手段と、 前記近傍データ判定手段において近傍データの判定に用
    いる予め定められたしきい値を保存しておくしきい値保
    存手段と、 前記近傍データ判定手段により判定された近傍データの
    カテゴリと前記新規データのカテゴリとから、予め定め
    られたリンク付け規則を用いて、前記近傍データと前記
    新規データとの間に新たに追加するべきリンクの方向を
    判定するリンク方向判定手段と、 前記近傍データと前記新規データとの間に前記リンク方
    向判定手段により判定された方向にリンクを追加し、前
    記新規データ及び前記新規データの特徴ベクトル並びに
    前記リンクについての情報を前記データ蓄積手段に蓄積
    するノード追加手段とを備えることを特徴とするデータ
    ベース登録装置。
  3. 【請求項3】 前記未定義成分補完手段は、前記特徴ベ
    クトル生成手段で生成された特徴ベクトルおよび予め保
    存されたデータの特徴ベクトルの未定義成分の補完値を
    求めるために必要な、その未定義成分と相関をもつ定義
    された成分がない場合、その未定義成分をどのような値
    との差をとっても常に0となるような特別な記号に置き
    換える構成を有することを特徴とする請求項2記載のデ
    ータベース登録装置。
JP07506099A 1999-03-19 1999-03-19 データベース登録装置 Expired - Fee Related JP3444223B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07506099A JP3444223B2 (ja) 1999-03-19 1999-03-19 データベース登録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07506099A JP3444223B2 (ja) 1999-03-19 1999-03-19 データベース登録装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP8358902A Division JP2943748B2 (ja) 1996-12-28 1996-12-28 データベース検索装置

Publications (2)

Publication Number Publication Date
JPH11312115A true JPH11312115A (ja) 1999-11-09
JP3444223B2 JP3444223B2 (ja) 2003-09-08

Family

ID=13565296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07506099A Expired - Fee Related JP3444223B2 (ja) 1999-03-19 1999-03-19 データベース登録装置

Country Status (1)

Country Link
JP (1) JP3444223B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961724B1 (en) 1999-11-11 2005-11-01 Matsushita Electric Industrial Co., Ltd. Method and apparatus for image retrieval
JP2012038320A (ja) * 2004-10-20 2012-02-23 Oracle Internatl Corp 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH021059A (ja) * 1988-06-07 1990-01-05 Hitachi Ltd 連想検索システム
JPH02224068A (ja) * 1989-02-27 1990-09-06 Toshiba Corp 情報検索システム
JPH05158991A (ja) * 1991-12-02 1993-06-25 Mitsubishi Electric Corp 情報検索システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH021059A (ja) * 1988-06-07 1990-01-05 Hitachi Ltd 連想検索システム
JPH02224068A (ja) * 1989-02-27 1990-09-06 Toshiba Corp 情報検索システム
JPH05158991A (ja) * 1991-12-02 1993-06-25 Mitsubishi Electric Corp 情報検索システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961724B1 (en) 1999-11-11 2005-11-01 Matsushita Electric Industrial Co., Ltd. Method and apparatus for image retrieval
JP2012038320A (ja) * 2004-10-20 2012-02-23 Oracle Internatl Corp 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム

Also Published As

Publication number Publication date
JP3444223B2 (ja) 2003-09-08

Similar Documents

Publication Publication Date Title
US7769771B2 (en) Searching a document using relevance feedback
JP3170400B2 (ja) 意味パターン認識による文字列検索方法及びその装置
US6567805B1 (en) Interactive automated response system
JP2008542951A (ja) 関連性ネットワーク
JP2004178605A (ja) 情報検索装置及びその方法
JP2006190298A (ja) 電子テキストに概念的強調を自動的に施す方法
JP2015511746A5 (ja)
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2004178604A (ja) 情報検索装置及びその方法
CN110633264B (zh) 应用专利数据库的研发辅助系统及其方法
JP2018045537A (ja) 検索プログラム、検索装置および検索方法
KR20080037413A (ko) 온라인 문맥기반 광고 장치 및 방법
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
JP3024045B2 (ja) 自然言語に基づくデータ検索装置
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JP2019128925A (ja) 事象提示システムおよび事象提示装置
JPH0652221A (ja) 固有名詞の自動抽出方式
JP2943748B2 (ja) データベース検索装置
JPH11312115A (ja) デ―タベ―ス登録装置
CN111831884B (zh) 一种基于信息查找的匹配系统与方法
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JPH11154164A (ja) 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080627

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees