JPH09153068A - 類似検索方法および装置 - Google Patents
類似検索方法および装置Info
- Publication number
- JPH09153068A JPH09153068A JP7335895A JP33589595A JPH09153068A JP H09153068 A JPH09153068 A JP H09153068A JP 7335895 A JP7335895 A JP 7335895A JP 33589595 A JP33589595 A JP 33589595A JP H09153068 A JPH09153068 A JP H09153068A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- expression
- similarity
- search
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
ならず、多くの検索者にとって、重要度と類似度につい
て感覚が一致する。 【解決手段】 共起辞書108は、属性間の共起関係の
強さを記憶している。原属性式重要度計算部103は、
検索式が複数の属性を含む時に、ある属性とその他の属
性の間の共起関係が強いほどその属性の重要度が高くな
るよう重要度を計算する。類似検索式生成部106は、
検索式間の類似度の評価尺度を属性の現れかたの類似性
とし、検索式が複数の属性を含むなら、ある属性と、そ
の他の属性との共起関係の強さと、ある属性とは異なる
任意の属性と、その他の属性の共起関係の強さの差が小
さいほど、ある属性とこれとは異なる任意の属性の間の
類似度が高くなるよう、重要度が低い属性を他の属性に
置換するか、重要度が低い属性を検索式から除去し、検
索式と類似度が高い類似検索式を得る。
Description
おける情報検索や人工知能分野における事例ベース推論
の事例検索で用いられる、情報間の類似性を考慮した柔
軟な検索(類似検索)を行うための類似検索方法および
装置に関するものである。
置は、例えば、特開平6−282574号公報等に示す
ものがあった。ここで、類似検索とは、入力された検索
式との類似性に関する何らかの評価尺度が高い検索式
を、装置が生成して類似した情報を検索することをい
う。
には通常、各検索対象毎にその特徴を表現する1つ以上
の属性が設定されている。検索装置は、1つ以上の属性
を論理積や論理和や否定等の論理結合子で結合した検索
式が入力されると、その検索式が表現する集合が含む検
索対象についての何らかの情報を出力する。
め、属性の間の重要度と、評価尺度が属性の意味の類似
性である類似度を設定しておく。検索式が入力される
と、装置は属性の間の重要度と類似度から、類似検索式
を計算し、その類似検索式での検索を行う。
間の重要度と類似度を装置運用者が予め設定する必要が
あるので、属性の数が多くなるにつれて装置の運用が困
難になるという問題点があった。また、装置運用者によ
り客観的に属性の間の重要度と類似度の設定がなされな
いと、設定された重要度と類似度に関する感覚が一致し
ない検索者が多くなるという問題点があった。このよう
な点から、属性の数が多くなっても装置の運用が困難に
ならず、かつ、多くの検索者にとって、重要度と類似度
について感覚が一致することのできる類似検索方法の実
現が望まれていた。
するため次の構成を採用する。 〈請求項1の構成〉ある検索式が複数の属性A1 ,…,
Ar を含む時に、これら複数の属性A1 ,…,Ar のう
ち、ある属性As とその他の属性A1 ,…,As-1 A
s+1 ,…,Ar の間の共起関係が強いほど、その属性A
s の重要度が高くなるように、重要度を計算し、異なる
検索式間の類似度の計算は、類似度の評価尺度を属性の
現れかたの類似性とし、検索式が複数の属性A1 ,…,
Ar を含むなら、これら複数の属性A1 ,…,Ar のう
ち、ある属性As と、その他の属性A1 ,…,As-1 A
s+1 ,…,Ar との共起関係の強さと、ある属性As と
は異なる任意の属性Atと、その他の属性A1 ,…,A
s-1 As+1 ,…,Ar との共起関係の強さの差が小さい
ほど、属性As と属性At の間の類似度が高くなるよう
にして、求める検索式において、重要度がより低い属性
を他の属性に置換するか、または、重要度がより低い属
性を検索式から除去するかいずれかの処理を行い、検索
式と類似度が高い類似検索式を得ることを特徴とする類
似検索方法である。
運用において、統計的にある複数の属性の組合せが現れ
る頻度の高低を表現するものである。ある複数の属性の
組合せが現れる頻度が高いほど、それらの属性の共起関
係は強いとする。属性の重要度とは、検索者が指定した
検索式が含む属性が、装置が生成する類似した検索式に
含まれていることを、検索者がどれくらい望むかを表現
するものである。検索者が指定した検索式が含む属性
が、装置が生成する類似した検索式に含まれていること
を、検索者が強く望む属性ほど、その属性の重要度は高
い。
い属性を他の属性に置換するか、または、重要度がより
低い属性を検索式から除去するかいずれかの処理を行
い、検索者が入力した検索式と類似度の高い類似検索式
を得る。ここで、類似度の評価尺度は属性の現れかたの
類似性とする。即ち、検索式が複数の属性A1 ,…,A
r を含むなら、これら複数の属性A1 ,…,Ar のう
ち、ある属性As と、その他の属性A1 ,…,As-1 A
s+1 ,…,Ar との共起関係の強さと、ある属性As と
は異なる任意の属性At と、その他の属性A1 ,…,A
s-1 As+1 ,…,Ar との共起関係の強さの差が小さい
ほど、属性As と属性At の間の類似度が高いとする。
運用者が予め設定する必要がなくなり、属性の数が多く
なっても装置の運用が困難にならず、また、重要度と類
似度について多くの検索者の感覚が一致するという効果
が得られる。
報が入力され、その情報を解析して原検索式を得る原検
索式解析部と、原検索式解析部より原検索式が入力さ
れ、その原検索式から原属性式を抽出して原属性式集合
を得る原属性式抽出部と、原属性式抽出部より原属性式
集合が入力され、ある検索式が複数の属性A1 ,…,A
r を含む時に、属性A1 ,…,Ar のうち、ある属性A
s とその他の属性A1 ,…,As-1 As+1 ,…,Ar の
間の共起関係が強いほど、その属性As の重要度が高く
なるように、原属性式の重要度を計算し、原属性式集合
と原属性式毎の重要度の情報を出力すると共に、原属性
式集合と原属性式毎の重要度と計算の過程で求まる原属
性式の間の共起関係の強さの情報を出力する原属性式重
要度計算部と、原属性式重要度計算部より、原属性式集
合と原属性式毎の重要度の情報が入力され、ある固定属
性式集合の優先度は、その要素である固定属性式の重要
度が高いほど高いとして、1つ以上の固定属性式集合と
その優先度を計算し、1つ以上の固定属性式集合とその
優先度を出力する固定属性式集合計算処理部と、複数の
属性の間の共起関係の強さを記憶する共起辞書と、原属
性式重要度計算部より、原属性式集合と原属性式毎の重
要度と原属性式の間の共起関係の強さの情報が入力され
ると共に、固定属性式集合がその優先度順に入力され、
共起辞書を参照して、類似度の評価尺度は属性の現れか
たの類似性であり、検索式の間の類似度の計算は、ある
検索式が属性A1 ,…,Ar を含むなら、属性A1 ,
…,Ar のうち、ある属性Asとその他の属性A1 ,
…,As-1 As+1 ,…,Ar との共起関係の強さと、あ
る属性As とは異なる任意の属性At と、A1 ,…,A
s-1 As+1 ,…,Ar との共起関係の強さの差が小さい
ほど、属性As と属性At の間の類似度が高くなるよう
に計算するとして、原属性式集合において、重要度が低
い原属性式を他の属性式に置換するか、または、重要度
が低い原属性式を原属性式集合から除去するかいずれか
の処理を行って、類似検索式を生成し、0個以上の類似
検索式とその類似度を出力する類似検索式生成部と、原
検索式または類似検索式が入力され、データベースの検
索を行ってその検索結果を出力する検索実行部と、固定
属性式集合計算処理部より、1つ以上の固定属性式集合
とその優先度が入力され、類似検索式生成部に、固定属
性集合をその優先度の順に1つずつ渡して0個以上の類
似検索式とその類似度を受け取る呼び出しと、検索実行
部に類似検索式をその類似度の順に1つずつ渡して検索
結果を受けとる呼び出しの繰り返しの制御を行い、類似
検索結果を出力する検索制御部とを備えたことを特徴と
するものである。
原検索式を意味する情報が入力され、その情報を解析し
て原検索式を得、原検索式を原属性式抽出部へ出力す
る。原属性式抽出部では、入力された原検索式から原属
性式を抽出して原属性式集合を得、原属性式集合を原属
性式重要度計算部へ出力する。原属性式重要度計算部で
は、入力された原属性式集合から、ある検索式が属性A
1 ,…,Ar を含む時に、属性A1 ,…,Ar のうち、
ある属性As とその他の属性A1 ,…,AS-1 ,A
S+1 ,…,Ar の間の共起関係が強いほど、その属性A
s の重要度が高くなるように、原属性式の重要度を計算
し、原属性式集合と原属性式毎の重要度を固定属性式集
合計算処理部へ、原属性式集合と原属性式毎の重要度と
計算の過程で求まる原属性式の間の共起関係の強さを類
似検索式生成部へ出力する。
た原属性式集合と原属性式毎の重要度から、ある固定属
性式集合の優先度は、その要素である固定属性式の重要
度が高いほど高いとして、1つ以上の固定属性式集合と
その優先度を計算し、1つ以上の固定属性式集合とその
優先度を検索制御部へ出力する。検索制御部では、入力
された1つ以上の固定属性式集合とその優先度から、固
定属性式集合をその優先度の順に1つずつ用いる繰り返
し処理(ループ1)を開始する。先ず、検索制御部にお
いて、まだ用いられていない固定属性式集合のうちで優
先度が最も高いものを1つ類似検索式生成部へ出力す
る。
処理部から入力された原属性式集合と原属性式毎の重要
度と原属性式の間の共起関係の強さと、検索制御部から
入力された固定属性式集合から、共起辞書を参照して、
類似度の評価尺度は属性の現れかたの類似性でもあり、
検索式の間の類似度の計算は、ある検索式が属性A1,
…,Ar を含むなら、属性A1 ,…,Ar のうち、ある
属性As と、その他の属性A1 ,…,AS-1 ,AS+1 ,
…,Ar との共起関係の強さと、任意のある属性At
と、A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係
の強さの差が小さいほど、属性As と属性At の間の類
似度が高くなるように計算する。即ち、原属性式集合に
おいて、重要度が低い原属性式を他の属性式に置換する
か、あるいは、重要度が低い原属性式を原属性式集合か
ら除去して、類似検索式を生成し、0個以上の類似検索
式とその類似度を検索制御部へ出力する。
似検索式とその類似度から、類似検索式をその類似度の
順に1つずつ用いる繰り返し処理(ループ2)を開始す
る。先ず、検索制御部において、まだ用いられていない
類似検索式のうちで類似度が最も高いものを1つ検索実
行部へ出力する。検索実行部107では、入力された類
似検索式での検索を実行し、その検索結果を検索制御部
へ出力する。検索制御部105においては、ループ2の
中止条件を満たすかを判定する。この判定が、“満たさ
ない”であるならループ2の処理を繰り返す。一方、判
定結果が“中止条件を満たす”であるなら、検索制御部
において、ループ1の中止条件を満たすか判定する。こ
の判定が、“満たさない”であるならループ1の処理を
繰り返し、“中止条件を満たす”であるなら、検索制御
部において、検索結果を出力する。
共起辞書を参照して属性式の重要度を計算し、類似検索
式生成部において類似度の評価尺度は属性の現れかたの
類似性として、共起辞書を参照して検索式と類似検索式
の間の類似度を計算するので、属性の現れかたの類似性
が類似度の評価尺度である類似検索式を生成できるとい
う効果と、属性の間の重要度と類似度を装置運用者が予
め設定する必要がなくなり、属性の数が多くなっても装
置の運用が困難にならないという効果と、重要度と類似
度について感覚が一致する検索者が多くなるという効果
が得られる。
式の重要度の計算方法、固定属性式集合とその優先度の
計算方法、類似検索式の生成方法、およびループ1やル
ープ2の中止条件は、種々選択が可能である。
性A1 ,…,Ar を含む時に、これら複数の属性A1 ,
…,Ar のうち、ある属性As とその他の属性A1 ,
…,As-1 As+1 ,…,Ar の間の共起関係が強いほ
ど、その属性As の重要度が高くなるように、重要度を
計算し、異なる検索式間の類似度の計算は、類似度の評
価尺度を属性の意味の類似性とし、検索式の間の類似度
の計算は、属性の間の意味的距離が小さいほど、高くな
るように計算して、求める検索式において、重要度がよ
り低い属性を他の属性に置換するか、または、重要度が
より低い属性を検索式から除去するかいずれかの処理を
行い、前記検索式と類似度が高い類似検索式を得ること
を特徴とする類似検索方法である。
類似度の評価尺度が属性の現れかたの類似性であったの
に対し、請求項3の発明は、その代わりに、類似度の評
価尺度を属性の意味の類似性とし、検索式の間の類似度
の計算は、属性の意味的距離が小さいほど高くなるよう
に計算する。
価尺度である類似検索式を生成でき、また、属性の間の
重要度と類似度を装置運用者が予め設定する必要がな
く、従って、請求項1の発明と同様に、属性の数が多く
なっても装置の運用が困難にならず、かつ、重要度と類
似度について多くの検索者の感覚が一致するといった効
果を得ることができる。
置において、属性の間の意味的距離を記憶する意味的距
離記憶部と、原属性式集合のみを類似検索式生成部へ出
力する原属性式重要度計算部と、原属性式集合と固定属
性式集合が入力され、意味的距離記憶部を参照して、類
似度の評価尺度は属性の意味の類似性であり、検索式の
類似度の計算は、属性の間の意味的距離が小さいほど、
高くなるように計算する類似検索式生成部とを備えたこ
とを特徴とする類似検索装置である。
置では、原属性式重要度計算部は、原属性式集合と原属
性式毎の重要度と計算の過程で求まる原属性式の間の共
起関係の強さを類似検索式生成部へ出力するが、その代
わりに、請求項4の原属性式重要度計算部は、原属性式
集合のみを類似検索式生成部へ出力するとし、また、請
求項2の類似検索式生成部は、原属性式集合と原属性式
毎の重要度と原属性式の間の共起関係の強さと固定属性
式集合が入力され、共起辞書を参照して、類似度の評価
尺度は属性の現れかたの類似性であり、検索式の間の類
似度の計算は、ある検索式が属性A1 ,…,Ar を含む
なら、属性A1 ,…,Ar のうち、ある属性As と、そ
の他の属性A1 ,…,As-1 As+1 ,…,Ar との共起
関係の強さと、任意のある属性At と、A1 ,…,A
s-1 As+1 ,…,Ar との共起関係の強さの差が小さい
ほど、属性As と属性At の間の類似度が高くなるよう
に計算するが、その代わりに、請求項4の類似検索式生
成部は、原属性式集合と固定属性式集合が入力され、意
味的距離記憶部を参照して、類似度の評価尺度は属性の
意味の類似性であり、検索式の類似度の間の計算は、属
性の間の意味的距離が小さいほど、高くなるように計算
する。
して、意味的距離記憶部を追加し、類似検索式生成部
は、意味的距離記憶部を参照して、類似度の評価尺度は
属性の現れかたの類似性であり、検索式の間の類似度の
計算は、属性の間の意味的距離が小さいほど、高くなる
ように計算するとして、検索式と類似検索式の間の類似
度を計算するので、属性の意味の類似性が類似度の評価
尺度である類似検索式を生成でき、また、属性の間の重
要度と類似度を装置運用者が予め設定する必要がなく、
従って、請求項2の発明と同様に、属性の数が多くなっ
ても装置の運用が困難にならず、かつ、重要度と類似度
について多くの検索者の感覚が一致するといった効果を
得ることができる。
性A1 ,…,Ar を含む時に、これら複数の属性A1 ,
…,Ar のうち、ある属性As とその他の属性A1 ,
…,As-1 As+1 ,…,Ar の間の共起関係が強いほ
ど、その属性As の重要度が高くなるように、重要度を
計算し、異なる検索式間の類似度の計算は、類似度の評
価尺度を属性の現れかたの類似性と属性の意味の類似性
とし、検索式が前記複数の属性A1 ,…,Arを含むな
ら、これら複数の属性A1 ,…,Ar のうち、ある属性
As と、その他の属性A1 ,…,As-1 As+1 ,…,A
r との共起関係の強さと、前記ある属性As とは異なる
任意の属性At と、前記その他の属性A1 ,…,As-1
As+1 ,…,Ar との共起関係の強さの差が小さいほ
ど、属性As と属性At の間の類似度が高くなるように
し、かつ、属性の間の意味的距離が小さいほど、属性間
の類似度が高くなるように計算して、求める検索式にお
いて、重要度がより低い属性を他の属性に置換するか、
または、重要度がより低い属性を検索式から除去するか
いずれかの処理を行い、検索式と類似度が高い類似検索
式を得ることを特徴とする類似検索方法である。
法においては、類似度の評価尺度は属性の現れかたの類
似性であり、検索式の間の類似度の計算は、ある検索式
が属性A1 ,…,Ar を含むなら、属性A1 ,…,Ar
のうち、ある属性As と、その他の属性A1 ,…,A
s-1 As+1 ,…,Ar との共起関係の強さと、任意のあ
る属性At と、A1,…,As-1 As+1 ,…,Ar との
共起関係の強さの差が小さいほど、属性Asと属性At
の間の類似度が高くなるように計算したが、更に、請求
項3の類似検索方法における類似度の評価尺度である属
性の意味の類似性を追加し、属性の間の意味的距離が小
さいほど、高くなるように計算する。
加えて、属性の現れかたの類似性、及び、属性の意味の
類似性が類似度の評価尺度である類似検索式を生成でき
るという効果が得られる。
置において、属性の間の意味的距離を記憶する意味的距
離記憶部と、共起辞書を参照して、検索式の間の類似度
の計算は、ある検索式が属性A1 ,…,Ar を含むな
ら、属性のうち、ある属性As と、その他の属性A1 ,
…,As-1 As+1 ,…,Ar との共起関係の強さと、任
意のある属性At と、A1 ,…,As-1 As+1 ,…,A
r との共起関係の強さの差が小さいほど、属性As と属
性At の間の類似度が高くなるようにし、かつ、意味的
距離記憶部を参照して、検索式の類似度の計算は、属性
の間の意味的距離が小さいほど、類似度が高くなるよう
に計算する類似検索式生成部とを備えたことを特徴とす
る類似検索装置である。
検索式の間の類似度の計算は、共起辞書を参照して、類
似度の評価尺度の1つが属性の現れかたの類似性である
ので、検索式の間の類似度の計算は、ある検索式が属性
A1 ,…,Ar を含むなら、属性のうち、ある属性As
と、その他の属性A1 ,…,As-1 As+1 ,…,Ar と
の共起関係の強さと、任意のある属性At と、A1 ,
…,As-1 As+1 ,…,Ar との共起関係の強さの差が
小さいほど、属性As と属性At の間の類似度が高くな
るようにし、かつ、意味的距離記憶部を参照して、類似
度の評価尺度の2つ目が属性の意味の類似性であるの
で、属性の間の意味的距離が小さいほど、高くなるよう
に計算する。
の間の類似度の計算は、共起辞書を参照して、類似度の
評価尺度の1つが属性の現れかたの類似性であるとして
行い、かつ、意味的距離記憶部を参照して、類似度の評
価尺度の2つ目が属性の意味の類似性であるとして行う
ので、請求項2の効果に加えて、属性の現れかたの類似
性、及び、属性の意味の類似性が類似度の評価尺度であ
る類似検索式を生成できるという効果が得られる。
例を用いて説明する。 《具体例1》一般に、言語の運用において、ある言葉が
他のある言葉と同時に現れることを、「共起」と呼ぶ。
「共起」は計算機により自動的に観測可能な事象である
ので、「共起」に関するデータに基づいて処理すると、
客観性が高まる。本発明はこの点に着目したものであ
る。
用において、統計的にある複数の属性の組合せが現れる
頻度の高低を表現するものである。ある複数の属性の組
合せが現れる頻度が高いほど、それらの属性の共起関係
は強い。「属性の重要度」とは、検索者が指定した検索
式が含む属性が、装置が生成する類似した検索式に含ま
れていることを、検索者がどれくらい望むかを表現する
ものである。検索者が指定した検索式が含む属性が、装
置が生成する類似した検索式に含まれていることを、検
索者が強く望む属性ほど、その属性の重要度は高い。
…,Ar を含むとする。属性A1 ,…,Ar のうち、あ
る属性AS とその他の属性A1 ,…,AS-1 ,AS+1 ,
…,Ar が同時に現れる頻度が高いほど、検索者は、そ
の属性AS が装置が生成する類似した検索式に含まれて
いることをより望み、その属性AS の重要度は高いと仮
定する。つまり、ある検索式が属性A1 ,…,Ar を含
む時に、A1 ,…,Ar のうち、ある属性AS とその他
の属性A1 ,…,AS-1 ,AS+1 ,…,Ar の間の共起
関係が強いほど、その属性AS の重要度は高いと仮定す
る。
価尺度による類似性の高低を表現するものである。その
評価尺度には、本具体例1で対象とする言語の運用にお
ける属性の現れかたの類似性や、後述する具体例2で対
象とする属性の意味の類似性等がある。ここで、属性の
現れかたの類似性に関して述べる。ある検索式が属性A
1 ,…,Ar を含むとする。属性A1 ,…,Ar のう
ち、ある属性AS が、その他の属性A1 ,…,AS-1 ,
AS+1 ,…,Ar と同時に現れる頻度と、任意のある属
性At が、A1 ,…,AS-1 ,AS+1 ,…,Ar と同時
に現れる頻度の差が小さいほど、属性AS とAt は、類
似度が高い。つまり、属性A1 ,…,Arのうち、ある
属性AS と、その他の属性A1 ,…,AS-1 ,AS+1 ,
…,Ar との共起関係の強さと、任意のある属性At
と、A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係
の強さの差が小さいほど、属性AS と属性At は、類似
度が高い。
用いて類似検索式を生成するには、次のようにすればよ
い。先ず、ある検索式が属性A1 ,…,Ar を含む時
に、属性A1 ,…,Ar のうち、ある属性AS とその他
の属性A1 ,…,AS-1 ,AS+ 1 ,…,Ar の間の共起
関係が強いほど、その属性AS の重要度が高くなるよう
に、重要度を計算する。次に、検索式において、重要度
がより低い属性を他の属性に置換するか、あるいは、重
要度がより低い属性を検索式から除去して、検索式と類
似度が高い類似検索を得る。ここで、類似度の評価尺度
は属性の現れかたの類似性であり、検索式の間の類似度
の計算は、ある検索式が属性A1 ,…,Ar を含むな
ら、属性A1 ,…,Ar のうち、ある属性AS と、その
他の属性A1,…,AS-1 ,AS+1 ,…,Ar との共起
関係の強さと、任意のある属性At と、A1 ,…,A
S-1 ,AS+1 ,…,Ar との共起関係の強さの差が小さ
いほど、属性AS と属性At の間の類似度が高くなるよ
うに計算する。
式」とは、属性か属性の否定かそれらを論理和で結合し
た論理式である。「属性式集合」とは、属性式が要素で
ある集合である。また、「原検索式」とは、装置に入力
される情報が意味する装置が処理可能な検索式である。
「原属性式」とは、原検索式を構成する属性式である。
「原属性式集合」とは、原属性式が要素である集合であ
る。「類似検索式」とは、原検索式と類似する装置が生
成する検索式である。「類似属性式集合」とは、類似検
索式を構成する属性式が要素である集合である。「固定
属性式」とは、装置が類似検索式を生成する時に、原属
性式のうち、原検索式において、他の属性式に置換され
ない原属性式、あるいは、除去されない原属性式であ
る。「固定属性式集合」とは、固定属性式が要素である
集合である。「固定属性式集合の優先度」とは、類似検
索式を生成する時に用いる固定属性式集合の優先順位で
ある。
具体例1の構成図である。図の装置は、原検索式解析部
101、原属性式抽出部102、原属性式重要度計算部
103、固定属性式集合計算処理部104、検索制御部
105、類似検索式生成部106、検索実行部107、
共起辞書108からなる。
する情報が入力され、その情報を解折して原検索式を
得、原検索式を原属性式抽出部102へ出力する機能を
有している。原属性式抽出部102は、原検索式解析部
101より原検索式が入力され、原検索式から原属性式
を抽出して原属性式集合を得、原属性式集合を、原属性
式重要度計算部103へ出力する機能を有している。
抽出部102より原属性式集合が入力され、ある検索式
が属性A1 ,…,Ar を含む時に、属性A1 ,…,Ar
のうち、ある属性As とその他の属性A1 ,…,A
S-1 ,AS+1 ,…,Ar の間の共起関係が強いほど、そ
の属性AS の重要度が高くなるように、原属性式の重要
度を計算し、原属性式集合と原属性式毎の重要度を、固
定属性式集合計算処理部104へ、また、原属性式集合
と原属性式毎の重要度と計算の過程で求まる原属性式の
間の共起関係の強さを類似検索式生成部106へ出力す
る機能を有している。
性式集合と原属性式毎の重要度が入力され、ある固定属
性式集合の優先度は、その要素である固定属性式の重要
度が高いほど高いとして、1つ以上の固定属性式集合と
その優先度を計算し、1つ以上の固定属性式集合とその
優先度を検索制御部105へ出力する機能を有してい
る。
式集合とその優先度が入力され、類似検索式生成部10
6に固定属性式集合をその優先度の順に1つずつ渡して
0個以上の類似検索式とその類似度を受け取る呼び出し
と、検索実行部107に類似検索式をその類似度の順に
1つずつ渡して検索結果を受け取る呼び出しの繰り返し
の制御を行い、類似検索結果を出力する機能を有してい
る。
と原属性式毎の重要度と原属性式の間の共起関係の強さ
と固定属性式集合が入力され、共起辞書108を参照し
て、類似度の評価尺度は属性の現れかたの類似性であ
り、検索式の間の類似度の計算は、ある検索式が属性A
1 ,…,Ar を含むなら、属性A1 ,…,Ar のうち、
ある属性AS とその他の属性A1 ,…,AS-1 ,A
S+1 ,…,Ar との共起関係の強さと、任意のある属性
At と、A1 ,…,AS-1 ,AS+1 ,…,Ar との共起
関係の強さの差が小さいほど、属性AS と属性At の間
の類似度が高くなるように計算するとして、原属性式集
合において、重要度が低い原属性式を他の属性式に置換
するか、あるいは、重要度が低い原属性式を原属性式集
合から除去して、類似検索式を生成し、0個以上の類似
検索式とその類似度を検索制御部105へ出力する機能
を有している。
似検索式が入力され、データベースの検索を行って、検
索結果を検索制御部105へ出力する機能を有してい
る。共起辞書108は、複数の属性の間の共起関係の強
さを記憶する辞書である。
式を意味する情報は、1つ以上の属性を論理積や論理和
や否定等の論理結合子で結合した検索式等の人工言語
や、ペン図等の図や、自然言語等である。例えば、入力
が検索式ならば、属性名がキーワードである属性に関し
ては、属性名を省略し属性値のみを指定するとすると、
「通信網AND(NOT電話)AND(大蔵省OR文部
省)AND言語:日本語」等であり、これと同じ意味の
自然言語なら「電話以外の通信網の日本語の文書のうち
で、大蔵省か文部省と関連があるもの」等である。これ
らは、原検索式として、「通信網 and( not電話)and
(大蔵省or文部省)and 言語:日本語」を意味する。
り、これは、検索実行部107が検索するデータベース
が文書データベースであるとした場合の検索対象である
文書内容とその属性である文書ID,登録日,出典,言
語,タイトル,キーワードの具体例を示すものである。
て統計的に得られる複数の属性の間の共起関係の強さを
記憶している。共起辞書108を参照して上述したよう
に重要度と類似度を計算するので、コーパスには、検索
者と装置の対話の様子を記録したコーパスを用いる。た
だし、そのコーパスの入手が困難である場合には、同じ
問題領域について書かれた文書のコーパスを用いて、共
起関係の強さを近似する。計算機により自動的にコーパ
スから属性の間の共起関係の強さを観測する方法には、
例えば、松平他、「共起データを用いた単語の意味ネッ
トワークの作成」,情報処理学会第42会全国大会予稿
集(1991)7E-7に示される方法等がある。
であり、これは、共起辞書108が2つの属性の間の共
起関係の強さを記憶するとした場合の具体例を示す図で
ある。ここで、説明の便宜上、共起関係の強さは0以上
1以下の数値で表され、数値が大きいほど共起関係が強
いとする。
置で類似検索をする場合のデータの流れを示している
が、本類似検索装置で、原検索式での検索を行う場合
は、原検索式解析部101から原検索式を検索実行部1
07へ入力し検索結果を得る。
ートである。ステップ401で、原検索式解析部101
において、原検索式を意味する情報が入力され、その情
報を解析して原検索式を得、原検索式を原属性式抽出部
102へ出力する。ステップ402で、原属性式抽出部
102において、入力された原検索式から原属性式を抽
出して原属性式集合を得、原属性式集合を原属性式重要
度計算部103へ出力する。
103において、入力された原属性式集合から、ある検
索式が属性A1 ,…,Ar を含む時に、属性A1 ,…,
Arのうち、ある属性As とその他の属性A1 ,…,A
S-1 ,AS+1 ,…,Ar の間の共起関係が強いほど、そ
の属性As の重要度が高くなるように、原属性式の重要
度を計算し、原属性式集合と原属性式毎の重要度を固定
属性式集合計算処理部104へ、原属性式集合と原属性
式毎の重要度と計算の過程で求まる原属性式の間の共起
関係の強さを類似検索式生成部106へ出力する。
部104において、入力された原属性式集合と原属性式
毎の重要度から、ある固定属性式集合の優先度は、その
要素である固定属性式の重要度が高いほど高いとして、
1つ以上の固定属性式集合とその優先度を計算し、1つ
以上の固定属性式集合とその優先度を検索制御部105
へ出力する。
いて、入力された1つ以上の固定属性式集合とその優先
度から、固定属性式集合をその優先度の順に1つずつ用
いるステップ412まで続く繰り返し処理(ループ1)
を開始する。先ず、検索制御部105において、まだ用
いられていない固定属性式集合のうちで優先度が最も高
いものを1つ類似検索式生成部106へ出力する。ここ
で、ループ1は、入力された固定属性式集合を全て用い
た場合、あるいは、ステップ411の中止条件を満たし
た場合に終了する。
6において、原属性式重要度計算部103から入力され
た原属性式集合と原属性式毎の重要度と原属性式の間の
共起関係の強さと、検索制御部105から入力された固
定属性式集合から、共起辞書108を参照して、類似度
の評価尺度は属性の現れかたの類似性であり、検索式の
間の類似度の計算は、ある検索式が属性A1 ,…,Ar
を含むなら、属性A1,…,Ar のうち、ある属性As
と、その他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar
との共起関係の強さと、任意のある属性At と、A1 ,
…,AS-1 ,AS+1 ,…,Ar との共起関係の強さの差
が小さいほど、属性As と属性At の間の類似度が高く
なるように計算する。即ち、原属性式集合において、重
要度が低い原属性式を他の属性式に置換するか、あるい
は、重要度が低い原属性式を原属性式集合から除去し
て、類似検索式を生成し、0個以上の類似検索式とその
類似度を検索制御部105へ出力する。
いて、入力された0個以上の類似検索式とその類似度か
ら、類似検索式をその類似度の順に1つずつ用いるステ
ップ412まで続く繰り返し処理(ループ2)を開始す
る。先ず、検索制御部105において、まだ用いられて
いない類似検索式のうちで類似度が最も高いものを1つ
検索実行部107へ出力する。ここで、ループ2は、入
力された類似検索式を全て用いた場合、あるいは、ステ
ップ409の中止条件を満たした場合に終了する。ま
た、入力された類似検索式の個数が0個である場合は、
ループ2の処理は行わずステップ411へ進む。
いて、入力された類似検索式での検索を実行し、その検
索結果を検索制御部105へ出力する。ステップ409
で、検索制御部105において、ステップ407からの
繰り返し処理(ループ2)の中止条件を満たすかを判定
する。この判定が、“中止条件を満たす”であるならス
テップ411へジャンプし、“満たさない”であるなら
ステップ410へ進む。
おいて、ステップ405からの繰り返し処理(ループ
1)の中止条件を満たすか判定する。この判定が、“中
止条件を満たす”であるならステップ413へジャンプ
し、“満たさない”であるならステップ412へ進む。
いて、検索結果を出力する。
る。
の方法の一例を以下に示す。原検索式を連言標準形(co
njunctive normal form )に変換し、図4中の(1)式を
得る。ここで、Ff は(2) 式に示す通りであり、かつ、
Pf1,Pf2…,Pfmは1つの属性、あるいは、1つの属
性の否定である。各Fi を1つの原属性式とする。こう
して得られる原属性式が要素である集合{F1 ,…,F
n },(n≧2)を原属性式集合とする。以上は原属性
式抽出処理の方法の一例であり、原検索式から原属性式
を抽出して原属性式集合を得る方法であれば他の方法で
あってもよい。
の方法の一例を示す。ある属性Ak1が原属性式Fg1を構
成し、ある属性Ak2が原属性式Fg2を構成するとする
と、原属性式Fg1と原属性式Fg2の間の共起関係の強さ
は、共起関係の強さが最も低い、属性Ak1と属性Ak2の
間の共起関係の強さとする。先ず、全ての原属性式の間
の共起関係の強さを、共起辞書108を参照して、それ
らの属性式を構成する属性の間の共起関係の強さから計
算する。次に、ある検索式が属性Ai ,…,Arを含む
時に、属性Ai ,…,Ar のうち、ある属性As とその
他の属性Ai ,…,As-1 As+1 ,…,Ar の間の共起
関係が強いほど、その属性As の重要度を高くするため
に、各原属性式の重要度を、他の原属性式との間の共起
関係の強さの和とする。以上は原属性式重要度計算処理
の方法の一例であり、入力された原属性式集合から、あ
る検索式が属性Ai ,…,Ar を含む時に、属性Ai ,
…,Ar のうち、ある属性As とその他の属性Ai ,
…,As-1 As+1 ,…,Ar の間の共起関係が強いほど
その属性As の重要度が高くなるように、原属性式の重
要度を計算する方法ならば、他の方法であってもよい。
の方法の一例を示す。先ず、原属性式集合からそのべき
集合(power set )を生成する。そのべき集合から原属
性式集合と空集合を除いた集合の各要素を固定属性式集
合とする。原属性式は2つ以上なので、固定属性集合は
2つ以上得られる。次に、固定属性式集合毎に、その要
素である原属性式の重要度の和を求め、その数値をその
固定属性式集合の優先度とする。以上は固定属性式集合
計算処理の方法の一例であり、原属性式集合と原属性式
毎の重要度から、ある固定属性式集合の優先度は、その
要素である固定属性式の重要度が高いほど高いとして、
1つ以上の固定属性式集合とその優先度を計算する方法
ならば、他の方法であってもよい。
法の一例を示す。先ず、原属性式集合をS1 ={F1 ,
…,Fn },{n≧2}、固定属性式集合をS2 ={F
21,…,F2h},(h≧1}とする。S1 からS2 の要
素である原属性式を除いた集合を、S3 ={F31,…,
F3i},(i≧1,n=h+i)とする。ここで、ある
属性Ak1が原属性式Fg1を構成するとすると、原属性式
Fg1と属性Ak2の間の共起関係の強さは、共起関係の強
さが最も低い属性Ak1と属性Ak2の間の共起関係の強さ
とする。次に、共起辞書108を参照して、S2 の要素
である固定属性式と共起関係の強さが0より大きい属性
であり、かつ、S1 の要素である原属性式を構成する属
性ではない、属性の集合S4 ={A41,…,A4j},
(j≧1}を求める。ここで、集合S4 の要素は、原属
性式集合S1 において、集合S3 の要素と置換される属
性の候補である。S4 が空集合である場合は、S6 はS
2 であるとし、以下のS6 を求めるまでの処理は行わな
い。
以上i以下である集合S5 ={A51,…,A5p},(1
≦p≦i)を求める。この集合S5 はj≧iの場合は、
合計q=1 iΣ jCq 個求まり、j<iの場合は、合計
q=1 jΣ jCq 個求まる。尚、q=1 iΣやq=1 jΣとい
った表記は、q=1からiまたはjまでの総和を表して
いるものとする。
2h,A51,…,A5p}、及びS2 を、S6 とする。ここ
で、S6 の集合の個数は、上述したS5 の集合の個数よ
り1だけ多い。以上が、S6 を求めるまでの処理であ
る。ここで、S6 は、原属性式集合において、固定属性
式以外の重要度が低い原属性式を他の原属性式に置換す
るか、あるいは、固定属性式以外の重要度が低い原属性
式を原属性式集合から除去した集合である。S6 を類似
属性式集合とする。
れのS6 について、S6 の要素の間の共起関係の強さを
求める。S6 の要素数は、S1 の要素数以下なので、S
1 とS6 との間で、同じ属性式同士を対応させてから、
異なる属性式同士を、S1 の要素の間の共起関係の強さ
とS6 の要素の間の共起関係の強さの差がなるべく小さ
くなるように対応させる。原属性式集合S1 と類似属性
式集合S6 の間の類似度を、共起関係の強さの差の絶対
値の総和にマイナス1をかけた数値とする。
0とする。)以上である類似属性式集合S6 に関して、
その要素を論理積で結合した論理式を類似検索式とす
る。こうして、0個以上の類似検索式とその類似度が得
られる。以上は類似検索式生成処理の方法の一例であ
り、原属性式集合と原属性式毎の重要度と原属性式の間
の共起関係の強さと固定属性式集合から、共起辞書10
8を参照して、類似度の評価尺度は属性の現れかたの類
似性であり、検索式の間の類似度の計算は、ある検索式
が属性Ai ,…,Ar を含むなら、属性Ai ,…,Ar
のうち、ある属性As と、その他の属性Ai ,…,A
s-1 As+1 ,…,Ar との共起関係の強さと、任意のあ
る属性At と、Ai ,…,As-1 As+1 ,…,Ar との
共起関係の強さの差が小さいほど、属性As と属性At
の間の類似度が高くなるように計算するとして、原属性
式集合において、重要度が低い原属性式を他の属性式に
置換するか、あるいは、重要度が低い原属性式を原属性
式集合から除去して、類似検索式を生成し、0個以上の
類似検索式とその類似度を得る方法ならば、他の方法で
あってもよい。
ステップ407からの繰り返し処理の中止条件の一例を
示す。例えば、その時までの類似検索の結果として検索
対象がある個数(ここでは、5個とする)以上得られて
いるなら中止とする。これは条件の一例であり、「その
時の類似検索式の類似度がある値以下なら中止する」
や、更に、そのしきい値を、その時までの類似検索の結
果として得られる検索対象の数に応じて変化させるとい
った、他の方法であってもよい。
テップ405からの繰り返し処理の中止条件の一例を示
す。例えば、その時までの類似検索の結果として検索対
象がある個数(ここでは5個とする。)以上得られてい
るなら中止する。これは条件の一例であり、「原属性式
集合とその時の固定属性式集合の要素数の差がある値以
上なら中止する」や、「その時の固定属性式集合の優先
度がある値以下なら中止する」や、更に、これらのしき
い値を、その時までの類似検索の結果として得られる検
索対象の数に応じて変化させるといった、他の方法であ
ってもよい。
の画面表示例を示す図であり、これは、情報検索装置と
検索者の対話の様子を示している。
ot電話)and 通産省」の検索結果として、検索対象が合
計2件あると検索者に通知している。その後、類似検索
式「通信網 and( not電話)and ABC電気工業」と
「通信網 and( not電話)and郵政省」の検索結果とし
て、検索対象が、それぞれ、2件と4件あると検索者に
通知している。第4図の流れ図に沿って、この対話にお
ける類似検索の処理の具体例を以下に簡単に示す。
する情報「通信網AND(NOT電話)AND通産省」
を解析して原属性式「通信網 and( not電話)and 通産
省」を得る。ステップ402で、原属性式を抽出して、
原属性式集合{通信網 and(not電話)and 通産省}を
得る。ステップ403で、先ず、全ての原属性式の間の
共起関係の強さを、共起辞書108を参照して計算す
る。次に、各原属性式の重要度を計算する。
示す図である。また、図7は、原属性式の重要度を示す
図である。
を求める。次に、固定属性式集合毎に、その優先度を計
算する。
を示す図である。ここでは、固定属性式集合が合計6個
求まっている。
優先度の順に1つずつ用いるステップ412まで続く繰
り返し処理を開始する。先ず、固定属性式集合のうちで
優先度が最も高いものである{通信網,( not電話)}
を類似検索式生成部106へ出力する。
S1 ={通信網,( not電話),通産省}、固定属性式
集合がS2 ={通信網,( not電話)}であるから、S
3 を{通産省}とする。次に、共起辞書108を参照し
て、S4 ={郵政省、ABC電気工業}を得る。S5 が
{郵政省},{ABC電気工業}であるので、類似属性
式集合S6 ={通信網,( not電話),郵政省},{通
信網,( not電話),ABC電気工業},{通信網,
( not電話)}を得る。次に、共起辞書108を参照し
て、それぞれのS6 について、S6 の要素の間の共起関
係の強さを求める。
の強さを示す図である。
士を対応させてから、異なる属性式同士を、S1 の要素
の間の共起関係の強さとS6 の要素の間の共起関係の強
さの差がなるべく小さくなるように対応させ、原属性式
集合S1 と類似属性式集合S6 の間の類似度を計算す
る。
計算の過程を示す図である。
似検索式として、「通信網 and( not電話) and 郵政
省」(類似度:−0.2),「通信網 and( not電話)
andABC電気工業」(類似度:0.0),「通信網 a
nd( not電話)」(類似度:−0.7)を得る。
先度が最も高いものである「通信網and( not電話) an
d ABC電気工業」を検索実行部207へ出力する。
ステップ408で検索を実行し、検索対象を2件得る。
ステップ409で、中止条件を満たすか判定する。まだ
中止条件は満たさないので、ステップ410へ進み、ス
テップ410でステップ407へ戻る。
類似検索式のうちで優先度が最も高いものである「通信
網 and( not電話) and 郵政省」を検索実行部207
へ出力する。ステップ408で、検索を実行し検索対象
を4件得る。ステップ409で、中止条件を満たすか判
定する。検索対象を合計6件得ているので、中止条件を
満たす。従って、ステップ411へジャンプする。ここ
では、ステップ411での中止条件は、ステップ409
での中止条件と同じなので、中止条件は満たされ、ステ
ップ413へジャンプする。ステップ413で、検索制
御部205において、検索結果を出力する。
ば、原属性式重要度計算部103において共起辞書10
8を参照して属性式の重要度を計算し、類似検索式生成
部106において類似度の評価尺度は属性の現れかたの
類似性として、共起辞書108を参照して検索式と類似
検索式の間の類似度を計算するので、属性の現れかたの
類似性が類似度の評価尺度である類似検索式を生成でき
るという効果と、属性の間の重要度と類似度を装置運用
者が予め設定する必要がなくなり、属性の数が多くなっ
ても装置の運用が困難にならないという効果と、重要度
と類似度について感覚が一致する検索者が多くなるとい
う効果が得られる。
として、具体例1では、属性の現れかたの類似性を用い
たが、具体例2では、属性の意味の類似性を用いる。属
性の意味の類似性は、属性の間の意味的距離の大小によ
り表現され、意味的距離が小さいほど類似度は高い。
は属性の現れかたの類似性であり、検索式の間の類似度
の計算は、ある検索式が属性Ai ,…,Ar を含むな
ら、属性Ai ,…,Ar のうち、ある属性As と、その
他の属性Ai ,…,As-1 As+ 1 ,…,Ar との共起関
係の強さと、任意のある属性At と、Ai ,…,As-1
As+1 ,…,Ar との共起関係の強さの差が小さいほ
ど、属性As と属性At の間の類似度が高くなるように
計算したが、具体例2では、類似度の評価尺度は属性の
意味の類似性であり、検索式の間の類似度の計算は、属
性の間の意味的距離が小さいほど、高くなるように行
う。
図である。
は、それぞれ、具体例1における原検索式解析部101
から共起辞書108と後述する点を除いて同じである。
は、属性の間の意味的距離を記憶する機能を有してい
る。また、具体例1の原属性式重要度計算部103は、
原属性式集合と原属性式毎の重要度と計算の過程で求ま
る原属性式の間の共起関係の強さを類似検索式生成部1
06へ出力するが、本具体例2の原属性式重要度計算部
203は、原属性式集合のみを類似検索式生成部206
へ出力する点が異なる。そして、具体例1の類似検索式
生成部106は、原属性式集合と原属性式毎の重要度と
原属性式の間の共起関係の強さと固定属性式集合が入力
され、共起辞書108を参照して、類似度の評価尺度は
属性の現れかたの類似性であり、検索式の間の類似度の
計算は、ある検索式が属性Ai ,…,Ar を含むなら、
属性Ai ,…,Ar のうち、ある属性As と、その他の
属性Ai ,…,As-1 As+1 ,…,Ar との共起関係の
強さと、任意のある属性At と、Ai ,…,As-1 A
s+1 ,…,Ar との共起関係の強さの差が小さいほど、
属性As と属性At の間の類似度が高くなるように計算
する。一方、本具体例2の類似検索式生成部206は、
原属性式集合と固定属性式集合が入力され、意味的距離
記憶部209を参照して、類似度の評価尺度は属性の意
味の類似性であり、検索式の間の類似度の計算は、属性
の間の意味的距離が小さいほど、高くなるように計算す
る。
の対とその意味的距離の対応を記憶する辞書や、意味的
距離が近い属性の集合を記憶する類義語辞書や、意味的
距離が近い属性の集合と更にその集合相互の間の意味的
距離を記憶するシソーラスなどを用いている。
属性の対とその意味的距離の対応を記憶する辞書である
とした場合の具体例を示す図である。ここで、意味的距
離は0以上の数値で表され、数値が小さいほど意味的距
離が近いとする。
における図面上の各処理は具体例1と同様であるため、
図4に示した具体例1のフローチャートを援用して説明
する。具体例2の動作は次の点を除いて具体例1と同じ
である。即ち、具体例1では、ステップ403で、原属
性式重要度計算部103において、原属性式集合と原属
性式毎の重要度と計算の過程で求まる原属性式の間の共
起関係の強さを類似検索式生成部106へ出力する。一
方、具体例2では、ステップ403で、原属性式重要度
計算部203において、原属性式集合のみを類似検索式
生成部206へ出力する。
類似検索式生成部106において、原属性式集合と原属
性式毎の重要度と原属性式の間の共起関係の強さと固定
属性式集合が入力され、共起辞書108を参照して、類
似度の評価尺度は属性の現れかたの類似性であり、検索
式の間の類似度の計算は、ある検索式が属性Ai ,…,
Ar を含むなら、属性Ai ,…,Ar のうち、ある属性
As とその他の属性Ai ,…,As-1 As+1 ,…,Ar
との共起関係の強さと、任意のある属性At とAi ,
…,As-1 As+1 ,…,Ar との共起関係の強さの差が
小さいほど、属性As と属性At の間の類似度が高くな
るように計算する。一方、具体例2では、ステップ40
6で、類似検索式生成部206において、原属性式集合
と固定属性式集合が入力され、意味的距離記憶部209
を参照して、類似度の評価尺度は属性の意味の類似性で
あり、検索式の間の類似度の計算は、属性の間の意味的
距離が小さいほど、高くなるように計算する。
法の一例を示す。先ず、原属性式集合をS1 ={F1 ,
…,Fn },(n≧2)、固定属性式集合を、S2 =
{F21,…,F2h},(h≧1)とする。S1 からS2
の要素である原属性式を除いた集合を、S3 ={F31,
…,F3i},(i≧1,n=h+i)とする。ここで、
ある属性Ak1が原属性式Fg1を構成するとすると、原属
性式Fg1と属性Ak2の間の意味的距離は、意味的距離が
最も遠い属性Ak1と属性Ak2の間の意味的距離とする。
て、S3 の要素である原属性式毎に、その原属性式との
意味的距離がある値(ここでは0.8であるとする)以
内である属性の集合S3j={A3jo ,…,A3jp },
(0≦p,1≦j≦i)を求める。尚、S3jが空集合で
ある場合もあり得る。各S3jから属性を1つずつ取り出
して求まる集合を集合S4 とする。次に、S2 とS4 の
和集合をS5 とし、このS5 を類似属性式集合とする。
ここで、原属性式集合S1 と類似属性式集合S5 の間の
類似度を、S4 の属性の意味的距離の総和にマイナス1
をかけた数値とする。次に、類似度がある値(ここで
は、−1.0とする。)以上である類似属性式集合S5
に関して、その要素を論理積で結合した論理式を類似検
索式とする。こうして、0個以上の類似検索式とその類
似度が得られる。
あり、原属性式集合と固定属性式集合から、意味的距離
記憶部209を参照して、類似度の評価尺度は属性の現
れかたの類似性であり、検索式の間の類似度の計算は、
検索式の間の類似度の計算は、属性の間の意味的距離が
小さいほど、高くなるように計算するとして、原属性式
集合において、重要度が低い原属性式を他の属性式に置
換するか、あるいは、重要度が低い原属性式を原属性式
集合から除去して、類似検索式を生成し、0個以上の類
似検索式とその類似度を得る方法ならば、他の方法であ
ってもよい。
時の画面表示例を示す図であり、これは、情報検索装置
と検索者の対話の様子を示している。
話) and 通産省」において、属性「通産省」を、属性
「通産省」と意味的距離が近い属性である「大蔵省」、
「文部省」、「郵政省」に置換して得られる類似検索式
での検索結果を出力している。
ば、具体例1に意味的距離記憶部209を追加し、類似
検索式生成部206は、意味的距離記憶部209を参照
して、類似度の評価尺度は属性の意味の類似性であり、
検索式の間の類似度の計算は、属性の間の意味的距離が
小さいほど、高くなるように計算するとして、検索式と
類似検索式の間の類似度を計算するので、属性の意味の
類似性が類似度の評価尺度である類似検索式を生成でき
るという効果と、属性の間の重要度と類似度を装置運用
者が予め設定する必要がなくなり、属性の数が多くなっ
ても装置の運用が困難にならないという効果と、重要度
と類似度について感覚が一致する検索者が多くなるとい
う効果が得られる。
として、具体例1では、属性の現れかたの類似度のみを
用い、具体例2では、属性の意味の類似度のみを用いた
が、具体例3では、属性の現れかたの類似度、及び、属
性の意味の類似度の両方を用いる。
類似度の計算は、類似度の評価尺度の1つが属性の現れ
かたの類似度であるので、ある検索式が属性Ai ,…,
Arを含むなら、属性Ai ,…,Ar のうち、ある属性
As と、その他の属性Ai ,…,As-1 As+1 ,…,A
r との共起関係の強さと、任意のある属性At と、A
i ,…,As-1 As+1 ,…,Ar との共起関係の強さの
差が小さいほど、属性As と属性At の間の類似度が高
くなるようにし、かつ、類似度の評価尺度の2つ目が属
性の意味の類似性であるので、属性の間の意味的距離が
小さいほど、高くなるように行う。
である。
起辞書308は、それぞれ具体例1の原検索式解析部1
01から共起辞書108と後述する点を除いて同じであ
る。また意味的距離記憶部309は、具体例2の意味的
距離記憶部209と同じである。具体例1の類似検索式
生成部106は、共起辞書108を参照して、類似度の
評価尺度は属性の現れかたの類似性であり、検索式の間
の類似度の計算は、ある検索式が属性A1 ,…,Ar を
含むなら、属性Ai ,…,Ar のうち、ある属性As
と、その他の属性A1 ,…,As-1 As+1 ,…,Ar と
の共起関係の強さと、任意のある属性At と、A1 ,
…,As-1 As+1 ,…,Ar との共起関係の強さの差が
小さいほど、属性As と属性At の間の類似度が高くな
るように計算する。
6は、検索式の間の類似度の計算は、共起辞書308を
参照して、類似度の評価尺度の1つが属性の現れかたの
類似性であるので、検索式の間の類似度の計算は、ある
検索式が属性A1 ,…,Arを含むなら、属性Ai ,
…,Ar のうち、ある属性As と、その他の属性A1 ,
…,As-1 As+1 ,…,Ar との共起関係の強さと、任
意のある属性At と、A1 ,…,As-1 As+1 ,…,A
r との共起関係の強さの差が小さいほど、属性As と属
性At の間の類似度が高くなるようにし、かつ、意味的
距離記憶部309を参照して、類似度の評価尺度の2つ
目が属性の意味の類似性であるので、属性の間の意味的
距離が小さいほど、高くなるように行う。
フローチャートにおける図面上の各処理は具体例1と同
様であるため、図4に示した具体例1のフローチャート
を援用して説明する。本具体例3の動作は次の点を除い
て具体例1と同じである。即ち、具体例1では、ステッ
プ406で、類似検索式生成部106において、共起辞
書108を参照して、類似度の評価尺度は属性の現れか
たの類似性であり、検索式の間の類似度の計算は、ある
検索式が属性Ai ,…,Ar を含むなら、属性Ai ,
…,Ar のうち、ある属性As と、その他の属性Ai ,
…,As-1 As+1 ,…,Ar との共起関係の強さと、任
意のある属性At と、Ai ,…,As-1 As+1 ,…,A
r との共起関係の強さの差が小さいほど、属性As と属
性At の間の類似度が高くなるように計算する。一方、
具体例3では、ステップ406で、類似検索式生成部3
06において、検索式の間の類似度の計算は、共起辞書
308を参照して、類似度の評価尺度の1つが属性の現
れかたの類似性であるので、検索式の間の類似度の計算
は、ある検索式が属性A1 ,…,Ar を含むなら、属性
Ai ,…,Ar のうち、ある属性As とその他の属性A
1 ,…,As-1 As+1 ,…,Ar との共起関係の強さ
と、任意のある属性At とA1 ,…,As-1 As+1 ,
…,Ar との共起関係の強さの差が小さいほど、属性A
s と属性At の間の類似度が高くなるようにし、かつ、
意味的距離記憶部309を参照して、類似度の評価尺度
の2つ目が属性の意味の類似性であるので、属性の間の
意味的距離が小さいほど、高くなるように行う。
法の一例を示す。先ず、具体例1の動作で示した方法に
より、共起辞書308を参照して、類似検索式とその類
似度を得る。この類似度を類似度1とする。次に、具体
例2の動作で示した方法により、意味的距離記憶部30
9を参照して、類似検索式とその類似度を得る。この類
似度を類似度2とする。同一の類似検索式に関して、そ
の類似度を類似度1と類似度2の和とする。以上は類似
検索式生成処理の方法の一例であり、検索式の間の類似
度の計算を、共起辞書308を参照して、類似度の評価
尺度の1つが属性の現れかたの類似性であるので、検索
式の間の類似度の計算は、ある検索式が属性A1 ,…,
Ar を含むなら、属性A1 ,…,Ar のうち、ある属性
As と、その他の属性A1 ,…,As-1 As+1 ,…,A
r との共起関係の強さと、任意のある属性At と、A
1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの
差が小さいほど、属性As と属性At の間の類似度が高
くなるようにし、かつ、意味的距離記憶部309を参照
して、類似度の評価尺度の2つ目が属性の意味の類似性
であるので、属性の間の意味的距離が小さいほど、高く
なるように行う方法ならば、他の方法であってもよい。
時の画面表示例であり、これは情報検索装置と検索者の
対話の様子を示している。
話) and 通産省」において、属性「通産省」を、「郵
政省」、「ABC電気工業」に置換して得られる類似検
索式での検索結果を出力している。具体例1での例であ
る図5では、属性の現れかたの類似性のみを類似度の評
価尺度としているので、「通産省」とは意味的距離が
「郵政省」よりも遠い「ABC電気工業」を「通省」と
置換した類似検索式が、類似度が最も高い類似検索式と
して得られる。具体例3では、属性の意味の類似性も類
似度の評価尺度としているので、「通産省」と意味的距
離が最も近い「郵政省」を「通産省」と置換した類似検
索式が、類似度が最も高い類似検索式として得られる。
ば、具体例1に意味的距離記憶部309を追加し、類似
検索式生成部306は、検索式の間の類似度の計算は、
共起辞書308を参照して、類似度の評価尺度の1つが
属性の現れかたの類似性であるとして行い、かつ、意味
的距離記憶部309を参照して、類似度の評価尺度の2
つ目が属性の意味の類似性であるとして行うので、具体
例1の効果に加えて、属性の現れかたの類似性、及び、
属性の意味の類似性が類似度の評価尺度である類似検索
式を生成できるという効果が得られる。
用した例を説明したが、本装置は、ある連続した情報の
中で、情報が欠落している場合に、現れかたの類似性を
類似度の評価尺度とすることにより、その付近の情報か
ら、欠落している情報が何かを推定し補完することがで
きる。従って、OCR(光学式文字読取装置)やペン入
力で認識に失敗した文字をその付近の文字から推定し補
完することや、音声認識で認識に失敗した音声をその付
近の音声から推定し補完することにも利用可能である。
構成図である。
を示す図である。
る。
る
具体例を示す図である。
図である。
図である。
図である。
の構成図である。
例を示す図である。
3の構成図である。
例を示す図である。
Claims (6)
- 【請求項1】 ある検索式が複数の属性A1 ,…,Ar
を含む時に、これら複数の属性A1 ,…,Ar のうち、
ある属性As とその他の属性A1 ,…,As- 1 As+1 ,
…,Ar の間の共起関係が強いほど、その属性As の重
要度が高くなるように、重要度を計算し、 異なる検索式間の類似度の計算は、類似度の評価尺度を
属性の現れかたの類似性とし、前記検索式が前記複数の
属性A1 ,…,Ar を含むなら、これら複数の属性A
1 ,…,Ar のうち、ある属性As と、その他の属性A
1 ,…,As-1 As+1 ,…,Ar との共起関係の強さ
と、前記ある属性As とは異なる任意の属性At と、前
記その他の属性A1 ,…,As-1 As+1 ,…,Ar との
共起関係の強さの差が小さいほど、属性As と属性At
の間の類似度が高くなるようにして、求める検索式にお
いて、重要度がより低い属性を他の属性に置換するか、
または、重要度がより低い属性を検索式から除去するか
いずれかの処理を行い、前記検索式と類似度が高い類似
検索式を得ることを特徴とする類似検索方法。 - 【請求項2】 原検索式を意味する情報が入力され、そ
の情報を解析して原検索式を得る原検索式解析部と、 前記原検索式解析部より原検索式が入力され、当該原検
索式から原属性式を抽出して原属性式集合を得る原属性
式抽出部と、 前記原属性式抽出部より原属性式集合が入力され、ある
検索式が複数の属性A1 ,…,Ar を含む時に、属性A
1 ,…,Ar のうち、ある属性As とその他の属性A
1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強い
ほど、その属性As の重要度が高くなるように、原属性
式の重要度を計算し、前記原属性式集合と原属性式毎の
重要度の情報を出力すると共に、原属性式集合と原属性
式毎の重要度と計算の過程で求まる原属性式の間の共起
関係の強さの情報を出力する原属性式重要度計算部と、 前記原属性式重要度計算部より、前記原属性式集合と原
属性式毎の重要度の情報が入力され、ある固定属性式集
合の優先度は、その要素である固定属性式の重要度が高
いほど高いとして、1つ以上の固定属性式集合とその優
先度を計算し、1つ以上の固定属性式集合とその優先度
を出力する固定属性式集合計算処理部と、 複数の属性の間の共起関係の強さを記憶する共起辞書
と、 前記原属性式重要度計算部より、原属性式集合と原属性
式毎の重要度と原属性式の間の共起関係の強さの情報が
入力されると共に、前記固定属性式集合がその優先度順
に入力され、前記共起辞書を参照して、類似度の評価尺
度は属性の現れかたの類似性であり、検索式の間の類似
度の計算は、ある検索式が属性A1 ,…,Ar を含むな
ら、属性A1 ,…,Ar のうち、ある属性As とその他
の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係
の強さと、前記ある属性As とは異なる任意の属性At
と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の
強さの差が小さいほど、属性As と属性At の間の類似
度が高くなるように計算するとして、原属性式集合にお
いて、重要度が低い原属性式を他の属性式に置換する
か、または、重要度が低い原属性式を原属性式集合から
除去するかいずれかの処理を行って、類似検索式を生成
し、0個以上の類似検索式とその類似度を出力する類似
検索式生成部と、 原検索式または類似検索式が入力され、データベースの
検索を行ってその検索結果を出力する検索実行部と、 前記固定属性式集合計算処理部より、1つ以上の固定属
性式集合とその優先度が入力され、前記類似検索式生成
部に、固定属性集合をその優先度の順に1つずつ渡して
0個以上の類似検索式とその類似度を受け取る呼び出し
と、前記検索実行部に類似検索式をその類似度の順に1
つずつ渡して検索結果を受けとる呼び出しの繰り返しの
制御を行い、類似検索結果を出力する検索制御部とを備
えたことを特徴とする類似検索装置。 - 【請求項3】 ある検索式が複数の属性A1 ,…,Ar
を含む時に、これら複数の属性A1 ,…,Ar のうち、
ある属性As とその他の属性A1 ,…,As- 1 As+1 ,
…,Ar の間の共起関係が強いほど、その属性As の重
要度が高くなるように、重要度を計算し、 異なる検索式間の類似度の計算は、類似度の評価尺度を
属性の意味の類似性とし、検索式の間の類似度の計算
は、属性の間の意味的距離が小さいほど、高くなるよう
に計算して、 求める検索式において、重要度がより低い属性を他の属
性に置換するか、または、重要度がより低い属性を検索
式から除去するかいずれかの処理を行い、前記検索式と
類似度が高い類似検索式を得ることを特徴とする類似検
索方法。 - 【請求項4】 請求項2の類似検索装置において、 属性の間の意味的距離を記憶する意味的距離記憶部と、 原属性式集合のみを類似検索式生成部へ出力する原属性
式重要度計算部と、 原属性式集合と固定属性式集合が入力され、前記意味的
距離記憶部を参照して、類似度の評価尺度は属性の意味
の類似性であり、検索式の類似度の計算は、属性の間の
意味的距離が小さいほど、高くなるように計算する類似
検索式生成部とを備えたことを特徴とする類似検索装
置。 - 【請求項5】 ある検索式が複数の属性A1 ,…,Ar
を含む時に、これら複数の属性A1 ,…,Ar のうち、
ある属性As とその他の属性A1 ,…,As- 1 As+1 ,
…,Ar の間の共起関係が強いほど、その属性As の重
要度が高くなるように、重要度を計算し、 異なる検索式間の類似度の計算は、類似度の評価尺度を
属性の現れかたの類似性と属性の意味の類似性とし、前
記検索式が前記複数の属性A1 ,…,Ar を含むなら、
これら複数の属性A1 ,…,Ar のうち、ある属性As
と、その他の属性A1 ,…,As-1 As+1 ,…,Ar と
の共起関係の強さと、前記ある属性Asとは異なる任意
の属性At と、前記その他の属性A1 ,…,As-1 A
s+1 ,…,Ar との共起関係の強さの差が小さいほど、
属性As と属性At の間の類似度が高くなるようにし、
かつ、属性の間の意味的距離が小さいほど、属性間の類
似度が高くなるように計算して、 求める検索式において、重要度がより低い属性を他の属
性に置換するか、または、重要度がより低い属性を検索
式から除去するかいずれかの処理を行い、前記検索式と
類似度が高い類似検索式を得ることを特徴とする類似検
索方法。 - 【請求項6】 請求項2の類似検索装置において、 属性の間の意味的距離を記憶する意味的距離記憶部と、 共起辞書を参照して、検索式の間の類似度の計算は、あ
る検索式が属性A1 ,…,Ar を含むなら、属性のう
ち、ある属性As と、その他の属性A1 ,…,As-1 A
s+1 ,…,Ar との共起関係の強さと、任意のある属性
At と、A1 ,…,As-1 As+1 ,…,Ar との共起関
係の強さの差が小さいほど、属性As と属性At の間の
類似度が高くなるようにし、かつ、前記意味的距離記憶
部を参照して、検索式の類似度の計算は、属性の間の意
味的距離が小さいほど、類似度が高くなるように計算す
る類似検索式生成部とを備えたことを特徴とする類似検
索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33589595A JP3611913B2 (ja) | 1995-11-29 | 1995-11-29 | 類似検索方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33589595A JP3611913B2 (ja) | 1995-11-29 | 1995-11-29 | 類似検索方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09153068A true JPH09153068A (ja) | 1997-06-10 |
JP3611913B2 JP3611913B2 (ja) | 2005-01-19 |
Family
ID=18293579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33589595A Expired - Fee Related JP3611913B2 (ja) | 1995-11-29 | 1995-11-29 | 類似検索方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3611913B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067060A (ja) * | 1998-08-18 | 2000-03-03 | Nippon Telegr & Teleph Corp <Ntt> | ネットワーク型情報案内ディレクトリ構築方法および装置とネットワーク型情報案内ディレクトリ構築プログラムを記録した記録媒体 |
JP2007135092A (ja) * | 2005-11-11 | 2007-05-31 | Sharp Corp | 検索支援方法及びコンテンツ再生装置 |
JP2011248740A (ja) * | 2010-05-28 | 2011-12-08 | Nec Corp | データ出力装置、データ出力方法およびデータ出力プログラム |
JP2012133785A (ja) * | 2010-12-23 | 2012-07-12 | Nhn Corp | 減少クエリを推薦する検索システムおよび検索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
JPH0756948A (ja) * | 1993-08-09 | 1995-03-03 | Fuji Xerox Co Ltd | 情報検索装置 |
-
1995
- 1995-11-29 JP JP33589595A patent/JP3611913B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
JPH0756948A (ja) * | 1993-08-09 | 1995-03-03 | Fuji Xerox Co Ltd | 情報検索装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067060A (ja) * | 1998-08-18 | 2000-03-03 | Nippon Telegr & Teleph Corp <Ntt> | ネットワーク型情報案内ディレクトリ構築方法および装置とネットワーク型情報案内ディレクトリ構築プログラムを記録した記録媒体 |
JP2007135092A (ja) * | 2005-11-11 | 2007-05-31 | Sharp Corp | 検索支援方法及びコンテンツ再生装置 |
JP4549282B2 (ja) * | 2005-11-11 | 2010-09-22 | シャープ株式会社 | 検索支援方法及びコンテンツ再生装置 |
JP2011248740A (ja) * | 2010-05-28 | 2011-12-08 | Nec Corp | データ出力装置、データ出力方法およびデータ出力プログラム |
JP2012133785A (ja) * | 2010-12-23 | 2012-07-12 | Nhn Corp | 減少クエリを推薦する検索システムおよび検索方法 |
US9128982B2 (en) | 2010-12-23 | 2015-09-08 | Nhn Corporation | Search system and search method for recommending reduced query |
Also Published As
Publication number | Publication date |
---|---|
JP3611913B2 (ja) | 2005-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks | |
Cimiano et al. | Learning taxonomic relations from heterogeneous sources of evidence | |
US8594998B2 (en) | Multilingual sentence extractor | |
CN111259660A (zh) | 基于文本对的关键词抽取方法、装置、设备及存储介质 | |
JP2018045537A (ja) | 検索プログラム、検索装置および検索方法 | |
CN111694941B (zh) | 一种回复信息确定方法、装置、存储介质及电子设备 | |
CN108287848B (zh) | 用于语义解析的方法和系统 | |
CN112905768A (zh) | 一种数据交互方法、装置及存储介质 | |
Rodriguez et al. | Comparison of information retrieval techniques for traceability link recovery | |
Jedrzejewski et al. | Opinion mining and social networks: A promising match | |
Chuang et al. | Emotion recognition from textual input using an emotional semantic network | |
CN114676698A (zh) | 一种基于知识图谱的设备故障关键信息提取方法及系统 | |
JP2020035272A (ja) | 要約生成装置および要約生成方法 | |
CN112765357A (zh) | 文本分类方法、装置和电子设备 | |
CN110309278B (zh) | 关键词检索方法、装置、介质及电子设备 | |
CN111651528A (zh) | 基于生成式对抗网络的开放式实体关系抽取方法 | |
JP3611913B2 (ja) | 類似検索方法および装置 | |
CN111428487A (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
Duarte et al. | How to read the web in portuguese using the never-ending language learner's principles | |
CN114610576A (zh) | 一种日志生成监控方法和装置 | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
Toews et al. | Determining Domain-Specific Differences of Polysemous Words Using Context Information. | |
Zouaoui et al. | Ontological Approach Based on Multi-Agent System for Indexing and Filtering Arabic Docu-ments | |
CN111898377A (zh) | 一种情感识别方法、装置、计算机设备及存储介质 | |
Momenipour et al. | PHMM: Stemming on Persian Texts using Statistical Stemmer Based on Hidden Markov Model. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040525 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040921 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041021 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081029 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081029 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091029 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |