JPH09259139A - 文書資料知的検索システム - Google Patents

文書資料知的検索システム

Info

Publication number
JPH09259139A
JPH09259139A JP8066213A JP6621396A JPH09259139A JP H09259139 A JPH09259139 A JP H09259139A JP 8066213 A JP8066213 A JP 8066213A JP 6621396 A JP6621396 A JP 6621396A JP H09259139 A JPH09259139 A JP H09259139A
Authority
JP
Japan
Prior art keywords
search
thesaurus
database
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8066213A
Other languages
English (en)
Inventor
Kazuhiko Oikawa
和彦 及川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP8066213A priority Critical patent/JPH09259139A/ja
Publication of JPH09259139A publication Critical patent/JPH09259139A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワード検索する際、シソーラスの関連度
を検索者に意識させずに、システム内部で更新、管理す
ることがで、シソーラスの関連度をより検索者の意図の
近い形でダイナミックに変更することができる。 【解決手段】 シソーラスデータベース5とフリーワー
ドデータベース6とを有する特許文書、技術文書、資料
等を対象としたキーワード検索を行う文書資料知的検索
システムにおいて、シソーラスとシソーラスの関連性
を、シソーラスとシソーラスではないが、利用者がシソ
ーラスとともに対書データに与えたキーワードで共通概
念を有する連想語として保存する連想語データベース7
を有するように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書資料知的検索
システムに係り、詳しくは、事務部門、技術部門を問わ
ず、また、特許、技術情報等広く資料を管理する部門
で、シソーラスを最大限に活かしながら、資料の検索を
効率よく、かつ容易に行うことができる文書資料知的検
索システムに関する。
【0002】
【従来の技術】従来、文書資料知的検索システムには、
キーワード検索とフリーワード検索という2種類の検索
を用いたものが挙げられる。キーワード検索は、一種の
単語のような言葉などを与えたキーが一致するかで検索
する方式であり、フリーワード検索は、キーを意識せず
に文書の中を全て見て同じ言葉が出てくるかで検索する
方式である。本発明は、キーワード検索を対象にしたも
のであるので、従来技術も、以下、キーワード検索を主
に説明する。
【0003】従来、キーワード検索においては、予め登
録されている対象にキーが付いており、検索する時、そ
のキーを与えてそれが一致するかを検索する。この時、
文書毎にキーを与えておき、例えば、提案書というキー
を与え、分野としては鉄鋼、自動制御というような人間
が考えて何の文書かが判るように文書毎にキーで分類し
ておく。文書の割り振りには、2通りの方法があり、無
条件にキーを勝手に付ける場合と、キーワード集のよう
に予め、文書側に使用してよいキーが決められている場
合がある。後者の場合、検索者は、このキーワードで引
けば一致するものがあるであろうということで、例え
ば、“自動制御”と与えてみて、更に“鉄鋼”という分
野を与えてみる。このように、従来のキーワード検索で
は、“鉄鋼”という分野を与えて、システムの対象を
“自動制御”と与えると、“鉄鋼”で“自動制御”とい
うキーをもつ対象を検索することができる。以下、具体
的に図面を用いて従来技術を説明する。
【0004】図6は従来の文書資料知的検索システムの
構成を示すブロック図である。図6において、101は
データベースインタフェース102を通して各データベ
ースの文書情報を登録する文書登録部であり、103は
データベースインタフェース102を通して各データベ
ースの文書情報を検索する文書検索部である。104は
検索/登録画面であり、この検索/登録画面104は、
検索用画面、登録用画面を作成したり、結果を一覧表あ
るいは一件毎に返したりする時に使用する。
【0005】105は文書インデックスデータベースで
あり、この文書インデックスデータベース105は、文
書作成者、文書作成日付、文書タイトルなどのキーと文
書実体データベースへのポインタ情報が登録されてい
る。106はシソーラスデータベースであり、このシソ
ーラスデータベース106は、キーワード集に相当する
情報が登録されており、この中でシステムが使用してよ
い受付できるキーワードが定義されており、同時に、例
えば各シソーラスと文書インデックスデータベースの対
応が定義されている。例えば、“鉄鋼”とか“自動制
御”というような言葉がこのシステムの中で使用できる
キーワードであれば、シソーラスデータベース106に
定義されており、そのキーワードで新しい文書を登録す
ることができる。
【0006】107はフリーワードデータベースであ
り、このフリーワードデータベース107は、内部にキ
ーワード集を持っておらず、予め決められたキーワード
以外のワードと文書インデックスデータベースの対応情
報が登録されている。このフリーワードデータベース1
07により、システムを利用する側で自由にキーワード
定義をすることができ、例えば、ある会社内の分類区分
を作成するような場合、フリーワードデータベース10
7で運用上の定義をすることができる。
【0007】108は文書そのものの情報が登録されて
いる文書実体データベースであり、109は同義語/類
義語データベースである。例えば、この同義語/類義語
データベース109で“鉄鋼”と“鉱業システム”が同
義語あるいは類義語であると定義しておくと、“鉱業シ
ステム”をキーワードとして検索した時に、まず、同義
語/類義語データベース109を検索し、同義語/類義
語データベース109を基に、“鉱業システム”と“鉄
鋼”をandで繋いで、シソーラスデータベース106
を検索する。ここで、同義語は、意味が完全に重なって
いる言葉を意味し、類義語は、概念が少し異なるが同じ
であると見なしてよい言葉を意味する。
【0008】この従来の文書資料知的検索システムは、
文書登録部101で文書登録する時、与えたキーワード
がシソーラスデータベース106にあるかどうかをチェ
ックし、あればその文書実体に対応するキーワードとし
て定義する。また、この従来の文書資料知的検索システ
ムは、文書検索部103で文書検索する時、与えられた
検索のキーワードがシソーラスデータベース106にあ
るかどうかをチェックし、あればそのキーワードを持っ
た文書を検索する。
【0009】
【発明が解決しようとする課題】上記した従来の文書資
料知的検索システムは、検索者が“自動制御”と与えな
ければならないところを“自動制御技術”と与えてしま
うと、一致しないため、検索することができない。ま
た、“鉄鋼”も単に“鉄鋼”と与えればよいが、“鉱業
システム”と与えてしまうと、この“鉱業システム”が
ないと、一致しないため、検索することができない。
【0010】このように、従来の文書資料知的検索シス
テムでは、利用者が与えたワードが検索システムに予め
定義されたシソーラス/フリーワードとして存在しない
場合、即ち、検索システム側で予め認識できるものと一
致しないと、他の認識できるワードを与えるまで、検索
することができなかった。この検索ができない場合、電
話帳のような膨大なキーワード集を基に、例えば“鉄
鋼”を捜さなければならず、更には、仮に“鉄鋼”が検
索できても、それが自分が必要としている分野の“鉄
鋼”であるかを調べなければならず検索が面倒であっ
た。従来、キーワード検索を行う場合、完全に一致させ
ることを成立させるための事前準備が必要で、しかも検
索する検索者側の熟練度が必要であった。このため、実
際に検索対象があっても、実際には存在するが、どうす
れば検索できるかが判らないことがあった。
【0011】そこで、この検索者が与えたキーワード
が、検索システム側で予め定義され認識できるものと完
全に一致しないと検索できないという問題を解決する従
来技術には、例えば特開平5−324728号公報のよ
うに「同義語」や「類義語」辞書を活用する検索システ
ムや、特開平6ー187374号公報のように属性を持
たせる方法等が挙げられる。
【0012】前者の特開平5−324728号公報で
は、同義語、類義語のデータベースを定義する時、例え
ば“鉄鋼”と“鉱業システム”を同義語、類義語である
と想定した場合、それを予め管理者側が全てデータベー
スに定義している。そして、検索する時に、ダイナミッ
クに変えられるものではなくて、管理者が意図的に設定
したもののみ使用できるように構成している。例えば、
あるものを同義語、類義語として使おうと思ったが使え
なかったということを、紙に書いて管理者側に送る。管
理者側は、それを定義するために追加したり、修正した
りしなければならず、あるいは、異なる同義語、類義語
が検索された時、それを削除したりしなければならなか
った。このため、この公報では、ダイナミックに変更す
ることができないため、メンテナンスが大変であった。
【0013】また、後者の特開平6−187374号公
報では、登録する時に、類似キーワードに属性を持たせ
ており、例えば登録してしまったものでキーワードの変
更をかけたりすると、存在しないキーワードを類義語に
持った実体が残ってしまう。これもメンテナンスが大変
で、変更をかけると、過去に遡って変更をかけないとい
けない。これによって、登録の仕組とか、検索の仕組を
変更しないといけない。これも同義語、類義語を活用す
る点では上記公報と同じ概念であるが、何れにしてもダ
イナミックに変更することができず、スタティックな運
用しかできないので、メンテナンスが大変であり、運用
上も何人かの人に跨って管理していかないと運用できな
い仕組になっている。
【0014】次に、キーワード間の関連度を規定するも
のについては、例えば特開平6ー274541号公報で
報告されたものが挙げられる。この公報では、キーワー
ド間の関連度を規定するのに、共出現頻度(同一文書に
出現するワード)という概念を利用している。ここで、
共出現頻度について例を挙げて説明する。例えば“鉄
鋼”の関係する提案書があって、そこに“鉄鋼”という
言葉と“鉱業システム”という言葉の両方が提案書の中
で検索されると、“鉄鋼”と“鉱業システム”は、共出
現頻度が1となる。更に別のところで2個ずつ検索され
ると、“鉄鋼”と“鉱業システム”は、共出現頻度が2
となる。この共出現頻度が大きい程、即ち同じ言葉の組
合せで、繰返し検索される回数が多い程、それらの言葉
の概念は近いと判断することができる。ここで同一文書
内に限定しているのは、文書間で分野が異なる恐れがあ
るからである。
【0015】ここでは、“鉄鋼”と”鉱業システム”の
共出現頻度が2,3,4,5となったものを使用し、例
えば、共出現頻度が5になった時、2つの言葉の結び付
きが強いということで、その2つの言葉の間の関連度を
置き換えて5にするという考え方で、その関連度を定義
している。ここで与えている共出現頻度を使用した関連
度は、図6では、シソーラスデータベースという予めシ
ステムが定義しているキーワードの中だけで定義してい
る。フリータームデータベースには、共出現頻度の関連
度を持たせるようにはなっていない。しかしながら、そ
の範囲内だけで使おうとすると、どうしても共出現頻度
の使用に拘らず、キーワード間の関連度を何らかの形で
与えてシソーラスという世界だけで使うという枠組みか
ら出られなくなってしまう。従って、これも、シソーラ
ス間のみの適用では、運用上制約があり、検索者の意図
を十分反映させることが困難であった。
【0016】次に、切り出したフリーワードの共出現頻
度を活用する方式については、例えば特開平7−110
818号公報で報告されたものが挙げられる。共出現頻
度は、フリーワードでも使われている。フリーワード検
索も基本的にはキーワード検索と同じような仕組を使え
る場合がある。フリーワードは、概念としてはキーワー
ドの方でも使える。この公報で使われている共出現頻度
は、前述したシソーラスというものの範囲を限定せずに
フリータームにも拡大しており、共出現頻度は、検索者
が自由に与えたキーワードに対して適用することができ
る。
【0017】この公報では、フリーワード検索に対して
の関連度を定義する際、フリーワードを無制限に増やし
てもよいとしている。このように、フリーワードを無制
限に増やしてしまうと、関連付けの言葉が次々と増えて
しまう。例えばここに100個のキーワードを用意して
いて、そこにフリーワードを1個追加すると、それに対
して100個の組合せが生じてくる。関連度を持たせる
概念はよいが、フリーワードが入ってくると、無条件に
関連度を持たせてしまうので、その組み合せが非常に多
くなってしまい、実用上メンテナンスが大変になってし
まう。また、増えた組合せについて全て検索しなければ
ならないので、検索効率やヒット率が低下する。
【0018】次に、検索時の絞り込や緩和については、
例えば特開平2―158870号公報で報告されたもの
が挙げられる。検索の時の絞り込検索は、通常次のよう
な時に行う。1度ある条件で検索した時に、例えばその
結果が100件返ってきたとする。100件だと多いと
思った時、その検索結果を絞り込んで減らすことを行
う。この時、この公報では、利用する人にシステム側か
らどのように絞り込むかを聞いてくる。システムの画面
から絞り込み条件を入れなさいと聞いてくるが、検索者
は、自分の欲しい条件を与えて検索しているので、そこ
で更にどうやって絞り込むかをそれ以上聞かれても判ら
ないことが多い。
【0019】しかも、検索者は、電話帳のようなキーワ
ード集からやっとの思いで項目を見つけて与えているの
に、更に絞り込み条件を付けて欲しいと要求されても、
その要求に応えられないことが多い。特に、不慣れな検
索者にとっては、容易な方法ではない。緩和は、絞り込
みに対して緩める条件である。検索者は、絞り込み、緩
和の条件を与えて欲しいとシステム側から要求された
り、条件としてはこれだけあるので、この条件の中から
どれかを選択して欲しいとシステム側から要求された時
に、判断するのが困難であった。特に、これは、不慣れ
な検索者にとっては、容易な方法ではなかった。
【0020】更に、例えば、特開平6―223117号
公報では、絞り込や緩和を行う時に、利用者が予め与え
た出力件数にできるだけ近い件数で出力する方式が述べ
られている。検索で欲しい件数が例えば20件である
と、画面上に最初に欲しい件数を例えば20件であると
設定する。これに対して、システム側でその件数に近
い、例えば20件になるべく近いような件数まで色々と
検索条件を変えたりして決定する。しかしながら、この
公報では、単に件数を求めても、検索者の意図は活かし
切れず、検索結果のヒット率は上がらない。
【0021】そこで、本発明は、キーワード検索する
際、シソーラスの関連度を検索者に意識させずに、シス
テム内部で更新、管理することができ、シソーラスの関
連度をより検索者の意図の近い形でダイナミックに変更
することができる文書資料知的検索システムを提供する
ことを目的する。
【0022】
【課題を解決するための手段】第1の発明は、予め定義
され、かつ利用者が指定可能なシソーラスと登録データ
との関係を蓄積するシソーラスデータベースと、フリー
ワードと登録データとの関係を蓄積するフリーワードデ
ータベースとを有する特許文書、技術文書、資料等を対
象としたキーワード検索を行う文書資料知的検索システ
ムにおいて、シソーラスとシソーラスの関連性を、シソ
ーラスとシソーラスではないが、利用者がシソーラスと
ともに対象データに与えた共通概念を有するワードを連
想語として保存する連想語データベースを有することを
特徴とするものである。
【0023】第2の発明は、データの登録時、同一文書
のキーワードとして与えた複数のワードのうち、シソー
ラスデータベースに存在するキーワードとシソーラスデ
ータベースに存在しないワードとがあった場合、連想語
データベースに両者の関係をシソーラスと連想語として
登録し、同時に同一文書のシソーラスキーワードとして
与えられた複数のワードについてはその相互関連度を同
一文書内共出現頻度として与える同一文書内共出現頻度
付与手段を有することを特徴とするものである。
【0024】第3の発明は、利用者が検索を開始してか
ら終了するまでの検索履歴を保存し、キーワードデータ
ベース、フリーワードデータベースにも、更に連想語デ
ータベースにも存在しないシステム側で認識できないキ
ーワードの未知語が出現した場合、1区切りの検索プロ
セスが終了した段階で検索履歴を基に検索プロセス内で
利用されたシソーラスと未知語を関連付けて連想語デー
タベースに登録する学習手段を有することを特徴とする
ものである。
【0025】第4の発明は、利用者が検索を開始してか
ら終了するまでの検索履歴を保存し、キーワードデータ
ベース及びフリーワードデータベースには存在しない
が、連想語データベースに存在する連想語が出現した場
合、1区切りの検索プロセス内で利用者によって与えら
れたシソーラスとの間には概念の共通性があると判断
し、シソーラスと関連語の関係を連想語データベースに
登録し、既に存在する関連定義の場合は、1区切りの検
索プロセス内で同時に与えられ利用された検索用の複数
のキーワードの頻度となる同時検索使用頻度を更新する
同時検索使用頻度更新手段を有することを特徴とするも
のである。
【0026】第5の発明は、利用者が検索を開始してか
ら終了するまでの検索履歴を保存し、キーワードデータ
ベース及びフリーワードデータベースには存在しない
が、連想語データベースに存在する連想語が出現した場
合、連想語と関連付けられたシソーラスを指定可能なキ
ーワードとして利用者に提示する際、同一文書内共出現
頻度と同時検索使用頻度の関連度によって優先度が付け
られた順に提示するマンマシン手段を有することを特徴
とするものである。
【0027】第6の発明は、予め定義され、かつ利用者
が指定可能なシソーラスと登録データとの関係を蓄積す
るシソーラスデータベースと、フリーワードと登録デー
タとの関係を蓄積するフリーワードデータベースとを有
する特許文書、技術文書、資料等を対象としたキーワー
ド検索を行う文書資料知的検索システムにおいて、利用
者が検索用キーワードを設定する際、同一文書のキーワ
ードとして与えられた複数のワードの登録時の同一文書
内共出現頻度を表し、かつシソーラス間、シソーラス/
フリーワード間をアンドで検索した時の文書件数を表す
シソーラス間、シソーラス/フリーワード間の関連度に
基づいて検索論理式を生成する検索論理式生成手段を有
することを特徴とするものである。
【0028】第7の発明は、前記検索論理式生成手段
が、検索論理式生成の前に連想語検索を行い、関連のあ
るシソーラス/フリーワードをグルーピングし、そのグ
ループ単位で検索論理式を生成することを特徴とするも
のである。
【0029】第8の発明は、前記検索論理式生成手段
が、関連のあるシソーラス/フリーワードをグルーピン
グしたグループ単位で、利用者が入力した個々の検索キ
ーワードの連想語検索を行い、連想語検索の結果に基づ
いて、利用者の選択した検索キーワード間において関連
のある同一文書に共出現している検索キーワードを各々
グルーピングし、同一文書に共出現している1つのグル
ープを構成している検索キーワードをANDで結んでサ
ブ論理式を生成し、グループ間をORで結ぶことによ
り、検索論理式を生成することを特徴とするものであ
る。
【0030】第9の発明は、予め定義され、かつ利用者
が指定可能なシソーラスと登録データとの関係を蓄積す
るシソーラスデータベースと、フリーワードと登録デー
タとの関係を蓄積するフリーワードデータベースとを有
する特許文書、技術文書、資料等を対象としたキーワー
ド検索を行う文書資料知的検索システムにおいて、利用
者の設定条件で検索した結果が、予め規定された検索論
理式の自動変更ルールに基づいて検索条件及び組み合せ
るシソーラスを変える自動絞り込み/緩和手段を有する
ことを特徴とするものである。
【0031】第10の発明は、前記検索論理式の自動変
更ルールが、グループの中に含まれる検索キーワードが
最も多いグループの中の同時検索使用頻度が最も高いキ
ーワードの連想語で同じグループ内の他のキーワードの
連想語にもなっている語で関係付けられたこのグループ
に含まれる以外のキーワードを1つ検索し、ANDで繋
ぐ第1工程と、そのグループ内で連想語でたどれるキー
ワードがなくなるまで第1工程を行う第2工程と、それ
でも件数が多い場合、グループ中に含まれる検索キーワ
ードが次に多いグループの中で第1、2工程の処理を行
う第3工程と、最後のグループまで、連想語でたどれる
キーワードの処理を実行した後、まだ検索件数が多い場
合、ORで繋がれたグループを後ろから1つづつ落しな
がら検索を行う第4の工程と、最後のグループが1つに
なった場合、検索件数を出力して処理を終了する第5の
工程とからなることを特徴とするものである。
【0032】第11の発明は、前記検索論理式の自動変
更ルールが、グループの中に含まれる検索キーワードが
最も多いグループの中の同時検索使用頻度が最も高いキ
ーワードと次ぎのキーワードのANDをORに変える第
1工程と、そのグループ内でANDがなくなるまで第1
工程を行う第2工程と、それでも件数が少ない場合、グ
ループ中に含まれる検索キーワードが次に多いグループ
の中で第1、2工程の処理を行う第3工程と、最後のグ
ループまで、ANDをORに変更する処理を実行した場
合、検索件数を出力して処理を終了する第4工程とから
なることを特徴とする請求項9に記載の文書資料知的検
索システム。
【0033】第12の発明は、前記検索論理式が、利用
者が設定した第一キーワードを落さないように導入して
生成することを特徴とするものである。
【0034】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は本発明に係る実施の形態の
文書資料知的検索システムの構成を示すブロック図であ
る。本実施の形態の文書資料知的検索システムは、文書
登録部1、文書検索部2、データベースインタフェース
3、各種のキーワード検索用データベース4〜7、文書
実体データベース8、同義語/類義語辞書データベース
9、検索論理式自動作成/修正ルール10、検索/登録
画面11からなる。更に、文書登録部1には、連想語関
連登録部12があり、文書検索部2には、キーワード検
索支援部13、検索論理式自動作成/修正部14、シソ
ーラスと連想語間の重み自動学習部15からなる。図
中、ハッチングを掛けた部分は、図6の従来のシステム
に更に追加した本発明の特徴部分である。
【0035】ここで、文書登録部1は、データベースイ
ンタフェース3を通して各データベース4〜9に文書情
報を登録し、文書検索部2は、データベースインタフェ
ース3を通して各データベース4〜9の文書情報を検索
する。文書インデックスデータベース4には、文書作成
者、文書作成日付、文書タイトルなどの情報が登録され
ており、シソーラスデータベース5には、キーワード集
に相当する情報が登録されており、この中でシステムが
受付できるキーワードが定義されている。例えば“鉄
鋼”とか“自動制御”というような言葉がこのシステム
の中で使用できるキーワードであれば、シソーラスデー
タベース5に定義されおり、そのキーワードであれば、
システム側が受付でき、登録する時もシステム側で受付
できる。
【0036】フリーワードデータベース6は、内部にキ
ーワード集を持っておらず、予め決められたワード以外
の情報が登録されており、ユーザ、検索者、登録者など
が任意に設定した情報が登録されている。このフリーワ
ードデータベース6により、システムを管理する側で自
由に定義を作成することができ、例えば、ある会社内の
分類区分を作成するような場合、フリーワードデータベ
ース6で運用上定義することができる。
【0037】連想語データベース7は、連想語や、連想
語とシソーラスの両者の関連付けの情報が登録されてい
る。連想語は、シソーラスデータベース5やフリーワー
ドデータベース6に登録されているキーワードではな
く、キーワードと異なるキーワードを結び付けるような
言葉を意味する。文書実体データベース8には、文書そ
のものの情報が登録されている。
【0038】同義語/類義語辞書データベース9には、
同義語と類義語の情報が登録されている。例えば、この
同義語/類義語辞書データベース9で“鉄鋼”と“鉱業
システム”が同義語あるいは類義語であると定義してお
くと、“鉱業システム”をキーワードとして検索した時
に、まず、同義語/類義語データベース9を検索し、同
義語/類義語データベース9を基に、“鉱業システム”
と“鉄鋼”のANDにしてから、シソーラスデータベー
ス6を検索する。ここで、同義語は、意味が完全に重な
っている言葉を意味し、類義語は、概念が少し異なる
が、同じであると見なしてよい言葉を意味する。
【0039】検索/登録画面11は、検索用画面、登録
用画面を作成したり、結果を一覧表あるいは、1件毎に
返したりする時に使用し、連想語関連登録部12は、連
想語データベース7に登録されている連想語の更新、追
加を行ったり、既に存在するシソーラスと連想語に関す
る連想語データベース7に登録されている関連度を更新
したりする。キーワード検索支援部13は、標準的なキ
ーワード設定を画面に表示したり、連想語と関連するシ
ソーラスを画面に表示したい時のキーワード設定を画面
に表示したりする。検索論理式自動作成/修正部14
は、後述する検索論理式自動作成/修正ルール10を基
に、検索論理式を自動生成したり、修正したりする。重
み自動学習部15は、システム側で認識できないキーワ
ードの未知語が与えられた場合、1区切りの検索プロセ
スが終了した段階で検索履歴を基に検索プロセス内で利
用されたシソーラスと未知語を関連付けて連想語データ
ベース7に登録する。
【0040】図2は図1に示す文書資料知的検索システ
ムにおける文書登録時の同一文書内共出現頻度の更新処
理フローを示すフローチャートである。図2に示すよう
に、まず、利用者側が、検索用のキーワードとしてシソ
ーラスAを設定した後(ステップS1)、検索用キーワ
ードとしてシソーラスBを設定すると(ステップS
2)、システム側は、利用者が設定したシソーラスAと
シソーラスBの関連度を強める(ステップ3)。ここで
は、同一文書内共出現頻度を用いてシソーラスAとシソ
ーラスB間に関連度を持たせている。
【0041】次に、利用者側が、検索用のキーワードと
してシソーラスCを設定した後(ステップS4)、検索
用のキーワードとしてシソーラスデータベース5にない
連想語Dを設定すると(ステップS5)、シソーラスC
と連想語Dの関連度を強める(ステップS6)。ここで
は、シソーラスCと連想語Dの関連性を定義する際、同
一文書内共出現頻度を適用した。この後、文書属性情報
や文書の登録作業を行う。
【0042】利用者は、データ登録を行う際、データの
属性情報とともにキーワードを与えるが、この時与えた
複数のキーワードについて、シソーラスデータベース5
に定義済みのワードと未定義のワードとなる未知語間で
も未知語が連想語として定義されれば、同一文書内共出
現として関連付けられ、同一文書内共出現頻度が定義、
更新される。データの属性情報は、キーワードでもよ
い。
【0043】本実施の形態では、連想語という概念を利
用している。従来は、シソーラスという予め決められた
キーワードによる概念と、フリータームの自由に使用し
てよいという概念を利用しており、何れも概念的なもの
はキーワードである。本実施の形態は、この従来からあ
る概念を利用し、更に連想語という概念を利用する。連
想語は、シソーラスデータベース5やフリーワードデー
タベース6に登録されているキーワードではなく、ま
た、このキーワードのように表に出てこないが、キーワ
ードと異なるキーワードを結び付けるような言葉を意味
する。
【0044】連想語データベース7は、基本的にはシソ
ーラスと連想語というものの間を取り持つ。文書を登録
する時に、まず、検索キーワードとして、例えば“鉄
鋼”というキーワードを与えた後、“鉱業システム”と
いうキーワードを与え、更に“自動制御”というキーワ
ードを与えたとする。この時、シソーラスデータベース
5に“自動制御”というキーワードが登録されていなか
ったとすると、従来のシステムでは、キーワードとして
定義することができない。
【0045】これを回避するために、本実施の形態で
は、“鉄鋼”とか“鉱業システム”というシソーラスの
言葉に対して、“自動制御”という連想語という形で裏
に目に見えない所の連想語データベース7に登録してお
き、その連想語とシステムで使用できるシソーラスのキ
ーワードとの関連度を定義する。このように、“自動制
御”という言葉は、シソーラスデータベース5に登録さ
れていないので、表には見えてこないが、シソーラスの
“鉄鋼”と“鉱業システム”という言葉は、“自動制
御”という連想語による言葉を介して関連付けられる。
【0046】以上説明したように、連想語は、シソーラ
スのように固定的なものではなく、しかもフリーワード
のように自由に定義できるシソーラスのようなものでも
なく、シソーラスとシソーラスを意味論的に結び付ける
中間概念的なものである。この連想語という概念を取り
込むことによって、検索者は、シソーラスを与えている
という表向きの検索を行うことができるとともに、シス
テム内では、シソーラスとシソーラスの関係を連想語を
介して定義することができ、かつ関連度を更新すること
ができる。
【0047】従って、検索する際、シソーラスの関連度
を検索者に意識させずに、システム内部で更新、管理す
ることができる。しかも、これは、ダイナミックに変更
することができる。検索者の方で検索を進めれば進める
ほど、シソーラスの関連度をより実際に検索する検索者
の意図の近い形でダイナミックに変更することができ
る。また、シソーラスのメンテナンスとは独立してお
り、関連度はシステム内部で管理することができるの
で、メンテナンスが非常に楽である。
【0048】検索者が自分の検索したい与えたワードが
シソーラスにない場合でも、システム側がこれを連想語
データベース7に保存することにより、利用者のキーワ
ードに変わるものとして活かすことができる。検索者に
とっては、シソーラスではないけれども、システムから
跳ね付けられることがなく、他のシソーラスを利用する
ようなガイダンスを受けながら、連想語を使って容易な
検索を行うことができる。シソーラスがない場合でも、
連想語と関連付けられているシソーラスがあれば、検索
者には、その連想語と関連付けられているシソーラスが
提示されてくるので、検索者は、自分の検索意図に近い
シソーラスをその提示されたシソーラスから選択するこ
とができる。なお、その時の関連度は、同一文書内共出
現頻度で定義している。例えば、シソーラスを検索者に
提示する時に、関連度の高い方から提示したりすること
により、検索者は、より自分の検索意図に近いシソーラ
スがどれかを判断することができる。
【0049】図3は図1に示す文書資料知的検索システ
ムにおける連想語による検索処理フローを示すフローチ
ャートである。利用者がワード“A”を入力し(ステッ
プS11)、この利用者が与えたワード“A”がシソー
ラスデータベース5やフリーワードデータベース6に登
録されていない場合(ステップS12)、システムは、
連想語データベース7を参照する。このように、システ
ムは、連想語データベース7を検索し、連想語として
“A”が登録されていると、連想語“A”と関連付けら
れた関連度の強いシソーラス及びフリーワードを関連度
の高い順に、例えば“シソーラスX”、“シソーラス
Y”、“フリーワードZ”を画面に表示し、利用者の選
択を促す(ステップS11、12)。本実施の形態で
は、利用者が設定したワード“A”はシソーラスやフリ
ーワードに定義がないので、検索には使えないが、変わ
りにこれらの関連するワードなら使えることを利用者に
示している。
【0050】利用者が、画面に表示された連想語“A”
と関連度の強いシソーラスとフリーワードの選択候補を
見て、この選択候補から任意のワード、例えば“シソー
ラスY”を選択すると(ステップS15)、システム
は、同一文書内共出現頻度と同時検索使用頻度を用い
て、“シソーラスY”と利用者が選択したワード“A”
の関連度を強める(ステップS16)。このように、選
択されたワードと関連を持つ連想語との関連度が全て更
新される。
【0051】このように、本実施の形態では、連想語関
連登録部12により、連想語データベース7に登録され
た既に存在するシソーラスと連想語に関する関連度の更
新を行うことができる。利用者が、例えば“自動制御”
と与え、この与えた“自動制御”がシソーラスデータベ
ース5、フリーワードデータベース6に登録されていな
いと、システムは、“自動制御”が連想語データベース
7に登録されているかを検索する。システムは、“自動
制御”が連想語データベース7に登録されていると、連
想語の“自動制御”と関連度の強いシソーラス、フリー
ワード、例えば“鉱業システム”、“鉄鋼”を類似キー
ワードとして使用できると画面に表示する。そこで、利
用者が、画面から“鉄鋼”と選択して検索を行った場
合、今度“鉄鋼”と“自動制御”という連想語の関連度
を更新することができる。
【0052】従来、シソーラス、フリーワードのところ
でしか行っていなかった関連度の更新を、本実施の形態
では、既に存在するシソーラスと連想語の枠組みの中で
関連度を更新する。この更新を行う際、検索は、同時検
索使用頻度を使用する。本実施の形態では、1つの検索
プロセスが終るまでの間に、どういう言葉が何回使用さ
れたかを見る同時検索使用頻度を使用し、同一の検索プ
ロセスの中で使用された言葉はお互いに関連性があると
いう基で、それを使用して関連度を更新している。
【0053】前述したように、シソーラスデータベース
5、フリーワードデータベース6に登録されていない連
想語という概念で定義してあるワードが利用者によりシ
ステムに入力されると、システムは、そのワードがシソ
ーラスデータベース5、フリーワードデータベース6を
検索して登録されていないということで、連想語データ
ベース7を検索する。システムは、そのワードが連想語
データベース7に登録されていると、その連想語に関連
付けられているシソーラス、フリーワードをシソーラス
データベース5、フリーワードデータベース6から読み
出して、利用者に対して画面上に表示する。
【0054】従来のシステムでは、システムに入力した
ワードがシソーラスデータベース5、フリーワードデー
タベース6に登録されていないと、システムで認識でき
ないということでシステムに跳ねられてしまう。この場
合、利用者は、新しいキーワードをキーワード集から検
索しなければならないので、作業が非常に大変になって
しまう。これに対し、本実施の形態では、システムに入
力したワードがシソーラスデータベース5、フリーワー
ドデータベース6に登録されていなくても、連想語デー
タベース7に登録されていれば、その連想語から関連付
けられているシソーラス、フリーワードを画面上に表示
することにより、その入力したワードに対して使用でき
る類似キーワードを提示することができる。
【0055】図4は図1に示す文書資料知的検索システ
ムにおける未知語の学習処理フローを示すフローチャー
トである。利用者が検索キーワードとして、未知語
“A”を入力すると(ステップS21)、システムは、
シソーラスデータベース5、フリーワードデータベース
6、連想キーワードデータベース7を検索する。システ
ムは、シソーラスデータベース5、フリーワードデータ
ベース6、連想キーワードデータベース7に未知語
“A”が登録されていないと(ステップS22)、未知
語“A”を内部に一時保存する(ステップS23)。続
いて、利用者が検索キーワードとしてシソーラスに定義
があるワード“B”を入力すると(ステップS24)、
システムは、シソーラスデータベース5を検索する。シ
ステムは、シソーラスデータベース5にワード“B”が
登録されていると(ステップS25)、検索論理式の作
成などを行ったりする。
【0056】利用者が検索終了の指示を行うと(ステッ
プS26)、検索処理終了のタイミングでシステムは、
未知語“A”をシソーラスに定義がある“B”の連想語
として連想語データベース7に登録する(ステップS2
7)。この時、関連度は、同時検索使用頻度を適用す
る。未知語は、シソーラスデータベース5、フリーワー
ドデータベース6、連想語データベース7に登録されて
おらず、システムで認識できないキーワードである。従
来のシステムでは、この未知語が入力されると、システ
ムで認識できず、システムに跳ね付けられる。
【0057】本実施の形態では、未知語がシステムに入
力されると、システムに一時保存しておく。この場合、
利用者は、次のキーワードをシステムに入力して検索を
行う。利用者が、検索が一通り終って検索終了の指示を
行うと、システムは、検索終了したそのタイミングで今
まで保存しておいた未知語を、その後利用者が検索で使
用したシソーラスデータベース7に登録されているキー
ワードと関連付けさせるかどうかをここで行う。仮に、
システムに入力した未知語が、その後利用者が検索で使
用したシソーラスデータベース5に登録されているキー
ワードと同じ概念のもので、その未知語を今後使用した
いと指示された場合には、その未知語をシソーラスの連
想語ということで連想語データベース7に登録する。
【0058】本実施の形態の自動学習機能は、2番目に
与えるシソーラスと連想語を有効に利用するために与え
た学習機能である。シソーラスでも連想語でも定義され
ていない未知語に対して、その検索プロセスの中で定義
された使われたシソーラスと、連想語データベース7に
関連付けして登録するかを、システムは利用者に聞いて
くる。利用者がその関連付けを指定すると、連想語デー
タベース7の中にシソーラスと連想語の関連という形で
定義、蓄積されて行く。これによって、次に検索される
時、検索者は、シソーラスがない変わりに、連想語とし
てそれが定義されていれば、検索者は、その連想語と関
連付けられているシソーラスを変わりに選択可能という
旨のガイダンスとして受け取ることができる。定義され
ていない変わりのシソーラスで選択可能なものをシステ
ム側から提示して貰うことにより、検索を容易に行うこ
とができる。以下、検索論理式の自動生成機能について
説明する。
【0059】(イ)検索論理式の自動生成機能 シソーラス間、シソーラス/フリーワード間の関連度
は、登録時の同一文書内共出現頻度を表している。従っ
て、シソーラス間、シソーラス/フリーワード間の関連
度は、それらをアンドで検索した時の文書件数を表して
いることになる。これを利用して検索論理式生成の前に
連想語検索を行い、関連のあるシソーラス/フリーワー
ドをグルーピングし、そのグループ単位で検索論理式を
生成する。生成の手順を以下に示す。
【0060】ステップ1.まず、ユーザが入力した個々
の検索キーワードの連想語検索を行う。 ステップ2.次に、この連想語検索の結果を基に、利用
者の選択した検索キーワード間において関連のある同一
文書に共出現している検索キーワードを各々グルーピン
グする。この時、ユーザの入力したキーワードで一番目
のものは必ずグループ1の先頭に持ってくる。これは、
第一キーワードは、利用者の検索意図が一番込められて
いるという条件をルール化したものである。
【0061】例えば利用者の選択したキーワードをA、
B、C、D、E、F、Gとする。 連想語検索の結果:A(関連)B、C B(関連)A、C、D C(関連)A、B、F D(関連)B、E E(関連)D F(関連)C、G G(関連)F
【0062】以上の検索結果から判るように、例えば利
用者がキーワード“A”を選択した時、シソーラスデー
タベース5、フリーワードデータベース6に登録されて
いないということで、連想語データベース7を検索し、
連想語データベース7からキーワード“A”に該当する
連想語を読み出す。この連想語と関連付けられているシ
ソーラス“B”、“C”をシソーラスデータベース5か
ら読み出す。これから、利用者の選択したキーワード
“A”がキーワード“A”の連想語を介してシソーラス
“B”、“C”と関連付けられていることが判る。
【0063】同様に、選択したキーワード“B”は、連
想語を介してシソーラス“A”、“C”、“D”と関連
付けられており、選択したキーワード“C”は、連想語
を介してシソーラス“A”、“B”、“F”と関連付け
られており、選択したキーワード“D”は、連想語を介
してシソーラス“B”、“E”と関連付けられている。
また、選択したキーワード“E”は、連想語を介してシ
ソーラス“D”と関連付けられており、選択したキーワ
ード“F”は、連想語を介してシソーラス“C”、
“G”と関連付けられており、選択したキーワード
“G”は、連想語を介してシソーラス“F”と関連付け
られている。
【0064】この連想語検索の結果では、利用者が選択
したキーワードがそのキーワードの連想語を介してシソ
ーラスと関連付けられているものを挙げている。次に、
これらの挙げたものに対して、相互に関連付けられてい
るものをグルーピングする。 グルーピング結果:グループ1 A、B、C、 グループ2 D、E グループ3 F、G
【0065】以上のグルーピング結果から判るように、
利用者が選択したキーワード“A”は、連想語を介して
シソーラス“B”と関連付けられており、逆に利用者が
選択したキーワード“B”は、連想語を介してシソーラ
ス“A”と関連付けられており、“A”と“B”は、相
互に関連付けられている。同様に、“A”と“C、
“B”と“C”は、相互に関連付けられている。従っ
て、“A”、“B”、“C”は、一つのグループで括
る。同様に、“D”と“E”、“F”と“G”も、相互
に関連付けられているので、各々を一つのグループで括
る。このように、相互に関連付けられているものは、言
葉の概念として結び付きが強いので、一つのグループで
括る。
【0066】ステップ3.次に、一つのグループを構成
している検索キーワードは、同一文書に共出現してお
り、言葉の概念として結び付きが強いので、以下に示す
ように、ANDでサブ論理式を生成する。 グループ1 A*B*C グループ2 D*E グループ3 F*G ステップ4.グループ間は、言葉の概念として結び付き
が弱いので、ORで結ぶ。
【0067】本実施の形態では、上記した検索論理式
を、システム内の検索論理式自動作成/修正部14によ
り、前述した検索論理式自動作成/修正ルール10によ
る手順に従って自動生成する。従来のシステムでは、各
々のシソーラスの間でANDで繋いで検索したり、AN
Dで結び付が弱すぎた場合は、ORに変えて検索したり
していた。これに対し、本実施の形態では、利用者が入
力した個々の検索キーワードの連想語検索を行い、この
連想語検索結果を基に、選択したキーワード間において
関連のあるキーワードをグルーピングしており、グルー
プ間の結び付きと、グループ内の結び付きを別々に考慮
している。
【0068】このように、本実施の形態では、単に、シ
ソーラスやフリータームをANDやORで機械的に繋げ
たり、分解したりして検索するのではなく、与えたキー
ワードを意味を含めて解釈して展開しており、言葉とし
て意味合いの強いもの同志を一つにまとめるようにして
いる。このため、より検索者が意図する検索結果に近い
結果を自動的に生成することができるので、検索のヒッ
ト率を上げることができる。
【0069】本実施の形態では、利用者が第1番目に設
定する検索キーワードを落さないように論理式を生成し
ている。検索する時に、利用者が設定する第1キーワー
ドは、検索者の意図を最も反映している。このため、検
索時に、利用者が検索に必要な最も要求している概念を
含んでいる第1キーワードを論理式から落さないように
構成しているので、利用者の検索意図を最大限に活かす
ことができる。この第1番目に設定する検索キーワード
を落さないように論理式を設定する技術は、後述する絞
り込み時には第1キーワードが落される恐れがあるの
で、特に絞り込み時に適用することが有効である。
【0070】(ロ)検索論理式の再構成機能(絞り込
み) 検索結果と希望件数を比較し、検索論理式を組み替え
る。 ステップ11.まず、グループの中に含まれる検索キー
ワードが最も多いグループ、仮に、各グループのキーワ
ードが同数ならば、検索条件が多いグループの中の同時
検索使用頻度が最も高いキーワードの連想語で同じグル
ープ内の他のキーワードの連想語にもなっている語で関
係付けられたこのグループに含まれる以外のキーワード
をを一つ検索し、ANDで繋ぐ。 ステップ12.次に、そのグループ内で連想語でたどれ
るキーワードがなくなるまで、ステップ11を行う。
【0071】ステップ13.次に、それでも件数が多い
ならば、グループ中に含まれる検索キーワードが次に多
いグループ、仮に、各グループのキーワードが同数なら
ば、検索件数が2番目に多いグループの中で、ステップ
11、12の処理を行う。 ステップ14.次に、最後のグループまでの処理を実行
した後、まだ検索件数が多いならば、ORで繋がれたグ
ループを後ろから一つづつ落しながら検索を行う。 ステップ15.最後のグループが一つになったならば、
検索件数を出力して処理を終了する。
【0072】(ハ)検索論理式の再構成機能(緩和) ステップ21.まず、グループの中に含まれる検索キー
ワードが最も多いグループ、仮に、各グループのキーワ
ードが同数ならば、検索件数が多いグループの中の同時
検索使用頻度が最も高いキーワードと次のキーワードの
ANDをORに変える。 ステップ22.次に、そのグループ内でANDがなくな
るまで、ステップ1.を行う。
【0073】ステップ23.次に、それでも件数が少な
いならば、グループ中に含まれる検索キーワードが次に
多いグループ、仮に、各グループのキーワードが同数な
らば、検索件数が2番目に多いグループの中で、ステッ
プ21、22の処理を行う。 ステップ24.最後のグループまで、ANDをORに変
更する処理を実行したならば、検索件数を出力して処理
を終了する。以下に、絞り込み及び緩和の一例を図面を
用いて具体的に説明する。
【0074】図5は図1に示す文書資料知的検索システ
ムにおける絞り込み、緩和を説明するための図である。
図5(a)は文書A、文書Bの共出現している登録キー
ワードを示している。文書Aの登録キーワードは、“a
a”、“bb”、“cc”、“gg”であり、文書Bの
登録キーワードは、“bb”、“cc”、“dd”、
“ee”、“ff”である。図5(b)はキーワードと
連想語の対応関係を示している。キーワード“aa”、
“bb”、“ee”、“ff”は、連想語が“xx”で
あり、この連想語を介して関連付けられている。キーワ
ード“dd”の連想語は、“yy”である。
【0075】図5(c)はキーワードと同時検索使用頻
度の対応関係を示している。キーワード“ee”と“a
a”の同時検索使用頻度は、5であり、キーワード“e
e”と“bb”の同時検索使用頻度は、4であり、キー
ワード“aa”と“dd”の同時検索使用頻度は、2で
ある。また、キーワード“bb”と“ee”の同時検索
使用頻度は、2であり、キーワード“dd”と“ff”
の同時検索使用頻度は、1である。図5(d)はキーワ
ードと同一文書内共出現頻度の対応関係を示している。
キーワード“ee”と“aa”の同一文書内共出現頻度
は、5であり、キーワード“ee”と“bb”の同一文
書内共出現頻度は、4であり、キーワード“aa”と
“dd”の同一文書内共出現頻度は、3である。また、
キーワード“bb”と“ee”の同一文書内共出現頻度
は、2であり、キーワード“dd”と“ff”の同一文
書内共出現頻度は、2である。
【0076】(イ)文書で、キーワード“aa”と“b
b”と“cc”が共出現しているということは、“a
a”(アンド)“bb”(アンド)“cc”でキーワー
ドを指定するのと同じである。即ち、文書内に同時に出
ているキーワードは、同時に指定して検索したのと等価
である。 (ロ)キーワード“aa”、“bb”、“ee”、“f
f”は、連想語“xx”を介して関連付けられ、関連キ
ーワードになっている。即ち、同じ連想語から、関連付
けられているキーワードであることが判る。
【0077】(ハ)論理式の自動生成は、次のようにな
る。まず、利用者が与えるキーワードを“aa”、“e
e”、“dd”とする。利用者がキーワードを与える
と、システムは、そのキーワードの相互関係を調べる。
連想語を利用してキーワードの相互関係を調べると、キ
ーワード“aa”は、連想語“xx”を介してキーワー
ド“ee”と関連付けられており、キーワード“ee”
は、連想語“xx”を介してキーワード“aa”と関連
付けられている。これから、キーワード“aa”と“e
e”は、連想語“xx”を介して相互に関連付けられて
いる。キーワード“dd”は、連想語が“yy”である
ため、キーワード“aa”、“ee”と連想語を介して
関連付けられていない独立の形で残る。従って、論理式
(式1)は、(“aa”and“ee”)or(“d
d”)となる。
【0078】(ニ)この検索を実行したが、検索結果の
文書件数が指定した件数より多い場合の絞り込みは、次
のようになる。共通の連想語“XX”を介して関係付け
られたキーワードで共出現頻度のより大きいものを選択
する。すなわち、キーワード“aa”と“ee”両方の
関連キーワードで共出現頻度の高い“bb”を補って論
理式を、(“aa”and“bb”and“ee”)o
r(“dd”)という具合に再生成する。次に、これで
検索を実行するが、それでも検索結果の文書件数が指定
した件数より多い場合は、論理式の再生成処理を再度試
みる。この例では、キーワード“ff”をandでつな
いで(“aa”and“bb”and“ee”and
“ff”)or(“dd”)となる。関連キーワードが
どちらのグループにもない場合には、うしろからキーワ
ード“dd”を落して“aa”and“bb”and
“ee”で検索を実行する。
【0079】(ホ)前述した論理式(式1)で検索結果
が予め指定した検索結果件数よりも少ない場合は、次の
ように検索条件を緩和する。まず、論理式(式1)で同
時検索使用頻度が最も高いのは、キーワード“aa”と
“ee”であるので、キーワード“aa”と“ee”の
andをorに変える。即ち、(“aa”)or(“e
e”)or(“dd”)という検索式で検索を行う。更
に緩和の必要がある場合には、次に同時検索使用頻度が
高いキーワードについて緩和処理を行うが、この例で
は、andがないので、これで処理を終了する。
【0080】シソーラスとフリーワード間の関連度は、
同一文書内の共出現頻度で定義している。シソーラス間
の関連度は、関連度自体がand検索を行った時の文書
件数と等しくなる。同一文書内共出現頻度を使って、グ
ループ内をandで繋ぐ。グループ内をandで繋ぐこ
とは、同一文書内共出現頻度をそのまま当てはめること
と同じことになる。本実施の形態では、これを利用して
検索論理式を生成している。システム上で同一文書内共
出現するシソーラス、あるいは、シソーラスとフリータ
ームというのは、そのキーワードが持つ件数をそのまま
and検索の件数に置き換えることができる。このた
め、検索システム自体を単純化することができる。ま
た、共出現しているキーワードであると判れば、そのa
nd条件で新たに検索を行わなくても、1個の条件で検
索しただけで全体のandの件数を知ることができる。
【0081】本実施の形態では、グルーピングの概念を
入れて絞り込みを行っている。絞り込むためには、an
d条件を増やさなければならない。本実施の形態では、
and条件を増やすことにより、検索件数を減らすこと
ができるので、検索者の意図をなるべく変えずにand
条件を増やしていくという概念を取り入れている。ま
ず、連想語検索の結果、検索キーワードの最も多いグル
ープの中の同時検索使用頻度が最も高いキーワードを選
択する。この選択した同時検索使用頻度の最も高いキー
ワードの連想語で同じグループ内の他のキーワードの連
想語にもなっている語を1つ検索し、andで繋ぐ。即
ち、同時検索使用頻度の最も高いキーワードと関連付け
られている連想キーワード内のキーワードを選択してき
て、これをandで繋ぐ。絞り込みは、意味概念とし
て、最も強いところを分けてandで繋ぐことによっ
て、全体の意味概念としては、あまり崩さずに特定の部
分を絞り込んでいくという考え方である。
【0082】そして、そのグループの中で連想語がなく
なるまで、andの条件を付け加えていく。この時、1
番重要なグループ内でandで展開して行く。それでも
まだ絞り込みが不十分で件数が多い場合には、グループ
の中に含まれる検索キーワードが次に多いグループを選
択して、同じようにその中をandで崩して連想語に変
えていく。最後のグループまで実行して、まだ件数が多
いのであれば、今度は、orで繋がれたグループを後ろ
から落して行く。orで繋がれたもので、関係の薄いも
のから落して行くと、最後のグループになる。このた
め、本実施の形態では、検索者の意図する検索対象をキ
ーワードの意味論的に最も崩さずに絞り込みを行うこと
ができる。
【0083】本実施の形態では、利用者の設定条件で検
索した結果が、利用者の欲しい検索結果より多い条件の
場合、利用者の指示を受けて、予め規定された検索論理
式の自動変更ルールを基に、検索条件及び組み合せるシ
ソーラスを変える自動絞り込み機能を有するように構成
している。自動変更ルールは、前述した絞り込みルール
や緩和ルールである。予め条件定義のような形でプログ
ラムを組むというのではなくて、何か条件定義をしてお
くと、その条件定義に従って動かして行く。ルールとし
て、例えば緩和ルール1とか緩和ルール2とか、あるい
は絞り込み1とか絞り込み2とかの色々なルールを定義
しておいて、そのルールに応じて動かす。このため、本
実施の形態では、ルールを変更することにより、絞り込
みとか緩和とかの条件を複数持たせることができる。ま
た、同じ与えたもので変更とかを容易に行うことができ
る。
【0084】本実施の形態では、グループの中に含まれ
る検索キーワードが最も多いグループの中の同時検索使
用頻度が最も高いキーワードとの組み合せのandをo
rに変える。即ち、1つの検索プロセスの中で一緒に与
えられる可能性の高い言葉同志を、そこのandで繋が
れていたものをorにすることにより、そこの概念を広
げてやる。関係ないもの同志をorにすると、違った概
念のものが含まれてしまう。これだと、意味がないの
で、なるべくオーバーラップの大きい意味概念的に近い
もの同志をand部分からor部分に広げる。これによ
り、意味概念の近いところでorが取れて緩和される。
【0085】同じように、グループの中でキーワード間
で緩和してまだ足りなければ、今度は、違うキーワード
間のandをorに変えて緩和する。このようにして、
グループの中を全て緩和し、それでもまだ件数が少なく
て更に緩和しないといけない場合、次にキーワード数の
多いグループの中で同じようにandをorに変えて行
く処理を順番に行う。そして、最後のグループまでan
dをorに変えてもまだ件数が足りなくても、それ以上
は緩和することができないので、そのまま結果を返す。
このため、本実施の形態では、利用者が要求している検
索対象のボリュームに対して、できるだけ利用者の検索
意図を保持したままで結果を返すことができる。単に、
and、orで繋ぐと、意味の全く異なるものを含んだ
検索結果(検索のゴミ)が出てくる。これに対し、本実
施の形態では、検索のゴミを少なくした状態で関連する
ものを緩和結果として取り出すことができる。
【図面の簡単な説明】
【図1】 本発明に係る実施の形態の文書資料知的検索
システムの構成を示すブロック図である。
【図2】 図1に示す文書資料検索システムにおける文
書登録時の同一文書内共出現頻度の更新処理フローを示
すフローチャートである。
【図3】 図1に示す文書資料知的検索システムにおけ
る連想キーワード検索処理フローを示すフローチャート
である。
【図4】 図1に示す文書資料知的検索システムにおけ
る未知語の遅延学習処理フローを示すフローチャートで
ある。
【図5】 図1に示す文書資料知的検索システムにおけ
る絞り込み、緩和を説明するための図である。
【図6】 従来の文書資料知的検索システムの構成を示
すブロック図である。
【符号の説明】
1 文書登録部、2 文書検索部、3 データベースイ
ンタフェース、4 文書インデックスデータベース、5
シソーラスデータベース、6 フリータームデータベ
ース、7 連想キーワードデータベース、8 文書実体
データベース、9 同義語/類義語データベース、10
検索論理式自動生成/修正ルール、11 検索/登録
画面、12 連想語関連登録部、13 キーワード検索
支援部、14 検索論理式自動作成/修正部、15 重
み自動学習部。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 予め定義され、かつ利用者が指定可能な
    シソーラスと登録データとの関係を蓄積するシソーラス
    データベースと、フリーワードと登録データとの関係を
    蓄積するフリーワードデータベースとを有する特許文
    書、技術文書、資料等を対象としたキーワード検索を行
    う文書資料知的検索システムにおいて、シソーラスとシ
    ソーラスの関連性を、シソーラスとシソーラスではない
    が、利用者がシソーラスとともに対象データに与えたキ
    ーワードで共通概念を有する連想語として保存する連想
    語データベースを有することを特徴とする文書資料知的
    検索システム。
  2. 【請求項2】 データの登録時、同一文書のキーワード
    として与えた複数のワードのうち、シソーラスデータベ
    ースに存在するキーワードとシソーラスデータベースに
    存在しないキーワードとがあった場合、連想語データベ
    ースに両者の関係をシソーラスと連想語として登録し、
    同時に同一文書のシソーラスキーワードとして与えられ
    た複数のワードの相互関連を同一文書内共出現頻度とし
    て与える同一文書内共出現頻度付与手段を有することを
    特徴とする請求項1に記載の文書資料知的検索システ
    ム。
  3. 【請求項3】 利用者が検索を開始してから終了するま
    での検索履歴を保存し、キーワードデータベース、フリ
    ーワードデータベースにも、更に連想語データベースに
    も存在しないシステム側で認識できないキーワードの未
    知語が出現した場合、1区切りの検索プロセスが終了し
    た段階で検索履歴を基に検索プロセス内で利用されたシ
    ソーラスと未知語を関連付けて連想語データベースに登
    録する学習手段を有することを特徴とする請求項1、2
    の何れかに記載の文書資料知的検索システム。
  4. 【請求項4】 利用者が検索を開始してから終了するま
    での検索履歴を保存し、キーワードデータベース及びフ
    リーワードデータベースには存在しないが、連想語デー
    タベースに存在する連想語が出現した場合、1区切りの
    検索プロセス内で利用者によって与えられたシソーラス
    との間には概念の共通性があると判断し、シソーラスと
    関連語の関係を連想語データベースに登録し、既に存在
    する関連定義の場合は、1区切りの検索プロセス内で同
    時に与えられ利用された検索用の複数のキーワードの頻
    度となる同時検索使用頻度を更新する同時検索使用頻度
    更新手段を有することを特徴とする請求項2に記載の文
    書資料知的検索システム。
  5. 【請求項5】 利用者が検索を開始してから終了するま
    での検索履歴を保存し、キーワードデータベース及びフ
    リーワードデータベースには存在しないが、連想語デー
    タベースに存在する連想語が出現した場合、連想語と関
    連付けられたシソーラスを指定可能なキーワードとして
    利用者に提示する際、同一文書内共出現頻度と同時検索
    使用頻度の関連度によって優先度が付けられた順に提示
    するマンマシン手段を有することを特徴とする請求項3
    に記載の文書資料知的検索システム。
  6. 【請求項6】 予め定義され、かつ利用者が指定可能な
    シソーラスと登録データとの関係を蓄積するシソーラス
    データベースと、フリーワードと登録データとの関係を
    蓄積するフリーワードデータベースとを有する特許文
    書、技術文書、資料等を対象としたキーワード検索を行
    う文書資料知的検索システムにおいて、利用者が検索用
    キーワードを設定する際、同一文書のキーワードとして
    与えられた複数のワードの登録時の同一文書内共出現頻
    度を表し、かつシソーラス間、シソーラス/フリーワー
    ド間をアンドで検索した時の文書件数を表すシソーラス
    間、シソーラス/フリーワード間の関連度に基づいて検
    索論理式を生成する検索論理式生成手段を有することを
    特徴とする文書資料知的検索システム。
  7. 【請求項7】 前記検索論理式生成手段は、検索論理式
    生成の前に連想語検索を行い、関連のあるシソーラス/
    フリーワードをグルーピングし、そのグループ単位で検
    索論理式を生成することを特徴とする請求項6に記載の
    文書資料知的検索システム。
  8. 【請求項8】 前記検索論理式生成手段は、関連のある
    シソーラス/フリーワードをグルーピングしたグループ
    単位で、利用者が入力した個々の検索キーワードの連想
    語検索を行い、連想語検索の結果に基づいて、利用者の
    選択した検索キーワード間において関連のある同一文書
    に共出現している検索キーワードを各々グルーピング
    し、同一文書に共出現している1つのグループを構成し
    ている検索キーワードをANDで結んでサブ論理式を生
    成し、グループ間をORで結ぶことにより、検索論理式
    を生成することを特徴とする請求項7に記載の文書資料
    知的検索システム。
  9. 【請求項9】 予め定義され、かつ利用者が指定可能な
    シソーラスと登録データとの関係を蓄積するシソーラス
    データベースと、フリーワードと登録データとの関係を
    蓄積するフリーワードデータベースとを有する特許文
    書、技術文書、資料等を対象としたキーワード検索を行
    う文書資料知的検索システムにおいて、利用者の設定条
    件で検索した結果が、予め規定された検索論理式の自動
    変更ルールに基づいて検索条件及び組み合せるシソーラ
    スを変える自動絞り込み/緩和手段を有することを特徴
    とする文書資料知的検索システム。
  10. 【請求項10】 前記検索論理式の自動変更ルールは、
    グループの中に含まれる検索キーワードが最も多いグル
    ープの中の同時検索使用頻度が最も高いキーワードの連
    想語で同じグループ内の他のキーワードの連想語にもな
    っている語で関係付けられたこのグループに含まれる以
    外のキーワードを1つ検索し、ANDで繋ぐ第1工程
    と、そのグループ内で連想語でたどれるキーワードがな
    くなるまで第1工程を行う第2工程と、それでも件数が
    多い場合、グループ中に含まれる検索キーワードが次に
    多いグループの中で第1、2工程の処理を行う第3工程
    と、最後のグループまで、連想語でたどれるキーワード
    の処理を実行した後、まだ検索件数が多い場合、ORで
    繋がれたグループを後ろから1つづつ落しながら検索を
    行う第4工程と、最後のグループが1つになった場合、
    検索件数を出力して処理を終了する第5工程とからなる
    ことを特徴とする請求項9に記載の文書資料知的検索シ
    ステム。
  11. 【請求項11】 前記検索論理式の自動変更ルールは、
    グループの中に含まれる検索キーワードが最も多いグル
    ープの中の同時検索使用頻度が最も高いキーワードと次
    のキーワードのANDをORに変える第1工程と、その
    グループ内でANDがなくなるまで第1工程を行う第2
    工程と、それでも件数が少ない場合、グループ中に含ま
    れる検索キーワードが次に多いグループの中で第1、2
    工程の処理を行う第3工程と、最後のグループまで、A
    NDをORに変更する処理を実行した場合、検索件数を
    出力して処理を終了する第4工程とからなることを特徴
    とする請求項9に記載の文書資料知的検索システム。
  12. 【請求項12】 前記検索論理式は、利用者が設定した
    第一キーワードを落さないように導入して生成すること
    を特徴とする請求項6〜11の何れかに記載の文書資料
    知的検索システム。
JP8066213A 1996-03-22 1996-03-22 文書資料知的検索システム Pending JPH09259139A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8066213A JPH09259139A (ja) 1996-03-22 1996-03-22 文書資料知的検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8066213A JPH09259139A (ja) 1996-03-22 1996-03-22 文書資料知的検索システム

Publications (1)

Publication Number Publication Date
JPH09259139A true JPH09259139A (ja) 1997-10-03

Family

ID=13309331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8066213A Pending JPH09259139A (ja) 1996-03-22 1996-03-22 文書資料知的検索システム

Country Status (1)

Country Link
JP (1) JPH09259139A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249931A (ja) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 要求確認型情報提供方法および装置
JP2002297642A (ja) * 2001-03-30 2002-10-11 Fujitsu Ltd 変更支援装置及びコンピュータプログラム
JP2002366567A (ja) * 2001-06-13 2002-12-20 Hitachi Ltd 代替キーワードのフリー設定による検索システム
JP2008251008A (ja) * 2007-03-29 2008-10-16 Nhn Corp 露出用広告情報を提供する方法及びそのシステム
JP2009086774A (ja) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd 検索サービス装置
JP2011525673A (ja) * 2008-06-24 2011-09-22 シャロン ベレンゾン, 特に特許文献に適用可能な検索エンジンおよび方法論
JP2015118676A (ja) * 2013-12-20 2015-06-25 三菱電機株式会社 ガイド用語抽出装置、設計項目抽出システム、およびガイド用語抽出方法
CN111639246A (zh) * 2020-06-09 2020-09-08 中国民航科学技术研究院 一种民用航空航行资料情报汇编告警提示方法及系统
WO2022249927A1 (ja) * 2021-05-28 2022-12-01 株式会社医療情報技術研究所 分類システム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249931A (ja) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 要求確認型情報提供方法および装置
JP2002297642A (ja) * 2001-03-30 2002-10-11 Fujitsu Ltd 変更支援装置及びコンピュータプログラム
JP2002366567A (ja) * 2001-06-13 2002-12-20 Hitachi Ltd 代替キーワードのフリー設定による検索システム
JP4617608B2 (ja) * 2001-06-13 2011-01-26 株式会社日立製作所 代替キーワードのフリー設定による検索システム
JP2008251008A (ja) * 2007-03-29 2008-10-16 Nhn Corp 露出用広告情報を提供する方法及びそのシステム
JP2009086774A (ja) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd 検索サービス装置
JP2011525673A (ja) * 2008-06-24 2011-09-22 シャロン ベレンゾン, 特に特許文献に適用可能な検索エンジンおよび方法論
JP2015118676A (ja) * 2013-12-20 2015-06-25 三菱電機株式会社 ガイド用語抽出装置、設計項目抽出システム、およびガイド用語抽出方法
CN111639246A (zh) * 2020-06-09 2020-09-08 中国民航科学技术研究院 一种民用航空航行资料情报汇编告警提示方法及系统
CN111639246B (zh) * 2020-06-09 2023-06-23 中国民航科学技术研究院 一种民用航空航行资料情报汇编告警提示方法及系统
WO2022249927A1 (ja) * 2021-05-28 2022-12-01 株式会社医療情報技術研究所 分類システム
JP2022182806A (ja) * 2021-05-28 2022-12-08 株式会社医療情報技術研究所 分類システム

Similar Documents

Publication Publication Date Title
US20110029563A1 (en) System and method for searching data sources
US20080021887A1 (en) Data product search using related concepts
US20090094223A1 (en) System and method for classifying search queries
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
US5761666A (en) Document retrieval system
JPH11102376A (ja) 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置
JP2005521954A (ja) リレーショナルデータベースをクエリーする方法および装置
US20070168344A1 (en) Data product search using related concepts
JPH0486950A (ja) 文書検索方法
JPWO2003034279A1 (ja) 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09259139A (ja) 文書資料知的検索システム
JPH07152771A (ja) 利用者情報管理装置、情報フィルタ、情報分類装置、情報再生装置、情報検索装置及び仮名漢字変換装置
JP2005521953A (ja) リレーショナルデータベースをクエリーする方法および装置
JP3612769B2 (ja) 情報検索装置および情報検索方法
KR101958811B1 (ko) 온톨로지 기반의 검색 서비스 시스템 및 방법
JP3645431B2 (ja) 情報検索支援装置および情報検索支援プログラム記憶媒体
JPH05324728A (ja) 情報検索装置
KR101972127B1 (ko) Rdf 트리플 테이터 기반의 지능형 검색 시스템 및 그 방법
JPH11338873A (ja) 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体
JPH052611A (ja) 文生成方式
KR101990632B1 (ko) Lod 데이터를 활용하는 검색 서비스 제공 방법 및 시스템
JPH09251470A (ja) データベース検索方法及び装置
JPH09305611A (ja) データベースの検索装置
JPH10232885A (ja) データベース類似検索方法及び装置及び類似検索プログラムを格納した記憶媒体
WO2010076897A1 (en) A method for document retrieval based on queries that are composed of concepts and recommended terms

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050531