JP2000331012A - 電子化文書検索方法 - Google Patents

電子化文書検索方法

Info

Publication number
JP2000331012A
JP2000331012A JP11138070A JP13807099A JP2000331012A JP 2000331012 A JP2000331012 A JP 2000331012A JP 11138070 A JP11138070 A JP 11138070A JP 13807099 A JP13807099 A JP 13807099A JP 2000331012 A JP2000331012 A JP 2000331012A
Authority
JP
Japan
Prior art keywords
keyword
search
field
thesaurus
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11138070A
Other languages
English (en)
Inventor
Toshihiko Jiyoufuu
敏彦 城風
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP11138070A priority Critical patent/JP2000331012A/ja
Publication of JP2000331012A publication Critical patent/JP2000331012A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 望む文書の検索の適正化、迅速化を図る。 【解決手段】 分野分けされた検索対象,シソーラス中
から所望分野の検索対象,シソーラスを指定すると共に
所望のキーワードを指定することにより、検索対象,シ
ソーラス指定分野及び辞書に基づき選定された語を、前
記キーワードに論理結合して拡張キーワードを得、検索
対象分野に応じて作成された索引語とそれを含む文書を
特定する情報とを対応させてなるインデックス中の検索
対象指定分野における索引語と、上記拡張キーワードと
を用いて該当文書を検索し、その文書を、検索に用いた
索引語及びグレードと共にモニタ画面に表示し、かつ辞
書及びシソーラスの学習を行うこととする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は複数の電子化文書
(本明細書において単に文書ともいう。)の中から所望
の文書をキーワードを用いて検索する電子化文書検索方
法に関するものである。
【0002】
【従来の技術】近年、ペーパーレス化等の要請から、紙
文書の内容を電子データとして記憶媒体に記録、あるい
は文書を初めから電子データとして記憶媒体上に作成す
る文書電子化の進展が目覚ましい。上記記憶媒体上の電
子化文書は、その検索も電子的に行い得るので、大量の
文書中から望む文書(利用者の検索目的にかなった文
書)を検索する場合に、紙文書に比べて極めて有用性が
高い。
【0003】従来、電子化文書の検索は、キーとなるワ
ードやフレーズ(本明細書において単にキーワードとい
う。)を、複数のキーワードが同じ文書に含まれること
を意味するAND、複数のキーワードのいずれかが同じ
文書に含まれることを意味するOR又はキーワードが文
書に含まれないことを意味するNOT等の論理記号で結
合させたものを用いた検索要求により行っている。ま
た、キーワードのみでは利用者のキーワード選択の負担
が大きくなるので、既存の辞書、主として英和,和英辞
書や類義語辞書(シソーラス)を用い、キーワードを拡
張して検索するようにしたものもある。更に、キーワー
ドに対して1(真)か0(偽)かの2値ではなく、0〜
1までの間の連続的な値をとり、1に近い索引語を含む
文書をも検索可能とするファジィ検索も提案されてい
る。
【0004】また従来は、検索する分野(検索対象分
野)をいくつかに分けることはなく、いかなるキーワー
ドについても共通の1分野、すなわち膨大な1つの分野
に対して検索を行い、またシソーラスも全分野共通のも
のが1つあるだけという状況にある。
【0005】
【発明が解決しようとする課題】上記のように従来技術
では、既存の辞書やシソーラスに含まれていない新造
語、専門用語あるいは外国語等には何ら配慮されていな
いため、それら既存の辞書やシソーラスを用い、キーワ
ードを拡張して検索する方法を用いても膨大な新造語、
専門用語あるいは外国語には対応できず、新造語等を含
む文書の検索が不能又は著しく困難であった。
【0006】また、検索対象分野やシソーラスが全分野
共通のものが1つあるだけなので、望む文書の検索対象
分野がある程度予測できる場合でも、常に全分野対象に
検索を行うことになるので、検索に時間がかかった。
【0007】更に、キーワードの拡張に関し、単なる英
和,和英辞書のみの使用では不充分であり、したがって
漢字の読み(漢字かな)辞書や英語の読み(英語カナ)
辞書の使用、あるいはWWWやネットニュースにおける
ような校正を経ていない文書に対するミススペル辞書の
使用等、多数の辞書の使用が考えられる。このような同
義語を抽出する辞書だけでなく、類義語を抽出する各種
シソーラスをも使うことになると、検索に使用する辞書
やシソーラスの総数が増大する。そこで利用者は、どの
辞書やシソーラスを使用するかを選択する必要があり、
検索実行前の準備に手間がかかった。また、手間の割に
は検索の成果が上がらず、望む文書が得られなかった。
【0008】本発明は、上記従来技術の問題を解決すべ
くなされたものである。
【0009】
【課題を解決するための手段】本発明は、上述課題を解
決するため次の構成を採用する。 〈構成1〉各々複数種に分野分けされた検索対象及びシ
ソーラスの中から所望分野の検索対象及びシソーラスを
指定すると共に所望のキーワードを指定することによ
り、上記検索対象、シソーラスの各指定分野及び予め設
定された辞書に基づき選定された語を、指定された上記
キーワードに論理結合して拡張キーワードを得、各検索
対象分野に応じて作成された索引語とその索引語を含む
文書を特定する情報とを対応させてなるインデックス中
の上記検索対象の指定分野における索引語と、上記拡張
キーワードとを用いて該当文書を検索し、検索された文
書を、その検索に用いた索引語及び予め設定された算出
法により求められたグレードと共にモニタ画面に表示
し、かつ、指定された上記キーワード、このキーワード
から得られた上記拡張キーワード及び上記モニタ画面に
表示された索引語中の任意に選択した索引語に基づいて
上記辞書及びシソーラスの学習を行うことを特徴とする
電子化文書検索方法。
【0010】〈構成2〉請求項1に記載の電子化文書検
索方法において、所望分野の検索対象を指定すると共に
所望のキーワードを指定することにより、シソーラスの
分野が指定され、それら検索対象、キーワード及びシソ
ーラスの上記各指定により、上記検索対象、シソーラス
の各指定分野及び予め設定された辞書に基づき選定され
た語を、指定された上記キーワードに論理結合して拡張
キーワードを得ることを特徴とする電子化文書検索方
法。
【0011】〈構成3〉請求項1に記載の電子化文書検
索方法において、所望分野のシソーラスを指定すると共
に所望のキーワードを指定することにより、検索対象の
分野が指定され、それらシソーラス、キーワード及び検
索対象の上記各指定により、上記シソーラス、検索対象
の各指定分野及び予め設定された辞書に基づき選定され
た語を、指定された上記キーワードに論理結合して拡張
キーワードを得ることを特徴とする電子化文書検索方
法。
【0012】〈構成4〉請求項1に記載の電子化文書検
索方法において、所望のキーワードを指定することによ
り、検索対象及びシソーラスの各分野が指定され、それ
らキーワード、検索対象及びシソーラスの上記各指定に
より、上記検索対象、シソーラスの各指定分野及び予め
設定された辞書に基づき選定された語を、指定された上
記キーワードに論理結合して拡張キーワードを得ること
を特徴とする電子化文書検索方法。
【0013】
【発明の実施の形態】以下、本発明の具体例につき図面
を用いて説明する。 《具体例1》 〈具体例1の構成,動作〉図1は本発明による電子化文
書検索方法の具体例1を示すフローチャート、図2は本
発明方法の具体例1が適用された検索システムの説明図
である。図2に示すように、ここでの検索システムは、
キーワード解釈部22、シソーラス23(23a〜23
c…)、辞書24、検索事例ベース25、検索部26及
びインデックス27を備えてなる。
【0014】上記キーワード解釈部22は、利用者21
が指定した検索用キーワード(利用者キーワード)、検
索対象分野及び参照するシソーラス23の分野(参照シ
ソーラス分野)からなる検索要求を受け付けて、拡張キ
ーワード及び検索対象分野を検索部26に与える構成部
である。ここで利用者キーワードは、通常、複数のキー
ワードが論理結合され、また部分一致の記号(ワイルド
カード)を含んでなる。またキーワード解釈部22は、
指定された利用者キーワード、ここでは部分一致の記号
(ワイルドカード)を含んだ利用者キーワードを解釈
し、部分一致の種類(完全一致、前方一致等)を判別す
る機能及びワイルドカードを切り離した純粋なキーワー
ドを抽出する機能をもつ。更にキーワード解釈部22
は、抽出されたキーワードの組が検索事例ベース25に
そのまま存在するか否かを確認し、存在すればその事例
における拡張後のキーワード(拡張キーワード)の組を
抽出し、それをモニタ画面(図示せず)を介して利用者
21に提示し、利用者21の必要に応じた修正を待って
検索部26に与える機能をもつ。上記キーワードの組が
検索事例ベース25にそのまま存在しなければ、利用者
21によって指定されたシソーラス23あるいは辞書2
4にそれらのキーワードが見出し語として登録されてい
るか否かを各々確認し、登録されていればその見出し語
から得られる語(同義語,類義語)と上記組をなすキー
ワードの各々とOR結合された拡張キーワードとして検
索部26に与える。
【0015】上記シソーラス23は、ここではコンピュ
ータ分野シソーラス23a、科学分野シソーラス23b
及び社会分野シソーラス23c等のように予め検索対象
分野毎に作成されており、また見出し語に対する類義語
の類似度付きのファジィシソーラスとなっている。上記
辞書24は、ここでは英和、和英、漢字かな、英語カ
ナ、ミススペル及び略語の6つの辞書を備えてなる。
【0016】上記検索事例ベース25は、過去の検索例
(検索事例)を、1又は複数、ここでは複数のキーワー
ド、検索対象分野及び参照シソーラス分野の組で記憶し
ており、それらのうち2つまでが利用者21によって指
定されたら残りの1つを自動的に指定する機能をももつ
もので、検索要求の補完に使用される。例えば、検索事
例ベース25に、 キーワード:ホームページ 作成 検索対象分野:ネットワーク 参照シソーラス分野:科学 という過去の検索例があった場合、 キーワード:ホームページ 作成 検索対象分野:ネットワーク まで検索要求が指定されると、 参照シソーラス分野:科学 を補完してモニタ画面に表示し、利用者21の確認がと
れると参照シソーラス分野として“科学”を自動指定す
る。
【0017】検索部26は、キーワード解釈部22から
の拡張キーワードと検索対象分野とを受け、インデック
ス27を参照して該当文書を検索する構成部である。す
なわち検索部26は、検索対象文書群中の各文書から抽
出された索引語群で構成されたインデックス27中の、
上記キーワード解釈部22から与えられた検索対象分野
内の検索対象文書群に属する索引語群中の索引語の各々
と上記拡張キーワードとを比較し、一致する索引語を含
む文書をグレード付きで抽出してモニタ画面に表示する
ことで、検索結果を利用者21に与えるものである。上
記グレードは、例えば利用者キーワードそのものの論理
結合を満たす文書については1とし、類義語を含む文書
は1以下、隣接条件を満たす文書は1以上、キーワード
を直接含まなければ1以下とする。検索によりキーワー
ドと一致した索引語は検索文書と共にモニタ画面に表示
されるが、そのうち所望の索引語を利用者21がモニタ
画面上で選ぶと、それが類義語であればシソーラス23
中の上記検索対象分野のシソーラスに、同義語であれば
辞書24に各々登録(学習)される。指定されたキーワ
ード、検索対象分野及び参照シソーラス分野の組は検索
事例ベース25に検索事例として登録される。これらの
学習,登録処理は上記キーワード解釈部22によって行
われる。
【0018】上記インデックス27は、ここでは次のよ
うに作成されている。インデックス27の作成に当たっ
ては、そのサイズを小さくして検索を速めるため、漢
字、平仮名、片仮名、英字、数字等の字種が異なる単語
の重複がないようになされ、字種の区切りで索引語の区
切りとされる。例えば、通常の索引語切出しツールを使
用すると“情報フィルタリング”からは、“情報フィル
タリング”、“情報”及び“フィルタリング”の3つを
抽出することになるが、これでは索引語数が増加してイ
ンデックス27のサイズが増大し、検索に時間がかかる
ようになる。そのためここでは、“情報”及び“フィル
タリング”の2つだけを索引語とする。“情報フィルタ
リング”という検索要求に対しては、検索要求時に“情
報”及び“フィルタリング”が1語隣にあるという指定
(隣接のAND=NAND指定)をして検索することで
補う。インデックス27は、例えば索引語をそのままコ
ード順にソートしたものと、“計算機”を“機算計"の
ように逆順にしてコード順にソートしたものとの2つが
作成,使用される。後者のものは後方一致検索に使用さ
れるが、必須のものではない。インデックス27におけ
る索引語から文書名を検索するためのインデックス構造
は公知のデータベースにおける検索に用いられるものと
同様である。
【0019】上述検索システムの検索要求入力時におけ
るモニタ画面表示内容の一例を図3に示す。この図にお
いて、白丸“○”及び黒丸“●”は各々ポインティング
デバイス(図示せず)で操作される機能選択用釦スイッ
チで、白丸はオフ、黒丸はオンを表す。ここでは、第1
キーワードに“world wide web”が、第
2キーワードに“hp”が、ANDなる論理結合をもっ
て入力されている。検索対象分野は“科学”が、参照シ
ソーラス分野は“経済”が各々入力されている。上記ポ
インティングデバイスで検索釦スイッチB1を操作すれ
ば検索が開始され、取消釦スイッチB2を操作すれば全
ての入力操作、動作中においてはその動作が取り消さ
れ、キーワード、分野、釦スイッチは初期状態(空白あ
るいはオフ)に戻される。
【0020】以下、本発明方法の具体例1を図1,図3
を併用して述べる。ステップ101では、利用者21に
よりキーワード(利用者キーワード)、検索対象分野及
び参照シソーラス分野が指定(入力)される。図3を例
に採って述べると、利用者キーワードは、「略語をOR
結合する」ための機能選択用釦スイッチがオン
(“●”)になっていることから分かるように、第1の
利用者キーワード(キーワード1)“world wi
de web”について、その略語“www”がOR結
合により拡張されるよう指定されている。
【0021】またここでは、1フィールド内に複数語並
べて書かれた利用者キーワードは、各語が隣接のAND
で結合されていると解釈され、通常のAND結合の場合
はフィールドを変更して入力することとされている。し
たがって、図3に例示する第1の利用者キーワード(キ
ーワード1)“world wide web”は、基
本的にはこの3つの単語がある同じ文書に存在し、か
つ、この順序で連続して出現する文書を検索せよという
検索要求と解釈されるが、同時に“world”と“w
ide”、“wide”と“web”は各々隣接のAN
D結合であると解釈される。このような論理結合による
検索は通常の読みの語順に従って実行される。第2の利
用者キーワード(キーワード2)“hp”は、“ww
w”がOR結合されて拡張された上記利用者キーワード
“world wide web”とAND結合される
ものと解釈される。
【0022】このような利用者キーワードの解釈,拡張
は後述ステップ102,103で行われることになる
が、こうした解釈,拡張がなされることを前提として図
3に示すモニタ画面上で利用者キーワードが指定され
る。検索事例ベース25による、過去の検索例に基づく
キーワード、検索対象分野又は参照シソーラス分野の前
述自動指定も行われる。
【0023】図3には例示されていないが、利用者キー
ワードは、通常、部分一致等を指定するためのいくつか
の記号が付されて入力される。例えば、(a)任意の文
字列と一致する記号(ワイルドカード)として“*”、
(b)1つのキーワード中に2つ以上の単語が“―”で
結ばれているか、隣接していることを示す記号として
“_”、(c)1つのキーワード中に2つの単語が両端
に存在するか、1つ目の単語は前方一致、2つめの単語
は後方一致で、これら2つが隣接していることを示す記
号として“+”、が設定され、適宜キーワードに付され
る。
【0024】上記(a)によれば、UNIXのシェルの
正規表現と同じく、“*”によって前方一致、後方一
致、中間一致、両端一致等、柔軟な指定ができる。
(b)によれば、“―”で結ばれた英語の熟語(ang
led−shot等)、(c)によれば、助詞で結ばれ
た日本語の熟語(情報処理の資格試験=情報処理資格試
験等)について、各々有効な検索を行える。例えば、単
語“情報”と“試験”をもつキーワードを、情報*試験
OR(情報*NAND*試験)とする。これによって
“情報処理試験”、“情報の資格試験”、“情報処理の
資格試験”、情報処理資格試験”等が同時に検索できる
ことになる。
【0025】またここでは、利用者キーワードの論理結
合を2段まで許すこととし、1段目の論理結合はAN
D、隣接のAND及びORの3種類、2段目の論理結合
はAND、OR、略語のOR及びNOTの4種類とす
る。例えば、NANDを論理記号のNANDではなく隣
接のAND、AORを略語のORとして、 (world NAND wide NAND web)A
ND(home page*)AND日弁連 のようになる。AORは、辞書24中の略語辞書への登
録(後述ステップ107参照)を主目的とする場合に用
いられるもので、例えば、 (world NAND wide NAND web)A
OR www とキーワード指定すれば、“world wide w
eb”の略語として“www”が略語辞書に必ず登録さ
れる。なおここでは、“www”に他の正式名称(語)
があってもOR結合しないこととされている。
【0026】ステップ102では、利用者キーワードが
解釈される。このステップ102では、上述利用者キー
ワードの解釈に加え、指定された利用者キーワードから
一致の種類と純粋なキーワードの抽出が行われる。例と
して、利用者キーワードがinfo*filterであ
れば、 一致の種類:両端一致 キーワード:(info,filter) と解釈して検索システム中のメモリに保存される。
【0027】ステップ103では、利用者キーワード
が、辞書24及び指定されたシソーラス23を用いて拡
張され、拡張キーワードとして検索部26に与えられ
る。具体的には、利用者キーワードが辞書24中の各見
出し語と順次比較対照され、一致した見出し語から得ら
れる語とOR結合により拡張(OR拡張)され、拡張キ
ーワードとして検索部26に与えられる。
【0028】辞書24の種類によっては、分野や文脈に
よって意味が変わらないもの、例えば英和,和英辞書等
と、変わるものとがあるので、キーワード解釈部22は
利用者21が指定した分野のシソーラス23に基づきど
の意味をとるかを選択する。例えば、利用者キーワード
“monkey”を“猿”と拡張することに問題はない
であろうから、この場合は両者をOR結合して、すなわ
ち“monkey”OR“猿”を拡張キーワードとして
検索部26に与える。利用者キーワードが“comp”
であったとすると、これは情報の分野において正式な単
語“computer”の略語であるから両者をOR結
合して、すなわち“comp”OR“compute
r”とOR拡張し、これを拡張キーワードとして検索部
26に与える。“comp*”と前方一致で指定すると
“compare”等、関係のない語を含む文書が検索
されてしまうので、ここではこのような拡張は行わな
い。
【0029】複合語の略語は曖昧性が高いので、例えば
次のように拡張する。すなわち、利用者キーワードが
“hp”であったとすると、その正式な語(複合語)
“home page”とNAND(隣接のAND)結
合して、“home”NAND“page”と拡張す
る。キーワード“hp”には“home party”
という意味もある。この場合、キーワード解釈部22
は、利用者21が指定した検索対象分野が娯楽や生活で
あれば“home party”であると、コンピュー
タやネットワークであれば“home page”であ
ると判別し、上記と同様にNAND結合して拡張する。
【0030】OR結合される単語にはグレードが付され
る。このグレードは計算により求められるが、その根拠
となるものは、ここでは単語の連接確率である。「連
接」とは、単語同士、例えば単語iと単語jが接近して
出現することを意味し、単語iと単語jが、前後何単語
以内に出現、1文書内に出現(共起)あるいは特定文書
集合内に出現(共起)というように種々の態様が考えら
れる。連接確率は、適宜の態様、ここでは隣接(前後1
語で出現)なる態様が選択されて下式(1)で求めら
れ、上記グレードとして用いられる。 連接確率Wij=(単語iと単語jが連接した回数)/(単語iと単語jのど ちらかが出現した回数) …(1) このような連接確率(グレード)は分野毎に求められ
る。
【0031】あるキーワードkiとある単語kjとの連
接確率Wijは、例えばキーワード“メール”に対し
て、 “電子”0.5 “ネットワーク”0,3 “受信”0.2 のように表される。
【0032】出現する単語全てについて連接確率を計算
し保存しておくことは、そのために必要とするメモリ容
量が多大になることや、得られた連接確率が実用上、ど
の程度信頼のおけるものとなるかを考慮すると、必ずし
も得策とはいい難い。したがって実際には、ほぼ同じ意
味の複数の単語をグループ化し、そのうちの1つの単語
(代表単語)について連接確率を計算し、その値をグル
ープに属する全ての単語の連接確率とされる。例えば、
“ネットワーク”、“Network”及び“電網”等
で“ネットワークグループ”を形成し、そのうち上記
“ネットワーク”について求められた連接確率を“ネッ
トワークグループ”内の他の単語、すなわち“Netw
ork”及び“電網”等の連接確率としても用いる。こ
れら“ネットワーク”、“Network”及び“電
網”等は、ここでは同義語として辞書24中に、連接確
率(グレード)と共に登録されている。
【0033】いま、利用者キーワードとして“コンピュ
ータ”が指定されたものとし、また、辞書24には、英
語対日本語の関係で、Computer,計算機が、英
語対カタカナの関係で、Computer,コンピュー
タが、日本語対ひらがなの関係で、計算機,けいさんき
が、英語略語としてComputer,Comp.が、
日本語略語として電子計算機,計算機が、表記のゆらぎ
としてコンピュータ,コンピューターが、各々登録され
ていたとする。一方、上述したように“ネットワーク”
及び“Network”は同義語として辞書24中に登
録されているので、“Computer Networ
k”も“計算機ネットワーク”も同じものとしてその連
接確率(グレード)を計算できる。これにより、“Co
mputer Network”も“計算機ネットワー
ク”も同じグレードで検索されることになる。すなわ
ち、“ComputerNetwork”が検索されれ
ば“計算機ネットワーク”も検索されることになり、ま
た、後述するように検索結果(文書)にグレードが付さ
れる場合には“Computer Network”を
含む文書と“計算機ネットワーク”を含む文書とは同じ
値のグレードが付されることになる。
【0034】次に、利用者キーワード“hp”について
説明する。“hp”は略語であり、正式な語(複合語)
として“home page”と“home part
y”の2つがあるものとする。いま、コンピュータ分野
シソーラス23aにおいて、“home page”と
して300回、“home party”として100
回出現したとすると、その場合の各語のコンピュータ分
野でのグレードは、例えばグレード=(求める語の出現
回数)/(いずれかの語の最大出現回数)とすると、 “home page”:300/300=1 “home party”:100/300=0.33
3… となる。したがって、コンピュータ分野シソーラス23
aを指定することにより、“home page”を含
む文書は、“home party”を含む文書より必
ず大きなグレードで検索されることになる。また、検索
結果(文書)にグレードが付される場合には、“hom
e page”を含む文書と“home party”
を含む文書の上記グレードの大小に応じた比率でグレー
ドが付されることになる。
【0035】上述例は単語が隣接した複合語(熟語)の
場合を述べたもので、この場合には検索対象分野と一致
する分野のシソーラス23を用いた方が望む文書の検索
上、有効とされるが、検索対象分野とは異なる分野のシ
ソーラス23を用いた方がよい場合もある。パソコン
(パーソナルコンピュータ)が機械であることはコンピ
ュータ分野では自明であり、したがって、利用者キーワ
ード“パソコン”から、それと検索対象分野が一致する
コンピュータ分野のシソーラス23を用いて類義語“機
械”をOR拡張することことは困難であると考えられる
からである。このような場合は、視点を変えるために、
例えばシソーラス23中の経済分野シソーラスや娯楽分
野シソーラス(いずれも図示せず)というような検索対
象分野とは異なる分野のシソーラス23を用いて類義語
をOR拡張する。“パソコン”と“機械”のように概念
に上下関係がある単語同士の場合には、検索対象分野と
は異なる分野のシソーラス23を用いて類義語をOR拡
張した方が検索結果が向上することが多い点からも、こ
のようなOR拡張が有効であるいえる。本具体例1にお
いて、検索要求に当たり、参照するシソーラス分野を任
意に選択可能(ステップ101参照)としているのは、
そのためである。“パーソナルコンピュータ”と“ワー
クステーション”のような概念の上下関係がない、同レ
ベルの単語における類義語のOR拡張に当たっては、検
索対象分野と参照シソーラス分野とを一致させるという
基本手法が守られる。
【0036】なお、上式(1)で求まる連接確率Wij
はある単語と他の単語との類似度をも表す。したがっ
て、シソーラス23における類義語の類似度計算にも連
接確率Wijの計算式である上式(1)が適用できる。
【0037】ステップ104では、文書検索が行われ
る。具体的には、キーワード解釈部26からの拡張キー
ワードがインデックス27中の各索引語と順次比較対照
され、一致した索引語を含む文書の抽出が行われる。抽
出された文書には、拡張キーワードがもつグレードがそ
の文書のグレードとして付される。検索には公知の探索
法、例えば2分探索法が用いられる。
【0038】いま、拡張キーワードに“info*”が
含まれているとすると、これは“info”の前方一致
検索であり、この場合、例えば、 info info. inform infomation information が該当する索引語となり、 info 500文書 info.200文書 inform 300文書 infomation 100文書 information 1056文書 等という抽出結果(該当索引語に対する文書抽出数)が
得られる。
【0039】そして、各索引語を含む文書に対し、拡張
キーワード中の他のキーワードの論理結合によって更に
計算(ORで和集合、ANDで積集合等)し、望む文書
群を絞込み抽出する。ANDは算術積か最小値、ORは
算術和か最大値、NOTは差で計算する。隣接のAND
の場合は、まずそれを通常の(隣接していない)AND
であると仮定して検索を行い、次にこれにより抽出され
た文書群中において、ANDで結ばれた2つのキーワー
ドが隣接しているか否かをチェックし、隣接している文
書を抽出して検索結果とする。この検索結果はステップ
105でモニタ画面に表示されるが、通常のANDであ
ると仮定して検索し、抽出された文書群を検索結果とし
て表示するようにしてもよい。この際、隣接している文
書のグレードを上げておけば、隣接していない文書との
区別が容易になる。ここでは、隣接している文書のグレ
ードを1.1倍してあり、検索の段階に応じた検索結果
の表示,確認に便宜が計られている。
【0040】ステップ105では、検索結果の表示が行
われる。すなわち検索が終了すると、それにより抽出さ
れた文書(検索文書)がモニタ画面に表示される。検索
結果である検索文書がいかなる索引語で検索されたもの
かを知らせるため、検索文書はその検索に用いられた索
引語との対応で表示される。また、各検索文書はそのグ
レードが付されて表示される。ここでのグレードは、各
検索文書の抽出過程において計算された上記各グレード
(値)を加算あるいは乗算等、ここでは乗算することで
求められた値とされている。
【0041】検索文書の表示は、まず各索引語に対する
検索文書数の表示、次に特定の索引語をポインティング
デバイス(図示せず)により指示することによるその索
引語で抽出された文書名の表示、続いて特定の文書名を
上記ポインティングデバイスで指示することによるその
文書の該当ページ(索引語が記述されているページ)の
表示等、種々の段階表示が可能である。なお検索文書の
表示としては、最終的にその文書を特定できる情報が表
示されればよく、例えばそれが書籍であれば書籍の題
名、著者、発行年月日、発行所等が、雑誌であればそれ
ら題名等に加えてシリアル番号が、論文であればそれが
載った学会誌名、論文のタイトル、発表者、発行年月
日、発行所等が該当する。
【0042】ステップ106では、検索結果(検索文
書)の確認が行われる。すなわちこのステップ106で
は、検索結果に満足したか否かの判定がなされる。ステ
ップ105で検索結果が表示され、望む文書が得られた
ときには利用者21の検索結果に満足する旨の操作によ
りステップ107に処理が移る。望む文書が得られない
等、利用者21が検索結果に満足しないときには、満足
するまでステップ101〜106が繰り返される。ここ
では、利用者21が最初に指定したキーワード(利用者
キーワード)、検索対象分野名及び参照シソーラス分野
名は検索システムのバッファメモリに残すことになって
いるので、検索繰返し時における利用者21の操作とし
ては、通常、キーワードを追加指定したり上記各分野名
を変更指定するといった微調整で済む。
【0043】ステップ107では、辞書24及びシソー
ラス23の学習、検索事例ベース25への事例登録が行
われる。具体的には、利用者キーワードにOR結合され
た略語は結合前の利用者キーワードの略語として辞書2
4中の略語辞書に登録される。例えば、利用者キーワー
ド“world wide web”を“www”とい
う略語をOR結合して検索を行ったところ、望む文書が
抽出された場合(ステップ106において結果満足と判
定された場合)は、“www”が“world wid
e web”の略語として辞書24中の略語辞書に登録
される。なお図3は、“www”が“world wi
de web”の略語として辞書24中の略語辞書に初
めから登録されており、機能選択用釦スイッチのオンで
その略語“www”がOR結合されるようなされた場合
を例示したもので、ここでの例とは異なる。
【0044】検索によりキーワードと一致した索引語
は、ステップ105においてモニタ画面に表示される
が、そのうち所望の索引語を利用者21がモニタ画面上
で選ぶと、それが類義語であればシソーラス23中の上
記検索対象分野のシソーラスに、同義語であれば辞書2
4に各々登録(学習)される。
【0045】利用者21が指定したシソーラス23も、
利用者21の指定したキーワード(利用者キーワード)
の内容によって以下のように学習される。すなわち、検
索システムの稼働後は、当該検索システムに対して多く
の利用者21…から多くの利用者キーワードが与えられ
るが、この際、NAND(隣接のAND)結合指定のキ
ーワード相互は類似度が高いとして連接確率を大きくす
る。例えば、利用者キーワードが“マルチ”NAND
“メディア”であった場合、新たな連接確率Wij´
を、Ki=マルチ、Kj=メディアとして、 Wij´=wij+{(KiとKjがAND結合した回数)/(KiとKjの どちらかが出現した回数)}×(1−Wij) …式(4) とする。いま、キーワード“マルチ”に対してキーワー
ド“メディア”の連接確率Wij´が0.75であった
とすると、そのシソーラス23には、“マルチ”又は
“メディア”に対する“メディア”又は“マルチ”の類
似度が0.75であるとして登録(学習)される。これ
により、よく連接するキーワード間の類似度が大きくな
り、その後の検索時に、“マルチ”又は“メディア”の
いずれか一方が利用者キーワードとなったり、利用者キ
ーワードに含まれたりした場合に、他方の語“メディ
ア”又は“マルチ”を含む文書のグレードが大きくな
り、その文書の望む文書としての検索がしやすくなる。
【0046】指定されたキーワード、検索対象分野及び
参照シソーラス分野の組は検索事例ベース25に検索事
例として登録される。これらの学習,登録処理は上記キ
ーワード解釈部22によって行われる。
【0047】〈具体例1の効果〉以上述べたように具体
例1によれば、検索対象分野、参照シソーラス分野及び
利用者キーワードの指定による検索要求に対して、検索
された文書をその検索に用いた索引語及びグレードと共
にモニタ画面に表示するようにしたので、望む文書だけ
の検索が従来方法よりも適切に行い得るという効果があ
る。また、利用者キーワード、拡張キーワード及びモニ
タ画面に表示された索引語中の任意に選択した索引語等
に基づいて、使用した辞書24やシソーラス23が自動
的に学習するので、利用者21のキーワード指定,拡張
等の検索手法のノウハウが蓄積でき、望む文書の検索が
向上し、また、新造語、専門用語、外国語を含んだ文書
の検索が従来より柔軟かつ容易に行えるようになるとい
う効果もある。検索対象分野(又は参照シソーラス分
野)との類似度の大きい参照シソーラス分野(又は検索
対象分野)から順に指定して検索を進めれば、全分野を
一度に検索する従来システムよりも検索時間が短縮する
という効果もある。
【0048】《具体例2》 〈具体例2の構成,動作〉図4は本発明による電子化文
書検索方法の具体例2を示すフローチャート、図5は本
発明方法の具体例2が適用された検索システムの説明
図、図6は図5に示した検索システムの検索要求入力時
におけるモニタ画面表示内容の一例を示す図である。な
お、これら図4〜図6において、図1〜図3と同一又は
相当部分には同一符号を付してその説明を省略する。図
5に示すように、ここでの検索システムは、キーワード
解釈部兼参照シソーラス分野指定部51、シソーラス2
3(23a〜23c…)、辞書24、検索事例ベース2
5、検索部26及びインデックス27を備えてなる。
【0049】上記キーワード解釈部兼参照シソーラス分
野指定部51は、利用者21が指定した利用者キーワー
ド及び検索対象分野からなる検索要求を受け付けて、参
照シソーラス分野を選択,指定し、拡張キーワード及び
検索対象分野を検索部26に与える構成部である。すな
わち具体例2では、参照シソーラス分野は利用者21が
指定することなく、キーワード解釈部兼参照シソーラス
分野指定部51にて自動指定されるものである(図4中
のステップ401,402参照)。したがって図6に
は、図3と異なり、検索対象分野の指定表示窓の右隣に
参照シソーラス分野の指定表示窓がない。キーワード解
釈部兼参照シソーラス分野指定部51は上記参照シソー
ラス分野の自動指定機能の他、具体例1のキーワード解
釈部22と同様の機能をもって構成されている。図5
中、その他の部分は図2と同様である。
【0050】以下に、キーワード解釈部兼参照シソーラ
ス分野指定部51による参照シソーラス分野の自動指定
について説明する。まず、検索対象分野は利用者21に
より指定されているので、その検索対象分野と同一分野
のシソーラスは上記参照シソーラス分野指定部51で自
動指定するシソーラスの第1候補である。また、検索に
有用な分野のシソーラスも有力な候補として挙げられ
る。検索に有用な分野のシソーラスとしては、連想記憶
的に連接する類義語を提示してくれる分野のシソーラス
と、異なった視点あるいは概念レベルからの類義語を提
示してくれる分野のシソーラスの2種類に大別できると
考えられる。検索対象分野との間の類似度を計算して、
前者は類似度の大きいもの、後者は類似度の小さいもの
が該当する。
【0051】分野間の類似度は、例えば以下のような計
算方法により求まる。まず、分野のベクトル化を行う。
各々の分野に出現する単語を多い順にある数だけ抽出
し、正規化する。ただし、頻繁に出てくる助詞等は除外
する。ここでは多い順に5単語を抽出することとし、こ
れらの単語を基本単語とする。例えばネットワーク分野
での出現回数が、 e−mail 3 システム 2 isdn 2 internet 1 携帯電話 1 であり、コンピュータ分野のベクトルは、 scsi 4 ファイル 2 ソフト 1 システム 1 isdn 1 であるとする。
【0052】次に、分野間の類似度を計算する。2つの
分野間の類似度=2つの正規化ベクトルの一致した項目
の内積とする。一致しない項目はベクトルの正規化の絶
対値計算には使うが、内積の分子には用いない。上述例
では、両分野において重複している単語は“isdn”
と“システム”であり、 ネットワーク分野では(2,2) コンピュータ分野では(1,1) の組合せである。したがって類似度は、 x=3×3+2×2+2×2+1×1+1×1=19 y=4×4+2×2+1×1+1×1+1×1=23 として、 (2×1+2×1)/(19の平方根×23の平方根)
=0.19 となる。なお、実際には1000〜5000単語のベク
トルで類似度を求める。
【0053】具体的に述べると、検索対象分野との類似
度の大きい分野のシソーラスの使用は詳細な追加キーワ
ードを得るときに有用であり、類似度の小さい分野のシ
ソーラスの使用は視点の転換に有用と考えられる。例え
ば“端末”はコンピュータ業界の利用者21には“コン
ピュータ”を意味するが、電話業界の利用者21には
“電話”を意味する。専門的な分野であるほど異なった
視点からの文書は検索し難くなるので、利用者21によ
り指定された検索対象分野が専門的な分野であればある
ほど、類似度の小さい分野のシソーラスが選択,指定さ
れるように上記参照シソーラス分野指定部51が設定さ
れることになる。逆に、利用者21により指定された検
索対象分野が極く一般的な分野であるときには、その検
索対象分野と同一の又は類似度の大きい分野のシソーラ
スが選択,指定されるように上記参照シソーラス分野指
定部51が設定されることになる。
【0054】キーワード解釈部兼参照シソーラス分野指
定部51は、辞書24及び自身が指定した分野のシソー
ラス23を用いて利用者キーワードの拡張を行い、例え
ばいくつかの拡張キーワードをモニタ画面に表示して利
用者21に選択させた後、利用者21が指定した検索対
象分野内の検索対象文書群について具体例1と同様の手
順で検索部26に検索させ、最後に、辞書24及びシソ
ーラス23の学習、検索事例ベース25への事例登録を
行う。
【0055】〈具体例2の効果〉以上述べたように具体
例2によれば、検索対象分野及び利用者キーワードを指
定することにより参照シソーラス分野が自動指定される
ようにしたので、自動指定される参照シソーラス分野の
選択手法を適宜設定することにより、類似度の大きい分
野のシソーラスによる詳細な検索あるいは類似度の小さ
い分野のシソーラスによる視点を転換した検索が利用者
21の参照シソーラス分野指定の手間をかけずに行える
という効果がある。その他、具体例1と同様な効果があ
る。検索対象分野との類似度の大きい参照シソーラス分
野から順に指定して検索を進めれば、全分野を一度に検
索する従来システムよりも検索時間が短縮するという効
果もある。
【0056】《具体例3》 〈具体例3の構成,動作〉図7は本発明による電子化文
書検索方法の具体例3を示すフローチャート、図8は本
発明方法の具体例3が適用された検索システムの説明
図、図9は図8に示した検索システムの検索要求入力時
におけるモニタ画面表示内容の一例を示す図である。な
お、これら図7〜図9において、図1〜図3と同一又は
相当部分には同一符号を付してその説明を省略する。図
8に示すように、ここでの検索システムは、キーワード
解釈部兼検索対象分野指定部81、シソーラス23(2
3a〜23c…)、辞書24、検索事例ベース25、検
索部26及びインデックス27を備えてなる。
【0057】上記キーワード解釈部兼検索対象分野指定
部81は、利用者21が指定した利用者キーワード及び
参照シソーラス分野からなる検索要求を受け付けて、検
索対象分野を選択,指定し、拡張キーワード及び検索対
象分野を検索部26に与える構成部である。すなわち具
体例3では、検索対象分野は利用者21が指定すること
なく、キーワード解釈部兼検索対象分野指定部81にて
自動指定されるものである(図7中のステップ701,
702参照)。したがって図9には、図3と異なり検索
対象分野の指定表示窓がない。キーワード解釈部兼検索
対象分野指定部81は上記検索対象分野の自動指定機能
の他、具体例1のキーワード解釈部22と同様の機能を
もって構成されている。図8中、その他の部分は図2と
同様である。
【0058】以下に、キーワード解釈部兼検索対象分野
指定部81による検索対象分野の自動指定について説明
する。まず、参照シソーラス分野は利用者21により指
定されているので、その参照シソーラス分野と同一の検
索対象分野は上記検索対象分野指定部81で自動指定す
る検索対象分野の第1候補である。また、検索に有用な
検索対象分野も有力な候補として挙げられる。検索に有
用な検索対象分野としては、連想記憶的に連接する類義
語を提示してくれる検索対象分野と、異なった視点ある
いは概念レベルからの類義語を提示してくれる検索対象
分野の2種類に大別できると考えられる。参照シソーラ
ス分野との間の類似度を計算して、前者は類似度の大き
いもの、後者は類似度の小さいものが該当する。
【0059】分野間の類似度は、例えば以下のような計
算方法により求まる。まず、分野のベクトル化を行う。
各々の分野に出現する単語を多い順にある数だけ抽出
し、正規化する。ただし、頻繁に出てくる助詞等は除外
する。ここでは多い順に5単語を抽出することとし、こ
れらの単語を基本単語とする。例えばネットワーク分野
での出現回数が、 e−mail 3 システム 2 isdn 2 internet 1 携帯電話 1 であり、コンピュータ分野のベクトルは、 scsi 4 ファイル 2 ソフト 1 システム 1 isdn 1 であるとする。
【0060】次に、分野間の類似度を計算する。2つの
分野間の類似度=2つの正規化ベクトルの一致した項目
の内積とする。一致しない項目はベクトルの正規化の絶
対値計算には使うが、内積の分子には用いない。上述例
では、両分野において重複している単語は“isdn”
と“システム”であり、 ネットワーク分野では(2,2) コンピュータ分野では(1,1) の組合せである。したがって類似度は、 x=3×3+2×2+2×2+1×1+1×1=19 y=4×4+2×2+1×1+1×1+1×1=23 として、 (2×1+2×1)/(19の平方根×23の平方根)
=0.19 となる。なお、実際には1000〜5000単語のベク
トルで類似度を求める。
【0061】具体的に述べると、参照シソーラス分野と
の類似度の大きい検索対象分野の指定は詳細な追加キー
ワードを得るときに有用であり、類似度の小さい検索対
象分野の指定は視点の転換に有用と考えられる。例えば
“端末”はコンピュータ業界の利用者21には“コンピ
ュータ”を意味するが、電話業界の利用者21には“電
話”を意味する。専門的な分野であるほど異なった視点
からの文書は検索し難くなるので、利用者21により指
定された参照シソーラス分野が専門的な分野であればあ
るほど、類似度の小さい検索対象分野が選択,指定され
るように上記検索対象分野指定部81が設定されること
になる。逆に、利用者21により指定された参照シソー
ラス分野が極く一般的な分野であるときには、その参照
シソーラス分野と同一の又は類似度の大きい検索対象分
野が選択,指定されるように上記検索対象分野指定部8
1が設定されることになる。
【0062】また上記検索対象分野指定部81は、最初
に類似度の最も大きい検索対象分野が、その後、次に類
似度の大きい3種の検索対象分野が、というように類似
度の大きい順から選択,指定されるようにしたり、ある
いは最初又は最後に類似度の最も小さい検索対象分野が
選択,指定されるようにしたり、種々の設定が可能であ
る。更に、キーワード解釈部兼検索対象分野指定部81
は、辞書24及び利用者21が指定した分野のシソーラ
ス23を用いて利用者キーワードの拡張を行い、例えば
いくつかの拡張キーワードをモニタ画面に表示して利用
者21に選択させた後、自身が指定した検索対象分野内
の検索対象文書群について具体例1と同様の手順で検索
部26に検索させ、最後に、辞書24及びシソーラス2
3の学習、検索事例ベース25への事例登録を行う。
【0063】〈具体例3の効果〉以上述べたように具体
例3によれば、参照シソーラス分野及び利用者キーワー
ドを指定することにより検索対象分野が自動指定される
ようにしたので、自動指定される検索対象分野の選択手
法を適宜設定することにより、類似度の大きい検索対象
分野による詳細な検索あるいは類似度の小さい検索対象
分野による視点を転換した検索が利用者21の検索対象
分野指定の手間をかけずに行えるという効果がある。そ
の他、具体例1と同様な効果がある。参照シソーラス分
野との類似度の大きい検索対象分野から順に指定して検
索を進めれば、全分野を一度に検索する従来システムよ
りも検索時間が短縮するという効果もある。
【0064】《具体例4》 〈具体例4の構成,動作〉図10は本発明による電子化
文書検索方法の具体例4を示すフローチャート、図11
は本発明方法の具体例4が適用された検索システムの説
明図、図12は図11に示した検索システムの検索要求
入力時におけるモニタ画面表示内容の一例を示す図であ
る。なお、これら図10〜図12において、図1〜図3
と同一又は相当部分には同一符号を付してその説明を省
略する。図11に示すように、ここでの検索システム
は、キーワード解釈部兼検索対象分野,参照シソーラス
分野指定部100、シソーラス23(23a〜23c
…)、辞書24、検索事例ベース25、検索部26及び
インデックス27を備えてなる。
【0065】上記キーワード解釈部兼検索対象分野,参
照シソーラス分野指定部100は、利用者21が指定し
た利用者キーワードからなる検索要求を受け付けて、検
索対象分野及び参照シソーラス分野を選択,指定し、拡
張キーワード及び検索対象分野を検索部26に与える構
成部である。すなわち具体例4では、検索対象分野及び
参照シソーラス分野は利用者21が指定することなく、
キーワード解釈部兼検索対象分野,参照シソーラス分野
指定部100にて自動指定されるものである(図10中
のステップ1001,1002参照)。したがって図1
2には、図3と異なり検索対象分野及び参照シソーラス
分野の指定表示窓がない。キーワード解釈部兼検索対象
分野,参照シソーラス分野指定部100は上記検索対象
分野及び参照シソーラス分野の自動指定機能の他、具体
例1のキーワード解釈部22と同様の機能をもって構成
されている。図11中、その他の部分は図2と同様であ
る。
【0066】以下に、キーワード解釈部兼検索対象分
野,参照シソーラス分野指定部100による検索対象分
野及び参照シソーラス分野の自動指定について説明す
る。ここでは、キーワード(利用者キーワード)が利用
者21により指定されているので、この利用者キーワー
ドと検索対象分野及び参照シソーラス分野との各類似度
をもとに両分野を選択,指定する。検索に有用な検索対
象分野,参照シソーラス分野は上記検索対象分野,参照
シソーラス分野指定部100で自動指定する両分野の有
力な候補である。検索に有用な検索対象分野,参照シソ
ーラス分野(以下、単に分野という。)としては、連想
記憶的に連接する類義語を提示してくれる分野と、異な
った視点あるいは概念レベルからの類義語を提示してく
れる分野の2種類に大別できると考えられる。利用者キ
ーワードとの間の類似度を計算して、前者は類似度の大
きいもの、後者は類似度の小さいものが該当する。
【0067】利用者キーワードと分野間の類似度は、例
えば以下のような計算方法により求まる。まず、分野の
ベクトル化を行う。各々の分野に出現する単語を多い順
にある数だけ抽出し、正規化する。ただし、頻繁に出て
くる助詞等は除外する。ここでは多い順に5単語を抽出
することとし、これらの単語を基本単語とする。例えば
ネットワーク分野での出現回数が、 e−mail 3 システム 2 isdn 2 internet 1 携帯電話 1 であるとする。
【0068】次に利用者キーワードのベクトル化を行
う。全分野において利用者キーワード、例えば“Com
puter”が、以下のような単語と以下のような回数
で隣接しているものとする。これを並べてベクトルとす
ると、 scsi 4 ファイル 2 ソフト 1 システム 1 isdn 1 が、利用者キーワードのベクトルとなる。
【0069】次に、利用者キーワードと分野間の類似度
を計算する。利用者キーワードと分野間の類似度=2つ
の正規化ベクトルの一致した項目の内積とする。一致し
ない項目はベクトルの正規化の絶対値計算には使うが、
内積の分子には用いない。上述例では、利用者キーワー
ドと分野間において重複している単語は“isdn”と
“システム”であり、 ネットワーク分野では(2,2) 利用者キーワードでは(1,1) の組合せである。したがって類似度は、 x=3×3+2×2+2×2+1×1+1×1=19 y=4×4+2×2+1×1+1×1+1×1=23 として、 (2×1+2×1)/(19の平方根×23の平方根)
=0.19 となる。なお、実際には1000〜5000単語のベク
トルで類似度を求める。
【0070】具体的に述べると、利用者キーワードとの
類似度の大きい分野の指定は詳細な追加キーワードを得
るときに有用であり、類似度の小さい分野の指定は視点
の転換に有用と考えられる。例えば“端末”はコンピュ
ータ業界の利用者21には“コンピュータ”を意味する
が、電話業界の利用者21には“電話”を意味する。専
門的なキーワードであるほど異なった視点からの文書は
検索し難くなるので、利用者キーワードが専門的なキー
ワードあればあるほど、類似度の小さい分野が選択,指
定されるように上記検索対象分野,参照シソーラス分野
指定部100が設定されることになる。逆に、利用者キ
ーワードが極く一般的なキーワードであるときには、そ
の利用者キーワードと同一の又は類似度の大きい分野が
選択,指定されるように上記検索対象分野,参照シソー
ラス分野指定部100が設定されることになる。
【0071】また上記検索対象分野,参照シソーラス分
野指定部100は、最初に類似度の最も大きい分野が、
その後、次に類似度の大きい3種の分野が、というよう
に類似度の大きい順から選択,指定されるようにした
り、あるいは最初又は最後に類似度の最も小さい分野が
選択,指定されるようにしたり、種々の設定が可能であ
る。キーワード解釈部兼検索対象分野,参照シソーラス
分野指定部100は、辞書24及び自身が指定した分野
のシソーラス23を用いて利用者キーワードの拡張を行
い、例えばいくつかの拡張キーワードをモニタ画面に表
示して利用者21に選択させた後、自身が指定した検索
対象分野内の検索対象文書群について具体例1と同様の
手順で検索部26に検索させ、最後に、辞書24及びシ
ソーラス23の学習、検索事例ベース25への事例登録
を行う。
【0072】〈具体例4の効果〉以上述べたように具体
例4によれば、利用者キーワードを指定することにより
検索対象分野及び参照シソーラス分野が自動指定される
ようにしたので、自動指定される各分野の選択手法を適
宜設定することにより、類似度の大きい各分野による詳
細な検索あるいは類似度の小さい各分野による視点を転
換した検索が利用者21の各分野指定の手間をかけずに
行えるという効果がある。その他、具体例1と同様な効
果がある。利用者キーワードとの類似度の大きい各分野
から順に指定して検索を進めれば、全分野を一度に検索
する従来システムよりも検索時間が短縮するという効果
もある。
【図面の簡単な説明】
【図1】本発明方法の具体例1を示すフローチャートで
ある。
【図2】本発明方法の具体例1が適用された検索システ
ムの説明図である。
【図3】図2に示した検索システムの検索要求入力時に
おけるモニタ画面表示内容の一例を示す図である。
【図4】本発明方法の具体例2を示すフローチャートで
ある。
【図5】本発明方法の具体例2が適用された検索システ
ムの説明図である。
【図6】図5に示した検索システムの検索要求入力時に
おけるモニタ画面表示内容の一例を示す図である。
【図7】本発明方法の具体例3を示すフローチャートで
ある。
【図8】本発明方法の具体例3が適用された検索システ
ムの説明図である。
【図9】図8に示した検索システムの検索要求入力時に
おけるモニタ画面表示内容の一例を示す図である。
【図10】本発明方法の具体例4を示すフローチャート
である。
【図11】本発明方法の具体例4が適用された検索シス
テムの説明図である。
【図12】図11に示した検索システムの検索要求入力
時におけるモニタ画面表示内容の一例を示す図である。
【符号の説明】
21 利用者 22 キーワード解釈部 23 シソーラス(〜…) 23a コンピュータ分野シソーラス 23b 科学分野シソーラス 23c 社会分野シソーラス 24 辞書 25 検索事例ベース 26 検索部 27 インデックス 51 キーワード解釈部兼参照シソーラス分野指定部 81 キーワード解釈部兼検索対象分野指定部 100 キーワード解釈部兼検索対象分野,参照シソー
ラス分野指定部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 各々複数種に分野分けされた検索対象及
    びシソーラスの中から所望分野の検索対象及びシソーラ
    スを指定すると共に所望のキーワードを指定することに
    より、前記検索対象、シソーラスの各指定分野及び予め
    設定された辞書に基づき選定された語を、指定された前
    記キーワードに論理結合して拡張キーワードを得、 各検索対象分野に応じて作成された索引語とその索引語
    を含む文書を特定する情報とを対応させてなるインデッ
    クス中の前記検索対象の指定分野における索引語と、前
    記拡張キーワードとを用いて該当文書を検索し、 検索された文書を、その検索に用いた索引語及び予め設
    定された算出法により求められたグレードと共にモニタ
    画面に表示し、 かつ、指定された前記キーワード、このキーワードから
    得られた前記拡張キーワード及び前記モニタ画面に表示
    された索引語中の任意に選択した索引語に基づいて前記
    辞書及びシソーラスの学習を行うことを特徴とする電子
    化文書検索方法。
  2. 【請求項2】 請求項1に記載の電子化文書検索方法に
    おいて、所望分野の検索対象を指定すると共に所望のキ
    ーワードを指定することにより、シソーラスの分野が指
    定され、それら検索対象、キーワード及びシソーラスの
    前記各指定により、前記検索対象、シソーラスの各指定
    分野及び予め設定された辞書に基づき選定された語を、
    指定された前記キーワードに論理結合して拡張キーワー
    ドを得ることを特徴とする電子化文書検索方法。
  3. 【請求項3】 請求項1に記載の電子化文書検索方法に
    おいて、所望分野のシソーラスを指定すると共に所望の
    キーワードを指定することにより、検索対象の分野が指
    定され、それらシソーラス、キーワード及び検索対象の
    前記各指定により、前記シソーラス、検索対象の各指定
    分野及び予め設定された辞書に基づき選定された語を、
    指定された前記キーワードに論理結合して拡張キーワー
    ドを得ることを特徴とする電子化文書検索方法。
  4. 【請求項4】 請求項1に記載の電子化文書検索方法に
    おいて、所望のキーワードを指定することにより、検索
    対象及びシソーラスの各分野が指定され、それらキーワ
    ード、検索対象及びシソーラスの前記各指定により、前
    記検索対象、シソーラスの各指定分野及び予め設定され
    た辞書に基づき選定された語を、指定された前記キーワ
    ードに論理結合して拡張キーワードを得ることを特徴と
    する電子化文書検索方法。
JP11138070A 1999-05-19 1999-05-19 電子化文書検索方法 Pending JP2000331012A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11138070A JP2000331012A (ja) 1999-05-19 1999-05-19 電子化文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11138070A JP2000331012A (ja) 1999-05-19 1999-05-19 電子化文書検索方法

Publications (1)

Publication Number Publication Date
JP2000331012A true JP2000331012A (ja) 2000-11-30

Family

ID=15213277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11138070A Pending JP2000331012A (ja) 1999-05-19 1999-05-19 電子化文書検索方法

Country Status (1)

Country Link
JP (1) JP2000331012A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282828A (ja) * 2000-03-30 2001-10-12 Just Syst Corp 検索装置、検索方法、並びに、記録媒体
JP2004310722A (ja) * 2003-04-08 2004-11-04 Yuzo Shibata 特許の価値評価システム
JP2007500903A (ja) * 2003-07-28 2007-01-18 グーグル・インク 拡張検索クエリを有するユーザインターフェースを提供するシステム
JP2007079898A (ja) * 2005-09-14 2007-03-29 National Institute Of Information & Communication Technology データ表示装置、データ表示方法およびデータ表示プログラム
KR100813806B1 (ko) * 2000-04-18 2008-03-13 주식회사 케이티 중심용어사전을 이용한 표제어의 중심용어 추출 방법 및그를 이용한 정보 검색 시스템 및 그 방법
JP2012146079A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法、及び情報検索プログラム
JP2014041442A (ja) * 2012-08-22 2014-03-06 Fujitsu Marketing Ltd レシート定義データ作成装置およびプログラム
JP2014052889A (ja) * 2012-09-07 2014-03-20 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2018180910A (ja) * 2017-04-12 2018-11-15 日本電信電話株式会社 違法コンテンツ探索装置及び違法コンテンツ探索方法
JP2021009538A (ja) * 2019-07-01 2021-01-28 株式会社野村総合研究所 自然言語処理装置および自然言語処理プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282828A (ja) * 2000-03-30 2001-10-12 Just Syst Corp 検索装置、検索方法、並びに、記録媒体
KR100813806B1 (ko) * 2000-04-18 2008-03-13 주식회사 케이티 중심용어사전을 이용한 표제어의 중심용어 추출 방법 및그를 이용한 정보 검색 시스템 및 그 방법
JP2004310722A (ja) * 2003-04-08 2004-11-04 Yuzo Shibata 特許の価値評価システム
JP2007500903A (ja) * 2003-07-28 2007-01-18 グーグル・インク 拡張検索クエリを有するユーザインターフェースを提供するシステム
JP4731479B2 (ja) * 2003-07-28 2011-07-27 グーグル・インク 検索システム及び検索方法
US8856163B2 (en) 2003-07-28 2014-10-07 Google Inc. System and method for providing a user interface with search query broadening
JP2007079898A (ja) * 2005-09-14 2007-03-29 National Institute Of Information & Communication Technology データ表示装置、データ表示方法およびデータ表示プログラム
JP2012146079A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法、及び情報検索プログラム
JP2014041442A (ja) * 2012-08-22 2014-03-06 Fujitsu Marketing Ltd レシート定義データ作成装置およびプログラム
JP2014052889A (ja) * 2012-09-07 2014-03-20 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2018180910A (ja) * 2017-04-12 2018-11-15 日本電信電話株式会社 違法コンテンツ探索装置及び違法コンテンツ探索方法
JP2021009538A (ja) * 2019-07-01 2021-01-28 株式会社野村総合研究所 自然言語処理装置および自然言語処理プログラム

Similar Documents

Publication Publication Date Title
US5544049A (en) Method for performing a search of a plurality of documents for similarity to a plurality of query words
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
US7096218B2 (en) Search refinement graphical user interface
US7523102B2 (en) Content search in complex language, such as Japanese
US20090119281A1 (en) Granular knowledge based search engine
JP2000331012A (ja) 電子化文書検索方法
EP0797157A2 (en) Machine interpreter
JP2004029906A (ja) 文書検索装置および方法
JPH10269233A (ja) 文書データベースの検索結果表示方法及び装置
JP2009086903A (ja) 検索サービス装置
JP2000148780A (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP2002189744A (ja) Webページ検索システム
US20120154436A1 (en) Information display apparatus and information display method
JPH0581326A (ja) データベース検索装置
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP2000207404A (ja) 文書検索方法及び装置並びに記録媒体
EP1605371A1 (en) Content search in complex language, such as japanese
JP2002183195A (ja) 概念検索方式
JP2002132789A (ja) 文書検索方法
JP2000200279A (ja) 情報検索装置
Taghva et al. Farsi searching and display technologies
JP2008203997A (ja) 文書検索装置及びプログラム
JP3579945B2 (ja) 階層項目検索装置および階層項目検索方法
JP2831837B2 (ja) 文書検索装置