JP3915488B2 - 文書検索システム - Google Patents

文書検索システム Download PDF

Info

Publication number
JP3915488B2
JP3915488B2 JP2001361625A JP2001361625A JP3915488B2 JP 3915488 B2 JP3915488 B2 JP 3915488B2 JP 2001361625 A JP2001361625 A JP 2001361625A JP 2001361625 A JP2001361625 A JP 2001361625A JP 3915488 B2 JP3915488 B2 JP 3915488B2
Authority
JP
Japan
Prior art keywords
document
search
database
importance
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001361625A
Other languages
English (en)
Other versions
JP2003162531A (ja
Inventor
篤志 細田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP2001361625A priority Critical patent/JP3915488B2/ja
Publication of JP2003162531A publication Critical patent/JP2003162531A/ja
Application granted granted Critical
Publication of JP3915488B2 publication Critical patent/JP3915488B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、文書を蓄積した文書データベースから所望のキーワードに関連する文書を検索する文書検索システムに関するものである。
【0002】
【従来の技術】
一般に、文書を蓄積した文書データベースから文書を検索する技術として、キーワードとなる語彙を与え、あらかじめ文書に付帯して設定されたキーワードあるいは文書の全文とキーワードとの文字列を照合する技術が広く採用されている。
【0003】
しかしながら、文書に付帯して設定されるキーワードや文書中に使用される語彙は統一されたものではなく、ほぼ同じ概念であっても語彙が異なっていることも多いから、与えたキーワードに一致する語彙が所望の文書に使用されておらず、いわゆる検索漏れによって適切な文書を抽出できない場合がある。キーワードを自由語で与える場合には、関連する複数の語彙をキーワードとして与えることによって検索漏れの可能性を低減することができるものの、文書検索のたびに関連する語彙を探し出すのは手間がかかる上に、検索しようとする文書に関連する分野に精通していなければ適切な語彙を探し出すことはできないという問題がある。
【0004】
これに対して、特開平11−126202号公報には、利用者が入力した簡易な検索条件を、あらかじめテーブルに登録された検索式に変換し、検索条件を展開することによって入力された検索条件よりも語彙数を増やして検索漏れの可能性を低減し、しかも適正な検索式に変換することによって不必要なノイズを排除する技術が記載されている。検索条件からどのような形の検索式に展開するかは、検索条件に応じてあらかじめテーブルに登録されている。つまり、検索条件に対して検索式は固定的に決定されることになる。
【0005】
また、特開平10−72107号公報では、与えたキーワードにより所望の文書が抽出されなかった場合に、キーワードを複数の語彙に分解し、またキーワードに含まれる語彙に関連する別の語彙を導出して語彙数を拡張することにより、検索漏れの可能性を低減する技術が記載されている。
【0006】
さらに、特開平8−171569号公報においては、キーワードを関連する複数の語彙に展開する技術に加えて、検索意図に合わない語彙がキーワードに含まれないようにするために、キーワードとなる語彙にカテゴリを設定し、与えられたキーワードが複数のカテゴリに分類されるときには、各カテゴリの他の語彙を利用者に提示することによって、検索意図に合わない語彙を展開しないようにする技術が記載されている。
【0007】
【発明が解決しようとする課題】
ところで、特開平11−126202号公報に記載された技術では、検索条件に対して検索漏れの可能性を低減するとともに不要なノイズを排除することができるとはいうものの、検索条件に対する検索式が固定的に設定されているものであり、入力された曖昧な検索条件をより検索に適した検索条件に置き換えているに過ぎないものである。したがって、検索条件に対応する検索式をあらかじめ用意しなければならず、適切な検索式を設定するには膨大な労力を要することになる。その結果、特殊な専門用語を検索条件に用いるような場合には検索条件に対応する検索式が設定されていない可能性が高くなり、結果的に検索漏れが増加し不要なノイズが多く含まれる可能性が高くなる。
【0008】
特開平10−72107号公報に記載された技術では、キーワードを複数の語彙に分解して語彙数を拡張するだけであるから、特殊な専門用語であっても対応するのは比較的容易であるが、キーワードに対して所望の文書が抽出されなかったときにキーワードを複数の語彙に分解したり、語彙数を拡張したりするから、所望の文書が抽出されるまでには複数回の検索処理が必要になることが多い。つまり、所望の文書が抽出されるまでに比較的長い時間を要することになる。また、語彙数を拡張するだけであるから、不要なノイズを排除することは困難になる。
【0009】
特開平8−171569号公報には、語彙のカテゴリを分類するとともに、各カテゴリに分類される語彙を利用者に選択させることによって、検索意図に合致するカテゴリの範囲内で語彙を展開する技術が記載されており、この技術では、語彙の拡張によって検索漏れは低減され、またカテゴリを制限することによって不要なノイズは比較的少なくなると考えられる。
【0010】
しかしながら、この公報に記載の技術を用いてもノイズを排除することはできないから、検索条件に対して複数の文書が抽出されることが多く、最終的には抽出された複数の文書の中から利用者が所望の文書を探し出さなければならず、検索意図に合致する文書を探し出すための労力は依然として大きいものである。
【0011】
本発明は上記事由に鑑みて為されたものであり、その目的は、検索対象となる文書に分野別の評価尺度を対応付け、この評価尺度の大きさの順に検索結果を並べ替えて表示することにより、検索意図に合致する文書が迅速に見つかるように並べて文書の抽出を容易にした文書検索システムを提供することにある。
【0012】
【課題を解決するための手段】
請求項1の発明は、特定の複数分野の範囲内で用いる複数の文書が格納された文書データベースと、利用者に検索文を設定させるとともに分野を指定させる検索文設定手段と、検索文設定手段により設定された検索文の検索条件に合致する文書を文書データベースから抽出する検索処理手段と、検索処理手段での検索結果を出力する検索結果出力手段とを備え、検索処理手段は、求め方の異なる複数種類の評価尺度から所望の評価尺度を利用者に選択させる機能と、文書データベースに登録された各文書ごとに分野に応じて付与される評価データを用いて、抽出した各文書ごとに検索文設定手段で指定された分野に関して利用者が選択した種類の評価尺度を求め、当該評価尺度の大小順に並べて検索結果として検索結果出力手段に引き渡す機能とを有することを特徴とする。
【0013】
請求項2の発明は、請求項1の発明において、前記検索文設定手段が、利用者にキーワードを含む自然文である一次検索文を入力させる一次検索文入力手段と、一次検索文からキーワードを抽出する検索文解析手段と、キーワードとなる語彙に対する関連用語が前記分野別に登録された関連用語データベースと、検索文解析手段により抽出したキーワードを関連用語データベースに照合し検索文解析手段で抽出したキーワードに対する関連用語を用いた二次検索文を生成する機能を有した二次検索文生成手段と、一次検索文と二次検索文とから前記検索処理手段に与える検索文を利用者に選択させる実行検索文選択手段とから成ることを特徴とする。
【0014】
請求項3の発明は、請求項2の発明において、前記関連用語データベースには、各関連用語に各分野での用語重要度が対応付けられ、前記二次検索文生成手段では用語重要度を関連用語とともに利用者に示して関連用語から利用者の希望する関連用語を選択させることを特徴とする。
【0015】
請求項4の発明は、請求項1ないし請求項3の発明において、前記文書データベースに登録された各文書ごとの各分野での利用価値を前記評価データとなる文書重要度として登録した文書重要度データベースを備え、前記検索処理手段では、文書重要度が前記評価尺度の選択肢の一つとして選択されると、前記検索条件により抽出した文書を文書重要度データベースに照合することにより文書重要度を前記評価尺度に用いて文書を並べることを特徴とする。
【0017】
請求項5の発明は、請求項1ないし請求項3の発明において、前記文書データベースに登録された各文書ごとの各分野での利用価値を前記評価データとなる文書重要度として登録した文書重要度データベースと、前記文書データベースに登録された各文書ごとの各分野別の参照頻度を前記評価データとして登録した参照頻度データベースとを備え、前記検索処理手段では、抽出した各文書中でのキーワードの出現頻度と文書重要度と参照頻度とを重み付け加算した評価ポイントが前記評価尺度の選択肢の一つとして選択されると、前記検索条件により抽出した文書を文書重要度データベースおよび参照頻度データベースに照合するとともに抽出した各文書中でのキーワードの出現頻度を求めることにより評価ポイントを求め、この評価ポイントを前記評価尺度に用いて文書を並べることを特徴とする。
【0020】
請求項6の発明は、請求項4または請求項の発明において、前記検索処理手段では、前記文書データベースに登録された文書が参照されたときに利用者に利用価値に相当する投票値を入力させ、前記文書重要度データベースに登録された当該文書の文書重要度を投票値が大きいほど大きくするように補正することを特徴とする。
【0026】
【発明の実施の形態】
本実施形態では、文書を格納した文書データベースDB1を備えるサーバ1と、文書データベースDB1に蓄積された文書を検索するために利用者が操作する端末2とが、ローカルエリアネットワークNTを介して接続されている例を示すが、本発明の技術思想は、サーバ1と端末2とはインターネットのような広域ネットワークを介して接続する場合、あるいはネットワークを用いずにサーバ1と端末2との機能を1台のコンピュータ装置によって実現する場合にも適用可能である。また、本実施形態では商品の企画から販売までの過程、つまり商品の企画・開発・製造・販売の各業務において利用される文書を検索する場合を例として説明し、分野としては、商品企画、商品開発、商品設計、製造技術、品質管理、商品営業、トラブル記録を想定しているが、他の文書であっても複数の分野の文書を文書データベースDB1に登録し、分野別に文書を利用する場合には、本発明の技術思想を適用することが可能である。たとえば、業務による分類による分野のほか会社内での利用者の所属部署による分類なども分野として利用可能である。
【0027】
文書データベースDB1に格納された各文書は、全文検索が可能な場合にはキーワードを付与しなくてもよいが、文書がイメージデータである場合のように全文検索が不可能な場合には適宜にキーワードや説明文が付与される。つまり、この種の文書はキーワードや説明文に含まれる語彙が検索される。さらに、文書データベースDB1では各文書に対して見出しも対応付けてある。
【0028】
図1に示すように、サーバ1は、文書データベースDB1に蓄積された文書を抽出するための検索文を設定する検索文設定手段11を備え、検索文設定手段11により設定された検索文を検索処理手段12に与えることによって、文書データベースDB1に蓄積された文書と検索文により指定された検索条件とを照合する。検索文は後述するように自然文の形式で与えられる。検索処理手段12では、検索文に含まれるキーワードとなる語彙を抽出し、キーワードとなる語彙が複数であれば語彙の論理的結合関係を抽出する。ここに、語彙の論理的結合関係とは、論理積、論理和、否定の組合せを意味し、検索文の意味解析によって抽出することができる。こうして検索文から語彙および語彙の論理的結合関係を抽出することにより検索条件を設定することができる。検索処理手段12は、文書データベースDB1に登録されている文書と検索条件とを照合するだけではなく、各文書ごと文書重要度を対応付けた文書重要度データベースDB2と、各文書ごとに過去に抽出された頻度を対応付けた参照頻度データベースDB3とを参照して抽出する文書を決定する。ただし、この処理については後述する。
【0029】
検索処理手段12により抽出された文書に関する情報は検索結果出力手段13に格納され、検索結果出力手段13から端末2に提示される。端末2に設けたディスプレイ装置の画面には、検索処理手段12により抽出された文書の見出しが一覧表示され、一覧表示された見出しから利用者の検索意図にあった文書を指定すれば、指定された文書が文書データベースDB1から読み出されて端末2に転送される。このように、検索処理手段12により抽出された文書の見出しを端末2に提示し、利用者が選択した見出しに対応する文書のみを端末2に転送するから、ローカルネットワークNTを通して伝送される文書数は少なく、文書のデータサイズが大きい場合でもトラフィックを大幅に増加させることなく文書を転送することが可能になる。
【0030】
ところで、検索文設定手段11は、利用者が指定した一次検索文が自然文の形で入力される一次検索文入力手段14と、一次検索文の形態素解析を行ってキーワードとなる語彙を抽出するとともに抽出したキーワードに関連する関連用語を含むように拡張したキーワード(単語または複合語)を設定する検索文解析手段15と、検索文解析手段15において設定されたキーワードを用いて自然文の二次検索文を生成する二次検索文生成手段16と、一次検索文と二次検索文とを利用者に提示し、文書の検索にあたって利用者が希望する検索文を選択させる実行検索文選択手段17とを備える。また、検索文設定手段11は、検索文解析手段15における形態素解析の際に参照するために語彙の品詞を登録した品詞データベースDB4と、検索文解析手段15において関連用語を含むキーワードの設定の際に参照するために関連用語を登録した関連用語データベースDB5とを備える。関連用語データベースDB5に登録される関連用語は、キーワードとなる語彙に対する類義語だけではなく、分野ごとの専門用語や特殊用語、あるいは当該語彙に対して類義以外の特定の関連性を有するような語彙も関連用語として登録される。たとえば、一般に企業内で扱う文書にはトラブルに関する語彙のように不利益を連想する場合でも重要な語彙があるから、このような特定の関連性を有する語彙も関連用語として関連用語データベースDB5に登録される。
【0031】
関連用語データベースDB5は、語彙に対する関連用語だけではなく、各関連用語が各分野に対して持つ重要度(以下では、用語重要度という)が各関連用語に対応付けて登録される。たとえば、「電気特性」という語彙に対して、品質管理の分野では関連用語を「漏電、短絡、過電流、電流」とし、商品企画の分野では関連用語を「電流、電圧、温度」とし、商品設計の分野では関連用語を「電流、位相、リサジュ図、温度ドリフト」としているとすれば、表1のように分野別に関連用語が分類され、さらに各関連用語ごとに数値による用語重要度が対応付けられる。この例では「電気特性」に対して「漏電、短絡、過電流、温度ドリフト」などは不利益を連想させる語彙ではあるが重要な語彙であるから、「電気特性」の関連用語として関連用語データベースDB5に登録される。なお、用語重要度を設定する方法については詳しく説明しないが、各分野で当該語彙が使用されている文書数と、1つの文書中での語彙の出現度数とに基づいて設定する。
【0032】
【表1】
Figure 0003915488
【0033】
検索文解析手段15では、一次検索文入力手段14を通して入力された一次検索文の品詞分解(形態素解析)を行い、キーワードになる語彙(主として名詞であるが、動詞、形容詞、副詞、形容動詞も可能)を抽出する。また、品詞分解により抽出した語彙に複合語があれば複合語を抽出する。たとえば、一次検索文が「製品の電気特性について」であるときには、一次検索部を品詞データベースDB4に照合することによって、「製品/の/電気/特性/に/ついて」という形で品詞分解がなされる(ただし、/は品詞の区切りを示す)。この一次検索文には「電気特性」という複合語が含まれるから、一次検索文は最終的に「製品/の/電気特性/に/ついて」という形に変換される。一次検索文がこのように変換されることによって、キーワードとして「製品」と「電気特性」とが採用される。
【0034】
一次検索文からキーワードとして採用する語彙が決定されると、各キーワードは関連用語データベースDB5に照合され、検索文解析手段15により抽出されたキーワードに対して関連用語が存在するときには、どのキーワードに関連用語が存在するかが利用者に提示される。関連用語は分野別に異なるから分野の指定が可能になっており、検索文解析手段15では指定された分野について関連用語を照合する。ここで利用者が特定のキーワードについて関連用語の提示を希望すれば、そのキーワードについて関連用語の一覧が用語重要度とともに提示され、利用者は用語重要度を参照しながら所望の関連用語を選択することが可能になる。二次検索文生成手段16は、一次検索文から抽出したキーワードと、関連データベースDB5に格納された関連用語のうち利用者が選択した関連用語とを用いて二次検索文を生成する。
【0035】
たとえば、上述のように1次検索文から抽出したキーワードが「製品」と「電気特性」とであって、関連用語データベースDB5には「電気特性」の関連用語として表1の内容が登録されているものとし、かつ利用者が分野として「品質管理」を指定したとすると、関連用語としては「漏電、短絡、過電流、電流」が抽出され、用語重要度とともに利用者に提示される。ここで、利用者が関連用語として「漏電」と「過電流」とをしたとすると、キーワードが「製品」と「漏電」および「過電流」とになるから、二次検索文生成手段16では「製品の漏電、過電流について」という二次検索文を生成する。
【0036】
一次検索文が入力され上述のような作業によって二次検索文が生成されると、実行検索文選択手段17により一次検索文と二次検索文とが利用者に提示される。この段階で利用者は一次次検索文と二次検索文とから検索に用いる検索文を選択することが可能になる。ただし、本実施形態では一次検索文と二次検索文とから1つの検索文のみを選択可能としてある。このようにして、一次検索文だけではなく二次検索文も利用者に提示し、さらには二次検索文も用いて検索を可能とすることによって、利用者が気付かなかったキーワードでの検索が可能になるのである。
【0037】
一次検索文と二次検索文とはいずれも自然文であって、利用者がどの検索文を選択するかにかかわらず検索処理手段12には自然文による検索文が入力される。検索処理手段12では、上述したように自然文である検索文から検索条件を抽出する。上述の例で二次検索文を検索文として用いるとすれば、「製品の漏電、過電流について」が検索文になるから、検索処理手段12では「製品」「漏電」「過電流」の語彙を抽出し、「製品」と「漏電」との論理積と、「製品」と「過電流」との論理積との論理和を検索条件として文書データベースDB1に照合する。つまり、論理積の論理記号を∧、論理和の論理記号を∨とすれば、製品∧(漏電∨過電流)という検索条件を満たす文書を文書データベースDB1から抽出するのである。
【0038】
ところで、上述したように、検索処理手段12は、文書データベースDB1に登録されている文書と検索条件とを照合するだけではなく、各文書について各分野ごとの文書重要度を対応付けた文書重要度データベースDB2と、各文書ごとに過去に参照された頻度(以下、参照頻度という)を対応付けた参照頻度データベースDB3とを参照して抽出する文書を決定する。すなわち、検索処理手段12では、検索条件として用いたキーワードが文書中に出現する頻度(以下、出現頻度という)、各文書の各分野別の文書重要度、各分野別の参照頻度を評価データとして用いて各文書の評価尺度を求め、検索条件を満たす文書の見出しを評価尺度の高い順に並べて検索結果出力手段13に出力する。分野別の文書重要度や参照頻度は、検索文設定手段11で指定された分野に関する文書重要度および参照頻度を用いる。文書重要度データベースDB2と参照頻度データベースDB3とのデータ例を表2、表3にそれぞれ示す。なお、文書重要度データベースDB2に格納される文書重要度は文書の登録者などによって設定される。
【0039】
【表2】
Figure 0003915488
【0040】
【表3】
Figure 0003915488
【0041】
参照頻度としては、上述のようにして見出しを抽出した文書の本文が要求された度数を用いてもよいが、本実施形態では文書が閲覧されると(文書の本文が要求されると)、参照頻度データベースDB3に格納されている参照頻度が大きいほど大きくなるように重み付けした値を求め、この値を現在の参照頻度に加算する。また、各文書の閲覧後に利用者が入力する投票値を集計した値を参照頻度に用いてもよい。前者の参照頻度は本文が要求された回数の多いほど急速に大きくなり、後者の参照頻度は各文書を閲覧した利用者に文書の利用価値に関する投票値を複数段階で投票させるから利用者の判断によって変化する。
【0042】
評価尺度としては、次式によって求められる評価ポイントEPのほか、出現頻度、文書重要度、参照頻度などが選択可能になっている。つまり、評価データからの求め方の異なる複数種類の評価尺度から所望の評価尺度を利用者が選択できるようになっている。
EP=ω1×出現頻度+ω2×文書重要度+ω3×参照頻度
ただし、ω1,ω2,ω3は重み係数であり、出現頻度、文書重要度、参照頻度の算出方法に応じて適宜に設定される。たとえば、表4のように、出現頻度を文書中の語彙数に対するキーワードの出現回数の百分率、文書重要度を10段階の数値、参照頻度を参照回数とする場合には、ω1=50、ω2=1、ω3=0.05などと設定することができる。あるいはまた、出現頻度や参照頻度が文書重要度と同程度の範囲の数値になるように正規化している場合には、ω1=1.0、ω2=0.8、ω3=1.2などと設定することができる。
【0043】
【表4】
Figure 0003915488
【0044】
上述のように評価ポイントEPの高い順に文書を並べることは、検索文設定手段11で指定された分野における文書重要度の順と当該分野における参照頻度の順とを考慮し、文書重要度が高い順であってかつ参照頻度の多い順に文書を並べたことになる。なお、評価尺度として上式の評価ポイントの重み係数を変えた値を用いることも可能である。出現頻度、文書重要度、参照頻度を単独で評価尺度に用いたり、いずれか2つを組み合わせて評価尺度に用いることは、いずれかの重み係数を0に設定することに相当する。
【0045】
検索処理手段12における処理手順を図2に示す。検索処理手段12において検索が開始されると、文書データベースDB1に検索条件が照合されて検索が実行される(S1)。検索条件に合致する検索結果は一旦メモリに格納される(S2)。また、検索処理手段12では指定の分野を検索文設定手段11から取得し(S3)、取得した分野について各文書に対応する文書重要度を文書重要度データベースDB2から抽出する(S4)とともに、参照頻度を参照頻度データベースDB3から抽出する(S5)。このようにして求めた文書重要度および参照頻度を用いてメモリに格納した文書を並べ替え、結果を検索結果出力手段13に出力するのである(S6)。
【0046】
以下では、具体的な作業手順を示して本実施形態の動作を説明する。図3ないし図10に示す画面はサーバ1に接続された端末2のディスプレイ装置に表示されているものとする。文書の検索を開始する前には、まず図3に示す画面が端末2に表示される。この画面には、一次検索文の入力を促すフィールドF1と、フィールドF1に入力された一次検索文から抽出したキーワードに対する関連用語を表示するフィールドF2と、文書の検索を行う分野を指定するフィールドF3とが設けられる。フィールドF1の近傍には「検索実行」、「語句拡張」、「リセット」の各ボタンB1〜B3が設けられる。「検索実行」ボタンB1は一次検索文のみを用いた文書検索の実行を指示する際に用い、「語句拡張」ボタンB2は二次検索文の生成を指定する際に用い、「リセット」ボタンB3はフィールドF1に書き込んだ一次検索文を消去して新たな一次検索文の入力を指示する際に用いる。
【0047】
一次検索文入力手段14により端末2の画面に提示されるフィールドF1の下方には、キーワードの関連用語を表示するフィールドF2が設けられれ、フィールドF2の右端部の上方および下方には、「二次検索文で検索」と表記されたボタンB4が設けられる。さらに、フィールドF2の左端部の下方には、分野を指定するためのフィールドF3が設けられる。さらに、フィールドF3にはボタンB5が隣接して設けられる。ボタンB5を操作すると(通常は、マウスのようなポインティングデバイスによりクリックすることを意味する)、フィールドF3に対応するポップアップメニューが提示され、ポップアップメニューに示された選択肢にカーソルを合わせて選択すると(一般に、マウスのようなポインティングデバイスを用いるときにはカーソルを合わせてクリックすることを意味し、キーボードによる操作の場合にはカーソルキーを用いてカーソルを合わせた後にリターンキーを押下することを意味する)、フィールドF3の内容が確定する。フィールドF3に対応する選択肢は、文書データベースDB1に格納された文書に関連する分野であって、本実施形態では、上述したように、商品企画、商品開発、商品設計、製造技術、品質管理、商品営業、トラブル記録の各分野が選択可能になっている。フィールドF1,F2が表示されている画面の右下部には「ログアウト」と表記されたボタンB6が設けられ、このボタンB6は文書の検索処理を終了する際に操作される。
【0048】
いま、図4に示すように、「製品の電気特性について」という一次検索部をフィールドF1に入力すると、上述したように、検索文解析手段15において、品詞データベースDB4を参照して形態素解析が行われ、「製品」と「電気特性」とがキーワードとして抽出される。ここで、「語句拡張」ボタンB2を操作すると、検索文解析手段15では、キーワードを関連用語データベースDB5に照合し、関連用語データベースDB5に関連用語の登録されているキーワードがあれば、当該キーワードをフィールドF2の「拡張対象語句」欄に表示するとともに、フィールドF2における「拡張実行」欄に「語句検索」ボタンB13を表示する。このように、フィールドF2に「電気特性」が示されたことによって、「電気特性」には関連用語が登録されていることが示される。
【0049】
利用者が「電気特性」という語彙に関して関連用語を知ろうとするときには、「語句拡張ボタン」B2を操作すれば、図5に示すように、フィールドF3において選択されている分野について、「電気特性」という語彙の関連用語を一覧表示したフィールドF5が端末2の画面に表示される。ここで、フィールドF5の上方にはフィールドF5の中に示した関連用語が、どのような語彙に対する関連用語かを示すフィールドF4が設けられる。図示例では、「商品設計」の分野における「電気特性」の関連用語がフィールドF5に示されている(表1の内容を想定している)。また、各関連用語には用語重要度が並記される。フィールドF5の右下方には「戻る」ボタンB7が設けられ、「戻る」ボタンB7の操作によって1画面前の状態に戻ることができる。
【0050】
図5のように関連用語がフィールドF5に示された画面において、利用者は用語重要度を参照して、キーワードに用いる関連用語を選択することができる。つまり、図6に示すように、キーワードとして用いようとする関連用語を選択する(一般にはマウスカーソルを関連用語付近でクリックする)と、各関連用語が反転表示される(図における斜線部が反転表示された領域)。図示例では、関連用語のうち「漏電」と「過電流」とを選択した状態を示している。これは、商品設計のような分野では「電気特性」のうち「電流」は重要な語彙ではあるが、「品質管理」の分野ではあまり重要ではなく、むしろ「漏電」「過電流」が重要になる。そこで、「品質管理」の分野で文書を検索しようとする利用者は、「漏電」と「過電流」とを選択することになる。「漏電」と「過電流」とを反転表示させた状態で「戻る」ボタンB7を操作すると、図7に示すように、フィールドF2における「拡張語句」欄に「漏電、過電流」が表示される。つまり、端末2の画面には、フィールドF1に一次検索文が表示され、一次検索文から抽出したキーワードのうち利用者が関連用語データベースDB2から選択した関連用語がフィールドF2に表示される。なお、拡張語句を修正する必要があれば、「拡張語句」欄を選択して他の語彙に修正することも可能である。
【0051】
この状態で「二次検索文で検索」ボタンB4を操作すると、二次検索文生成手段16によって自然文である二次検索文が自動的に生成される。二次検索文が生成されると、実行検索文選択手段17によって、図8に示すように、新たに開いたウインドウW1内のフィールドF6に二次検索文が表示される。ここでは関連用語として「漏電」と「過電流」とが選択されているから、「製品の漏電、過電流について」という二次検索文が生成される。このウインドウW1の中では、生成した二次検索文を用いて文書を検索するか否かが利用者に問われ、利用者はウインドウW1内の「Yes」ボタンB8と「No」ボタンB9とのいずれかを操作することになる。「Yes」ボタンB8を操作すればウインドウW1が閉じて二次検索文を用いた検索が自動的に実行され、「No」ボタンB9を操作すればウインドウW1が閉じて前画面に戻る。前画面では一次検索文がフィールドF1に表示されているから、「検索実行」ボタンB1を操作すれば一次検索文による検索が可能になる。
【0052】
一次検索文と二次検索文との一方を選択して検索の実行を指示すれば、検索処理手段12によって文書データベースDB1が検索され、文書重要度データベースDB2および参照頻度データベースDB3を参照して条件に合った文書が抽出され、上述した評価ポイントEPを用いて、評価ポイントEPの高い順に抽出された文書の見出しが並べられる。つまり、図9に示すように、フィールドF1には検索を実行した検索文(ここでは、二次検索文)が示され、フィールドF1の下方に表示されるフィールドF7には、評価尺度の種類および算出方法が示される。図示例では評価尺度として評価ポイントEPを用いているから、評価ポイントEPの演算式が示される。フィールドF7の下方に表示されるフィールドF8には、文書の所在(ファイル名)、評価ポイントEP、文書の見出しが一覧表示される。フィールドF8には各文書に対応する「表示」ボタンB10が設けられ、「表示」ボタンB10の操作によって、見出しが示された文書の本文が画面に表示される。
【0053】
図9に示す画面内でフィールドF8の左下方に設けたフィールドF11では、抽出した文書を並べるための評価尺度を利用者に選択させる。すなわち、フィールドF11にはボタンB14が並設され、ボタンB14を操作するとポップアップメニューが示され、このポップアップメニューには選択肢として「評価ポイント」のほか、「出現頻度」「文書重要度」「参照頻度」など異なる複数種類の評価尺度が用意されている。検索処理手段12により抽出された文書は、ポップアップメニューにより選択した評価尺度に従って並べ替えられ、利用者は様々な評価尺度の順で文書の見出しを並べ替えることができ、検索意図に合う文書を探し出す方法を様々に選択することが可能になる。なお、フィールドF11に表示された評価尺度はフィールドF7にも示される。
【0054】
上述のような作業によって文書データベースDB1から検索意図に合致する文書を抽出した後には、図10に示すように、分野を示すフィールドF9と、抽出した文書を示すフィールドF10とを備えた画面が表示される。この画面には、抽出された文書に対して利用者の投票値を入力する欄が設けられ、「大変役に立った」「役に立った」「あまり役に立たなかった」という3段階で文書の利用価値を投票するようになっている。各段階の項目にはラジオボタンB12が付設され、いずれかのラジオボタンB12を選択することによって投票値が入力されるようにしてある。この画面で入力された投票値は、上述のように参照頻度データベースDB3の参照頻度の演算に用いられる。つまり、「大変役に立った」に対応する投票値に対しては参照頻度の加算値を大きくし、「あまり役に立たなかった」に対応する投票値に対しては参照頻度の加算値を小さくする。また、投票値は文書重要度データベースDB2に格納された文書重要度に対する補正値としても用いられる。つまり、文書重要度データベースDB2には、投票値に基づいて設定される補正値を各文書に対応付けて各分野ごとに格納する領域があり、投票値に基づいて設定した補正値が以後の検索において用いられることになる。この補正値は、「大変役に立った」に対応する投票値に対しては文書重要度を大きくするように設定され、「あまり役に立たなかった」に対応する投票値に対しては文書重要度を小さくするように設定される。
【0055】
上述した本実施形態の処理手順の全体を図11に示す。すなわち、文書データベースDB1から文書を検索しようとするときには、まず利用者によって一次検索文が入力される(S1)。入力された一次検索文を品詞分解し(S2)、一次検索文から抽出したキーワードに対する関連用語が関連用語データベースDB5に登録されているときには(S3)、利用者によって関連用語を用いるように指定されると二次検索文を自動的に生成する(S4)。生成された二次検索文を利用者に提示し、二次検索式を用いるか否かを選択させる(S5)。ここに、関連用語がなければ一次検索文を用いて検索することになる。検索式が決定されると検索を実行し(S6)、検索結果として複数の文書が抽出されたときには(S7)、評価尺度の高い順に並べ替える(S8)。また、抽出された文書が1つであればそのまま出力される。このようにして抽出された文書の本文の閲覧が利用者に要求されたときには文書が参照されたものとみなし(S9)、参照回数を更新する(S10)。また、参照されなければそのまま終了する。
【0056】
【発明の効果】
請求項1の発明の構成によれば、各文書の利用価値を分野別に評価した評価尺度を用いて検索結果を評価尺度の大小順に並べて出力するから、利用者の検索意図にあった文書である可能性が高い文書から優先して提示することができ、利用者にとって不要なノイズである文書について考慮することなく目的の文書を抽出できる可能性が高くなる。しかも、複数種類の評価尺度から利用者が所望の評価尺度を選択するから、異なる評価尺度を用いることによって文書の並び順を変えることができ、目的に応じた評価尺度を選択することで目的の文書に到達できる可能性を高めることができる。また、評価データは分野に応じて付与されるから、同じ文書であっても評価尺度は分野によってそれぞれ求められることになり、分野を指定して文書を抽出すれば、指定した分野に応じた評価尺度で文書が評価されることになる。
【0057】
請求項2の発明は、請求項1の発明において、前記検索文設定手段が、利用者にキーワードを含む自然文である一次検索文を入力させる一次検索文入力手段と、一次検索文からキーワードを抽出する検索文解析手段と、キーワードとなる語彙に対する関連用語が前記分野別に登録された関連用語データベースと、検索文解析手段により抽出したキーワードを関連用語データベースに照合し検索文解析手段で抽出したキーワードに対する関連用語を用いた二次検索文を生成する機能を有した二次検索文生成手段と、一次検索文と二次検索文とから前記検索処理手段に与える検索文を利用者に選択させる実行検索文選択手段とから成るものであり、キーワードを拡張する関連用語が分野別に分類されているから、キーワードを拡張して検索漏れを少なくしながらも、分野を制限することによって不要なノイズが含まれる可能性を低減することができる。
【0058】
請求項3の発明は、請求項2の発明において、前記関連用語データベースには、各関連用語に各分野での利用価値の目安となる用語重要度が対応付けられ、前記二次検索文生成手段では用語重要度を関連用語とともに利用者に示して関連用語から利用者の希望する関連用語を選択させるものであり、関連用語に分野別の用語重要度を設定しているから、関連用語として拡張する語彙の有効性の目安を用語重要度によって利用者に与えることができ、キーワードの拡張範囲を利用者に選択させることができるから、抽出された文書のうちで検索意図に合致しないノイズとなる文書数を低減させることができる。つまり、利用者の検索意図に合致する文書を抽出できる可能性が高くなる。
【0059】
請求項4の発明は、請求項1ないし請求項3の発明において、前記文書データベースに登録された各文書ごとの各分野での利用価値を前記評価データとなる文書重要度として登録した文書重要度データベースを備え、前記検索処理手段では、文書重要度が前記評価尺度の選択肢の一つとして選択されると、前記検索条件により抽出した文書を文書重要度データベースに照合することにより文書重要度を前記評価尺度に用いて文書を並べるものであり、各分野での文書の利用価値を文書重要度として設定しているから、文書重要度を登録者が設定するようにすれば、目的の文書の各分野での利用価値を人の意思に従って配列することができ、利用価値の高い文書ほど高い順位で提示される可能性が高くなる。
【0061】
請求項5の発明は、請求項1ないし請求項3の発明において、前記文書データベースに登録された各文書ごとの各分野での利用価値を前記評価データとなる文書重要度として登録した文書重要度データベースと、前記文書データベースに登録された各文書ごとの各分野別の参照頻度を前記評価データとして登録した参照頻度データベースとを備え、前記検索処理手段では、抽出した各文書中でのキーワードの出現頻度と文書重要度と参照頻度とを重み付け加算した評価ポイントが前記評価尺度の選択肢の一つとして選択されると、前記検索条件により抽出した文書を文書重要度データベースおよび参照頻度データベースに照合するとともに抽出した各文書中でのキーワードの出現頻度を求めることにより評価ポイントを求め、この評価ポイントを前記評価尺度に用いて文書を並べるものであり、出現頻度と文書重要度と参照頻度とを総合的に考慮した順位で文書が提示されることになり、目的とする文書が高い順位で提示される確率が高くなる。
【0064】
請求項6の発明は、請求項4または請求項の発明において、前記検索処理手段では、前記文書データベースに登録された文書が参照されたときに利用者に利用価値に相当する投票値を入力させ、前記文書重要度データベースに登録された当該文書の文書重要度を投票値が大きいほど大きくするように補正するものであり、文書重要度が利用者による利用価値の判断によって補正されるから、利用者の価値判断に対応した文書を抽出しやすくなる。
【図面の簡単な説明】
【図1】本発明の実施形態を示すブロック図である。
【図2】同上に用いる検索処理手段の動作説明図である。
【図3】同上の動作説明図である。
【図4】同上の動作説明図である。
【図5】同上の動作説明図である。
【図6】同上の動作説明図である。
【図7】同上の動作説明図である。
【図8】同上の動作説明図である。
【図9】同上の動作説明図である。
【図10】同上の動作説明図である。
【図11】同上の全体の処理手順を示す動作説明図である。
【符号の説明】
1 サーバ
2 端末
11 検索文設定手段
12 検索処理手段
13 検索結果出力手段
14 一次検索文入力手段
15 検索文解析手段
16 二次検索文生成手段
DB1 文書データベース
DB2 文書重要度データベース
DB3 参照頻度データベース
DB4 品詞データベース
DB5 関連用語データベース

Claims (6)

  1. 特定の複数分野の範囲内で用いる複数の文書が格納された文書データベースと、利用者に検索文を設定させるとともに分野を指定させる検索文設定手段と、検索文設定手段により設定された検索文の検索条件に合致する文書を文書データベースから抽出する検索処理手段と、検索処理手段での検索結果を出力する検索結果出力手段とを備え、検索処理手段は、求め方の異なる複数種類の評価尺度から所望の評価尺度を利用者に選択させる機能と、文書データベースに登録された各文書ごとに分野に応じて付与される評価データを用いて、抽出した各文書ごとに検索文設定手段で指定された分野に関して利用者が選択した種類の評価尺度を求める機能と、抽出した各文書を当該評価尺度の大小順に並べて検索結果として検索結果出力手段に引き渡す機能とを有することを特徴とする文書検索システム。
  2. 前記検索文設定手段が、利用者にキーワードを含む自然文である一次検索文を入力させる一次検索文入力手段と、一次検索文からキーワードを抽出する検索文解析手段と、キーワードとなる語彙に対する関連用語が前記分野別に登録された関連用語データベースと、検索文解析手段により抽出したキーワードを関連用語データベースに照合し検索文解析手段で抽出したキーワードに対する関連用語を用いた二次検索文を生成する機能を有した二次検索文生成手段と、一次検索文と二次検索文とから前記検索処理手段に与える検索文を利用者に選択させる実行検索文選択手段とから成ることを特徴とする請求項1記載の文書検索システム。
  3. 前記関連用語データベースには、各関連用語に各分野での用語重要度が対応付けられ、前記二次検索文生成手段では用語重要度を関連用語とともに利用者に示して関連用語から利用者の希望する関連用語を選択させることを特徴とする請求項2記載の文書検索システム。
  4. 前記文書データベースに登録された各文書ごとの各分野での利用価値を前記評価データとなる文書重要度として登録した文書重要度データベースを備え、前記検索処理手段では、文書重要度が前記評価尺度の選択肢の一つとして選択されると、前記検索条件により抽出した文書を文書重要度データベースに照合することにより文書重要度を前記評価尺度に用いて文書を並べることを特徴とする請求項1ないし請求項3のいずれか1項に記載の文書検索システム。
  5. 前記文書データベースに登録された各文書ごとの各分野での利用価値を前記評価データとなる文書重要度として登録した文書重要度データベースと、前記文書データベースに登録された各文書ごとの各分野別の参照頻度を前記評価データとして登録した参照頻度データベースとを備え、前記検索処理手段では、抽出した各文書中でのキーワードの出現頻度と文書重要度と参照頻度とを重み付け加算した評価ポイントが前記評価尺度の選択肢の一つとして選択されると、前記検索条件により抽出した文書を文書重要度データベースおよび参照頻度データベースに照合するとともに抽出した各文書中でのキーワードの出現頻度を求めることにより評価ポイントを求め、この評価ポイントを前記評価尺度に用いて文書を並べることを特徴とする請求項1ないし請求項3記載の文書検索システム。
  6. 前記検索処理手段では、前記文書データベースに登録された文書が参照されたときに利用者に利用価値に相当する投票値を入力させ、前記文書重要度データベースに登録された当該文書の文書重要度を投票値が大きいほど大きくするように補正することを特徴とする請求項4または請求項5記載の文書検索システム。
JP2001361625A 2001-11-27 2001-11-27 文書検索システム Expired - Fee Related JP3915488B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001361625A JP3915488B2 (ja) 2001-11-27 2001-11-27 文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001361625A JP3915488B2 (ja) 2001-11-27 2001-11-27 文書検索システム

Publications (2)

Publication Number Publication Date
JP2003162531A JP2003162531A (ja) 2003-06-06
JP3915488B2 true JP3915488B2 (ja) 2007-05-16

Family

ID=19172246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001361625A Expired - Fee Related JP3915488B2 (ja) 2001-11-27 2001-11-27 文書検索システム

Country Status (1)

Country Link
JP (1) JP3915488B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447775B2 (en) * 2003-06-13 2013-05-21 Microsoft Corporation Database query user interface to assist in efficient and accurate query construction
JP4574186B2 (ja) * 2004-02-17 2010-11-04 株式会社リコー 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
US8788492B2 (en) 2004-03-15 2014-07-22 Yahoo!, Inc. Search system and methods with integration of user annotations from a trust network
JP4460978B2 (ja) * 2004-09-09 2010-05-12 株式会社リコー 情報検索システム、情報提供装置、情報検索方法、並びに、プログラムおよび記録媒体
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法
EP1825406A4 (en) * 2004-10-28 2010-01-20 Yahoo Inc SEARCH SYSTEM AND METHOD WITH INTEGRATION OF USER EVALUATIONS, INCLUDING TRUST NETWORKS
JP5646128B2 (ja) * 2007-02-28 2014-12-24 株式会社東芝 医用画像検索システム
KR20080096005A (ko) * 2007-04-26 2008-10-30 엔에이치엔(주) 키워드 제공 범위에 따라 키워드 제공 방법 및 그 시스템
KR101078907B1 (ko) 2009-02-02 2011-11-01 엘지전자 주식회사 문서 평가 시스템
US20110270826A1 (en) * 2009-02-02 2011-11-03 Wan-Kyu Cha Document analysis system
WO2016103409A1 (ja) * 2014-12-25 2016-06-30 株式会社日立製作所 検索システム
JP6200915B2 (ja) * 2015-03-31 2017-09-20 株式会社図研プリサイト 検索制御装置、検索制御方法、および、検索制御プログラム
JP7126168B2 (ja) * 2019-10-04 2022-08-26 株式会社インタラクティブソリューションズ スライド検索装置、スライド検索システム、スライド検索方法及びスライド検索プログラム

Also Published As

Publication number Publication date
JP2003162531A (ja) 2003-06-06

Similar Documents

Publication Publication Date Title
US10140333B2 (en) Trusted query system and method
US6442540B2 (en) Information retrieval apparatus and information retrieval method
JP3691844B2 (ja) 文書処理方法
US8346795B2 (en) System and method for guiding entity-based searching
US10552467B2 (en) System and method for language sensitive contextual searching
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
US20070143262A1 (en) Interactive search engine
US20050165819A1 (en) Document tabulation method and apparatus and medium for storing computer program therefor
US20070073652A1 (en) Lightweight reference user interface
JP3915488B2 (ja) 文書検索システム
Fan et al. Project-based as-needed information retrieval from unstructured AEC documents
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
US8380731B2 (en) Methods and apparatus using sets of semantically similar words for text classification
JP3861529B2 (ja) 文書検索方法
JP2669601B2 (ja) 情報検索方法及びシステム
US20120179709A1 (en) Apparatus, method and program product for searching document
Grobelnik et al. Visualization of News Articles.
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP2009288870A (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JP3743204B2 (ja) データ分析支援方法および装置
JP2003108584A (ja) 情報検索システム及びプログラム
JP2002189744A (ja) Webページ検索システム
JP7238411B2 (ja) 情報処理装置及びプログラム
JP4496797B2 (ja) 文書管理装置および方法
US20080228725A1 (en) Problem/function-oriented searching method for a patent database system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060919

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070129

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100216

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100216

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100216

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120216

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140216

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees