JP2003263447A - 文書グループ検索装置および文書グループ検索方法、並びに文書グループ検索方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書グループ検索装置および文書グループ検索方法、並びに文書グループ検索方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2003263447A
JP2003263447A JP2002066012A JP2002066012A JP2003263447A JP 2003263447 A JP2003263447 A JP 2003263447A JP 2002066012 A JP2002066012 A JP 2002066012A JP 2002066012 A JP2002066012 A JP 2002066012A JP 2003263447 A JP2003263447 A JP 2003263447A
Authority
JP
Japan
Prior art keywords
document group
document
search
group
holding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002066012A
Other languages
English (en)
Inventor
Atsuo Shimada
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002066012A priority Critical patent/JP2003263447A/ja
Publication of JP2003263447A publication Critical patent/JP2003263447A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 多数の文書グループからなる文書集合体の中
から、所望の文書グループを利用者の指定に基づいて検
索可能とし、検索における操作性を向上させること。 【解決手段】 文書セット101の文書を分類し、文書
グループを出力する文書分類部102と、文書分類10
2により分類され出力された文書グループを保持する文
書グループ保持部105と、利用者からの検索要求を受
け付ける文書グループ検索要求入力部103と、文書グ
ループ検索要求入力部103の出力情報にしたがって文
書グループ保持部105から該当する文書グループを検
索する文書グループ検索部104と、を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、アンケートなどで
得た自由回答データなどの文書データ集合の分析に利用
されるテキストマイニング技術による文書グループ検索
装置および文書グループ検索方法、並びに文書グループ
検索方法をコンピュータに実行させるプログラムを記録
したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】近年、形態素解析や係り受け解析などに
よる日本語解析技術と統計解析技術とを利用し、大量の
テキスト情報から知識を得るテキストマイニング技術が
提案されている。この技術のうち文書分類技術がある。
典型的なものとして、たとえば特開平11−15835
号公報には、各テキストデータを、単語を特徴とする文
書ベクトルと見なし、ベクトル間の類似度(距離)を測
度として文書の自動分類を行なうことが開示されてい
る。すなわち、文書と検索質問の両方にある統一的な表
現によって両者間に類似度(simlarity)を定
義して似ている文書を探し出すベクトル空間法(vec
tor space model)が知られている。
【0003】上記文書分類技術を応用するものとしてつ
ぎの2つに分けられる。一つは、文書の検索結果を分類
して示し、所望の文書への効率的なアクセスを実現しよ
うとするものである。たとえば特開平11−21300
0号公報では、検索結果の文書集合に対して文書分類技
術を適用し、検索結果を複数の文書集合に分割し、それ
を利用者に呈示することが開示されている。これによ
り、利用者には検索結果がどのような話題の文書集合で
構成されているかがわかるので、所望の文書を効率的に
検索することが可能となる。
【0004】二つ目は、言語で記述されたデータ(たと
えば、アンケートの自由回答データや新聞記事データな
ど、本発明では個々の回答あるいは記事も1つの文書と
する)の集合から何らかの傾向を把握するものである。
たとえば、特開2000−242652号公報には、新
聞記事を対象に文書分類技術を適用して話題毎の文書グ
ループを生成し、それをある時間間隔に分割し、表示す
ることにより、ある話題の記事数や話題の分岐を把握さ
せることが開示されている。
【0005】しかしながら多くの文書分類技術を用いて
文書グループを特定するなどといった従来の技術では、
文書グループの呈示、あるいは選択に限られ非常に制限
的である。これは利用者の作業目標から異種的な操作の
対象が文書であったり、読み取れる傾向であったり、文
書グループそのものを操作対象にする必要がほとんどな
いためである。
【0006】ところが、アンケートの自由回答データか
ら生成された文書グループを用いて自由回答データの集
合がどのような文書グループ構造になっているかを調べ
ようとすると、文書グループ同士の意味的な類似性や階
層性の判断を行なう必要がある。この場合、文書のマー
ジや階層構造の生成を行なおうとすると、文書グループ
そのものが主たる操作対象となるため、利用者の要求に
合致した文書グループの検索の実現が要求される。
【0007】これに対し、類似する文書グループの結合
や階層構造を自動的に生成する技術として、統計的に計
算されたものである場合の第1の方法と、辞書で対応す
る場合の第2の方法と、が知られている。
【0008】なお、参考技術文献として、上記に挙げた
特開平11−213000号公報の他に、特開平9−2
31238号公報の「テキスト検索結果表示方法」が開
示されている。この特開平11−213000号公報お
よび特開平9−231238号公報は、検索結果に対し
て文書分類技術を適用し、その結果を利用者に呈示し、
利用者は各グループ毎の呈示情報を参照して任意のグル
ープを選択するものである。
【0009】
【発明が解決しようとする課題】しかしながら、上記に
示されるように、第1の方法により類似する文書グルー
プの結合や階層構造を自動的に生成する場合、統計手法
に基づくため、人間の判断と同一性や階層性の判断が一
致しないことがある。また、第2の方法にあっては辞書
作成のための人的およびハード的なコストがかかるの
で、経済的ではなかった。
【0010】さらに、一般にアンケート分析などの場
合、生成される文書グループは数百にも上ることがしば
しば生じ、ひとつ一つを閲覧して文書グループの同一性
や階層性を判断するのではなく、利用者自身が、ある文
書グループと、同一性のある文書グループの候補の特徴
を指定して検索し、その結果の文書グループ集合の中で
判断することが効率的である。そのためには、文書では
なく、文書グループに対して語句などの指定により文書
グループが検索できることが必要になる。
【0011】また、上記参考技術文献で挙げた公報にあ
っては、特に生成される文書グループの数が多い場合
に、得られた文書グループ同士を用いて分類結果を整理
しようとすると、すべての分類結果を閲覧する必要があ
る。
【0012】本発明は、上記に鑑みてなされたものであ
って、多数の文書グループからなる文書集合体の中か
ら、所望の文書グループを利用者の指定に基づいて検索
可能とし、検索における操作性を向上させることを目的
とする。
【0013】
【課題を解決するための手段】上記の目的を達成するた
めに、請求項1にかかる文書グループ検索装置にあって
は、多数の文書グループの集合体からなる文書セットか
ら特定の文書グループを検索する文書グループ検索装置
であって、前記文書セットの文書を分類し、文書グルー
プを出力する文書グループ分類手段と、前記文書グルー
プ分類手段により分類され出力された前記文書グループ
を保持する文書グループ保持手段と、利用者からの検索
要求を受け付ける文書グループ検索要求入力手段と、前
記文書グループ検索要求入力手段の出力情報にしたがっ
て前記文書グループ保持手段から該当する文書グループ
を検索する文書グループ検索手段と、を備えたものであ
る。
【0014】この発明によれば、単語、検索式、文書グ
ループを文書グループ検索要求入力手段で受け付け、当
該入力情報にしたがって利用者が所望とする文書グルー
プを文書グループ集合体から検索することが可能にな
る。
【0015】また、請求項2にかかる文書グループ検索
装置にあっては、前記文書グループ検索手段は、少なく
とも、前記文書グループ検索要求入力手段の出力情報で
ある検索式にしたがって、同一の検索文書数が一定値以
上である文書グループを出力するものである。
【0016】この発明によれば、請求項1において、検
索式にしたがって、同一の検索文書数が一定値以上であ
る文書グループを出力することにより、所望とする文書
グループに対する高速な検索が可能となる。
【0017】また、請求項3にかかる文書グループ検索
装置にあっては、さらに、前記文書グループ保持手段に
保持された文書グループそれぞれの特徴語を保持する文
書グループ特徴保持手段を備え、前記文書グループ検索
手段は、少なくとも、前記文書グループ検索要求入力手
段の出力情報である検索語にしたがって、各文書グルー
プに対応する前記文書グループ特徴保持手段の特徴語に
基づき文書グループの検索を行なうものである。
【0018】この発明によれば、請求項1において、文
書グループ検索要求入力手段の出力情報である検索語に
したがって、各文書グループに対応する文書グループ特
徴保持手段の特徴語に基づき文書グループの検索を行な
うことにより、所望とする文書グループに対する高速な
検索が可能となる。
【0019】また、請求項4にかかる文書グループ検索
装置にあっては、前記文書グループ検索手段は、少なく
とも、前記文書グループ検索要求入力手段の出力情報で
ある検索式と前記文書グループの類似度にしたがって文
書グループの検索を行なうものである。
【0020】この発明によれば、請求項1において、文
書グループ検索要求入力手段の出力情報である検索式と
前記文書グループの類似度にしたがって文書グループの
検索を行なうことにより、検索語や検索式に対して完全
に一致しなくても、類義語(空間的に近い語)も含めた
文書グループの検索が実現する。
【0021】また、請求項5にかかる文書グループ検索
装置にあっては、前記文書グループ検索手段は、少なく
とも、検索した所属文書グループに対し、当該所属文書
に対する前記文書グループ検索要求入力手段の出力情報
である検索式のヒット率に基づいて検索スコアを計算す
るものである。
【0022】この発明によれば、請求項1〜4のいずれ
かにおいて、検索した所属文書グループに対し、当該所
属文書に対する文書グループ検索要求入力手段の出力情
報である検索式のヒット率に基づいて検索スコアを計算
することにより、検索要求に合致する文書グループをよ
り操作しやすい位置に出力させることが可能になる。
【0023】また、請求項6にかかる文書グループ検索
方法にあっては、多数の文書グループの集合体からなる
文書セットから特定の文書グループを検索する文書グル
ープ検索方法であって、前記文書セットの文書を分類
し、文書グループを出力する第1の工程と、前記第1の
工程により分類され出力された前記文書グループを保持
する第2の工程と、利用者からの検索要求を受け付ける
第3の工程と、前記第3の工程の出力情報にしたがって
前記第2の工程により保持された文書グループから該当
する文書グループを検索する第4の工程と、を含むもの
である。
【0024】この発明によれば、単語、検索式、文書グ
ループを第3の工程で受け付け、当該入力情報にしたが
って利用者が所望とする文書グループを文書グループ集
合体から検索することが可能になる。
【0025】また、請求項7にかかるコンピュータ読み
取り可能な記録媒体にあっては、前記請求項6に記載の
文書グループ検索方法を、コンピュータに実行させるプ
ログラムを記録したものである。
【0026】この発明によれば、請求項6に記載の文書
グループ検索方法をコンピュータ読み取り可能な記録媒
体に記録することにより、当該記録媒体の記録情報をコ
ンピュータで読み出し、実行することにより、文書グル
ープの検索が可能になる。
【0027】
【発明の実施の形態】以下、本発明にかかる文書グルー
プ検索装置および文書グループ検索方法、並びに文書グ
ループ検索方法をコンピュータに実行させるプログラム
を記録したコンピュータ読み取り可能な記録媒体の好適
な実施の形態について添付図面を参照し、詳細に説明す
る。なお、本発明はこの実施の形態に限定されるもので
はない。
【0028】まず、本発明の実施の形態にかかる文書グ
ループ検索装置の構成について図1を参照して説明す
る。図において、符号101は文書の集合体である文書
セット、符号102は文書グループを生成する文書分類
部、符号103は利用者からの検索要求を受け付ける文
書グループ検索要求入力部、符号104は検索要求にし
たがって適切な文書グループを検索する文書グループ検
索部、符号105は生成された文書グループを保持する
文書グループ保持部、符号106は文書グループの特徴
を算出する文書グループ特徴算出部、符号107は算出
された文書グループの特徴を保持する文書グループ特徴
保持部である。
【0029】文書セット101とは、文書の集合であ
り、たとえば、ハードディスクや光ディスクなどの大容
量の記憶媒体に記憶されているテキストコーパス(te
xtcorpus)のデータベースで用意されている。
本発明における文書とは、利用者が認識でき、かつ操作
可能な1つの意味のある語句の集合体をいう。したがっ
て、たとえば、1つの論文、1つの新聞記事、1つの自
由記述回答、あるいは論文から任意に切り出された一部
分など、利用者がテキストデータの単位として考えるも
のであればよい。
【0030】つぎに、以上のように構成された文書グル
ープ検索装置の基本的な一連の流れについて図2に示す
フローチャートを用いて説明する。まず、文書分類部1
02により、文書セット101の文書を分類し文書グル
ープを生成し(ステップS11)、これを文書グループ
保持部105に保持する(ステップS12)。続いて、
文書グループ要求入力部103が利用者からの検索要求
を受け付け、これを入力する処理を実行する(ステップ
S13)。さらに、文書グループ検索部104は、文書
グループ要求入力部103の出力にしたがって文書グル
ープ保持部105から適切な文書グループを検索する
(ステップS14)。以下、これらの動作などについて
詳述する。
【0031】文書分類部102は、図3に示すフローチ
ャートのように形態素解析ステップ、空間圧縮ステッ
プ、文書分類ステップにより文書セット101に対して
文書を分類し文書グループを分類するものである。
【0032】図3において、まず、形態素解析処理とし
て、文書セット101内の各文書について形態素解析
(morphological anaiysis)な
どの既知の方法にしたがって個々の文書から、形態素か
らなるトークン(token)を抽出し、結果として文
書×トークンの行列を得る(ステップS21)。なお、
形態素とは意味をもつ最小の言語単位であり、一つ以上
の音素(phoneme)からなる。また、音素とは人
間の意味(意思)伝達において音声をどのように使って
いるかを元に考えた音の単位である。トークンは出現回
数を考慮に入れた延べ語による統計(平均など)値であ
る。
【0033】続いて、上記ステップS21による形態素
解析処理で求められた文書×トークンの行列に対して特
異分解などを用いて次元圧縮を行なう(ステップS2
2)。なお、検索式と文書グループの類似度にしたがっ
て文書グループの検索を行なう場合は、この空間が単語
―文書空間保持部(図示せず)に記憶される。なお、検
索式と文書グループの類似度にしたがって文書グループ
の検索を行なう。さらに、文書分類処理を実行する(ス
テップS23)。
【0034】ここで、下記方法により各文書は単語−文
書空間内にベクトルとして表現されることになる。ま
ず、クラスタリング(clustering)における
k−means(k−平均アルゴリズム)法を用い、類
似する文書ベクトルをグループ化する。なお、クラスタ
リングであれば他の方法(Nearest Neigh
bor法、K−Nearest Neighbor法、
最小平均分散法など)でもよい。
【0035】続いて、カテゴライゼーションにより、外
部から与えられた分類規準であるカテゴリプロファイル
のベクトルと、各文書ベクトルとの類似性(cosや内
積、距離など)を算出し、各文書の所属カテゴリ(グル
ープ)を決定することにより、文書をグループ化する。
あるいは、カテゴリプロファイル自体が検索式で表現さ
れ、検索結果を文書グループと考えてよい。
【0036】この文書分類部102により生成された文
書グループは、文書グループ保持部105に保存され
る。文書グループ保持部105には、生成された文書グ
ループの識別子と、当該文書グループが所属する文書の
識別子リストと、所属文書の総数と、が記録され、文書
グループ識別子を介して所属文書にアクセスできるよう
になっている。なお、検索式と文書グループの類似度に
したがって文書グループの検索を行なう場合には、生成
された各文書グループの単語−文書空間内での座標も保
存する。
【0037】文書グループ検索要求入力部103は、利
用者からのユーザーインタフェースである。本発明で
は、単語、単語の論理式、自然文、任意に指定された既
存グループが入力可能な検索要求である。ここで、単語
および単語の論理式は文書グループ検索部104へ出力
される。また、自然文は形態素解析を適用し、抽出され
たOR式として文書グループ検索部104へ出力され
る。任意に指定された既存グループは、検索語が生成さ
れ、文書グループ検索部104へ出力される。また、検
索式と文書グループの類似度にしたがって文書グループ
の検索を行なう場合は、さらに指定された文書グループ
の識別子が文書グループ検索部104へ出力してもよ
い。
【0038】なお、上記検索語は、たとえば文書に含ま
れる単語を解析し、この解析された単語の重要度を語句
の出現頻度や品詞、格タイプなどを用いて行なう手法
(特開平10−177575公報などに開示されてい
る)により算出し、当該重要度に基づいて検索語を決定
する。この決定は、たとえばある決められた閾値以上の
重要度を持つ語句を検索語とすることで実現する。
【0039】つぎに、文書グループ検索部104の動作
について説明する。図4は、本発明の実施の形態にかか
る文書グループ検索部104の第1の動作例を示すフロ
ーチャートである。まず、文書グループ検索要求入力部
103から検索語ないし検索式を受け取り(ステップS
31)、全文検索を実行し(ステップS32)、文書の
識別子のリストを受け取る(ステップS33)。
【0040】続いて、文書に対する検索結果である文書
識別子リストと文書グループ保持部105に記録される
各文書グループの所属文書識別子リストとを比較し(ス
テップS34)、同一の識別子の数(検索文書数)を文
書グループ毎にカウントし記録する(ステップS3
5)。
【0041】図5は同一の文書識別子の数を記録したテ
ーブル例を示す図表であり、符号201は文書グループ
の識別子、符号202は検索文書数である。文書グルー
プ検索部104は、当該テーブルを参照し、検索文書数
202が1以上の文書グループの識別子であるか否かを
判断し(ステップS36)、ここで、検索文書数202
が1以上の文書グループの識別子201であれば、文書
グループ検索結果として出力する(ステップS37)。
【0042】図5によれば、文書グループの識別子20
1が0,3,5の文書グループである。ここで、検索文
書数202の代わりに、検索文書数202を文書グルー
プ保持部104に記録されている所属文書の総数で除し
た文書グループ当たりの該当所属文書の割合を用いても
よい。また、検索文書数202あるいは該当所属文書の
割合に閾値を設け、ある一定数以上の値を持つ文書グル
ープを文書グループ検索結果として出力してもよい。
【0043】図6は、本発明の実施の形態にかかる文書
グループ検索部104の第2の動作例を示すフローチャ
ートである。まず、文書グループを生成し(ステップS
41)、文書グループ特徴算出部106により生成され
た文書グループに特有の単語を選択する(ステップS4
2)。なお、本発明で選択する単語はたとえば下記に示
す条件(方法)で実行する。
【0044】第1の選択方法としては、当該の文書グル
ープの所属文書集合において頻度の高い単語をを選択す
る。第2の選択方法としては、当該の文書グループの所
属文書集合に出現する単語のうち、tf・idf値の高
い単語をを選択する。第3の選択方法としては、当該の
文書グループの所属文書集合において出現する文書数が
多い単語を選択する。なお、これらの選択方法の他に、
文書グループを代表すると定義されている一つ以上の単
語であればどのような方式を採用してもよい。
【0045】また、選択される単語数は、上記第1の選
択方法については上位N個と一定にし、第2の選択方法
についてはtf・idf値がM以上の単語とする。な
お、M以上の単語がない場合には第1または第3の選択
方法を用いる。また、上記第3の選択方法については所
属文書数のL%以上出現する単語を選択する。
【0046】さて、このようにして選択された単語は、
文書グループ特徴保持部107に文書グループ毎に保持
される(ステップS43)。さらに文書グループ検索要
求入力部103から受け取った検索語/検索式にしたが
って、それら検索語/検索式と文書グループ特徴保持部
107に保持される単語とを比較し(ステップS4
4)、該当する文書グループの識別子を文書グループ検
索結果として出力する(ステップS45)。
【0047】図7は、本発明の実施の形態にかかる文書
グループ検索部104の第3の動作例を示すフローチャ
ートである。まず、文書グループ検索要求入力部103
から文書グループの識別子を受け取り(ステップS5
1)、その識別子が示す文書グループの単語−文書空間
内での座標と他の文書グループの座標から、両者の類似
度(距離、cos、内積など)を算出し(ステップS5
2)、予め定めた所定値より類似度が高いか否かを判断
する(ステップS53)。ここで、所定値より類似度の
方が高ければ、その文書グループの識別子を出力する
(ステップS54)。
【0048】ところで、入力が検索語の場合、単語−文
書空間内での検索語に該当する単語の座標を受け取り、
当該の座標と文書グループの座標とから、両者の類似度
を算出し、予め定めた一定の値より類似度の高い文書グ
ループの識別子を出力する。また、検索式が与えられた
場合は、検索語毎に文書グループを検索し、それぞれの
検索結果に対して検索式の論理演算子を適用し、最終的
な結果を出力する。
【0049】このようにして出力された文書グループに
ついて、利用者の検索要求に合致する順に出力するため
に、本発明では検索結果である文書グループを求める際
に用いた、検索文書数や文書グループにおける該当所属
文書の割合、類似度などを検索スコアとし、昇順に文書
グループの識別子を出力する。
【0050】つぎに、検索スコアの計算方式について図
8に示すフローチャートを参照し、説明する。ここで
は、検索結果として得られた文書グループの識別子毎
に、以下のステップで検索スコアを計算する。まず、文
書グループ検索要求入力部103から入力された検索語
/検索式にマッチする当該文書グループ所属文書数をカ
ウントする(ステップS61)。続いて、文書グループ
保持部105から当該文書グループの所属文書総数を検
索し(ステップS62)、マッチする所属文書数を所属
文書総数で除してヒット率を求め(ステップS63)、
これを検索スコアとして出力する(ステップS64)。
【0051】ところで、これまで説明してきた方法(動
作)を、プログラム化し、コンピュータ読み取り可能な
記録媒体に記録し、コンピュータ上で実行することもで
きる。また、文書グループ検索方法の一部をネットワー
ク上に有し、通信回線を通して実現することもできる。
【0052】すなわち、この実施の形態で説明した文書
グループ検索方法は、図9に示すように、あらかじめ用
意されたプログラムをパーソナルコンピュータやワーク
ステーションなどのコンピュータ(CPU20)で実行
することにより実現される。このプログラムは、キーボ
ード25の操作などにより、メモリ21、ハードディス
ク24、フレキシブルディスク27、CD−ROM2
6、MO、DVDなどのコンピュータで読み取り可能な
記録媒体に記録され、コンピュータ(CPU20)によ
って記録媒体から読み出し、必要に応じて表示装置23
に表示することによって実行される。また、必要に応じ
てこの文書グループ検索のデータを通信装置22から外
部装置に送受信することも可能である。
【0053】また、このプログラムは、図10に示すよ
うに、上記記録媒体を介して、インターネット30など
のネットワークによってパーソナルコンピュータなどの
装置31〜33に配布することができる。
【0054】
【発明の効果】以上説明したように、本発明にかかる文
書グループ検索装置(請求項1)によれば、単語、検索
式、文書グループを文書グループ検索要求入力手段で受
け付け、当該入力情報にしたがって利用者が所望とする
文書グループを文書グループ集合体から検索することが
可能になるので、多数の文書グループからなる文書集合
体の中から、所望の文書グループを利用者の指定に基づ
いて検索することができ、検索における操作性が向上す
る。
【0055】また、本発明にかかる文書グループ検索装
置(請求項2)によれば、請求項1において、検索式に
したがって、同一の検索文書数が一定値以上である文書
グループを出力するので、所望とする文書グループを高
速に検索することができる。
【0056】また、本発明にかかる文書グループ検索装
置(請求項3)によれば、請求項1において、文書グル
ープ検索要求入力手段の出力情報である検索語にしたが
って、各文書グループに対応する文書グループ特徴保持
手段の特徴語に基づき文書グループの検索を行なうの
で、所望とする文書グループを高速に検索することがで
きる。
【0057】また、本発明にかかる文書グループ検索装
置(請求項4)によれば、請求項1において、文書グル
ープ検索要求入力手段の出力情報である検索式と文書グ
ループの類似度にしたがって文書グループの検索を行な
うことにより、検索語や検索式に対して完全に一致しな
くても、類義語(空間的に近い語)も含めた文書グルー
プの検索が実現するので、文書グループ検索時に、利用
者の情報要求と検索式の表現との不一致を吸収すること
ができる。
【0058】また、本発明にかかる文書グループ検索装
置(請求項5)によれば、請求項1〜4のいずれかにお
いて、検索した所属文書グループに対し、当該所属文書
に対する文書グループ検索要求入力手段の出力情報であ
る検索式のヒット率に基づいて検索スコアを計算するこ
とにより、検索要求に合致する文書グループをより操作
しやすい位置に出力させることが可能になるので、利用
者の作業が効率的になる。
【0059】また、本発明にかかる文書グループ検索方
法(請求項6)によれば、単語、検索式、文書グループ
を第3の工程で受け付け、当該入力情報にしたがって利
用者が所望とする文書グループを文書グループ集合体か
ら検索することが可能になるので、多数の文書グループ
からなる文書集合体の中から、所望の文書グループを利
用者の指定に基づいて検索することができ、検索におけ
る操作性が向上する。
【0060】また、本発明にかかるコンピュータ読み取
り可能な記録媒体(請求項7)によれば、請求項6に記
載の文書グループ検索方法をコンピュータ読み取り可能
な記録媒体に記録することにより、当該記録媒体の記録
情報をコンピュータで読み出し、実行することが実現
し、文書集合体から所望の文書グループの検索を行なう
ことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる文書グループ検索
装置の構成を示すブロック図である。
【図2】本発明の実施の形態にかかる文書グループ検索
装置の基本的な一連の流れを示すフローチャートであ
る。
【図3】本発明の実施の形態にかかる文書分類部の処理
手順を示すフローチャートである。
【図4】本発明の実施の形態にかかる文書グループ検索
部の第1の動作例を示すフローチャートである。
【図5】同一の文書識別子の数を記録したテーブル例を
示す図表である。
【図6】本発明の実施の形態にかかる文書グループ検索
部の第2の動作例を示すフローチャートである。
【図7】本発明の実施の形態にかかる文書グループ検索
部の第3の動作例を示すフローチャートである。
【図8】本発明の実施の形態にかかる検索スコアの計算
手順を示すフローチャートである。
【図9】本発明の実施の形態にかかる文書グループ検索
方法をコンピュータ読み取り可能な記録媒体で実現する
例を示すブロック図である。
【図10】本発明の実施の形態にかかる文書グループ検
索方法をネットワーク上で配信する構成を示すブロック
図である。
【符号の説明】
101 文書セット 102 文書分類部 103 文書グループ検索要求部 104 文書グループ検索部 105 文書グループ保持部 106 文書グループ盗聴算出部 107 文書グループ特徴保持部 201 文書グループの識別子 202 検索文書数

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 多数の文書グループの集合体からなる文
    書セットから特定の文書グループを検索する文書グルー
    プ検索装置であって、 前記文書セットの文書を分類し、文書グループを出力す
    る文書グループ分類手段と、 前記文書グループ分類手段により分類され出力された前
    記文書グループを保持する文書グループ保持手段と、 利用者からの検索要求を受け付ける文書グループ検索要
    求入力手段と、 前記文書グループ検索要求入力手段の出力情報にしたが
    って前記文書グループ保持手段から該当する文書グルー
    プを検索する文書グループ検索手段と、 を備えたことを特徴とする文書グループ検索装置。
  2. 【請求項2】 前記文書グループ検索手段は、少なくと
    も、前記文書グループ検索要求入力手段の出力情報であ
    る検索式にしたがって、同一の検索文書数が一定値以上
    である文書グループを出力することを特徴とする請求項
    1に記載の文書グループ検索装置。
  3. 【請求項3】 さらに、前記文書グループ保持手段に保
    持された文書グループそれぞれの特徴語を保持する文書
    グループ特徴保持手段を備え、 前記文書グループ検索手段は、少なくとも、前記文書グ
    ループ検索要求入力手段の出力情報である検索語にした
    がって、各文書グループに対応する前記文書グループ特
    徴保持手段の特徴語に基づき文書グループの検索を行な
    うことを特徴とする請求項1に記載の文書グループ検索
    装置。
  4. 【請求項4】 前記文書グループ検索手段は、少なくと
    も、前記文書グループ検索要求入力手段の出力情報であ
    る検索式と前記文書グループの類似度にしたがって文書
    グループの検索を行なうことを特徴とする請求項1に記
    載の文書グループ検索装置。
  5. 【請求項5】 前記文書グループ検索手段は、少なくと
    も、検索した所属文書グループに対し、当該所属文書に
    対する前記文書グループ検索要求入力手段の出力情報で
    ある検索式のヒット率に基づいて検索スコアを計算する
    請求項1〜4のいずれか一つに記載の文書グループ検索
    装置。
  6. 【請求項6】 多数の文書グループの集合体からなる文
    書セットから特定の文書グループを検索する文書グルー
    プ検索方法であって、 前記文書セットの文書を分類し、文書グループを出力す
    る第1の工程と、 前記第1の工程により分類され出力された前記文書グル
    ープを保持する第2の工程と、 利用者からの検索要求を受け付ける第3の工程と、 前記第3の工程の出力情報にしたがって前記第2の工程
    により保持された文書グループから該当する文書グルー
    プを検索する第4の工程と、 を含むことを特徴とする文書グループ検索方法。
  7. 【請求項7】 前記請求項6に記載の文書グループ検索
    方法を、コンピュータに実行させるプログラムを記録し
    たことを特徴とするコンピュータ読み取り可能な記録媒
    体。
JP2002066012A 2002-03-11 2002-03-11 文書グループ検索装置および文書グループ検索方法、並びに文書グループ検索方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JP2003263447A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002066012A JP2003263447A (ja) 2002-03-11 2002-03-11 文書グループ検索装置および文書グループ検索方法、並びに文書グループ検索方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002066012A JP2003263447A (ja) 2002-03-11 2002-03-11 文書グループ検索装置および文書グループ検索方法、並びに文書グループ検索方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2003263447A true JP2003263447A (ja) 2003-09-19

Family

ID=29198040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002066012A Pending JP2003263447A (ja) 2002-03-11 2002-03-11 文書グループ検索装置および文書グループ検索方法、並びに文書グループ検索方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2003263447A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015219880A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 グループ対応付け装置、方法、及びプログラム
JP6084311B1 (ja) * 2016-01-12 2017-02-22 トヨタテクニカルディベロップメント株式会社 文書情報提供装置
JP2023007228A (ja) * 2021-07-01 2023-01-18 株式会社Pkutech 情報処理装置、プログラム及び情報処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015219880A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 グループ対応付け装置、方法、及びプログラム
JP6084311B1 (ja) * 2016-01-12 2017-02-22 トヨタテクニカルディベロップメント株式会社 文書情報提供装置
JP2023007228A (ja) * 2021-07-01 2023-01-18 株式会社Pkutech 情報処理装置、プログラム及び情報処理方法
JP7278560B2 (ja) 2021-07-01 2023-05-22 株式会社Pkutech 情報処理装置、プログラム及び情報処理方法

Similar Documents

Publication Publication Date Title
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US5724571A (en) Method and apparatus for generating query responses in a computer-based document retrieval system
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US8849787B2 (en) Two stage search
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
KR20040013097A (ko) 카테고리 기반의 확장가능한 대화식 문서 검색 시스템
Kumar et al. Mood classifiaction of lyrics using SentiWordNet
JP2000357170A (ja) 文書の参照理由を用いて情報検索を行う装置
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
CN110688559A (zh) 一种检索方法及装置
JP2003263447A (ja) 文書グループ検索装置および文書グループ検索方法、並びに文書グループ検索方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JP2002183194A (ja) 検索式生成装置およびその方法
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP2732661B2 (ja) テキスト型データベース装置
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
JPH1145256A (ja) 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3861105B2 (ja) 質問応答システム
JP2002342373A (ja) 文書検索方法、装置、プログラム、同プログラムを記録した記録媒体
JP5416680B2 (ja) 文書分割検索装置及び方法及びプログラム
JP7032650B2 (ja) 類似テキスト検索方法、類似テキスト検索装置および類似テキスト検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080930