JP2003271619A - 文書分類及び文書検索システムおよび方法 - Google Patents

文書分類及び文書検索システムおよび方法

Info

Publication number
JP2003271619A
JP2003271619A JP2002075414A JP2002075414A JP2003271619A JP 2003271619 A JP2003271619 A JP 2003271619A JP 2002075414 A JP2002075414 A JP 2002075414A JP 2002075414 A JP2002075414 A JP 2002075414A JP 2003271619 A JP2003271619 A JP 2003271619A
Authority
JP
Japan
Prior art keywords
document
classification
score
documents
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002075414A
Other languages
English (en)
Inventor
Yoshihisa Otake
能久 大嶽
Kazuhiro Kimura
和広 木村
Yoshimi Saito
佳美 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002075414A priority Critical patent/JP2003271619A/ja
Publication of JP2003271619A publication Critical patent/JP2003271619A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文書中に含まれる語句についての統計的なデー
タに基づいた手法では処理できない文書中の語句の並び
に着目した重要語句の抽出とそれに基づいた文書分類お
よび文書検索を、大量の文書についても実用的な時間で
処理することを可能にする。 【解決手段】パターンマッチを高速に処理する情報処理
装置と、汎用計算機上での処理を併用することにより、
それぞれの長所を組み合わせた効率的かつ性能の優れた
文書分類あるいは検索システムを構成する。索引データ
を用いた検索装置とを併用することで、重要度を統計的
な手法などで抽出した各単語の単独での重要度に基づい
たものと、特定の文脈中での語の重要度の両方を加味し
た重要語の判定により、適切な文書検索を可能にする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本願発明は意味的な情報を扱
う文書分類及び文書検索システムおよび方法に関する。
【0002】
【従来の技術】文書分類も文書検索も基本的な性質は共
通している部分が多い。従来の文書分類方式や文書検索
方式は、対象文書の中のから特定の文字列パターンを探
索することを基本とする方式と、対象文書をそれに含ま
れる語句の集合として扱う方式とに大別することができ
る。
【0003】前者は予め辞書等を用意しないで、任意の
パターンを探索できるというメリットがある反面、汎用
計算機上で効率良く処理することが困難であり、文中か
ら1文字ずつずらしたn文字の並びを順に取り出してイ
ンデックスを作るn−gram法のように索引データを
使用する手法もあるが、探索可能なパターンは制約され
る。ただし、ここでいう汎用計算機とは、いわゆるメイ
ンフレームや大型計算機の意味ではなく、特定の用途向
けに設計された特殊なものではない一般的なアーキテク
チャで構成された計算機の意味である。
【0004】一方、文書をそれに含まれる語句の集合と
して扱う方式は、各語句についての統計的な処理を行う
ことで、各文書の語句に関する数量的な特徴を反映させ
た処理を行い、それにより文書間の類似度等について理
論的なモデルに基づいた評価値を与えることができる。
しかも汎用計算機上で効率よく処理できる等のメリット
を持つ。反面特定の言い回し等の意味的な情報を反映し
ている言語表現上の特徴等は扱い難く、更に扱える語句
が使用する辞書や形態素解析手法などに依存するという
制約もある。
【0005】
【発明が解決しようとする課題】現在の文書分類及び文
書検索手法の主流は対象文書をそれに含まれる語句の集
合として扱う手法であるが、技術的にはほぼ飽和点に達
しており、より意味的な情報を扱う手立てが課題となっ
ている。
【0006】この語句の集合として扱う方式では各語句
の間にある関係を直接扱うことができない。従って例え
ば検索において、計算機の構成に関する文献を検索する
趣旨で「コンピューター・アーキテクチャ」という検索
要求が与えられた場合、この方式では形態素解析によっ
て「コンピュータ」と「アーキテクチャ」に分割されて
しまうと、両者を含む文書全てが適合するものとみなさ
れる。そして、建築分野での計算機利用に関する文献な
どが対象文書に含まれていて、その中で「コンピュー
タ」と「アーキテクチャ」という語句が使用されていた
場合このような文書も適合文書とされ、検索要求の本旨
である計算機の構成に関する文献に絞る為には他の手掛
かりによって適合度を調整するなどしなければならな
い。
【0007】このようなケースを扱う手段の一つとして
隣接関係を用いる手法がある。これにより、上記の2語
が別の文脈で使用されているだけの文書を不適合とする
ことが可能となるが、処理効率は大幅に低下し、なお
「コンピュータのアーキテクチャの設計」と「コンピュ
ータによるアーキテクチャの設計」を区別することはで
きない。
【0008】一方、検索の本旨に沿った表現を文字列パ
ターンに展開し、全文検索を行えばこのような課題もあ
る程度解決することができる。実際検索システムの構成
方法として、索引検索方式と全文検索方式を併用するこ
とは従来から一般的に行われてきた。しかし、このよう
なパターン照合処理を汎用計算機で効率良く扱うのは困
難であり、またいわゆる全文検索方式には検索要求から
意味的な特徴を反映した表現パターンを扱う機能は含ま
れていない。
【0009】ある種の文書では特定の文章表現に基づい
て特定される部位に現れる語彙が分類の付与や適合文書
の識別に重要な役割を果たすケースがある。しかし、こ
のような特定の文章表現のような文字列パターンの処理
は、汎用計算機上で大量文書に対して行うのには適さな
いといった課題があった。
【0010】
【課題を解決するための手段】本願発明は上記の課題を
解決するため、以下のように文書分類手段及び文書検索
手段を構成することで、大量文書については従来扱いが
困難であった課題を、効率良く実用的な処理時間で扱え
るシステムを提供する。
【0011】文書の分類付与処理に対しては、文書の分
類上の特徴となる表現を予め蓄積した特徴表現パターン
データと、この特徴表現パターンデータと分類との対応
付けを行う対応付け辞書とをもとに、分類対象となる文
書のパターンを照合し、照合の程度に応じてスコアを付
与するための照合スコア付与手段と、予め記憶された語
句データをもとに文書の分類を行うための文書分類手段
と、この文書分類手段による文書の分類結果と、前記照
合スコア付与手段によって付与されたスコアを統合する
ための分類結果統合手段とで構成することにより、対象
文書をそれに含まれる語句の集合として扱う方式では扱
い難かった特長表現パターンに基づいた分類結果を加味
させることで、大量文書についてもより品質の高い分類
付与を可能とすることを特徴とする。
【0012】更に、文書間の類似度を判定する上での重
要語を特定するための重要語特定パターンデータをもと
に検索すべき文書中の重要語を特定するための照合手段
と、この照合手段によって特定された重要語及びこの重
要語を特定するためのパターンを、各々言い換え表現に
展開するための展開手段と、この展開手段によって展開
されたパターンを、検索対象となる文書の集合をもとに
照合し、照合の程度に応じてスコアを付与するための照
合スコア付与手段と、予め記憶された索引データをもと
に文書の検索を行うための文書検索手段と、この文書検
索手段による文書の検索結果と、前記照合スコア付与手
段によって付与されたスコアを統合するための分類結果
統合手段とで構成することにより、特徴表現パターンに
基づいてほぼ確実に分類付与可能な文書が相当程度の比
率を占めるケースでは、先ずパターン照合型文書分類手
段を適用し、それでは分類付与できないものについて汎
用計算機による分類付与を行うように構成することを特
徴とする。
【0013】また文書検索処理に対しては、文書の分類
上の特徴となる表現を予め蓄積した特徴表現パターンデ
ータと、この特徴表現パターンデータと分類との対応付
けを行う対応付け辞書とをもとに、分類対象となる文書
のパターンを照合し、照合の程度に応じてスコアを付与
するための照合スコア付与手段と、この照合スコア付与
手段によってスコアを付与できなかった文書について、
予め記憶された句データをもとに文書の分類を行うため
の文書分類手段と、この文書分類手段による文書の分類
結果を提示するための結果提示手段で構成されることに
より、対象文書をそれに含まれる語句の集合として扱う
方式では扱い難かった特長表現パターンに基づいた適合
度評価結果を加味させることで、大量文書についてもよ
り品質の高い検索を可能とすることを特徴とする。
【0014】更に、文書間の類似度を判定する上での重
要語を特定するための重要語特定パターンデータをもと
に検索すべき文書中の重要語を特定するための照合手段
と、この照合手段によって特定された重要語及びこの重
要語を特定するためのパターンを、各々言い換え表現に
展開するための展開手段と、この展開手段によって展開
されたパターンを、検索対象となる文書の集合をもとに
照合し、照合の程度に応じてスコアを付与するための照
合スコア付与手段と、予め記憶された索引データをもと
に文書の検索を行うための文書検索手段と、この文書検
索手段による文書の検索結果を、前記照合スコア付与手
段によって付与されたスコアをもとに修正し提示するた
めの結果提示手段とで構成することにより、先ず汎用計
算機による検索を行い、その適合度の評価結果をベース
として、適合度がある値以上の文書に対象を絞ってパタ
ーン照合型文書検索手段を適用し、先の適合度の評価結
果を表現パターンとの照合の程度に応じて修正を行うよ
うに構成することを特徴とする。
【0015】
【発明の実施の形態】以下、図面に基づいて本願発明の
実施の形態を説明する。まず、図1は本願発明による文
書分類及び文書検索システムをの概略構成を示すブロッ
ク図である。
【0016】図1において、文書検索部102はあらか
じめ記憶された検索対象文書集合105から作成した索
引データ101を利用して、検索文書100を検索質問
文として、ベクトル空間法等の文書を語句の集合として
扱う手法に基づいた文書検索手段である。
【0017】文書分類部104は分類対象となる文書集
合中の語句に関する統計的なデータである語句データ1
03を用いて、文書を語句の集合として扱う手法に基づ
いた分類処理を行う文書分類手段である。照合部107
は、重要語特定パターンデータ106を用いて検索文書
100中からその内容を代表する重要語を特定しうる言
い回し等の言語表現上のパターンを探索し、照合したパ
ターンに従って重要語を特定する。
【0018】展開部109は特定された重要語とそれを
特定したパターンとを言い換え表現データ108を用い
て言い換え可能な内容的にほぼ等価な別表現の集合に展
開する。照合スコア付与部112は文書検索において
は、展開された言い換え表現の集合を検索対象文書集合
105に適用し、検索対象文書に対して特徴表現を言い
換えた文字列パターンと探索し、照合した度合いに応じ
てスコアを付与する。
【0019】また、文書分類においては、分類対象文書
100中から特徴表現パターンデータ110のパターン
を探索し、照合した度合いに応じてスコアを付与する。
更に対応付け辞書111を用いて、このスコアに基づい
て分類の判定根拠として特定された特徴表現から付与す
べき分類を決定する。このような処理を大量文書につい
ても実用的な時間で処理可能とするために、照合スコア
付与部112は専用処理装置によって実現するものとす
る。
【0020】結果統合部113は照合スコア付与部11
2の処理結果と、文書検索においては文書検索部102
の処理結果とを、文書分類においては文書分類部104
の処理結果とを統合し、結果提示部114を通してその
統合した処理結果をユーザに提示する。
【0021】次に、図2は本願発明による文書分類処理
に関する第1の実施形態のシステムの概略構成を示すブ
ロック図である。図2において、文書分類部202は分
類対象となる文書集合中の語句に関する統計的なデータ
である語句データ201を用いて、文書を語句の集合と
して扱う手法に基づいた分類処理を行うものである。
【0022】照合スコア付与部205は分類対象文書2
00中から特徴表現パターンデータ203のパターンを
探索し、照合した度合いに応じてスコアを付与する。更
に、対応付け辞書204を用いて、このスコアに基づい
て分類の判定根拠として特定された特徴表現から付与す
べき分類を決定する。
【0023】結果統合部206は照合スコア付与部20
5の処理結果と文書分類部202の処理結果とを統合
し、結果提示部207を通してその統合した処理結果を
ユーザに提示する。
【0024】次に、図3は本願発明による文書検索処理
に関する第2の実施形態のシステムの概略構成を示すブ
ロック図である。図3において、文書検索部302は検
索対象文書集合303から作成した索引データ301を
利用して、検索文書300を検索質問文として、ベクト
ル空間法等の文書を語句の集合として扱う手法に基づい
た文書検索手段である。
【0025】照合部305は、重要語特定パターンデー
タ304を用いて検索文書300中からその内容を代表
する重要語を特定し得る言い回し等の言語表現上のパタ
ーンを探索し、照合したパターンに従って重要語を特定
する。展開部307は特定された重要語とそれを特定し
たパターンとを言い換え表現データ306を用いて言い
換え可能な内容的にほぼ等価な別表現の集合に展開す
る。
【0026】照合スコア付与部308はこの言い換え表
現の集合を検索対象文書集合303に適用し、検索対象
文書に対して特徴表現を言い換えた文字列パターンと探
索し、照合した度合いに応じてスコアを付与する。結果
統合部309は照合スコア付与部308の処理結果と文
書検索部302の処理結果とを統合し、結果提示部31
0を通してその統合した処理結果をユーザに提示する。
【0027】次に、図4は本願発明による文書分類処理
に関する第3の実施形態のシステムの一構成形態を示す
ブロック図である。図4において、照合スコア付与部4
03は分類対象文書400中から特徴表現パターンデー
タ401のパターンを探索し、照合した度合いに応じて
スコアを付与する。更に対応付け辞書402を用いて、
このスコアに基づいて分類の判定根拠として特定された
特徴表現から付与すべき分類を決定する。
【0028】本処理によって分類対象文書400に分類
が付与された場合はその結果を、結果提示部406を通
してユーザに提示する。また照合スコア付与部403に
よって分類対象文書400に分類が付与されなかった場
合には分類対象文書400は文書分類部405に渡され
る。文書分類部405は分類対象となる文書集合中の語
句に関する統計的なデータである語句データ404を用
いて、文書を語句の集合として扱う手法に基づいた分類
処理を分類対象文書400に対して適用し、その結果を
結果提示部406を通してその処理結果をユーザに提示
する。
【0029】次に、図5は本願発明による文書検索処理
に関する第4の実施形態のシステムの一構成形態を示す
ブロック図である。図5において、文書検索部502は
検索対象文書集合503から作成した索引データ501
を利用して、検索文書500を検索質問文として、文書
を語句の集合として扱う手法に基づいた文書検索を行い
その結果を照合部505に渡す。
【0030】照合部505は検索対象文書集合503中
の文書検索部502から受け取った検索結果に対応する
文書に対して、重要語特定パターンデータ504を用い
てその文書の内容を代表する重要語を特定しうる言い回
し等の言語表現上のパターンを文書中から探索し、照合
したパターンに従って重要語を特定する。
【0031】展開部507は特定された重要語とそれを
特定したパターンとを言い換え表現データ506を用い
て言い換え可能な内容的にほぼ等価な別表現の集合に展
開する。
【0032】照合スコア付与部508はこの言い換え表
現の集合をこの検索結果に対応する検索対象文書集合5
03中の文書に適用し、検索対象文書に対して特徴表現
を言い換えた文字列パターンと探索し、照合した度合い
に応じてスコアを付与する。結果統合部509は、照合
スコア付与部508によって付与されたスコアに基づい
て、文書検索部502の処理結果を修正し、統合した結
果を結果提示部510を通してユーザに提示する。
【0033】次に、図6のフローチャートを用いて図4
に示す本願発明による文書分類処理に関するシステムの
一構成形態に対応した処理の流れを説明する。与えられ
た分類対象文書は照合部により分類判定用特徴表現と照
合される(ステップS601)。
【0034】図7は、ここで照合される分類判定用特徴
表現の一例を示す。例えばパターンiは与えられた分類
対象文書中から“を備えたことを特徴とする”という文
字列パターンが続く(followed by )名詞あるいは名詞句
を探索し、照合する文字列があればその名詞あるいは名
詞句を分類判定上の特徴表現として抽出する。
【0035】このような照合処理を試みて、照合するパ
ターンが存在するかどうかを判定する(ステップS60
2)。照合するパターンが存在しなかった場合は汎用計
算機上での語句データを利用した文書分類処理を行う
(ステップS603)。一方、いずれかのパターンとの
照合に成功した場合は、その照合処理で抽出された特徴
表現で対応付け辞書により付与すべき分類を判定する
(ステップS604)。
【0036】図8は、ここで参照される対応付け辞書の
一例を示す。例えば抽出された特徴表現が“ICカー
ド”であった場合、本辞書により付与すべき分類は“G
06K19/00”と判定される。照合パターンが複数
有ることを許す場合は照合パターンにスコアを付与し、
それらのスコアに基づいて付与すべき分類を決定する。
そして、最後に分類結果を結果提示部に渡す(ステップ
S605)。
【0037】次に、図9のフローチャートを用いて図5
に示す本願発明による文書検索処理に関するシステムの
一構成形態に対応した処理の流れを説明する。まず、索
引データを利用した文書検索手段は、与えられた検索文
書を検索文として検索対象文書に対する検索を行い、検
索文書に対する適合度に応じたランキング処理を行う
(ステップ901)。
【0038】当該ランキング結果に基づいて、ランキン
グ調整の対象とする範囲の検索対象文書に対して、照合
部による類似度判定用重要語特定パターンとの照合処理
を行う(ステップS902)。図10に、照合される重
要語特定パターンデータの一例を示す。
【0039】例えばパターンiは与えられた検索文書中
から“にあって”という文字列パターンが続く(followe
d by )名詞あるいは索引語を探索し、照合する文字列が
あればその名詞あるいは索引語を検索文書と検索対照文
書との類似度判定上の重要語として抽出する。
【0040】この照合処理で抽出された重要語を意味的
にほぼ等価と見做し得る言い換え表現に展開する(ステ
ップS903)。図11は、参照される言い換え表現デ
ータの一例を示す。例えば抽出された重要語とそれを抽
出した類所度判定用重要語パターンが“〜手段”と“を
備えたことを特徴とする”であった場合、本言い換え処
理により“〜手段”は“〜部”や“〜ステップ”に言い
換え、“を具備したことを特徴とする”や“を有するこ
とを特徴とする”や“を設けたことを特徴とする”など
の言い換え表現に展開され、それらを組み合わせ言い換
え表現群に展開される。
【0041】このようにして展開された言い換え表現群
は照合部により検索対象文書と照合され、その照合の度
合いに応じたスコアを付与される(ステップS90
4)。このようにして付与されたスコアに基づいて、先
の索引データを利用した文書検索部によるランキング結
果を修正し(ステップS905)、より検索文書に適合
した文書が上位にランキングされるように調整される。
【0042】このように本願発明の各実施形態によれ
ば、特定の文脈中での語の重要度を加味こと、例えば近
接関係や係り受け関係等の語句間の関係を扱うこと、即
ち文書を語句の集合として扱う手法では評価し難い意味
的な情報を反映した表現パターンに基づいた評価を加味
することで、精度の向上を図ることが可能となる。更に
そのよう表現パターンに基づいた処理を高速に処理でき
る専用装置により実行させることにより、大量文書につ
いても実用的な時間で処理することを可能とする。
【0043】また、本願発明の実施例における処理をコ
ンピュータで実行可能なプログラムで実現し、このプロ
グラムをコンピュータで読み取り可能な記憶媒体として
実現することも可能である。
【0044】なお、本願発明における記憶媒体として
は、磁気ディスク、フレキシブルディスク、ハードディ
スク、光ディスク(CD−ROM,CD−R,DVD
等)、光磁気ディスク(MO等)、半導体メモリ等、プ
ログラムを記憶でき、かつコンピュータが読み取り可能
な記憶媒体であれば、その記憶形式は何れの形態であっ
てもよい。
【0045】また、記憶媒体からコンピュータにインス
トールされたプログラムの指示に基づきコンピュータ上
で稼動しているOS(オペレーションシステム)や、デ
ータベース管理ソフト、ネットワーク等のMW(ミドル
ウェア)等が本実施形態を実現するための各処理の一部
を実行してもよい。
【0046】さらに、本願発明における記憶媒体は、コ
ンピュータと独立した媒体に限らず、LANやインター
ネット等により伝送されたプログラムをダウンロードし
て記憶または一時記憶した記憶媒体も含まれる。
【0047】また、記憶媒体は1つに限らず、複数の媒
体から本実施形態における処理が実行される場合も、本
発明における記憶媒体に含まれ、媒体の構成は何れの構
成であってもよい。
【0048】なお、本願発明におけるコンピュータは、
記憶媒体に記憶されたプログラムに基づき、本実施形態
における各処理を実行するものであって、パソコン等の
1つからなる装置、複数の装置がネットワーク接続され
たシステム等の何れの構成であってもよい。
【0049】また、本願発明におけるコンピュータと
は、パソコンに限らず、情報処理機器に含まれる演算処
理装置、マイコン等も含み、プログラムによって本願発
明の機能を実現することが可能な機器、装置を総称して
いる。
【0050】
【発明の効果】以上のような本願発明によれば、文書中
の語句の並びに着目した重要語句の抽出とそれに基づい
た文書分類および文書検索を、大量の文書についても実
用的な時間で処理することが可能になる。
【図面の簡単な説明】
【図1】本願発明による文書分類及び文書検索システム
の概略構成を示す機能ブロック図である。
【図2】本願発明による文書分類及び文書検索システム
の概略構成を示す機能ブロック図である。
【図3】本願発明による文書分類及び文書検索システム
の概略構成を示す機能ブロック図である。
【図4】本願発明による文書分類及び文書検索システム
の一構成形態を示す機能ブロック図である。
【図5】本願発明による文書分類及び文書検索システム
の一構成形態を示す機能ブロック図である。
【図6】本願発明による文書分類及び文書検索システム
の一構成形態に対応した処理の流れを示すフロー図であ
る。
【図7】本願発明による文書分類及び文書検索システム
で用いる分類判定用特徴表現の一例である。
【図8】本願発明による文書分類及び文書検索システム
で用いる対応付け辞書の一例である。
【図9】本願発明による文書分類及び文書検索システム
の一構成形態に対応した処理の流れを示すフロー図であ
る。
【図10】本願発明による文書分類及び文書検索システ
ムで用いる重要語特定パターンデータの一例である。
【図11】本願発明による文書分類及び文書検索システ
ムで用いる言い換え表現データの一例である。
【符号の説明】
100…分類対象文書或は検索文書 101…索引データ 102…文書検索部 103…語句データ 104…文書分類部 105…検索対象文書集合 106…重要語特定パターンデータ 107…照合部 108…言い換え表現データ 109…展開部 110…特徴表現パターンデータ 111…対応付け辞書 112…照合スコア付与部 113…結果統合部 114…結果提示部 200…分類対象文書 201…語句データ 202…文書分類部 203…特徴表現パターンデータ 204…対応付け辞書 205…照合スコア付与部 206…分類結果統合部 207…結果提示部 300…検索文書 301…索引データ 302…文書検索部 303…検索対象文書集合 304…重要語特定パターンデータ 305…照合部 306…言い換え表現データ 307…展開部 308…照合スコア付与部 309…結果統合部 310…結果提示部 400…分類対象文書 401…特徴表現パターンデータ 402…対応付け辞書 403…照合スコア付与部 404…語句データ 405…文書分類部 406…結果提示部 500…検索文書 501…索引データ 502…文書検索部 503…検索対象文書集合 504…重要語特定パターンデータ 505…照合部 506…言い換え表現データ 507…展開部 508…照合スコア付与部 509…結果統合部 510…結果提示部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 齋藤 佳美 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 Fターム(参考) 5B075 ND03 NK35 NK39 NR12 PQ74 PR06 QP03

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】文書の分類上の特徴となる表現を予め蓄積
    した特徴表現パターンデータと、この特徴表現パターン
    データと分類との対応付けを行う対応付け辞書とをもと
    に、分類対象となる文書のパターンを照合し、照合の程
    度に応じてスコアを付与するための照合スコア付与手段
    と、 予め記憶された語句データをもとに文書の分類を行うた
    めの文書分類手段と、 この文書分類手段による文書の分類結果と、前記照合ス
    コア付与手段によって付与されたスコアを統合するため
    の分類結果統合手段とを有することを特徴とする文書分
    類及び文書検索システム。
  2. 【請求項2】文書間の類似度を判定する上での重要語を
    特定するための重要語特定パターンデータをもとに検索
    すべき文書中の重要語を特定するための照合手段と、 この照合手段によって特定された重要語及びこの重要語
    を特定するためのパターンを、各々言い換え表現に展開
    するための展開手段と、 この展開手段によって展開されたパターンを、検索対象
    となる文書の集合をもとに照合し、照合の程度に応じて
    スコアを付与するための照合スコア付与手段と、 予め記憶された索引データをもとに文書の検索を行うた
    めの文書検索手段と、 この文書検索手段による文書の検索結果と、前記照合ス
    コア付与手段によって付与されたスコアを統合するため
    の分類結果統合手段とを有することを特徴とする文書分
    類及び文書検索システム。
  3. 【請求項3】文書の分類上の特徴となる表現を予め蓄積
    した特徴表現パターンデータと、この特徴表現パターン
    データと分類との対応付けを行う対応付け辞書とをもと
    に、分類対象となる文書のパターンを照合し、照合の程
    度に応じてスコアを付与するための照合スコア付与手段
    と、 この照合スコア付与手段によってスコアを付与できなか
    った文書について、予め記憶された語句データをもとに
    文書の分類を行うための文書分類手段と、 この文書分類手段による文書の分類結果を提示するため
    の結果提示手段を有することを特徴とする文書分類及び
    文書検索システム。
  4. 【請求項4】文書間の類似度を判定する上での重要語を
    特定するための重要語特定パターンデータをもとに検索
    すべき文書中の重要語を特定するための照合手段と、 この照合手段によって特定された重要語及びこの重要語
    を特定するためのパターンを、各々言い換え表現に展開
    するための展開手段と、 この展開手段によって展開されたパターンを、検索対象
    となる文書の集合をもとに照合し、照合の程度に応じて
    スコアを付与するための照合スコア付与手段と、 予め記憶された索引データをもとに文書の検索を行うた
    めの文書検索手段と、 この文書検索手段による文書の検索結果を、前記照合ス
    コア付与手段によって付与されたスコアをもとに修正し
    提示するための結果提示手段とを有することを特徴とす
    る文書分類及び文書検索システム。
  5. 【請求項5】文書の分類上の特徴となる表現を予め蓄積
    した特徴表現パターンデータと、この特徴表現パターン
    データと分類との対応付けを行う対応付け辞書とをもと
    に、分類対象となる文書のパターンを照合し、照合の程
    度に応じてスコアを付与し、 予め記憶された語句データをもとに文書の分類を行い、 この文書の分類結果と、付与された前記スコアを統合す
    ることを特徴とする文書分類及び文書検索方法。
  6. 【請求項6】文書間の類似度を判定する上での重要語を
    特定するための重要語特定パターンデータをもとに検索
    すべき文書中の重要語を特定し、 この特定された重要語及びこの重要語を特定するための
    パターンを、各々言い換え表現に展開し、 この展開されたパターンを、検索対象となる文書の集合
    をもとに照合し、照合の程度に応じてスコアを付与し、 予め記憶された索引データをもとに文書の検索を行い、 この文書の検索結果と、付与された前記スコアを統合す
    ることを特徴とする文書分類及び文書検索方法。
JP2002075414A 2002-03-19 2002-03-19 文書分類及び文書検索システムおよび方法 Pending JP2003271619A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002075414A JP2003271619A (ja) 2002-03-19 2002-03-19 文書分類及び文書検索システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002075414A JP2003271619A (ja) 2002-03-19 2002-03-19 文書分類及び文書検索システムおよび方法

Publications (1)

Publication Number Publication Date
JP2003271619A true JP2003271619A (ja) 2003-09-26

Family

ID=29204500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002075414A Pending JP2003271619A (ja) 2002-03-19 2002-03-19 文書分類及び文書検索システムおよび方法

Country Status (1)

Country Link
JP (1) JP2003271619A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115628A (ja) * 2003-10-07 2005-04-28 Hewlett-Packard Development Co Lp 定型表現を用いた文書分類装置・方法・プログラム
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115628A (ja) * 2003-10-07 2005-04-28 Hewlett-Packard Development Co Lp 定型表現を用いた文書分類装置・方法・プログラム
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP5187313B2 (ja) * 2007-10-12 2013-04-24 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
US8983965B2 (en) 2007-10-12 2015-03-17 Nec Corporation Document rating calculation system, document rating calculation method and program

Similar Documents

Publication Publication Date Title
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
JPH0424869A (ja) 文書処理システム
JP2004118740A (ja) 質問応答システム、質問応答方法、質問応答プログラム
JP2006506692A (ja) テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
JP4942901B2 (ja) テキスト入力を語彙知識ベースに照合しその照合の結果を利用するシステムおよび方法
JPH1049543A (ja) 文書検索装置
JP2006227823A (ja) 情報処理装置及びその制御方法
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10207910A (ja) 関連語辞書作成装置
JPH09198395A (ja) 文書検索装置
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP2003271619A (ja) 文書分類及び文書検索システムおよび方法
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP2002132789A (ja) 文書検索方法
JP3682915B2 (ja) 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040601

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070727

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071204