JP2004220226A - 検索文書のための文書分類方法及び装置 - Google Patents

検索文書のための文書分類方法及び装置 Download PDF

Info

Publication number
JP2004220226A
JP2004220226A JP2003005371A JP2003005371A JP2004220226A JP 2004220226 A JP2004220226 A JP 2004220226A JP 2003005371 A JP2003005371 A JP 2003005371A JP 2003005371 A JP2003005371 A JP 2003005371A JP 2004220226 A JP2004220226 A JP 2004220226A
Authority
JP
Japan
Prior art keywords
classification
document
common attribute
headwords
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003005371A
Other languages
English (en)
Inventor
Sayori Shimohata
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003005371A priority Critical patent/JP2004220226A/ja
Publication of JP2004220226A publication Critical patent/JP2004220226A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【目的】検索結果の文書の集合をよりユーザのニーズに沿った分類基準によって分類する文書分類方法及び装置を提供する。
【構成】所与の検索条件を充足する複数の文書を分類基準に従って分類する文書分類方法であり、複数の見出し語と、該複数の見出し語の各々が属する共通属性キーワードと、を各々対応付けて記憶する辞書を保持する。該複数の文書に出現する複数の見出し語が有する共通属性キーワード群のうちから1つの共通属性キーワードを該分類基準として選択し、該分類基準に選択された1つの共通属性キーワードを有する複数の見出し語の各々の出現頻度に基づいて、該複数の文書を該複数の見出し語の各々に対応させることにより分類する。本発明による文書分類装置は、かかる方法を実行する。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、複数の文書の中から検索された文書を分類する文書分類方法及び装置に関する。
【0002】
【従来の技術】
近年、インターネットの普及などにより、大量の電子化された文書情報が流通するようになり、一般のユーザが検索エンジンなどを使って所望の文書情報を検索、収集することが一般的になってきた。それに伴い、検索結果の文書集合をユーザの必要性又は嗜好に合わせて分類して整理するシステムに対するニーズが高まっている。
【0003】
従来の文書分類方法又は装置は、文書検索の結果に対して更に分類基準と称するキーワードを入力することにより先の文書検索結果に対して分類しているものがある(例えば、特許文献1参照。)。
【0004】
【特許文献1】
特開2000−250925号公報(第5−6頁、第1図)
【0005】
【発明が解決しようとする課題】
しかし、かかる方法又は装置は、利用者に対して更にキーワードの入力を求め、このキーワード毎に検索結果の複数の文書を分類するものである。例えば、「ノートパソコンの新製品」というキーワードで検索した結果を分類したい場合、かかる方法又は装置では「会社ごとに分類」という指定に基づく分類はできない。かかる方法又は装置においては、「A社」「B社」「C社」という更なる検索条件をユーザ自身が入力しなければならない。
【0006】
本発明は、以上の問題点に鑑みてなされたものであり、その目的は、検索結果の文書の集合をよりユーザのニーズに沿った分類基準によって分類する文書分類方法及び装置を提供することである。
【0007】
【課題を解決するための手段】
本発明による文書分類方法は、所与の検索条件を充足する複数の文書を分類基準に従って分類する文書分類方法であり、複数の見出し語と、該複数の見出し語の各々が属する共通属性キーワードと、を各々対応付けて記憶する辞書を保持する辞書保持ステップと、該複数の文書に出現する複数の見出し語が有する共通属性キーワード群のうちから1つの共通属性キーワードを該分類基準として選択する分類基準選択ステップと、該分類基準に選択された1つの共通属性キーワードを有する複数の見出し語の各々の出現頻度に基づいて、該複数の文書を該複数の見出し語の各々に対応させることにより分類する文書分類ステップと、を含むことを特徴とする。
【0008】
本発明による文書分類装置は、所与の検索条件を充足する複数の文書を分類基準に従って分類する文書分類装置であり、複数の見出し語と、該複数の見出し語の各々が属する共通属性キーワードと、を各々対応付けて記憶する辞書を保持する辞書保持手段と、該複数の文書に出現する複数の見出し語が有する共通属性キーワード群のうちから1つの共通属性キーワードを該分類基準として選択する分類基準選択手段と、該分類基準に選択された1つの共通属性キーワードを有する複数の見出し語の各々の出現頻度に基づいて、該複数の文書を該複数の見出し語の各々に対応させることにより分類する文書分類手段と、を含むことを特徴とする。
【0009】
【発明の実施の形態】
本発明の実施例について添付の図面を詳細に参照して説明する。
<第1の実施例>
図1は、第1の実施例における文書分類装置の構成を示している。文書分類装置は、入出力装置1、処理装置2及び記憶装置3から構成される。入出力装置1は、入力部11及び出力部12からなる。入力部11は、文字列や指示内容の入力を可能とする入力デバイス、例えば、キーボード、マウス等のポインティングデバイス、スキャナー等の文字認識デバイス、音声入力を可能とするマイク等の装置により実現し得る。出力部12は、検索又は分類結果や指示内容に対する応答の文字列を出力可能な出力デバイス、例えば、ディスプレイ装置、プリンタ、メモリカード等の文字例をファイル出力可能なデバイスにより実現され得る。
【0010】
処理装置2は、CPU等の演算装置、メモリ及び制御部等の基本装置(図示せず)を含むと共に、指定された語句、即ち文字列に基づいて文書データべース31から対象となる文書(例えばテキストデータ又はテキストファイル)を検索し、検索結果として1つ又は複数の文書、即ち文書集合を得る検索部21と、該文書集合を分類するための分類基準を求めてこれを設定する分類基準設定部22と、設定された分類基準に従って検索結果の文書集合を分類する文書分類部23と、から構成される。検索部21は、インターネット上で通常提供されている検索エンジンによっても実現し得る。検索部21による検索キーとなり得る語句は、単語であってもよいし或いは複数の単語からなる熟語であってもよい。以降では、説明の容易性から検索キーを単語とする例において説明する。
【0011】
記憶装置3は、検索対象となる複数の文書を格納する文書データベース(以下、文書DBと称する)31と、見出し語とその属性情報を対応付けて記述したテーブル形式のデータを記憶格納する辞書データベース(以下、辞書DBと称する)32と、を備えている。文書DB31及び辞書DB32は、ハードディスクや光ディスクなどの記憶装置に実現され得るし、システム内部の記憶装置に格納されていてもよいし、更にはインターネットやイントラネットのようにネットワーク上に分散して存在してもよい。
【0012】
文書DB31に格納されて検索対象となる複数の文書の各々は、通常のテキストデータファイルであっても他の多様な文書形式の文書であってもよい。
辞書DB32に格納されるテーブル形式には、見出しとなる語句と意味等の属性からなる属性情報との組の複数が記述される。語句と属性情報との関係は、類義語辞書や語彙の体系を収録したシソーラス(thesaurus)辞書における関係であっても良い。
【0013】
ここで、用語の定義を説明する。分類基準とは、「分類の観点」と「分類項目」とからなる。「分類の観点」とは、「〜ごとに分類してください」の「〜」に当たる部分であり、集合を分類する際に基準となる軸を意味する。即ち、「分類の観点」は、分類項目となるべき複数の語句の共通属性キーワードを与える。従って、辞書DB32の属性情報としては、かかる共通属性キーワードが規定されている必要がある。「分類項目」は、この分類の観点に基づいて分類される項目の単位を意味する。例えば、ある文書集合を「会社」によって分類する場合は、「会社」が分類の観点で、「A社」「B社」… が分類項目である。従って、分類の観点は、分類項目となるべき複数の語句の共通属性キーワードを与える単語や熟語であってもよいし、意味カテゴリなどの属性情報であってもよい。
【0014】
図2は、第1の実施例における処理手順を示している。図2に示される処理手順について、図1に示される構成要素を適宜参照して説明する。
先ず、ユーザにより入力部11を介して検索対象の単語、即ち検索キーが入力されると、文書分類装置は、検索部21において文書DB31から当該検索キーに適合する1つ又は複数の文書、即ち文書集合を得る(ステップS21)。尚、本実施例は、単語を検索キーとするキーワード検索を検索条件する例を示しているが、かかる検索条件に限られず、検索条件は、文書の作成日時等を検索条件とする等の多様な形態が有り得る。
【0015】
次に、ユーザにより入力部11を介して分類の観点が文字列として入力されると、文書分類装置は、分類基準設定部22において該分類の観点の入力を取り込む(ステップS22)。次いで、分類基準設定部22において辞書DB32を参照して、その観点を属性情報に変換する(ステップS23)。この変換の処理は、辞書DB32を参照して、入力された観点が辞書DB32の見出し語又は属性情報に適合する属性情報を抽出することにより行われる。この際に、適合するものがあるか否か、即ち変換の成否を判定する(ステップS24)。もし適合するものが無い場合にはその旨のメッセージを出力し(ステップS25)、ステップS22に戻り、再度「分類の観点」の入力をユーザに促し、これを取り込む。
【0016】
変換が正常に行われた場合には、次に、文書分類装置は、文書集合より観点と同じ属性情報をもつ語句、即ち見出し語である語句を抽出し分類項目に設定する(ステップS26)。尚、ここで抽出される語句は、前述の検索の際に用いられた検索キーとした文字列に一致する場合もあるが限定されるものではない。
次に、文書分類装置は、分類項目に設定された語句が含まれている文書を各分類項目毎にグループ分けして分類する(ステップS27)。尚、ある文書に異なる分類項目に一致する語句が各々存在する場合には分類が困難である。この場合には、当該文書において最も出現頻度の高い語句の分類項目に基づいて分類することが考えられる。
【0017】
最後に、文書分類装置は、グループ分けされた分類結果を出力部12より出力して表示し(ステップS28)、処理を終了する。
図3は、検索結果の例であり、「パソコン」「新製品」を検索キーとして抽出された文書集合の例を示している。該文書集合は、TX1乃至TX5の5つの文書からなり、これら各々は文章の文字列に「パソコン」又は「新製品」の文字列を含んでいる。
【0018】
図4の(a)は、辞書DB32の例であり、属性情報として、単語の意味属性を記述している。辞書DB32は、見出し語格納部32aと、属性情報格納部32bとを含む。見出し語格納部32aの各語句に対応する属性情報は、属性情報格納部32bに対応する欄に記述される。例えば、語句「A社」に対応する属性情報として「社名」、語句「ノートパソコン」に対応する属性情報として「製品」の如く記述される。
【0019】
図4の(b)は、分類項目の抽出結果の例であり、図4の(a)に示される辞書DB32を用いて、図3に示される文書集合から分類項目として抽出された語句の例を示している。この例は、ユーザが分類の観点として「社名」を指定した場合に、属性情報が「社名」である対応する語句を抽出し、結果として「A社」「B社」・・の如く複数の分類項目が得られる。
【0020】
図5は、検索された文書集合の分類結果の例であり、「社名」を分類の観点とし、「A社」「B社」・・を分類項目とした分類基準の下に分類した結果を示している。図示されるように、例えば、TX2は「A社」を含むグループに分類される。また、TX1とTX4は、「B社」を含むグループに分類されている。尚、前述したように、文書中に異なる分類項目に一致する語句が存在する場合、例えば、ある文書に「A社」が3回と「B社」が1回出現する場合には、最も出現頻度の高い語句「A社」のグループに分類する。
【0021】
以上のように第1の実施例は、ユーザが分類の観点を指定することにより、検索結果の文書集合を分類する文書分類装置の例を示した。これによれば、ユーザは、分類項目として再度検索キーとして複数のキーワードの入力を求められることなく分類の観点のみを入力することで容易に検索結果を分類することができる。
【0022】
尚、本第1の実施例においては、ユーザが分類の観点を入力するが、分類の観点は単語や熟語であってもよいし、意味カテゴリなどの属性情報であってもよい。また、自然言語文を入力し、構文解析処理を行って装置自体が該自然言語文から分類の観点を生成するようにしてもよい。
<第2の実施例>
図6は、第2の実施例における文書分類装置の構成を示している。文書分類装置は、第1の実施例と同様に、入出力装置1、処理装置2及び記憶装置3から構成される。入出力装置1は、第1の実施例と同様の入力部11及び出力部12からなる。処理装置2は、第1の実施例と同様に、演算装置、メモリ及び制御部等の基本装置(図示せず)を含むと共に、検索部21と、分類基準設定部22と、文書分類部23と、から構成される。第2の実施例における分類基準設定部22は、ユーザに分類の観点の入力を求めることなく分類基準を設定する。そのために、分類基準設定部22は、検索結果の文書集合から形態素解析等の手法に従って語句を抽出し、分類テーブル33の分類項目格納部33bに格納し、辞書DB32を参照して、各見出し語の属性情報を観点格納部33aに格納し、観点ごとに分類項目を区分して選択する機能を有する。文書分類部23は、分類基準設定部22で設定された1つの分類基準に従って文書集合を分類し、その結果を出力部12より出力する機能を有する。尚、複数の分類基準が設定され得る場合には、分類基準設定部22は、所定の方法によってその中の1つを分類基準に選択して、文書集合を分類し出力部12より表示する。分類基準設定部22は、ユーザの要求に応じて、別の分類基準の分類結果も表示するようにしても良い。
【0023】
記憶装置3は、第1の実施例と同様に文書データベース31及び辞書データベース32を含み、本第2の実施例においては更に、文書集合の分類情報を格納する分類テーブル33を備える。分類テーブル33は、分類基準と検索結果の文書集合中の各文書とを対応付けて管理するもので、文書を分類する基準となる観点を格納する観点格納部33aと、上記分類基準に対応する語句を格納する分類項目格納部33bと、上記の語句が出現する文書の情報を格納する文書情報格納部33cとを有する。分類テーブル33は、ハードディスク等の記憶装置より実現し得る。
【0024】
図7は、第2の実施例における処理手順を示している。図7に示される処理手順について図6に示される構成要素を適宜参照して説明する。
先ず、ユーザにより入力部11を介して検索対象の単語、即ち検索キーが入力されると、文書分類装置は、検索部21において文書DB31から当該検索キーに適合する1つ又は複数の文書、即ち文書集合を得る(ステップS81)。
【0025】
次に、文書分類装置は、分類基準設定部22において、検索結果の文書集合から語句,即ち見出し語である語句を抽出して分類テーブル33の分類項目格納部33bに格納する(ステップS82)。同時に、それぞれの語句がどの文書に出現していたかの情報を、文書情報格納部33cに格納する。ここで、語句とは、文書に特徴的な言葉や文書中の重要な概念を表す言葉であって、単語であっても、熟語や表現であってもよいが、以下では単語であるものとして処理を進める。語句抽出の方法としては、例えば、形態素解析を行って単語を切り出す、あるいは、日本語であれば、文字種の違いを利用して文字列を切り出すなどの方法がある。また、品詞や頻度などの制限を設けたり、特定の単語と共起する語句だけを抽出したりということも考えられる。
【0026】
次に、文書分類装置の分類基準設定部22は、辞書DB32を参照し、分類テーブル33の観点格納部33aに、それぞれの語句の属性情報を格納し、観点ごとに語句を区分し、これらを分類基準の候補とする(ステップS83)。かかる属性情報には、第1の実施例の場合と同様に単語の意味カテゴリや階層化された知識体系(例えば、シソーラス)、分野情報を用いる方法が考えられる。次いで、これらの分類基準の候補を出力部12を介して表示する(ステップS84)。この際に、好ましくは、2つ以上の分類基準の候補が存在する場合に分類基準選択画面(図9参照)を表示してユーザが分類基準の選択をできるようにする。分類基準の選択方法としては、所定の規則に従って最も優先順位の高い分類基準を利用者の指令無しに選択するようにしても良い。かかる所定の規則としては、tfidf(term frequancy − inverse document frequency)法等の文書中の用語の重要度を解析する手法を用いてその分類を有する見出し語の重要度が高いものを選ぶ手法、或いは分類数、即ちその分類基準を有する見出し語数が多い又は少ないものを選ぶ手法が考えられる。文書分類装置の分類基準設定部22は、これらの何れかの方法により、1つの分類基準を選択する(ステップS85)。
【0027】
次に、文書分類装置は、文書分類部23において、設定された1つの分類基準に従って文書集合の分類を行う(ステップS86)。次いで、その結果を出力部12より表示する(ステップS87)。尚、ある文書が複数の分類基準の語句を含んでいる場合は、もっとも出現数の多い語句のグループに分類する、あるいは複数のグループに重複して分類する。ユーザからその他の分類基準で分類及び表示の要求があればステップS85に戻り以降の処理を繰り返し行うようにしても良い。次いで、別の分類結果を表示するか否かを判断し(ステップS88)、別の分類結果を表示する場合には、ステップS85に戻り以降の処理を繰り返す。そうでなければ、処理を終了する。
【0028】
図8の(a)は、分類テーブル33の例である。これは、図3に示された検索結果の文書集合に対して分類テーブル33を作成した場合の例を示している。分類テーブル33は、観点格納部33aと、分類項目格納部33bと、文書情報格納部33cとから構成される。分類項目格納部33bには、検索結果の文書集合から抽出された語句が、例えば、「A社」「B社」「C社」「シリーズ」・・・・如く複数の語句が格納されている。この例では、形態素解析の結果として出現頻度2以上の単語が抽出されている。文書情報格納部33cには、分類項目格納部33bに格納された語句の各々に対応した欄に、その語句が出現した文書の識別情報が格納される。例えば、語句「ノートパソコン」に対応して、この語句が出現する文章の識別情報として、TX1、TX2及びTX3が格納されている。
【0029】
図8の(b)に示されるテーブルは、分類基準毎に区分された分類テーブル33の例である。これは、図8の(a)に示された分類テーブルに対して分類の観点毎に区分された例を示している。観点格納部33aには、辞書DB32を参照することより得られる語句毎の属性情報が各々格納されている。例えば、分類項目格納部33bの「ノートパソコン」に対応して、即ち左欄に、「製品」の属性情報が格納されている。更に、観点格納部33aにおける属性情報が同一もの同士が、例えば、「社名」「製品」の如く区分されている。これにより、分類テーブル33は、分類基準として2つの候補、即ち、「社名」及び「製品」を与えている。尚、前述のように、「社名」と「製品」の2つの分類の観点が得られることから、どちらを選ぶかを決める必要がある。この場合には、見出し語の重要度、分類基準を有する見出し語の語数の大小、或いはユーザの指定により選択することにより1つの観点、例えば「製品」が選ばれる。
【0030】
図9は、ユーザの指定により分類基準を選択するための分類基準選択画面の例を示している。分類基準選択画面は、分類基準の具体的な内容を表示する分類基準表示部121と、複数ある分類基準の候補のうちのどの基準を選択するかを指定する選択ボタン122と、選択ボタン122により選択した結果を決定指示する決定ボタン123とからなっている。画面の例では、分類基準の候補として「社名」と、「製品」とが表示され、対応して分類項目として「A社、B社」及び「ノートパソコン、デスクトップパソコン」が各々例として表示されている。この画面例では、「製品」が分類の観点として選択された場合を示している。
【0031】
図10は、分類結果の例であり、図3の検索結果の文書集合に対して、「製品」の観点から分類を施した場合を示している。例えば、「製品」の属性を持つ「ノートパソコン」を分類項目として、TX2、TX1及びTX3が分類されて、例えばラインにより「デスクトップパソコン」の分類項目とは区分けされて表示される。
【0032】
以上のように第2の実施例において、分類基準をシステムが自動的に設定し、検索結果の文書集合を分類する文書分類装置の例が示された。これによれば、検索結果の文書集合がユーザの分類指定なしに自動的に分類される。また、複数の観点で分類した結果を、切り替えて表示することも可能になる。
以上の第1及び第2の実施例では、辞書DB31として見出し語と属性情報の組を格納したものを用いた例について説明したが、辞書DB31の内容はこれに限るものではなく、通常の一般用語又は専門用語辞書の如き意味情報を与える辞書、シソーラスの如き類語辞書、分野等のカテゴリ情報を与える辞書、人名辞典又は会社辞典の如き辞書からも構築し得る。
【0033】
【発明の効果】
本発明による文書分類方法及び装置によれば、分類基準を与える分類の観点として分類項目の共通属性キーワードを与えるか又は選択若しくは決定することにより、検索文書がかかる分類項目の各語句毎に分類されて出力される。これにより、よりユーザのニーズに沿った分類基準によって分類することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施例である文書分類装置の構成を示しているブロック図である。
【図2】図1に示される構成における文書分類装置の処理手順を示しているフローチャートである。
【図3】第1の実施例における検索結果の例を示している図である。
【図4】第1の実施例における辞書データベースの内容例を示している図である。
【図5】第1の実施例における分類結果の例を示している図である。
【図6】本発明の第2の実施例である文書分類装置の構成を示しているブロック図である。
【図7】図7に示される構成における文書分類装置の処理手順を示しているフローチャートである。
【図8】第2の実施例における分類テーブルの内容例を示している図である。
【図9】第2の実施例における分類基準選択画面の例を示している図である。
【図10】第2の実施例における分類結果の例を示している図である。
【符号の説明】
1 入出力装置
2 処理装置
3 記憶装置
11 入力部
12 出力部
21 検索部
22 分類基準設定部
23 文書分類部
31 文書データベース(DB)
32 辞書データベース(DB)
33 分類テーブル
33a 観点格納部
33b 分類項目格納部
33c 文書情報格納部
TX1、TX2、TX3、TX4、TX5 文書

Claims (9)

  1. 所与の検索条件を充足する複数の文書を分類基準に従って分類する文書分類方法であって、
    複数の見出し語と、前記複数の見出し語の各々が有する共通属性キーワードと、を各々対応付けて記憶する辞書を保持する辞書保持ステップと、
    前記複数の文書に出現する複数の見出し語が有する共通属性キーワード群のうちから1つの共通属性キーワードを前記分類基準として選択する分類基準選択ステップと、
    前記分類基準に選択された1つの共通属性キーワードを有する複数の見出し語の各々の出現頻度に基づいて、前記複数の文書を前記複数の見出し語の各々に対応させることにより分類する文書分類ステップと、
    を含むことを特徴とする文書分類方法。
  2. 前記辞書保持ステップは、前記複数の見出し語の各々の共通属性キーワードとして、意味、類語及び意味カテゴリのうちの少なくとも1つを含む辞書を保持することを特徴とする請求項1記載の文書分類方法。
  3. 前記分類基準選択ステップは、前記共通属性キーワード群のうちから1つの共通属性キーワードを、当該共通属性キーワードを有する見出し語の重要度に従って選択することを特徴とする請求項1記載の文書分類方法。
  4. 前記分類基準選択ステップは、前記共通属性キーワード群のうちから複数の分類基準候補を、当該共通属性キーワードを有する見出し語の重要度に従って決定し、前記複数の分類基準候補のうちから1つの共通属性キーワードをユーザの指令に応じて選択することを特徴とする請求項1記載の文書分類方法。
  5. 前記重要度は、前記見出し語の出現頻度の高低に基づいて決定することを特徴とする請求項3又は4記載の文書検索方法。
  6. 前記重要度は、tdidf法に基づいて決定することを特徴とする請求項3記載の文書分類方法。
  7. 前記分類基準選択ステップは、前記共通属性キーワード群のうちから1つの共通属性キーワードをユーザの指令に従って選択することを特徴とする請求項3又は4記載の文書分類方法。
  8. 所与の検索条件を充足する複数の文書を分類基準に従って分類する文書分類装置であって、
    複数の見出し語と、前記複数の見出し語の各々が属する共通属性キーワードと、を各々対応付けて記憶する辞書を保持する辞書保持手段と、
    前記複数の文書に出現する複数の見出し語が有する共通属性キーワード群のうちから1つの共通属性キーワードを前記分類基準として選択する分類基準選択手段と、
    前記分類基準に選択された1つの共通属性キーワードを有する複数の見出し語の各々の出現頻度に基づいて、前記複数の文書を前記複数の見出し語の各々に対応させることにより分類する文書分類手段と、
    を含むことを特徴とする文書分類装置。
  9. 前記辞書保持手段は、前記複数の見出し語の各々が属する共通属性キーワードとして、意味、類語及び意味カテゴリのうちの少なくとも1つを含む辞書を保持することを特徴とする請求項8記載の文書分類装置。
JP2003005371A 2003-01-14 2003-01-14 検索文書のための文書分類方法及び装置 Pending JP2004220226A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003005371A JP2004220226A (ja) 2003-01-14 2003-01-14 検索文書のための文書分類方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003005371A JP2004220226A (ja) 2003-01-14 2003-01-14 検索文書のための文書分類方法及び装置

Publications (1)

Publication Number Publication Date
JP2004220226A true JP2004220226A (ja) 2004-08-05

Family

ID=32896039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003005371A Pending JP2004220226A (ja) 2003-01-14 2003-01-14 検索文書のための文書分類方法及び装置

Country Status (1)

Country Link
JP (1) JP2004220226A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026640A (ja) * 2008-07-16 2010-02-04 Toshiba Corp 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
JP2010218010A (ja) * 2009-03-13 2010-09-30 Toshiba Corp 文書分類装置およびプログラム
WO2013082402A1 (en) * 2011-12-01 2013-06-06 Valassis Communications, Inc. Secure printable offer template
JP2014067099A (ja) * 2012-09-24 2014-04-17 Toshiba Corp 文書分析装置およびプログラム
WO2015025978A1 (ja) * 2013-08-23 2015-02-26 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2015197695A (ja) * 2014-03-31 2015-11-09 真之 正林 情報処理装置、情報処理方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徳田克己、塩見隆一、青山昇一、柿ケ原康二: "分類パターンを用いた文書データの自動分類法", 情報処理学会研究報告, vol. 第98巻、第1号, JPN6009034614, 19 January 1998 (1998-01-19), JP, pages 65 - 72, ISSN: 0001367798 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026640A (ja) * 2008-07-16 2010-02-04 Toshiba Corp 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
JP2010218010A (ja) * 2009-03-13 2010-09-30 Toshiba Corp 文書分類装置およびプログラム
WO2013082402A1 (en) * 2011-12-01 2013-06-06 Valassis Communications, Inc. Secure printable offer template
JP2014067099A (ja) * 2012-09-24 2014-04-17 Toshiba Corp 文書分析装置およびプログラム
WO2015025978A1 (ja) * 2013-08-23 2015-02-26 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2015197695A (ja) * 2014-03-31 2015-11-09 真之 正林 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US10140333B2 (en) Trusted query system and method
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US10552467B2 (en) System and method for language sensitive contextual searching
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20060031207A1 (en) Content search in complex language, such as Japanese
CA3103796A1 (en) Systems and methods to automatically categorize social media posts and recommend social media posts
JP2001075966A (ja) データ分析システム
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JPH0844771A (ja) 情報検索装置
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
CN110688559A (zh) 一种检索方法及装置
US6973423B1 (en) Article and method of automatically determining text genre using surface features of untagged texts
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
KR101238927B1 (ko) 전자도서컨텐츠 검색 서비스 시스템 및 전자도서컨텐츠 검색 서비스 방법
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
Sariki et al. A book recommendation system based on named entities
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
EP1605371A1 (en) Content search in complex language, such as japanese
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
JP2529418B2 (ja) 文書検索装置
JP2000105769A (ja) 文書表示方法
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
Testas Natural Language Processing with Pandas, Scikit-Learn, and PySpark
WO2010106660A1 (ja) 特徴語提示装置及び特徴語提示プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091117