JP2004145626A - 文書分類支援装置およびコンピュータプログラム - Google Patents
文書分類支援装置およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2004145626A JP2004145626A JP2002309555A JP2002309555A JP2004145626A JP 2004145626 A JP2004145626 A JP 2004145626A JP 2002309555 A JP2002309555 A JP 2002309555A JP 2002309555 A JP2002309555 A JP 2002309555A JP 2004145626 A JP2004145626 A JP 2004145626A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- important
- subject
- important word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】文書分類支援装置の重要語抽出部102は、分類先文書DB101から分類先文書を読み出して重要語を抽出し、重要語DB103へ書き込む。重要語抽出部202は、分類対象文書記憶部201から読み出した分類対象文書から、重要語DB103内に登録されている重要語を抽出する。主題抽出部203は、抽出された重要語群からなる分類対象文書の主題を求める。分類先導出部204は、主題を構成する各重要語が分類先文書に最初に出現する節のうち、最も後ろの節を主題の分類先の節とする。表示部206は、分類対象文書の各主題を構成する重要語群と、各主題の分類先の節を画面に表示する。
【選択図】 図1
Description
【発明の属する技術分野】
この発明は、文書データの分類を支援する文書分類支援装置に関する。
【0002】
【従来の技術】
従来、コンピュータによる文書の自動分類は、各文書がすでにカテゴリに分類されている文書集合を利用することによって、与えられた文書をより詳細で適切なカテゴリに分類することが多い。このような文書の自動分類の従来手法の多くは、文書から単語やフレーズなどの特徴を抽出し、その出現頻度などの特徴量を用いて適切なカテゴリに自動分類する。
特許文献1には、「会社名」や「製品名」などのグループごとに分類された名詞的表現や、同じくグループごとに分類された動詞的表現を文書から抽出し、これらの表現とその出現個所を文書の特徴量として用いることにより文書の分類を行う技術が記載されている。
また、特許文献2には、文書中に含まれる単語に加え、文書の話題内容を表す単語、また文書の発言者や作成日付などの文書の付随属性情報などを文書の特徴量として用いることにより文書の分類を行う技術が記載されている。
また、特許文献3には、一つの文書から複数の単語集合を主題として抽出することにより、複数の主題を考慮して二つの文書間の類似度を算出したり、この文書間類似度算出方法を用いて文書検索を行ったり、文書集合のクラスタリングを行う技術が記載されている。
【0003】
【特許文献1】
特開2002−108893号公報(段落0014−段落0079、第1図−第24図)
【特許文献2】
特開2001−60199号公報(段落0029−0080段落、第図1−第7図)
【特許文献3】
特開2000−123041号公報(段落0048−0106段落、第4図−第10図)
【0004】
【発明が解決しようとする課題】
ある文書を、参考書や取扱説明書のような文書集合へ分類することを想定する。参考書や取扱説明書は、章や節などの階層的なセクションにより構成されていることが多い。また、章や節には順序があり、節が進むにしたがって高度な内容について記述され、ある箇所に記述されている内容が前提となってそれ以降の内容が記述されている。従って、ある節で出現した重要語がそれ以降の節にも出現し、節が進むにつれ、出現する重要語が累積していくことが多い。また、章のような上位階層のセクションどうしは関連する内容が少ない。そこで、分類対象の文書をこのような文書集合の節に自動分類する場合、その分類対象の文書の内容について最初に記述されている節(「初出の節」とよぶ)に分類すべきである。初出の節以降の節にはより高度な内容が記述されているため、分類先として適切でない。例えば、理科の教科書のある節において「電流」が、次の節において「電流」を用いて「電圧」が説明され、さらに後述の節において「電流」及び「電圧」を用いて「抵抗」の説明がなされている場合、「電流」が記載されている分類対象の文書は、「電圧」又は「抵抗」の説明がなされている節ではなく、最初に「電流」が説明されている初出の節に分類されるべきである。
このような状況において、特許文献1〜3に示される従来の分類手法には以下のような問題点があった。
(1)分類対象文書中には主題となる内容が複数ある場合があるにも関わらず、分類先を一つに決定していたため、利用者は正しい分類先を見つけ出すのに時間がかかっていた。例えば、特許文献3の主題抽出手法を用いれば、抽出された主題ごとに分類先を決定することもできる。しかし、この主題抽出方法は、一つの文書中の単語分布のみから主題を抽出するものであり、すでにカテゴリに分類されている文書集合の文書中の単語分布を利用していない。そのため、抽出された主題はカテゴリの内容を考慮したものになっておらず、しばしば両者の内容がうまく適合しないことがあるという問題点がある。
(2)分類対象文書の内容に関連する重要語は、初出の節よりも後ろの節に多く出現することがある。従って、単語の出現頻度などを利用する従来手法においては、重要語がしばしば初出の節よりも後ろの節に分類されてしまい、利用者が正しい分類先に修正する手間が大きかった。
(3)分類対象文書全体に対する分類先を提示しているが、文書中のどの部分が分類先カテゴリに関連しているかを提示することは行っていない。よって、利用者は分類先が正しいかを否かを判断するために分類対象文書全体を参照する必要があり、手間がかかっていた。
【0005】
この発明は、上記のような事情を考慮してなされたもので、その目的は、節が進むに従って高度な内容が記述される文書データに対して、新規の分類対象文書を適切な節に分類するための分類先候補の提示を行うことができる文書分類支援装置を提供することにある。
【0006】
【課題を解決するための手段】
この発明は、上記の課題を解決すべくなされたもので、請求項1に記載の発明は、階層化されたセクションにより構成される分類先文書と、前記分類先文書の下位階層のセクションへの分類を行う対象の分類対象文書と、重要語及び該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを記憶する記憶部と、前記記憶部から前記分類先文書を読み出し、重要語を抽出して該重要語が出現する下位階層のセクションの情報とともに前記記憶部に書き込む第1の重要語抽出部と、前記記憶部から前記分類対象文書及び前記重要語を読み出し、前記分類対象文書から読み出した重要語を抽出する第2の重要語抽出部と、前記第2の重要語抽出部が抽出した重要語と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを基に、該重要語群からなる分類対象文書の主題を抽出する主題抽出部と、前記主題抽出部が抽出した分類対象文書の主題を構成する重要語群と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを基に、前記分類対象文書の主題の分類先の下位階層のセクションを導出する分類先導出部と、前記主題抽出部が抽出した分類対象文書の主題を構成する重要語群と、前記分類先導出部が導出した分類対象文書の主題の分類先の下位階層のセクションとを表示する表示部と、を具備することを特徴とする文書分類支援装置である。
【0007】
請求項2に記載の発明は、請求項1に記載の文書分類支援装置であって、前記分類先導出部は、主題を構成する各重要語群が前記分類先文書内に初めて出現する下位階層のセクションのうち、最も後ろの下位階層のセクションを分類先の下位階層のセクションとして導出することを特徴とする。
【0008】
請求項3に記載の発明は、請求項1または請求項2に記載の文書分類支援装置であって、前記第1の重要語抽出部は、予め決められた品詞、重要な事柄であることを表す文表現、あるいは、分類先文書中の単語分布を基に重要語を抽出することを特徴とする。
【0009】
請求項4に記載の発明は、請求項1から請求項3のいずれかの項に記載の文書分類支援装置であって、前記主題抽出部は、前記第2の重要語抽出部が抽出した重要語を、前記分類先文書中の同じ下位階層のセクションに出現する重要語群に分割して主題を抽出することを特徴とする請求項1から請求項3のいずれかの項に記載の文書分類支援装置。
【0010】
請求項5に記載の発明は、階層化されたセクションにより構成される分類先文書と、前記分類先文書の下位階層のセクションへの分類を行う対象の分類対象文書と、重要語及び該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを記憶する記憶部から前記分類先文書を読み出すステップと、読み出した前記分類先文書から重要語を抽出し、該重要語が出現する下位階層のセクションの情報とともに前記記憶部に書き込むステップと、前記記憶部から分類対象文書及び重要語を読み出し、前記分類対象文書から読み出した重要語を抽出するステップと、前記分類対象文書から抽出した重要語と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを基に、該重要語群からなる分類対象文書の主題を抽出するステップと、抽出した前記分類対象文書の主題を構成する重要語群と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを基に、前記分類対象文書の主題の分類先の下位階層のセクションを導出するステップと、前記分類対象文書の主題を構成する重要語群と、主題の分類先の下位階層のセクションとを表示するステップと、をコンピュータに実行させるための文書分類支援装置のコンピュータプログラムである。
【0011】
【発明の実施の形態】
以下、図面を参照し、この発明の実施の形態について説明する。
まず、本実施の形態による文書分類支援装置が文書分類を支援する対象の文書(以下、「分類対象文書」)の分類先となる文書(以下、「分類先文書」)の特徴を示す。分類先文書は、参考書や取扱説明書のように、徐々に記述内容が高度になっていく文書であり、以下のような特徴を備える。
(1)章及び節からなる階層的なセクションにより構成される。もっとも細かい下位階層のセクションを節、節よりも上位階層のセクションを章と呼ぶ。したがって、最も下位階層の章は複数の節から構成される。
(2)ある一つのもっとも下位階層の章においては、節が進むにしたがって徐々に高度な内容が記述される。すなわち、ある箇所で記述されている内容を前提として、それ以降の内容が記述される。そのため、ある節で出現した重要語がそれ以降の節にも出現し、節が進むにしたがって出現する重要語が累積していく。
(3)章の間には、関連する内容が少ない。教科書を例にとると、ある学年・科目も一つの章として捉えることができる。
【0012】
図1は、この発明の一実施の形態による文書分類支援装置の構成を機能展開して示したブロック図である。
分類先文書データベース(DB)101(記憶部)は、電子化された文書データの集合である分類先文書と、各文書が記述されているセクション、すなわち、各文書データが属する章及び節の情報とを記憶している。分類先文書は、例えば、教科書、参考書、各種操作マニュアルなどである。
重要語データベース(DB)103(記憶部)は、分類先文書から抽出された重要語に関する情報と、重要語の候補となる重要語候補に関する情報とを記憶する。
分類対象文書記憶部201(記憶部)は、電子化された文書データである分類対象文書を記憶している。分類対象文書は、例えば、新聞記事やコラム、操作マニュアルの一部などである。
重要語抽出部102(第1の重要語抽出部)は、分類先文書DB101から分類先文書を読み出して重要語及び重要語候補を抽出し、重要語DB103に書き込む機能を有する。
重要語抽出部202(第2の重要語抽出部)は、分類対象文書記憶部201から分類対象文書を読み出し、重要語DB103に登録されている重要語及び重要語候補を抽出する機能を有する。
主題抽出部203は、重要語抽出部202が分類対象文書から抽出した重要語を用いて、分類対象文書の主題を抽出する機能を有する。
分類先導出部204は、主題抽出部203が抽出した主題に基づき、重要語が分類されるべき分類先文書の節を導出する機能を有する。
記述範囲導出部205は、分類対象文書中の重要語の記載範囲を導出する機能を有する。
表示部206は、文書分類支援装置が備えるディスプレイへの出力を制御し、分類先導出部204や記述範囲導出部205の処理結果を表示する機能を有する。
【0013】
次に、本実施の形態による文書分類支援装置の処理手順について説明する。文書分類支援装置の処理手順は、「分類先文書からの重要語抽出」段階と「分類対象文書の分類支援」段階との2つの段階により構成される。
図2は、分類先文書からの重要語抽出の処理手順を示す図である。「分類先文書からの重要語抽出」段階においては、まず分類の前段階として、参考書や取扱説明書などの分類先文書から節ごとに重要語を抽出する。
ステップS110:
まず、重要語抽出部102は、分類先文書と分類先文書中の各文書データが属する章及び節の情報を分類先文書DB101から読み出し、形態素解析によって単語に分割し、単語ごとの品詞を特定する。
【0014】
ステップS120:
続いて、重要語抽出部102は、ステップS110において分類した単語の品詞、分類先文書中の文表現及び単語分布を利用して重要語を抽出する。具体的には、以下の「(1)品詞の条件」を満たし、さらに、「(2a)文表現の条件」または「(2b)単語分布の条件」を満たす単語を重要語として抽出する。さらに、重要語抽出部102は、重要語の条件を満たさないが、「(1)品詞の条件」のみを満たす単語を重要語候補として抽出する。
(1)品詞の条件
特定の品詞をもつ単語を抽出する。例えば、品詞が名詞、動詞、形容詞のいずれかである単語を抽出する。
(2a)文表現の条件
重要な事柄であることを表す文表現に基づき重要語を抽出する。例えば、形態素解析結果により、
「を/格助詞 A/名詞 と/格助詞 いい/動詞 ます/助動詞」
という文表現を認識した場合、単語Aを重要単語として抽出する。その他、重要な事柄であることを表す文表現には、以下がある。
「A/名詞 と/格助詞 は/係助詞 (いくつかの単語) の/格助詞 こと/名詞 です/助動詞」(単語Aが重要語)
「A/名詞 に/格助詞 なる/動詞 と/接続助詞」(単語Aが重要語)
(2b)単語分布の条件
一般的に、多くの節に出現する単語は重要語ではないことが多い。換言すれば、ある箇所とその周辺に集中して出現し、その他の場所にはあまり出現しない単語が重要であることが多い。そこで以下の2つの条件を満たす単語を重要語として抽出する。
・文書中の全節に対して、単語が出現する節の比率が所定の閾値以下の割合である。例えば、閾値は1/5〜1/10とする。
・分類先文書中のすべての文章に連番を付与した場合、単語が出現する文の番号の分散が所定の閾値以下の値である。
【0015】
ステップS130:
重要語抽出部102は、ステップS120において抽出した重要語と重要語候補に関する情報を重要語DB103に登録する。すなわち、重要語、重要語の品詞、重要語が出現する分類先文書の章と節、及び、重要語が出現する節ごとの出現頻度からなる重要語情報と、重要語候補、重要語候補の品詞、重要語候補が出現する分類先文書の章と節、及び、重要語候補が出現する節ごとの出現頻度からなる重要語候補情報とを重要語DB103に書き込む。
本実施例においては、以下の重要語情報が書き込まれたとする。
【0016】
図3は、分類対象文書の分類支援の処理手順を示す図である。「分類対象文書の分類支援」においては、まず分類対象文書から関連する重要語のグループにより構成される主題を抽出し、各主題を分類先文書内の節に分類する。そして、各主題に対応する分類対象文書の記述範囲を求めて提示する。さらに、利用者の操作により、分類先文書内の分類先の節を修正し、決定する。
ステップS210:
まず、重要語抽出部202は、分類対象文書記憶部201から分類対象文書を読み出し、形態素解析によって単語に分割し、単語ごとの品詞を特定する。
【0017】
ステップS220:
重要語抽出部202は、重要語DB103から重要語情報及び重要語候補情報を読み出し、ステップS210において分割した単語のうち、読み出した重要語、あるいは、重要語候補と一致する単語を分類対象文書内から抽出する。
本実施例においては、分類対象文書内から重要語として、重要語1、重要語2、重要語3、重要語4、重要語5、重要語6及び重要語7が抽出され、重要語候補として単語8、単語9、単語10、単語11、及び、単語12が抽出されたとする。
【0018】
ステップS230:
主題抽出部203は、ステップS220において重要語抽出部202が分類対象文書から抽出した重要語が分類先文書において出現する章と節を用い、分類対象文書の主題を抽出する。すなわち、主題抽出部203は、以下の2段階により、主題を構成する重要語群を抽出する。
(1)分類先文書の章ごとに出現する重要語群を求める。ひとつの重要語が複数の章に含まれていてもよい。
(2)各章に含まれる重要語群に対し、「同じ節に出現する重要語は同じクラスタに含まれる」という条件に基づいて重要語群をクラスタリング(分割)し、最小のクラスタを得る。得られた各クラスタが一つの主題を表し、同じクラスタ内に含まれる重要語群が主題を構成する重要語群となる。
ステップS220において重要語DB103から読み出した重要語情報と、分類対象文書から抽出された重要語の例を用いて具体的に説明する。分類先文書の1章において、節1.1に重要語4が、節1.2及び節1.3に重要語4及び重要語5が出現しており、他の重要語と、重要語4あるいは重要語5が同じ節内に出現している箇所はない。従って、重要語4及び重要語5からなる重要語群が1つの主題(「主題B」とする)を表している。また、節1.4及び節1.5に重要語3が、節1.6に重要語2及び重要語3が、節1.7に重要語1及び重要語2が、節1.8に重要語1、重要語2及び重要語3が出現しており、1章において、重要語1、重要語2あるいは重要語3が他の重要語と同時に出現している節はない。よって、重要語1、重要語2及び重要語3からなる重要語群が1つの主題(「主題A」とする)を表している。同様に、2章については、重要語6及び重要語7からなる重要語群が1つの主題(「主題C」とする)を表している。
【0019】
ステップS240:
分類先導出部204は、各主題の分類先の節を導出する。すなわち、各主題について、主題を構成する各重要語が分類先文書内に初めて出現する節(「初出の節」)のうち、最も後ろの節を分類先の節とする。
具体的に説明すると、主題Aの重要語群は重要語1、重要語2及び重要語3からなり、重要語1の初出の節は節1.7、重要語2の初出の節は節1.6、重要語3の初出の節は節1.4である。従って、重要語1の初出の節1.7が主題Aを構成する重要語群の中で最も後ろの初出の節であり、主題Aの分類先の節となる。同様に、主題Bの分類先の節は重要語4の初出の節1.2、主題Cの分類先の節は重要語6の初出の節2.3となる。
【0020】
ステップS250:
分類先導出部204は、表示部206に指示することにより、各主題の分類先の節や重要語が出現する節などを視覚的に表示する。具体的には、以下により、文書分類支援画面の表示を行う。
(1)各主題を構成する重要語群と、重要語群を構成する重要語と同じ節内に出現し、ステップS220で抽出された重要語候補群とを表示する。
(2)初出の節が最も後ろの重要語から順に各重要語が出現する節とその出現頻度、および、初出の節を表示する。また、ステップS240において導出した分類先の節に対応するチェックボックスをONに設定する。なお、節に対応するチェックボックスは、分類先の節の決定に使用される。
(3)分類先文書の章と節の一覧のうち、各主題の分類先の節を反転表示したり、他の節とは色を変えるなどして強調表示する。
【0021】
図4は、文書分類支援画面イメージを示す図である。
文書分類支援画面には、分類先文書を構成する章とその配下の節の一覧が縦方向にツリー状に表示され、各節の横には主題の分類先であるか否かを示すチェックボックスが表示される。そして、各主題A、主題B、主題Cが横方向に並べて表示され、各主題を構成する重要語群及び重要語群を構成する重要語と同じ節内に出現する重要語候補群が示される。図においては、主題Aは、重要語1、重要語2及び重要語3からなる重要語群と、単語8及び単語9からなる重要語候補群とで構成されることを示している。また、主題Bは、重要語4及び重要語5からなる重要語群と、単語10及び単語11からなる重要語候補群とで構成され、主題Cは、重要語6及び重要語7からなる重要語群と、単語12からなる重要語候補群とで構成されることを示している。
各主題の重要語群は、初出の節がもっとも後ろの重要語から順に、各重要語が出現する節とその出現頻度が提示される。また、各重要語の初出の節が強調表示される。図において、主題Aの重要語1は初出の節1.7に2回、節1.8に4回出現し、重要語2は初出の節1.6に3回、節1.7に2回、節1.8に3回出現し、重要語3は初出の節1.4に4回、節1.5に1回、節1.6に3回、節1.8に4回出現していることを示している。そして、主題Aの中で最も初出の節が後ろである重要語Aの初出の節1.7が強調表示され、横のチェックボックスがONとなり、主題Aの分類先の節であることを示している。同様に、主題Bにおいては、分類先の節として重要語4の初出の節1.2が強調表示され、横のチェックボックスがONとなり、主題Cにおいては、重要語6の初出の節2.3が強調表示され、横のチェックボックスがONとなっている。これにより、重要語が出現する順番を把握するとともに、初出の節が最も後ろの重要語が分類先に寄与していることを一目で認識することが可能となる。
【0022】
図3のステップS250に戻り、さらに、分類先導出部204は、表示された文書分類支援画面に対する利用者の操作に従って、分類先文書DB101から分類先文書と分類先文書中の各文書データが属する章及び節の情報を読み出し、文書分類を支援する以下の画面を表示するよう表示部206へ指示する。
(1)利用者が、マウスのクリックにより分類先文書の章と節の一覧の中から章あるいは節を選択した場合、分類先文書中の該当する章あるいは節の文全体を表示する。また、表示された章あるいは節中に出現する重要語及び出現頻度の一覧を表示する。なお、このとき表示される重要語には、分類対象文書には含まれていない重要語も含まれる。
(2)利用者が、マウスのクリックにより各主題を構成する重要語群の中から重要語を選択した場合、分類先文書中の該当する重要語が出現する文とその周辺の文を表示する。
(3)利用者が、マウスのクリックにより重要語が出現する節の出現頻度の部分を選択した場合、選択した重要語が該当する分類先文書の節において出現する文とその周辺の文を表示する。
【0023】
また、利用者が、主題を構成する重要語群に対して、マウスによるドラッグ&ドロップの操作により、重要語を重要語候補に変更、あるいは、重要語候補を重要語に変更した場合は、重要語群の変更を受け、ステップS240からの処理を再び行い、新たに指定された重要語が分類先文書中に出現する節とその出現頻度、主題の分類先の節を抽出し、文書分類支援画面の表示を指示する。また、新たな分類先の節に対応するチェックボックスをONにする。
【0024】
ステップS260:
記述範囲導出部205は、以下の手順により、各主題の分類対象文書中における記述範囲を求めて表示部206に通知し、表示部206はディスプレイへの表示を行う。すなわち、各主題を構成する重要語群のうち一つ以上の重要語を含む分類対象文書中の文の集合を、その重要語が属する主題に対応する記述範囲として選択する。そして、分類対象文書中の主題ごとの重要語群と、主題の記述範囲とを提示する。
【0025】
図5は、各主題の分類対象文書中における記述範囲の表示画面イメージを示す図である。図において、分類対象文書において、重要語6及び重要語7を含み、主題Cに対応する記述範囲が提示されている。また、重要語5及び重要語4を含み、主題Bに対応する記述範囲が、重要語1、重要語2及び重要語3を含み、主題Aに対応する記述範囲が提示されている。
【0026】
ステップS270:
図3のステップS270において、分類先導出部204は、利用者が文書分類支援画面に対して行う以下の操作による分類先の修正、選択に従い、分類先を決定する。
(1)利用者は、再び、各主題の重要語を重要語候補に変更、あるいは、重要語候補を重要語に変更する。この操作に応じて、自動的に分類先の節を修正し、新たな分類先の節に対応するチェックボックスをONにする。
(2)利用者は、分類先の節に対応するチェックボックスをクリックすることにより、ON/OFFの設定を行い、分類先を選択する。
(3)利用者は、分類先を選択後、「分類先決定」ボタンをマウスでクリックするなどの操作を行い、分類先を確定する。分類先導出部204は、ONが設定された節を主題の分類先の節として内部に記憶する。
【0027】
本実施の形態による文書分類支援装置の利用イメージとして、以下があげられる。
(1)学校の先生がネットワーク上に公開されている新聞記事などの文書を授業の補助教材として活用するために、文書を教科書の節(ある程度まとまった学習範囲)に分類するための支援を行う。文書に含まれる主題ごとに分類先の節が提示されるため、正しい分類先の節を効率よく見つけることが可能となり、教科書の各節に対応する補助教材を短時間のうちに蓄積できる。
(2)ある装置を利用しようとしている人が、その装置の取扱説明書を読んでいるときに、意味の分からない文章や用語が出てきた場合、その文章や用語に対して取扱説明書の節への自動分類を行い、内容の理解を支援する。分類先の節の説明を参照することにより、その文章や用語の内容を理解することができる。
【0028】
本実施の形態によれば、参考書や取扱説明書のような文書集合への文書の自動分類において、文書集合の初出の節を利用して分類対象文書の分類を行うことが可能になる。従って、従来の自動分類手法よりも適切な節(カテゴリ)に分類対象文書を分類することができる。
また、分類対象文書の複数の主題を分類先文書から抽出した重要語群により表すことが可能となる。従って、分類対象文書の各主題を構成する重要語群を表示することにより、利用者は分類対象文書にどのような主題が含まれているかを一目で把握することが可能となるとともに、分類作業の効率が向上する。
また、各主題の重要語を初出の節がもっとも後ろの重要語から順に表示することにより、初出の節がもっとも後ろの重要語が分類先に寄与していることが一目で分かり、分類作業の効率が向上する。
また、各重要語に対する分類先文書中の節が提示されるため、利用者は意味の分からない重要語の分類先文書中の節を参照することにより、分類対象文書の理解支援に役立つ。
【0029】
なお、分類先文書DB101及び分類対象文書記憶部201は、文書が公開されているURI(Universal Resource Identifier)など、文書の記憶場所を記憶することでもよい。この場合、記憶場所により示される文書を読み込み、上記処理が行われる。
また、ステップS120における品詞の条件、あるいは、単語分布の条件に付随する閾値は、利用者の操作により変更してもよい。
【0030】
なお、上述の文書分類支援装置は、内部にコンピュータシステムを有している。そして、上述した文書分類支援装置の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、OSや周辺機器等のハードウェアを含むものである。
【0031】
また、「コンピュータ読み取り可能な記録媒体」とは、ROMの他に、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のシステムやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0032】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0033】
【発明の効果】
この発明によれば、参考書や取扱説明書のような文書集合への文書の自動分類において、文書集合の初出の節を利用して分類対象文書の分類を行うことが可能になる。従って、従来の自動分類手法よりも適切な節(カテゴリ)に分類対象文書を分類することができる。
また、分類対象文書の複数の主題を分類先文書から抽出した重要語群により表すことが可能となる。従って、分類対象文書の各主題を構成する重要語群を表示することにより、利用者は分類対象文書にどのような主題が含まれているかを一目で把握することが可能となるとともに、分類作業の効率が向上する。
【図面の簡単な説明】
【図1】この発明の一実施の形態による文書分類支援装置の構成を機能展開して示したブロック図である。
【図2】同実施の形態による分類先文書からの重要語抽出の処理手順を示す図である。
【図3】同実施の形態による分類対象文書の分類支援の処理手順を示す図である。
【図4】同実施の形態による文書分類支援画面イメージを示す図である。
【図5】同実施の形態による各主題の分類対象文書中における記述範囲の表示画面イメージを示す図である。
【符号の説明】
101…分類先文書DB(データベース)
102、202…重要語抽出部
103…重要語DB(データベース)
201…分類対象文書記憶部
203…主題抽出部
204…分類先導出部
205…記述範囲導出部
206…表示部
Claims (5)
- 階層化されたセクションにより構成される分類先文書と、前記分類先文書の下位階層のセクションへの分類を行う対象の分類対象文書と、重要語及び該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを記憶する記憶部と、
前記記憶部から前記分類先文書を読み出し、重要語を抽出して該重要語が出現する下位階層のセクションの情報とともに前記記憶部に書き込む第1の重要語抽出部と、
前記記憶部から前記分類対象文書及び前記重要語を読み出し、前記分類対象文書から読み出した重要語を抽出する第2の重要語抽出部と、
前記第2の重要語抽出部が抽出した重要語と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを基に、該重要語群からなる分類対象文書の主題を抽出する主題抽出部と、
前記主題抽出部が抽出した分類対象文書の主題を構成する重要語群と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを基に、前記分類対象文書の主題の分類先の下位階層のセクションを導出する分類先導出部と、
前記主題抽出部が抽出した分類対象文書の主題を構成する重要語群と、前記分類先導出部が導出した分類対象文書の主題の分類先の下位階層のセクションとを表示する表示部と、
を具備することを特徴とする文書分類支援装置。 - 前記分類先導出部は、主題を構成する各重要語群が前記分類先文書内に初めて出現する下位階層のセクションのうち、最も後ろの下位階層のセクションを分類先の下位階層のセクションとして導出することを特徴とする請求項1に記載の文書分類支援装置。
- 前記第1の重要語抽出部は、予め決められた品詞、重要な事柄であることを表す文表現、あるいは、分類先文書中の単語分布を基に重要語を抽出することを特徴とする請求項1または請求項2に記載の文書分類支援装置。
- 前記主題抽出部は、前記第2の重要語抽出部が抽出した重要語を、前記分類先文書中の同じ下位階層のセクションに出現する重要語群に分割して主題を抽出することを特徴とする請求項1から請求項3のいずれかの項に記載の文書分類支援装置。
- 階層化されたセクションにより構成される分類先文書と、前記分類先文書の下位階層のセクションへの分類を行う対象の分類対象文書と、重要語及び該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを記憶する記憶部から前記分類先文書を読み出すステップと、
読み出した前記分類先文書から重要語を抽出し、該重要語が出現する下位階層のセクションの情報とともに前記記憶部に書き込むステップと、
前記記憶部から分類対象文書及び重要語を読み出し、前記分類対象文書から読み出した重要語を抽出するステップと、
前記分類対象文書から抽出した重要語と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを基に、該重要語群からなる分類対象文書の主題を抽出するステップと、
抽出した前記分類対象文書の主題を構成する重要語群と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの情報とを基に、前記分類対象文書の主題の分類先の下位階層のセクションを導出するステップと、
前記分類対象文書の主題を構成する重要語群と、主題の分類先の下位階層のセクションとを表示するステップと、
をコンピュータに実行させるための文書分類支援装置のコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002309555A JP4423385B2 (ja) | 2002-10-24 | 2002-10-24 | 文書分類支援装置およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002309555A JP4423385B2 (ja) | 2002-10-24 | 2002-10-24 | 文書分類支援装置およびコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004145626A true JP2004145626A (ja) | 2004-05-20 |
JP4423385B2 JP4423385B2 (ja) | 2010-03-03 |
Family
ID=32455329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002309555A Expired - Fee Related JP4423385B2 (ja) | 2002-10-24 | 2002-10-24 | 文書分類支援装置およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4423385B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007265068A (ja) * | 2006-03-29 | 2007-10-11 | National Institute Of Information & Communication Technology | 文書差分検出装置及びプログラム |
JP2009288999A (ja) * | 2008-05-29 | 2009-12-10 | Fujitsu Ltd | まとめ上げ作業支援処理方法、装置及びプログラム |
WO2014002212A1 (ja) * | 2012-06-27 | 2014-01-03 | 株式会社日立製作所 | 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム |
WO2014025175A1 (ko) * | 2012-08-06 | 2014-02-13 | Ji Seung Hwan | 학습플랜을 이용한 전자서적 추천방법 |
WO2014025174A1 (ko) * | 2012-08-06 | 2014-02-13 | Ji Seung Hwan | 지식체계 맵핑을 통한 전자적 형태의 서적의 관리방법 |
JP2016181277A (ja) * | 2011-04-14 | 2016-10-13 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 製品カテゴリ情報を判断する方法および装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000123041A (ja) * | 1998-10-19 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 |
JP2001101226A (ja) * | 1999-10-01 | 2001-04-13 | Ricoh Co Ltd | 文書群分類装置および文書群分類方法 |
-
2002
- 2002-10-24 JP JP2002309555A patent/JP4423385B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000123041A (ja) * | 1998-10-19 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 |
JP2001101226A (ja) * | 1999-10-01 | 2001-04-13 | Ricoh Co Ltd | 文書群分類装置および文書群分類方法 |
Non-Patent Citations (2)
Title |
---|
MARTI A. HEARST: "Multi-Paragraph Segmentation of Expository Text", PROC. OF THE 32ND ANNUAL MEETING ON ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, vol. pp. 9-16, JPN6009006626, 1994, US, ISSN: 0001250461 * |
北内 啓,外2名: "教育コンテンツの特徴を利用した自動分類", 電子情報通信学会技術研究報告, vol. 第101巻,第710号, JPN6009006623, 7 March 2002 (2002-03-07), JP, pages 93 - 10, ISSN: 0001250460 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007265068A (ja) * | 2006-03-29 | 2007-10-11 | National Institute Of Information & Communication Technology | 文書差分検出装置及びプログラム |
JP2009288999A (ja) * | 2008-05-29 | 2009-12-10 | Fujitsu Ltd | まとめ上げ作業支援処理方法、装置及びプログラム |
JP2016181277A (ja) * | 2011-04-14 | 2016-10-13 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 製品カテゴリ情報を判断する方法および装置 |
WO2014002212A1 (ja) * | 2012-06-27 | 2014-01-03 | 株式会社日立製作所 | 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム |
JP5894273B2 (ja) * | 2012-06-27 | 2016-03-23 | 株式会社日立製作所 | 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム |
WO2014025175A1 (ko) * | 2012-08-06 | 2014-02-13 | Ji Seung Hwan | 학습플랜을 이용한 전자서적 추천방법 |
WO2014025174A1 (ko) * | 2012-08-06 | 2014-02-13 | Ji Seung Hwan | 지식체계 맵핑을 통한 전자적 형태의 서적의 관리방법 |
KR101521331B1 (ko) * | 2012-08-06 | 2015-05-19 | 지승환 | 학습플랜을 이용한 전자서적 추천방법 |
KR101521330B1 (ko) * | 2012-08-06 | 2015-05-20 | 지승환 | 지식체계 맵핑을 통한 전자적 형태의 서적의 관리방법 |
Also Published As
Publication number | Publication date |
---|---|
JP4423385B2 (ja) | 2010-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6330576B1 (en) | User-friendly information processing device and method and computer program product for retrieving and displaying objects | |
US20070198246A1 (en) | Interactive system for building, organising, and sharing one's own encyclopedia in one or more languages | |
JP2006251866A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2003248676A (ja) | 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法 | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
CN112749272A (zh) | 面向非结构化数据的新能源规划性文本智能推荐方法 | |
JP2004178123A (ja) | 情報処理装置、該情報処理装置を実現するためのプログラム | |
US20160188595A1 (en) | Semantic Network Establishing System and Establishing Method Thereof | |
JP4423385B2 (ja) | 文書分類支援装置およびコンピュータプログラム | |
JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
JP6868576B2 (ja) | 事象提示システムおよび事象提示装置 | |
JP2001101199A (ja) | 文書処理装置 | |
JP2008204133A (ja) | 回答検索装置及びコンピュータプログラム | |
CN114328895A (zh) | 新闻摘要的生成方法、装置以及计算机设备 | |
JP2002183175A (ja) | テキストマイニング方法 | |
JP2006139484A (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
WO2015151268A1 (ja) | 反論生成方法,反論生成システム | |
JPH1173426A (ja) | 文章照合装置 | |
JP2004157965A (ja) | 検索支援装置、検索支援方法、プログラムおよび記録媒体 | |
JP2005234772A (ja) | 文書管理装置および方法 | |
JP2002140338A (ja) | 辞書構築支援装置および辞書構築支援方法 | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JP2003271616A (ja) | 文書分類装置、文書分類方法及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040513 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040517 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20051020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091020 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091105 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |