JP2006099478A - Document classification device and document classification method - Google Patents
Document classification device and document classification method Download PDFInfo
- Publication number
- JP2006099478A JP2006099478A JP2004285367A JP2004285367A JP2006099478A JP 2006099478 A JP2006099478 A JP 2006099478A JP 2004285367 A JP2004285367 A JP 2004285367A JP 2004285367 A JP2004285367 A JP 2004285367A JP 2006099478 A JP2006099478 A JP 2006099478A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- classification
- comparison target
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書の分野を分類する文書分類装置および文書分類方法に関する。 The present invention relates to a document classification apparatus and a document classification method for classifying document fields.
従来、予めデータベースに記憶される複数の文書情報に基づいて、入力文書の属する分野を特定する文書分類システムがある。このような文書分類システムでは、まず、予め分野が特定されてデータベースに記憶されている複数の比較対象文書から分類を特定したい入力文書と類似する比較対象文書を抽出する。その後、その抽出された比較対象文書に予め関連付けられている分野に基づいて、入力文書が属する分野を特定する方式がある(例えば、特許文献1)。 Conventionally, there is a document classification system that identifies a field to which an input document belongs based on a plurality of document information stored in advance in a database. In such a document classification system, first, a comparison target document similar to an input document whose classification is to be specified is extracted from a plurality of comparison target documents whose fields are specified in advance and stored in the database. Thereafter, there is a method for specifying a field to which an input document belongs based on a field previously associated with the extracted comparison target document (for example, Patent Document 1).
さらに、分類処理の効率化を図るため、文書分類システムでは、一括して大量の入力文書の分類処理を行なう方式が一般的である。また、このような文書分類システムでは、入力文書について大量の比較対象文書との類似度算出を行なうことが多い。さらに、高い精度が求められる文書分類システムにおいては、コンピュータにより分類した結果を、人手によってチェックすることになる。
上述したような、大量の入力文書を一括して分類する従来の文書分類システムでは、一度に大量の文書を効率良く処理できる反面、一括して分類処理を行った時点で分類の結果が確定される。そのため、対話性が犠牲になる問題が生じることがある。 In the conventional document classification system that classifies a large amount of input documents as described above, a large amount of documents can be processed efficiently at one time, but the classification result is fixed when the classification processing is performed collectively. The As a result, the problem of interactivity may arise.
具体的には、分類処理で得られた結果を操作者が確認したとき目的の結果でない場合、再び分類処理でのパラメータ調整して再度分類を実行する対話的な操作を実現できなかった。 Specifically, when the operator confirms the result obtained by the classification process, if the result is not the target result, the interactive operation for adjusting the parameters again in the classification process and executing the classification again cannot be realized.
また、一括処理方式で分類する文書分類システムでは、対話的な操作の実現が困難であるため、分類結果に大きく影響した特徴的な単語などの分類の根拠となる情報を利用者に提示するシステムも存在しなかった。 In addition, since it is difficult to implement interactive operations in a document classification system that classifies using the batch processing method, a system that presents the user with information that provides the basis for classification such as characteristic words that have greatly influenced the classification result. Also did not exist.
本発明は上記の問題を解決するためになされたものであり、一括処理を利用する文書分類方式において、対話的に分類結果を調整することが可能な文書分類装置および文書分類方法を提供することを目的とする。 The present invention has been made to solve the above problems, and provides a document classification apparatus and a document classification method capable of interactively adjusting a classification result in a document classification method using batch processing. With the goal.
本発明の特徴に係る文書分類装置によれば、文書の属する分野を分類する対象となる分類キー文書を分類する文書分類装置であって、分類キー文書と比較する比較対象文書の情報と、この比較対象文書の分野が関連付けられた比較対象文書情報を記憶している比較対象文書情報記憶部と、単語と、単語が含まれている文書の分野の特徴を示す指標となる単語重みを記憶している単語重み情報記憶部と、分類キー文書を比較対象文書情報と比較して分類キー文書および比較対象文書で共通に使用されている単語である共通使用単語を抽出し、少なくともこれらの共通使用単語と、共通使用単語の使用回数と、前記単語重み情報記憶部から単語重みを読み出した共通使用単語の単語重みとが関連づけられた共通単語情報を生成する一括処理制御部と、共通単語情報から複数の比較対象文書と前記分類キー文書との類似度を求め、求められた類似度の高い比較対象文書に基づいて分野を特定し、さらに、入力装置からの指示に基づいて、特定した分野を調整する対話処理制御部とを有する。 According to the document classification device according to the feature of the present invention, a document classification device for classifying a classification key document to be classified into a field to which the document belongs, information on a comparison target document to be compared with the classification key document, A comparison target document information storage unit storing comparison target document information associated with a field of the comparison target document, a word, and a word weight serving as an index indicating characteristics of the field of the document including the word The word weight information storage section, the classification key document is compared with the comparison target document information, and a common use word that is a word commonly used in the classification key document and the comparison target document is extracted, and at least these common use A batch processing control unit that generates common word information in which a word, the number of times of use of a commonly used word, and the word weight of the commonly used word read from the word weight information storage unit are associated The similarity between a plurality of comparison target documents and the classification key document is obtained from the common word information, the field is specified based on the obtained comparison target document having a high similarity, and further, based on an instruction from the input device And a dialogue processing control unit for adjusting the specified field.
上記構成の本発明によれば、対話的に分類結果を調整する文書分類装置を提供することができる。 According to the present invention having the above-described configuration, it is possible to provide a document classification device that interactively adjusts classification results.
本発明によれば、一括処理を利用する文書分類方式において、対話的に分類結果を調整することができる。 According to the present invention, it is possible to interactively adjust the classification result in the document classification method using batch processing.
[第1の実施例]
以下に、図面を参照して、本発明の第1の実施の形態に係る類似文書分類装置1を説明する。
[First embodiment]
The similar document classification device 1 according to the first exemplary embodiment of the present invention will be described below with reference to the drawings.
[類似文書分類装置]
図1に示すのは、本発明の第1の実施の形態に係る類似文書分類装置1のブロック図である。
[Similar document classification device]
FIG. 1 is a block diagram of a similar document classification apparatus 1 according to the first embodiment of the present invention.
図1に示す類似文書分類装置1は、比較対象文書情報記憶部11、単語重み情報記憶部12、一括処理制御部13および対話処理制御部14を有する。
The similar document classification device 1 shown in FIG. 1 includes a comparison target document
比較対象文書情報記憶部11は、文書の属する分野を分類する対象となる分類キー文書と比較する比較対象文書の情報と、この比較対象文書の分野が関連付けられた比較対象文書情報を記憶している。
The comparison target document
単語重み情報記憶部12は、単語と、単語が含まれる文書の分野の特徴を示す指標となる単語重みを記憶している。
The word weight
一括処理制御部13は、分類キー文書を前記比較対象文書情報と比較して分類キー文書および比較対象文書で共通に使用されている単語である共通使用単語を抽出し、少なくともこれらの共通使用単語と、共通使用単語の使用回数と、単語重み情報データベースから読み出した共通使用単語の単語重みとが関連づけられた共通単語情報を生成する。
The collective
対話処理制御部14は、共通単語情報から複数の比較対象文書との類似度を求め、求められた類似度の高い比較対象文書の分野に基づいて分野を特定した分類結果を求め、さらに、分類結果を調整する調整手段を備える。
The dialogue
図2に示すのは、比較対象文書情報記憶部11で記憶する比較対象文書情報の一例である。比較対象文書とは、分野を分類する対象となる分類キー文書と比較する文書である。また、比較対象文書情報は、この比較対象文書に基づいて生成される。
FIG. 2 shows an example of comparison target document information stored in the comparison target document
具体的に図2に示す比較対象文書情報は、複数の比較対象文書の「タイトル」、「分野」、「使用単語」および「使用回数」などの情報を含んでいる。この図2に示す例によれば、比較対象文書1は、タイトルが「データベース更新処理時間の短縮」であり、分野は「データベース更新」である。また、比較対象文書1の中で使用されている単語とその使用回数が、それそれ「大規模」が2回、「データベース」が5回、「更新処理」が8回、「時間」が3回、「短縮」が2回であることを表している。 Specifically, the comparison target document information shown in FIG. 2 includes information such as “title”, “field”, “use word”, and “use count” of a plurality of comparison target documents. According to the example shown in FIG. 2, the title of the comparison target document 1 is “reduction in database update processing time”, and the field is “database update”. Further, the words used in the comparison target document 1 and the number of times of use thereof are 2 for “large scale”, 5 for “database”, 8 for “update processing”, and 3 for “time”. Times, “shortening” represents 2 times.
図3に示すのは、単語重み情報記憶部12で記憶する単語重み情報の一例である。図3に示す単語重み情報では、例えば「自動分類」の単語重みは「8.5」であり、「データベース」の単語重みは「4.3」であることを表している。
FIG. 3 shows an example of word weight information stored in the word weight
この「単語重み」には、例えば比較対象文書情報記憶部11中の全ての比較対象文書におけるその使用単語の使用頻度の逆数が利用される。これは、より多く使用される単語は一般的な単語であり、文書の特徴を表さない単語であると考えられるためである。逆に、使用される回数の少ない単語はより特徴的であると考える。本実施例では、分類に使用する単語重み情報として、図3に示すような単語重み情報が予め作成され、記憶されているものとする。
For this “word weight”, for example, the reciprocal of the frequency of use of the used word in all the comparison target documents in the comparison target document
本発明の最良の実施の形態に係る類似文書分類装置1は、図4に示すように、中央処理制御装置101、ROM(Read Only Memory)102、RAM(Random Access Memory)103および入出力インタフェース109が、バス110を介して接続されている。入出力インタフェース109には、入力装置104、表示装置105、通信制御装置106、記憶装置107およびリムーバブルディスク108が接続されている。
As shown in FIG. 4, the similar document classification device 1 according to the preferred embodiment of the present invention includes a central
中央処理制御装置101は、入力装置104からの入力信号に基づいてROM102から類似文書分類装置1を起動するためのブートプログラムを読み出して実行し、更に記憶装置107に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置101は、入力装置104や通信制御装置106などの入力信号に基づいて、各種装置の制御を行ったり、RAM103や記憶装置107などに記憶されたプログラムおよびデータを読み出してRAM103にロードするとともに、RAM103から読み出されたプログラムのコマンドに基づいて、データの計算または加工など、後述する一連の処理を実現する処理装置である。
The central
入力装置104は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース109およびバス110を介して中央処理制御装置101に送信される。表示装置105は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどであり、中央処理制御装置101からバス110および入出力インタフェース109を介して表示装置105において表示させる出力信号を受信し、例えば、中央処理制御装置101の処理結果などを表示する装置である。通信制御装置106は、LANカードやモデムなどの装置であり、類似文書分類装置1をインターネットやLANなどの通信ネットワークに接続する装置である。通信制御装置106を介して通信ネットワークと送受信したデータは入力信号または出力信号として、入出力インタフェース109およびバス110を介して中央処理制御装置101に送受信される。
The
記憶装置107は半導体記憶装置または磁気ディスク装置等であって、中央処理制御装置101で実行されるプログラムやデータが記憶されている。リムーバブルディスク108は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース109およびバス110を介して中央処理制御装置101に送受信される。本発明の実施の形態に係る類似文書分類装置1の記憶装置107には、類似文書分類プログラムが記憶されるとともに、比較対象文書情報記憶部11および単語重み情報記憶部12が記憶される。また、この類似文書分類プログラムが類似文書分類装置1の中央処理制御装置101に読み込まれて実行されることによって、一括処理制御部13および対話処理制御部14が実装される。
The
なお、本発明の最良の実施の形態に係る類似文書分類装置1は、一つのコンピュータによって実現されても良いし、互いに通信可能な複数のコンピュータによって実現されても良い。例えば、一括処理を行なうための構成と対話処理を行なうための構成は、同一のコンピュータシステム上にあっても構わないし、ネットワーク等を介して接続された別のコンピュータシステム上にあっても構わない。また、一括処理制御部13および対話処理制御部14もそれぞれ一つのコンピュータによって実現されていても良く、また複数のコンピュータによって実現されていても良い。
The similar document classification device 1 according to the best embodiment of the present invention may be realized by a single computer or a plurality of computers that can communicate with each other. For example, the configuration for performing batch processing and the configuration for performing interactive processing may be on the same computer system or on different computer systems connected via a network or the like. . Further, the batch
図5に示すように、本発明の実施の形態に係る類似文書分類装置1における一括処理制御部13は制御部200およびメモリ部250を有する。
As shown in FIG. 5, the batch
制御部200は、初期化部201、入力部202、単語重み読み込み部203、分類キー文書情報生成部204、比較対象文書情報読み込み部205、共通単語情報生成部206およびデータ出力部207を有する。
The
また、メモリ部250は、単語重み情報バッファ部251、分類キー文書情報バッファ部252、比較対象文書情報バッファ部253および共通単語情報バッファ部254を有する。
The
単語重み情報バッファ部251は、比較対象文書で使用されている単語である使用単語について、各使用単語とその重みとが関連付けられた単語重み情報を記憶する。
The word weight
分類キー文書情報バッファ部252は、分類の対象となる分類キー文書から生成される分類キー文書情報を記憶する。
The classification key document
比較対象文書情報バッファ部253は、分類キー文書情報と比較する比較対象文書情報を記憶する。
The comparison target document
共通単語情報バッファ部254は、分類キー文書と比較対象文書で共通して使用されている単語である共通使用単語と、その共通使用単語の文書における使用回数と、その共通使用単語の単語重みとを関連付けた共通単語情報を記憶する。
The common word
初期化部201は、メモリ部250の各バッファ部251〜254を初期化する。
The
入力部202は、分類キー文書や操作指示を入力装置から入力する。
The
単語重み読み込み部203は、単語重み情報記憶部12から単語重み情報バッファ部251に単語重み情報を読み込む。
The word
分類キー文書情報生成部204は、入力された分類キー文書を単語単位に分解する。また、分類キー文書情報生成部204は、分解された各単語とその単語の使用回数とを含む分類キー文書情報を生成し、分類キー文書情報バッファ部252に記憶させる。
The classification key document
比較対象文書情報読み込み部205は、比較対象文書情報記憶部11から比較対象文書情報バッファ部253に比較対象文書情報を読み込む。
The comparison target document
共通単語情報生成部206は、分類キー文書情報バッファ部252に記憶される分類キー文書情報と比較対象文書情報バッファ部253に記憶される比較対象文書情報とを読み出す。その後、共通単語情報生成部206は、分類キー文書と比較対象文書で共通で使用している共通使用単語を抽出し、その共通使用単語の文書中での使用回数およびその共通使用単語の単語重みを合わせた共通単語情報を生成して共通単語情報バッファ部254に記憶させる。
The common word
データ出力部207は、共通単語情報バッファ部254に格納されている共通単語情報を、対話処理制御部14へ出力する。
The
図6に示すように、本発明の実施の形態に係る類似文書分類装置における対話処理制御部14は、制御部300およびメモリ部350を有する。
As shown in FIG. 6, the dialogue
制御部300は、初期化部301、入力部302、データ入力部303、比較対象文書類似度算出部304、分野別類似度積算部305、分野特定部306および単語重み調整部307を有する。
The
また、メモリ部350は、共通単語情報バッファ部351、比較対象文書類似度バッファ部352および分野別類似度積算値バッファ部353を有する。
The
共通単語情報バッファ部351は、共通単語情報を記憶する。
The common word
比較対象文書類似度バッファ部352は、分類キー文書に関して求められた比較対象文書毎の共通使用単語を用いた類似度を比較対象文書類似度として記憶する。
The comparison target document
分野別類似度積算値バッファ部353は、比較対象文書類似度を、その比較対象文書が属する分野毎に合計した分野別類似度積算値を記憶する。
The field-specific similarity integrated
初期化部301は、メモリ部350の各バッファ部351〜353を初期化する。
The
入力部302は、操作指示を入力装置から入力する。
The
データ入力部303は、一括処理制御部13のデータ出力部207から出力された共通単語情報を入力し、共通単語情報バッファ部351に記憶させる。
The
比較対象文書類似度算出部304は、共通単語情報バッファ部351に記憶されている共通単語情報を読み出し、各共通単語情報の比較対象文書毎の類似度である比較対象文書類似度を算出する。また、比較対象文書類似度算出部304は、算出した比較対象文書類似度を比較対象文書類似度バッファ部352に記憶させる。
The comparison target document
なお、本実施の形態において比較対象文書類似度を算出する方法は、分類キー文書および比較対象文書の2つの文書で共通して使用されている使用単語の出現回数の和に単語重みを掛け合わせたものを類似度とする例を用いて説明する。この類似度の算出方法は、上記の方法に限定するものではなく、他の算出方法で求めてもよい。 In this embodiment, the method for calculating the comparison target document similarity is obtained by multiplying the sum of the number of used words commonly used in the two documents of the classification key document and the comparison target document by multiplying the word weight. A description will be given using an example in which the degree of similarity is used. The method for calculating the similarity is not limited to the above method, and may be obtained by another calculation method.
分野別類似度積算部305は、比較対象文書類似度バッファ部352に記憶された比較対象文書類似度を読み出し、その比較対象文書類似度を各分野別に積算する。この積算された値が分野別類似度積算値である。また分野別類似度積算部305は、分野別に求められた分野別類似度積算値を分野別類似度積算値バッファ部353に記憶させる。
The field-specific
分野特定部306は、分野別類似度積算値バッファ部353に格納された類似度の積算値と、その元となった比較対象文書類似度バッファ部352に格納されている類似度算出結果を対応付けて、類似文書分類装置に接続される表示装置などの出力装置に出力する。
The
単語重み調整部307は、接続されるキーボードなどの入力装置から利用者によって単語重みの調整のために入力される値を、比較対象文書類似度バッファ部352へ記憶させる。
The word
次に、図7および図8を用いて、本発明の実施の形態に係る類似文書分類装置1の処理を説明する。図7に示すのは、一括処理制御部13における処理を説明するフローチャートである。また、図8に示すのは、対話処理制御部14における処理を説明するフローチャートである。
Next, processing of the similar document classification device 1 according to the embodiment of the present invention will be described with reference to FIGS. 7 and 8. FIG. 7 is a flowchart for explaining processing in the batch
本実施例では、分類処理を第1の処理である一括処理と第2の処理である対話処理の2つの処理に分けて行なう。 In this embodiment, the classification process is divided into two processes, a batch process that is a first process and an interactive process that is a second process.
[一括処理]
一括処理は、分野を分類する対象となる分類キー文書に対して、比較対象文書情報記憶部11に記憶されている複数の比較対象文書情報との比較を行なう処理である。
[batch processing]
The batch process is a process for comparing the classification key document that is the target of classifying the field with a plurality of pieces of comparison target document information stored in the comparison target document
まず、図7に示すフローチャートにあるように、初期化部201は、メモリ部250の各バッファ部251〜254を初期化する(S001)。その後、単語重み読み込み部203は、単語重み情報記憶部12から単語重み情報バッファ部251に単語重み情報を読み込む(S002)。
First, as shown in the flowchart of FIG. 7, the
続いて、分類キー文書情報生成部204は、分類キー文書が入力されると、この分類キー文書を単語単位に分解する。また分類キー文書情報生成部204は、分解された各単語と各単語の使用回数とを含む分類キー文書情報を生成し、生成した分類キー文書情報を分類キー文書情報バッファ部252に記憶させる(S003)。
Subsequently, when the classification key document is input, the classification key document
図9に示すのは、入力される分類キー文書の一例である。図9に示すのは分類キー文書1であり、その後半は省略されている。このようにして、複数の分類キー文書が入力される。 FIG. 9 shows an example of an input classification key document. FIG. 9 shows the classification key document 1, and the latter half is omitted. In this way, a plurality of classification key documents are input.
また、図10に示すのは、「分類キー文書1」から生成された分類キー文書情報の一例である。例えば、分類キー文書情報は分類キー文書中で使用されている「使用単語」と、その使用単語が対象となる分類キー文書中で使用されている回数である「使用回数」とが関連付けられた情報である。 FIG. 10 shows an example of classification key document information generated from “classification key document 1”. For example, in the classification key document information, “used word” used in the classification key document is associated with “use count” that is the number of times the used word is used in the target classification key document. Information.
このステップS003の処理は、対象となる分類キー文書全てに対して行なわれる(S004)。例えば、分類キー文書として2000の文書が入力された場合、ステップS003の処理は2000回繰り返される。 The process of step S003 is performed on all target classification key documents (S004). For example, when 2000 documents are input as the classification key document, the process of step S003 is repeated 2000 times.
次に、比較対象文書情報読み込み部205は、比較対象文書情報記憶部11から比較対象文書情報バッファ部253に比較対象文書情報を読み込む(S005)。
Next, the comparison target document
続いて、共通単語情報生成部206は、分類キー文書と比較対象文書で共通して使用されている単語を抽出するとともに、抽出された共通使用単語について、分類キー文書および比較対象文書で使用されている回数の合計値とを合わせて共通単語情報を生成し、検索対象文書別に共通単語情報バッファ部254に記憶する(S006)。
Subsequently, the common word
図11に示すのは、共通単語情報の一例である。この共通単語情報では、各分類キー文書と比較対象文書との組み合わせ毎に、その比較対象文書の「分野名」と「使用単語」と、その使用単語が分類キー文書および比較対象文書で使用された「使用回数」と、その使用単語の「単語重み」とが関連付けられて記憶されている。例えば、図11に示す例では、分類キー文書1を比較対象文書1であるタイトルが「データベース更新処理時間の短縮」の文書と比較すると、使用単語「大規模」の使用回数は5回であり、使用単語「データベース」の使用回数は11回であり、「時間」の使用回数は5回であることを示している。 FIG. 11 shows an example of common word information. In this common word information, for each combination of a classification key document and a comparison target document, the “field name” and “use word” of the comparison target document and the use word are used in the classification key document and the comparison target document. The “number of uses” and the “word weight” of the used word are stored in association with each other. For example, in the example shown in FIG. 11, when the classification key document 1 is compared with a document whose title is “comparison target document 1” and whose title is “reduction in database update processing time”, the number of uses of the word “Large Scale” is five. , The usage count of the word “database” is 11 times, and the usage count of “time” is 5 times.
ステップS006における共通単語情報生成部206の処理は、第2の処理である対話処理を行う際に対話処理制御部14で必要となる中間情報である共通単語情報を出力するためのものである。
The processing of the common word
本実施の形態で共通単語情報は、共通単語数に基づいて使用回数と単語重みを加算した値を利用して求めている。しかしながら、これ以外にもベクトル空間法を利用して類似度を算出することも可能である。 In this embodiment, the common word information is obtained using a value obtained by adding the number of times of use and the word weight based on the number of common words. However, in addition to this, it is also possible to calculate the similarity using a vector space method.
データ出力部207は、S006で抽出した共通単語情報を、対話処理制御部14へ送信する。(S007)
本実施の形態では、すべての比較対象文書情報との共通単語情報を送信しているものとする。また、一括処理制御部13から対話処理制御部14への送信手段は、ネットワークを介してデータを転送しても良いし、磁気テープやDVD−Rなどのオフラインメディアを介して送っても良い。
The
In the present embodiment, it is assumed that common word information with all comparison target document information is transmitted. Further, the transmission means from the batch
以上のステップS001〜S007までが、第1の処理である一括処理を利用した共通単語情報生成処理である。 The above steps S001 to S007 are the common word information generation process using the batch process which is the first process.
このように、上述した一括処理によれば、複数の分類キー文書に対して一括して共通単語情報を生成するまでの処理を行なうことで、処理効率良く処理することができる。 As described above, according to the collective processing described above, it is possible to perform processing with high processing efficiency by performing the processing until the common word information is generated collectively for a plurality of classification key documents.
その際、比較対象文書が膨大であってデータベースが大規模な場合、処理で得られる結果も多くなる。また、比較対象文書との共通単語が少ないものや、共通単語が多く含まれていても、そのどれもが一般的な単語で特徴を持たないものである場合もある。 At that time, if the comparison target documents are enormous and the database is large, more results are obtained by the processing. In addition, there are cases where there are few common words with the comparison target document, or even if many common words are included, all of them are general words and have no characteristics.
そのため、一括処理に続く第2の処理である対話処理で共通単語の数が設定した閾値に満たない結果や設定した閾値よりも単語重みの大きい単語を含まない結果について、類似度を算出して得られた値を閾値に満たすか否かなどの条件によりフィルタリングする。フィルタリングの結果、類似度が高いものだけを選択して送信することで、送信の付加を軽減することができる。 Therefore, the similarity is calculated for a result in which the number of common words is less than the set threshold value in the interactive process that is the second process following the batch process or a result that does not include a word having a word weight greater than the set threshold value. Filtering is performed according to conditions such as whether or not the obtained value satisfies a threshold value. As a result of filtering, it is possible to reduce transmission addition by selecting and transmitting only those having a high degree of similarity.
[対話処理]
次に、第2の処理である対話処理制御部14における対話処理について説明する。
[Interactive processing]
Next, dialogue processing in the dialogue
まず、初期化部301は、メモリ部350の各バッファ部351〜353を初期化する(S101)。
First, the
次に、データ入力部303は、一括処理制御部13から送信される共通単語情報を受信し、共通単語情報バッファ部351に記憶させる(S102)。ここで、共通単語情報バッファ部351に記憶された共通単語情報は、一括処理で生成された図11に示す共通単語情報と同一であるものとする。
Next, the
続いて、比較対象文書類似度算出部304は、共通単語情報バッファ部351に記憶される共通単語情報を読み出して類似度を算出し、算出した類似度を比較対象文書類似度として比較対象文書類似度バッファ部352に記憶させる(S103)。この比較対象文書類似度を算出するために、まず、各共通使用単語について使用回数と単語重みとの積を算出する。各共通使用単語について求められた積の合計の値を、分類キー文書毎に各比較対象文書類似度とする。
Subsequently, the comparison target document
例えば、図11に示した「比較対象文書1」の場合、その比較対象文書類似度は5×2.1+11×4.3+5×1.7=66.3となる。 For example, in the case of “comparison target document 1” shown in FIG. 11, the comparison target document similarity is 5 × 2.1 + 11 × 4.3 + 5 × 1.7 = 66.3.
図12に示すのは、比較対象文書類似度バッファ部352に記憶される比較対象文書類似度の一例である。
FIG. 12 shows an example of the comparison target document similarity stored in the comparison target document
このステップS102、S103の処理が全ての比較対象文書についてされると(S104)、分野別類似度積算部305は、ステップS103で算出した各比較対象文書について求めた比較対象文書類似度を分野別に積算し、分野別類似度積算値として分野別類似度積算値バッファ部353に記憶させる。(S105)
類似度算出結果が図12に示す状態にあった場合、まず、「データベース更新」という分野には「データベース更新処理時間の短縮」の類似度66.3と「XML文書データベース」の類似度43.5が加算され、その後に続く分類対象文書で「データベース更新」に分類される文書の類似度が加算されて分野別類似度積算値とされる。
When the processes in steps S102 and S103 are performed for all the comparison target documents (S104), the field-specific
When the similarity calculation result is in the state shown in FIG. 12, first, in the field of “database update”, the similarity 66.3 of “reduction of database update processing time” and the similarity 43.3 of “XML document database” are obtained. 5 is added, and the similarities of the documents classified as “database update” in the subsequent classification target documents are added to obtain an integrated similarity value for each field.
図13に示すのは、ステップS105において、すべての比較対象文書について処理を行った結果、得られた分野別の類似度積算値の一例である。 FIG. 13 shows an example of integrated similarity values for each field obtained as a result of processing all the comparison target documents in step S105.
次に、分野特定部306は、比較対象文書類似度バッファ部352の内容について、分野別類似度積算値の値の大きい分野から順に分野特定結果を接続される出力装置である表示装置に表示する。この分野特定結果は、「分野名」、その分野に該当する比較対象文書の「タイトル」および「類似度」を有している。また、分野特定部306は、各比較対象文書との類似度の算出で利用した単語重みについても表示する。(S106)このときに、各単語の単語重みを書き換え可能な状態で表示する。
Next, the
図14に示すのは、ステップS106で表示される分野特定結果の一例である。また、図15に示すのは、ステップS106で表示される単語重み調整画面の一例である。図15に示す例では、重みの大きい順にソートして単語重みを表示している。 FIG. 14 shows an example of the field identification result displayed in step S106. FIG. 15 shows an example of the word weight adjustment screen displayed in step S106. In the example shown in FIG. 15, the word weights are displayed by sorting in descending order of weight.
上述したステップS102〜S106の処理は、参照するデータが限られており、一括処理における共通単語の抽出にかかる時間よりもはるかに短時間に処理することができる。 The processes in steps S102 to S106 described above are limited in data to be referred to, and can be processed in a much shorter time than the time required for extracting the common word in the batch process.
続いて、単語重み調整部307は、ステップS106で表示した単語重みの調整値を受け付ける。(S107)
具体的には、利用者は、表示された分類キー文書の内容と分類結果を参照し、分類結果が正しくないと判断した場合、その分類結果に含まれる分類に影響した単語とその単語重みを参照し、単語重みを調整して分類結果を再度求めることができる。
Subsequently, the word
Specifically, the user refers to the contents of the displayed classification key document and the classification result, and when it is determined that the classification result is not correct, the user selects the word that affected the classification included in the classification result and the word weight. The classification result can be obtained again by referring to and adjusting the word weight.
具体的には、表示された単語重みの中で、分類キー文書の分野の特徴を示していないにも関わらず、高い重みが付いている場合や、逆に分野の特徴を示しているにも関わらず、低い重みが付いている場合に、その単語重みを調整することが可能となる。 Specifically, among the displayed word weights, even though they do not show the characteristics of the field of the classification key document, when the weight is high, or conversely, Regardless, if the weight is low, the word weight can be adjusted.
例えば、利用者が、図9に示す分類キー文書に対して属する分野として、「データベース更新」や「文書検索」が適当でないと判断し、その原因が「対話的」や「データベース」の単語重みが高いことによると判断したとする。この場合、「対話的」や「データベース」の単語重みを例えば1.0に変更するなど、低い値に設定し直すことができる。 For example, the user determines that “database update” or “document search” is not appropriate as the field to which the classification key document shown in FIG. 9 belongs, and the cause is the word weight of “interactive” or “database”. Suppose that it is due to high. In this case, the word weight of “interactive” or “database” can be reset to a low value, for example, to 1.0.
続いて、単語重み調整部307で単語重みが変更されたことが判断されると(S108)、新たに入力された単語重みで共通単語情報バッファ部351を書き替える(S109)。その後、ステップS103からの分野特定処理を再実行する。
Subsequently, when the word
図16に示すのは、上述した例にあるように「対話的」と「データベース」の単語重みを1.0に調整した場合の比較対象文書の類似度の一例である。このように調整した結果、分類キー文書が属する分野としてあまり適当でなかった、「データベース更新」や「文書検索」分野の点数が下がり、分類先として適当な「文書分類」分野が上位に上がってくる結果となる。 FIG. 16 shows an example of the similarity of the comparison target documents when the word weights of “interactive” and “database” are adjusted to 1.0 as in the above-described example. As a result of this adjustment, the scores for the “database update” and “document search” fields, which were not very suitable as the field to which the classification key document belongs, decreased, and the “document classification” field suitable as the classification destination increased. Result.
本実施の形態では、類似度算出の中間データとして、共通単語とその重み情報を用いたが、これらの情報以外にも、一括処理側で複数の方式によりそれぞれの点数(複数)を算出し、端末側でそれらの点数のブレンドの比率などを調整して、分野特定を行なうような実施の形態も考えられる。 In the present embodiment, the common word and its weight information are used as intermediate data for calculating the similarity, but in addition to these pieces of information, the score (plurality) is calculated by a plurality of methods on the batch processing side, An embodiment in which the field is specified by adjusting the blend ratio of the scores on the terminal side is also conceivable.
上述したステップS102〜108の処理は、対象となる全ての分類キー文書に対して繰り返される(S109)。例えば、分類キー文書として2000件分の文書が入力された場合、2000回繰り返される。 The processing in steps S102 to S108 described above is repeated for all target classification key documents (S109). For example, if 2000 documents are input as the classification key document, the document is repeated 2000 times.
上述した第1の実施例に係る発明によれば、類似度の算出結果の根拠を確認しつつ、例えば単語重みを調整して分類に適当でない単語の影響を減少さて類似度を算出することにより、新たな分野を特定することが可能となる。そのため、従来の一括処理では実現できなかった、分類結果の誤りの原因を特定し、その原因を取り除いて分類処理を再実行し、結果を確認するという対話的な処理が可能となる。また、上記のような単語重みの調整結果を蓄積し、分類精度の向上に利用することも考えられる。 According to the invention according to the first embodiment described above, by checking the basis of the similarity calculation result, for example, by adjusting the word weight and reducing the influence of words that are not suitable for classification, the similarity is calculated. It becomes possible to specify a new field. For this reason, it is possible to perform an interactive process in which the cause of the error in the classification result that cannot be realized by the conventional batch process is identified, the cause is removed, the classification process is re-executed, and the result is confirmed. It is also conceivable to accumulate word weight adjustment results as described above and use them to improve classification accuracy.
[第2の実施例]
以下に、図面を参照して、本発明の第2の実施の形態に係る類似文書分類装置1aを説明する。なお、以下の説明においては、第1の実施例に係る類似文書分類装置1と同様の点については説明を省略し、異なる点のみについて説明する。従って、一括処理制御部13における処理は同様であるため説明を省略し、対話処理制御部14aにおける処理のみを説明する。
[Second Embodiment]
The similar document classification device 1a according to the second embodiment of the present invention will be described below with reference to the drawings. In the following description, description of the same points as those of the similar document classification device 1 according to the first embodiment will be omitted, and only different points will be described. Therefore, since the process in the batch
図17に示すのは、本発明の第2の実施の形態に係る類似文書分類装置1aの対話処理制御部14aである。 FIG. 17 shows the dialogue processing control unit 14a of the similar document classification device 1a according to the second embodiment of the present invention.
図17に示す対話処理制御部14aは図6に示した対話処理制御部14と比較して、単語重み調整部307を有さず分野調整部308を有している点で異なる。
The dialog processing control unit 14a illustrated in FIG. 17 is different from the dialog
分野調整部308は、接続されるキーボードなどの入力装置から利用者によって入力された指示により、共通単語情報バッファ部351を書き換える。
The
図18に示すのは、本発明の第2の実施例に係る類似文書分類装置1aの対話処理制御部14aにおける処理を説明するフローチャートである。図18において、上述した図8で説明したフローチャートと同様の処理は同様の番号を付して説明を省略する。 FIG. 18 is a flowchart for explaining processing in the dialogue processing control unit 14a of the similar document classification device 1a according to the second embodiment of the present invention. In FIG. 18, the same processes as those in the flowchart described with reference to FIG.
ステップS106において、分野特定結果および単語重みが表示されると、分野調整部308は、分野の調整を受け付ける(S207)。ここで、分野の調整がされたことが確認されると(S208)、分野調整部308は分野調整を行なう(S209)。
When the field identification result and the word weight are displayed in step S106, the
図18に示す処理では、分野調整として、例えば分野別類似度積算値バッファ部353の書き替えを例として説明する。具体的には、表示される分野特定結果において表示される分野明らかに妥当でないと操作者により判断された場合、その分野について分野特定結果から削除した分野別類似度を設定するように、分野別類似度積算値バッファ部353を書き替える等の処理を行うことが考えられる。
In the processing illustrated in FIG. 18, as field adjustment, for example, rewriting of the field-specific similarity integrated
上述した第2の実施例に係る本発明によれば、類似度算出結果の根拠を確認しつつ、例えば比較対象として用いる比較対象文書の分野を調整して分類に適当でない分野の影響を減少さて類似度を算出することにより、新たな分野を特定することが可能となる。 According to the present invention according to the second embodiment described above, while confirming the basis of the similarity calculation result, for example, the field of the comparison target document used as the comparison target is adjusted to reduce the influence of the field not suitable for classification. It is possible to specify a new field by calculating the similarity.
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明に記載した事項と自明な特許請求の範囲に係る発明特定事項によってのみ定められるものである。 It goes without saying that the present invention includes various embodiments not described herein. Therefore, the technical scope of the present invention is defined only by the matters described in the above description and the invention specific matters according to the obvious claims.
1,1a…類似文書分類装置
11…比較対象文書情報データベース
12…単語重み情報データベース
13…一括処理制御部
14,14a…対話処理制御部
101…中央処理制御装置
102…ROM
103…RAM
104…入力装置
105…表示装置
106…通信制御装置
107…記憶装置
108…リムーバブルディスク
109…入出力インタフェース
110…バス
200…制御部
201…初期化部
202…入力部
203…単語重み読み込み部
204…分類キー文書情報生成部
205…比較対象文書情報読み込み部
206…共通単語情報生成部
207…データ出力部
250…メモリ部
251…情報バッファ部
252…分類キー文書情報バッファ部
253…比較対象文書情報バッファ部
254…共通単語情報バッファ部
300…制御部
301…初期化部
302…入力部
303…データ入力部
304…比較対象文書類似度算出部
305…分野別類似度積算部
306…分野特定部
307…単語重み調整部
308…分野調整部
350…メモリ部
351…共通単語情報バッファ部
352…比較対象文書類似度バッファ部
353…分野別類似度積算値バッファ部
DESCRIPTION OF SYMBOLS 1,1a ... Similar document classification |
103 ... RAM
DESCRIPTION OF
Claims (10)
前記分類キー文書と比較する比較対象文書の情報と、この比較対象文書の分野が関連付けられた比較対象文書情報を記憶している比較対象文書情報記憶部と、
単語と、前記単語が含まれている文書の分野の特徴を示す指標となる単語重みを記憶している単語重み情報記憶部と、
前記分類キー文書を前記比較対象文書情報と比較して分類キー文書および比較対象文書で共通に使用されている単語である共通使用単語を抽出し、少なくともこれらの共通使用単語と、共通使用単語の使用回数と、前記単語重み情報記憶部から読み出した共通使用単語の単語重みとが関連づけられた共通単語情報を生成する一括処理制御部と、
前記共通単語情報から複数の比較対象文書と前記分類キー文書との類似度を求め、求められた類似度の高い比較対象文書に基づいて分野を特定し、さらに、入力装置からの指示に基づいて、特定した分野を調整する対話処理制御部と、
を有することを特徴とする文書分類装置。 A document classification device for classifying a classification key document that is a target for classifying a field to which a document belongs,
A comparison target document information storage unit storing information of a comparison target document to be compared with the classification key document, and comparison target document information associated with a field of the comparison target document;
A word weight information storage unit storing a word and a word weight serving as an index indicating characteristics of the field of the document in which the word is included;
The classification key document is compared with the comparison target document information to extract common usage words that are commonly used in the classification key document and the comparison target document, and at least these common usage words and the common usage words A batch processing control unit that generates common word information in which the number of uses and the word weight of the common use word read from the word weight information storage unit are associated;
A similarity between a plurality of comparison target documents and the classification key document is obtained from the common word information, a field is specified based on the obtained comparison target document having a high similarity, and further, based on an instruction from the input device A dialogue processing control unit that adjusts the identified field;
A document classification apparatus comprising:
前記分類キー文書と比較する比較対象文書の情報と、この比較対象文書の分野が関連付けられた比較対象文書情報を記憶している比較対象文書情報記憶部と、
単語と、前記単語が含まれている文書の分野の特徴を示す指標となる単語重みを記憶している単語重み情報記憶部と、
前記分類キー文書を前記比較対象文書情報と比較して分類キー文書および比較対象文書で共通に使用されている単語である共通使用単語を抽出し、少なくともこれらの共通使用単語と、共通使用単語の使用回数と、前記単語重み記憶部から読み出した共通使用単語の単語重みとが関連付けられた共通単語情報を生成する共通単語情報生成部と、
前記共通単語情報に含まれる各共通使用単語の使用回数とその共通使用単語の単語重みとに基づいて類似度を算出する類似度算出部と、
分類キー文書について求められた類似度が高い比較対象文書を決定し、この比較対象文書が属する分野を分類キー文書の属する分野と特定する分類結果を求める分野特定部と、
前記分野特定部で特定された分野を調整する調整部と、
を有することを特徴とする文書分類装置。 A document classification device for classifying a classification key document that is a target for classifying a field to which a document belongs,
A comparison target document information storage unit storing information of a comparison target document to be compared with the classification key document, and comparison target document information associated with a field of the comparison target document;
A word weight information storage unit storing a word and a word weight serving as an index indicating characteristics of the field of the document in which the word is included;
The classification key document is compared with the comparison target document information to extract common usage words that are commonly used in the classification key document and the comparison target document, and at least these common usage words and the common usage words A common word information generating unit that generates common word information in which the number of uses and the word weight of the common used word read from the word weight storage unit are associated;
A similarity calculation unit that calculates a similarity based on the number of times of use of each commonly used word included in the common word information and the word weight of the commonly used word;
A field identification unit that determines a comparison target document having a high degree of similarity obtained for the classification key document, and that determines a classification result that identifies a field to which the comparison target document belongs as a field to which the classification key document belongs;
An adjusting unit for adjusting the field specified by the field specifying unit;
A document classification apparatus comprising:
前記単語重みを可変して共通単語情報を生成することを特徴とする文書分類装置。 The document classification device according to claim 2, wherein the adjustment unit includes:
A document classification apparatus, wherein the word weight is varied to generate common word information.
前記分類結果で求められた分類結果から特定の分野を削除することを特徴とする文書分類装置。 The document classification device according to claim 2, wherein the adjustment unit includes:
A document classification apparatus, wherein a specific field is deleted from a classification result obtained from the classification result.
前記各共通単語の使用回数と単語重みとの積の合計を算出し、この算出された合計の値を類似度とすることを特徴とする文書分類装置。 5. The document classification device according to claim 2, wherein the similarity calculation unit includes:
A document classification apparatus characterized in that a sum of products of the number of times each common word is used and a word weight is calculated, and the calculated total value is used as a similarity.
分類キー文書を、前記分類キー文書と比較する比較対象文書の情報とこの比較対象文書の分野が関連付けられて比較対象文書情報記憶部に記憶された比較対象文書情報と比較して、分類キー文書および比較対象文書で共通に使用されている単語である共通使用単語を抽出し、少なくともこれらの共通使用単語と、共通使用単語の使用回数と、単語と前記単語が含まれている文書の分野の特徴を示す指標となる単語重みが記憶された単語重み情報記憶部から読み出した共通使用単語の単語重みとが関連づけられた共通単語情報を生成し、
共通単語情報から複数の比較対象文書と分類キー文書との類似度を求め、求められた類似度の高い比較対象文書に基づいて分野を特定し、さらに、入力装置からの指示に基づいて、特定した分野を調整する
ことを特徴とする文書分類方法。 A document classification method for classifying a classification key document that is a target for classifying a field to which a document belongs,
The classification key document is compared with the comparison target document information stored in the comparison target document information storage unit in association with the information of the comparison target document to be compared with the classification key document and the field of the comparison target document. And common use words that are commonly used in the comparison target document, and extract at least the common use word, the number of times of use of the common use word, and the field of the document including the word and the word. Generating common word information associated with the word weight of the commonly used word read from the word weight information storage unit storing the word weight as an index indicating the feature;
Find the similarity between multiple comparison target documents and classification key documents from common word information, identify the field based on the compared target documents with high similarity, and further identify based on instructions from the input device Document classification method characterized by adjusting the selected field.
分類キー文書を、前記分類キー文書と比較する比較対象文書の情報とこの比較対象文書の分野が関連付けられて比較対象文書情報記憶部に記憶された比較対象文書情報と比較して、分類キー文書および比較対象文書で共通に使用されている単語である共通使用単語を抽出し、少なくともこれらの共通使用単語と、共通使用単語の使用回数と、単語と前記単語が含まれている文書の分野の特徴を示す指標となる単語重みが記憶された単語重み情報記憶部から読み出した共通使用単語の単語重みとが関連付けられた共通単語情報を生成し、
前記共通単語情報に含まれる各共通使用単語の使用回数とその共通使用単語の単語重みとに基づいて類似度を算出し、
分類キー文書について求められた類似度が高い比較対象文書を決定し、この比較対象文書が属する分野を分類キー文書の属する分野を特定し、
特定された分野を調整する、
を有することを特徴とする文書分類方法。 A document classification method for classifying a classification key document that is a target for classifying a field to which a document belongs,
The classification key document is compared with the comparison target document information stored in the comparison target document information storage unit in association with the information of the comparison target document to be compared with the classification key document and the field of the comparison target document. And common use words that are commonly used in the comparison target document, and extract at least the common use word, the number of times of use of the common use word, and the field of the document including the word and the word. Generating common word information associated with the word weight of the commonly used word read from the word weight information storage unit in which the word weight serving as an index indicating the feature is stored;
Calculating the similarity based on the number of times of use of each commonly used word included in the common word information and the word weight of the commonly used word;
A comparison target document having a high degree of similarity required for the classification key document is determined, the field to which the comparison target document belongs is specified,
Reconcile identified areas,
A document classification method characterized by comprising:
10. The document classification method according to claim 7, wherein when calculating the similarity, a sum of products of the number of times of use of each common word and the word weight is calculated, and the calculated total value is calculated. Document classification method characterized by similarity.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004285367A JP2006099478A (en) | 2004-09-29 | 2004-09-29 | Document classification device and document classification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004285367A JP2006099478A (en) | 2004-09-29 | 2004-09-29 | Document classification device and document classification method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006099478A true JP2006099478A (en) | 2006-04-13 |
Family
ID=36239215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004285367A Pending JP2006099478A (en) | 2004-09-29 | 2004-09-29 | Document classification device and document classification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006099478A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323454A (en) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | Document classification device and program |
JP2007334388A (en) * | 2006-06-12 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for clustering, program, and computer-readable recording medium |
JP2011090447A (en) * | 2009-10-21 | 2011-05-06 | Ntt Data Corp | Device and method for generating document determination condition |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296552A (en) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded |
JP2000148770A (en) * | 1998-11-06 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for classifying question documents and record medium where program wherein same method is described is recorded |
JP2001155025A (en) * | 1999-11-26 | 2001-06-08 | Toshiba Corp | Document sorting device and method, and database updating method |
JP2001155020A (en) * | 1999-11-25 | 2001-06-08 | Toshiba Corp | Device and method for retrieving similar document and recording medium |
JP2002099555A (en) * | 2000-09-22 | 2002-04-05 | Toshiba Corp | Apparatus and method for document classification |
JP2002099573A (en) * | 2000-09-25 | 2002-04-05 | Toshiba Corp | Device and method for similar document retrieval, and recording medium |
JP2002117046A (en) * | 2000-10-05 | 2002-04-19 | Just Syst Corp | Device and method for classifying document, and computer-readable recording medium recording program for making computer implement the same method |
JP2003022277A (en) * | 2001-07-06 | 2003-01-24 | Toshiba Corp | Device and method for retrieving document |
JP2003162531A (en) * | 2001-11-27 | 2003-06-06 | Matsushita Electric Works Ltd | Document retrieval system and document retrieval method |
JP2003345824A (en) * | 2002-05-30 | 2003-12-05 | Toshiba Corp | Device, method, and program for document retrieval |
JP2004206355A (en) * | 2002-12-25 | 2004-07-22 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for automatically classifying text, and recording medium |
-
2004
- 2004-09-29 JP JP2004285367A patent/JP2006099478A/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296552A (en) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded |
JP2000148770A (en) * | 1998-11-06 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for classifying question documents and record medium where program wherein same method is described is recorded |
JP2001155020A (en) * | 1999-11-25 | 2001-06-08 | Toshiba Corp | Device and method for retrieving similar document and recording medium |
JP2001155025A (en) * | 1999-11-26 | 2001-06-08 | Toshiba Corp | Document sorting device and method, and database updating method |
JP2002099555A (en) * | 2000-09-22 | 2002-04-05 | Toshiba Corp | Apparatus and method for document classification |
JP2002099573A (en) * | 2000-09-25 | 2002-04-05 | Toshiba Corp | Device and method for similar document retrieval, and recording medium |
JP2002117046A (en) * | 2000-10-05 | 2002-04-19 | Just Syst Corp | Device and method for classifying document, and computer-readable recording medium recording program for making computer implement the same method |
JP2003022277A (en) * | 2001-07-06 | 2003-01-24 | Toshiba Corp | Device and method for retrieving document |
JP2003162531A (en) * | 2001-11-27 | 2003-06-06 | Matsushita Electric Works Ltd | Document retrieval system and document retrieval method |
JP2003345824A (en) * | 2002-05-30 | 2003-12-05 | Toshiba Corp | Device, method, and program for document retrieval |
JP2004206355A (en) * | 2002-12-25 | 2004-07-22 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for automatically classifying text, and recording medium |
Non-Patent Citations (1)
Title |
---|
湯浅夏樹 他: "大量の文書データから自動抽出した名詞間共起関係による文書の自動分類", 情報処理学会研究報告, vol. 第93巻 第101号, JPN6008034379, 19 November 1993 (1993-11-19), JP, pages 81 - 88, ISSN: 0001085837 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323454A (en) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | Document classification device and program |
JP2007334388A (en) * | 2006-06-12 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for clustering, program, and computer-readable recording medium |
JP2011090447A (en) * | 2009-10-21 | 2011-05-06 | Ntt Data Corp | Device and method for generating document determination condition |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006277413A (en) | Document classification device and document classification method | |
US20180267961A1 (en) | Method for assigning semantic information to word through learning using text corpus | |
CN105976818B (en) | Instruction recognition processing method and device | |
CN112151035B (en) | Voice control method and device, electronic equipment and readable storage medium | |
US7860314B2 (en) | Adaptation of exponential models | |
JP4429236B2 (en) | Classification rule creation support method | |
US20020077968A1 (en) | Data sampling with priority to conforming component ratios | |
CN107229627B (en) | Text processing method and device and computing equipment | |
CN112069801A (en) | Sentence backbone extraction method, equipment and readable storage medium based on dependency syntax | |
AU2001241670B2 (en) | Automatically retraining a speech recognition system | |
US20200320409A1 (en) | Model creation supporting method and model creation supporting system | |
CN116705018A (en) | Voice control method, voice control device, electronic equipment and readable storage medium | |
CN117171331B (en) | Professional field information interaction method, device and equipment based on large language model | |
JP2006099477A (en) | Similar document retrieval device and similar document retrieval method | |
CN113204642A (en) | Text clustering method and device, storage medium and electronic equipment | |
JP2006099478A (en) | Document classification device and document classification method | |
CN112487813A (en) | Named entity recognition method and system, electronic equipment and storage medium | |
JP5921601B2 (en) | Speech recognition dictionary update device, speech recognition dictionary update method, program | |
Martin et al. | The Possibilistic Reward Method and a Dynamic Extension for the Multi-armed Bandit Problem: A Numerical Study | |
CN112632132A (en) | Method, device and equipment for processing abnormal import data | |
CN112069800A (en) | Sentence tense recognition method and device based on dependency syntax and readable storage medium | |
US7933853B2 (en) | Computer-readable recording medium, apparatus and method for calculating scale-parameter | |
CN116049414B (en) | Topic description-based text clustering method, electronic equipment and storage medium | |
CN115393659B (en) | Personalized classification process optimization method and device based on multi-level decision tree | |
WO1999056224A1 (en) | Associating files of machine-readable data with specified information types |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080121 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080715 |