JP2001331514A - Device and method for document classification - Google Patents

Device and method for document classification

Info

Publication number
JP2001331514A
JP2001331514A JP2000148443A JP2000148443A JP2001331514A JP 2001331514 A JP2001331514 A JP 2001331514A JP 2000148443 A JP2000148443 A JP 2000148443A JP 2000148443 A JP2000148443 A JP 2000148443A JP 2001331514 A JP2001331514 A JP 2001331514A
Authority
JP
Japan
Prior art keywords
document
classification
vector
representative
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000148443A
Other languages
Japanese (ja)
Inventor
Eiji Kenmochi
栄治 剣持
Original Assignee
Ricoh Co Ltd
株式会社リコー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd, 株式会社リコー filed Critical Ricoh Co Ltd
Priority to JP2000148443A priority Critical patent/JP2001331514A/en
Publication of JP2001331514A publication Critical patent/JP2001331514A/en
Application status is Pending legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide a device and a method for document classification which prevent documents from being classified as a user does not intend and can generate initial classification representative feature vectors. SOLUTION: The document classification device has a document input part 101, a document analysis part 102 which analyzes words of document data, a document feature vector generation part 103 which calculates document feature vectors of a document, a classification representative vector generation part 104 which generates a classification representative vector having the same number of dimensions with the document feature vector, a refinement-excluded vector specification part 105 which specifies a classification representative vector not to be refined, a document data allocation part 106 which allocates document data to one of classification representative vectors, a classification refinement part 107 which recalculates a classification representation vector according to the document feature vector allocated to the document data allocation part, and a classification result storage part 108.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、文書分類装置及び文書分類方法に関する。 The present invention relates to relates to a document classification system and document classification method.

【0002】 [0002]

【従来の技術】近年インターネット等の普及により大量の文書情報へのアクセスが可能になり、収集した大量の文書情報を意味のあるグループに分類し、文書集合の構造を把握するなどの知的作業が行われ始めている。 In recent years enables access to large amounts of document information by the spread of the Internet and the like, the collected large amounts of document information were classified into meaningful groups, intellectual tasks such as understanding the structure of the document set It is beginning to take place. 大量な文書集合を分析する場合、まず文書集合をいくつかの話題で分類し、得られた部分文書集合(ある基準で集められた複数の文書)を単位としてさまざまな作業を行うことにより、分析作業を効率的に行うことができる。 When analyzing large amount of document set, it classifies the first set of documents in a number of topics, by performing a variety of tasks obtained partial document set (s documents collected by certain criteria) as a unit, the analysis it is possible to carry out the work efficiently. 大量の文書情報をユーザが手動で分類する場合、人的/時間的コストが膨大なものになるため、文書集合を文書の内容により自動分類できる装置が望まれている。 When classifying a large amount of document information user manually, since the human / time cost becomes enormous, automatic classification can device is desired by the contents of the document a document set.

【0003】日本語形態素解析などの自然言語処理を用いて、文書からそれらを構成する単語を抽出することにより、文書は単語頻度のベクトル(文書特徴ベクトル) [0003] using a natural language processing, such as Japanese morphological analysis, by extracting the words constituting them from the document, the document is a word frequency vector (document feature vector)
として空間表現することが可能となる。 It is possible to spatial representation as. これは文書のベクトル空間モデルと呼ばれ、広く用いられている。 This is called the vector space model of the document has been widely used. ベクト空間モデルでは文書が計測可能な空間内にマッピングされるため、統計的手法を用いて文書の内容による自動分類を行うことが可能となる。 Since the vector space model is mapped to document measurable space, it is possible to perform automatic classification according to the contents of the documents using a statistical method.

【0004】このように、統計的手法を用いて文書の内容による自動分類を行う手法の代表的なものとして、特開平7−114572公報に記載されているようなクラスタリング手法がある。 [0004] Thus, as typical techniques for automatic classification by the contents of the documents using a statistical method, there is a clustering method as disclosed in JP-A-7-114572 Publication.

【0005】しかしながら、クラスタリング手法におけるベクトル空間モデルは、大量の文書個々について高次元のベクトル情報を保持、計算しなければならないため、計算資源に対する制約が大きいという問題がある。 However, a vector space model in clustering approach holds the vector information of the high-dimensional for large document individually order not to be calculated, there is a problem that restrictions on the computational resources is large.

【0006】そこで、非階層クラスタリング手法のように、まずいくつかの初期分類代表特徴ベクトルを設定し、それら分類代表特徴ベクトルと文書の特徴ベクトルとの類似性をもとに文書を適切な分類代表値に割り当てることにより文書分類を行う手法を用いることが効率的である。 [0006] Therefore, as in the non-hierarchical clustering method, we set some initial classification representative feature vector First, appropriate classification representing a document based on the similarity between the feature vectors of their classification representative feature vector and the document it is efficient to use a method of performing document classification by assigning the value.

【0007】また、ユーザが、初期分類代表特徴ベクトルを指定することにより、ユーザの意図した文書分類が行える利点もある。 Further, the user, by specifying the initial classification representative feature vector, there is an advantage capable of performing the intended document classification of the user.

【0008】 [0008]

【発明が解決しようとする課題】しかしながら、従来の非階層クラスタリング手法では、分類精度の向上のために動的に分類代表特徴ベクトルを変化させ、反復的に文書の割り当てを実行する精錬化処理(例えば、ベクトルの重心を求め、このベクトル重心のベクトルを新しい分類代表特徴ベクトルとして分類し、この分類操作を、所定回数又は分類誤差が最小になるまで繰り返す。)を行うのが一般的であるが、この精錬化処理を行うことにより、ユーザが当初指定した分類代表特徴ベクトルが変化し、結果としてユーザの意図にそぐわない文書分類結果が生成されてしまう場合(例えば、精錬化処理により、 [SUMMARY OF THE INVENTION However, in the conventional non-hierarchical clustering method, classification accuracy is changed dynamically classification representative feature vectors in order to improve, iteratively refining process that performs the assignment of the document ( for example, obtains the center of gravity of the vector, classifying a vector of the vector centroid as a new classification representative feature vector, the classification operation, but a predetermined number of times or classification error is repeated until a minimum.) for performing it is generally by performing this refining process, if the user specified classification representative feature vector is changed initially, resulting in a document classification result defeat the intention of the user from being generated (e.g., by refining treatment,
ベクトル重心が移動した結果、当初の分類代表特徴ベクトルが他の分類代表特徴ベクトルに分類されることがある。 Results vector centroid has moved, sometimes initial classification representative feature vectors are classes for another class representative feature vector. )がある。 ) There is.

【0009】また、分類代表特徴ベクトルをユーザが指定できる場合、ユーザが利用可能な情報としては、例えば、文書とその文書を構成する単語が考えられる。 Further, if the classification representative feature vector user can specify, as the information available users, for example, it is conceivable words of a document and the document. 初期分類代表特徴ベクトルの指定方法として従来の文書検索で広く用いられている文書と単語を要素とした論理式を用いることにより、ユーザは簡便に初期分類代表値を指定できるようになる。 By using the initial classification representative feature a conventional document retrieval widely used documents and words the element as specified method of vector logic equation, the user can easily specify the initial classification representative value. この際、指定された論理式からどのように初期分類代表特徴ベクトルを生成するかによって、得られる分類結果の質は異なると考えられるが、従来手法ではこの点については言及されていない。 At this time, depending on how to generate the initial classification representative feature vector from the given logical expression, although the quality of the classification results obtained considered distinct, on this point in the conventional technique is not mentioned.

【0010】そこで、本発明では上記間題点に鑑み、ユーザが指定した初期分類代表特徴ベクトルを除外して、 [0010] Therefore, in the present invention in view of the above between problems point, to exclude the initial classification representative feature vector designated by the user,
精錬化処理を行うことにより、ユーザが指定した初期分類代表特徴ベクトルは固定されたまま精錬化処理が行われ、ユーザの意図に沿わない文書分類が行われることを防止することを目的とする。 By performing refining process, the initial classification representative feature vector designated by the user has performed refining process remains fixed, and to prevent that the document classification does not meet the intention of the user is performed.

【0011】また、指定された論理式を文書や単語の論理積式を単位とした論理和式として展開し、各論理積式についてはそれを構成する文書や単語の特徴ベクトルの合成とし、各論理和式についてはそれを構成する要素(論理積式)個々を初期分類代表特徴ベクトルとすることにより、ユーザにとって、簡便に、初期分類代表特徴ベクトルを生成することを目的とする。 [0011] expand specified logical expression logical expression of the document and words as a logical Japanese style in units, and synthesis of feature vectors of documents and words constituting it for each logical expressions, each by the elements (logical expressions) each constituting it with initial classification representative feature vectors for the logical squat, for the user, simply, an object to generate an initial classification representative feature vector.

【0012】つまり、本発明は、ユーザの意図に沿わない文書分類が行われることを防止し、簡便に、初期分類代表特徴ベクトルを生成することが可能な文書分類装置及び文書分類方法を目的とするものである。 [0012] That is, the present invention prevents the document classification do not meet the user's intention is carried out, conveniently, the object of document classification apparatus and document classification method capable of generating an initial classification representative feature vector it is intended to.

【0013】 [0013]

【課題を解決するための手段】本件発明は、以下の通り、上記課題を解決するための手段と作用・効果を有する。 Present invention SUMMARY OF] is as follows, with the means and functions and effects for solving the above problems.

【0014】請求項1に記載された発明は、複数の初期分類代表特徴ベクトルを設定し、該分類代表特徴ベクトルと文書の特徴ベクトルとの類似性をもとに文書を分類する文書分類装置において、分類精度向上のため動的に分類代表特徴ベクトルを変化させて、反復的に文書の割り当てを行う精錬化処理部(例えば、図1における分類代表ベクトル精錬化処理部107)を有し、該精錬化処理部は、一部又は全部の前記分類代表特徴ベクトルについて、精錬化処理を行わないことを特徴とする。 [0014] The invention described in claim 1, setting a plurality of initial classification representative feature vector, the document classification unit for classifying the document based on the similarity between the feature vectors of the classification representative feature vector and the document , by changing the dynamic classification representative feature vector for classification accuracy, iteratively have a refining processing unit for assigning a document (e.g., classification representative vector refinement processing unit 107 in FIG. 1), the refining processing unit, part or the said classification representative feature vectors of all, characterized in that it does not perform the refining process.

【0015】請求項1に記載の発明では、一部又は全部の初期分類代表特徴ベクトルに対し、精錬化処理をバイパスすることにより、前記一部又は全部の初期分類代表ベクトルに関しては、それらが表現する観点を明確に示すような分類結果を得ることができる。 [0015] In the invention described in claim 1, part or of the initial classification representative feature vectors of all, by bypassing the refining process, for the initial classification representative vectors of said part or all is that they are expressed aspect can be obtained classification results as clearly indicate that.

【0016】請求項2に記載された発明は、文書の内容にしたがって文書の分類を行う文書分類装置において、 [0016] The invention described in claim 2, in document classification apparatus for classifying a document in accordance with the contents of the document,
文書データを入力する文書入力部(例えば、図1における文書入力部101)と、前記文書データの単語を解析する文書解析部(例えば、図1における文書解析部10 Document input unit for inputting document data (e.g., document input unit 101 in FIG. 1) and, document analysis section for analyzing words of the document data (e.g., document analysis unit 10 in FIG. 1
2)と、該文書解析部の文書解析結果に基づいて、文書に対する文書特徴ベクトルを算出する文書特徴ベクトル生成部(例えば、図1における文書特徴ベクトル生成部103)と、文書特徴ベクトルと同じ次元数を持つ分類代表ベクトルを生成する分類代表ベクトル生成部(例えば、図1における分類代表ベクトル生成部104)と、 And 2), based on the document analysis result of the document analysis unit, the document feature vector generating unit for calculating a document feature vector for documents (e.g., document characteristic vector generation unit 103 in FIG. 1), the same dimensions as the document feature vector classification representative vector generation section for generating a classification representative vector with the number (for example, classification in FIG. 1 representative vector generation unit 104),
精錬化処理を行わない分類代表ベクトルを指定する精錬化除外ベクトル指定部(例えば、図1における精錬化除外ベクトル指定部105)と、前記文書特徴ベクトルと前記分類代表ベクトル間の類似度を基にして、文書データを分類代表ベクトルのいづれか一つに割り当てる文書データ割り当て部(例えば、図1における文書データ割り当て部106)と、前記精錬化除外ベクトル指定部にて指定された分類代表ベクトル以外の分類代表ベクトルについて、前記文書データ割り当て部にて割り当てられた文書特徴ベクトルをもとに分類代表ベクトルを再計算し、特定の基準を満たすまで前記文書データ割り当てと分類代表ベクトルの再計算をくり返す分類代表ベクトル精錬化部(例えば、図1における分類代表ベクトル精錬化部107)と、 Refining of exclusion vector specifying unit for specifying a classification representative vectors is not performed refining process (e.g., refining of exclusion vector specifying unit 105 in FIG. 1) and, based on the similarity between the document feature vector and said classification representative vector Te, document data allocation unit for allocating to one any of classifying representative vector document data (e.g., document data allocation unit 106 in FIG. 1) and the classification other than classification representative vector specified by the refining of exclusion vector specifying unit for representative vectors, the document feature vector assigned by the document data allocation unit recalculates the classification representative vector on the basis of repeated recalculation classification representative vector and the document data assigned to meet specific criteria classification representative vector refinement unit (for example, classification representative vector refinement unit 107 in FIG. 1), 類結果を保存する分類結果保存部(例えば、図1における分類結果保存部108)と有することを特徴とする。 Classification result storage unit for storing a class result (e.g., the classification result storing unit 108 in FIG. 1) and having a.

【0017】請求項2に記載の発明では、幾つかの指定される初期分類代表特徴ベクトルに対し、精錬化処理をバイパスすることにより、指定された初期分類代表ベクトルに関しては、それらが表現する観点を明確に示すような分類結果を得ることができる。 [0017] In the invention according to claim 2, of the initial classification representative feature vectors are several designated by bypassing the refining process, with respect to the specified initial classification representative vector, they express the viewpoint it is possible to obtain a classification result as clearly indicates.

【0018】請求項3に記載された発明は、請求項2に記載の文書分類装置において、前記分類代表ベクトル生成部において、幾つかの分類代表ベクトルがユーザの指定する情報により生成されることを特徴とする。 [0018] The invention described in claim 3, in document classification apparatus according to claim 2, in the classification representative vector generation unit, that several classification representative vectors are generated by the information specified by the user and features.

【0019】請求項3に記載の発明では、請求項2に記載の文書分類装置の特徴に加え、精錬化処理をバイパスする初期分類代表ベクトルをユーザが指定することにより、ユーザの分類意図を反映した分類結果を得ることができる。 [0019] In the invention described in claim 3, in addition to the features of the document classification apparatus according to claim 2, the user specifies the initial classification representative vectors bypasses the refining process, reflecting the classification intention of the user it can be obtained with the classification result.

【0020】請求項4に記載された発明は、請求項3に記載の文書分類装置において、前記精錬化除外ベクトル指定部において、前記分類代表ベクトル生成部にてユーザによって指定される情報により生成された分類代表ベクトルのみを精錬化を行わない分類代表ベクトルとすることを特徴とする。 [0020] The invention described in claim 4 is the document classification apparatus according to claim 3, in the refining of exclusion vector specifying unit, generated by the information specified by the user at the classified representative vector generation unit only classification representative vector, characterized in that the classification representative vectors is not performed refining of.

【0021】請求項4に記載の発明では、請求項3に記載の文書分類装置の特徴に加え、ユーザが指定した分類代表特徴ベクトルについては、精錬化処理を行わないことにより、ユーザの分類意図を強制的に保持した分類結果を得ることができる。 [0021] In the invention described in claim 4, in addition to the features of the document classification apparatus according to claim 3, for the classification representative feature vector designated by the user, by not performing the refining process, classification user intent it can be obtained forcibly held classification results.

【0022】請求項5に記載された発明は、請求項4の文書分類装置において、前記分類代表ベクトル生成部において、ユーザにより指定される情報が、文書データと文書データ内に存在する単語の論理式であることを特徴とする。 [0022] The invention described in claim 5, in document classification apparatus according to claim 4, in the classification representative vector generation unit, information designated by the user, the word present in the document data and the document data logic characterized in that it is a formula.

【0023】請求項5に記載の発明では、請求項4に記載の文書分類装置の特徴に加え、ユーザが指定する文書と文書内に含まれる単語の論理式から初期分類代表特徴ベクトルを生成することにより、ユーザが分類意図を容易に記述できる文書分類装置を実現することができる。 [0023] In the invention described in claim 5, in addition to the features of the document classification apparatus according to claim 4, to produce an initial classification representative feature vector from the logical expression of words contained in the document and the document designated by the user it is thus possible to realize a document classification apparatus that the user can easily describe classification intent.

【0024】請求項6に記載された発明は、請求項5に記載の文書分類装置において、前記分類代表ベクトル生成部において指定される分類代表ベクトルを生成するための情報を保存する分類代表ベクトル生成情報記憶部(例えば、図8における分類代表ベクトル生成情報記憶部201)と、前記分類代表ベクトル生成情報記憶部に記憶された情報を読み込む分類代表ベクトル生成情報読み込み部(例えば、図8における分類代表ベクトル生成情報読み込み部202)と、前記分類代表ベクトル生成部において指定される精錬化処理をおこなわない分類代表ベクトルに関する情報を保存する精錬化除外ベクトル情報記憶部(例えば、図8における精錬化除外ベクトル情報記憶部203)と、前記精錬化除外ベクトル情報記憶部に記憶された情 [0024] The invention described in claim 6, in document classification apparatus according to claim 5, classification representative vector generation that stores information for generating a classification representative vectors specified in the classification representative vector generation unit information storage unit (e.g., classification representative vector generation information storage unit 201 in FIG. 8) and reads the classification representative vector generation information storage unit information stored in the classification representative vector generation information reading unit (e.g., classification representative in Fig. 8 a vector generation information reading unit 202), the classification representing refining of storing information about classification representative vectors is not performed refining process specified in the vector generator exclusion vector information storage unit (e.g., refining of exclusion vectors in FIG. 8 an information storage unit 203), stored in the refining of exclusion vector information storage unit information を読み込む精錬化除外ベクトル情報読み込み部(例えば、図8における精錬化除外ベクトル情報読み込み部204)とをさらに有することを特徴とする。 Refining of exclusion vector information reading part for reading (e.g., refining of exclusion vector information reading section 204 in FIG. 8), characterized in that it further comprises a.

【0025】請求項6に記載の発明では、請求項5に記載の文書分類装置の特徴に加え、指定された初期分類代表特徴ベクトルと精錬化処理を行わない分類代表特徴ベクトルを記憶し、その情報を後で読み出す仕組みを提供することにより、事前に行われた文書分類の設定に多少修正を加えて新たな分類結果を獲得したり、分類対象文書集合が変化した場合に対しても同一の設定での分類結果を得ることができる。 [0025] In the invention described in claim 6, in addition to the features of the document classification apparatus according to claim 5, stores the classification representative feature vector is not performed refining process and the given initial classification representative feature vector, the by providing a mechanism for reading information later, with a few modifications to the set of pre-made document classification gain new classification result or the same even for the case where classification target document set has changed it is possible to obtain the classification result at the set.

【0026】請求項7に記載された発明は、文書の内容にしたがって文書の分類を行う文書分類装置において、 [0026] The invention described in claim 7, in document classification apparatus for classifying a document in accordance with the contents of the document,
文書データを入力する文書入力部(例えば、図11における文書入力部101)と、前記文書データの単語を解析する文書解析部(例えば、図11における文書解析部102)と、該文書解析部による文書分析結果から各文書に対する文書特徴ベクトルを算出する文書特徴ベクトル生成部(例えば、図11における文書特徴ベクトル生成部103)と、幾つかの分類代表ベクトルとして、指定される複数の情報プリミティブの論理式を、それぞれ要素が情報プリミティブの論理積である論理和による結合式に展開し、生成された情報プリミティブの論理積それぞれから文書特徴ベクトルと同じ次元数を持つ分類代表ベクトルを生成する分類代表ベクトル指定生成部(例えば、図11における分類代表ベクトル指定生成部30 Document input unit for inputting document data (e.g., document input unit 101 in FIG. 11) and, document analysis section for analyzing words of the document data (for example, the document analysis unit 102 in FIG. 11), according to the document analysis unit document feature vector generation unit for calculating a document feature vector for each document from the document analysis results (e.g., document feature vector generation unit 103 in FIG. 11) and, as some categories representative vectors, the logic of the plurality of information primitives specified classification representative vector equation, expand combination formula each element by the logic OR is the logical product of the information primitives, generating a classification representative vectors from the logical product each generated information primitives have the same dimensionality as the document feature vector designation generation unit (e.g., classification in 11 representative vector designated generation unit 30
1)と、前記指定される論理式とそれから生成される分類代表ベクトルに関する情報を記憶する分類代表ベクトル情報記憶部と、前記文書特徴ベクトル生成部にて生成される情報を用いて分類代表ベクトルを自動生成する分類代表ベクトル自動生成部(例えば、図11における分類代表ベクトル自動生成部303)と、前記文書特徴ベクトルと前記分類代表ベクトル間の類似度を基にして、 1), a logical expression that the designated classification representative vector information storage unit that stores information about the classification representative vectors generated therefrom, a classification representative vector using the information generated by said document feature vector generating unit classification representative vector automatic generation unit for automatically generating (e.g., classification representative vector automatic generation unit 303 in FIG. 11) and, based on the similarity between the document feature vector and the classification representative vector,
文書データを分類する文書分類部(例えば、図11における文書分類部304)と、前記分類代表ベクトル情報記憶部にて記憶された情報をもとに分類結果を生成し、 Document classification unit for classifying the document data (e.g., document classification unit 304 in FIG. 11) generates and the classification result on the basis of the information stored in the classification representative vector information storage unit,
保存する分類結果保存部(例えば、図11における分類結果保存部305)とを有することを特徴とする文書分類装置。 Classification result storage unit that stores (e.g., the classification result storing unit 305 in FIG. 11) document classification apparatus; and a.

【0027】請求項7に記載の発明では、指定された情報プリミティブの論理式を論理和式に展開し、その論理和式を構成する情報プリミティブの論理積それぞれから初期分類代表ベクトルを生成することにより、記述された論理式の意味に適した文書分類結果を生成することができる。 [0027] In the invention according to claim 7, expand logical expression of the specified information primitive logic squat, generating an initial classification representative vectors from logical respective information primitives that make up the logical squat Accordingly, it is possible to produce a document classification result suitable for the meaning of the described formulas.

【0028】請求項8に記載された発明は、請求項7に記載の文書分類装置において、前記記憶された分類代表ベクトルに関する情報を読み込む分類代表ベクトル情報読み込み部(例えば、図11における分類代表ベクトル情報読み込み部305)とをさらに有することを特徴とする。 [0028] The invention described in claim 8, the document classification apparatus according to claim 7, classification representative vector in the classification representative vector information reading unit (e.g., 11 to read the information on the stored classification representative vectors characterized by further comprising an information reading section 305) and.

【0029】請求項8に記載の発明では、請求項7に記載の文書分類装置の特徴に加え、事前に記憶されている情報プリミティブの論理式と生成される文書代表ベクトルに関する情報を再利用することにより、異なる文書集合に対しても同一の分類基準で文書分類を行うことのできる文書分類装置を実現することができる。 [0029] In the invention according to claim 8, in addition to the features of the document classification apparatus according to claim 7, reuse information about the document representative vectors generated with the logical expression information primitives stored in advance it is thus possible to realize a document classification apparatus capable of performing document classification in the same classification criteria are for different document sets.

【0030】請求項9に記載された発明は、請求項8に記載の文書分類装置において、前記分類代表ベクトル生成部において、生成された情報プリミティブの論理積に含まれる各情報プリミティブの算術平均として分類代表ベクトルが生成されることを特徴とする。 The invention described in claim 9, the document classification apparatus according to claim 8, in the classification representative vector generation unit, as the arithmetic mean of each information primitives included in logical product of the generated information primitives characterized in that classification representative vectors are generated.

【0031】請求項9に記載の発明では、請求項8に記載の文書分類装置の特徴に加え、生成される情報プリミティブの論理積において、それを構成する各情報プリミティブを適切に表現する特徴ベクトルの算術平均から文書代表ベクトルを生成することにより、論理積を適切に数量化することが可能となり、これにより論理式の意味に適した文書分類結果を生成することができる。 [0031] In the invention according to claim 9, in addition to the features of the document classification apparatus according to claim 8, in conjunction of information primitives to be generated, feature vector appropriate to represent each information primitives that constitute the by generating a document representative vectors from the arithmetic mean, it is possible to adequately quantify the logical product, thereby generating a document classification result suitable for the meaning of the logical expression.

【0032】請求項10に記載された発明は、請求項9 [0032] The invention described in claim 10, claim 9
に記載の文書分類装置において、前記分類代表ベクトル生成部において指定される情報プリミティブが文書及び文書内に含まれる単語であることを特徴とする。 In document classification apparatus according to, characterized in that information primitives specified in the classification representative vector generation unit is a word included in a document and the document.

【0033】請求項10に記載の発明では、請求項9に記載の文書分類装置の特徴に加え、情報プリミティブとして文書及び文書内に含まれる単語を用いることにより、簡便に論理式を生成できる文書分類装置を実現することができる。 [0033] In the invention according to claim 10, in addition to the features of the document classification apparatus according to claim 9, by using a word included in the document and the document as information primitive documents that can generate easily formulas it is possible to realize a classifier.

【0034】請求項11に記載された発明は、請求項1 [0034] according to claim 11 invention, claim 1
0に記載の文書分類装置において、前記分類代表ベクトル生成部にて指定される情報プリミティブの論理式がユーザによって指定されることを特徴とする。 In document classification apparatus according to 0, characterized in that the logical expression information primitives specified by the classification representative vector generation unit is specified by the user.

【0035】請求項11に記載の発明では、請求項10 [0035] In the invention described in claim 11, claim 10
に記載の文書分類装置の特徴に加え、ユーザが論理式を指定できることにより、ユーザの意図を明確にした文書分類結果を生成することができる。 In addition to the features of the document classification apparatus according to, by the user can specify a formula, it is possible to produce a document classification result with clear intention of the user.

【0036】請求項12に記載された発明は、複数の初期分類代表特徴ベクトルを設定し、該分類代表特徴ベクトルと文書の特徴ベクトルとの類似性をもとに文書を分類する文書分類方法において、分類精度向上のため動的に分類代表特徴ベクトルを変化させて、反復的に文書の割り当てを行う精錬化処理ステップを有し、該精錬化処理ステップは、一部又は全部の前記分類代表特徴ベクトルについて、精錬化処理を行わないことを特徴とする。 [0036] The invention described in claim 12, setting a plurality of initial classification representative feature vector, the document classification method for classifying a document based on the similarity between the feature vectors of the classification representative feature vector and the document , by changing the dynamic classification representative feature vector for classification accuracy, iteratively have a refining process steps for allocating the document, the purified Neka processing steps, some or all the classified representative feature for vectors, characterized in that it does not perform the refining process.

【0037】請求項13に記載された発明は、文書の内容にしたがって文書の分類を行う文書分類方法において、文書データを入力する文書入力ステップと、前記文書データの単語を解析する文書解析ステップと、該文書解析ステップの文書解析結果に基づいて、文書に対する文書特徴ベクトルを算出する文書特徴ベクトル生成ステップと、文書特徴ベクトルと同じ次元数を持つ分類代表ベクトルを生成する分類代表ベクトル生成ステップと、 [0037] The invention described in claim 13, in document classification method for classifying the document according to the document content, the document input step of inputting document data, a document analyzing step of analyzing the words of the document data , based on the document analysis result of the document analysis step, a document feature vector generation step of calculating the document feature vector for documents, the classification representative vector generating step of generating a classification representative vector having the same dimensionality as the document feature vector,
精錬化処理を行わない分類代表ベクトルを指定する精錬化除外ベクトル指定ステップと、前記文書特徴ベクトルと前記分類代表ベクトル間の類似度を基にして、文書データを分類代表ベクトルのいづれか一つに割り当てる文書データ割り当てステップと、前記精錬化除外ベクトル指定ステップにて指定された分類代表ベクトル以外の分類代表ベクトルについて、前記文書データ割り当てステップにて割り当てられた文書特徴ベクトルをもとに分類代表ベクトルを再計算し、特定の基準を満たすまで前記文書データ割り当てと分類代表ベクトルの再計算をくり返す分類代表ベクトル精錬化ステップと、分類結果を保存する分類結果保存ステップとを有することを特徴とする。 Assigning a refining of exclusion vector designating step for designating a classification representative vectors is not performed refining process, based on the similarity between the document feature vector and the classification representative vector, one either a classification representative vector document data document data allocation step, the classification representative vectors than classification representative vector specified by the refining of exclusion vector specifying step, a classification representative vector based on the document feature vector assigned by the document data allocating step re calculated, and having a classification representative vector refinement of step to repeat the re-calculation of the classification representative vector and the document data allocated to meet certain criteria, the classified result storing step of storing the classification result.

【0038】請求項14に記載された発明は、請求項1 [0038] according to claim 14 invention, claim 1
3に記載の文書分類方法において、前記分類代表ベクトル生成ステップにおいて、幾つかの分類代表ベクトルがユーザの指定する情報により生成されることを特徴とする。 A document classification method according to 3, in the classification representative vector generation step, wherein the several classification representative vectors are generated by the information specified by the user.

【0039】請求項15に記載された発明は、請求項1 [0039] described in claim 15 invention, claim 1
4に記載の文書分類方法において、前記精錬化除外ベクトル指定ステップにおいて、前記分類代表ベクトル生成ステップにてユーザによって指定される情報により生成された分類代表ベクトルのみを精錬化を行わない分類代表ベクトルとすることを特徴とする。 A document classification method according to 4, in the refining of exclusion vector designation step, a classification representative vector only classification representative vectors generated by the information that is specified not performed refining by the user at the classified representative vector generation step characterized in that it.

【0040】請求項16に記載された発明は、請求項1 [0040] defined in claim 16 invention, claim 1
5の文書分類方法において、前記分類代表ベクトル生成ステップにおいて、ユーザにより指定される情報が、文書データと文書データ内に存在する単語の論理式であることを特徴とする。 In 5 document classification method in the classification representative vector generation step, information designated by the user, characterized in that it is a logical expression of words that exist in the document data and document data.

【0041】請求項17に記載された発明は、請求項1 [0041] defined in claim 17 invention, claim 1
6に記載の文書分類方法において、前記分類代表ベクトル生成ステップにおいて指定される分類代表ベクトルを生成するための情報を保存する分類代表ベクトル生成情報記憶ステップと、前記分類代表ベクトル生成情報記憶ステップに記憶された情報を読み込む分類代表ベクトル生成情報読み込みステップと、前記分類代表ベクトル生成ステップにおいて指定される精錬化処理をおこなわない分類代表ベクトルに関する情報を保存する精錬化除外ベクトル情報記憶ステップと、前記精錬化除外ベクトル情報記憶ステップに記憶された情報を読み込む精錬化除外ベクトル情報読み込みステップとをさらに有することを特徴とする。 A document classification method according to 6, wherein the classification representative vector and classification representative vector generation information storage step of storing information for generating a classification representative vectors specified in the generation step, stored in the classification representative vector generation information storage step and classifying the representative vector generation information reading step of reading the information, and refining of exclusion vector information storage step of storing information relating to classification representative vectors is not performed refining process specified in the classification representative vector generation step, the refining of further characterized as having a refining of exclusion vector information reading step of reading an exclusion vector information storage information stored in step.

【0042】請求項18に記載された発明は、文書の内容にしたがって文書の分類を行う文書分類方法において、文書データを入力する文書入力ステップと、前記文書データの単語を解析する文書解析ステップと、該文書解析ステップによる文書分析結果から各文書に対する文書特徴ベクトルを算出する文書特徴ベクトル生成ステップと、幾つかの分類代表ベクトルとして、指定される複数の情報プリミティブの論理式をそれぞれ要素が情報プリミティブの論理積である論理和による結合式に展開し、生成された情報プリミティブの論理積それぞれから文書特徴ベクトルと同じ次元数を持つ分類代表ベクトルを生成する分類代表ベクトル指定生成ステップと、前記指定される論理式とそれから生成される分類代表ベクトルに関する情報を記憶 [0042] The invention described in claim 18, in document classification method for classifying the document according to the document content, the document input step of inputting document data, a document analyzing step of analyzing the words of the document data , a document feature vector generation step of calculating the document feature vector for each document from the document analysis result by the document analysis step, as some categories representative vectors, a plurality of information a formula each element information primitives primitive specified classification representative vector designated generation step of generating a classification representative vectors expanded in the binding equation by logical sum, the logical product each generated information primitives have the same dimensionality as the document feature vector which is the logical product of the said specified that logical expression and stores information about the classification representative vectors generated therefrom る分類代表ベクトル情報記憶ステップと、前記文書特徴ベクトル生成ステップにて生成される情報を用いて分類代表ベクトルを自動生成する分類代表ベクトル自動生成ステップと、前記文書特徴ベクトルと前記分類代表ベクトル間の類似度を基にして、文書データを分類する文書分類ステップと、前記分類代表ベクトル情報記憶ステップにて記憶された情報をもとに分類結果を生成し、保存する分類結果保存ステップとを有することを特徴とする。 That the classification representative vector information storage step, a classification representative vector automatic generation step of automatically generating a classification representative vector using the information generated by said document feature vector generation step, between the classification representative vector and the document feature vector having by the similarity based on a document classification step of classifying the document data, the generated classification representative vector information stored classification result based on the information stored in the step, and a classification result storage step of storing the features.

【0043】請求項19に記載された発明は、請求項1 [0043] defined in claim 19 invention, claim 1
8に記載の文書分類方法において、前記記憶された分類代表ベクトルに関する情報を読み込む分類代表ベクトル情報読み込みステップとをさらに有することを特徴とする。 A document classification method according to 8, characterized by further comprising a classification representative vector information reading step of reading information relating to the stored classification representative vectors.

【0044】請求項20に記載された発明は、請求項1 [0044] defined in claim 20 invention, claim 1
9に記載の文書分類方法において、前記分類代表ベクトル生成ステップにおいて、生成された情報プリミティブの論理積に含まれる各情報プリミティブの算術平均として分類代表ベクトルが生成されることを特徴とする。 A document classification method according to 9, in the classification representative vector generation step, classifying the representative vector as the arithmetic mean of each information primitives included in logical product of the generated information primitive, characterized in that it is produced.

【0045】請求項21に記載された発明は、請求項2 [0045] defined in claim 21 invention, claim 2
0に記載の文書分類方法において、前記分類代表ベクトル生成ステップにおいて指定される情報プリミティブが文書及び文書内に含まれる単語であることを特徴とする。 A document classification method according to 0, and wherein the information primitives specified in the classification representative vector generation step is a word included in a document and the document.

【0046】請求項22に記載された発明は、請求項2 [0046] according to claim 22 invention, claim 2
1に記載の文書分類方法において、前記分類代表ベクトル生成ステップにて指定される情報プリミティブの論理式がユーザによって指定されることを特徴とする。 A document classification method according to 1, characterized in that the logical expression information primitives specified by the classification representative vector generation step is designated by the user.

【0047】請求項12〜請求項22記載の文書分類方法は、請求項1〜請求項11記載の文書分類装置に適した文書分類方法である。 The document classification method according to claim 12 claim 22, wherein is a document classification method suitable for document classification apparatus according to claim 1 to claim 11, wherein.

【0048】 [0048]

【発明の実施の形態】次に、本発明の実施の形態について図面と共に説明する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS A description will now be given, with drawings, embodiments of the present invention.

【0049】本発明では、自然言語で記述された1つ以上の文の集まりで、それが分類対象となる場合は、これを文書と言う。 [0049] In the present invention, a collection of one or more of the statements that have been described in a natural language, if it is classified, say the document this. また、ひとつの文書の終端には、それが判別可能な文書終端記号が布置されているものとする。 In addition, the end of one document, it is assumed that it is distinguishable Article terminal symbols are constellation.

【0050】具体的な例をあげれば、公開特許公報や特定の新聞記事も文書であるし、それらから、請求項や特定の1文を取り出したものであっても、これを文書と見なす。 [0050] By way of specific example, to Patent Publication and certain newspaper articles also document, from them, even if they removed claims and particular 1 statement, which is then taken to be the document. (第1の実施の形態)図1は、第1の実施の形態を説明するための文書分類装置の構成図である。 (First Embodiment) FIG. 1 is a configuration diagram of a document classification apparatus for explaining the first embodiment.

【0051】文書入力部101では、キーボード、OC [0051] In the document input unit 101, a keyboard, OC
R装置、ハードディスク等の補助記憶装置、又はネットワーク経由にて文書や文書群を獲得し、文書データを入力する。 R device, acquiring an auxiliary storage device, or a document or set of documents at via a network, such as a hard disk, for inputting document data.

【0052】文書解析部102では、入力された文書それぞれに対し、自然言語解析を行い、単語やその品詞などを抽出する。 [0052] In the document analysis unit 102, for each document that has been input, it performs a natural language analysis, to extract such as a word or its part of speech. さらに、文書内での単語の出現順序や、 In addition, the appearance order and of the word in the document,
文書の作成者や作成日などの文書のメタ情報なども抽出する。 Also extracted, such as document meta information, such as the document author and creation date. 抽出後、文書群で出現した単語に対し一意な単語IDを付与し、文書内及び文書群に対する単語出現回数を計数する。 After extraction, impart a unique word ID to the words appearing in documents, and counts the word occurrence count for the document in and documents.

【0053】文書特徴ベクトル生成部103では、文書解析部102で生成する単語、単語ID、単語出現回数、品詞情報などの文書解析データを基に、文書特徴ベクトルを生成する。 [0053] In the document feature vector generation unit 103, the words produced in the document analysis unit 102, a word ID, the word occurrence count, based on document analysis data, such as part of speech information to generate a document feature vector.

【0054】図2を用いて、文書特徴ベクトルについて説明する。 [0054] with reference to FIG. 2, described document feature vector. 図2は、行を文書(doci[i=1〜2 2, document row (doci [i = 1~2
0])、列を単語(wordj[j=1〜10])とした表である。 0]) is a table with a word column (wordj [j = 1~10]). 文書と単語の交点(wordji)には、 The document and the intersection of the word (wordji),
その文書におけるその単語の出現頻度が示されている。 The frequency of occurrence of the word is shown in the document.
例えば、文書(doc1)における単語(word1) For example, the word in the document (doc1) (word1)
の出現頻度は1であり、文書(doc3)における単語(word1)の出現頻度は5である。 The frequency of occurrence of a 1, the frequency of occurrence of the word (word1) in the document (doc3) is 5.

【0055】このように、文書(doci)における単語(wordj)の出現頻度が(i、j)要素となるような文書-単語頻度行列データを生成し、この文書-単語頻度行列の各列ベクトルを文書特徴ベクトルとする。 [0055] Thus, documents, such as word frequency (wordj) in the document (doci) is the (i, j) th component - each column vector of word frequency matrix - generates a word frequency matrix data, this document It is referred to as the document feature vector.

【0056】以下本発明の説明においては、図2に示す文書データを3つの文書集合に分類する場合を考える。 [0056] In the following description of the present invention, consider the case of classifying into three document set the document data shown in FIG.

【0057】また、文書-単語頻度行列に対し、正規化処理を同時に行い、文書間の長さの影響を考慮した文書特徴ベクトルを用いることにより分類精度を向上させることが可能となる。 [0057] The document - to the word frequency matrix, performs normalization processing simultaneously, it is possible to improve the classification accuracy by using the document feature vector in consideration of the influence of the length between documents.

【0058】さらに、文書-単語行列に因子分析、数量化III類、特異値分解等の多次元尺度手法を適用することにより、単語が有する多義性・同義性の問題を考慮した文書特徴ベクトルを用いることもできる。 [0058] Furthermore, document - factor word matrix analysis, quantification class III, by applying multidimensional scaling techniques singular value decomposition, the document feature vector considering ambiguity-degenerate problems word has It can also be used.

【0059】例として、有効特異値次元を10として、 [0059] As an example, the effective singular values ​​dimension as 10,
図2の文書-単語頻度行列に対し特異値分解を適用した結果得られる文書特徴ベクトルを図3に示す。 Article in Figure 2 - shows the document feature vectors obtained as a result of applying the singular value decomposition with respect to word frequency matrix in FIG.

【0060】文書-単語頻度行列に対し特異値分解を適用することにより、単語もまた文書と同一の特徴空間に布置される。 [0060] Document - By applying a singular value decomposition with respect to word frequency matrix, the word is also a constellation in the same feature space and documents. これら単語特徴ベクトルを図4に示す。 These word feature vectors shown in FIG.

【0061】また、図3、図4において、dimk[k [0061] Also, in FIGS. 3 and 4, dimk [k
=1〜6]は各特徴次元を示す。 = 1 to 6 show the respective characteristic dimension. なお、図3、図4における例では、SVDPACKC[http://ww In the example in FIG. 3, FIG. 4, SVDPACKC [http: // ww
w. w. cs. cs. utk. utk. edu/ berry/]を用いて特異値分解を求めたものである。 edu / berry /] are those obtained singular value decomposition used.

【0062】分類代表ベクトル生成部104では、統計的手法を用いて文書分類を行う前処理として、文書特徴ベクトルと同一の次元数を持つ分類代表ベクトルを生成する。 [0062] Classification representative vector generation section 104, a preprocessing of the document classification using statistical techniques, to generate a classification representative vector having the same number of dimensions and the document feature vector.

【0063】この分類代表ベクトルの生成方法としては、例えば、 文書特徴ベクトルから、等間隔で選択する、 文書特徴ベクトルから、ランダムに選択する、 文書特徴ベクトルの先頭から選択する、 等の一定の規則に基づき幾つかの文書特徴ベクトルを選択し、それらの文書特徴ベクトルを分類代表ベクトルとする。 [0063] As a method of generating the classification representative vector, for example, from the document feature vector is selected at regular intervals, from the document feature vector, randomly selected, to select from the beginning of the document feature vectors, a certain constant rule select several document feature vectors based on, and classify representative vectors those documents feature vectors.

【0064】また、ユーザが指定した文書や単語の情報から分類代表ベクトルを生成することにより、ユーザの分類意図を明確に反映した分類代表ベクトルを生成することができる。 [0064] Further, it is possible by generating a classification representative vectors from a document and words of information specified by the user, and generates a classification representative vectors clearly reflect the classification intention of the user.

【0065】ユーザが指定する情報は、文書や文書内に含まれる単語に関するものであればどのようなものでもよい。 [0065] information specified by the user may be any as long as it relates to the words contained in the document or in the document. しかし、それぞれの情報は、文書もしくは文書内の単語と特定の対応関係を有している必要がある。 However, each of the information needs to have a certain relationship between the words in the document or in the document.

【0066】さらに、ユーザが文書と文書内に存在する単語の論理式によって分類代表ベクトルを指定することができる。 [0066] Further, it is possible to specify the classification representative vectors by logical expressions of words that the user is present in the document and the document. これにより、ユーザは簡便に分類意図を記述することができる。 Thus, the user can describe easily classification intended. なお、論理式によって分類代表ベクトルを指定する具体的な指定手法は、問わない。 The specific designation method for designating a classification representative vector by the logic equation, No preference.

【0067】ここで、2つの分類代表ベクトルをユーザが指定した情報から生成し、1つの分類代表ベクトルを自動的に生成する場合について説明する。 [0067] Here, to generate two classification representative vector from the information specified by the user, the case of automatically generating one classification representative vectors.

【0068】簡単のため、ユーザは単語の論理積か文書で、分類代表ベクトルを指定するものとする。 [0068] For the sake of simplicity, the user shall be a logical product or document of the word, to specify the classification representative vector. 単語セットが指定された場合は、分類代表ベクトルを、含まれる単語の特徴ベクトルの算術平均とし、文書が指定された場合は、対応する文書特徴ベクトルを、分類代表ベクトルとする。 If the word set is specified, the classification representative vector, and the arithmetic mean of the feature vectors of words contained, if the document is designated, a corresponding document feature vector to the classification representative vector.

【0069】分類代表ベクトル1として、単語:wor [0069] as a classification representative vector 1, the words: wor
d1と単語:word3が指定され、分類代表ベクトル2として文書:doc5がユーザによって指定され、分類代表ベクトル3として文書:doc7の文書特徴ベクトルが自動的に選択された場合の初期文書代表ベクトルを図5に示す。 d1 and words: word3 is designated, the document as the classification representative vector 2: DOC5 is designated by the user, the document as the classification representative vector 3: Fig initial document representative vector when the document feature vector of doc7 is selected automatically 5 to show.

【0070】精錬化除外ベクトル指定部105では、前記分類代表ベクトル生成部104にて生成した分類代表ベクトルに対し、精錬化処理を行うか否かを特定の基準を基に指定する。 [0070] In refining of exclusion vector specifying unit 105, for classification representative vectors generated by the classification representative vector generation unit 104, to specify whether to perform refining process based on certain criteria.

【0071】精錬化処理を行うか否かを決定する基準は、文書及び単語に関連する情報やユーザの日常的な傾向などから自動的に決定することもできる。 [0071] criteria for determining whether to perform the refining process can also be automatically determined from such routine trend information and user associated with the document and word. ここでは、 here,
すべての分類対象ベクトルについて判定ができるのであれば、その手法は問わない。 As long as it is determined for all of the classified vector, it does not matter the technique.

【0072】また、前記分類代表ベクトル生成部104 [0072] The classification representative vector generation unit 104
にて、ユーザによって指定された分類代表ベクトルのみを精錬化除外ベクトルとする基準を用いることにより、 At, by using a reference to refining of exclusion vector only classification representative vector specified by the user,
ユーザが指定した分類意図を表現している分類代表ベクトルが精錬化によって変動するのを防ぐことができる。 Classification representative vector that represents a classification intent specified by the user can be prevented from fluctuating by refining of.

【0073】文書データ割り当て部106では、各文書特徴ベクトルについて分類代表ベクトルとの類似度を算出し、最大の類似度の分類代表ベクトルにそれぞれの文書データを割り当てる。 [0073] The document data allocation unit 106 calculates the degree of similarity between the classification representative vector for each document feature vector is assigned to each document data classification representative vector of the maximum similarity. ここで、類似度の計算には、ベクトル間の内積、余弦、ユークリッド距離などを用いることができるが、ここでは手法は問わない。 Here, the calculation of similarity, an inner product between vectors, cosine, and the like can be used Euclidean distance does not matter here approach.

【0074】分類代表ベクトル精錬化部107では、前記精錬化除外ベクトル指定部105にて、精錬化の除外を指定されなかったすべての分類代表ベクトルにおいて、前記文書データ割り当て部106にて割り当てられた文書データの特徴ベクトルを基に分類代表ベクトルを再計算し、特定の基準を満たすまで(例えば、精錬化処理を所定回数行うまで、分類誤差が所定の値以下になるまで等)、前記文書データ割り当てと分類代表ベクトルの再計算をくり返し実施する。 [0074] Classification representative vector refinement unit 107, in the refining of exclusion vector specifying unit 105, in all of Classification representative vectors that have not been specified exclusion refining of, assigned by the document data allocation unit 106 recalculate the classification representative vector based on the feature vector of the document data, until it meets certain criteria (e.g., until the refining process carried out a predetermined number of times, or the like until the classification error is below the predetermined value), the document data assignment to repeatedly implement the recalculation of classification representative vectors.

【0075】再計算手法としては、非階層クラスタリングで用いられているk−means法(分類対象の文書を一つ割り当てる都度、再計算する手法)やforgy [0075] The re-calculation method, k-means clustering method used in the non-hierarchical clustering (each time assigning one document to be classified, technique of re-calculation) and forgy
法(分類対象の文書を全部割り当てた後に、再計算する手法)を用いることができるが、ここではその手法は問わない。 Law (After assigning all documents to be classified, technique of re-calculation) can be used, where no limitation on the method.

【0076】分類結果保存部108では、生成された分類結果を適切な型式で保存する。 [0076] Classification The result storage unit 108 stores the generated classification result at the right type.

【0077】次に、いくつかの分類代表ベクトルを精錬化除外ベクトルとした場合について説明する。 [0077] Next, the case where the number of classification representative vector was refined of exclusion vector.

【0078】まず、図5に示した3つの分類代表特徴ベクトルの内、ユーザが指定した分類代表ベクトル、すなわち分類代表ベクトル1と分類代表ベクトル2を精錬化除外ベクトルとする。 [0078] First, the three classification representative feature vectors shown in FIG. 5, the classification representative vector specified by the user, that is, a classification representative vector 1 and classified representative vector 2 and refinement of exclusion vector. 文書データ割り当て部106の類似測度として余弦、文書代表ベクトル精錬化部の手法としてk−means法を用い、精錬化停止基準としてくり返し回数5回とした場合、図5に示す分類代表ベクトルは図6のようになる。 Cosine as a similar measure of document data allocation unit 106, using the k-means method as a technique of the document representative vector refinement unit, when a repeated 5 times as refining of the stop criterion, the classification representative vector shown in FIG. 5 FIG. 6 become that way.

【0079】図6から明らかなように価が変化しているのは分類代表ベクトル3のみである。 [0079] are only classified representative vectors 3 of valence as apparent from FIG. 6 is changed. また、その分類結果を図7に示す。 Also shows the classification results in FIG.

【0080】図7において各所属文書の括弧内の値は所属している分類代表ベクトルとの類似度である。 [0080] The values ​​in parentheses for each belong document 7 is a similarity between the classification representative vectors belong.

【0081】この分類結果を見ると、精錬化除外した分類代表ベクトル2では、指定した文書:doc5を中心とした文書集合を形成しているが、精錬化を実行した分類代表ベクトル3は、文書:doc7をもとに生成したものの、文書:doc7はこの文書集合ではなく、分類代表ベクトル2の文書集合に帰属している。 [0081] Looking at this classification result, the classification representative vectors 2 excluding refining of, the specified document: DOC5 but forms a document set around the classification representative vector 3 executing the refining of the document : doc7 but was generated on the basis of the document: doc7 is not in this set of documents, has been attributed to the document set of classification representative vectors 2.

【0082】従って、もし、分類代表ベクトル3がユーザによって指定されていた場合には、生成される文書集合は、文書:doc7を中心とするものではないため、 [0082] Therefore, if the classification representative vector 3 if it is specified by the user, a document set to be generated, the document: Because not centered on Doc7,
ユーザの意図にはそぐわない結果となっていたと予測できる。 It can be predicted that has been a result not fit the intent of the user. (第2の実施の形態)図8は、第2の実施の形態を説明するための文書分類装置の構成図である。 (Second Embodiment) FIG. 8 is a configuration diagram of a document classification apparatus for explaining the second embodiment.

【0083】図1と同じ構成には、同じ参照番号を付している。 [0083] in the same configuration as FIG. 1 are designated by the same reference numbers.

【0084】分類代表ベクトル生成情報記憶部201では、分類代表ベクトル生成部104で分類代表ベクトルを生成する際に利用した情報、例えば分類代表ベクトル生成に使用した規則、ユーザが指定した文書と単語に関する情報等と、分類代表ベクトル自体を記憶する。 [0084] Classification representative vector generation information storage unit 201, information used in generating the classification representative vector classification representative vector generation section 104, for example, rules used for classifying the representative vector generation relates to a document and words designated by the user and information, etc., and stores a classification representative vector itself.

【0085】分類代表ベクトル生成情報読み込み部20 [0085] classification representative vector generation information reading section 20
2では、分類代表ベクトル生成部104にて分類代表ベクトルを生成する際に、分類代表ベクトル生成情報記憶部201にて記憶した情報を読み込む。 In 2, when generating a classification representative vector in classification representative vector generating unit 104 reads the information stored in the classification representative vector generation information storage unit 201.

【0086】精錬化除外ベクトル情報記憶部203では、精錬化除外ベクトル指定部105にて用いられた除外分類代表ベクトルに関する情報を記憶する。 [0086] In refining of exclusion vector information storage unit 203 stores information about the negative classification representative vector used in the refining of exclusion vector specifying unit 105.

【0087】精錬化除外ベクトル情報読み込み部204 [0087] refining of exclusion vector information reading section 204
では、精錬化除外ベクトル指定部105にて除外分類代表ベクトルを指定する際に、精錬化除外ベクトル情報記憶部203にて記憶された除外分類代表ベクトルに関する情報を読み込むする。 So to read when specifying an exclusion classification representative vector in the refining of exclusion vector specifying unit 105, the information about the negative classification representative vectors stored in the refining of exclusion vector information storage unit 203.

【0088】この構成により、簡便に、様々に設定を変えて、分類代表ベクトルを生成したり、精錬化除外分類代表ベクトルを変化させて、分類結果を得ることが可能となる。 [0088] With this configuration, simply by changing the various settings, and generate a classification representative vectors, by changing the refining of exclusion classification representative vector, it is possible to obtain a classification result.

【0089】次に、図5に示した3つの分類代表特徴ベクトルの内、分類代表ベクトル1と分類代表ベクトル2 [0089] Next, among the three categories representative feature vectors shown in FIG. 5, the classification representative vector 1 and classified representative vector 2
を精錬化除外ベクトルして文書を分類した後に、引き続いて、図5に示した3つの分類代表特徴ベクトルの全てについて精錬化処理した場合について説明する。 The after classifying documents by refining of exclusion vector, subsequently, will be described when treated refining of all three categories representative feature vectors shown in FIG.

【0090】まず、分類代表ベクトル生成部104にて、生成された分類代表ベクトルの値を記憶する。 [0090] First, in the classification representative vector generation unit 104, stores the value of the generated classification representative vectors. この際、記憶の方式は問わない。 In this case, the method of storage does not matter. また、精錬化除外ベクトル指定部にて、分類代表ベクトル1と分類代表ベクトル2 Further, in the refining of exclusion vector specifying unit, classification representative vector 1 and classified representative vector 2
が精錬化除外ベクトルとして指定された旨の情報も記憶する。 There is also stored information that has been designated as the refining of exclusion vector.

【0091】そして、この設定で文書分類を実行することにより図7に示す分類結果を得る。 [0091] Then, to obtain a classification result shown in FIG. 7 by executing the document classification in this setting.

【0092】次に、再び同一の文書データに対し、同様の処理を行う。 [0092] Then, for the same document data again, it performs the same processing. この際、文書口調ベクトルや単語特徴ベクトルを適切な型式で記憶しておき、それらを再処理の場合に読み込むことにより特異値分解の再実行をバイパスすることもできる。 At this time, stores the document tone vector and word feature vectors with appropriate models can also be bypassed rerun singular value decomposition by loading in the case of reprocessing them.

【0093】分類代表ベクトル生成部104では、事前に記憶された分類代表ベクトルの値を読み込む。 [0093] Classification representative The vector generation unit 104, reads the value of the classification representative vectors stored in advance. また、 Also,
精錬化除外ベクトル指定部105では、精錬化除外ベクトルに関する情報を読み込み、本例ではすべての分類代表ベクトルについて精錬化処理を行う設定に変更する。 In refining of exclusion vector specifying unit 105 reads the information about the refining of exclusion vector, in the present embodiment changes the setting for performing the refining process for all the classification representative vectors.

【0094】そして、この設定で文書分類を実行した場合の、分類代表ベクトルの値を図9に、分類結果を図1 [0094] Then, when executing the document classification in this setting, the value of the classification representative vector 9, FIG. 1 classification results
0に示す。 0 to show.

【0095】このように、分類代表ベクトル生成情報記憶部201、分類代表ベクトル生成情報読み込み部20 [0095] Thus, classify representative vector generation information storage unit 201, classification representative vector generation information reading unit 20
2、精錬化除外ベクトル情報記憶部203及び精錬化除外ベクトル情報読み込み部204を追加することにより、さまざまな分類結果を簡便に得ることが可能となる。 2, by adding a refining of exclusion vector information storage unit 203 and refining of exclusion vector information reading unit 204, it becomes possible to obtain various classification results conveniently. (第3の実施の形態)図11は、第3の実施の形態を説明するための文書分類装置の構成図である。 (Third Embodiment) FIG. 11 is a configuration diagram of a document classification apparatus for explaining the third embodiment. 図1及び図2と同じ構成には、同じ参照番号を付している。 The same components as in FIGS. 1 and 2 are denoted by the same reference numbers.

【0096】分類代表ベクトル指定生成部301では、 [0096] In the classification representative vector designation generating unit 301,
指定された情報プリミティブの論理式を、情報プリミティブの論理積だけで構成されるプリミティブ論理積の論理和結合に展開する。 The logical expression of the specified information primitives, to expand the logical sum binding constituted primitive logical product only logical information primitives.

【0097】例えば、A、B、C、D、E、Fのそれぞれを情報プリミティブとして、これらの論理式:((A [0097] For example, A, B, C, D, E, each F as information primitive these formulas: ((A
*B)+(C*D)+E)*Fが与えられた場合、この論理式を(A*B*F)+(C*D*F)+(E*F) * B) + (C * D) + E) * If F is given, the logic equation (A * B * F) + (C * D * F) + (E * F)
のように展開する。 It is expanded as.

【0098】ここで、*は論理積を、+は論理和をそれぞれ示す。 [0098] In this case, * is the logical product, + denotes a logical sum.

【0099】そして、これらのプリミティブ論理積のそれぞれから分類代表ベクトルを生成する。 [0099] Then, generating a classification representative vectors from each of these primitives logical product. ここでは、プリミティブ論理積から分類代表ベクトルを生成する手法は、問わない。 Here, a method of generating a classification representative vectors from primitive conjunct, No preference. しかしながら、生成された分類代表ベクトルは文書特徴ベクトルと同一の次元数を持たなければならない。 However, classification representative vectors generated must have a number of identical document feature vector dimension.

【0100】また、プリミティブ論理積を構成する情報プリミティブのそれぞれが、文書特徴ベクトルと同一の次元数を持つベクトルで表現可能な場合、それらの算術平均により分類代表ベクトルを生成してもよい。 [0100] Further, each of the information primitives that constitute the primitive logical product, if that can be expressed by a vector having the same number of dimensions and document feature vector may generate a classification representative vectors by their arithmetic mean. すなわち、上記A、B、C、D、E、Fの情報プリミティブを表現するベクトルがVa、Vb、Vc、Vd、Ve、V That is, the A, B, C, D, E, is the vector representing the information primitives F Va, Vb, Vc, Vd, Ve, V
fで与えられている場合、生成される分類代表ベクトルは、(Va+Vb+Vf/3、(Vc+Vd+Vf)/ If given in f, classification representative vectors to be generated, (Va + Vb + Vf / 3, (Vc + Vd + Vf) /
3、(ve+Vf)/2となる。 3, the (ve + Vf) / 2.

【0101】また、情報プリミティブとして文書と文書に含まれる単語を用いることができる。 [0102] Further, it is possible to use the words contained in the document and the document as information primitives. すなわち、前述の各情報プリミティブを表現するベクトルVa、Vb、 In other words, the vector Va, Vb representing each information primitives described above,
Vc、Vd、Ve、Vfとして、図3と図4に示すような文書特徴ベクトルと単語特徴ベクトルを用いることができる。 Vc, Vd, Ve, as Vf, it is possible to use a document feature vector and word feature vectors as shown in Figure 3 and Figure 4.

【0102】さらに、情報プリミティブの論理式をユーザが指定することもできる。 [0102] Further, a logical expression of the information primitives user can also specify. ただし、ここでは具体的な指定方法は問わない。 However, does not matter here is specific designation method.

【0103】分類代表ベクトル情報記憶部302では、 [0103] Classification representative vector information storage unit 302,
分類代表ベクトル指定生成部301で用いた指定された論理式と生成された文書代表ベクトルに関する情報を適切な型式で記憶する。 Stores information about a document representative vectors generated as specified logical expression used in classification representative vector specifying generator 301 at the appropriate type.

【0104】分類代表ベクトル自動生成部303では、 [0104] In the classification representative vector automatic generation unit 303,
いくつかの分類代表ベクトルを自動的に生成する。 Automatically generate some of the classification representative vectors.

【0105】自動生成方法としては、例えば、 文書特徴ベクトルから、等間隔で選択する、 文書特徴ベクトルから、ランダムに選択する、 文書特徴ベクトルの先頭から選択する、 等の一定の規則に基づき幾つかの文書特徴ベクトルを選択し、それらの文書特徴ベクトルを分類代表ベクトルとする。 [0105] As an automatic generation method, for example, from the document feature vector is selected at regular intervals, from the document feature vector, randomly selected, to select from the beginning of the document feature vector, based on certain rules like some document feature vector are selected and the classification representative vectors those documents feature vectors.

【0106】ただし、生成される文書代表ベクトルは文書特徴ベクトルと同一の次元数を持たなければならない。 [0106] However, the document representative vector generated must have a number of identical document feature vector dimension.

【0107】文書分類部304では、生成した分類代表ベクトルと文書特徴ベクトルを用いて文書分類を行う。 [0107] In the document classification unit 304 performs document classification using the generated classification representative vector and the document feature vector.

【0108】ここでは、具体的な手法は問わないが非階層クラスタリング手法のk−means法、forgy [0108] Here, the specific method is not limited, but the k-means method of non-hierarchical clustering technique, forgy
法などを用いることができる。 Or the like can be used law.

【0109】分類結果保存部305では、生成した文書分類結果を適切な型式で保存する。 [0109] Classification The result storage unit 305 stores the generated document classification result in appropriate format. 分類代表ベクトル情報読み込み部306では、分類代表ベクトル情報記億部302にて、それ以前に、記憶した分類代表ベクトル指定生成部301で用いた論理式と生成された文書代表ベクトルに関する情報を読み込む。 Classification representative vector information reading section 306, in the classification representative vector information recording billion parts 302, it previously read information on the document representative vectors generated with the logical expression used in the stored classification representative vector designated generation unit 301. この読み込んだ情報を参考にして、分類代表ベクトル指定生成部301で、新たに、分類代表特徴ベクトルを指定する。 The information read with reference, by classification representative vector designated generation unit 301 newly specifies a classification representative feature vector.

【0110】これにより、事前に指定した様々な論理式等を参照して、新たな論理式を作成することができる。 [0110] Thus, with reference to the pre-variety specified in the logical expression or the like, it is possible to create a new logical expression.

【0111】例として、図2に示す文書集合が与えられており、文書特徴ベクトル、単語特徴ベクトルが図3と図4で与えられている場合、ユーザが2つの文書と単語で構成される論理式と1つの文書集合の自動生成を指定した時の文書分類について説明する。 [0111] As an example, is given a set of documents shown in FIG. 2, the document feature vector, if the word feature vector is given in Figure 3 and Figure 4, logical user is composed of two documents and words document classification will be described when the specified automatic generation of equations and one document set.

【0112】まず、ユーザが“word1*word [0112] First, the user is "word1 * word
3”と“(doc2+doc12)*word5”の論理式を指定したとすると、分類代表ベクトル1としてw 3 "and" (doc2 + doc12) * word5, with a value of logical expression ", w as the classification representative vector 1
ord1*word3、分類代表ベクトル2としてdo ord1 * word3, do as the classification representative vector 2
c2*word5、分類代表ベクトル3として、doc c2 * word5, as the classification representative vector 3, doc
12*word5、分類代表ベクトル4として自動的に(ランダムに)文書が選択され、doc17が選択されたものとする。 12 * word5, automatically (randomly) document as classification representative vector 4 is selected, it is assumed that doc17 is selected.

【0113】この場合、論理積プリミティブは、各情報プリミティブを表現するベクトルの算術平均をとることにすると、分類代表ベクトル1は(word1の単語特徴ベクトル+word3の単語特徴ベクトル)/2、分類代表ベクトル2は(word5の単語特徴ベクトル+ [0113] In this case, the logical product primitives, when to take the arithmetic average of the vector representing each information primitive classification representative vector 1 (word feature vectors of a word feature vector + word3 of word1) / 2, classification representative vectors 2 (word5 of the word feature vector +
doc2の文書特徴ベクトル)/2、分類代表ベクトル3は(word5の単語特徴ベクトル+doc12の文書特徴ベクトル)/2、分類代表ベクトル4は(doc Document feature vector) / 2 of doc2, classification representative vectors 3 (document feature vectors of a word feature vector + Doc12 of Word5) / 2, classification representative vector 4 (doc
17の文書特徴ベクトル)となり、この結果を図13に示す。 17 document feature vector) next, The results are shown in Figure 13. ユーザ指定による分類代表ベクトルは、精錬化除外ベクトルとし、余弦測度を用いたk−means法を用いて文書分類を行った結果を、図13に示す。 Classification representative vector designated by the user is to the refining of exclusion vector, the results of documents classified using k-means method using the cosine measure, shown in Figure 13. (文書分類方法)次に、文書の分類方法について説明する。 (Document classification method) will be described how to classify documents.

【0114】図1、図8及び図11は、上述のとおり、 [0114] FIGS. 1, 8 and 11, as described above,
文書分類装置の構成図であるが、図1、図8及び図11 Is a block diagram of a document classification apparatus, FIGS. 1, 8 and 11
には、文書分類装置に関する処理の内容が記述されている。 The contents of the processing related to the document classification apparatus is described. 従って、図1、図8及び図11に記載された各部の処理を、初期の目的を達成するように、時系列的に行うことにより、文書の分類方法を示すことができる。 Thus, Figure 1, the process of each section described in FIGS. 8 and 11, so as to achieve the intended purpose, by performing time-series manner, it is possible to indicate the classification of documents. 例えば、図1において、文書入力部101で処理を行い、次いで文書解析部102で処理を行い、その後、順次、文書特徴ベクトル生成部103の処理、分類代表ベクトル生成部104の処理、精錬化除外ベクトル指定部105 For example, in FIG. 1, performs processing by the document input unit 101, then performs processing with the document analysis unit 102, then, successively, the processing of the document feature vector generation unit 103, the processing of classification representative vector generation unit 104, refining of exclusion vector specifying unit 105
の処理、文書データ割り当て部106の処理、分類代表ベクトル精錬化部107の処理、分類結果保存部108 Processing, processing of the document data allocation unit 106, the processing of classification representative vector refinement unit 107, the classification result storing unit 108
の処理を行うことにより、文書の分類方法を示すことができる。 By performing the process, it is possible to indicate the classification of documents.

【0115】従って、文書の分類方法については、図1、図8及び図11に記載された各部の処理の流れが理解できれば、文書の分類方法を理解することができる。 [0115] Thus, for the classification of documents, Fig. 1, if understanding the flow of processing of the respective units described in FIGS. 8 and 11, it is possible to understand how to classify documents.

【0116】そこで、図1、図8及び図11に記載された各部の処理の流れを以下に説明する。 [0116] Therefore, a description Figure 1, the flow of processing of the respective units described in FIGS. 8 and 11 below. (各構成部の処理の流れ)図1における文書入力部10 Document input unit 10 in FIG. 1 (the flow of the processing of each component)
1、文書解析部102、文書特徴ベクトル生成部10 1, the document analysis unit 102, the document feature vector generation unit 10
3、分類代表ベクトル生成部104、精錬化除外ベクトル指定部105、文書データ割り当て部106、分類代表ベクトル精錬化部107、分類結果保存部108処理の流れを、図14〜図21を用いて説明する。 3, classification representative vector generation unit 104, the refining of exclusion vector specifying unit 105, the document data allocation unit 106, classification representative vector refinement unit 107, the flow of the classification result storing unit 108 processes, with reference to FIGS. 14 to 21 described to. ・文書入力部101の処理について 図14を用いて説明する。 And processing the document input unit 101 is described with reference to FIG. 14.

【0117】対象文書について、対象IDを付与する。 [0117] for the target document, to give the object ID.
これを全ての対象文書について行う。 This is performed for all of the target document. ・文書解析部102の処理について 図15を用いて説明する。 And processing the document analysis unit 102 will be described with reference to FIGS.

【0118】対象文書から、単語情報(単語表記、品詞)を抽出する。 [0118] from the target document, to extract the word information (word notation, part of speech).

【0119】次いで、抽出した単語が、初めて抽出された単語であれば、単語情報を独立単語情報として登録し、この登録された独立単語情報にIDを付与する。 [0119] Then, the extracted words, if the word was first extracted, to register the word information as an independent word information, to give an ID to the registered independent word information. しかし、抽出した単語が、既に抽出された単語であれば、 However, the extracted words, if the words that have already been extracted,
対応する独立単語情報を抽出する。 To extract an independent word information corresponding. また、単語情報のうち独立単語情報への参照で置き換え可能なものは置き換える。 In addition, those that can be replaced by a reference to the independent word information of the word information is replaced.

【0120】これを全ての抽出された単語情報について行った後に、これを全ての対象文書について行う。 [0120] After that was done this in all of the extracted word information, do this for all of the target document. ・文書特徴ベクトル生成部103の処理について 図16を用いて説明する。 - processing of the document feature vector generating unit 103 will be described with reference to FIG. 16 for.

【0121】文書内での全独立単語の生起頻度を計数し、文書特徴ベクトルとする。 [0121] counting the occurrence frequency of all independent word in the document, and the document feature vector. これを全ての対象文書について行う。 This is performed for all of the target document.

【0122】次に、文書特徴ベクトルについて、正規化を行う場合であれば、文書特徴ベクトルを正規化する。 [0122] Next, the document feature vector, in the case of performing normalization normalizes the document feature vector.
これを全ての文書特徴ベクトルについて行う。 This is performed for all document feature vector.

【0123】さらに、線形変換を行う場合であれば、文書特徴ベクトルに線形変換行列を作用させる。 [0123] Further, in the case of performing linear transformation, the action of the linear transformation matrix to the document feature vector. これを全ての文書特徴ベクトルについて行う。 This is performed for all document feature vector. ・分類代表ベクトル生成部104の処理について 図17を用いて説明する。 - the processing of classification representative vector generation section 104 will be described with reference to FIG. 17.

【0124】全ての文書代表ベクトルが生成されるまで、順次、文書代表ベクトルを生成する。 [0124] until all of the document representative vectors are generated, sequentially, to produce a document representative vector.

【0125】なお、文書代表ベクトルをユーザが指定する処理を、上記処理に前置してもよい。 [0125] Incidentally, the process for the user to specify document representative vector may be prepended to the process. なお、ユーザが、文書データと文書データに存在する単語の論理式で指定した場合は、ユーザによって生成された文書IDと単語IDの論理式を獲得上で、上記処理(文書代表ベクトル生成処理)を行う。 The user is, if you specify a logical expression of words present in the document data and the document data on the acquired logical expression of the document ID and the word ID generated by the user, the processing (document representative vector generation processing) I do. ・精錬化除外ベクトル指定部105の処理について 図18を用いて説明する。 - the processing of refining of exclusion vector specifying unit 105 will be described with reference to FIG. 18.

【0126】先ず、精錬化除外情報を生成する。 [0126] First of all, to generate the refining of exclusion information.

【0127】次いで、精錬化を除外する情報が与えられている場合は、精錬化を行うフラグを降ろす。 [0127] Then, if the excluded information refining reduction is given, down the flag for performing refining of. また、精錬化を除外する情報が与えられていない場合は、精錬化を行うフラグを立てる。 Also, if the excluded information refining of is not provided, a flag for performing refining of.

【0128】これを全ての対象文書について行う。 [0128] do this for all of the target document.

【0129】なお、ユーザが指定した文書代表ベクトルについては、精錬化除外ベクトルとして扱つかう処理とし、ユーザが指定した文書代表ベクトルについて精錬化除外する情報を付与する処理を、上記処理に前置してもよい。 [0129] Note that the document representative vector designated by a user, a process that use treated as refining of exclusion vector, a treatment for imparting refining of excluded information about the document representative vector designated by the user, and prepended to the process it may be. ・文書データ割り当て部106の処理について 図19を用いて説明する。 And processing the document data allocation unit 106 will be described with reference to FIG. 19 for.

【0130】全ての文書代表ベクトルとの類似度を算出し、類似度の一番高い文書代表ベクトルに文書特徴ベクトルを割り当てる。 [0130] calculating a similarity between all documents representative vectors, assigning a document feature vector to the highest document representative vector similarity.

【0131】これを全ての文書特徴ベクトルについて行う。 [0131] performed for all of the document feature vector this.

【0132】これにより、文書が分類される。 [0132] As a result, the document is classified. ・分類代表ベクトル精錬化部107の処理について 図20を用いて説明する。 And classification processing of the representative vector refinement unit 107 will be described with reference to FIG. 20.

【0133】精錬化停止基準を満たすまで、次の処理を繰り返す。 [0133] Until satisfy refining of stopping criterion and repeats the following process.

【0134】文書代表ベクトルについて、精錬化を行うフラグが立っている場合は、分類代表ベクトルに所属する文書特徴ベクトルをもとに分類代表ベクトルを再計算する。 [0134] The document representative vector, if the flag to perform the refining of is standing is, to re-calculate the classification representative vector on the basis of the document feature vectors that belong to the classification representative vector.

【0135】これを全ての文書代表ベクトルについて行う。 [0135] performed for all of the document representative vectors this.

【0136】その後、図19の処理を行う。 [0136] Thereafter, the processing of FIG. 19. ・分類結果保存部108の処理について 図21を用いて説明する。 - the processing of the classified result storing unit 108 will be described with reference to FIG. 21.

【0137】文書代表ベクトルについて、所属している文書特徴ベクトルに関する情報を保存する。 [0137] The document representative vector, to store information about the document feature vector belongs. これを全ての文書代表ベクトルについて行う。 This is performed for all of the document representative vectors.

【0138】図8における分類代表ベクトル生成情報記憶部201、分類代表ベクトル生成情報読み込み部20 [0138] Classification of 8 representative vector generation information storage unit 201, classification representative vector generation information reading unit 20
2、精錬化除外ベクトル情報記憶部203及び精錬化除外ベクトル情報読み込み部204は、ベクトルを記憶又は読み出しを行うものであり、記憶又は読み出し自体は、一般的な記憶又は読み出し処理と格別の相違はないので説明を省略する。 2, refining of exclusion vector information storage unit 203 and refining of exclusion vector information reading unit 204, which performs storage or reads the vector, storage or reading itself, the general storage or read-out processing and particular differences since there is no description thereof will be omitted.

【0139】また、文書入力部101、文書解析部10 [0139] In addition, the document input unit 101, the document analysis unit 10
2、文書特徴ベクトル生成部103、分類代表ベクトル生成部104、精錬化除外ベクトル指定部105、文書データ割り当て部106、分類代表ベクトル精錬化部1 2, the document feature vector generating unit 103, classification representative vector generation unit 104, the refining of exclusion vector specifying unit 105, the document data allocation unit 106, classification representative vector refinement unit 1
07、分類結果保存部108の処理の流れについては、 07, for the flow of the processing of the classified result storing unit 108,
上記説明と重複するので説明を省略する。 The description thereof is omitted because it overlaps with the above description.

【0140】図11における分類代表ベクトル指定生成部301、分類代表ベクトル情報記憶部302、分類代表ベクトル自動生成部303、文書分類部304及び類結果保存部305における処理の流れを、図22〜図2 [0140] Classification representative of 11 vector designated generation unit 301, the classification representative vector information storage unit 302, classification representative vector automatic generation unit 303, a processing flow in the document classification unit 304 and the class result storage unit 305, FIGS. 22 2
6を用いて説明する。 It will be described with reference to the 6. また、文書入力部101、文書解析部102及び文書特徴ベクトル生成部103の処理の流れについては、図1の説明と重複するので、説明を省略する。 The document input unit 101, the flow of processing of the document analysis unit 102 and the document feature vector generation unit 103, since the overlap with the description of FIG. 1, the description thereof is omitted. ・分類代表ベクトル指定生成部301の処理について 図22を用いて説明する。 - the processing of classification representative vector designated generation unit 301 will be described with reference to FIG. 22.

【0141】先ず、指定された情報プリミティブの論理式を獲得し、各論理式にIDを付与する。 [0141] First of all, won a logical expression of the specified information primitive, to give an ID to each logical expression.

【0142】次いで、獲得した情報プリミティブ論理式について、結合律、交換律、べき等律、吸収律により論理式を論理積だけで構成される要素の論理和に展開する。 [0142] Subsequently, the acquired information primitive logical expression, binding law, exchange law, Bekitoritsu develops a formula by absorption law to the logical sum of the just constructed elements logical product.

【0143】次いで、論理積だけで構成される要素について、論理積を構成する各情報プリミティブの情報をもとに文書代表ベクトルを生成する。 [0143] Next, the elements composed of only logical, generates a document representative vector based on the information of each information primitives that constitute the logical product.

【0144】このとき、生成した文書代表ベクトルが事前に生成された文書代表ベクトルと一致する場合は、事前に生成された文書代表ベクトルのIDを獲得する。 [0144] In this case, if the generated document representative vector matches the document representative vectors generated in advance, to obtain the ID of the document representative vectors generated in advance. しかし、生成した文書代表ベクトルが事前に生成された文書代表ベクトルと一致しない場合は、生成された文書代表ベクトルにIDを付与する。 However, if the generated document representative vector does not match the document representative vectors generated in advance, it imparts an ID to the generated document representative vectors.

【0145】そして、文書代表ベクトルのIDをスタックする。 [0145] Then, stack the ID of the document representative vector.

【0146】これを全ての獲得した情報プリミティブ論理式について行う。 [0146] do about this all of the acquired information primitive logical expression. ・分類代表ベクトル情報記憶部302の処理について 図23を用いて説明する。 - the processing of classification representative vector information storage unit 302 will be described with reference to FIG. 23.

【0147】先ず、情報プリミティブの論理式について、論理式に付与されたIDを記憶する。 [0147] First, the logical expression of the information primitives, storing the ID assigned to the logical expression. 次いで、スタックされている文書代表ベクトルのIDを記憶する。 Then stores the ID of the document representative vectors are stacked.

【0148】これを全ての情報プリミティブの論理式について行う。 [0148] do this for the logical expression of all of the information primitive. ・分類代表ベクトル自動生成部303の処理について 図24を用いて説明する。 - the processing of classification representative vector automatic generation unit 303 will be described with reference to FIG. 24.

【0149】先ず、文書特徴ベクトルに関する情報を取得する。 [0149] First, to obtain information about the document feature vector.

【0150】全ての文書代表ベクトルを生成するまで、 [0150] to produce all of the documents representative vectors,
文書代表ベクトルを生成し、その文書代表ベクトルに文書代表ベクトルIDを付与する。 Generating a document representative vectors, confer document representative vector ID to the document representative vector. ・文書分類部304の処理について 図25を用いて説明する。 And processing the document classification unit 304 will be described with reference to FIG. 25 for.

【0151】文書特徴ベクトルについて、全ての文書代表ベクトルとの類似度を算出する。 [0151] The document feature vectors, calculates the similarity between all documents representative vectors. 類似度の一番高い文書代表ベクトルに文書特徴ベクトルを割り当てる。 Assign document feature vector to the highest document representative vector similarity.

【0152】これを全ての文書特徴ベクトルについて行う。 [0152] performed for all of the document feature vector this.

【0153】次いで、精錬化停止基準を満たすまで、次の処理を繰り返す。 [0153] Then, until they meet the refining of stopping criterion and repeats the following process.

【0154】文書代表ベクトルに所属する文書特徴ベクトルをもとに分類代表ベクトルを再計算し、図19の処理を行う。 [0154] The document feature vectors that belong to the document representative vector to re-calculate the classification representative vector on the basis of, performs the processing of FIG. 19.

【0155】これを全ての文書特徴ベクトルについて行う。 [0155] performed for all of the document feature vector this. ・類結果保存部305の処理について 図26を用いて説明する。 It will be described with reference to FIG. 26 for processing, such result storage unit 305.

【0156】先ず、文書代表ベクトル情報記憶部に記憶されている情報を読み込む。 [0156] First, reads information stored in the document representative vector information storage unit.

【0157】次いで、情報プリミティブ論理式について、文書分類識別子を保存する。 [0157] Next, the information primitive logical expressions, save the document classification identifier. 次いで、全ての文書代表ベクトルについて、文書代表ベクトルのIDがスタックされていた文書代表ベクトルのIDであれば、文書代表ベクトルに所属する文書特徴ベクトルに関する情報を保存する。 Then, for all documents representative vectors, ID documents representative vector if the ID of the document representative vector which has been stacked, stores the information about the document feature vectors belonging to the document representative vector.

【0158】これを全ての情報プリミティブ論理式について行う。 [0158] do this for all of the information primitive logical expression.

【0159】さらに、文書代表ベクトルについて、どの情報プリミティブ論理式にもスタックされていない場合は、文書識別子を保存し、文書代表ベクトルに所属する文書特徴ベクトルに関する情報を保存する。 [0159] In addition, the document representative vector, if any information is also in the primitive logical expression is not stored on the stack, and save the document identifier, to store information about the document feature vectors that belong to the document representative vector.

【0160】なお、図27及び図28に、分類代表ベクトル指定生成部301の他の処理の流れの例を示す。 [0160] Incidentally, in FIGS. 27 and 28 show examples of other process flow classification representative vector designated generation unit 301.

【0161】 [0161]

【発明の効果】上述の如く本発明によれば、次に述べる種々の効果を奏することができる。 Effects of the Invention According to the present invention as described above, it is possible to achieve the various effects described below. 請求項1に記載の発明では、一部又は全部の初期分類代表特徴ベクトルに対し、精錬化処理をバイパスすることにより、前記一部又は全部の初期分類代表ベクトルに関しては、それらが表現する観点を明確に示すような分類結果を得ることができる。 In the invention described in claim 1, part or of the initial classification representative feature vectors of all, by bypassing the refining process, for the initial classification representative vectors of said part or all, aspects they represent it is possible to obtain a classification result as clearly shown.

【0162】請求項2に記載の発明では、幾つかの指定される初期分類代表特徴ベクトルに対し、精錬化処理をバイパスすることにより、指定された初期分類代表ベクトルに関しては、それらが表現する観点を明確に示すような分類結果を得ることができる。 [0162] In the invention described in claim 2, of the initial classification representative feature vectors are several designated by bypassing the refining process, with respect to the specified initial classification representative vector, they express the viewpoint it is possible to obtain a classification result as clearly indicates.

【0163】請求項3に記載の発明では、請求項2に記載の文書分類装置の特徴に加え、精錬化処理をバイパスする初期分類代表ベクトルをユーザが指定することにより、ユーザの分類意図を反映した分類結果を得ることができる。 [0163] In the invention described in claim 3, in addition to the features of the document classification apparatus according to claim 2, the user specifies the initial classification representative vectors bypasses the refining process, reflecting the classification intention of the user it can be obtained with the classification result.

【0164】請求項4に記載の発明では、請求項3に記載の文書分類装置の特徴に加え、ユーザが指定した分類代表特徴ベクトルについては、精錬化処理を行わないことにより、ユーザの分類意図を強制的に保持した分類結果を得ることができる。 [0164] In the invention described in claim 4, in addition to the features of the document classification apparatus according to claim 3, for the classification representative feature vector designated by the user, by not performing the refining process, classification user intent it can be obtained forcibly held classification results.

【0165】請求項5に記載の発明では、請求項4に記載の文書分類装置の特徴に加え、ユーザが指定する文書と文書内に含まれる単語の論理式から初期分類代表特徴ベクトルを生成することにより、ユーザが分類意図を容易に記述できる文書分類装置を実現することができる。 [0165] In the invention described in claim 5, in addition to the features of the document classification apparatus according to claim 4, to produce an initial classification representative feature vector from the logical expression of words contained in the document and the document designated by the user it is thus possible to realize a document classification apparatus that the user can easily describe classification intent.

【0166】請求項6に記載の発明では、請求項5に記載の文書分類装置の特徴に加え、指定された初期分類代表特徴ベクトルと精錬化処理を行わない分類代表特徴ベクトルを記憶し、その情報を後で読み出す仕組みを提供することにより、事前に行われた文書分類の設定に多少修正を加えて新たな分類結果を獲得したり、分類対象文書集合が変化した場合に対しても同一の設定での分類結果を得ることができる。 [0166] In the invention described in claim 6, in addition to the features of the document classification apparatus according to claim 5, stores the classification representative feature vector is not performed refining process and the given initial classification representative feature vector, the by providing a mechanism for reading information later, with a few modifications to the set of pre-made document classification gain new classification result or the same even for the case where classification target document set has changed it is possible to obtain the classification result at the set.

【0167】請求項7に記載の発明では、指定された情報プリミティブの論理式を論理和式に展開し、その論理和式を構成する情報プリミティブの論理積それぞれから初期分類代表ベクトルを生成することにより、記述された論理式の意味に適した文書分類結果を生成することができる。 [0167] In the invention described in claim 7, expand logical expression of the specified information primitive logic squat, generating an initial classification representative vectors from logical respective information primitives that make up the logical squat Accordingly, it is possible to produce a document classification result suitable for the meaning of the described formulas.

【0168】請求項8に記載の発明では、請求項7に記載の文書分類装置の特徴に加え、事前に記憶されている情報プリミティブの論理式と生成される文書代表ベクトルに関する情報を再利用することにより、異なる文書集合に対しても同一の分類基準で文書分類を行うことのできる文書分類装置を実現することができる。 [0168] In the invention according to claim 8, in addition to the features of the document classification apparatus according to claim 7, reuse information about the document representative vectors generated with the logical expression information primitives stored in advance it is thus possible to realize a document classification apparatus capable of performing document classification in the same classification criteria are for different document sets.

【0169】請求項9に記載の発明では、請求項8に記載の文書分類装置の特徴に加え、生成される情報プリミティブの論理積において、それを構成する各情報プリミティブを適切に表現する特徴ベクトルの算術平均から文書代表ベクトルを生成することにより、論理積を適切に数量化することが可能となり、これにより論理式の意味に適した文書分類結果を生成することができる。 [0169] In the invention described in claim 9, in addition to the features of the document classification apparatus according to claim 8, in conjunction of information primitives to be generated, feature vector appropriate to represent each information primitives that constitute the by generating a document representative vectors from the arithmetic mean, it is possible to adequately quantify the logical product, thereby generating a document classification result suitable for the meaning of the logical expression.

【0170】請求項10に記載の発明では、請求項9に記載の文書分類装置の特徴に加え、情報プリミティブとして文書及び文書内に含まれる単語を用いることにより、簡便に論理式を生成できる文書分類装置を実現することができる。 [0170] In the invention described in claim 10, in addition to the features of the document classification apparatus according to claim 9, by using a word included in the document and the document as information primitive documents that can generate easily formulas it is possible to realize a classifier.

【0171】請求項11に記載の発明では、請求項10 [0171] In the invention described in claim 11, claim 10
に記載の文書分類装置の特徴に加え、ユーザが論理式を指定できることにより、ユーザの意図を明確にした文書分類結果を生成することができる。 In addition to the features of the document classification apparatus according to, by the user can specify a formula, it is possible to produce a document classification result with clear intention of the user.

【0172】請求項12〜請求項22記載の文書分類方法により、請求項1〜請求項11記載の文書分類装置に適した文書分類方法を提供することができる。 [0172] The document classification method according to claim 12 according to claim 22, it is possible to provide a document classification method suitable for document classification apparatus according to claim 1 to claim 11, wherein.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】第1の実施の形態を説明するための文書分類装置の構成図である。 1 is a configuration diagram of a document classification apparatus for explaining the first embodiment.

【図2】文書-単語頻度行列を説明するための図である。 [2] Article - is a view for explaining the word frequency matrix.

【図3】文書特徴ベクトルを説明するための図である。 3 is a diagram for explaining the document feature vector.

【図4】単語特徴ベクトルを説明するための図である。 4 is a diagram for explaining the word feature vectors.

【図5】初期文書代表特徴ベクトルを説明するための図(その1)である。 5 is an initial document representative feature vectors for describing the view (part 1).

【図6】精錬化後の文書代表特徴ベクトルを説明するための図(その1)である。 6 is a diagram for explaining a document representative feature vector after refining of (Part 1).

【図7】分類結果を説明するための図(その1)である。 7 is a diagram for explaining a classification result (Part 1).

【図8】第2の実施の形態を説明するための文書分類装置の構成図である。 8 is a configuration diagram of a document classification apparatus for explaining the second embodiment.

【図9】精錬化後の文書代表特徴ベクトルを説明するための図(その2)である。 9 is a diagram for explaining a document representative feature vector after refining of (Part 2).

【図10】分類結果を説明するための図(その2)である。 Figure 10 is a diagram for explaining a classification result; FIG.

【図11】第3の実施の形態を説明するための文書分類装置の構成図である。 11 is a configuration diagram of a document classification apparatus for explaining the third embodiment.

【図12】初期文書代表特徴ベクトルを説明するための図(その2)である。 [12] Initial document representative feature vectors for describing the FIG. (Part 2).

【図13】分類結果を説明するための図(その3)である。 13 is a diagram for explaining a classification result (Part 3).

【図14】文書入力部101の処理手順を説明するための図である。 14 is a diagram for describing a processing procedure of the document input unit 101.

【図15】文書解析部102の処理手順を説明するための図である。 15 is a diagram for describing a processing procedure of the document analysis unit 102.

【図16】文書特徴ベクトル生成部103の処理手順を説明するための図である。 16 is a diagram for describing a processing procedure of the document feature vector generation unit 103.

【図17】分類代表ベクトル生成部104の処理手順を説明するための図である。 17 is a diagram for explaining a procedure of classification representative vector generation unit 104.

【図18】精錬化除外ベクトル指定部105の処理手順を説明するための図である。 18 is a diagram for explaining a procedure of refining of exclusion vector specifying unit 105.

【図19】文書データ割り当て部106の処理手順を説明するための図である。 19 is a diagram for describing a processing procedure of the document data allocation unit 106.

【図20】分類代表ベクトル精錬化部107の処理手順を説明するための図である。 20 is a diagram for explaining a procedure of classification representative vector refinement unit 107.

【図21】分類結果保存部108の処理手順を説明するための図である。 21 is a diagram for explaining a procedure of classification result storage unit 108.

【図22】分類代表ベクトル指定生成部301の処理手順を説明するための図(その1)である。 [22] Classification representative vector diagram for explaining the processing procedure of the designated generation unit 301; FIG.

【図23】分類代表ベクトル情報記憶部302の処理手順を説明するための図である。 23 is a diagram for explaining a procedure of classification representative vector information storage unit 302.

【図24】分類代表ベクトル自動生成部303の処理手順を説明するための図である。 24 is a diagram for explaining a procedure of classification representative vector automatic generation unit 303.

【図25】文書分類部304の処理手順を説明するための図である。 25 is a diagram for describing a processing procedure of the document classification unit 304.

【図26】類結果保存部305の処理手順を説明するための図である。 26 is a diagram for describing a processing procedure of such result storage unit 305.

【図27】分類代表ベクトル指定生成部301の処理手順を説明するための図(その2)である。 [27] Classification representative vector diagram for the procedure is described for the specified generation unit 301; FIG.

【図28】分類代表ベクトル指定生成部301の処理手順を説明するための図(その3)である。 28 is a diagram for explaining a procedure of classification representative vector designated generation unit 301 (Part 3).

【符号の説明】 DESCRIPTION OF SYMBOLS

101 文書入力部 102 文書解析部 103 文書特徴ベクトル生成部 104 分類代表ベクトル生成部 105 精錬化除外ベクトル指定部 106 文書データ割り当て部 107 分類代表ベクトル精錬化部 108、305 分類結果保存部 201 分類代表ベクトル生成情報記憶部 202 分類代表ベクトル生成情報読み込み部 203 精錬化除外ベクトル情報記憶部 204 精錬化除外ベクトル情報読み込み部 301 分類代表ベクトル指定生成部 302 分類代表ベクトル情報記憶部 303 分類代表ベクトル自動生成部 304 文書分類部 101 document input unit 102 document analysis unit 103 document feature vector generating unit 104 classifies the representative vector generation unit 105 refining of exclusion vector specifying unit 106 the document data allocation unit 107 classifies the representative vector refinement unit 108,305 classified result storing unit 201 classifies the representative vector generation information storage unit 202 classifies the representative vector generation information reading unit 203 refining of exclusion vector information storage unit 204 refining of exclusion vector information reading section 301 classifies representative vector designated generation unit 302 classifies the representative vector information storage unit 303 classifies representative vector automatic generation unit 304 document classification unit

Claims (22)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 複数の初期分類代表特徴ベクトルを設定し、該分類代表特徴ベクトルと文書の特徴ベクトルとの類似性をもとに文書を分類する文書分類装置において、 分類精度向上のため動的に分類代表特徴ベクトルを変化させて、反復的に文書の割り当てを行う精錬化処理部を有し、 該精錬化処理部は、一部又は全部の前記分類代表特徴ベクトルについて、精錬化処理を行わないことを特徴とする文書分類装置。 [Claim 1] sets a plurality of initial classification representative feature vector, the document classification unit for classifying the document based on the similarity between the feature vectors of the classification representative feature vector and the document, the dynamic for classification accuracy classification by changing the representative feature vector, iteratively have a refining processing unit for assigning a document, the purified Neka processing unit, for the classification representative feature vectors of a part or the whole, perform the refining process document classification apparatus, characterized in that there is no.
  2. 【請求項2】 文書の内容にしたがって文書の分類を行う文書分類装置において、 文書データを入力する文書入力部と、 前記文書データの単語を解析する文書解析部と、 該文書解析部の文書解析結果に基づいて、文書に対する文書特徴ベクトルを算出する文書特徴ベクトル生成部と、 文書特徴ベクトルと同じ次元数を持つ分類代表ベクトルを生成する分類代表ベクトル生成部と、 精錬化処理を行わない分類代表ベクトルを指定する精錬化除外ベクトル指定部と、 前記文書特徴ベクトルと前記分類代表ベクトル間の類似度を基にして、文書データを分類代表ベクトルのいづれか一つに割り当てる文書データ割り当て部と、 前記精錬化除外ベクトル指定部にて指定された分類代表ベクトル以外の分類代表ベクトルについて、前記文書データ割 2. A document classification apparatus for classifying a document in accordance with the contents of the document, and the document input unit for inputting document data, a document analysis section for analyzing words of the document data, document analysis of the document analysis unit based on the results, classification representative is not performed and the document feature vector generating unit for calculating a document feature vector, and classifies the representative vector generation section for generating a classification representative vector having the same dimensionality as the document feature vector, the refining process for the document and refining of exclusion vector specifying unit that specifies a vector, said document feature vector and based on the similarity between the classification representative vector, document data allocation unit to be allocated to one any of classifying representative vector document data, the refining classification representative vectors other than the assigned category representative vector by reduction exclusion vector specifying unit, the document data split 当て部にて割り当てられた文書特徴ベクトルをもとに分類代表ベクトルを再計算し、特定の基準を満たすまで前記文書データ割り当てと分類代表ベクトルの再計算をくり返す分類代表ベクトル精錬化部と、 分類結果を保存する分類結果保存部と、を有することを特徴とする文書分類装置。 The document characteristic vector assigned by the abutting portion recalculates the classification representative vector on the basis of the classification representative vector refinement unit to repeat the re-calculation of the classification representative vector and the document data assigned to meet specific criteria, document classification apparatus comprising: the classification result storage unit for storing the classification result.
  3. 【請求項3】 請求項2に記載の文書分類装置において、 前記分類代表ベクトル生成部において、幾つかの分類代表ベクトルがユーザの指定する情報により生成されることを特徴とする文書分類装置。 3. A document classification apparatus according to claim 2, in the classification representative vector generation unit, document classification apparatus characterized by several classification representative vectors are generated by the information specified by the user.
  4. 【請求項4】 請求項3に記載の文書分類装置において、 前記精錬化除外ベクトル指定部において、前記分類代表ベクトル生成部にてユーザによって指定される情報により生成された分類代表ベクトルのみを精錬化を行わない分類代表ベクトルとすることを特徴とする文書分類装置。 In document classification apparatus according to claim 3, in the refining of exclusion vector specifying unit, refining the only classification representative vectors generated by the information specified by the user at the classified representative vector generation unit document classification apparatus characterized by a classification representative vectors is not performed.
  5. 【請求項5】 請求項4の文書分類装置において、 前記分類代表ベクトル生成部において、ユーザにより指定される情報が、文書データと文書データ内に存在する単語の論理式であることを特徴とする文書分類装置。 In document classification apparatus 5. The method of claim 4, in the classification representative vector generation unit, information designated by the user, characterized in that it is a logical expression of words that exist in the document data and the document data document classification apparatus.
  6. 【請求項6】 請求項5に記載の文書分類装置において、 前記分類代表ベクトル生成部において指定される分類代表ベクトルを生成するための情報を保存する分類代表ベクトル生成情報記憶部と、 前記分類代表ベクトル生成情報記憶部に記憶された情報を読み込む分類代表ベクトル生成情報読み込み部と、 前記分類代表ベクトル生成部において指定される精錬化処理をおこなわない分類代表ベクトルに関する情報を保存する精錬化除外ベクトル情報記憶部と、 前記精錬化除外ベクトル情報記憶部に記憶された情報を読み込む精錬化除外ベクトル情報読み込み部と、をさらに有することを特徴とする文書分類装置。 6. The document classification apparatus according to claim 5, the classification representative vector generation information storage unit that stores information for generating a classification representative vectors specified in the classification representative vector generation unit, the classification representative and classifying the representative vector generation information reading part for reading the information stored in the vector generation information storage unit, the refining of exclusion vector information to store information about the classification representative vectors is not performed refining process specified in the classification representative vector generation unit a storage unit, a document classification apparatus characterized by further having a refining of exclusion vector information reading part for reading the information stored in the refining of exclusion vector information storage unit.
  7. 【請求項7】 文書の内容にしたがって文書の分類を行う文書分類装置において、 文書データを入力する文書入力部と、 前記文書データの単語を解析する文書解析部と、 該文書解析部による文書分析結果から各文書に対する文書特徴ベクトルを算出する文書特徴ベクトル生成部と、 幾つかの分類代表ベクトルとして、指定される複数の情報プリミティブの論理式を、それぞれ要素が情報プリミティブの論理積である論理和による結合式に展開し、生成された情報プリミティブの論理積それぞれから文書特徴ベクトルと同じ次元数を持つ分類代表ベクトルを生成する分類代表ベクトル指定生成部と、 前記指定される論理式とそれから生成される分類代表ベクトルに関する情報を記憶する分類代表ベクトル情報記憶部と、 前記文書特徴ベクトル 7. A document classification apparatus for classifying a document in accordance with the contents of the document, and the document input unit for inputting document data, a document analysis section for analyzing words of the document data, the document analysis by the document analysis unit results and document feature vector generating unit for calculating a document feature vector for each document from the number of classifications representative vector, a logical sum is a logical expression of a plurality of information primitives specified, the logical product of each element information primitives expand the binding equation by, produced a classification representative vector designated generation unit from the logical product each generated information primitives to generate a classification representative vector having the same dimensionality as the document feature vector, a logical expression that is the designated therefrom classification representative vector information storage unit that stores information about classification representative vector that, the document feature vector 生成部にて生成される情報を用いて分類代表ベクトルを自動生成する分類代表ベクトル自動生成部と、 前記文書特徴ベクトルと前記分類代表ベクトル間の類似度を基にして、文書データを分類する文書分類部と、 前記分類代表ベクトル情報記憶部にて記憶された情報をもとに分類結果を生成し、保存する分類結果保存部と、 A generation unit classification representative vector automatic generation unit for automatically generating a classification representative vector using the information generated by, based on the similarity between the document feature vector and the classification representative vector, classifying the document data document a classification unit, the generated classification representative vector information classification result based on stored information in the storage unit, and the classification result storage for storing,
    を有することを特徴とする文書分類装置。 Document classification apparatus characterized by having a.
  8. 【請求項8】 請求項7に記載の文書分類装置において、 前記記憶された分類代表ベクトルに関する情報を読み込む分類代表ベクトル情報読み込み部と、をさらに有することを特徴とする文書分類装置。 8. A document classification apparatus according to claim 7, document classification apparatus characterized by further having a classification representative vector information reading part for reading the information on the stored classification representative vectors.
  9. 【請求項9】 請求項8に記載の文書分類装置において、 前記分類代表ベクトル生成部において、生成された情報プリミティブの論理積に含まれる各情報プリミティブの算術平均として分類代表ベクトルが生成されることを特徴とする文書分類装置。 9. The document classification apparatus according to claim 8 that, in the classification representative vector generation unit, classified representative vector as the arithmetic mean of each information primitives included in logical product of the generated information primitives are generated document classification apparatus according to claim.
  10. 【請求項10】 請求項9に記載の文書分類装置において、 前記分類代表ベクトル生成部において指定される情報プリミティブが文書及び文書内に含まれる単語であることを特徴とする文書分類装置。 10. A document classification apparatus according to claim 9, document classification and wherein the information primitives specified in the classification representative vector generation unit is a word included in a document and the document.
  11. 【請求項11】 請求項10に記載の文書分類装置において、 前記分類代表ベクトル生成部にて指定される情報プリミティブの論理式がユーザによって指定されることを特徴とする文書分類装置。 11. A document classification apparatus according to claim 10, wherein the classification representative vector document classification apparatus characterized by being designated logical expression information primitives specified by the user at the generator.
  12. 【請求項12】 複数の初期分類代表特徴ベクトルを設定し、該分類代表特徴ベクトルと文書の特徴ベクトルとの類似性をもとに文書を分類する文書分類方法において、 分類精度向上のため動的に分類代表特徴ベクトルを変化させて、反復的に文書の割り当てを行う精錬化処理ステップを有し、 該精錬化処理ステップは、一部又は全部の前記分類代表特徴ベクトルについて、精錬化処理を行わないことを特徴とする文書分類方法。 12. Set the plurality of initial classification representative feature vector, the document classification method for classifying a document based on the similarity between the feature vectors of the classification representative feature vector and the document, the dynamic for classification accuracy classification by changing the representative feature vector, iteratively have a refining process steps for allocating the document, the purified Neka processing step, for said classification representative feature vectors of a part or the whole, perform the refining process document classification wherein the no.
  13. 【請求項13】 文書の内容にしたがって文書の分類を行う文書分類方法において、 文書データを入力する文書入力ステップと、 前記文書データの単語を解析する文書解析ステップと、 該文書解析ステップの文書解析結果に基づいて、文書に対する文書特徴ベクトルを算出する文書特徴ベクトル生成ステップと、 文書特徴ベクトルと同じ次元数を持つ分類代表ベクトルを生成する分類代表ベクトル生成ステップと、 精錬化処理を行わない分類代表ベクトルを指定する精錬化除外ベクトル指定ステップと、 前記文書特徴ベクトルと前記分類代表ベクトル間の類似度を基にして、文書データを分類代表ベクトルのいづれか一つに割り当てる文書データ割り当てステップと、 前記精錬化除外ベクトル指定ステップにて指定された分類代表ベクト 13. A document classification method for classifying the document according to the document content, the document input step of inputting document data, a document analyzing step of analyzing the words of the document data, document analysis of the document analysis step based on the results, classification representative is not performed and the document feature vector generation step of calculating the document feature vector, and classifies the representative vector generating step of generating a classification representative vector having the same dimensionality as the document feature vector, the refining process for the document and refining of exclusion vector designating step for designating the vector, based on the similarity between the document feature vector and the classification representative vector, and the document data allocation step of allocating to one any of classifying representative vector document data, the refining reduction designated by the exclusion vector designating step classification representative vectors 以外の分類代表ベクトルについて、前記文書データ割り当てステップにて割り当てられた文書特徴ベクトルをもとに分類代表ベクトルを再計算し、特定の基準を満たすまで前記文書データ割り当てと分類代表ベクトルの再計算をくり返す分類代表ベクトル精錬化ステップと、 分類結果を保存する分類結果保存ステップと、を有することを特徴とする文書分類方法。 Classification representative vectors other than the document feature vector assigned by the document data allocation step recalculates the classification representative vector on the basis of the recalculation of classification representative vector and the document data assigned to meet specific criteria document classification method and having a classification representative vector refinement of steps repeating, a classification result storing step of storing the classification result.
  14. 【請求項14】 請求項13に記載の文書分類方法において、 前記分類代表ベクトル生成ステップにおいて、幾つかの分類代表ベクトルがユーザの指定する情報により生成されることを特徴とする文書分類方法。 14. A document classification method according to claim 13, in the classification representative vector generation step, document classification method, wherein a number of classification representative vectors are generated by the information specified by the user.
  15. 【請求項15】 請求項14に記載の文書分類方法において、 前記精錬化除外ベクトル指定ステップにおいて、前記分類代表ベクトル生成ステップにてユーザによって指定される情報により生成された分類代表ベクトルのみを精錬化を行わない分類代表ベクトルとすることを特徴とする文書分類方法。 15. A document classification method according to claim 14, wherein the refining of exclusion vector designation step, refining the only classification representative vectors generated by the information specified by the user at the classified representative vector generation step document classification method which is characterized in that a classification representative vectors is not performed.
  16. 【請求項16】 請求項15の文書分類方法において、 前記分類代表ベクトル生成ステップにおいて、ユーザにより指定される情報が、文書データと文書データ内に存在する単語の論理式であることを特徴とする文書分類方法。 A document classification method 16. The method of claim 15, in the classification representative vector generation step, information designated by the user, characterized in that it is a logical expression of words that exist in the document data and the document data document classification method.
  17. 【請求項17】 請求項16に記載の文書分類方法において、 前記分類代表ベクトル生成ステップにおいて指定される分類代表ベクトルを生成するための情報を保存する分類代表ベクトル生成情報記憶ステップと、 前記分類代表ベクトル生成情報記憶ステップに記憶された情報を読み込む分類代表ベクトル生成情報読み込みステップと、 前記分類代表ベクトル生成ステップにおいて指定される精錬化処理をおこなわない分類代表ベクトルに関する情報を保存する精錬化除外ベクトル情報記憶ステップと、 前記精錬化除外ベクトル情報記憶ステップに記憶された情報を読み込む精錬化除外ベクトル情報読み込みステップと、をさらに有することを特徴とする文書分類方法。 17. A document classification method according to claim 16, the classification representative vector generation information storage step of storing information for generating a classification representative vectors specified in the classification representative vector generation step, the classification representative classification representative vector generation information reading step and refining of exclusion vector information to store information about the classification representative vectors is not performed refining process specified in the classification representative vector generation step of reading information stored in the vector generation information storage step storage step and, document classification method characterized by further having a refining of exclusion vector information reading step of reading the information stored in the refining of exclusion vector information storage step.
  18. 【請求項18】 文書の内容にしたがって文書の分類を行う文書分類方法において、 文書データを入力する文書入力ステップと、 前記文書データの単語を解析する文書解析ステップと、 該文書解析ステップによる文書分析結果から各文書に対する文書特徴ベクトルを算出する文書特徴ベクトル生成ステップと、 幾つかの分類代表ベクトルとして、指定される複数の情報プリミティブの論理式を、それぞれ要素が情報プリミティブの論理積である論理和による結合式に展開し、生成された情報プリミティブの論理積それぞれから文書特徴ベクトルと同じ次元数を持つ分類代表ベクトルを生成する分類代表ベクトル指定生成ステップと、 前記指定される論理式とそれから生成される分類代表ベクトルに関する情報を記憶する分類代表ベクトル情 18. A document classification method for classifying the document according to the document content, the document input step of inputting document data, a document analyzing step of analyzing the words of the document data, the document analysis by the document analysis step and document feature vector generation step of calculating the document feature vector for each document from the results, as some categories representative vector, a logical sum is a logical expression of a plurality of information primitives specified, the logical product of each element information primitives expand the binding equation by a classification representative vector designated generation step of generating a classification representative vectors from respective logical product of the generated information primitives have the same dimensionality as the document feature vector, a logical expression that the specified generated therefrom classification representative vector information to store the information on the classification representative vector that 記憶ステップと、 前記文書特徴ベクトル生成ステップにて生成される情報を用いて分類代表ベクトルを自動生成する分類代表ベクトル自動生成ステップと、 前記文書特徴ベクトルと前記分類代表ベクトル間の類似度を基にして、文書データを分類する文書分類ステップと、 前記分類代表ベクトル情報記憶ステップにて記憶された情報をもとに分類結果を生成し、保存する分類結果保存ステップと、を有することを特徴とする文書分類方法。 A storage step, based on the classification representative vector automatic generation step of automatically generating a classification representative vector using the information generated, the similarity between the document feature vector and the classification representative vector in the document feature vector generation step Te generates a document classification step of classifying the document data, the classification results based on the information stored in the classification representative vector information storage step, characterized in that it has a classification result storing step of storing, the document classification method.
  19. 【請求項19】 請求項18に記載の文書分類方法において、 前記記憶された分類代表ベクトルに関する情報を読み込む分類代表ベクトル情報読み込みステップと、をさらに有することを特徴とする文書分類方法。 19. The document classification method according to claim 18, document classification method characterized by further having a classification representative vector information reading step of reading information relating to the stored classification representative vectors.
  20. 【請求項20】 請求項19に記載の文書分類方法において、 前記分類代表ベクトル生成ステップにおいて、生成された情報プリミティブの論理積に含まれる各情報プリミティブの算術平均として分類代表ベクトルが生成されることを特徴とする文書分類方法。 20. A document classification method according to claim 19 that, in the classification representative vector generation step, classifying the representative vector as the arithmetic mean of each information primitives included in logical product of the generated information primitives are generated document classification method according to claim.
  21. 【請求項21】 請求項20に記載の文書分類方法において、 前記分類代表ベクトル生成ステップにおいて指定される情報プリミティブが文書及び文書内に含まれる単語であることを特徴とする文書分類方法。 A document classification method according to 21. The method of claim 20, document classification method, wherein the information primitives specified in the classification representative vector generation step is a word included in a document and the document.
  22. 【請求項22】 請求項21に記載の文書分類方法において、 前記分類代表ベクトル生成ステップにて指定される情報プリミティブの論理式がユーザによって指定されることを特徴とする文書分類方法。 A document classification method according to claim 22] according to claim 21, document classification method, wherein a logical expression information primitives specified by the classification representative vector generation step is designated by the user.
JP2000148443A 2000-05-19 2000-05-19 Device and method for document classification Pending JP2001331514A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000148443A JP2001331514A (en) 2000-05-19 2000-05-19 Device and method for document classification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000148443A JP2001331514A (en) 2000-05-19 2000-05-19 Device and method for document classification

Publications (1)

Publication Number Publication Date
JP2001331514A true JP2001331514A (en) 2001-11-30

Family

ID=18654465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000148443A Pending JP2001331514A (en) 2000-05-19 2000-05-19 Device and method for document classification

Country Status (1)

Country Link
JP (1) JP2001331514A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165714A (en) * 2007-01-05 2008-07-17 Kddi Corp Method, device and program for information retrieval
JP2011158980A (en) * 2010-01-29 2011-08-18 Brother Industries Ltd Consumer information processing apparatus
US8645826B2 (en) 2001-10-15 2014-02-04 Apple Inc. Graphical multidimensional file management system and method
US8984417B2 (en) 2008-09-12 2015-03-17 9224-5489 Quebec Inc. Method of associating attributes with documents
US9058093B2 (en) 2011-02-01 2015-06-16 9224-5489 Quebec Inc. Active element
US9251643B2 (en) 2001-10-15 2016-02-02 Apple Inc. Multimedia interface progression bar
US9262381B2 (en) 2007-08-22 2016-02-16 9224-5489 Quebec Inc. Array of documents with past, present and future portions thereof
US9519693B2 (en) 2012-06-11 2016-12-13 9224-5489 Quebec Inc. Method and apparatus for displaying data element axes
US9613167B2 (en) 2011-09-25 2017-04-04 9224-5489 Quebec Inc. Method of inserting and removing information elements in ordered information element arrays
US9646080B2 (en) 2012-06-12 2017-05-09 9224-5489 Quebec Inc. Multi-functions axis-based interface
US9652438B2 (en) 2008-03-07 2017-05-16 9224-5489 Quebec Inc. Method of distinguishing documents
US9690460B2 (en) 2007-08-22 2017-06-27 9224-5489 Quebec Inc. Method and apparatus for identifying user-selectable elements having a commonality thereof

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251643B2 (en) 2001-10-15 2016-02-02 Apple Inc. Multimedia interface progression bar
US8645826B2 (en) 2001-10-15 2014-02-04 Apple Inc. Graphical multidimensional file management system and method
US8893046B2 (en) 2001-10-15 2014-11-18 Apple Inc. Method of managing user-selectable elements in a plurality of directions
US8904281B2 (en) 2001-10-15 2014-12-02 Apple Inc. Method and system for managing multi-user user-selectable elements
US8954847B2 (en) 2001-10-15 2015-02-10 Apple Inc. Displays of user select icons with an axes-based multimedia interface
US9454529B2 (en) 2001-10-15 2016-09-27 Apple Inc. Method of improving a search
JP2008165714A (en) * 2007-01-05 2008-07-17 Kddi Corp Method, device and program for information retrieval
US9690460B2 (en) 2007-08-22 2017-06-27 9224-5489 Quebec Inc. Method and apparatus for identifying user-selectable elements having a commonality thereof
US9262381B2 (en) 2007-08-22 2016-02-16 9224-5489 Quebec Inc. Array of documents with past, present and future portions thereof
US9348800B2 (en) 2007-08-22 2016-05-24 9224-5489 Quebec Inc. Method of managing arrays of documents
US9652438B2 (en) 2008-03-07 2017-05-16 9224-5489 Quebec Inc. Method of distinguishing documents
US8984417B2 (en) 2008-09-12 2015-03-17 9224-5489 Quebec Inc. Method of associating attributes with documents
JP2011158980A (en) * 2010-01-29 2011-08-18 Brother Industries Ltd Consumer information processing apparatus
US9733801B2 (en) 2011-01-27 2017-08-15 9224-5489 Quebec Inc. Expandable and collapsible arrays of aligned documents
US9122374B2 (en) 2011-02-01 2015-09-01 9224-5489 Quebec Inc. Expandable and collapsible arrays of documents
US10067638B2 (en) 2011-02-01 2018-09-04 9224-5489 Quebec Inc. Method of navigating axes of information elements
US9529495B2 (en) 2011-02-01 2016-12-27 9224-5489 Quebec Inc. Static and dynamic information elements selection
US9588646B2 (en) 2011-02-01 2017-03-07 9224-5489 Quebec Inc. Selection and operations on axes of computer-readable files and groups of axes thereof
US9189129B2 (en) 2011-02-01 2015-11-17 9224-5489 Quebec Inc. Non-homogeneous objects magnification and reduction
US9058093B2 (en) 2011-02-01 2015-06-16 9224-5489 Quebec Inc. Active element
US9613167B2 (en) 2011-09-25 2017-04-04 9224-5489 Quebec Inc. Method of inserting and removing information elements in ordered information element arrays
US9519693B2 (en) 2012-06-11 2016-12-13 9224-5489 Quebec Inc. Method and apparatus for displaying data element axes
US9646080B2 (en) 2012-06-12 2017-05-09 9224-5489 Quebec Inc. Multi-functions axis-based interface
US10180773B2 (en) 2012-06-12 2019-01-15 9224-5489 Quebec Inc. Method of displaying axes in an axis-based interface

Similar Documents

Publication Publication Date Title
Jiang et al. A fuzzy self-constructing feature clustering algorithm for text classification
Jiang et al. Two-phase clustering process for outliers detection
US9542483B2 (en) Computer-implemented system and method for visually suggesting classification for inclusion-based cluster spines
US6751621B1 (en) Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
CN1167030C (en) Handwriteen character recognition using multi-resolution models
Sang et al. Representing text chunks
Lee et al. An empirical evaluation of knowledge sources and learning algorithms for word sense disambiguation
US20030078899A1 (en) Fuzzy text categorizer
JP3755134B2 (en) Computer-based conforming text retrieval system and method
Fröhlich et al. GOSim–an R-package for computation of information theoretic GO similarities between terms and gene products
JP4311552B2 (en) Automatic separation of documents
Kohonen Essentials of the self-organizing map
JP4121125B2 (en) Graphics image generation apparatus and method, the data analysis device and method and program
Pauca et al. Text mining using non-negative matrix factorizations
US7139695B2 (en) Method for categorizing documents by multilevel feature selection and hierarchical clustering based on parts of speech tagging
US20100114890A1 (en) System and Method for Discovering Latent Relationships in Data
US20030004942A1 (en) Method and apparatus of metadata generation
JP4233836B2 (en) Automatic document classification system, unnecessary word determination method, automatic document classification method, and program
WO2003071393A2 (en) Linguistic support for a regognizer of mathematical expressions
JP4141460B2 (en) Automatic classification generation
Wang et al. A dynamic clustering based differential evolution algorithm for global optimization
WO2002027532A1 (en) System and method for use in text analysis of documents and records
JP4038717B2 (en) Text sentence comparison apparatus
JPH11120203A (en) Method for combining data base and device for retrieving document from data base
EP1687738A2 (en) Clustering of text for structuring of text documents and training of language models