RU2254610C2 - Method for automated classification of documents - Google Patents

Method for automated classification of documents Download PDF

Info

Publication number
RU2254610C2
RU2254610C2 RU2003126907/09A RU2003126907A RU2254610C2 RU 2254610 C2 RU2254610 C2 RU 2254610C2 RU 2003126907/09 A RU2003126907/09 A RU 2003126907/09A RU 2003126907 A RU2003126907 A RU 2003126907A RU 2254610 C2 RU2254610 C2 RU 2254610C2
Authority
RU
Russia
Prior art keywords
document
categories
category
classification
documents
Prior art date
Application number
RU2003126907/09A
Other languages
Russian (ru)
Other versions
RU2003126907A (en
Inventor
А.В. Аграновский (RU)
А.В. Аграновский
н Р.Э. Арутюн (RU)
Р.Э. Арутюнян
Р.А. Хади (RU)
Р.А. Хади
Б.А. Телеснин (RU)
Б.А. Телеснин
Original Assignee
Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" filed Critical Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА"
Priority to RU2003126907/09A priority Critical patent/RU2254610C2/en
Publication of RU2003126907A publication Critical patent/RU2003126907A/en
Application granted granted Critical
Publication of RU2254610C2 publication Critical patent/RU2254610C2/en

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

FIELD: documents classification systems.
SUBSTANCE: method is based on multiple use of simple classifier for classifying document and following correction of classification results with consideration of thematic dependences between categories.
EFFECT: possible a priori setting of dependences of categories from each other in form of categories tree.
3 dwg

Description

Изобретение относится к системам классификации документов и может использоваться в системах обработки информации, базах данных, электронных хранилищах в случаях, когда тематическая зависимость категорий друг от друга может быть представлена в виде дерева.The invention relates to document classification systems and can be used in information processing systems, databases, electronic repositories in cases where the thematic dependence of categories from each other can be represented in the form of a tree.

Известен способ автоматической классификации документов [1], заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, а при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе простого байесовского классификационного критерия и классификационных признаков определяют принадлежность документа категории.A known method for the automatic classification of documents [1], which consists in converting a document from a storage format into a text in natural language, converting the document words into basic word forms, discarding insignificant words, calculating the word weights in the document in accordance with the frequencies of their appearance, at the training stage, according to the presented set of manually classified documents, a set of classification features is formed, and when classifying a document, it is converted from the form and storage in the natural language text, convert word document to the basic word forms are discarded insignificant words, carry out the weighting of words in a document based on a simple Bayesian classification criteria and classifications determine the status of the document categories.

Отметим, что данный способ предназначен для обработки машиночитаемых текстов на естественном языке.Note that this method is intended for processing machine-readable texts in a natural language.

Данный способ простой байесовской классификации документов использует гипотезу о независимости слов документа друг от друга. При этом как документ, так и категории рассматриваются как вероятностные системы, для которых вычисляются вероятности появления словоформ как независимых событий. Для определения вероятности принадлежности документа категории вычисляется мера близости между этими двумя вероятностными системами. Способ простой байесовской классификации может использоваться как для бинарной классификации (необходимо определить, принадлежит документ категории или нет), так и для множественной (необходимо из списка категорий найти ту, которой принадлежит документ). В последнем случае документ может принадлежать лишь одной категории из списка.This method of simple Bayesian classification of documents uses the hypothesis that the words of the document are independent of each other. In this case, both the document and the categories are considered as probabilistic systems for which the probabilities of occurrence of word forms as independent events are calculated. To determine the likelihood of belonging to a category document, a measure of proximity between these two probability systems is calculated. The simple Bayesian classification method can be used both for binary classification (it is necessary to determine whether a document belongs to a category or not), and for multiple (it is necessary to find the one that belongs to the document from the list of categories). In the latter case, a document may belong to only one category from the list.

В тех задачах, где документ может одновременно принадлежать нескольким категориям, используют одновременно несколько бинарных классификаторов рассмотренного типа, каждый из которых определяет, принадлежит ли текущий документ данной категории. При этом принимается гипотеза о независимости категорий друг от друга.In those problems where a document can simultaneously belong to several categories, several binary classifiers of the considered type are used simultaneously, each of which determines whether the current document belongs to this category. In this case, the hypothesis of the independence of categories from each other is accepted.

Однако данный способ обладает недостатком, который связан с тем, что он не позволяет классифицировать документы в случае, когда категории тематически зависимы друг от друга, например когда они иерархически подчинены друг другу.However, this method has the disadvantage that it does not allow to classify documents in the case when the categories are thematically dependent on each other, for example, when they are hierarchically subordinate to each other.

Известен также способ автоматической классификации документов [2], заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе классификационного критерия SVM (Support Vector Machines) и классификационных признаков определяют принадлежность документа категории.There is also known a method for automatic classification of documents [2], which consists in converting a document from a storage format into a text in natural language, converting the document words into basic word forms, discarding insignificant words, and calculating the word weights in the document in accordance with the frequencies of their appearance ; at the training stage, according to the presented set of manually classified documents, a set of classification features is formed, when a document is classified, it is converted from a storage format to a text in natural language, the document words are converted to basic word forms, insignificant words are discarded, word weights are calculated in the document based on Support Vector Machines (SVM) criteria and classification features determine whether a category document belongs to.

Данный способ, как и предыдущий, предназначен для обработки машиночитаемых текстов на естественном языке.This method, like the previous one, is intended for processing machine-readable texts in a natural language.

Способ, описанный в [2], основан на классификации по методу SVM, который позволяет построить в многомерном пространстве признаков гиперплоскость, отделяющую признаки документов, принадлежащих категории, от признаков документов, не принадлежащих ей. Данный способ также может использоваться в случаях, когда документ может принадлежать сразу нескольким категориям.The method described in [2] is based on the classification by the SVM method, which allows one to construct a hyperplane in a multidimensional feature space that separates the features of documents belonging to a category from the features of documents that do not belong to it. This method can also be used in cases where a document can belong to several categories at once.

Однако данный способ обладает тем же недостатком, что и [1] - он не позволяет классифицировать документы в случае, когда категории тематически зависимы друг от друга.However, this method has the same drawback as [1] - it does not allow to classify documents in the case when the categories are thematically dependent on each other.

Наиболее близким по технической сущности к предлагаемому является способ мультиклассовой классификации [3], принятый за прототип, заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий.The closest in technical essence to the proposed one is the multiclass classification method [3], adopted as a prototype, which consists in converting a document from a storage format into a text in natural language, converting the document words into basic word forms, discarding insignificant words, and performing weight calculation words in the document in accordance with the frequencies of their appearance and thereby form a vector of document attributes at the training stage according to the presented set of manually classified documents form a set of classification features, save the classification features in a database, when classifying a document, convert it from a storage format to natural language text, convert the document words into basic word forms, discard insignificant words, calculate the word weights in the document and form a document feature vector, after which they decide on whether or not the document belongs to each category.

В этом способе также под текстами на естественном языке понимаются машиночитаемые тексты.In this method, natural language texts are also understood as machine-readable texts.

Данный способ для классификации использует слабые гипотезы о принадлежности документа множеству категорий для итеративного уточнения функции распределения категорий на множестве документов. Для получения слабых гипотез используются методы бинарной классификации документов; а при классификации используют построенное распределение для определения списка категорий, которым принадлежит документ. Данный способ проявляет хорошую работоспособность, поскольку он многократно применяет простые методы классификации, что приводит к большей точности классификации. Кроме того, в рамках указанного способа категории не считаются независимыми. Зависимость между ними задается на этапе обучения посредством представления соответствующей обучающей выборки документов. Недостатком прототипа является невозможность использования при классификации априорной информации о зависимостях категорий друг от друга.This method for classification uses weak hypotheses that a document belongs to many categories to iteratively refine the distribution function of categories on many documents. To obtain weak hypotheses, methods of binary classification of documents are used; and during classification, they use the constructed distribution to determine the list of categories to which the document belongs. This method shows good performance, since it repeatedly uses simple classification methods, which leads to greater classification accuracy. In addition, in the framework of this method, the categories are not considered independent. The relationship between them is set at the training stage by presenting an appropriate training set of documents. The disadvantage of the prototype is the inability to use in the classification of a priori information about the dependencies of the categories from each other.

Технический результат, получаемый от внедрения изобретения, заключается в устранении недостатков прототипа, то есть в возможности априорного задания зависимостей категорий друг от друга в виде дерева категорий.The technical result obtained from the implementation of the invention is to eliminate the disadvantages of the prototype, that is, the possibility of a priori setting the dependencies of the categories from each other in the form of a tree of categories.

Данный технический результат получают за счет того, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий; при этом используют априорную информацию о зависимостях категорий друг от друга. Дополнительной особенностью данного способа является то, что зависимость категорий друг от друга задается деревом категорий. Кроме того, используют бинарные классификаторы для определения принадлежности документа категориям, после чего осуществляют коррекцию результатов классификации путем анализа для каждой категории принадлежностей документа категориям более высокого уровня. Отметим, что данный способ предназначен для обработки машиночитаемых текстов на естественном языке.This technical result is obtained due to the fact that the document is converted from the storage format into natural language text, the document is converted to basic word forms, the insignificant words are discarded, the word weights in the document are counted in accordance with the frequencies of their appearance and thereby form a feature vector document, at the training stage according to the presented set of manually classified documents form a set of classification features, save the classification features in a database, when classifying a document, it is converted from a storage format to natural language text, the document is converted to basic word forms, discarded insignificant words are counted, the word weights in the document are calculated and a vector of document attributes is formed, and then a decision is made whether or not each document belongs categories; they use a priori information about the dependencies of the categories from each other. An additional feature of this method is that the dependence of categories on each other is defined by a category tree. In addition, binary classifiers are used to determine whether a document belongs to categories, after which they correct the classification results by analyzing for each category of document belonging to higher-level categories. Note that this method is intended for processing machine-readable texts in a natural language.

В способе слова документов считаются независимыми в рамках категории. Все множество категорий изначально представлено в виде дерева, отражающего тематическую зависимость одних категорий от других и их общность по отношению друг к другу. Принадлежность документа некоторой категории влечет за собой принадлежность его также и всем категориям, находящимся по иерархии выше ее. Данный способ классификации позволяет с учетом этого по входному документу определить, каким узлам дерева категорий он принадлежит, а каким нет.In the method, the words of the documents are considered independent within the category. The whole set of categories was initially presented in the form of a tree, reflecting the thematic dependence of some categories on others and their commonality in relation to each other. The belonging of a document to a certain category entails its belonging to all categories located above the hierarchy in it. This classification method allows taking into account this from the input document to determine which nodes of the category tree it belongs to and which ones do not.

Документы для классификации могут быть представлены в различных форматах, допускающих выделение из них текстового содержания. Это могут быть текстовые файлы различных форматов, графические файлы с графическим представлением некоторого текста, звуковые файлы с записью речи и другие файлы, для которых существует механизм выделения из них текста, отражающего их содержание. Каждый документ (либо обучающий, либо подвергающийся классификации) предварительно проходит стадию первичной обработки, на которой производится определение формата документа и установление того, возможно ли извлечение текста из документа данного формата. В случае положительного решения производится извлечение текста из документа. После разбиения текста на слова происходит определение для каждого слова его базовой словоформы по одному из способов [4-7]. Наиболее часто для решения подобных задач используется алгоритм Портера [4], заключающийся в использовании специальных правил отсечения и замены окончаний слов.Documents for classification can be presented in various formats, allowing the selection of text content from them. These can be text files of various formats, graphic files with a graphic representation of some text, sound files with voice recording and other files for which there is a mechanism for extracting text from them that reflects their content. Each document (either educational or subject to classification) preliminarily passes through the primary processing stage, at which the document format is determined and whether it is possible to extract text from a document of this format. In the case of a positive decision, the text is extracted from the document. After breaking the text into words, a definition is made for each word of its basic word form in one of the ways [4-7]. Most often, to solve such problems, the Porter algorithm [4] is used, which consists in using special rules for cutting off and replacing word endings.

Согласно предлагаемому способу каждый документ Di представляется вектором признаков вида:According to the proposed method, each document D i is represented by a vector of signs of the form:

di=(w1,...,wn),d i = (w 1 , ..., w n ),

где значением j-го признака wj считается вес j-й словоформы в документе Di, рассчитываемый по формуле:where the value of the j-th attribute w j is the weight of the j-th word form in the document D i calculated by the formula:

wj=cij/Ni.w j = c ij / N i .

Здесь cij - количество раз, которое j-я словоформа встречается в i-м документе, Ni - общее количество словоформ в i-м документе.Here c ij is the number of times the jth word form occurs in the i-th document, N i is the total number of word forms in the i-th document.

Для инициализации классификатора и построения классификационных признаков служит этап обучения классификатора. При этом должно быть задано множество обучающих документов, заранее классифицированных вручную. После извлечения из них текстового содержания происходит построение словаря документов. Словарь документов содержит базовые словоформы всех слов, встречающихся в обучающих документах.To initialize the classifier and build classification features, the classifier training stage is used. In this case, a lot of training documents must be specified, previously classified manually. After extracting textual content from them, the construction of a dictionary of documents takes place. The dictionary of documents contains the basic word forms of all words found in the training documents.

При классификации документа в расчет берутся не все словоформы из словаря документов, а лишь те из них, которые входят в рабочий словарь классификатора данной категории. В рабочий словарь классификатора включаются наиболее информативные словоформы с точки зрения определения принадлежности документа данной категории, не попавшие в стоп-словарь. Информативность словоформы wi для классификатора по категории Cj определяется по следующей формуле [8]:When classifying a document, not all word forms from the document dictionary are taken into account, but only those that are included in the working dictionary of the classifier of this category. The most informative word forms are included in the classifier’s working dictionary from the point of view of determining the membership of a document of this category, which did not fall into the stop dictionary. The informativeness of the word form w i for the classifier by category C j is determined by the following formula [8]:

Figure 00000002
Figure 00000002

При этом устанавливается порог информативности ε; в рабочий словарь классификатора включаются все словоформы, не попавшие в стоп-словарь, информативность которых превышает этот порог. Стоп-словарь состоит из словоформ, частоты встречаемости которых во множестве обучающих документов превышают заранее установленный порог δ. При этом отсекаются слова, не несущие смысловой нагрузки, такие как предлоги, союзы, вводные слова и т.д. Значения коэффициента δ, согласно данному способу, устанавливаются в пределах от 0.05 до 0.7 в зависимости от специфики приложений способа. Значения порога информативности ε могут быть различны в различных приложениях способа.In this case, the information threshold ε is set; All word forms that do not fall into the stop dictionary, whose information content exceeds this threshold, are included in the classifier’s working dictionary. A stop dictionary consists of word forms whose frequency of occurrence in a set of training documents exceeds a predetermined threshold δ. In this case, words that do not carry a semantic load, such as prepositions, conjunctions, introductory words, etc., are cut off. The values of the coefficient δ, according to this method, are set in the range from 0.05 to 0.7, depending on the specific application of the method. The values of the information threshold ε can be different in different applications of the method.

Построение классификационных признаков включает в себя расчет априорных вероятностей категорий и построение распределения словоформ из рабочего словаря категории. Для расчета априорных вероятностей определяется доля обучающих документов от общего их числа, попавших в каждую их категорий. Для расчета распределений словоформ рабочего словаря категорий определяются частоты появления этих словоформ в категориях на множестве обучающих документов. Априорные вероятности категорий и распределения словоформ рабочего словаря данные сохраняются в базе данных классификационных признаков.The construction of classification features includes the calculation of a priori probabilities of categories and the construction of the distribution of word forms from the working dictionary of the category. To calculate a priori probabilities, the percentage of training documents from the total number that fall into each of their categories is determined. To calculate the distribution of word forms of a working dictionary of categories, the frequencies of occurrence of these word forms in categories on a set of training documents are determined. A priori probabilities of categories and distribution of word forms of a working dictionary, the data is stored in a database of classification features.

Классификация документов производится в два этапа.The classification of documents is carried out in two stages.

На первом этапе классификации категории считаются независимыми и происходит независимое определение принадлежности документа каждой из категорий. Для этого используется неравенствоAt the first stage of classification, categories are considered independent and an independent determination of the document's ownership of each category occurs. To do this, use the inequality

Figure 00000003
Figure 00000003

где P(Cj) - априорная вероятность текущей категории Сj, n - число слов в текущем документе D, Т - число различных словоформ в документе D,

Figure 00000004
- вероятность появления i-й словоформы в документе D,
Figure 00000005
- вероятность категории Сj при условии появления i-й словоформы. Если указанное неравенство выполняется, то принимается решение о том, что документ D принадлежит категории Сj.where P (C j ) is the a priori probability of the current category C j , n is the number of words in the current document D, T is the number of different word forms in the document D,
Figure 00000004
- the probability of occurrence of the i-th word form in the document D,
Figure 00000005
- the probability of category C j subject to the appearance of the i-th word form. If this inequality holds, then a decision is made that the document D belongs to the category C j .

На втором этапе классификации происходит коррекция полученных на первом этапе результатов с учетом априорной информации о тематической зависимости категорий, представленной деревом категорий.At the second stage of classification, the results obtained at the first stage are corrected taking into account a priori information on the thematic dependence of the categories represented by the category tree.

В основе коррекции лежит утверждение о том, что если документ принадлежит некоторой категории, то он также принадлежит всем категориям, лежащим выше по иерархии. Этап коррекции состоит в последовательном переборе всех вершин дерева категорий от корня (исключая сам корень, так как он не является категорией) к листьям. На каждой итерации происходит проверка, принадлежит ли данной категории текущий документ. Если принадлежит, то производится подъем по иерархии от текущей вершины до корня дерева, во время которого определяется количество вершин, которым принадлежит документ согласно решениям классификатора и количество вершин, которым он не принадлежит согласно решениям классификатора. Если число вершин, которым принадлежит документ, превышает число вершин, которым он не принадлежит, то на этапе коррекции принимается решение о том, что категории, соответствующей текущей вершине, документ принадлежит, после чего происходит корректировка решений классификатора на протяжении всего пути от текущей вершины до корня дерева с присвоением всем его промежуточным вершинам положительного решения о классификации. В случае, если число вершин, которым принадлежит документ, не превышает число вершин, которым он не принадлежит, происходит присвоение отрицательного решения о принадлежности текущего документа категории, соответствующей текущей вершине.The correction is based on the statement that if a document belongs to a certain category, then it also belongs to all categories that are higher in the hierarchy. The correction step consists in sequentially sorting all the vertices of the category tree from the root (excluding the root itself, since it is not a category) to the leaves. At each iteration, a check is made to see if the current document belongs to this category. If it belongs, then the hierarchy is climbed from the current vertex to the root of the tree, during which the number of vertices to which the document belongs according to the decisions of the classifier and the number of vertices to which it does not belong according to the decisions of the classifier is determined. If the number of vertices to which the document belongs exceeds the number of vertices to which it does not belong, then at the stage of correction, a decision is made that the category corresponding to the current vertex belongs to the document, after which the classifier decisions are adjusted along the entire path from the current vertex to tree root with assignment to all its intermediate vertices of a positive classification decision. If the number of vertices to which the document belongs does not exceed the number of vertices to which it does not belong, a negative decision is assigned on whether the current document belongs to the category corresponding to the current vertex.

Изобретение поясняется чертежами, на фиг.1 которого представлена блок-схема вычислительного устройства для реализации способа. На фиг.2 представлен алгоритм формирования признаков документов. На фиг.3 представлен алгоритм обучения классификаторов.The invention is illustrated by drawings, in Fig.1 which presents a block diagram of a computing device for implementing the method. Figure 2 presents the algorithm for the formation of signs of documents. Figure 3 presents the algorithm for training classifiers.

Устройство для реализации способа (фиг.1) состоит из источника документов 1, блока 2 формирования признаков документа, управляющего блока 3, блока 4 обучения классификаторов, блока 5 обучающих данных, базы данных 6, блока 7 классификации, блока 8 коррекции результатов классификации, блока 9 вывода результатов классификации.The device for implementing the method (Fig. 1) consists of a document source 1, a document formation block 2, a control block 3, a classifier training block 4, a training data block 5, a database 6, a classification block 7, a classification correction block 8, a block 8 9 output classification results.

Согласно способу устройство работает следующим образом. При появлении в источнике документов 1 нового документа он поступает в блок 2, который производит обработку документа и построение по нему вектора признаков. При этом сначала происходит первичная обработка документа (фиг.2), на которой из документа извлекается текстовое содержание, затем происходит определение базовых словоформ для всех слов, содержащихся в тексте документа, после чего определяются веса словоформ в документе.According to the method, the device operates as follows. When a new document appears in the source of documents 1, it enters block 2, which processes the document and constructs a feature vector based on it. In this case, the initial processing of the document first occurs (Fig. 2), on which the text content is extracted from the document, then the basic word forms are determined for all words contained in the text of the document, after which the weight of the word forms in the document is determined.

Управляющий блок 3 контролируется оператором устройства и может работать в двух режимах: в режиме обучения и в режиме классификации.The control unit 3 is controlled by the device operator and can operate in two modes: in training mode and in classification mode.

В режиме обучения признаки документа, сформированные в блоке 2, поступают далее в блок 4, в котором происходит накопление обучающих документов и формирование классификационных признаков. При этом используются обучающие данные и документы, поступающие из блока 5 и накапливаемые в базе данных 6. Блок обучающих данных предоставляет информацию и принадлежности каждого обучающего документа категориям. Эта информация вместе с признаками обучающих документов накапливается в базе данных 6. В момент завершения режима обучения непосредственно перед переключением управляющего блока в режим классификации происходит извлечение всех накопленных обучающих документов из базы данных 6 и формирование классификационных признаков (фиг.3). Для этого по накопленному множеству обучающих документов происходит создание словаря документов, который содержит все словоформы, встречающиеся в обучающих документах, после чего создаются рабочие словари классификаторов. Затем происходит построение классификационных признаков. Полученные классификационные признаки сохраняются в базе данных 6.In the training mode, the features of the document generated in block 2, then go to block 4, in which the accumulation of training documents and the formation of classification features. In this case, training data and documents coming from block 5 and stored in database 6 are used. The training data block provides information and categories of each training document. This information, together with the signs of training documents, is accumulated in the database 6. At the time of completion of the training mode, immediately before the control unit switches to the classification mode, all accumulated training documents are retrieved from the database 6 and the formation of classification features (Fig. 3). To do this, based on the accumulated set of training documents, a document dictionary is created that contains all the word forms found in the training documents, after which working classifiers dictionaries are created. Then there is the construction of classification features. The resulting classification characteristics are stored in the database 6.

В режиме классификации признаки документа поступают через управляющее устройство в блок 7, где происходит классификация документа по его признакам. При этом используются поступающие из базы данных 6 классификационные признаки. Затем результаты классификации поступают в блок 8, где происходит их коррекция с учетом тематических зависимостей между категориями, после чего скорректированный список категорий, которым принадлежит документ, поступает в блок 9.In the classification mode, the characteristics of the document are transmitted through the control device to block 7, where the classification of the document according to its characteristics. In this case, classification signs coming from the database 6 are used. Then, the classification results go to block 8, where they are corrected taking into account the thematic dependencies between the categories, after which the adjusted list of categories to which the document belongs goes to block 9.

Таким образом, способ позволяет классифицировать документы с учетом априорных зависимостей между категориями, задаваемыми деревом категорий, чем достигается поставленный выше технический результат.Thus, the method allows to classify documents taking into account a priori dependencies between categories defined by the category tree, thereby achieving the above technical result.

Источники информацииSources of information

1. Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp.537-546, 1998.1. Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998.

2. Патент США 6327581, кл. G 06 F 015/18.2. US patent 6327581, cl. G 06 F 015/18.

3. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". Machine Learning 39, 2/3, 2000, pp.135-168 - прототип.3. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". Machine Learning 39, 2/3, 2000, pp. 135-168 - prototype.

4. Porter M.F. "An algorithm for suffix stripping", Program, Vol.14, No.3, 1980, pp.130-137.4. Porter M.F. "An algorithm for suffix stripping", Program, Vol.14, No.3, 1980, pp. 130-137.

5. Патент РФ №2096825 С1, кл. G 06 F 17/00.5. RF patent No. 2096825 C1, cl. G 06 F 17/00.

6. Патент США 6308149, кл. G 06 F 17/27.6. US patent 6308149, CL. G 06 F 17/27.

7. Патент США 6430557, кл. G 06 F 017/30; G 06 F 017/27; G 06 F 017/21.7. US patent 6430557, CL G 06 F 017/30; G 06 F 017/27; G 06 F 017/21.

8. Craven M., DiPasquo D., Freitag D. et al. "Learning to сonstruct knowledge bases from the World Wide Web", Artificial Intelligence, Vol.118(1-2), 2000, pp.69-113.8. Craven M., DiPasquo D., Freitag D. et al. "Learning to construct knowledge bases from the World Wide Web," Artificial Intelligence, Vol. 118 (1-2), 2000, pp. 69-113.

Claims (1)

Способ автоматической классификации документов, заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в упомянутом документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий, отличающийся тем, что на этапе определения принадлежности документа каждой из категорий используют априорную информацию о зависимостях категорий друг от друга, задаваемую деревом категорий, при этом используют бинарные классификаторы для определения принадлежности документа категориям, после чего осуществляют анализ принадлежности каждой категории документа категориям более высокого уровня, и если число вершин дерева, которым принадлежит документ, превосходит число вершин, которым он не принадлежит, то принимают решение о соответствии документа текущей вершине, после чего производят корректировку решений классификатора на протяжении всего пути от текущей вершины до корня дерева и классифицируют этот документ по всем промежуточным вершинам дерева.A method for automatically classifying documents, which consists in converting a document from a storage format to natural language text, converting the words of the converted document into basic word forms, discarding insignificant words, calculating word weights in said document in accordance with their frequencies and thereby they form a vector of document attributes, at the training stage, according to the presented set of manually classified documents, they form a set of classification signs that save they take classification characteristics into a database, when classifying a document, they convert it from a storage format into natural language text, convert the document’s words into basic word forms, discard insignificant words, calculate the word weights in the document and form a document feature vector, after which they decide affiliation or non-affiliation of the document of each category, characterized in that at the stage of determining the affiliation of the document of each category using a priori information a presentation about the dependencies of categories from each other, defined by the category tree, using binary classifiers to determine whether a document belongs to categories, after which they analyze whether each category of a document belongs to higher-level categories, and if the number of vertices of the tree to which the document belongs exceeds the number of vertices, to which it does not belong, they make a decision on the compliance of the document with the current vertex, after which they adjust the decisions of the classifier throughout the entire put from the current node to the root of the tree and classify this document in all intermediate heights of the tree.
RU2003126907/09A 2003-09-04 2003-09-04 Method for automated classification of documents RU2254610C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2003126907/09A RU2254610C2 (en) 2003-09-04 2003-09-04 Method for automated classification of documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2003126907/09A RU2254610C2 (en) 2003-09-04 2003-09-04 Method for automated classification of documents

Publications (2)

Publication Number Publication Date
RU2003126907A RU2003126907A (en) 2005-03-10
RU2254610C2 true RU2254610C2 (en) 2005-06-20

Family

ID=35364346

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2003126907/09A RU2254610C2 (en) 2003-09-04 2003-09-04 Method for automated classification of documents

Country Status (1)

Country Link
RU (1) RU2254610C2 (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2517368C2 (en) * 2009-11-10 2014-05-27 Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед Method and apparatus for determining and evaluating significance of words
RU2546555C1 (en) * 2013-12-11 2015-04-10 Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Method of automated classification of formalised documents in electronic document circulation system
RU2571545C1 (en) * 2014-09-30 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Content-based document image classification
RU2571510C2 (en) * 2013-12-25 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Method and apparatus using image magnification to suppress visible defects on image
RU2603495C1 (en) * 2015-06-16 2016-11-27 Общество с ограниченной ответственностью "Аби Девелопмент" Classification of document images based on parameters of colour layers
US9779294B2 (en) 2014-12-31 2017-10-03 Xiaomi Inc. Methods and devices for classifying pictures
RU2643464C2 (en) * 2014-12-31 2018-02-01 Сяоми Инк. Method and apparatus for classification of images
RU2647670C1 (en) * 2016-09-27 2018-03-16 Общество с ограниченной ответственностью "Аби Девелопмент" Automated methods and systems of identifying image fragments in document-containing images to facilitate extraction of information from identificated document-containing image fragments
RU2647640C2 (en) * 2015-12-07 2018-03-16 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Method of automatic classification of confidential formalized documents in electronic document management system
RU2701995C2 (en) * 2018-03-23 2019-10-02 Общество с ограниченной ответственностью "Аби Продакшн" Automatic determination of set of categories for document classification
RU2726931C1 (en) * 2019-11-29 2020-07-16 Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М.Штеменко" Министерства обороны Российской Федерации Method for automatic classification of electronic documents in an electronic document management system with automatic generation of electronic cases
RU2737720C1 (en) * 2019-11-20 2020-12-02 Общество с ограниченной ответственностью "Аби Продакшн" Retrieving fields using neural networks without using templates
RU2744720C1 (en) * 2020-05-12 2021-03-15 Андрей Павлович Жураковский System of automated monitoring of the military-political situation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROBERT E. SHAPIRE, YORAM SINGER, BoosTexter: A Boosting-based System for Text Categorization. B: "IEEE Machine Learning" 2000, 39, 2/3 c. 135-168. *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2517368C2 (en) * 2009-11-10 2014-05-27 Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед Method and apparatus for determining and evaluating significance of words
RU2546555C1 (en) * 2013-12-11 2015-04-10 Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Method of automated classification of formalised documents in electronic document circulation system
RU2571510C2 (en) * 2013-12-25 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Method and apparatus using image magnification to suppress visible defects on image
RU2571545C1 (en) * 2014-09-30 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Content-based document image classification
RU2643464C2 (en) * 2014-12-31 2018-02-01 Сяоми Инк. Method and apparatus for classification of images
US9779294B2 (en) 2014-12-31 2017-10-03 Xiaomi Inc. Methods and devices for classifying pictures
RU2603495C1 (en) * 2015-06-16 2016-11-27 Общество с ограниченной ответственностью "Аби Девелопмент" Classification of document images based on parameters of colour layers
RU2647640C2 (en) * 2015-12-07 2018-03-16 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Method of automatic classification of confidential formalized documents in electronic document management system
RU2647670C1 (en) * 2016-09-27 2018-03-16 Общество с ограниченной ответственностью "Аби Девелопмент" Automated methods and systems of identifying image fragments in document-containing images to facilitate extraction of information from identificated document-containing image fragments
RU2701995C2 (en) * 2018-03-23 2019-10-02 Общество с ограниченной ответственностью "Аби Продакшн" Automatic determination of set of categories for document classification
RU2737720C1 (en) * 2019-11-20 2020-12-02 Общество с ограниченной ответственностью "Аби Продакшн" Retrieving fields using neural networks without using templates
US11816165B2 (en) 2019-11-20 2023-11-14 Abbyy Development Inc. Identification of fields in documents with neural networks without templates
RU2726931C1 (en) * 2019-11-29 2020-07-16 Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М.Штеменко" Министерства обороны Российской Федерации Method for automatic classification of electronic documents in an electronic document management system with automatic generation of electronic cases
RU2744720C1 (en) * 2020-05-12 2021-03-15 Андрей Павлович Жураковский System of automated monitoring of the military-political situation

Also Published As

Publication number Publication date
RU2003126907A (en) 2005-03-10

Similar Documents

Publication Publication Date Title
CN113011533B (en) Text classification method, apparatus, computer device and storage medium
Genkin et al. Large-scale Bayesian logistic regression for text categorization
US7711747B2 (en) Interactive cleaning for automatic document clustering and categorization
WO2021093755A1 (en) Matching method and apparatus for questions, and reply method and apparatus for questions
US7295965B2 (en) Method and apparatus for determining a measure of similarity between natural language sentences
US7971150B2 (en) Document categorisation system
US20060026203A1 (en) Method and system for discovering knowledge from text documents
RU2254610C2 (en) Method for automated classification of documents
JP6729095B2 (en) Information processing device and program
CN113836274A (en) Abstract extraction method, device, equipment and medium based on semantic analysis
Pirovani et al. Portuguese named entity recognition using conditional random fields and local grammars
CN116501875B (en) Document processing method and system based on natural language and knowledge graph
CN115858474B (en) File arrangement system based on AIGC
KR102376489B1 (en) Text document cluster and topic generation apparatus and method thereof
Ao et al. News keywords extraction algorithm based on TextRank and classified TF-IDF
Frasconi et al. Text categorization for multi-page documents: A hybrid naive Bayes HMM approach
Mansour et al. Text vectorization method based on concept mining using clustering techniques
JPH11328317A (en) Method and device for correcting japanese character recognition error and recording medium with error correcting program recorded
RU2546555C1 (en) Method of automated classification of formalised documents in electronic document circulation system
CN113032573A (en) Large-scale text classification method and system combining theme semantics and TF-IDF algorithm
Chau et al. A conceptlink graph for text structure mining
WO2023083176A1 (en) Sample processing method and device and computer readable storage medium
Vadivel et al. An Effective Document Category Prediction System Using Support Vector Machines, Mann-Whitney Techniques
CN111767404B (en) Event mining method and device
Junker et al. Evaluating ocr and non-ocr text representations for learning document classifiers

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20160905