DE19526263C1 - Automatic process for classification of text - Google Patents
Automatic process for classification of textInfo
- Publication number
- DE19526263C1 DE19526263C1 DE19526263A DE19526263A DE19526263C1 DE 19526263 C1 DE19526263 C1 DE 19526263C1 DE 19526263 A DE19526263 A DE 19526263A DE 19526263 A DE19526263 A DE 19526263A DE 19526263 C1 DE19526263 C1 DE 19526263C1
- Authority
- DE
- Germany
- Prior art keywords
- text
- vector
- training
- classification
- descriptors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003455 independent Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012109 statistical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren zur Klassifizierung eines natürlichen Textes nach dem Oberbegriff des Pa tentanspruchs 1.The invention relates to a method for classification a natural text according to the generic term of Pa claim 1.
Die Klassifikation von Texten ist ein wesentlicher Schritt bei der automatischen Verarbeitung digitalisierter Texte und von besonderer Bedeutung für das automatisierte Text verstehen natürlichsprachlicher Texte. Durch die Zuordnung eines Textes zu einer thematisch stärker eingeschränkten Textklasse kann die für die weitere automatische Verarbei tung des Textes erforderliche Wissensbasis in Form von Le xikonspeicher, syntaktischen und semantischen Vorschriften etc., stark eingeschränkt und in vielen Fällen eine Verarbeitung mit vertretbarem Aufwand und akzeptabler Er folgsnote erst durchgeführt werden.The classification of texts is an essential step in the automatic processing of digitized texts and of particular importance for automated text understand natural language texts. By assignment of a text on a thematically more restricted Text class can be used for further automatic processing required knowledge base in the form of Le xicon memory, syntactic and semantic regulations etc., severely restricted and in many cases one Processing with reasonable effort and acceptable Er follow-up grade will only be carried out.
Üblicherweise wird hierfür eine Mehrzahl von Deskriptoren vorgegeben und das Auftreten solcher Deskriptoren in einem zu klassifizierenden Text überprüft. Die Art der Deskrip torenvorgabe beeinflußt auch das Vorgehen bei der Klassi fizierung.A number of descriptors are usually used for this given and the occurrence of such descriptors in one checked text to be classified. The type of descript The goal specification also influences the procedure for the classi fication.
Für Deskriptoren mit Begriffsinhalten wie Wortformen oder mehrere Wörter umfassenden Ausdrücken ist die Klassifizie rung mit regelgestützten Klassifikatoren wie Entschei dungsbäumen angebracht, siehe z. B. "Toward Language Inde pendent Automated Learning of Text Categorization Models" von Apte/Damerau/Weiss in Proceedings of the 17th Int. Conf. on Resarch and Development in Information Retrieval, S. 23-30, Irland 1994.For descriptors with conceptual content such as word forms or multi-word expressions is the classification rule-based classifiers such as decision making attached trees, see e.g. B. "Toward Language Inde Pendent Automated Learning of Text Categorization Models " by Apte / Damerau / Weiss in Proceedings of the 17th Int. Conf. on Resarch and Development in Information Retrieval, Pp. 23-30, Ireland 1994.
Für Deskriptoren die, wie z. B. n-Grame, mehr oder weniger Elemente ohne Bedeutungsinhalt aufweisen, sind statisti sche Klassifizierungstechniken geeigneter. Hierzu zählen z. B. neuronale Netzwerke oder die Vektorabstandsprüfung mit Zuordnung zur Klasse des nächsten Nachbarn. ("N-Gram- Based Text Categorization" von Cavnar/Trenkle in Procee dings of the 3rd Annual Symposium on Document Analysis and Information Retrieval, S. 161-175, Las Vegas, 1994). Hier für bilden die vordefinierten Deskriptoren einen in dimensionalen Vektorraum und für einen zu klassifizieren den Text wird ein Vektor generiert, dessen Komponenten durch Vergleich des Textes mit der Deskriptorenliste ge wonnen werden. Der so erzeugte textspezifische Vektor wird mit einer Mehrzahl von Trainingsvektoren zu Trainings texten mit bekannter Klassenzugehörigkeit verglichen. Der zu klassifizierende Text wird der Klasse zugeordnet, der auch der Trainingsvektor mit dem kleinsten Vektorabstand angehört.For descriptors such as B. n-Grame, more or less Elements that have no meaning are statistical Classification techniques more suitable. Which includes e.g. B. neural networks or vector distance testing with assignment to the class of the nearest neighbor. ("N-gram- Based Text Categorization "by Cavnar / Trenkle in Procee dings of the 3rd Annual Symposium on Document Analysis and Information Retrieval, pp. 161-175, Las Vegas, 1994). Here for the predefined descriptors form an in dimensional vector space and classify for one the text generates a vector, its components by comparing the text with the list of descriptors be won. The text-specific vector created in this way becomes with a plurality of training vectors for training compared texts with known class affiliation. Of the Text to be classified is assigned to the class that also the training vector with the smallest vector distance listened to.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Klassifizierung eines natürlichsprachlichen Textes auf der Basis eines textspezifischen Merkmalsvek tors anzugeben.The present invention is based on the object Procedure for classifying a natural language Text based on a text-specific feature vector tors to specify.
Die Erfindung ist im Patentanspruch 1 beschrieben. Die Un teransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.The invention is described in claim 1. The Un Claims contain advantageous refinements and Developments of the invention.
Die Erfindung nutzt die Erkenntnis, daß in den textspezi fischen Vektoren eine große Anzahl der Komponenten Null sind, d. h., daß von der bei derartigen Klassifizierungsan sätzen hohen Anzahl von Deskriptoren innerhalb eines Tex tes nur ein geringer Anteil vertreten ist. Darüberhinaus sind nicht alle Deskriptoren von gleicher Wichtigkeit für die Klassifikation. Mit der erfindungsgemäßen Transforma tion kann die Vektordimension erheblich reduziert und so mit ein Klassifikator einfacher entworfen und betrieben werden. Die Komponenten der Transformationsmatrix können dabei so gewählt werden, daß die Komponenten des höherdi mensionalen Merkmalsvektors entsprechend ihrer Bedeutung für die Klassifikation mit unterschiedlicher Gewichtung in den reduzierten Vektor eingehen. Dies ist insbesondere von Vorteil in Verbindung mit der Generierung der Deskriptoren nach im wesentlichen statistischen Verfahren ohne oder mit geringer morphologischer und linguistischer Wissensbasis. The invention uses the knowledge that in the textspezi vectors fish a large number of zero components are, d. that is, that of such classifications set high number of descriptors within a text only a small proportion is represented. Furthermore not all descriptors are of equal importance for the classification. With the transforma according to the invention tion can significantly reduce the vector dimension and so designed and operated more easily with a classifier will. The components of the transformation matrix can be chosen so that the components of the hochdi dimensional feature vector according to their meaning for the classification with different weighting in enter the reduced vector. This is particularly from Advantage in connection with the generation of the descriptors according to essentially statistical procedures with or without low morphological and linguistic knowledge base.
Eine bevorzugte Ausführungsform sieht vor, die Transforma tionsmatrix mit Hilfe der an sich bekannten und bei bei spielsweise Zeichenerkennungsverfahren (OCR) eingesetzten Hauptachsentransformation mit nachfolgender Einschränkung auf die Eigenvektoren mit den höchsten Eigenwerten aus Trainingsvektoren zu bestimmen.A preferred embodiment provides for the transforma tion matrix with the help of the known and at bei for example, character recognition (OCR) Major axis transformation with the following restriction on the eigenvectors with the highest eigenvalues Determine training vectors.
Als Klassifikator wird vorteilhafterweise ein Polynom- Klassifikator, der im einfachsten Fall auch ein linearer Klassifikator sein kann, eingesetzt.A polynomial is advantageously used as the classifier. Classifier, which in the simplest case is also a linear one Classifier can be used.
Die Komponenten des Merkmalsvektors können binärwertig sein und nur das Auftreten oder Fehlen eines Deskriptors in einem überprüften Text wiedergeben. Vorzugsweise reprä sentieren die Werte der Vektorkomponenten zu einem Text jedoch auch dessen Auftretenshäufigkeit in dem überprüften Text.The components of the feature vector can be binary and only the appearance or absence of a descriptor play in a verified text. Preferably reprä present the values of the vector components to a text however also its frequency of occurrence in the checked Text.
Die Erfindung ist nachfolgend anhand eines Beispiels noch veranschaulicht.The invention is based on an example illustrated.
Aus einer Sammlung von 600 Trainingstexten werden in einem Vorverarbeitungsschritt geeignete Deskriptoren ermittelt und in eine Deskriptorenliste eingetragen. Verfahren hierzu sind aus dem Stand der Technik bekannt. Vorteilhaft sind beispielsweise Trigrame oder bevorzugterweise die nach dem in der gleichzeitig eingereichten deutschen Pa tentanmeldung "Verfahren zur Erzeugung von Deskriptoren" beschriebenen Verfahren gewonnenen Deskriptoren. Die Trai ningstexte werden einzeln mit der Deskriptorenliste verg lichen, wobei für jeden Deskriptor die Häufigkeit seines Auftretens in dem Text bestimmt wird. Das Ver gleichsergebnis kann als m-dimensionaler Merkmalsvektor mit m als Anzahl der Deskriptoren dargestellt werden, wo bei die bestimmten Häufigkeiten an den den jeweiligen De skriptoren zugewiesenen Stellen des Merkmalsvektors einge tragen sind. Als Anzahl der Deskriptoren sei m = 2500 an genommen. Man erhält so aus der Sammlung der Training stexte 600 Merkmalsvektoren der Dimension 2500. Diese Trainingsvektoren werden einer Hauptachsentransformation unterzogen, bei welcher sich in an sich bekannter Weise unter der Zielvorgabe der Minimierung von Rekonstruktions fehlern 2500 Eigenvektoren bi (i = 1 bis in) mit je einem zugeordneten Eigenwert li ergeben. Die Paare (bi, li) von Eigenvektoren und zugehörigen Eigenwerten werden der Größe der Eigenwerte nach geordnet. Nur eine Anzahl n von Eigenvektoren zu den n größten Eigenwerten, z. B. n = 200 wird weiterverwandt. Diese Vektoren werden zu einer in × n- Transformationsmatrix zusammengefaßt.In a preprocessing step, suitable descriptors are determined from a collection of 600 training texts and entered in a list of descriptors. Methods for this are known from the prior art. For example, trigrams are advantageous, or preferably the descriptors obtained according to the method described in the simultaneously filed German patent application "Process for generating descriptors". The training texts are compared individually with the list of descriptors, the frequency of their occurrence in the text being determined for each descriptor. The comparison result can be represented as an m-dimensional feature vector with m as the number of descriptors, where the given frequencies are entered at the locations of the feature vector assigned to the respective descriptors. Let m = 2500 be assumed as the number of descriptors. In this way, 600 training vectors of dimension 2500 are obtained from the collection of training texts. These training vectors are subjected to a main axis transformation, in which 2500 eigenvectors b i (i = 1 to in) are used in a manner known per se, with the aim of minimizing reconstruction errors each result in an assigned eigenvalue l i . The pairs (b i , l i ) of eigenvectors and associated eigenvalues are ordered according to the size of the eigenvalues. Only a number n of eigenvectors to the n largest eigenvalues, e.g. B. n = 200 is used further. These vectors are combined to form an × n transformation matrix.
Die Merkmalsvektoren zu den Trainingstexten werden mittels der Transformationsmatrix in reduzierte Trainingsvektoren der Dimension n transformiert und ein linearer Klassifika tor wird anhand dieser reduzierten Trainingsvektoren und der bekannten Klassenzugehörigkeit der entsprechenden Trainingstexte eingestellt. Klassifikatoren an sich sowie deren Einstellung anhand von Trainingsproben sind aus dem Stand der Technik bekannt.The feature vectors for the training texts are created using the transformation matrix into reduced training vectors the dimension n transformed and a linear classifier is based on these reduced training vectors and the known class of the corresponding Training texts set. Classifiers per se as well their setting based on training samples are from the State of the art known.
Die in der Trainingsphase vorgenommene Einstellung des Klassifikators wird für die Klassifikationsphase beibehal ten. Aus einem zu klassifizierenden Text wird durch Ver gleich mit der Deskriptorenliste ein m-dimensionaler Merk malsvektor bestimmt, welcher mittels der m × n-Transforma tionsmatrix in einen reduzierten Vektor der Dimension n überführt wird. Der Klassifikator wird mit dem reduzierten Vektor gespeist und gibt eine Zuordnung für den zugrunde liegenden Text zu einer von z. B. 6 vorgesehenen Textklas sen aus.The setting of the Classifier is retained for the classification phase From a text to be classified, Ver an m-dimensional note with the descriptor list times vector determined, which by means of the m × n transforma tion matrix into a reduced vector of dimension n is transferred. The classifier is reduced with the Vector fed and gives an assignment for the basis lying text to one of z. B. 6 provided text class sen out.
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19526263A DE19526263C1 (en) | 1995-07-19 | 1995-07-19 | Automatic process for classification of text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19526263A DE19526263C1 (en) | 1995-07-19 | 1995-07-19 | Automatic process for classification of text |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19526263C1 true DE19526263C1 (en) | 1996-11-07 |
Family
ID=7767182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19526263A Expired - Fee Related DE19526263C1 (en) | 1995-07-19 | 1995-07-19 | Automatic process for classification of text |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19526263C1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0241717A2 (en) * | 1986-04-18 | 1987-10-21 | International Business Machines Corporation | Linguistic analysis method and apparatus |
EP0524694A1 (en) * | 1991-07-23 | 1993-01-27 | Océ-Nederland B.V. | A method of inflecting words and a data processing unit for performing such method |
-
1995
- 1995-07-19 DE DE19526263A patent/DE19526263C1/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0241717A2 (en) * | 1986-04-18 | 1987-10-21 | International Business Machines Corporation | Linguistic analysis method and apparatus |
EP0524694A1 (en) * | 1991-07-23 | 1993-01-27 | Océ-Nederland B.V. | A method of inflecting words and a data processing unit for performing such method |
Non-Patent Citations (2)
Title |
---|
AptE, Damerau, Weiss: Towards Language Indepen- dent Automated Learning of Text Categorization Models. In: Proceedings of the 17th Int. Conf. on Research and Development in Information Retrieval, S. 23-30, Irland 1994 * |
Cavnar, Trenkle: N-Gram-Based Text Categorisation.In: Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval, S. 161-175, Las Vegas 1994 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69814104T2 (en) | DISTRIBUTION OF TEXTS AND IDENTIFICATION OF TOPICS | |
DE60208223T2 (en) | ARRANGEMENT AND METHOD FOR FACE DETECTION USING PARTS OF THE LEARNED MODEL | |
DE69818161T2 (en) | Automated grouping of meaningful sentences | |
EP0604476B1 (en) | Process for recognizing patterns in time-varying measurement signals | |
DE60316227T2 (en) | Assess the oddity of a document | |
DE19721198C2 (en) | Statistical language model for inflected languages | |
EP0925461B1 (en) | Process for the multilingual use of a hidden markov sound model in a speech recognition system | |
DE60315947T2 (en) | Method for language modeling | |
EP0862161B1 (en) | Speech recognition method with model adaptation | |
DE69937176T2 (en) | Segmentation method to extend the active vocabulary of speech recognizers | |
DE60126564T2 (en) | Method and arrangement for speech synthesis | |
DE10134899A1 (en) | Subject-based system and procedure for classifying documentation units | |
DE112013002654T5 (en) | Method for classifying text | |
EP1273003B1 (en) | Method and device for the determination of prosodic markers | |
DE60128706T2 (en) | CHARACTER RECOGNITION SYSTEM | |
DE112020005572T5 (en) | Deep face detection based on clusters over unlabeled face data | |
DE202023102803U1 (en) | System for emotion detection and mood analysis through machine learning | |
DE19526263C1 (en) | Automatic process for classification of text | |
DE102012025349B4 (en) | Determination of a similarity measure and processing of documents | |
DE19942223C2 (en) | Classification procedure with rejection class | |
DE69734507T2 (en) | METHOD FOR OPTIMIZING AN IDENTIFICATION DOCUMENT SO THAT THE SIMILAR PATTERN CAN BE BETTERLY DISTINCTED | |
DE102019209566A1 (en) | Method and device for training a machine learning system | |
EP0965088B1 (en) | Reliable identification with preselection and rejection class | |
EP3905097A1 (en) | Device and method for determining a knowledge graph | |
DE102016125162B4 (en) | Method and device for the automatic processing of texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLERCHRYSLER AG, 70567 STUTTGART, DE |
|
8339 | Ceased/non-payment of the annual fee |