EP3830761A1 - Computer-implemented method and device for text analysis - Google Patents

Computer-implemented method and device for text analysis

Info

Publication number
EP3830761A1
EP3830761A1 EP19739587.4A EP19739587A EP3830761A1 EP 3830761 A1 EP3830761 A1 EP 3830761A1 EP 19739587 A EP19739587 A EP 19739587A EP 3830761 A1 EP3830761 A1 EP 3830761A1
Authority
EP
European Patent Office
Prior art keywords
neural network
artificial neural
components
term
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP19739587.4A
Other languages
German (de)
French (fr)
Inventor
Michael Dorna
Anna Constanze HAETTY
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of EP3830761A1 publication Critical patent/EP3830761A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Definitions

  • the disclosure is based on computer-implemented methods and
  • Belonging of a composite from a text to a subject Belonging of a composite from a text to a subject.
  • Machine-based systems for text analysis use rule-based or statistical procedures for terminology extraction and keywording. Hybrid processes and machine learning processes are also used for text analysis.
  • Binary decisions form the basis of such methods for assigning a composite to a specific field. It is desirable to enable an improved approach.
  • corpus denotes a text or a collection of texts.
  • a subject-specific corpus only contains text that is specific to a domain.
  • a general language corpus describes text or a collection of texts without specific assignment to a domain. For example, all texts of a cooking forum on the Internet provide one
  • a corpus that are analyzed are referred to as term candidates.
  • a text can also contain parts that cannot or should not be analyzed.
  • compound means a word combination, i.e. a word that is composed by connecting at least two already existing words or stems.
  • component denotes part of a composite, i.e. part of the word composition.
  • a degree of affiliation of a component or a compound to a specific domain is referred to below as a class.
  • a certain compound is, for example, a certain class
  • the indicator from the output layer is compared with the Indicator that is assigned to the characteristic in the training data is compared.
  • the result of the comparison at least one
  • Characterized output layer As a result, terms can be classified into four classes NONTERM, SIMTERM, TERM, SPECTERM instead of in two classes term or non-term.
  • candidates are advantageously taken from a corpus which is subject-specific with regard to the domain. Such a body is particularly suitable for training the classification.
  • the term candidates are advantageously assigned to at least one of the classes and the features for the term candidates are determined, in particular a word vector being determined and at least one parameter of the artificial neural network being trained with the features.
  • the term candidates are advantageously composites with at least two components.
  • the training data assign composites to at least one of more than three classes. This is particularly useful for composites, since a composite can have different specificity or centrality for a domain, depending on its components. For example, it is likely that a specific technical term is one or more very specific
  • a general term does not contain a component specific to this domain.
  • the artificial neural network is thus trained for a very fine distinction.
  • Components can be determined as features based on the specific body.
  • Productivity and frequency are other characteristics related to the frequency of occurrence of the components. This improves the training even more.
  • Characterize term candidates from a corpus comprising a text from a domain, wherein an identifier is determined which characterizes a degree of belonging to at least three different classes for the term candidates, with different classes different degrees of belonging of the term candidate to the domain specify, at least one characteristic being assigned to at least one of the indicators.
  • This training data is particularly suitable for training a classification with more than three classes.
  • the term candidates are advantageously taken from a corpus which is subject-specific with regard to the domain.
  • the subject-specific corpus offers a high density of relevant term candidates of a domain.
  • the term candidates are advantageously assigned to at least one of the classes and the characteristics for the term candidates are determined, in particular a word vector being determined.
  • the assignment of characteristics to classes is a particularly suitable representation of the classification of term candidates for machine learning.
  • the term candidates are advantageously composites with at least two components.
  • This form of training data is especially for one
  • composites from a corpus specific to the domain are divided into components as term candidates, the composites are assigned to at least one of the classes, and the characteristics for the composites and the components are determined.
  • the additional features enable better training of the artificial neural network even with limited availability of term candidates from a limited range of text, without the need for new texts with new composites.
  • At least one word vector is advantageously determined as a feature. If the word vectors are used in the training data, the artificial neural network itself does not need an embedding layer that consists of the
  • Components determined as characteristics based on the specific body Components determined as characteristics based on the specific body.
  • the additional features of productivity and a frequency enable better training of the artificial neural network even with limited availability of term candidates from a limited amount of text, without the need to add new texts with new composites.
  • An artificial neural network comprises an input layer which can be specified with a feature, the artificial neural network being designed to assign a characteristic to the feature from the input layer in a prediction in an output layer of the artificial neural network, the
  • the artificial neural network advantageously comprises at least one first input layer, to which a compound and its components can be predefined for a first characteristic, the artificial neural network comprising at least a second input layer, which can be predefined a productivity and a frequency of the components for a second characteristic, wherein the output layer is subordinate to the input layers and outputs the indicator in the prediction depending on the first characteristic and the second characteristic.
  • the artificial neural network preferably comprises a further one
  • Output layer that is formed a degree of assignment of a
  • Output layer is an auxiliary output that turns into an error function
  • Output layer is an auxiliary output that turns into an error function
  • a composite and its components for a first characteristic are advantageously specified for a first input layer, productivity and a frequency of the components for a second characteristic being specified for a second input layer, the output layer representing the
  • FIG. 1 schematically shows parts of an artificial neural network
  • domain denotes a specialist or subject area.
  • the classes NONTERM, SIMTERM, TERM, SPECTERM are used.
  • NONTERM is a class for components or composites that have no particular relation to the domain. For example, a
  • SIMTERM is a class for components or composites that have a greater relationship to the domain than components or composites from the class NONTERM. For example, components or composites with a semantic reference to the domain are classified as SIMTERM.
  • SPECTERM is a class for components or composites that are more related to the domain than components or composites from the TERM class. For example, incomprehensible components or composites related to the domain are classified as SPCTERM.
  • the four classes represent different degrees of belonging to a domain. More precisely, the degree of belonging to the domain increases with the classification of NONTERM via SIMTERM and TERM to SPECTERM. For example, the four classes are assigned four indicators as follows: The class NONTERM is assigned a first scalar 01, the class
  • a second scalar o 2 is assigned to SIMTERM, a third scalar 03 is assigned to the TERM class and a fourth scalar 04 is assigned to the SPECTERM classes.
  • a vector 0 ⁇ , o 2 , o 3 , o 4 ) T is used as the identifier.
  • each scalar has a value between 0 and 1, the degree of membership increasing with the value of the respective scalar from 0 to 1.
  • training data include characteristics
  • Characteristic is, for example, a vector s with scalars Si, s 2 , S 3 , s 4 whose value between 0 and 1 represents a degree of belonging to this class.
  • the value 1 represents a high degree of affiliation.
  • the value 0 represents, for example, a low degree of affiliation.
  • An artificial neural network according to a first embodiment is described below with reference to FIG. 1 as an example of a model for classifying text depending on the degree of belonging of a component or a compound to a specific domain.
  • an output O of the network is defined as:
  • the vector z for a word x is a 200-dimensional word vector. If a number n words are used in a batch of size b, n vectors z are used in a matrix Z with the dimension [n * 200, b].
  • Wi and W 2 are weighting matrices.
  • the weighting matrix W1 in the example for n words has a dimension [64, n * 200] matching the n 200-dimensional vectors z.
  • the weighting matrix W 2 has a dimension [4, 64] suitable for the four classes NONTERM, SIMTERM, TERM, SPECTERM.
  • 4 neurons are used as output O in the output layer.
  • s is a Softmax activation function with which one
  • the Softmax activation function converts a raw value into one
  • FIG. 1 shows schematically, as an example of a model, parts of an artificial neural network 100 with layers lying one behind the other.
  • the artificial neural network 100 comprises an input layer 102, a first hidden layer 104, a second hidden layer 106 and an output layer 108.
  • the input layer 102 is designed to transfer a term candidate T as the word x to the first hidden layer 104.
  • the first hidden layer 104 in the example is the function E (x), i.e. the embedding layer in which the function
  • the mapping is carried out, for example, using a continuous bag-of-words, CBOW, model.
  • CBOW continuous bag-of-words
  • a Word2Vec CBOW model according to Tornas Mikolov et. al, 2013, Distributed representations of words and phrases and their compositionality, Advances in Neural Information Processing Systems, pages 3111-3119, Curran Associatates, Inc., used to generate the 200-dimensional word vector.
  • the CBOW model is trained using a lexicon to learn the weights of the first hidden layer 104 for words. For example, a previously trained CBOW model is used to initialize the embedding layer. The first hidden layer 104 is then initialized with appropriate weights for words.
  • Words that are not recognized as such are mapped to a word vector z with random elements, for example. Words that have been recognized are mapped onto the corresponding word vector z.
  • the word vector represents the term candidates.
  • the word vector z is transferred from the first hidden layer 104 to the second hidden layer 106.
  • the second hidden layer 106 uses the first weight matrix Wi and the activation function cp.
  • the output d is passed to the output layer 108.
  • the example uses the Softmax activation function, which is used to determine the probability of the word x belonging to one of the classes.
  • the weight matrices and the activation functions are parameters of the artificial neural network 100.
  • the parameters in particular the
  • Weight matrices are changeable in a workout.
  • a method for training this artificial neural network 100 is described below.
  • Training data for training this artificial neural network 100 include features and characteristics. More specifically, the training data include an assignment of features to license plates.
  • a label s characterizes at least three different classes for the term candidates T.
  • the label s characterizes the four classes NONTERM, SIMTERM, TERM, SPECTERM.
  • the classes indicate the degree of belonging of the term candidate T to the domain.
  • Annotators ie people for example, look for words or word combinations as term candidates T from the subject-specific corpus and assign them to one of the four classes.
  • the assignment in the training data includes, for example, as a feature a word vector z which represents the term candidate T.
  • a first scalar si is assigned to class NONTERM, a second scalar s 2 to class SIMTERM, a third scalar S3 to class TERM and a fourth scalar s 4 to classes SPECTERM.
  • a vector s (s 1 , s 2 , s 3 , s 4 ) 7 ' is used as the identifier. used.
  • each scalar has a value between 0 and 1, the degree of membership increasing with the value of the respective scalar from 0 to 1, for example.
  • the indicator includes values that the annotator selects.
  • the composites can be searched automatically using a splitter, and the classes can be predicted using the already trained artificial neural network 100.
  • the artificial neural network 100 maps a feature that the
  • Term candidates T from the input layer 102 represent a prediction in the output layer 108 of the artificial neural network 100
  • Indicator o to.
  • the prediction is made using the model described.
  • the identifier o from the output layer 108 is compared with the identifier s assigned to this feature in the training data. For example, an error function is evaluated in the comparison, for example a difference, in particular a Euclidean distance, between the vector s and the vector o.
  • At least one parameter of the artificial neural network 100 is learned.
  • the parameter characterizes a connection of the artificial neural network 100 between the
  • Input layer 102 and output layer 108 For example, the weight matrices W1 and W 2 are learned depending on the error function until the error function is minimized. For example, the Stochastic Gradient Descent (SGD) method is used. A large number of assignments of features to identifiers is preferably provided in the training data. 50 epochs are used in the example. 32 training examples are processed in each of the 50 epochs.
  • SGD Stochastic Gradient Descent
  • a training data record comprises 1600 assignments. Provision can be made to carry out the training with a different number of epochs or with a different size of a training data record.
  • Composites are used. Such a trained artificial neural network enables a particularly efficient classification of texts based on the composites contained therein.
  • training data of a training data record include an assignment of features that represent composites to the indicators that represent the class into which the composites have been classified by annotators.
  • the composites are taken from a corpus specific to a domain.
  • the model is trained for a classification depending on the degree of belonging of a component to a specific domain.
  • Composites are word compositions that contain words or stem words as components. Depending on the composition of the components, composites are formed which have a greater or lesser degree of
  • a corn component can be assigned to a cooking domain or an agriculture domain.
  • a composite of maize cultivation can only be assigned to the agricultural domain.
  • a composite of corn flour can only be assigned to the cooking domain.
  • a classification of the composite is possible by classifying the two other components - cultivation and flour.
  • the compound corn cultivation can also be associated with the domain of cooking.
  • a text or a text collection with a known reference to this domain is used as a subject-specific corpus.
  • the subject-specific corpus is a text collection of cooking recipes. This contains possible technical terms from the domain "cooking" as term candidates.
  • Term candidates are identified from the subject-specific corpus.
  • composites are identified as term candidates.
  • term candidates with a certain minimum length are taken into account in the example. Term candidates with only one letter are ignored in this case. Without a minimum length, term candidates with just one letter could alternatively be classified in the NONTERM class.
  • the term candidates are assigned a user-based assessment of specificity and centrality. In the example, for one
  • Term candidate uses a multidimensional scale using the four classes to assign the term candidate a classification in one of the classes NONTERM, SIMTERM, TERM or SPECTERM.
  • the annotators are required to classify a term candidate into the SPECTERM class if it is very specific for the specific domain, in the example "cooking" and has a high degree of proximity to the specific domain.
  • Annotators are required to classify a term candidate into the SIMTERM class if it is very specific and has a medium degree of proximity to the particular domain.
  • the annotators are required to classify a term candidate into the TERM class if he is close to the particular domain, in the example "cooking", but is otherwise technically unspecific.
  • the annotators are required to classify other term candidates into the NONTERM class.
  • subject-specific corpus is considered the compound "maize cultivation".
  • the composite corn cultivation and the definition for classification are presented to a large number of annotators. For example, some annotators classify the compound into the NONTERM class based on this definition. Other annotators classify the compound, for example, into the class
  • the training data record is supplemented by the entry maize cultivation in the class into which the composite maize cultivation was classified by all or a majority of the annotators.
  • a training record contains an assignment of a characteristic that represents the entry maize cultivation to one of the classes. For example, the word vector z that the
  • Term candidates characterized by maize cultivation assigned to the vector s that characterizes the class SIMTERM.
  • a training data record contains a large number of such assignments for a large number of different term candidates.
  • Training set the model is trained. In training, the large number of such assignments from a training data set is used to determine the
  • the word vectors z representing the composites are used as features.
  • the weight matrices Wi and W 2 are learned depending on these word vectors z, the vector s and a corresponding error function.
  • the artificial neural network 200 comprises a first input layer 202a, a second input layer 202b, a third input layer 202c, a fourth input layer 202d and a fifth input layer 202e.
  • the artificial neural network 200 comprises a first hidden layer 204a, which is arranged after the second input layer 202b, a second hidden layer 204b, which is arranged after the third input layer 202c, a third hidden layer 204c, which is arranged after the fourth input layer 202e.
  • the artificial neural network 200 comprises a fourth hidden layer 206a, which is arranged after the first input layer 202a.
  • the artificial neural network 200 comprises a fifth hidden layer 206b, which is arranged downstream of the first hidden layer 204a.
  • the artificial neural network 200 comprises a sixth hidden layer 206c, which is arranged downstream of the second hidden layer 204b.
  • the artificial neural network 200 comprises a seventh hidden layer 206d, which is arranged after the third hidden layer 204c.
  • the artificial neural network 200 comprises an eighth hidden layer 206e, which is arranged after the fifth input layer 202e.
  • the artificial neural network 200 comprises a ninth hidden layer 208a, which is arranged after the fourth hidden layer 206a and the fifth hidden layer 206b.
  • the artificial neural network 200 comprises a tenth hidden layer 208b, which is arranged after the seventh hidden layer 206d and the eighth hidden layer 206e.
  • term candidates are composites c 2, ie
  • the second input layers 202b and the fourth input layer 202d are designed as an input layer for components Ci, C of the composite c.
  • a first component Ci and a second component C are shown in FIG. 2, but more than two components can also be used if the composite contains more than two components.
  • an input to artificial neural network 200 includes compound c and each of its components.
  • Input layers each have a vector of dimension [1, b] for each of the
  • a vector x in which the composite c and its components are concatenated is used as the input for the hidden layers downstream of the second input layer 202b, the third input layer 202c and the fourth input layer 202d.
  • a model for concatenated vectors is used
  • x (c 1; c 2 , c 3 ).
  • the function E forms x, for example, on a concatenated word vector from.
  • the word vector z is a characteristic for the assignment.
  • the vectors xi , x 2, x 3 have the dimension [1, b], where zi , z 2, z 3 represents a matrix of the dimension [200, b].
  • the function E represents the embedding layer, which for example uses the bag-of-words model to map the respective part of the vector x to a respective part of the word vector z.
  • the output h of the fifth hidden layer 206b, the output l 2 of the sixth hidden layer 206c and the output l 3 of the seventh hidden layer 206d each have the dimension [64, b] in the example of the batch with b training data.
  • the first input layer 202a is an input for a first frequency f (ci) and a first productivity P (ci) of a first component Ci from a composite c 2 .
  • the fifth input layer 202c is an input for a second frequency (fC3) and a second productivity P (C3) of a second component C3 from one
  • Composite C2 Frequency here denotes a frequency of occurrence of the respective component Ci, C3 in other composites in the subject-specific corpus based on all components from the subject-specific corpus.
  • V 2 (/ s); P (c 3 )) used.
  • a multidimensional vector v with the dimensions frequency and productivity of the individual components is generally used as the input:
  • V Ol, V 2 ).
  • An output U of the fourth hidden layer 206a and an output I 5 of the eighth hidden layer 206e are
  • I 5 cp (W 5 * v 2 ) output of the eighth hidden layer 206e.
  • the output U of the fourth hidden layer 206a and the output h of the fifth hidden layer 206b have the batch with b in the B example Training data each have the dimension [64, b].
  • the output U of the fourth hidden layer 206a and the output h of the fifth hidden layer 206b form an input of the ninth hidden layer 208a.
  • the output Is of the eighth hidden layer 206e and the output of the seventh hidden layer 206d have the batch with b in the example
  • Training data each have the dimension [64, b].
  • the output I5 of the eighth hidden layer 206e and the output I 3 of the seventh hidden layer 206d form an input of the tenth hidden layer 208b.
  • An output l 6 of the ninth hidden layer 208a and an output l 7 of the tenth hidden layer 208b are
  • the output IQ of the ninth hidden layer 208a and the output I7 of the tenth hidden layer 208b have the batch with b in the example
  • Training data one dimension each [128, b].
  • the output Q of the I ninth hidden layer 208a and the output of the tenth I7 hidden layer 208b form the output L 2 of the sixth hidden layer 206c to the input of the eleventh hidden layer 210th
  • the output Is of the eleventh buried layer 210 is
  • Is [I Q ; H; I7] T exit of the eleventh hidden layer 210.
  • the output Is of the eleventh hidden layer 210 has the dimension [320, b].
  • the output of the fourth output layer 214 forms the output of the artificial neural network 200:
  • the output of the artificial neural network 200 in the example the output of the fourth output layer 214, has in the example the batch with b training data one dimension [4, b].
  • this output O is used in an error function, for example in a stochastic gradient descent method, with the vector s in order to adapt the weights of the weight matrices.
  • the output O and auxiliary outputs O aUx are provided
  • O aUx1 o (W 7 * Iq) output of the first output layer 212a
  • O aUx2 o (We * I2) output of the second output layer 212b
  • O aUx3 0 (Wg * I7) output of the third output layer 212c.
  • the auxiliary outputs O auxi , O auX 2 and O auX 3 have one dimension in the example of the batch with b training data [4, b].
  • the information from the auxiliary outputs O aUxi and O auX 3 for the components ci, C3 are used to optimize the artificial neural network 200 on the way to the output O.
  • the layers leading to the auxiliary outputs O auxi and O auX 3 sharpen the knowledge in the artificial neural network 200 into which classes the components belong.
  • the artificial neural network 200 learns to what extent this information helps to classify the composite.
  • output O characterizes the i-th of the four classes NONTERM, SIMTERM, TERM, SPECTERM in this order.
  • the output as O (o 1; o 2 , o 3 , o 4 ) in the output layer for a respective input yi and an i-th of the n scalar outputs o ; uses the following function
  • the value of o specifies in the example starting from 0 an increasing degree of belonging to the class for which o ; was determined.
  • the j optional additional outputs O aU xj
  • the output O auxi indicates the degree of belonging of the first component Ci to the classes.
  • the output O auX 2 indicates the degree of belonging of the composite c 2 to the classes.
  • the output O auX 3 indicates the degree of belonging of the component C3 to the classes.
  • the output of the fourth output layer 214 is used with a factor of 1 and all optional outputs are weighted with a factor of 0.2. Another weighting can also be used.
  • a back propagation algorithm for example, is used for training the neural network Outputs to optimize the weights of the weight matrices with
  • the dimensions of the weight matrices W are determined to match the dimensions of the respective input layer 202a, 202b, 202c, 202d, 202e and the respective output layer 212a, 212b, 212c, 214.
  • the weight matrix Wi of the fifth hidden layer 206b has, for example, a dimension 200 ⁇ 64 for a 200-dimensional word vector zi.
  • weight matrices W 2 and W3 of the sixth hidden layer 206c and the seventh hidden layer 206d have for 200-dimensional word vectors z 2 and Z3 the same dimensions.
  • the productivity and the frequency of a component are scalars in the example, the associated vector vi or v 2 is two-dimensional.
  • the weight matrices W3 and W 4 have the dimension 2 ⁇ b, for example, in the batch of size b.
  • the ninth buried layer 208a combines the outputs h and U.
  • the tenth buried layer 208b holds outputs I3 and I5.
  • the dimensions of the respective weight matrices are adapted to the dimensions of the respective outputs and to the size of the batch b.
  • More or less optional outputs and other suitable dimensions can also be used.
  • the outputs and vectors are combined, for example, by concatenation.
  • the artificial neural network 200 generally assigns an identifier O to a feature z, v, which represents the compound c 2 from the input layer 202, in a prediction in the output layer 214 of the artificial neural network 200.
  • the prediction is made using the model described.
  • the result of the prediction is the vector O.
  • the identifier O is compared with the identifier s assigned to this characteristic in the training data. For example, an error function, in particular a difference between the vector s and the vector O, is used in the comparison.
  • an error function in particular a difference between the vector s and the vector O, is used in the comparison.
  • at least one parameter of the artificial neural network is learned.
  • the parameter characterizes a connection of the artificial neural network between the input layer 102 and the output layer 108.
  • the weight matrices Wi and W 2 are determined depending on the difference.
  • an error function is evaluated with which the difference is minimized. For example, the Stochastic Gradient Descent (SGD) method is used.
  • SGD Stochastic Gradient Descent
  • the second embodiment is based on the following additional aspects compared to the first embodiment.
  • Assignment i.e. a centrality
  • a degree for a difficulty i.e. a specificity or a level.
  • Components of a composite that often occur in different composites are most likely central components for this domain.
  • Components of a composite that occur in small numbers are most likely components that are specific to the domain.
  • composites are formed that have a greater or lesser degree of belonging to a domain.
  • a corn component can be assigned to a cooking domain or an agriculture domain.
  • a composite of maize cultivation can only be assigned to the agricultural domain.
  • a composite of corn flour can only be assigned to the cooking domain.
  • the composite can be classified by classifying the common component maize and / or by the two further components - cultivation and flour.
  • Word composition as a component can only be assigned to one class.
  • the word vectors are trained on a general language corpus in order to be as extensive as possible
  • Get data material A fine adjustment is made by training the word vectors on a body that is subject-specific for the domain.
  • text or a text collection with a known reference to this domain is used as a subject-specific corpus.
  • a subject-specific corpus For example, text or a text collection with a known reference to this domain is used as a subject-specific corpus. In the example it is
  • subject-specific corpus a text collection of cooking recipes. This contains possible technical terms from the domain "cooking" as term candidates.
  • Determining productivity or frequency for example, only uses the subject-specific corpus.
  • Term candidates are identified from the subject-specific corpus.
  • composites are identified as term candidates.
  • Term candidates become lexical compound definitions or examples assigned. For example, a text is used as a lexical definition or example.
  • term candidates with a certain minimum length are taken into account in the example. Term candidates with only one letter are ignored in this case. Without a minimum length, term candidates with just one letter could alternatively be classified in the NONTERM class.
  • the term candidates are assigned a user-based assessment of specificity and centrality. In this case, for one
  • Term candidate used a multidimensional scale to match the
  • the annotators are required to classify a term candidate into the SPECTERM class if it is very specific to the particular term
  • Classify term candidates into the SIMTERM class if they have a medium degree of proximity to the specific domain.
  • the annotators are required to classify a term candidate into the TERM class if he is very close to the specific domain, in the example "cooking", but is otherwise technically unspecific.
  • the annotators are required to classify other term candidates into the NONTERM class.
  • Annotators classify the compound, for example, into the class
  • the training data record is supplemented by the entry tomato puree in the class into which the compound tomato puree was classified by all or a majority of the annotators.
  • a training record contains an assignment of a characteristic that is the entry
  • Tomato puree represents one of the classes.
  • the characteristics of the word vector z and the vector v, which are the term candidates are the term candidates
  • the training data record comprises a large number of such assignments.
  • Training record used to learn the weight matrices.
  • the weight matrices are learned depending on the features that represent the composites.
  • a correspondingly concatenated word vector z and a concatenated vector v are used, which characterize productivity and frequency.
  • the layers of the artificial neural network 200 and the vectors and matrices for calculation are used, for example
  • the relevant composites in the example of annotators are manually classified into the classes SIMTERM, TERM or SPECTERM, since they are names with different central and differently specific references to the topic of cooking.
  • the class of components is based on the
  • a tomato component is likely to be estimated to have the TERM class because the tomato component is very common in Composites such as "tomato soup”, “tomato salad”, “tomato bake”,
  • Tomato puree ... occurs that are classified as TERM and less often in other composites. This classification need not always be the same as the composite classes annotated by the annotators. Nevertheless, this information from the auxiliary outputs O aUxi and O aUx 3 optimizes the result.
  • All weights from the weight matrices of the artificial neural network 200 are set to the same value, for example at the beginning of the training. Random values can also be used.
  • the compound is broken down into components.
  • the components of the word "tomato puree” include the
  • the artificial neural network 200 is used, the weights of which can be adjusted by at least one optimization function.
  • the weights are adjusted depending on the optimization function and the training data set so that the compound "tomato puree” is assigned to the TERM class with a high probability.
  • the further outputs for the components are also optimized, so that the component "tomato” is assigned to the class TERM with a high probability and the component "puree” is assigned to the class SPECTERM with a high probability.
  • an extended training data record is used, in which assignments of features that represent known components belong to corresponding classes are included. This means that the compound is more precisely the compound vector to help decision making.
  • a first step S1 the composites are searched for as term candidates in the specific body 302 and divided into components.
  • the composites are automated or assigned to at least one of the classes by annotators.
  • the characteristics for the composites and the components are determined. That is, word vectors, productivity, and frequency are determined based on the specific body 302.
  • the various models of the artificial neural network are trained with the features in order to predict their classes for the composites in a fifth step S5.
  • An analysis of a text containing the compound "tomato puree" by means of the model according to the second embodiment, which was trained with the corresponding training data set, comprises the following aspects.
  • the compound tomato puree is first broken down into its components.
  • the resulting relevant components "tomato” and “puree” are evaluated in terms of their productivity and frequency in the subject-specific corpus.
  • the characteristics are transferred to the corresponding input layers of the model depending on the compound tomato puree, its relevant components tomato and puree, as well as the productivity and frequency.
  • the compound "tomato puree” is assigned to one of the classes.
  • T composita c is extracted from a subject-specific corpus and divided into a number i components q.
  • the splitter works as described in one of the following references:
  • CompoST Fabienne Cap, 2014, Morphological Processing of Compounds for Statistical Machine Translation, submitted to the Institute for Machine Language Processing at the University of Stuttgart.
  • Composites from the subject-specific corpus in German are preferably first divided using a CompoST procedure. Then the procedure according to SCS is applied and finally the procedure according to CharSplit is applied. This enables particularly good results to be achieved. Corresponding other fragments are used in the same way for other languages.
  • the procedure is as described for the second embodiment.
  • the step of breaking down into components and the determination and use of productivity and frequency are omitted in this case.
  • the model according to the first embodiment is used directly with the term candidates.
  • the classification of text includes the artificial neural network.
  • the artificial neural network can be integrated as a device, for example as specific hardware, for example application-specific
  • the system can also include a processor as a universal integrated circuit that maps the artificial neural network or interacts with the specific hardware.
  • the artificial neural network provides in particular for a computer with a universal integrated circuit
  • Circuit represents a computer-implemented data structure that significantly improves the internal functioning of the computer itself.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

The invention relates to a computer-implemented method for training an artificial neural network with training data comprising features and identifiers, wherein the features characterize term candidates from a corpus (302). The corpus comprises a text from a domain, wherein the identifier characterizes a degree of an association to at least three classes of term candidates that are different from one another. Different classes indicate different degrees of association of the term candidate to the domain, wherein the training data comprise an allocation of features to identifiers. The invention further relates to an artificial neural network, to a method for classifying term candidates, and to a computer-implemented method for generating training data.

Description

Beschreibung  description
Titel title
Computerimplementiertes Verfahren und Vorrichtung für Textanalvse  Computer-implemented method and device for text analysis
Stand der Technik State of the art
Die Offenbarung geht aus von computerimplementierten Verfahren und The disclosure is based on computer-implemented methods and
Vorrichtungen für Textanalyse, insbesondere für die Vorhersage einer Devices for text analysis, in particular for predicting a
Zugehörigkeit eines Kompositums aus einem Text zu einem Fachgebiet. Belonging of a composite from a text to a subject.
Maschinenbasierte Systeme für Textanalyse verwenden regelbasierte oder statistische Verfahren für Terminologieextraktion und Verschlagwortung. Hybride Verfahren und Machine-Learning Verfahren werden ebenfalls für Textanalyse eingesetzt. Machine-based systems for text analysis use rule-based or statistical procedures for terminology extraction and keywording. Hybrid processes and machine learning processes are also used for text analysis.
DE 20 2017 102 235 U1 offenbart allgemein Aspekte eines Machine-Learning Verfahrens. DE 20 2017 102 235 U1 generally discloses aspects of a machine learning method.
Eine Grundlage derartiger Verfahren für eine Zuordnung eines Kompositums zu einem bestimmten Fachgebiet sind binäre Entscheidungen. Wünschenswert ist es, ein demgegenüber verbessertes Vorgehen zu ermöglichen. Binary decisions form the basis of such methods for assigning a composite to a specific field. It is desirable to enable an improved approach.
Offenbarung der Erfindung Disclosure of the invention
Dies wird durch die Verfahren und Vorrichtungen gemäß den unabhängigen Ansprüchen erreicht. This is achieved by the methods and devices according to the independent claims.
In der folgenden Beschreibung bezeichnet der Ausdruck Korpus einen Text oder eine Kollektion von Texten. Ein fachspezifischer Korpus enthält nur Text, der für eine Domäne spezifisch ist. Ein allgemeinsprachlicher Korpus bezeichnet Text oder eine Kollektion von Texten, ohne spezifische Zuordnung zu einer Domain. Alle Texte eines Kochforums im Internet stellen beispielsweise einen In the following description, the term corpus denotes a text or a collection of texts. A subject-specific corpus only contains text that is specific to a domain. A general language corpus describes text or a collection of texts without specific assignment to a domain. For example, all texts of a cooking forum on the Internet provide one
fachspezifischen Korpus dar. Alle Einträge der Wikipedia stellen beispielsweise einen allgemeinsprachlichen Korpus dar. subject-specific corpus. All Wikipedia entries, for example, represent a general-language corpus.
In der folgenden Beschreibung werden Teile eines Korpus, die analysiert werden, als Termkandidaten bezeichnet. Ein Text kann außer den Termkandidaten auch Teile enthalten, die nicht analysiert werden können oder sollen. In the following description, parts of a corpus that are analyzed are referred to as term candidates. In addition to the term candidates, a text can also contain parts that cannot or should not be analyzed.
In der folgenden Beschreibung bezeichnet der Ausdruck Kompositum eine Wortzusammensetzung, d.h. ein Wort, das durch die Verbindung mindestens zweier bereits vorhandener Wörter oder Wortstämme zusammengesetzt ist. In the following description, the term compound means a word combination, i.e. a word that is composed by connecting at least two already existing words or stems.
In der folgenden Beschreibung bezeichnet der Ausdruck Komponente einen Teil eines Kompositums, d.h. einen Teil der Wortzusammensetzung. In the following description, the term component denotes part of a composite, i.e. part of the word composition.
Ein Grad einer Zugehörigkeit einer Komponente oder eines Kompositums zu einer bestimmten Domäne wird im Folgenden als Klasse bezeichnet. Ein bestimmtes Kompositum wird beispielsweise einer bestimmten Klasse A degree of affiliation of a component or a compound to a specific domain is referred to below as a class. A certain compound is, for example, a certain class
zugeordnet, wenn sein Grad der Zugehörigkeit zu dieser Domäne einen bestimmten Wert aufweist oder in einem bestimmten Wertebereich liegt. Mit verschiedenen Werten oder mit verschiedenen, sich nicht überlappenden assigned if its degree of belonging to this domain has a certain value or is within a certain value range. With different values or with different, not overlapping
Wertebereichen, sind beispielsweise eindeutige Klassen definiert. Value ranges, for example, unique classes are defined.
In einem computerimplementierten Verfahren zum Trainieren eines künstlichen neuronalen Netzes mit Trainingsdaten, die Merkmale und Kennzeichen umfassen, charakterisieren die Merkmale Termkandidaten aus einem Korpus, wobei der Korpus einen Text aus einer Domäne umfasst. Ein Kennzeichen charakterisiert einen Grad einer Zugehörigkeit zu wenigstens drei voneinander verschiedene Klassen für die Termkandidaten. Unterschiedliche Klassen geben unterschiedliche Grade der Zugehörigkeit des Termkandidaten zu der Domäne an. Die Trainingsdaten umfassen eine Zuordnung von Merkmalen zu In a computer-implemented method for training an artificial neural network with training data that include features and characteristics, the features characterize term candidates from a corpus, the corpus comprising a text from a domain. A label characterizes a degree of belonging to at least three different classes for the term candidates. Different classes indicate different degrees of belonging of the term candidate to the domain. The training data include an assignment of features
Kennzeichen. Im Verfahren wird einer Eingabeschicht des künstlichen Mark. In the process, an input layer of the artificial
neuronalen Netzes ein Merkmal vorgegeben, wobei das künstliche neuronale Netz dem Merkmal aus der Eingabeschicht in einer Vorhersage in einer Neural network specified a feature, wherein the artificial neural network the feature from the input layer in a prediction in a
Ausgabeschicht des künstlichen neuronalen Netzes ein Kennzeichen zuordnet.Assigns a label to the output layer of the artificial neural network.
In einem Vergleich wird das Kennzeichen aus der Ausgabeschicht mit dem Kennzeichen, das dem Merkmal in den Trainingsdaten zugeordnet ist, verglichen. Abhängig vom Ergebnis des Vergleichs wird wenigstens ein In a comparison, the indicator from the output layer is compared with the Indicator that is assigned to the characteristic in the training data is compared. Depending on the result of the comparison, at least one
Parameter des künstlichen neuronalen Netzes gelernt, der eine Verbindung des künstlichen neuronalen Netzes zwischen der Eingabeschicht und der Parameters of the artificial neural network learned that connect the artificial neural network between the input layer and the
Ausgabeschicht charakterisiert. Dadurch werden Terme anstelle von in zwei Klassen Term oder Nicht-Term beispielsweise in vier Klassen NONTERM, SIMTERM, TERM, SPECTERM klassifizierbar. Characterized output layer. As a result, terms can be classified into four classes NONTERM, SIMTERM, TERM, SPECTERM instead of in two classes term or non-term.
Vorteilhafterweise werden die Termkandidaten einem bezüglich der Domäne fachspezifischen Korpus entnommen. Ein derartiger Korpus eignet sich besonders für das Training der Klassifizierung. The term candidates are advantageously taken from a corpus which is subject-specific with regard to the domain. Such a body is particularly suitable for training the classification.
Vorteilhafterweise werden die Termkandidaten wenigstens einer der Klassen zugeordnet und die Merkmale für die Termkandidaten bestimmt, wobei insbesondere ein Wortvektor bestimmt wird, und wenigstens ein Parameter des künstlichen neuronalen Netzes mit den Merkmalen trainiert wird. Dadurch sind The term candidates are advantageously assigned to at least one of the classes and the features for the term candidates are determined, in particular a word vector being determined and at least one parameter of the artificial neural network being trained with the features. Thereby
Vorteilhafterweise sind die Termkandidaten Komposita mit wenigstens zwei Komponenten. Die Trainingsdaten ordnen Komposita zu wenigstens einer von mehr als drei Klassen zu. Diese ist insbesondere bei Komposita sinnvoll, da ein Kompositum abhängig von seinen Komponenten unterschiedliche Spezifität oder Zentralität für eine Domain aufweisen kann. Beispielsweise ist es wahrscheinlich, dass ein spezifischer Fachbegriff ein oder mehrere sehr spezifische The term candidates are advantageously composites with at least two components. The training data assign composites to at least one of more than three classes. This is particularly useful for composites, since a composite can have different specificity or centrality for a domain, depending on its components. For example, it is likely that a specific technical term is one or more very specific
Komponenten enthält. Ein allgemeiner Begriff enthält beispielsweise keine für diese Domain spezifische Komponente. Das künstliche neuronale Netz wird somit für eine sehr feine Unterscheidung trainiert. Contains components. For example, a general term does not contain a component specific to this domain. The artificial neural network is thus trained for a very fine distinction.
Vorteilhafterweise werden Komposita aus einem bezüglich der Domäne fachspezifischen Korpus als Termkandidaten in Komponenten aufgeteilt, die Komposita wenigstens einer der Klassen zugeordnet, die Merkmale für die Komposita und die Komponenten bestimmt, und wird wenigstens ein Parameter des künstlichen neuronalen Netzes mit den Merkmalen trainiert. Dadurch werden Kompositum und seine Komponenten im Training berücksichtigt. Dies verbessert das Lernverhalten zusätzlich. Vorteilhafterweise wird wenigstens ein Wortvektor als Merkmal bestimmt. Ein Wortvektor ist ein besonders gut geeignetes Merkmal für das Trainingsverfahren. Composites are advantageously divided into components from a corpus specific to the domain as term candidates, the composites assigned to at least one of the classes, the features for the composites and the components determined, and at least one parameter of the artificial neural network is trained with the features. As a result, composite and its components are taken into account in training. This further improves learning behavior. At least one word vector is advantageously determined as a feature. A word vector is a particularly suitable feature for the training process.
Vorteilhafterweise werden eine Produktivität und eine Frequenz der A productivity and a frequency of the
Komponenten als Merkmale auf Basis des spezifischen Korpus bestimmt werden. Produktivität und Frequenz sind weitere Merkmale mit Bezug zu einer Auftretenshäufigkeit der Komponenten. Dadurch wird das Training zusätzlich verbessert. Components can be determined as features based on the specific body. Productivity and frequency are other characteristics related to the frequency of occurrence of the components. This improves the training even more.
In einem computerimplementierten Verfahren zum Erzeugen von Trainingsdaten für ein Training eines künstlichen neuronalen Netzes, bei dem die Trainingsdaten Merkmale und Kennzeichen umfassen, werden Merkmale bestimmt, die Features are determined in a computer-implemented method for generating training data for training an artificial neural network, in which the training data include features and characteristics
Termkandidaten aus einem Korpus charakterisieren, wobei der Korpus einen Text aus einer Domäne umfasst, wobei ein Kennzeichen bestimmt wird, das einen Grad einer Zugehörigkeit zu wenigstens drei voneinander verschiedene Klassen für die Termkandidaten charakterisiert, wobei unterschiedliche Klassen unterschiedliche Grade der Zugehörigkeit des Termkandidaten zu der Domäne angeben, wobei wenigstens einem Merkmal wenigstens eines der Kennzeichen zugeordnet wird. Diese Trainingsdaten eignen sich besonders für ein Training einer Klassifikation mit mehr als drei Klassen. Characterize term candidates from a corpus, the corpus comprising a text from a domain, wherein an identifier is determined which characterizes a degree of belonging to at least three different classes for the term candidates, with different classes different degrees of belonging of the term candidate to the domain specify, at least one characteristic being assigned to at least one of the indicators. This training data is particularly suitable for training a classification with more than three classes.
Vorteilhafterweise werden die Termkandidaten einem bezüglich der Domäne fachspezifischen Korpus entnommen. Der fachspezifische Korpus bietet eine hohe Dichte an relevanten Termkandidaten einer Domäne. The term candidates are advantageously taken from a corpus which is subject-specific with regard to the domain. The subject-specific corpus offers a high density of relevant term candidates of a domain.
Vorteilhafterweise werden die Termkandidaten wenigstens einer der Klassen zugeordnet und die Merkmale für die Termkandidaten bestimmt, wobei insbesondere ein Wortvektor bestimmt wird. Die Zuordnung von Merkmalen zu Klassen ist eine für das maschinelle Lernen besonders geeignete Darstellung der Klassifizierung der Termkandidaten. The term candidates are advantageously assigned to at least one of the classes and the characteristics for the term candidates are determined, in particular a word vector being determined. The assignment of characteristics to classes is a particularly suitable representation of the classification of term candidates for machine learning.
Vorteilhafterweise sind die Termkandidaten Komposita mit wenigstens zwei Komponenten. Diese Form der Trainingsdaten sind besonders für eine The term candidates are advantageously composites with at least two components. This form of training data is especially for one
Feinunterteilung der Klassen geeignet. Hinsichtlich der Zuordnung werden Komposita aufgrund einer möglichen Klassifizierung ihrer Komponenten in unterschiedliche Klassen nicht entweder als Term oder als Nicht-Term bezeichnet, sondern können je nach Grad ihrer Zugehörigkeit zu einer Domäne in eine von der Klasse Nicht-Term verschiedene andere Klassen klassifiziert werden. Subdivision of the classes suitable. With regard to the assignment, composites are not classified as either term or non-term due to the possible classification of their components in different classes but can be classified according to their degree of belonging to a domain in another class other than the non-term class.
Vorteilhafterweise werden Komposita aus einem bezüglich der Domäne fachspezifischen Korpus als Termkandidaten in Komponenten aufgeteilt, die Komposita wenigstens einer der Klassen zugeordnet, und die Merkmale für die Komposita und die Komponenten bestimmt. Die zusätzlichen Merkmale ermöglichen auch bei begrenzter Verfügbarkeit der Termkandidaten aus einem begrenzten Textumfang ein besseres Training des künstlichen neuronalen Netzes, ohne das zusätzlich neue Texte mit neuen Komposita hinzugezogen werden müssen. Advantageously, composites from a corpus specific to the domain are divided into components as term candidates, the composites are assigned to at least one of the classes, and the characteristics for the composites and the components are determined. The additional features enable better training of the artificial neural network even with limited availability of term candidates from a limited range of text, without the need for new texts with new composites.
Vorteilhafterweise wird wenigstens ein Wortvektor als Merkmal bestimmt. Wenn die Wortvektoren in den Trainingsdaten verwendet werden, benötigt das künstliche neuronale Netz selbst keinen Embedding Layer, der aus den At least one word vector is advantageously determined as a feature. If the word vectors are used in the training data, the artificial neural network itself does not need an embedding layer that consists of the
Termkandidaten Wortvektoren als Merkmale bestimmt. Term candidates determined word vectors as characteristics.
Vorteilhafterweise werden eine Produktivität und eine Frequenz der A productivity and a frequency of the
Komponenten als Merkmale auf Basis des spezifischen Korpus bestimmt. Die zusätzlichen Merkmale Produktivität und eine Frequenz ermöglichen auch bei begrenzter Verfügbarkeit der Termkandidaten aus einem begrenzten Textumfang ein besseres Training des künstlichen neuronalen Netzes, ohne das zusätzlich neue Texte mit neuen Komposita hinzugezogen werden müssen. Components determined as characteristics based on the specific body. The additional features of productivity and a frequency enable better training of the artificial neural network even with limited availability of term candidates from a limited amount of text, without the need to add new texts with new composites.
Ein künstliches neuronales Netz umfasst eine Eingabeschicht der ein Merkmal vorgebbar ist, wobei das künstliche neuronale Netz ausgebildet ist, dem Merkmal aus der Eingabeschicht in einer Vorhersage in einer Ausgabeschicht des künstlichen neuronalen Netzes ein Kennzeichen zuzuordnen, wobei die An artificial neural network comprises an input layer which can be specified with a feature, the artificial neural network being designed to assign a characteristic to the feature from the input layer in a prediction in an output layer of the artificial neural network, the
Merkmale Termkandidaten aus einem Korpus charakterisieren, wobei der Korpus einen Text aus einer Domäne umfasst, wobei das Kennzeichen wenigstens drei voneinander verschiedene Klassen für die Termkandidaten charakterisiert, wobei unterschiedliche Klassen unterschiedliche Grade der Zugehörigkeit des Features characterize term candidates from a corpus, the corpus comprising a text from a domain, the identifier characterizing at least three different classes for the term candidates, different classes having different degrees of belonging to the
Termkandidaten zu der Domäne angeben. Dieses künstliche neuronale Netz ist eine besonders effiziente Umsetzung einer Klassifikation von Komposita in mehr als zwei Klassen. Specify term candidates for the domain. This artificial neural network is a particularly efficient implementation of a classification of composites in more than two classes.
Vorteilhafterweise umfasst das künstliche neuronale Netz wenigstens eine erste Eingabeschicht, der ein Kompositum und seine Komponenten für ein erstes Merkmal vorgebbar sind, wobei das künstliche neuronale Netz wenigstens eine zweite Eingabeschicht umfasst, der eine Produktivität und eine Frequenz der Komponenten für ein zweites Merkmal vorgebbar sind, wobei die Ausgabeschicht den Eingabeschichten nachgeordnet ist und das Kennzeichen in der Vorhersage abhängig vom ersten Merkmal und vom zweiten Merkmal ausgibt. Die The artificial neural network advantageously comprises at least one first input layer, to which a compound and its components can be predefined for a first characteristic, the artificial neural network comprising at least a second input layer, which can be predefined a productivity and a frequency of the components for a second characteristic, wherein the output layer is subordinate to the input layers and outputs the indicator in the prediction depending on the first characteristic and the second characteristic. The
zusätzlichen Merkmale verbessern die Effizienz und Zuverlässigkeit der Additional features improve the efficiency and reliability of the
Vorhersage des künstlichen neuronalen Netzes zusätzlich. Prediction of the artificial neural network additionally.
Vorzugsweise umfasst das künstliche neuronale Netz eine weitere The artificial neural network preferably comprises a further one
Ausgabeschicht, die ausgebildet ist einen Grad einer Zuordnung eines Output layer that is formed a degree of assignment of a
Kompositums zu den wenigstens drei Klassen unabhängig von der Produktivität und der Frequenz seiner Komponenten auszugeben. Diese weitere Issue composite to the at least three classes regardless of the productivity and frequency of its components. This one more
Ausgabeschicht ist ein Hilfsausgang, der in einer Fehlerfunktion zu einer Output layer is an auxiliary output that turns into an error function
Optimierung verwendbar ist. Optimization can be used.
Vorzugsweise umfasst das künstliche neuronale Netz eine weitere The artificial neural network preferably comprises a further one
Ausgabeschicht, die ausgebildet ist einen Grad einer Zuordnung einer der Komponenten zu den wenigstens drei Klassen abhängig von der Produktivität und der Frequenz dieser Komponente auszugeben. Diese weitere Output layer which is designed to output a degree of assignment of one of the components to the at least three classes depending on the productivity and the frequency of this component. This one more
Ausgabeschicht ist ein Hilfsausgang, der in einer Fehlerfunktion zu einer Output layer is an auxiliary output that turns into an error function
Optimierung verwendbar ist. Optimization can be used.
In einem Verfahren zur Klassifizierung von Termkandidaten wird einer In a procedure for classifying term candidates, one
Eingabeschicht eines künstlichen neuronalen Netzes ein Merkmal vorgegeben, wobei dem Merkmal aus der Eingabeschicht in einer Vorhersage in einer Ausgabeschicht des künstlichen neuronalen Netzes ein Kennzeichen zugeordnet wird, wobei die Merkmale Termkandidaten aus einem Korpus charakterisieren, wobei der Korpus einen Text aus einer Domäne umfasst, wobei das Input feature of an artificial neural network predefines a feature, wherein the feature from the input layer is assigned a identifier in a prediction in an output layer of the artificial neural network, the features characterizing term candidates from a corpus, the corpus comprising a text from a domain, wherein the
Kennzeichen wenigstens drei voneinander verschiedene Klassen für die Mark at least three different classes for the
Termkandidaten charakterisiert, wobei unterschiedliche Klassen unterschiedliche Grade der Zugehörigkeit des Termkandidaten zu der Domäne angeben. Die Klassifizierung in mehr als zwei Klassen ermöglicht zusätzlich zu einer Characterized term candidates, with different classes indicating different degrees of belonging of the term candidate to the domain. The Classification in more than two classes allows in addition to one
Erkennung, ob ein Termkandidat ein Term oder kein Term bezüglich der Domäne ist, das Bereitstellen eines fein klassifizierten Datensatzes mit mehr als zwei Klassen. Detection of whether a term candidate is a term or not a term relating to the domain, providing a finely classified data record with more than two classes.
Vorteilhafterweise werden einer ersten Eingabeschicht ein Kompositum und seine Komponenten für ein erstes Merkmal vorgegeben, wobei einer zweiten Eingabeschicht eine Produktivität und eine Frequenz der Komponenten für ein zweites Merkmal vorgegeben werden, wobei die Ausgabeschicht den A composite and its components for a first characteristic are advantageously specified for a first input layer, productivity and a frequency of the components for a second characteristic being specified for a second input layer, the output layer representing the
Eingabeschichten nachgeordnet ist und das Kennzeichen in der Vorhersage abhängig vom ersten Merkmal und vom zweiten Merkmal ausgegeben wird. Die Vorhersage wird durch das Hinzufügen dieser zusätzlichen Merkmale weiter verbessert. Subordinate input layers and the indicator is output in the prediction depending on the first characteristic and the second characteristic. The prediction is further improved by adding these additional features.
Weitere vorteilhafte Ausführungen ergeben sich aus der folgenden Beschreibung und der Zeichnung. In der Zeichnung zeigt Further advantageous embodiments result from the following description and the drawing. In the drawing shows
Fig. 1 schematisch Teile eines künstlichen neuronalen Netzes, 1 schematically shows parts of an artificial neural network,
Fig. 2 schematisch Teile eines Modells für Textanalyse, 2 schematically shows parts of a model for text analysis,
Fig. 3 schematisch Schritte in einem Trainings- oder Klassifizierungsverfahren. Fig. 3 schematically steps in a training or classification process.
In der folgenden Beschreibung bezeichnet der Ausdruck Domäne ein Fach- oder Themengebiet. In the following description, the term domain denotes a specialist or subject area.
In einem im Folgenden beschriebenen Beispiel werden die Klassen NONTERM, SIMTERM, TERM, SPECTERM verwendet. In an example described below, the classes NONTERM, SIMTERM, TERM, SPECTERM are used.
NONTERM ist eine Klasse für Komponenten oder Komposita, die keinen besonderen Bezug zur Domäne haben. Beispielsweise wird ein NONTERM is a class for components or composites that have no particular relation to the domain. For example, a
allgemeinsprachliches Kompositum ohne besonderen Bezug zur Domäne als NONTERM klassifiziert. General-language compound without special relation to the domain classified as NONTERM.
SIMTERM ist eine Klasse für Komponenten oder Komposita, die einen größeren Bezug zur Domäne haben als Komponenten oder Komposita aus der Klasse NONTERM. Beispielsweise werden Komponenten oder Komposita mit einen semantischen Bezug zur Domäne als SIMTERM klassifiziert. SIMTERM is a class for components or composites that have a greater relationship to the domain than components or composites from the class NONTERM. For example, components or composites with a semantic reference to the domain are classified as SIMTERM.
TERM ist eine Klasse für Komponenten oder Komposita, die einen größeren Bezug zur Domäne haben als Komponenten oder Komposita aus der Klasse SIMTERM. Beispielsweise werden verständliche Komponenten oder Komposita mit Bezug zur Domäne als TERM klassifiziert. TERM is a class for components or composites that have a greater relationship to the domain than components or composites from the SIMTERM class. For example, understandable components or composites related to the domain are classified as TERM.
SPECTERM ist eine Klasse für Komponenten oder Komposita, die einen größeren Bezug zur Domäne haben als Komponenten oder Komposita aus der Klasse TERM. Beispielsweise werden unverständliche Komponenten oder Komposita mit Bezug zur Domäne als SPCTERM klassifiziert. SPECTERM is a class for components or composites that are more related to the domain than components or composites from the TERM class. For example, incomprehensible components or composites related to the domain are classified as SPCTERM.
Diese vier Klassen stellen unterschiedliche Grade der Zugehörigkeit zu einer Domäne dar. Genauer nimmt der Grad der Zugehörigkeit zu der Domäne mit der Klassifizierung von NONTERM über SIMTERM und TERM zu SPECTERM zu. Beispielsweise werden den vier Klassen vier Kennzeichen wie folgt zugeordnet: Der Klasse NONTERM wird ein erster Skalar 01 zugeordnet, der Klasse These four classes represent different degrees of belonging to a domain. More precisely, the degree of belonging to the domain increases with the classification of NONTERM via SIMTERM and TERM to SPECTERM. For example, the four classes are assigned four indicators as follows: The class NONTERM is assigned a first scalar 01, the class
SIMTERM wird ein zweiter Skalar o2 zugeordnet, der Klasse TERM wird ein dritter Skalar 03 zugeordnet und der Klassen SPECTERM wird ein vierter Skalar 04 zugeordnet. Im Beispiel wird als Kennzeichen ein Vektor 0=^, o2, o3, o4)T verwendet. Jeder Skalar hat im Beispiel einen Wert zwischen 0 und 1 , wobei der Grad der Zugehörigkeit mit dem Wert des jeweiligen Skalars von 0 bis 1 ansteigt. A second scalar o 2 is assigned to SIMTERM, a third scalar 03 is assigned to the TERM class and a fourth scalar 04 is assigned to the SPECTERM classes. In the example, a vector 0 = ^, o 2 , o 3 , o 4 ) T is used as the identifier. In the example, each scalar has a value between 0 and 1, the degree of membership increasing with the value of the respective scalar from 0 to 1.
Der Grad der Zugehörigkeit von Komponenten oder Komposita eines Korpus stellt ein Maß für einen Schwierigkeitsgrad des Textes aus dem Korpus, d.h. sein Niveau oder seine Spezifität bezüglich der Domäne dar. Texte mit Komponenten oder Komposita in der Klasse SPECTERM sind mit großer Wahrscheinlichkeit von Fachleuten oder für Fachleute verfasst. Texte ohne Komponenten oder Komposita in den Klassen TERM oder SPECTERM sind mit großer The degree of belonging to components or composites of a corpus is a measure of a degree of difficulty of the text from the corpus, i.e. its level or its specificity with regard to the domain. Texts with components or composites in the SPECTERM class are very likely to be written by experts or for experts. Texts without components or composites in the classes TERM or SPECTERM are large
Wahrscheinlichkeit unspezifisch bezüglich der Domäne. Probability not specific to the domain.
In der folgenden Beschreibung umfassen Trainingsdaten Merkmale und In the following description, training data include characteristics and
Kennzeichen. Genauer wird einem Merkmal in den Trainingsdaten wenigstens ein Kennzeichen zugeordnet. In einem Aspekt wird jedem Merkmal wenigstens ein Kennzeichen zugeordnet. Merkmale charakterisieren in der folgenden Beschreibung Termkandidaten. In einem Aspekt repräsentiert ein Merkmal einen Termkandidaten eindeutig. Ein Merkmal ist beispielsweise ein Wortvektor, der den Termkandidaten darstellt. In einem weiteren Aspekt repräsentiert ein Merkmal eine Produktivität oder eine Frequenz einer Komponente eines Kompositums in einem fachspezifischen Korpus bezüglich eines allgemeinsprachlichen Korpus. Mark. More specifically, at least one identifier is assigned to a feature in the training data. In one aspect, at least one identifier is assigned to each characteristic. Features characterize term candidates in the following description. In one aspect, a characteristic uniquely represents a term candidate. A characteristic is, for example, a word vector that represents the term candidate. In a further aspect, a feature represents a productivity or a frequency of a component of a composite in a subject-specific corpus with respect to a general language corpus.
Kennzeichen charakterisieren in der folgenden Beschreibung eine Klasse. In einem Aspekt repräsentiert ein Kennzeichen eine Klasse eindeutig. Ein In the following description, characteristics characterize a class. In one aspect, a label clearly represents a class. On
Kennzeichen ist beispielsweise ein Vektor s mit Skalaren Si, s2, S3, s4 deren Wert zwischen 0 und 1 einen Grad der Zugehörigkeit zu dieser Klasse darstellt. Der Wert 1 stellt beispielsweise einen hohen Grad der Zugehörigkeit dar. Der Wert 0 stellt beispielsweise einen niedrigen Grad der Zugehörigkeit dar. Characteristic is, for example, a vector s with scalars Si, s 2 , S 3 , s 4 whose value between 0 and 1 represents a degree of belonging to this class. For example, the value 1 represents a high degree of affiliation. The value 0 represents, for example, a low degree of affiliation.
Als Beispiel für ein Modell für eine Klassifizierung von Text abhängig vom Grad einer Zugehörigkeit einer Komponente oder eines Kompositums zu einer bestimmten Domäne wird im Folgenden anhand der Figur 1 ein künstliches neuronales Netz nach einer ersten Ausführungsform beschrieben. An artificial neural network according to a first embodiment is described below with reference to FIG. 1 as an example of a model for classifying text depending on the degree of belonging of a component or a compound to a specific domain.
Eine Ausgabe O des Netzes ist beispielsweise definiert als: For example, an output O of the network is defined as:
0 = o( <p(E(x) * W1)* W2)) 0 = o (<p (E (x) * W 1 ) * W 2 ))
Dabei ist x ein Wort, d.h. ein Kompositum oder einer Komponente und z = E(x) ein der Ausgang eines Embedding Layers in welchem die Funktion Here x is a word, i.e. a compound or a component and z = E (x) an the exit of an embedding layer in which the function
ein Wort x auf einen Vektor z abbildet. Im Beispiel ist der Vektor z für ein Wort x ein 200-dimensionaler Wortvektor. Werden eine Anzahl n Wörter in einer Batch der Größe b verwendet, werden n Vektoren z in einer Matrix Z mit der Dimension [n*200, b] verwendet. Wi und W2 sind Gewichtungsmatrizen. Die Gewichtungsmatrix W1 hat im Beispiel für n Wörter eine Dimension [64, n*200] passend zu den n 200-dimensionalen Vektoren z. cp ist eine Aktivierungsfunktion. Im Beispiel wird als Aktivierungsfunktion die Tangenshyperbolikusfunktion wie folgt verwendet cp (z * W1) = tanh (z * W1). maps a word x to a vector z. In the example, the vector z for a word x is a 200-dimensional word vector. If a number n words are used in a batch of size b, n vectors z are used in a matrix Z with the dimension [n * 200, b]. Wi and W 2 are weighting matrices. The weighting matrix W1 in the example for n words has a dimension [64, n * 200] matching the n 200-dimensional vectors z. cp is an activation function. In the example, the tangent hyperbolic function is used as the activation function as follows cp (z * W1) = tanh (z * W1).
In einem Dense Layer wird im Beispiel am Ausgang d der zweiten verdeckten Schicht 106 d = cp(Wi* z) mit den Dimensionen [64, b] verwendet. In a dense layer in the example at the exit d of the second hidden layer 106 d = cp (Wi * z) with the dimensions [64, b] is used.
Die Gewichtungsmatrix W2 hat im Beispiel eine Dimension [4, 64] passend zu den vier Klassen NONTERM, SIMTERM, TERM, SPECTERM. Im Beispiel werden als Ausgabe O in der Ausgabeschicht 4 Neuronen verwendet. s ist im Beispiel eine Softmax-Aktivierungsfunktion, mit der eine In the example, the weighting matrix W 2 has a dimension [4, 64] suitable for the four classes NONTERM, SIMTERM, TERM, SPECTERM. In the example, 4 neurons are used as output O in the output layer. In the example, s is a Softmax activation function with which one
Wahrscheinlichkeit einer Zugehörigkeit zu einer der Klassen bestimmt wird. Die Softmax-Aktivierungsfunktion konvertiert dazu einen Rohwert in eine Probability of belonging to one of the classes is determined. The Softmax activation function converts a raw value into one
Wahrscheinlichkeit, die auch als Maß für eine Gewissheit hinsichtlich einer Korrektheit des Ergebnisses dient. Als Softmax-Aktivierungsfunktion wird für ein Neuron i aus der Ausgabe O beispielsweise bei n = 4 Neuronen Probability, which also serves as a measure of certainty regarding the correctness of the result. As softmax activation function for a neuron i from output O becomes, for example, with n = 4 neurons
0=(o1; o2, o3, o4) in der Ausgabeschicht für jeden skalaren Ausgang o; folgende Funktion verwendet wobei yt die Zeile i und yk die Zeile k eines Vektors y = cp(E(x) * W1) * W2 ist. 0 = (o 1; o 2 , o 3 , o 4 ) in the output layer for each scalar output o ; uses the following function where y t is the line i and y k is the line k of a vector y = cp (E (x) * W1) * W 2 .
Eine beispielhafte Zuordnung ist im Folgenden angegeben: An example assignment is given below:
NONTERM wird o1 zugeordnet, SIMTERM wird o2 zugeordnet, TERM wird o3 zugeordnet, SPECTERM wird o4 zugeordnet. Der skalare Wert o; ist ein Grad für die Zugehörigkeit des Terms zu der jeweiligen Klasse. Figur 1 zeigt schematisch, als Beispiel für einen Modell, Teile eines künstlichen neuronalen Netzes 100 mit hintereinander liegenden Schichten. Das künstliche neuronale Netz 100 umfasst eine Eingabeschicht 102, eine erste verdeckte Schicht 104, eine zweite verdeckte Schicht 106 und eine Ausgabeschicht 108. NONTERM is assigned to o 1 , SIMTERM is assigned to o 2 , TERM is assigned to o 3 , SPECTERM is assigned to o 4 . The scalar value o ; is a degree to which the term belongs to the respective class. FIG. 1 shows schematically, as an example of a model, parts of an artificial neural network 100 with layers lying one behind the other. The artificial neural network 100 comprises an input layer 102, a first hidden layer 104, a second hidden layer 106 and an output layer 108.
Die Eingabeschicht 102 ist ausgebildet, einen Termkandidaten T als Wort x an die erste verdeckte Schicht 104 zu übergeben. The input layer 102 is designed to transfer a term candidate T as the word x to the first hidden layer 104.
Die erste verdeckte Schicht 104 ist im Beispiel die Funktion E(x), d.h. der Embedding Layer in welchem die Funktion The first hidden layer 104 in the example is the function E (x), i.e. the embedding layer in which the function
das Wort x auf den Vektor z abbildet. maps the word x to the vector z.
Die Abbildung erfolgt beispielsweise mittels eines Continuous Bag-of-Words, CBOW, Modells. Beispielsweise wird ein Word2Vec CBOW Modell nach Tornas Mikolov et. al, 2013, Distributed representations of words and phrases and their compositionality, Advances in Neural Information Processing Systems, pages 3111-3119, Curran Associatates, Inc., verwendet, um den 200-dimensionalen Wortvektor zu erzeugen. The mapping is carried out, for example, using a continuous bag-of-words, CBOW, model. For example, a Word2Vec CBOW model according to Tornas Mikolov et. al, 2013, Distributed representations of words and phrases and their compositionality, Advances in Neural Information Processing Systems, pages 3111-3119, Curran Associatates, Inc., used to generate the 200-dimensional word vector.
In einem Aspekt wird das CBOW Modell beispielsweise mittels eines Lexikons trainiert, um die Gewichte der ersten verdeckten Schicht 104 für Worte zu lernen. Beispielsweise wird ein zuvor trainiertes CBOW Modell verwendet um den Embedding Layer zu initialisieren. Die erste verdeckte Schicht 104 ist dann mit entsprechenden Gewichten für Worte initialisiert. For example, in one aspect, the CBOW model is trained using a lexicon to learn the weights of the first hidden layer 104 for words. For example, a previously trained CBOW model is used to initialize the embedding layer. The first hidden layer 104 is then initialized with appropriate weights for words.
Worte, die nicht als solches erkannt werden, werden beispielsweise auf einen Wortvektor z mit zufälligen Elementen abgebildet. Worte, die erkannt wurden, werden auf den entsprechenden Wortvektor z abgebildet. Der Wortvektor repräsentiert die Termkandidaten. Words that are not recognized as such are mapped to a word vector z with random elements, for example. Words that have been recognized are mapped onto the corresponding word vector z. The word vector represents the term candidates.
Der Wortvektor z wird von der ersten verdeckten Schicht 104 an die zweite verdeckte Schicht 106 übergeben. Die zweite verdeckte Schicht 106 verwendet die erste Gewichtmatrix Wi und die Aktivierungsfunktion cp. Im Beispiel wird als Aktivierungsfunktion in der zweiten verdeckten Schicht 106 die Tangenshyperbolikusfunktion wie folgt verwendet: d = cp (E(x) * Wi) = tanh (z * Wi). The word vector z is transferred from the first hidden layer 104 to the second hidden layer 106. The second hidden layer 106 uses the first weight matrix Wi and the activation function cp. In the example, the tangent hyperbolic function is used as the activation function in the second hidden layer 106 as follows: d = cp (E (x) * Wi) = tanh (z * Wi).
Der Ausgang d wird an die Ausgabeschicht 108 übergeben. Im Beispiel wird die Softmax-Aktivierungsfunktion verwendet, mit der die Wahrscheinlichkeit der Zugehörigkeit des Worts x zu einer der Klassen bestimmt wird. The output d is passed to the output layer 108. The example uses the Softmax activation function, which is used to determine the probability of the word x belonging to one of the classes.
Die Gewichtsmatrizen und die Aktivierungsfunktionen sind Parameter des künstlichen neuronalen Netzes 100. Die Parameter, insbesondere die The weight matrices and the activation functions are parameters of the artificial neural network 100. The parameters, in particular the
Gewichtsmatrizen sind in einem Training veränderlich. Weight matrices are changeable in a workout.
Ein Verfahren zum Trainieren dieses künstlichen neuronalen Netzes 100 wird im Folgenden beschrieben. A method for training this artificial neural network 100 is described below.
Trainingsdaten zum Trainieren dieses künstlichen neuronalen Netzes 100 umfassen Merkmale und Kennzeichen. Genauer umfassen die Trainingsdaten eine Zuordnung von Merkmalen zu Kennzeichen. Training data for training this artificial neural network 100 include features and characteristics. More specifically, the training data include an assignment of features to license plates.
Die Merkmale charakterisieren Termkandidaten T aus einem fachspezifischen Korpus. Ein Kennzeichen s charakterisiert wenigstens drei voneinander verschiedene Klassen für die Termkandidaten T. Im Beispiel charakterisiert das Kennzeichen s die vier Klassen NONTERM, SIMTERM, TERM, SPECTERM. Die Klassen geben den Grad der Zugehörigkeit des Termkandidaten T zu der Domäne an. The features characterize term candidates T from a subject-specific corpus. A label s characterizes at least three different classes for the term candidates T. In the example, the label s characterizes the four classes NONTERM, SIMTERM, TERM, SPECTERM. The classes indicate the degree of belonging of the term candidate T to the domain.
Annotatoren, d.h. beispielsweise Menschen, suchen aus dem fachspezifischen Korpus Worte oder Wortzusammensetzungen als Termkandidaten T heraus und ordnen diese einer der vier Klassen zu. Für einen Termkandidaten T umfasst die Zuordnung in den Trainingsdaten beispielsweise als Merkmal einen Wortvektor z, der den Termkandidaten T repräsentiert. Im Kennzeichen s wird der Klasse NONTERM ein erster Skalar si, der Klasse SIMTERM ein zweiter Skalar s2, der Klasse TERM ein dritter Skalar S3 und der Klassen SPECTERM ein vierter Skalar s4 zugeordnet. Im Beispiel wird als Kennzeichen ein Vektor s=(s1, s2, s3, s4)7’ verwendet. Jeder Skalar hat im Beispiel einen Wert zwischen 0 und 1 , wobei der Grad der Zugehörigkeit beispielsweise mit dem Wert des jeweiligen Skalars von 0 bis 1 ansteigt. Das Kennzeichen umfasst Werte, die der Annotator auswählt. Annotators, ie people for example, look for words or word combinations as term candidates T from the subject-specific corpus and assign them to one of the four classes. For a term candidate T, the assignment in the training data includes, for example, as a feature a word vector z which represents the term candidate T. In code s, a first scalar si is assigned to class NONTERM, a second scalar s 2 to class SIMTERM, a third scalar S3 to class TERM and a fourth scalar s 4 to classes SPECTERM. In the example, a vector s = (s 1 , s 2 , s 3 , s 4 ) 7 ' is used as the identifier. used. In the example, each scalar has a value between 0 and 1, the degree of membership increasing with the value of the respective scalar from 0 to 1, for example. The indicator includes values that the annotator selects.
Wenn das künstliche neuronale Netzes 100 trainiert ist, können die Komposita automatisch mithilfe eines Splitters gesucht, und mithilfe des schon trainierten künstlichen neuronalen Netzes 100 die Klassen Vorhersagen. When the artificial neural network 100 is trained, the composites can be searched automatically using a splitter, and the classes can be predicted using the already trained artificial neural network 100.
Der Eingabeschicht 102 des künstlichen neuronalen Netzes 100 wird ein Termkandidat T vorgegeben. Es kann vorgesehen sein, die Parameter des künstlichen neuronalen Netzes 100 vor dem Training mit zufälligen Werten zu initialisieren. Zum Training kann eine Gruppe von Termkandidaten T als Batch, beispielsweise mit b = 32 Trainingsbeispielen, gleichzeitig vorgegeben werden. A term candidate T is predefined for the input layer 102 of the artificial neural network 100. Provision can be made to initialize the parameters of the artificial neural network 100 with random values before the training. For training, a group of term candidates T can be specified simultaneously as a batch, for example with b = 32 training examples.
Das künstliche neuronale Netz 100 ordnet einem Merkmal, das den The artificial neural network 100 maps a feature that the
Termkandidaten T aus der Eingabeschicht 102 repräsentiert in einer Vorhersage in der Ausgabeschicht 108 des künstlichen neuronalen Netzes 100 ein Term candidates T from the input layer 102 represent a prediction in the output layer 108 of the artificial neural network 100
Kennzeichen o zu. Die Vorhersage erfolgt mittels des beschriebenen Modells. Das Ergebnis der Vorhersage sind im Beispiel mit b = 32 Trainingsbeispielen eine Matrix O mit 32 Vektoren 01, ... 032. Indicator o to. The prediction is made using the model described. The result of the prediction in the example with b = 32 training examples is a matrix O with 32 vectors 01, ... 032.
In einem Vergleich wird das Kennzeichen o aus der Ausgabeschicht 108 mit dem, diesem Merkmal in den Trainingsdaten zugeordneten Kennzeichen s verglichen. Beispielsweise wird im Vergleich eine Fehlerfunktion ausgewertet, beispielsweise eine Differenz, insbesondere ein euklidischer Abstand, zwischen dem Vektor s und dem Vektor o. In a comparison, the identifier o from the output layer 108 is compared with the identifier s assigned to this feature in the training data. For example, an error function is evaluated in the comparison, for example a difference, in particular a Euclidean distance, between the vector s and the vector o.
Abhängig vom Ergebnis des Vergleichs wird wenigstens ein Parameter des künstlichen neuronalen Netzes 100 gelernt. Der Parameter charakterisiert eine Verbindung des künstlichen neuronalen Netzes 100 zwischen der Depending on the result of the comparison, at least one parameter of the artificial neural network 100 is learned. The parameter characterizes a connection of the artificial neural network 100 between the
Eingabeschicht 102 und der Ausgabeschicht 108. Beispielsweise werden die Gewichtsmatrizen W1 und W2 abhängig von der Fehlerfunktion gelernt, bis die Fehlerfunktion minimiert ist. Dabei wird beispielsweise die Stochastic Gradient Descent (SGD) Methode verwendet. Vorzugsweise wird in den Trainingsdaten eine Vielzahl von Zuordnungen von Merkmalen zu Kennzeichen vorgesehen. Im Beispiel werden 50 Epochen verwendet. In jeder der 50 Epochen werden 32 Trainingsbeispiele verarbeitet.Input layer 102 and output layer 108. For example, the weight matrices W1 and W 2 are learned depending on the error function until the error function is minimized. For example, the Stochastic Gradient Descent (SGD) method is used. A large number of assignments of features to identifiers is preferably provided in the training data. 50 epochs are used in the example. 32 training examples are processed in each of the 50 epochs.
Ein Trainingsdatensatz umfasst in diesem Falle 1600 Zuordnungen. Es kann vorgesehen sein, das Training mit einer anderen Anzahl Epochen oder einer anderen Größe eines Trainingsdatensatzes durchzuführen. In this case, a training data record comprises 1600 assignments. Provision can be made to carry out the training with a different number of epochs or with a different size of a training data record.
Durch die Verwendung der wenigstens drei Klassen ist es möglich, anstelle einer binären Entscheidung, ob ein Termkandidat T ein Term aus der Domäne ist oder nicht, ein künstliches neuronales Netz bereitzustellen, das einen Grad der Zugehörigkeit definiert. Damit ist eine feinere Klassifizierung möglich. By using the at least three classes, instead of a binary decision as to whether a term candidate T is a term from the domain or not, it is possible to provide an artificial neural network that defines a degree of membership. This enables a finer classification.
Besonders vorteilhaft ist es, wenn als Termkandidaten T ausschließlich It is particularly advantageous if T is the only term candidate
Komposita verwendet werden. Ein derartiges trainiertes künstliches neuronales Netz ermöglicht eine besonders effiziente Klassifizierung von Texten anhand darin enthaltener Komposita. Composites are used. Such a trained artificial neural network enables a particularly efficient classification of texts based on the composites contained therein.
Trainingsdaten eines Trainingsdatensatzes umfassen in diesem Fall eine Zuordnung von Merkmalen, die Komposita repräsentieren, zu den Kennzeichen, die die Klasse repräsentieren, in die die Komposita von Annotatoren klassifiziert wurden. Die Komposita werden einem bezüglich einer Domain fachspezifischen Korpus entnommen. Das Modell wird für eine Klassifizierung abhängig vom Grad einer Zugehörigkeit einer Komponente zu einer bestimmten Domäne trainiert. In this case, training data of a training data record include an assignment of features that represent composites to the indicators that represent the class into which the composites have been classified by annotators. The composites are taken from a corpus specific to a domain. The model is trained for a classification depending on the degree of belonging of a component to a specific domain.
Dem Trainingsdatensatz liegen folgende Aspekte zugrunde. The training data set is based on the following aspects.
Komposita sind Wortzusammensetzungen, die als Komponenten Wörter oder Wortstämme enthalten. Je nach der Zusammensetzung der Komponenten entstehen Komposita die einen mehr oder weniger großen Grad der Composites are word compositions that contain words or stem words as components. Depending on the composition of the components, composites are formed which have a greater or lesser degree of
Zugehörigkeit zu einer Domäne haben. Beispielsweise kann eine Komponente Mais einer Domäne Kochen oder einer Domäne Landwirtschaft zugeordnet werden. Ein Kompositum Maisanbau kann in diesem Beispiel nur der Domäne Landwirtschaft zugeordnet werden. Ein Kompositum Maismehl kann in diesem Beispiel nur der Domäne Kochen zugeordnet werden. Eine Klassifizierung des Kompositums ist in diesem Beispiel durch eine Klassifizierung der beiden weiteren Komponenten -anbau und -mehl möglich. Das Kompositum Maisanbau lässt sich zudem inhaltlich mit der Domäne Kochen assoziieren. Das Belong to a domain. For example, a corn component can be assigned to a cooking domain or an agriculture domain. In this example, a composite of maize cultivation can only be assigned to the agricultural domain. In this example, a composite of corn flour can only be assigned to the cooking domain. In this example, a classification of the composite is possible by classifying the two other components - cultivation and flour. The compound corn cultivation can also be associated with the domain of cooking. The
Kompositum Maisanbau lässt sich beispielsweise in die Klasse SIMTERM klassifizieren. Kompositum maize cultivation can be classified, for example, in the SIMTERM class.
Zur Erstellung des Trainingsdatensatzes wird ein Text oder eine Textkollektion mit bekanntem Bezug zu dieser Domäne als fachspezifischer Korpus verwendet. Im Beispiel ist der fachspezifische Korpus eine Textkollektion von Kochrezepten. Diese enthält als Termkandidaten mögliche Fachbegriffe aus der Domäne "Kochen". To create the training data record, a text or a text collection with a known reference to this domain is used as a subject-specific corpus. In the example, the subject-specific corpus is a text collection of cooking recipes. This contains possible technical terms from the domain "cooking" as term candidates.
Aus dem fachspezifischen Korpus werden Termkandidaten identifiziert. Im Beispiel werden Komposita als Termkandidaten identifiziert. Den Term candidates are identified from the subject-specific corpus. In the example, composites are identified as term candidates. The
Termkandidaten, d.h. den Komposita werden lexikalische Term candidates, i.e. the composites become lexical
Kompositumsdefinitionen oder Beispiele zugeordnet. Als lexikalische Definition oder Beispiel wird beispielsweise ein Text verwendet. Assigned compound definitions or examples. For example, a text is used as a lexical definition or example.
Für das Training und die Klassifizierung werden im Beispiel Termkandidaten berücksichtigt, die eine bestimmte Mindestlänge haben. Termkandidaten mit nur einem Buchstaben werden in diesem Fall ignoriert. Ohne eine Mindestlänge könnten Termkandidaten mit nur einem Buchstaben alternativ dazu in die Klasse NONTERM klassifiziert werden. For training and classification, term candidates with a certain minimum length are taken into account in the example. Term candidates with only one letter are ignored in this case. Without a minimum length, term candidates with just one letter could alternatively be classified in the NONTERM class.
Den Termkandidaten wird als Gold-Standard für das Training durch einen Annotator oder mehrere Annotatoren eine nutzerbasierte Bewertung hinsichtlich einer Spezifität und Zentralität zugeordnet. Im Beispiel wird für einen As a gold standard for training by one or more annotators, the term candidates are assigned a user-based assessment of specificity and centrality. In the example, for one
Termkandidat mittels der vier Klassen eine mehrdimensionale Skala verwendet, um dem Termkandidaten eine Klassifizierung in eine der Klassen NONTERM, SIMTERM, TERM oder SPECTERM zuzuweisen. Die Annotatoren sind angehalten, einen Termkandidat in die Klasse SPECTERM zu klassifizieren, wenn er sehr spezifisch für die bestimmte Domäne, im Beispiel "Kochen" ist und einen hohen Grad der Nähe zu der bestimmten Domäne aufweist. Die Term candidate uses a multidimensional scale using the four classes to assign the term candidate a classification in one of the classes NONTERM, SIMTERM, TERM or SPECTERM. The annotators are required to classify a term candidate into the SPECTERM class if it is very specific for the specific domain, in the example "cooking" and has a high degree of proximity to the specific domain. The
Annotatoren sind angehalten, einen Termkandidat in die Klasse SIMTERM zu klassifizieren, wenn er sehr spezifisch ist und einen mittleren Grad der Nähe zu der bestimmten Domäne aufweist. Die Annotatoren sind angehalten, einen Termkandidat in die Klasse TERM zu klassifizieren, wenn er einen hohen Grad der Nähe zu der bestimmten Domäne, im Beispiel "Kochen" aufweist, aber ansonsten fachlich unspezifisch ist. Die Annotatoren sind angehalten, andere Termkandidaten in die Klasse NONTERM zu klassifizieren. Annotators are required to classify a term candidate into the SIMTERM class if it is very specific and has a medium degree of proximity to the particular domain. The annotators are required to classify a term candidate into the TERM class if he is close to the particular domain, in the example "cooking", but is otherwise technically unspecific. The annotators are required to classify other term candidates into the NONTERM class.
Beispielhaft für eine Klassifizierung eines Termkandidaten aus dem Example of a classification of a term candidate from the
fachspezifischen Korpus wird das Kompositum "Maisanbau" betrachtet. Einer Vielzahl Annotatoren wird das Kompositum Maisanbau und die Definition zur Klassifizierung vorgelegt. Einige Annotatoren klassifiziert das Kompositum beispielsweise aufgrund dieser Definition in die Klasse NONTERM. Andere Annotatoren klassifizieren das Kompositum beispielsweise in die Klasse subject-specific corpus is considered the compound "maize cultivation". The composite corn cultivation and the definition for classification are presented to a large number of annotators. For example, some annotators classify the compound into the NONTERM class based on this definition. Other annotators classify the compound, for example, into the class
SIMTERM. SIMTERM.
Der Trainingsdatensatz wird im Beispiel um den Eintrag Maisanbau in der Klasse ergänzt, in die das Kompositum Maisanbau von allen oder einer Mehrzahl der Annotatoren klassifiziert wurde. Ein Trainingssatz enthält beispielsweise eine Zuordnung von einem Merkmal, das den Eintrag Maisanbau repräsentiert zu einer der Klassen. Beispielsweise wird der Wortvektor z, der den In the example, the training data record is supplemented by the entry maize cultivation in the class into which the composite maize cultivation was classified by all or a majority of the annotators. For example, a training record contains an assignment of a characteristic that represents the entry maize cultivation to one of the classes. For example, the word vector z that the
Termkandidaten Maisanbau charakterisiert, dem Vektor s zugeordnet, der die Klasse SIMTERM charakterisiert. Term candidates characterized by maize cultivation, assigned to the vector s that characterizes the class SIMTERM.
Ein Trainingsdatensatz enthält eine Vielzahl derartiger Zuordnungen für eine Vielzahl von verschiedenen Termkandidaten. Ausgehend von diesem A training data record contains a large number of such assignments for a large number of different term candidates. Starting from this
Trainingssatz, wird das Modell trainiert. Im Training wird die Vielzahl derartiger Zuordnungen aus einem Trainingsdatensatz verwendet, um die Training set, the model is trained. In training, the large number of such assignments from a training data set is used to determine the
Gewichtsmatrizen zu lernen. To learn weight matrices.
In der ersten Ausführungsform werden die Wortvektoren z, die die Komposita repräsentieren als Merkmale verwendet. Die Gewichtsmatrizen Wi und W2 werden abhängig von diesen Wortvektoren z, dem Vektor s und einer entsprechenden Fehlerfunktion gelernt. In the first embodiment, the word vectors z representing the composites are used as features. The weight matrices Wi and W 2 are learned depending on these word vectors z, the vector s and a corresponding error function.
Eine weitere Verbesserung ist möglich, wenn zusätzlich zu den Komposita deren Komponenten verwendet werden. Dazu werden weitere Merkmale verwendet. A further improvement is possible if, in addition to the composites, their components are used. Additional features are used for this.
Dies wird im Folgenden anhand des künstlichen neuronalen Netzes 200 nach einer zweiten Ausführungsform beschrieben, das in Figur 2 schematisch dargestellt ist. Das künstliche neuronale Netz 200 umfasst eine erste Eingabeschicht 202a, eine zweiten Eingabeschicht 202b, eine dritte Eingabeschicht 202c, eine vierte Eingabeschicht 202d und eine fünfte Eingabeschicht 202e. Das künstliche neuronale Netz 200 umfasst eine erste verdeckte Schicht 204a, die der zweiten Eingabeschicht 202b nachgeordnet ist, eine zweite verdeckte Schicht 204b, die der dritten Eingabeschicht 202c nachgeordnet ist, eine dritte verdeckte Schicht 204c, die der vierten Eingabeschicht 202e nachgeordnet ist. This is described below with reference to the artificial neural network 200 according to a second embodiment, which is shown schematically in FIG. 2. The artificial neural network 200 comprises a first input layer 202a, a second input layer 202b, a third input layer 202c, a fourth input layer 202d and a fifth input layer 202e. The artificial neural network 200 comprises a first hidden layer 204a, which is arranged after the second input layer 202b, a second hidden layer 204b, which is arranged after the third input layer 202c, a third hidden layer 204c, which is arranged after the fourth input layer 202e.
Das künstliche neuronale Netz 200 umfasst eine vierte verdeckte Schicht 206a, die der ersten Eingabeschicht 202a nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine fünfte verdeckte Schicht 206b, die der ersten verdeckten Schicht 204a nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine sechste verdeckte Schicht 206c, die der zweiten verdeckten Schicht 204b nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine siebte verdeckte Schicht 206d, die der dritten verdeckten Schicht 204c nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine achte verdeckte Schicht 206e, die der fünften Eingabeschicht 202e nachgeordnet ist. The artificial neural network 200 comprises a fourth hidden layer 206a, which is arranged after the first input layer 202a. The artificial neural network 200 comprises a fifth hidden layer 206b, which is arranged downstream of the first hidden layer 204a. The artificial neural network 200 comprises a sixth hidden layer 206c, which is arranged downstream of the second hidden layer 204b. The artificial neural network 200 comprises a seventh hidden layer 206d, which is arranged after the third hidden layer 204c. The artificial neural network 200 comprises an eighth hidden layer 206e, which is arranged after the fifth input layer 202e.
Das künstliche neuronale Netz 200 umfasst eine neunte verdeckte Schicht 208a, die der vierten verdeckten Schicht 206a und der fünften verdeckten Schicht 206b nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine zehnte verdeckte Schicht 208b, die der siebten verdeckten Schicht 206d und der achten verdeckten Schicht 206e nachgeordnet ist. The artificial neural network 200 comprises a ninth hidden layer 208a, which is arranged after the fourth hidden layer 206a and the fifth hidden layer 206b. The artificial neural network 200 comprises a tenth hidden layer 208b, which is arranged after the seventh hidden layer 206d and the eighth hidden layer 206e.
Das künstliche neuronale Netz 200 umfasst eine elfte verdeckte Schicht 210, die der neunten verdeckten Schicht 208a und der zehnten verdeckten Schicht 208b nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine erste The artificial neural network 200 comprises an eleventh hidden layer 210, which is arranged after the ninth hidden layer 208a and the tenth hidden layer 208b. The artificial neural network 200 comprises a first one
Ausgabeschicht 212a, die der neunten verdeckten Schicht 208a nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine zweite Ausgabeschicht 212b, die der sechsten verdeckten Schicht 206c nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine dritten Ausgabeschicht 212c, die der zehnten verdeckten Schicht 208b nachgeordnet ist. Das künstliche neuronale Netz 200 umfasst eine vierte Ausgabeschicht 214, die der elften verdeckten Schicht 210 nachgeordnet ist. Die dritte Eingabeschicht 202c ist als Eingang für Termkandidaten ausgebildet.Output layer 212a, which is after the ninth hidden layer 208a. The artificial neural network 200 comprises a second output layer 212b, which is arranged after the sixth hidden layer 206c. The artificial neural network 200 comprises a third output layer 212c, which is arranged after the tenth hidden layer 208b. The artificial neural network 200 comprises a fourth output layer 214, which is arranged downstream of the eleventh hidden layer 210. The third input layer 202c is designed as an input for term candidates.
Im Beispiel werden als Termkandidaten Komposita c2, d.h. In the example, term candidates are composites c 2, ie
Wortzusammensetzungen verwendet. Word compositions used.
Die zweite Eingabeschichten 202b, und die vierte Eingabeschicht 202d sind als Eingabeschicht für Komponenten Ci, C des Kompositums c ausgebildet. In Figur 2 sind eine erste Komponente Ci und eine zweite Komponente C dargestellt, es können aber auch mehr als zwei Komponenten verwendet werden, wenn das Kompositum mehr als zwei Komponenten enthält. The second input layers 202b and the fourth input layer 202d are designed as an input layer for components Ci, C of the composite c. A first component Ci and a second component C are shown in FIG. 2, but more than two components can also be used if the composite contains more than two components.
Allgemein umfasst ein Eingang des künstlichen neuronalen Netzes 200 das Kompositum c und jede seiner Komponenten. Generally, an input to artificial neural network 200 includes compound c and each of its components.
In einem Batch mit einer Anzahl b Trainingsdatensätzen wird den In a batch with a number of b training data records, the
Eingabeschichten jeweils eine Vektor der Dimension [1 , b] für jede der Input layers each have a vector of dimension [1, b] for each of the
Komponenten und das Kompositum einzeln vorgegeben. Components and the compound are specified individually.
Als Eingang für die der zweiten Eingabeschicht 202b, der dritten Eingabeschicht 202c und der vierten Eingabeschicht 202d nachgeordneten verdeckten Schichten wird beispielweise ein Vektor x verwendet, in dem das Kompositum c und seine Komponenten konkateniert sind. Für das in Figur 2 dargestellte Beispiel mit zwei Komponenten Ci, C wird in einem Modell für konkatenierte Vektoren  For example, a vector x in which the composite c and its components are concatenated is used as the input for the hidden layers downstream of the second input layer 202b, the third input layer 202c and the fourth input layer 202d. For the example shown in FIG. 2 with two components Ci, C, a model for concatenated vectors is used
beispielsweise der folgende Vektor verwendet: x = (c1; c2, c3) . For example, the following vector is used: x = (c 1; c 2 , c 3 ).
Die Funktion E bildet x beispielsweise auf einen konkatenierten Wortvektor ab. Der Wortvektor z ist ein Merkmal für die Zuordnung. The function E forms x, for example, on a concatenated word vector from. The word vector z is a characteristic for the assignment.
Es kann auch vorgesehen sein, jedem Eingang ein einzelnes Wort zuzuweisen, und erst im Dense Layer zu konkatenieren. In diesem Fall werden einzelne Vektoren It can also be provided that a single word is assigned to each input and only concatenated in the dense layer. In this case, single vectors
Xi = Ci X2 = c2 Xi = Ci X2 = c 2
X3 = c3 und zi = E(xi) X3 = c 3 and zi = E (xi)
2.2 = E(X2) 2.2 = E (X 2 )
z3 = E(X3) verwendet. z 3 = E (X 3 ) used.
Bei einem Batch der Größe b haben die Vektoren xi, x2, x3 die Dimension [1 , b] wobei zi, z 2, z3 eine Matrix der Dimension [200, b] darstellt. In a batch of size b, the vectors xi , x 2, x 3 have the dimension [1, b], where zi , z 2, z 3 represents a matrix of the dimension [200, b].
Ein jeweiliger Ausgang der fünften verdeckten Schicht 206b, der sechsten verdeckten Schicht 206c und der siebten verdeckten Schicht 206d wird im Folgenden für die einzeln berechneten Vektoren wiedergegeben: h = cp(E(ci) * Wi) Ausgang der fünften verdeckten Schicht 206b,A respective output of the fifth hidden layer 206b, the sixth hidden layer 206c and the seventh hidden layer 206d is given below for the individually calculated vectors: h = cp (E (ci) * Wi) output of the fifth hidden layer 206b,
12 = rp(E(c2) * W2) Ausgang der sechsten verdeckten Schicht 206c,1 2 = rp (E (c 2 ) * W 2 ) output of the sixth hidden layer 206c,
13 = cp(E(c3) * W3) Ausgang der siebten verdeckten Schicht 206d. 1 3 = cp (E (c 3 ) * W 3 ) output of the seventh hidden layer 206d.
Die Funktion E stellt den Embedding Layer dar, der beispielsweise mittels des bag-of-words Modells den jeweiligen Teil des Vektors x auf einen jeweiligen Teil des Wortvektor z abbildet. The function E represents the embedding layer, which for example uses the bag-of-words model to map the respective part of the vector x to a respective part of the word vector z.
Der Ausgang h der fünften verdeckten Schicht 206b, der Ausgang l2 der sechsten verdeckten Schicht 206c und der Ausgang l3 der siebten verdeckten Schicht 206d hat im Beispiel der Batch mit b Trainingsdaten jeweils die Dimension [64, b]. The output h of the fifth hidden layer 206b, the output l 2 of the sixth hidden layer 206c and the output l 3 of the seventh hidden layer 206d each have the dimension [64, b] in the example of the batch with b training data.
Die erste Eingabeschicht 202a ist ein Eingang für eine erste Frequenz f(ci) und eine erste Produktivität P(ci) einer ersten Komponente Ci aus einem Kompositum c2. Die fünfte Eingabeschicht 202c ist ein Eingang für eine zweite Frequenz (fC3) und eine zweite Produktivität P(C3) einer zweiten Komponente C3 aus einem The first input layer 202a is an input for a first frequency f (ci) and a first productivity P (ci) of a first component Ci from a composite c 2 . The fifth input layer 202c is an input for a second frequency (fC3) and a second productivity P (C3) of a second component C3 from one
Kompositum C2. Frequenz bezeichnet hierbei eine Häufigkeit eines Auftretens der jeweiligen Komponente Ci ,C3 in anderen Komposita im fachspezifischen Korpus bezogen auf alle Komponenten aus dem fachspezifischen Korpus. Composite C2. Frequency here denotes a frequency of occurrence of the respective component Ci, C3 in other composites in the subject-specific corpus based on all components from the subject-specific corpus.
Produktivität bezeichnet hierbei eine Anzahl voneinander verschiedener Productivity refers to a number of different ones
Komposita, in denen die jeweilige Komponente Ci, C3 in anderen Komposita als dem Kompositum c2 im fachspezifischen Korpus enthalten ist. Composites in which the respective component Ci , C 3 is contained in composites other than the composite c 2 in the subject-specific corpus.
Die Produktivität und die Frequenz sind zwei weitere Merkmale für die Productivity and frequency are two other features for that
Zuordnung. Assignment.
Im Beispiel werden für erste Eingabeschicht 202a vi = (/Oi); P(ci)) und die fünfte Eingabeschicht 202c In the example, for the first input layer 202a, vi = (/ Oi) ; P (ci)) and the fifth input layer 202c
V 2 = (/ s); P(c3)) verwendet. V 2 = (/ s); P (c 3 )) used.
Als Eingang wird allgemein ein mehrdimensionaler Vektor v mit den Dimensionen Frequenz und Produktivität der einzelnen Komponenten verwendet: A multidimensional vector v with the dimensions frequency and productivity of the individual components is generally used as the input:
V = Ol, V2) . V = Ol, V 2 ).
Ein Ausgang U der vierten verdeckten Schicht 206a und ein Ausgang I5 der achten verdeckten Schicht 206e sind An output U of the fourth hidden layer 206a and an output I 5 of the eighth hidden layer 206e are
U = cp(W4 * vi) Ausgang der vierten verdeckten Schicht 206a,U = cp (W4 * vi) output of the fourth hidden layer 206a,
I5 = cp(W5 * v2) Ausgang der achten verdeckten Schicht 206e. I 5 = cp (W 5 * v 2 ) output of the eighth hidden layer 206e.
Der Ausgang U der vierten verdeckten Schicht 206a und der Ausgang h der fünften verdeckten Schicht 206b haben im B Beispiel der Batch mit b Trainingsdaten jeweils die Dimension [64, b]. Der Ausgang U der vierten verdeckten Schicht 206a und der Ausgang h der fünften verdeckten Schicht 206b bilden einen Eingang der neunten verdeckten Schicht 208a. The output U of the fourth hidden layer 206a and the output h of the fifth hidden layer 206b have the batch with b in the B example Training data each have the dimension [64, b]. The output U of the fourth hidden layer 206a and the output h of the fifth hidden layer 206b form an input of the ninth hidden layer 208a.
Der Ausgang Is der achten verdeckten Schicht 206e und der Ausgang der siebten verdeckten Schicht 206d haben im Beispiel der Batch mit b The output Is of the eighth hidden layer 206e and the output of the seventh hidden layer 206d have the batch with b in the example
Trainingsdaten jeweils die Dimension [64, b]. Der Ausgang I5 der achten verdeckten Schicht 206e und der Ausgang I3 der siebten verdeckten Schicht 206d bilden einen Eingang der zehnten verdeckten Schicht 208b. Training data each have the dimension [64, b]. The output I5 of the eighth hidden layer 206e and the output I 3 of the seventh hidden layer 206d form an input of the tenth hidden layer 208b.
Ein Ausgang l6 der neunten verdeckten Schicht 208a und ein Ausgang l7 der zehnten verdeckten Schicht 208b sind An output l 6 of the ninth hidden layer 208a and an output l 7 of the tenth hidden layer 208b are
16 = [h; U]T Ausgang der neunten verdeckten Schicht 208a,1 6 = [h; U] T output of the ninth hidden layer 208a,
17 = [ ; Is] T Ausgang der zehnten verdeckten Schicht 208b. 17 = [; Is] T exit of tenth buried layer 208b.
Die neunte verdeckte Schicht 208a und die zehnte verdeckte Schicht 208b konkatenieren im Beispiel ihre jeweiligen Eingänge. The ninth hidden layer 208a and the tenth hidden layer 208b concatenate their respective entrances in the example.
Der Ausgang IQ der neunten verdeckten Schicht 208a und der Ausgang I7 der zehnten verdeckten Schicht 208b haben im Beispiel der Batch mit b The output IQ of the ninth hidden layer 208a and the output I7 of the tenth hidden layer 208b have the batch with b in the example
Trainingsdaten jeweils eine Dimension [128, b]. Der Ausgang IQ der neunten verdeckten Schicht 208a und der Ausgang I7 der zehnten verdeckten Schicht 208b bilden mit dem Ausgang l2 der sechsten verdeckten Schicht 206c den Eingang der elften verdeckten Schicht 210. Training data one dimension each [128, b]. The output Q of the I ninth hidden layer 208a and the output of the tenth I7 hidden layer 208b form the output L 2 of the sixth hidden layer 206c to the input of the eleventh hidden layer 210th
Der Ausgang Is der elften verdeckten Schicht 210 ist The output Is of the eleventh buried layer 210 is
Is = [IQ; h; I7] T Ausgang der elften verdeckten Schicht 210. Is = [I Q ; H; I7] T exit of the eleventh hidden layer 210.
Der Ausgang Is der elften verdeckten Schicht 210 hat im Beispiel der Batch mit b Trainingsdaten die Dimension [320, b]. Den Ausgang des künstlichen neuronalen Netzes 200 bildet in einem Aspekt der Ausgang der vierten Ausgabeschicht 214: In the example of the batch with b training data, the output Is of the eleventh hidden layer 210 has the dimension [320, b]. In one aspect, the output of the fourth output layer 214 forms the output of the artificial neural network 200:
0 = o(W6 * l8). Den Ausgang des künstlichen neuronalen Netzes 200, im Beispiel der Ausgang der vierten Ausgabeschicht 214, hat im Beispiel der Batch mit b Trainingsdaten eine Dimension [4, b]. 0 = o (W 6 * l 8 ). The output of the artificial neural network 200, in the example the output of the fourth output layer 214, has in the example the batch with b training data one dimension [4, b].
Für eine Optimierung des künstlichen neuronalen Netzes 200 beim Training oder danach wird dieser Ausgang O in einer Fehlerfunktion, beispielsweise in einem Stochastic gradient descent Verfahren, mit dem Vektor s verwendet, um die Gewichte der Gewichtsmatrizen anzupassen. For an optimization of the artificial neural network 200 during training or thereafter, this output O is used in an error function, for example in a stochastic gradient descent method, with the vector s in order to adapt the weights of the weight matrices.
In einem optionalen weiteren Aspekt sind der Ausgang O und Hilfsausgänge OaUx vorgesehen In an optional further aspect, the output O and auxiliary outputs O aUx are provided
0 = o(W6 * l8) Ausgang der vierten Ausgabeschicht 214, OaUx1 = o(W 7* Iq) Ausgang der ersten Ausgabeschicht 212a, OaUx2 = o(We * I2) Ausgang der zweiten Ausgabeschicht 212b, OaUx3 = 0(Wg * I7) Ausgang der dritten Ausgabeschicht 212c. 0 = o (W 6 * l 8 ) output of the fourth output layer 214, O aUx1 = o (W 7 * Iq) output of the first output layer 212a, O aUx2 = o (We * I2) output of the second output layer 212b, O aUx3 = 0 (Wg * I7) output of the third output layer 212c.
Die Hilfsausgänge Oauxi, OauX2 und OauX3 haben im Beispiel der Batch mit b Trainingsdaten eine Dimension [4, b]. The auxiliary outputs O auxi , O auX 2 and O auX 3 have one dimension in the example of the batch with b training data [4, b].
Die Information aus den Hilfsausgängen OaUxi und OauX3 für die Komponenten ci, C3 werden verwendet, um das künstliche neuronale Netz 200 auf dem Weg zum Ausgang O zu optimieren. Mit den Schichten, die zu den Hilfsausgängen Oauxi und OauX3 führen, wird das Wissen im künstlichen neuronalen Netz 200 geschärft, in welche Klassen die Komponenten gehören. Für den Ausgang O lernt das künstliche neuronale Netz 200, inwiefern diese Information zur Klassifizierung des Kompositums hilft. The information from the auxiliary outputs O aUxi and O auX 3 for the components ci, C3 are used to optimize the artificial neural network 200 on the way to the output O. The layers leading to the auxiliary outputs O auxi and O auX 3 sharpen the knowledge in the artificial neural network 200 into which classes the components belong. For the output O, the artificial neural network 200 learns to what extent this information helps to classify the composite.
Zum Beispiel werden bei einem Kompositum "Tomaten|suppe" wahrscheinlich beide Komponenten als TERM klassifiziert, und dann das Kompositum am Ausgang O auch. Bei einem Kompositum "Dosen|suppe" wird die Komponente "Dose" wahrscheinlich als NONTERM und die Komponente "suppe" als TERM Klassifiziert. Das künstliche neuronale Netz 200 lernt für den Ausgang O noch einmal, dass bei dieser Komponentenkombination TERM meistens überwiegt und die Klasse ausmacht. Zum Beispiel lernt das künstliche neuronale Netz 200 für das Kompositum "Portulak|salat" aus einer Kombination von "Portulak" als SPECTERM und "salat" als TERM, dass die Klasse des Kompositums SPECTERM ist. For example, in a compound "tomato | soup" both components are probably classified as TERM, and then the compound at exit O as well. In the case of a compound "Dosen | soup", the component "Dose" is probably classified as NONTERM and the component "soup" as TERM. The artificial neural network 200 learns again for the output O that TERM mostly prevails with this component combination and makes up the class. For example, the artificial neural network 200 for the compound "purslane | salad" learns from a combination of "purslane" as SPECTERM and "salad" as TERM that the class of the compound is SPECTERM.
Die Aktivierungsfunktion cp ist beispielsweise für einen jeweiligen Eingang y, und eine jeweilige der i Gewichtsmatrizen W, definiert als cp ( ) = tanh (y * \L ))) The activation function cp is, for example, for a respective input y, and a respective one of the i weight matrices W, defined as cp () = tanh (y * \ L)))
Im Beispiel charakterisiert der Ausgang O in dieser Reihenfolgt die i-te der vier Klassen NONTERM, SIMTERM, TERM, SPECTERM. Beispielsweise wird der Ausgang als O = (o1; o2, o3, o4) in der Ausgabeschicht für einen jeweiligen Eingang yi und einen i-ten der n skalaren Ausgänge o; folgende Funktion verwendet In the example, output O characterizes the i-th of the four classes NONTERM, SIMTERM, TERM, SPECTERM in this order. For example, the output as O = (o 1; o 2 , o 3 , o 4 ) in the output layer for a respective input yi and an i-th of the n scalar outputs o ; uses the following function
Der Wert von o; gibt im Beispiel von 0 beginnend einen bis zum maximalen Wert 1 zunehmenden Grad der Zugehörigkeit zu der Klasse an, für die o; bestimmt wurde. The value of o ; specifies in the example starting from 0 an increasing degree of belonging to the class for which o ; was determined.
Die j optionalen zusätzlichen Ausgänge OaUxj The j optional additional outputs O aU xj
= (oauxj i, oauxj 2, oauxj 3, oauxj4 ) geben jeweils i Wert oaUxji an, die im Beispiel ebenfalls von 0 beginnend bis zum maximalen Wert 1 zunehmenden Grad für die Zugehörigkeit zu der i-ten Klasse angeben. Genauer gibt der Ausgang Oauxi den Grad der Zugehörigkeit der ersten Komponente Ci zu den Klassen an. Der Ausgang OauX2 gibt den Grad der Zugehörigkeit des Kompositums c2 zu den Klassen an. Der Ausgang OauX3 gibt den Grad der Zugehörigkeit der Komponente C3 zu den Klassen an. Für eine weitere Optimierung des künstlichen neuronalen Netzes 200 werden die Werte oauxjl, oauxj2, oauxj3, oauxj4 gewichtet in einer Fehlerfunktion verwendet. In einer beispielhaften Fehlerfunktion wird der Ausgang der vierten Ausgabeschicht 214 mit einem Faktor 1 und alle optionalen Ausgänge mit einem Faktor 0.2 gewichtet verwendet. Eine andere Gewichtung kann ebenfalls verwendet werden. Für das Training des neuronalen Netzes wird beispielsweise ein Backpropagation Algorithmus genutzt, der verschiedene Ausgänge zur Optimierung der Gewichte der Gewichtsmatrizen mit = (o auxj i, o auxj 2 , o auxj 3 , o auxj4 ) each give i value o aU xji, which in the example also indicates the degree of belonging to the i-th class, starting from 0 and increasing to the maximum value 1 , More precisely, the output O auxi indicates the degree of belonging of the first component Ci to the classes. The output O auX 2 indicates the degree of belonging of the composite c 2 to the classes. The output O auX 3 indicates the degree of belonging of the component C3 to the classes. For a further optimization of the artificial neural network 200, the values o auxjl , o auxj2 , o auxj3 , o auxj4 weighted are used in an error function. In an exemplary error function, the output of the fourth output layer 214 is used with a factor of 1 and all optional outputs are weighted with a factor of 0.2. Another weighting can also be used. A back propagation algorithm, for example, is used for training the neural network Outputs to optimize the weights of the weight matrices with
verschiedenen Gewichtungen verwendet. different weights used.
Die Dimensionen der Gewichtsmatrizen W werden passend zu den Dimensionen der jeweiligen Eingabeschicht 202a, 202b, 202c, 202d, 202e und der jeweiligen Ausgabeschicht 212a, 212b, 212c, 214 festgelegt. Die Gewichtsmatrix Wi der fünften verdeckte Schicht 206b hat beispielsweise für einen 200-dimensionalen Wortvektor zi eine Dimension 200 x 64. Entsprechend haben Gewichtsmatrizen W2 und W3 der sechsten verdeckten Schicht 206c und der siebten verdeckten Schicht 206d für ebenfalls 200-dimensionalen Wortvektoren z2 und Z3 dieselben Dimensionen. The dimensions of the weight matrices W are determined to match the dimensions of the respective input layer 202a, 202b, 202c, 202d, 202e and the respective output layer 212a, 212b, 212c, 214. The weight matrix Wi of the fifth hidden layer 206b has, for example, a dimension 200 × 64 for a 200-dimensional word vector zi. Correspondingly, weight matrices W 2 and W3 of the sixth hidden layer 206c and the seventh hidden layer 206d have for 200-dimensional word vectors z 2 and Z3 the same dimensions.
Die Produktivität und die Frequenz einer Komponente sind im Beispiel Skalare, der zugehörige Vektor vi oder v2 ist zweidimensional. Die Gewichtsmatrizen W3, und W4 haben beispielsweise bei dem Batch der Größe b die Dimension 2 x b. Die neunte verdeckte Schicht 208a fasst die Ausgänge h und U zusammen. Die zehnte verdeckte Schicht 208b fasst die Ausgänge I3 und I5. Die Dimensionen der jeweiligen Gewichtsmatrizen ist an die Dimensionen der jeweiligen Ausgänge und an die Größe der Batch b angepasst. The productivity and the frequency of a component are scalars in the example, the associated vector vi or v 2 is two-dimensional. The weight matrices W3 and W 4 have the dimension 2 × b, for example, in the batch of size b. The ninth buried layer 208a combines the outputs h and U. The tenth buried layer 208b holds outputs I3 and I5. The dimensions of the respective weight matrices are adapted to the dimensions of the respective outputs and to the size of the batch b.
Es können auch mehr oder weniger optionale Ausgänge und andere passende Dimensionen verwendet werden. Das Zusammenfassen der Ausgänge und Vektoren erfolgt beispielsweise durch Konkatenation. More or less optional outputs and other suitable dimensions can also be used. The outputs and vectors are combined, for example, by concatenation.
Das künstliche neuronale Netz 200 ordnet allgemein einem Merkmal z, v, welches das Kompositum c2 aus der Eingabeschicht 202 repräsentiert, in einer Vorhersage in der Ausgabeschicht 214 des künstlichen neuronalen Netzes 200 ein Kennzeichen O zu. Die Vorhersage erfolgt mittels des beschriebenen Modells. Das Ergebnis der Vorhersage ist im Beispiel der Vektor O. The artificial neural network 200 generally assigns an identifier O to a feature z, v, which represents the compound c 2 from the input layer 202, in a prediction in the output layer 214 of the artificial neural network 200. The prediction is made using the model described. In the example, the result of the prediction is the vector O.
In einem Vergleich wird das Kennzeichen O mit dem, diesem Merkmal in den Trainingsdaten zugeordneten Kennzeichen s verglichen. Beispielsweise wird im Vergleich eine Fehlerfunktion, insbesondere eine Differenz zwischen dem Vektor s und dem Vektor O verwendet. Abhängig vom Ergebnis des Vergleichs wird wenigstens ein Parameter des künstlichen neuronalen Netzes gelernt. Der Parameter charakterisiert eine Verbindung des künstlichen neuronalen Netzes zwischen der Eingabeschicht 102 und der Ausgabeschicht 108. Beispielsweise werden die Gewichtsmatrizen Wi und W2 abhängig von der Differenz bestimmt. Dazu wird eine Fehlerfunktion ausgewertet, mit der die Differenz minimiert wird. Dabei wird beispielsweise die Stochastic Gradient Descent (SGD) Methode verwendet. In a comparison, the identifier O is compared with the identifier s assigned to this characteristic in the training data. For example, an error function, in particular a difference between the vector s and the vector O, is used in the comparison. Depending on the result of the comparison, at least one parameter of the artificial neural network is learned. The parameter characterizes a connection of the artificial neural network between the input layer 102 and the output layer 108. For example, the weight matrices Wi and W 2 are determined depending on the difference. For this purpose, an error function is evaluated with which the difference is minimized. For example, the Stochastic Gradient Descent (SGD) method is used.
Der zweiten Ausführungsform liegen gegenüber der ersten Ausführungsform folgende zusätzlichen Aspekte zugrunde. The second embodiment is based on the following additional aspects compared to the first embodiment.
Die Produktivität und die Frequenz bilden ein Grad für eine thematische Productivity and frequency form a degree for a thematic
Zuordnung, d.h. eine Zentralität, und ein Grad für eine Schwierigkeit, d.h. eine Spezifität oder ein Niveau. Komponenten eines Kompositums, die häufig in verschiedenen Komposita auftreten, sind mit großer Wahrscheinlichkeit zentrale Komponenten für diese Domäne. Komponenten eines Kompositums, die in geringer Anzahl auftreten, sind mit großer Wahrscheinlichkeit Komponenten, die für die Domäne spezifisch sind. Assignment, i.e. a centrality, and a degree for a difficulty, i.e. a specificity or a level. Components of a composite that often occur in different composites are most likely central components for this domain. Components of a composite that occur in small numbers are most likely components that are specific to the domain.
Je nach der Zusammensetzung der Komponenten entstehen Komposita die einen mehr oder weniger großen Grad der Zugehörigkeit zu einer Domäne haben. Beispielsweise kann eine Komponente Mais einer Domäne Kochen oder einer Domäne Landwirtschaft zugeordnet werden. Ein Kompositum Maisanbau kann in diesem Beispiel nur der Domäne Landwirtschaft zugeordnet werden. Ein Kompositum Maismehl kann in diesem Beispiel nur der Domäne Kochen zugeordnet werden. Eine Klassifizierung des Kompositums ist in diesem Beispiel durch eine Klassifizierung der gemeinsamen Komponente Mais und/oder durch die beiden weiteren Komponenten -anbau und -mehl möglich. Depending on the composition of the components, composites are formed that have a greater or lesser degree of belonging to a domain. For example, a corn component can be assigned to a cooking domain or an agriculture domain. In this example, a composite of maize cultivation can only be assigned to the agricultural domain. In this example, a composite of corn flour can only be assigned to the cooking domain. In this example, the composite can be classified by classifying the common component maize and / or by the two further components - cultivation and flour.
Beispielsweise ist eines der Wörter oder Wortstämme einer For example, one of the words or stems is one
Wortzusammensetzung als Komponente nur einer Klasse zuordenbar. Word composition as a component can only be assigned to one class.
Beispielsweise ist jede der Komponenten zumindest in ein und dieselbe Klasse klassifizierbar. Die Wortzusammensetzung, d.h. das Kompositum, das aus diesen Komponenten besteht oder das diese Komponenten enthält, wird beispielsweise automatisiert in diese Klasse klassifiziert. In einem anderen Aspekt der Klassifizierung enthält eine Wortzusammensetzung wenigstens zwei Komponenten, die in verschiedenen Klassen klassifizierbar sind wobei die wenigstens zwei Komponenten in keiner gemeinsamen Klasse klassifizierbar sind. In diesem Fall ist eine Klassifizierung des Kompositums, das aus diesen Komponenten besteht oder das diese Komponenten enthält, nicht eindeutig. In diesem Fall kann beispielsweise automatisiert eine For example, each of the components can be classified into at least one and the same class. The word composition, ie the compound which consists of these components or which contains these components, is automatically classified into this class, for example. In another aspect of the classification, a word composition contains at least two components that can be classified in different classes, wherein the at least two components cannot be classified in a common class. In this case, a classification of the composite that consists of these components or that contains these components is not clear. In this case, one can be automated
Mehrheitsentscheidung getroffen werden, nach der das Kompositum in die Klasse klassifiziert wird, in der auch die meisten seiner Komponenten klassifiziert sind. Selbst falls dies aufgrund fehlender Mehrheitsverhältnisse ausgeschlossen ist, sind bestimmte Klassen, in die keines der Wörter oder keiner der Majority decision is made, according to which the compound is classified in the class in which most of its components are classified. Even if this is excluded due to a lack of majority relationships, there are certain classes in which none of the words or none of the
Wortstämme der Wortzusammensetzung als Komponente klassifiziert wurde ausgeschlossen. Word stems of word composition classified as a component were excluded.
Daher bietet eine Verwendung der Komponenten in der Klassifizierung zusätzlich zur Verwendung der Komposita selbst eine signifikante Verbesserung der Klassifizierung. Dies fällt besonders bei Komposita ins Gewicht, die nicht sehr häufig auftreten, oder deren Zusammensetzung im Trainingsdatensatz unbekannt war, mit dem das Modell trainiert wurde. Selbst wenn einzelne Komponenten eines Kompositums unbekannt sind, kann im Training mit diesem Trainingsdatensatz eine Klassifizierung mittels der anderen Komponenten des Kompositums für zuvor unbekannte Komponenten gelernt werden. Therefore, using the components in the classification in addition to using the composites themselves offers a significant improvement in the classification. This is particularly important for composites that do not occur very often or whose composition was unknown in the training data set with which the model was trained. Even if individual components of a composite are unknown, a classification using the other components of the composite for previously unknown components can be learned in training with this training data set.
Zur Erstellung eines Trainingsdatensatzes werden die Wortvektoren auf einem allgemeinsprachlichen Korpus trainiert um möglichst umfangreiches In order to create a training data set, the word vectors are trained on a general language corpus in order to be as extensive as possible
Datenmaterial zu erhalten. Eine Feinjustierung erfolgt mittels eines Trainings der Wortvektoren auf einem Korpus, der fachspezifisch für die Domäne ist. Get data material. A fine adjustment is made by training the word vectors on a body that is subject-specific for the domain.
Beispielsweise wird Text oder eine Textkollektion mit bekanntem Bezug zu dieser Domäne als fachspezifischer Korpus verwendet. Im Beispiel ist der For example, text or a text collection with a known reference to this domain is used as a subject-specific corpus. In the example it is
fachspezifische Korpus eine Textkollektion von Kochrezepten. Diese enthält als Termkandidaten mögliche Fachbegriffe aus der Domäne "Kochen". Zur subject-specific corpus a text collection of cooking recipes. This contains possible technical terms from the domain "cooking" as term candidates. to
Bestimmung von Produktivität oder Frequenz wird beispielsweise nur der fachspezifische Korpus herangezogen. Determining productivity or frequency, for example, only uses the subject-specific corpus.
Aus dem fachspezifischen Korpus werden Termkandidaten identifiziert. Im Beispiel werden Komposita als Termkandidaten identifiziert. Den Term candidates are identified from the subject-specific corpus. In the example, composites are identified as term candidates. The
Termkandidaten werden lexikalische Kompositumsdefinitionen oder Beispiele zugeordnet. Als lexikalische Definition oder Beispiel wird beispielsweise ein Text verwendet. Term candidates become lexical compound definitions or examples assigned. For example, a text is used as a lexical definition or example.
Für das Training und die Klassifizierung werden im Beispiel Termkandidaten berücksichtigt, die eine bestimmte Mindestlänge haben. Termkandidaten mit nur einem Buchstaben werden in diesem Fall ignoriert. Ohne eine Mindestlänge könnten Termkandidaten mit nur einem Buchstaben alternativ dazu in die Klasse NONTERM klassifiziert werden. For training and classification, term candidates with a certain minimum length are taken into account in the example. Term candidates with only one letter are ignored in this case. Without a minimum length, term candidates with just one letter could alternatively be classified in the NONTERM class.
Den Termkandidaten wird als Gold-Standard für das Training durch einen Annotator oder mehrere Annotatoren eine nutzerbasierte Bewertung hinsichtlich einer Spezifität und Zentralität zugeordnet. In diesem Fall wird für einen As a gold standard for training by one or more annotators, the term candidates are assigned a user-based assessment of specificity and centrality. In this case, for one
Termkandidat eine mehrdimensionale Skala verwendet, um dem Term candidate used a multidimensional scale to match the
Termkandidaten eine Klassifizierung in eine der Klassen NONTERM, SIMTERM, TERM oder SPECTERM zuzuweisen. Frequenz und Produktivität werden beispielsweise dem Trainingsdatensatz als Vektor v zusätzlich zum Wortvektor z zugefügt. Die Annotatoren sind angehalten, einen Termkandidat in die Klasse SPECTERM zu klassifizieren, wenn er sehr spezifisch für die bestimmte Assign term candidates to one of the classes NONTERM, SIMTERM, TERM or SPECTERM. Frequency and productivity, for example, are added to the training data set as vector v in addition to word vector z. The annotators are required to classify a term candidate into the SPECTERM class if it is very specific to the particular term
Domäne, im Beispiel "Kochen" ist und einen hohen Grad der Nähe zu der bestimmten Domäne aufweist. Die Annotatoren sind angehalten, einen Domain, in the example "cooking" and has a high degree of proximity to the particular domain. The annotators are stopped, one
Termkandidat in die Klasse SIMTERM zu klassifizieren, wenn er einen mittleren Grad der Nähe zu der bestimmten Domäne aufweist. Die Annotatoren sind angehalten, einen Termkandidat in die Klasse TERM zu klassifizieren, wenn er einen hohen Grad der Nähe zu der bestimmten Domäne, im Beispiel "Kochen" aufweist, aber ansonsten fachlich unspezifisch ist. Die Annotatoren sind angehalten, andere Termkandidaten in die Klasse NONTERM zu klassifizieren. Classify term candidates into the SIMTERM class if they have a medium degree of proximity to the specific domain. The annotators are required to classify a term candidate into the TERM class if he is very close to the specific domain, in the example "cooking", but is otherwise technically unspecific. The annotators are required to classify other term candidates into the NONTERM class.
Beispielhaft für eine Klassifizierung eines Termkandidaten aus dem Example of a classification of a term candidate from the
fachspezifischen Korpus wird das Kompositum "Tomaten püree" betrachtet. Nach einer Definition ist Tomatenpüree eine aus Tomaten hergestellte Paste, die in der Küche vor allem zur Herstellung von Saucen verwendet wird. Einer Vielzahl Annotatoren wird das Kompositum Tomatenpüree und die Definition zur subject-specific corpus is considered the compound "tomato puree". According to one definition, tomato puree is a paste made from tomatoes, which is mainly used in the kitchen to make sauces. The compound tomato puree and the definition become a multitude of annotators
Klassifizierung vorgelegt. Einige Annotatoren klassifiziert das Kompositum beispielsweise aufgrund dieser Definition in die Klasse TERM. Andere Classification submitted. For example, some annotators classify the compound into the TERM class based on this definition. Other
Annotatoren klassifizieren das Kompositum beispielsweise in die Klasse Annotators classify the compound, for example, into the class
SPECTERM. Der Trainingsdatensatz wird im Beispiel um den Eintrag Tomatenpüree in der Klasse ergänzt, in die das Kompositum Tomatenpüree von allen oder einer Mehrzahl der Annotatoren klassifiziert wurde. Ein Trainingssatz enthält beispielsweise eine Zuordnung von einem Merkmal, das den Eintrag SPECTERM. In the example, the training data record is supplemented by the entry tomato puree in the class into which the compound tomato puree was classified by all or a majority of the annotators. For example, a training record contains an assignment of a characteristic that is the entry
Tomatenpüree repräsentiert zu einer der Klassen. Beispielsweise werden als Merkmale der Wortvektor z und der Vektor v, die den Termkandidaten Tomato puree represents one of the classes. For example, the characteristics of the word vector z and the vector v, which are the term candidates
Tomatenpüree charakterisieren, dem Vektor s zugeordnet, der die Klasse SPECTERM charakterisiert. Characterize tomato puree, assigned to the vector s that characterizes the class SPECTERM.
Der Trainingsdatensatz umfasst eine Vielzahl derartiger Zuordnungen. The training data record comprises a large number of such assignments.
Im Training wird eine Vielzahl derartiger Zuordnungen aus dem In training, a variety of such assignments are made from the
Trainingsdatensatz verwendet, um die Gewichtsmatrizen zu lernen. Training record used to learn the weight matrices.
In der zweiten Ausführungsform werden die Gewichtsmatrizen abhängig von den Merkmalen gelernt, die die Komposita repräsentieren. Die zusätzlichen In the second embodiment, the weight matrices are learned depending on the features that represent the composites. The additional
Merkmale, die abhängig von den Komponenten und der Produktivität und/oder Frequenz der Komponenten bestimmt sind, werden ebenfalls verwendet. Features that are dependent on the components and the productivity and / or frequency of the components are also used.
Zusätzlich zum Kompositum "Tomatenpüree" werden im Training Merkmale verwendet, die seine relevanten Komponenten "Tomate" und "püree" In addition to the compound "tomato puree", characteristics are used in the training that its relevant components "tomato" and "puree"
charakterisieren. Beispielsweise wird ein entsprechend konkatenierter Wortvektor z und ein konkatenierter Vektor v verwendet, der die Produktivität und Frequenz charakterisiert. Die Schichten des künstlichen neuronalen Netzes 200 und die Vektoren und Matrizen zur Berechnung werden dazu beispielsweise characterize. For example, a correspondingly concatenated word vector z and a concatenated vector v are used, which characterize productivity and frequency. The layers of the artificial neural network 200 and the vectors and matrices for calculation are used, for example
entsprechend zusammengefasst und umsortiert. summarized and sorted accordingly.
Bei der Erzeugung des Trainingsdatensatzes für die Domäne "Kochen" werden die relevanten Komposita im Beispiel von Annotatoren manuell in die Klassen SIMTERM, TERM oder SPECTERM klassifiziert, da es sich um Bezeichnungen mit unterschiedlich zentralem und unterschiedlich spezifischen Bezug zum Thema Kochen handelt. Die Klasse von Komponenten wird anhand der When generating the training data record for the "Cooking" domain, the relevant composites in the example of annotators are manually classified into the classes SIMTERM, TERM or SPECTERM, since they are names with different central and differently specific references to the topic of cooking. The class of components is based on the
Komposita aus dem Trainingsdatensatz, in denen sie Vorkommen, geschätzt.Composites from the training data set in which they occur are estimated.
Zum Beispiel, wird für eine Komponente "Tomate" wahrscheinlich geschätzt, dass sie die Klasse TERM hat, da die Komponente "Tomate" sehr häufig in Komposita wie "Tomatensuppe", "Tomatensalat", "Tomatenauflauf", For example, a tomato component is likely to be estimated to have the TERM class because the tomato component is very common in Composites such as "tomato soup", "tomato salad", "tomato bake",
"Tomatenpüree", ... auftritt, die als TERM klassifiziert sind, und seltener in anderen Komposita. Diese Klassifizierung muss nicht immer dieselbe sein wie die von den Annotatoren annotieren Komposita-Klassen. Trotzdem optimiert diese Information aus den Hilfsausgängen OaUxi und OaUx3 das Ergebnis. "Tomato puree", ... occurs that are classified as TERM and less often in other composites. This classification need not always be the same as the composite classes annotated by the annotators. Nevertheless, this information from the auxiliary outputs O aUxi and O aUx 3 optimizes the result.
Ausgehend von diesem Trainingssatz, wird ein Modell gemäß der zweiten Ausführungsform wie im Folgenden beschrieben trainiert. Starting from this training set, a model according to the second embodiment is trained as described below.
Alle Gewichte aus den Gewichtsmatrizen des künstlichen neuronalen Netzes 200 werden beispielsweise zu Beginn des Trainings auf denselben Wert gesetzt. Es können auch zufällige Werte verwendet werden. All weights from the weight matrices of the artificial neural network 200 are set to the same value, for example at the beginning of the training. Random values can also be used.
Ein Training des Modells mit dem Trainingsdatensatz wird am Beispiel des Kompositums "Tomatenpüree" beschrieben. Training of the model with the training data set is described using the example of the compound "tomato puree".
In einem ersten Schritt wird das Kompositum in Komponenten zerlegt. Die Wortzusammensetzung "Tomatenpüree" umfasst als Komponenten den In a first step, the compound is broken down into components. The components of the word "tomato puree" include the
Wortstamm "Tomate" und das Wort "püree". Die verbleibende Komponente "n" wird im Beispiel als Fugenelement und nicht betrachtet. D.h. im Beispiel werden nur Komponenten verwendet, die länger als eine Mindestlänge von zwei Buchstaben sind. Die resultierenden relevanten Komponenten "Tomate" und "püree" sowie das Kompositum "Tomatenpüree" bilden die Eingangsterme der Klassifizierung durch das Modell. Word stem "tomato" and the word "puree". The remaining component "n" is considered in the example as a joint element and not. That in the example, only components that are longer than a minimum length of two letters are used. The resulting relevant components "tomato" and "puree" as well as the compound "tomato puree" form the starting dates for the classification by the model.
Im Beispiel wird das künstliche neuronale Netz 200 verwendet, dessen Gewichte durch wenigstens eine Optimierungsfunktion anpassbar sind. Die Gewichte werden abhängig von der Optimierungsfunktion und dem Trainingsdatensatz so angepasst, dass das Kompositum "Tomatenpüree" mit hoher Wahrscheinlichkeit der Klasse TERM zugeordnet wird. Es kann vorgesehen sein, die weiteren Ausgänge für die Komponenten ebenfalls zu optimieren, sodass die Komponente "Tomate" mit hoher Wahrscheinlichkeit der Klasse TERM zugeordnet wird und die Komponente "püree" mit hoher Wahrscheinlichkeit der Klasse SPECTERM zugeordnet wird. Dazu wird ein erweiterter Trainingsdatensatz verwendet, in dem Zuordnungen von Merkmalen, die bekannten Komponenten repräsentieren, zu entsprechenden Klassen enthalten sind. Das bedeutet, dass die Komposita genauer der Kompositumsvektor zur Entscheidungshilfe dient. In the example, the artificial neural network 200 is used, the weights of which can be adjusted by at least one optimization function. The weights are adjusted depending on the optimization function and the training data set so that the compound "tomato puree" is assigned to the TERM class with a high probability. It can be provided that the further outputs for the components are also optimized, so that the component "tomato" is assigned to the class TERM with a high probability and the component "puree" is assigned to the class SPECTERM with a high probability. For this purpose, an extended training data record is used, in which assignments of features that represent known components belong to corresponding classes are included. This means that the compound is more precisely the compound vector to help decision making.
Allgemein werden, wie in Figur 3 dargestellt, in einem ersten Schritt S1 die Komposita als Termkandidaten im spezifischen Korpus 302 gesucht und in Komponenten aufgeteilt. In einem zweiten Schritt S2 werden die Komposita automatisiert oder durch Annotatoren wenigstens einer der Klassen zugeordnet. In einem dritten Schritt S3 werden die Merkmale für die Komposita und die Komponenten bestimmt. Das heißt, Wortvektoren, Produktivität und Frequenz werden auf Basis des spezifischen Korpus 302 bestimmt. In einem vierten Schritt S4 werden die verschiedenen Modelle des künstlichen neuronalen Netzes mit den Merkmalen trainiert, um in einem fünften Schritt S5 für die Komposita ihre Klassen vorherzusagen. In general, as shown in FIG. 3, in a first step S1 the composites are searched for as term candidates in the specific body 302 and divided into components. In a second step S2, the composites are automated or assigned to at least one of the classes by annotators. In a third step S3, the characteristics for the composites and the components are determined. That is, word vectors, productivity, and frequency are determined based on the specific body 302. In a fourth step S4, the various models of the artificial neural network are trained with the features in order to predict their classes for the composites in a fifth step S5.
Eine Analyse eines Textes, der das Kompositum "Tomatenpüree" enthält, mittels des Modells nach zweiten Ausführungsform, das mit dem entsprechenden Trainingsdatensatz trainiert wurde, umfasst folgende Aspekte. An analysis of a text containing the compound "tomato puree" by means of the model according to the second embodiment, which was trained with the corresponding training data set, comprises the following aspects.
Das Kompositum Tomatenpüree wird zunächst in seine Komponenten zerlegt.The compound tomato puree is first broken down into its components.
Die resultierenden relevanten Komponenten "Tomate" und "püree" werden hinsichtlich ihrer Produktivität und ihrer Frequenz im fachspezifischen Korpus bewertet. Die Merkmale werden abhängig vom Kompositum Tomatenpüree, seinen relevanten Komponenten Tomate und püree, sowie der Produktivität und der Frequenz den entsprechenden Eingabeschichten des Modells übergeben. Das Kompositum "Tomatenpüree" wird einer der Klassen zugeordnet. The resulting relevant components "tomato" and "puree" are evaluated in terms of their productivity and frequency in the subject-specific corpus. The characteristics are transferred to the corresponding input layers of the model depending on the compound tomato puree, its relevant components tomato and puree, as well as the productivity and frequency. The compound "tomato puree" is assigned to one of the classes.
Die Komposita und ihre Komponenten werden optional durch einen Splitter erzeugt, der als Termkandidaten T Komposita c aus einem fachspezifischen Korpus extrahiert und in eine Anzahl i Komponenten q aufteilt. The composites and their components are optionally generated by a splitter which, as term candidates, T composita c is extracted from a subject-specific corpus and divided into a number i components q.
Der Splitter arbeitet beispielsweise wie in einer der folgenden Referenzen beschrieben: For example, the splitter works as described in one of the following references:
CharSplit: Character ngram-based Splitting of sparse compound nouns, Appendix A.3, Don Tuggener, 2016, Incremental Coreference Resolution for German, Thesis presented to the Faculty of Arts and Social Sciences of the University of Zürich. CharSplit: Character ngram-based Splitting of sparse compound nouns, Appendix A.3, Don Tuggener, 2016, Incremental Coreference Resolution for German, Thesis presented to the Faculty of Arts and Social Sciences of the University of Zurich.
CompoST: Fabienne Cap, 2014, Morphological Processing of Compounds for Statistical Machine Translation, dem Institut für Maschinelle Sprachverarbeitung Universität Stuttgart vorgelegt Abhandlung. CompoST: Fabienne Cap, 2014, Morphological Processing of Compounds for Statistical Machine Translation, submitted to the Institute for Machine Language Processing at the University of Stuttgart.
SCS: Marion Weller-Di Marco, 2017, Simple compound Splitting for German, Proceedings of the 13th workshop on Multiword Expressions, MWE@EACL 2017, pages 161-166, Valencia, Spain. SCS: Marion Weller-Di Marco, 2017, Simple compound Splitting for German, Proceedings of the 13th workshop on Multiword Expressions, MWE @ EACL 2017, pages 161-166, Valencia, Spain.
Vorzugsweise werden Komposita aus dem fachspezifischen Korpus in deutscher Sprache zuerst mit einem Vorgehen nach CompoST aufgeteilt. Anschließend wird das Vorgehen nach SCS angewendet und schließlich das Vorgehen nach CharSplit angewendet. Damit sind besonders gute Ergebnisse erzielbar. Für andere Sprachen werden entsprechende andere Splitter in gleicher Art und Weise eingesetzt. Composites from the subject-specific corpus in German are preferably first divided using a CompoST procedure. Then the procedure according to SCS is applied and finally the procedure according to CharSplit is applied. This enables particularly good results to be achieved. Corresponding other fragments are used in the same way for other languages.
Wird eine Analyse des Texts mittels des Modells nach der ersten Will an analysis of the text using the model after the first
Ausführungsform durchgeführt, wird wie für die zweite Ausführungsform beschrieben verfahren. Der Schritt der Zerlegung in Komponenten und die Bestimmung und Verwendung von Produktivität und Frequenz entfallen in diesem Fall. Stattdessen wird das Modell nach der ersten Ausführungsform direkt mit den Termkandidaten eingesetzt. Embodiment performed, the procedure is as described for the second embodiment. The step of breaking down into components and the determination and use of productivity and frequency are omitted in this case. Instead, the model according to the first embodiment is used directly with the term candidates.
Beide Verfahren zur Textanalyse stellen eine wesentliche Verbesserung für herkömmliche Verfahren zur Klassifizierung von Text dar. Both methods of text analysis are a significant improvement over conventional methods for classifying text.
Anstelle der Ausschließlichen Verwendung eines künstlichen neuronalen Netzes können auch andere Machine Learning Ansätze verwendet werden. Zum Beispiel kann ein anderer Deep Learning Ansatz oder ein anderer Klassifikator verwendet werden, der für mehr als zwei Klasen Vorhersagen kann. Anstelle eines auf einem künstlichen neuronalen Netz basierenden computerimplementierten Verfahrens kann für die Klassifizierung auch ein anderes statistisches Verfahren verwendet werden. In einem Aspekt umfasst die Klassifizierung von Text das künstliche neuronale Netz. Das künstliche neuronale Netz kann als Vorrichtung, beispielsweise als spezifische Hardware, beispielsweise anwendungsspezifische integrierte Instead of the exclusive use of an artificial neural network, other machine learning approaches can also be used. For example, another deep learning approach or classifier that can predict for more than two classes can be used. Instead of a computer-implemented method based on an artificial neural network, another statistical method can also be used for the classification. In one aspect, the classification of text includes the artificial neural network. The artificial neural network can be integrated as a device, for example as specific hardware, for example application-specific
Schaltung, ASIC, oder im Feld programmierbare Logik-Gatter-Anordnung, FPGA, ausgebildet sein. Das System kann auch einen Prozessor als universelle integrierte Schaltung umfassen, die das künstliche neuronale Netz abbildet oder mit der spezifischen Hardware zusammenwirkt. Das künstliche neuronale Netz stellt insbesondere für einen Computer mit einer universellen integrierten Circuit, ASIC, or in the field programmable logic gate arrangement, FPGA. The system can also include a processor as a universal integrated circuit that maps the artificial neural network or interacts with the specific hardware. The artificial neural network provides in particular for a computer with a universal integrated
Schaltung eine computerimplementierte Datenstruktur dar, welche die interne Funktionsweise des Computers selbst erheblich verbessert. Circuit represents a computer-implemented data structure that significantly improves the internal functioning of the computer itself.

Claims

Ansprüche Expectations
1. Computerimplementiertes Verfahren zum T rainieren eines künstlichen 1. Computer-implemented method for draining an artificial
neuronalen Netzes (100; 200) mit Trainingsdaten, die Merkmale (z; z, v) und Kennzeichen (s) umfassen, dadurch gekennzeichnet, dass die Merkmale (z; z, v) Termkandidaten (T; c2) aus einem Korpus (302) charakterisieren, wobei der Korpus (302) einen Text aus einer Domäne umfasst, wobei das neural network (100; 200) with training data, which include features (z; z, v) and identifier (s), characterized in that the features (z; z, v) term candidates (T; c 2 ) from a body ( 302) characterize, the body (302) comprising a text from a domain, wherein the
Kennzeichen (s) einen Grad einer Zugehörigkeit zu wenigstens drei voneinander verschiedene Klassen für die Termkandidaten (T; c2) charakterisiert, wobei unterschiedliche Klassen unterschiedliche Grade der Zugehörigkeit des Termkandidaten (T; c2) zu der Domäne angeben, wobei die Trainingsdaten eine Zuordnung von Merkmalen (z; z, v) zu Kennzeichen (s) umfassen, wobei einer Eingabeschicht (102; 202a, ... , 202e) des künstlichen neuronalen Netzes (100; 200) ein Merkmal (z; z, v) vorgegeben wird (S3), wobei das künstliche neuronale Netz (100; 200) dem Merkmal (z; z, v) aus der Eingabeschicht (102; 202a, ... , 202e) in einer Vorhersage in einer Ausgabeschicht (208; 214) des künstlichen neuronalen Netzes (100; 200) ein Kennzeichen (O) zuordnet (S5), wobei in einem Vergleich das Kennzeichen (O) aus der Ausgabeschicht (208; 214) mit dem Kennzeichen (s), das dem Merkmal (z; z, v) in den Trainingsdaten zugeordnet ist, verglichen wird (S4), wobei abhängig vom Ergebnis des Vergleichs wenigstens ein Parameter (Wi, W2; Wi, W2, W3, W4, W5, W6, W 7, Ws, Wg) des künstlichen neuronalen Netzes (100; 200) gelernt wird (S4), der eine Verbindung des künstlichen neuronalen Netzes zwischen der Characteristic (s) characterizes a degree of belonging to at least three different classes for the term candidates (T; c 2 ), different classes indicating different degrees of membership of the term candidates (T; c 2 ) to the domain, with the training data being assigned from features (z; z, v) to identifiers (s), an input layer (102; 202a, ..., 202e) of the artificial neural network (100; 200) being given a feature (z; z, v) (S3), wherein the artificial neural network (100; 200) features (z; z, v) from the input layer (102; 202a, ..., 202e) in a prediction in an output layer (208; 214) of the artificial neural network (100; 200) assigns an identifier (O) (S5), the identifier (O) from the output layer (208; 214) being compared with the identifier (s) which corresponds to the feature (z; z, v ) in the training data is compared (S4), depending on the result of the comparison we at least one parameter (Wi, W 2 ; Wi, W 2 , W 3 , W 4 , W 5 , W 6 , W 7 , Ws, Wg) of the artificial neural network (100; 200) is learned (S4), which connects the artificial neural network between the
Eingabeschicht (102; 202a, ... , 202e) und der Ausgabeschicht (208; 214) charakterisiert.  Input layer (102; 202a, ..., 202e) and the output layer (208; 214) characterized.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die 2. The method according to claim 1, characterized in that the
Termkandidaten (T, c2) einem bezüglich der Domäne fachspezifischen Korpus (302) entnommen werden (S1). Term candidates (T, c 2 ) are taken from a body (302) that is subject-specific to the domain (S1).
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die 3. The method according to claim 2, characterized in that the
Termkandidaten (T) wenigstens einer der Klassen zugeordnet werden (S2) und die Merkmale (z) für die Termkandidaten (T) bestimmt werden (S3), wobei insbesondere ein Wortvektor (z) bestimmt wird, und wenigstens ein Parameter (Wi, W2) des künstlichen neuronalen Netzes (100) mit den Merkmalen (z) trainiert wird (S4). Term candidates (T) are assigned to at least one of the classes (S2) and the features (z) for the term candidates (T) are determined (S3), in particular a word vector (z) being determined, and at least one parameter (Wi, W 2 ) of the artificial neural network (100) with the features (z) is trained (S4).
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die 4. The method according to claim 1 or 2, characterized in that the
Termkandidaten (c2) Komposita (c2) mit wenigstens zwei Komponenten (ci, C3) sind. Term candidates (c 2 ) are composites (c 2 ) with at least two components (ci, C 3 ).
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass Komposita (c2) aus einem bezüglich der Domäne fachspezifischen Korpus (302) als Termkandidaten (c2) in Komponenten (ci, C3) aufgeteilt werden (S1), die Komposita (c2) wenigstens einer der Klassen zugeordnet werden (S2), die Merkmale (z, v) für die Komposita (c2) und die Komponenten (ci, c2) bestimmt werden (S3), und wenigstens ein Parameter (W1, W2, W3, W4, W5, \L/Q, W7, Ws, Wg) des künstlichen neuronalen Netzes (200) mit den 5. The method according to claim 4, characterized in that composites (c 2 ) from a body-specific domain (302) as term candidates (c 2 ) are divided into components (ci, C3) (S1), the composites (c 2 ) are assigned to at least one of the classes (S2), the features (z, v) for the composites (c 2 ) and the components (ci, c 2 ) are determined (S3), and at least one parameter (W 1 , W 2 , W 3 , W 4 , W 5 , \ L / Q , W 7 , Ws, Wg) of the artificial neural network (200) with the
Merkmalen (z, v) trainiert wird (S4).  Characteristics (z, v) is trained (S4).
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass wenigstens ein Wortvektor als Merkmal (z) bestimmt wird. 6. The method according to claim 5, characterized in that at least one word vector is determined as a feature (z).
7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass eine Produktivität (P(ci), P(C3)) und eine Frequenz (f(ci), f(C3)) der Komponenten (ci, c2) als Merkmale (v) auf Basis des spezifischen Korpus (302) bestimmt werden. 7. The method according to claim 5 or 6, characterized in that a productivity (P (ci), P (C 3 )) and a frequency (f (ci), f (C 3 )) of the components (ci, c 2 ) can be determined as features (v) on the basis of the specific body (302).
8. Computerimplementiertes Verfahren zum Erzeugen von Trainingsdaten für ein Training eines künstlichen neuronalen Netzes (100; 200) wobei die Trainingsdaten Merkmale (z; z, v) und Kennzeichen (s) umfassen, dadurch gekennzeichnet, dass Merkmale (z; z, v) bestimmt werden, die 8. Computer-implemented method for generating training data for training an artificial neural network (100; 200), the training data comprising features (z; z, v) and identifier (s), characterized in that features (z; z, v) be determined the
Termkandidaten (T, c2) aus einem Korpus (302) charakterisieren, wobei der Korpus (302) einen Text aus einer Domäne umfasst, wobei ein Kennzeichen (s) bestimmt wird, das einen Grad einer Zugehörigkeit zu wenigstens drei voneinander verschiedene Klassen für die Termkandidaten (T; c2) charakterisiert, wobei unterschiedliche Klassen unterschiedliche Grade der Zugehörigkeit des Termkandidaten zu der Domäne angeben, wobei wenigstens einem Merkmal (z; z, v) wenigstens eines der Kennzeichen (s) zugeordnet wird. Characterize term candidates (T, c 2 ) from a corpus (302), the corpus (302) comprising a text from a domain, an identifier (s) being determined which indicates a degree of belonging to at least three different classes for the Term candidates (T; c 2 ) characterized, with different classes indicating different degrees of belonging of the term candidate to the domain, at least one characteristic (z; z, v) being assigned to at least one of the identifiers (s).
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die 9. The method according to claim 8, characterized in that the
Termkandidaten (T, c2) einem bezüglich der Domäne fachspezifischen Korpus (302) entnommen werden (S1). Term candidates (T, c 2 ) are taken from a body (302) that is subject-specific to the domain (S1).
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die 10. The method according to claim 9, characterized in that the
Termkandidaten (T) wenigstens einer der Klassen zugeordnet werden (S2) und die Merkmale (z) für die Termkandidaten (T) bestimmt werden (S3), wobei insbesondere ein Wortvektor (z) bestimmt wird.  Term candidates (T) are assigned to at least one of the classes (S2) and the features (z) for the term candidates (T) are determined (S3), in particular a word vector (z) being determined.
11. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass die 11. The method according to claim 8 or 9, characterized in that the
Termkandidaten (c2) Komposita (c2) mit wenigstens zwei Komponenten (ci, C3) sind. Term candidates (c 2 ) are composites (c 2 ) with at least two components (ci, C 3 ).
12. Verfahren nach Anspruch 11 , dadurch gekennzeichnet, dass Komposita (c) aus einem bezüglich der Domäne fachspezifischen Korpus (302) als Termkandidaten (c2) in Komponenten (ci, C3) aufgeteilt werden (S1), die Komposita (c2) wenigstens einer der Klassen zugeordnet werden (S2), und die Merkmale (z, v) für die Komposita (c2) und die Komponenten (ci, C3) bestimmt werden (S3). 12. The method according to claim 11, characterized in that composites (c) from a body-specific domain (302) as term candidates (c 2 ) are divided into components (ci, C 3 ) (S1), the composites (c 2 ) are assigned to at least one of the classes (S2), and the characteristics (z, v) for the composites (c 2 ) and the components (ci, C3) are determined (S3).
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass wenigstens ein Wortvektor als Merkmal (z) bestimmt wird. 13. The method according to claim 12, characterized in that at least one word vector is determined as a feature (z).
14. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet, dass eine Produktivität (P(ci), P(C3)) und eine Frequenz (f(ci), f(C3)) der Komponenten (ci, C3) als Merkmale (v) auf Basis des spezifischen Korpus (302) bestimmt werden. 14. The method according to claim 12 or 13, characterized in that a productivity (P (ci), P (C 3 )) and a frequency (f (ci), f (C 3 )) of the components (ci, C3) as Features (v) can be determined based on the specific body (302).
15. Künstliches neuronales Netz (100; 200), dadurch gekennzeichnet, dass einer Eingabeschicht (102; 202a, ... , 202e) des künstlichen neuronalen Netzes (100; 200) ein Merkmal (z; z, v) vorgebbar ist, wobei das künstliche neuronale Netz (100; 200) ausgebildet ist, dem Merkmal (z; z, v) aus der Eingabeschicht (102; 202a, ... , 202e) in einer Vorhersage in einer 15. Artificial neural network (100; 200), characterized in that an input layer (102; 202a, ..., 202e) of the artificial neural network (100; 200) can be given a feature (z; z, v), wherein the artificial neural network (100; 200) is formed, the feature (z; z, v) from the input layer (102; 202a, ..., 202e) in a prediction in a
Ausgabeschicht (208, 214) des künstlichen neuronalen Netzes (100; 200) ein Kennzeichen (O) zuzuordnen, wobei die Merkmale (z; z, v)  Assign an identifier (O) to the output layer (208, 214) of the artificial neural network (100; 200), the features (z; z, v)
Termkandidaten (T, c2) aus einem Korpus (302) charakterisieren, wobei der Korpus (302) einen Text aus einer Domäne umfasst, wobei das Kennzeichen (O) wenigstens drei voneinander verschiedene Klassen für die Characterize term candidates (T, c 2 ) from a corpus (302), the corpus (302) comprising a text from a domain, the identifier (O) representing at least three different classes for the
Termkandidaten (T, c2) charakterisiert, wobei unterschiedliche Klassen unterschiedliche Grade der Zugehörigkeit des Termkandidaten (T, c2) zu der Domäne angeben. Characterized term candidates (T, c 2 ), with different classes indicating different degrees of belonging of the term candidate (T, c 2 ) to the domain.
16. Künstliches neuronales Netz (100; 200) nach Anspruch 15, dadurch 16. Artificial neural network (100; 200) according to claim 15, characterized
gekennzeichnet, dass das künstliche neuronale Netz (200) wenigstens eine erste Eingabeschicht (202b, 202c, 202d) umfasst, der ein Kompositum (c2) und seine Komponenten (ci, 03) für ein erstes Merkmal (z) vorgebbar sind, wobei das künstliche neuronale Netz (200) wenigstens eine zweite characterized in that the artificial neural network (200) comprises at least a first input layer (202b, 202c, 202d), which a compound (c 2 ) and its components (ci, 03) can be specified for a first feature (z), the artificial neural network (200) at least one second
Eingabeschicht (202a, 202e) umfasst, der eine Produktivität (P(ci), P(C3) ) und eine Frequenz (f(ci), f(C3)) der Komponenten (ci, 03) für ein zweites Merkmal (v) vorgebbar sind, wobei die Ausgabeschicht (214) den  Input layer (202a, 202e) comprising a productivity (P (ci), P (C3)) and a frequency (f (ci), f (C3)) of the components (ci, 03) for a second feature (v) can be specified, the output layer (214) the
Eingabeschichten nachgeordnet ist und das Kennzeichen (O) in der  Subordinate input layers and the indicator (O) in the
Vorhersage abhängig vom ersten Merkmal (z) und vom zweiten Merkmal (v) ausgibt.  Outputs prediction depending on the first characteristic (z) and the second characteristic (v).
17. Künstliches neuronales Netz (100; 200) nach Anspruch 15 oder 16, dadurch gekennzeichnet, dass das künstliche neuronale Netz (200) eine weitere Ausgabeschicht (212b) umfasst, die ausgebildet ist einen Grad einer Zuordnung eines Kompositums (c) zu den wenigstens drei Klassen unabhängig von der Produktivität (P(ci), P(C3) ) und der Frequenz (f(ci), f(C3)) seiner Komponenten (ci, C3) auszugeben. 17. Artificial neural network (100; 200) according to claim 15 or 16, characterized in that the artificial neural network (200) comprises a further output layer (212b), which is formed a degree of assignment of a composite (c) to the at least three classes regardless of the productivity (P (ci), P (C3)) and the frequency (f (ci), f (C3)) of its components (ci, C3).
18. Künstliches neuronales Netz (100; 200) nach einem der Ansprüche 15 bis 17, dadurch gekennzeichnet, dass das künstliche neuronale Netz (200) eine weitere Ausgabeschicht (212a, 212c) umfasst, die ausgebildet ist einen Grad einer Zuordnung einer der Komponenten (ci, C3) zu den wenigstens drei Klassen abhängig von der Produktivität (P(ci), P(C3) ) und der Frequenz (f(ci), f(C3)) dieser Komponente (ci, C3) auszugeben. 18. Artificial neural network (100; 200) according to one of claims 15 to 17, characterized in that the artificial neural network (200) comprises a further output layer (212a, 212c) which is designed to provide a degree of assignment of one of the components ( ci, C3) to the at least three classes depending on the productivity (P (ci), P (C3)) and the frequency (f (ci), f (C3)) of this component (ci, C3).
19. Verfahren zur Klassifizierung von Termkandidaten (T, c2), dadurch gekennzeichnet, dass einer Eingabeschicht (102; 202a, ... , 202e) eines künstlichen neuronalen Netzes (100; 200) ein Merkmal (z; z, v) vorgegeben wird, wobei dem Merkmal (z; z, v) aus der Eingabeschicht (102; 202a, ... , 202e) in einer Vorhersage in einer Ausgabeschicht (208, 214) des künstlichen neuronalen Netzes (100; 200) ein Kennzeichen (O) zugeordnet wird, wobei die Merkmale (z; z, v) Termkandidaten (T, c2) aus einem Korpus (302) charakterisieren, wobei der Korpus (302) einen Text aus einer Domäne umfasst, wobei das Kennzeichen (O) wenigstens drei voneinander verschiedene Klassen für die Termkandidaten (T, c2) charakterisiert, wobei unterschiedliche Klassen unterschiedliche Grade der Zugehörigkeit des Termkandidaten (T, c2) zu der Domäne angeben. 19. A method for classifying term candidates (T, c 2 ), characterized in that an input layer (102; 202a, ..., 202e) of an artificial neural network (100; 200) is given a feature (z; z, v) with the feature (z; z, v) from the input layer (102; 202a, ..., 202e) in a prediction in an output layer (208, 214) of the artificial neural network (100; 200) an identifier (O ) is assigned, the features (z; z, v) characterizing term candidates (T, c 2 ) from a corpus (302), the corpus (302) comprising a text from a domain, the identifier (O) at least three different classes for the term candidates (T, c 2 ) are characterized, different classes indicating different degrees of belonging of the term candidate (T, c 2 ) to the domain.
20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass einer ersten Eingabeschicht (202b, 202c, 202d) ein Kompositum (c) und seine 20. The method according to claim 19, characterized in that a first input layer (202b, 202c, 202d) a composite (c) and its
Komponenten (ci, ) für ein erstes Merkmal (z) vorgegeben werden, wobei einer zweiten Eingabeschicht (202a, 202e) eine Produktivität (P(ci), P(C ) ) und eine Frequenz (f(ci), f(C )) der Komponenten (ci, C ) für ein zweites Merkmal (v) vorgegeben werden, wobei die Ausgabeschicht (214) den Eingabeschichten nachgeordnet ist und das Kennzeichen (O) in der Vorhersage abhängig vom ersten Merkmal (z) und vom zweiten Merkmal (v) ausgegeben wird.  Components (ci,) are specified for a first feature (z), with a second input layer (202a, 202e) having a productivity (P (ci), P (C)) and a frequency (f (ci), f (C) ) of the components (ci, C) for a second characteristic (v), the output layer (214) being arranged after the input layers and the identifier (O) in the prediction depending on the first characteristic (z) and the second characteristic (v ) is output.
EP19739587.4A 2018-08-03 2019-07-11 Computer-implemented method and device for text analysis Withdrawn EP3830761A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102018213021.3A DE102018213021A1 (en) 2018-08-03 2018-08-03 Computer-implemented method and device for text analysis
PCT/EP2019/068692 WO2020025285A1 (en) 2018-08-03 2019-07-11 Computer-implemented method and device for text analysis

Publications (1)

Publication Number Publication Date
EP3830761A1 true EP3830761A1 (en) 2021-06-09

Family

ID=67262319

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19739587.4A Withdrawn EP3830761A1 (en) 2018-08-03 2019-07-11 Computer-implemented method and device for text analysis

Country Status (5)

Country Link
US (1) US11875265B2 (en)
EP (1) EP3830761A1 (en)
JP (1) JP7271652B2 (en)
DE (1) DE102018213021A1 (en)
WO (1) WO2020025285A1 (en)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3889010B2 (en) 2004-03-19 2007-03-07 沖電気工業株式会社 Phrase classification system, phrase classification method, and phrase classification program
JP6440732B2 (en) * 2013-11-27 2018-12-19 株式会社Nttドコモ Automatic task classification based on machine learning
US10073834B2 (en) 2016-02-09 2018-09-11 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
DE202017102235U1 (en) 2017-04-13 2017-05-12 Robert Bosch Gmbh training system
CN107301246A (en) 2017-07-14 2017-10-27 河北工业大学 Chinese Text Categorization based on ultra-deep convolutional neural networks structural model
US11455541B2 (en) * 2018-05-10 2022-09-27 Fmr Llc AI-based neighbor discovery search engine apparatuses, methods and systems

Also Published As

Publication number Publication date
US11875265B2 (en) 2024-01-16
WO2020025285A1 (en) 2020-02-06
JP7271652B2 (en) 2023-05-11
US20210279512A1 (en) 2021-09-09
DE102018213021A1 (en) 2020-02-06
JP2021533477A (en) 2021-12-02

Similar Documents

Publication Publication Date Title
DE112018000334T5 (en) System and method for domain independent aspect level mood recognition
DE60208223T2 (en) ARRANGEMENT AND METHOD FOR FACE DETECTION USING PARTS OF THE LEARNED MODEL
DE69933187T2 (en) Document Search and Service
DE112018002822T5 (en) CLASSIFY NEURONAL NETWORKS
DE112018001165T5 (en) AUTOMATED DOCUMENT ANALYSIS FOR DIFFERENT NATURAL LANGUAGES
DE112013002654T5 (en) Method for classifying text
DE112013001740T5 (en) Word processing method for building a text model
DE112020005572T5 (en) Deep face detection based on clusters over unlabeled face data
CN110020671A (en) The building of drug relationship disaggregated model and classification method based on binary channels CNN-LSTM network
DE112007000051T5 (en) Three-part model-based method for obtaining and processing information
DE112020006402T5 (en) MACHINE LEARNING MODELS BASED ON CHANGED DATA, AS WELL AS SYSTEMS AND METHODS FOR TRAINING AND THEIR USE
DE102022201753A1 (en) Extension of graph-based labeling rules for low-supervision training of machine learning-based proper noun recognition
DE202023102803U1 (en) System for emotion detection and mood analysis through machine learning
DE102020206135A1 (en) Apparatus and method for determining at least a part of a knowledge graph
DE102021124445A1 (en) META-FEATURE TRAINING MODELS FOR MACHINE LEARNING ALGORITHMS
DE102012025349B4 (en) Determination of a similarity measure and processing of documents
EP2221735A2 (en) Method for automatic classification of a text with a computer system
WO2020025285A1 (en) Computer-implemented method and device for text analysis
EP3816844A1 (en) Computer-implemented method and device for processing data
CN113836306B (en) Composition automatic evaluation method, device and storage medium based on chapter component identification
EP3905097A1 (en) Device and method for determining a knowledge graph
DE102007044380A1 (en) Computer-aided studying of probabilistic network from data record of measured, experimentally determined and/or empirical values, comprises studying structure of non-directed graphs having nodes and non-directed edges from the data record
DE102019210994A1 (en) Device and method for processing a digital data stream
WO2002042931A2 (en) Method for processing text in a computer and computer
DE10112587A1 (en) Computer-assisted determination of similarity between character strings by describing similarly in terms of conversion cost values

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20210303

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

17Q First examination report despatched

Effective date: 20230927

18W Application withdrawn

Effective date: 20231002