EP1273003B1 - Method and device for the determination of prosodic markers - Google Patents
Method and device for the determination of prosodic markers Download PDFInfo
- Publication number
- EP1273003B1 EP1273003B1 EP01940136A EP01940136A EP1273003B1 EP 1273003 B1 EP1273003 B1 EP 1273003B1 EP 01940136 A EP01940136 A EP 01940136A EP 01940136 A EP01940136 A EP 01940136A EP 1273003 B1 EP1273003 B1 EP 1273003B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- prosodic
- neural network
- input
- autoassociators
- neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 28
- 230000001537 neural effect Effects 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 30
- 238000013459 approach Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 229930091051 Arenine Natural products 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 101100154785 Mus musculus Tulp2 gene Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Definitions
- the present invention relates to a method for determining prosodic markers and a device for implementation of the procedure.
- phrase boundaries can be used as prosodic markers and word accents (pitch-accent) serve. Be under phrases Groupings of words understood within one Textes are usually spoken together, so without intervening inserted lying pauses. pauses lie only at the respective ends of the phrases, the phrase boundaries, at. By inserting such breaks to the Phrase boundaries of synthesized speech become their intelligibility and naturalness significantly increased.
- stage 1 prepare such a two-stage approach both the stable prediction and determination of phrase boundaries as well as accents problems.
- a Process for the preparation and structuring of an unknown to create spoken text with a smaller one Training text can be trained and about similar detection rates as known processes achieved with larger Texts are trained.
- prosodic Tags based on a neural network determined by linguistic categories.
- linguistic categories Depending on the respective language of a text are subdivisions of the words known in various linguistic categories. In the German language are used in the context of this invention, for example 14 categories, for the English language e.g. 23 Categories provided. Being aware of these categories a neural network is trained to recognize structures can and so on based on groupings of e.g. 3 to 15 consecutive words a prosodic marker predicts or determines.
- the capturing of the properties any prosodic labeling by neuronal autoassociators and evaluating the output from each of the car associators detailed source information, referred to as so-called Error vector is present in a neural classifier includes.
- neural networks By the inventive use of neural networks is enabled in generating prosodic parameters for Speech synthesis systems accurately predict phrase boundaries.
- the neural network according to the invention is robust against "less” or a small amount of training material (sparse training material).
- neural networks allows time and money saving Training method and a flexible application a method according to the invention and a corresponding Device on any languages. It is little in addition prepared information and little expert knowledge to initialize of such a system of a particular language required.
- the neural network according to the invention is therefore well suited to having a multilingual TTS system Synthesize texts from multiple languages. Since the invention neural networks trained without expert knowledge they can be cheaper than known ones Method for determining phrase boundaries to be initialized.
- the two-stage structure comprises several Autoassociators, each with a phrasing strength be trained for all to be evaluated linguistic classes.
- parts of the neural network are class specific educated.
- the training material is usually statistically asymmetrical, that is, many words without phrase borders, but only a few with phrase boundaries are.
- the state of the art Technology becomes a dominance within a neural network thereby avoiding a class specific training of respective car associates is performed.
- FIG. 1 schematically shows a neural network 1 according to the invention with an input 2, an intermediate layer 3 and an output 4 for determining prosodic markings.
- the input 2 is made up of nine input groups 5 for performing a part-of-speech (POS) sequence analysis.
- POS part-of-speech
- Each of the input group 5 includes in adaptation to the German language 14 neurons 6, which are not all shown in Fig. 1 for reasons of clarity. So there is one neuron 6 each for a linguistic category.
- linguistic categories are subdivided as follows: linguistic categories category description NUM numeral VERB verbs VPART Verbp orientation PRON pronoun PREP prepositions NOUN Nouns, proper names PART particle DET items CONJ conjunctions ADV adverbs ADJ adjectives PDET PREP + DET INTJ interjections PUNCT punctuation mark
- the output 4 is by a neuron with a continuous Trained, that means that the output values all Values of a certain range of numbers, e.g. all real Numbers between 0 and 1 may include.
- Fig. 1 are nine Input groups 5 for entering the categories of the individual Words provided.
- To the middle input group 5a is the Created category of the word to be determined whether there is a phase boundary at the end of the word or not Phase boundary is present.
- To the four input groups 5b on the left side of the input group 5a are the categories of the forerunners of the word under investigation and the the right side arranged input groups 5c the successors of the word to be examined.
- Precursors are all words in the context immediately before the one to be examined Word are arranged.
- Successors are all words, in the context immediately following that to be examined Word are arranged. This is achieved with the inventive neural network 1 of Fig. 1 is a context by Max. evaluated nine words.
- the category of the to be examined Word applied to the input group 5a that is, to the neuron 6, which corresponds to the category of the word that Value +1 and to the remaining neurons 6 of the input group 5a the value -1 is created.
- the Categories of the four preceding to the word to be examined or subsequent words to the input groups 5b, or 5c created. If no corresponding precursors or Successor be present as it is e.g. at the beginning and at the end of a text are sent to the neurons 6 of the corresponding Input groups 5b, 5c, the value 0 is applied.
- Another input group 5d is for inputting the previous one Phrase boundaries provided. At this input group 5d The last nine phrase boundaries can be entered.
- a convenient subdivision of the linguistic categories of the English language comprises 23 categories such that the dimension of the input space is 216.
- the input data form an input vector x with the dimension m.
- the neural network according to the invention is equipped with a training file trains who have a text and the information too includes the phrase boundaries of the text. These phrase boundaries can contain purely binary values, that is, only information, if there is a phrase boundary or if no Phrase boundary exists. Will the neural network with a training such a training file, so the output is on Output 4 binary. The output 4 generates continuous Output values, but by means of a threshold value decision be assigned to discrete values.
- the output contains not only binary values, but multi-level values, that is, information about the strength of the phrase boundary be taken into account.
- This is the neural network to train with a training file containing multi-level information to the phrase boundaries.
- the gradation can from two stages to any number of stages, so that a quasi-continuous output can be achieved can.
- Fig. 3 is an example sentence with a three-stage evaluation with the output values 0 for no phrase boundary, 1 for a primary phrase boundary and 2 for a secondary phrase boundary shown.
- secondary is located a secondary phrase boundary and the terms "Phrase boundary” and "required” a primary phrase boundary.
- Fig. 4 is a preferred embodiment of the invention represented neural network.
- This neural network again comprises an input 2, which in Fig. 4 only is shown schematically as an element, but just like the input 2 of Fig. 1 is constructed.
- the intermediate layer 3 There are several autoassociators in this embodiment 7 (AA1, AA2, AA3) which each have a model for one represent predetermined phrasing strength.
- the car associates 7 are subnetworks that detect a specific Phrasing strength are trained.
- the output of the Autoassoziatoren 7 is connected to a classifier 8.
- the classifier 8 is another neural subnetwork, this also the already described with reference to FIG. 1 output includes.
- the embodiment shown in Fig. 4 comprises three autoassociators, with each car associate a specific Phrasing strength can be detected, so that this embodiment for the detection of two different phrasing strengths and the absence of any phrasing limit suitable is.
- Each car associate will be using the data of the class he is using represents, trains. That is, each car associator with the belonging to the phrasing strength he represents Data is trained.
- the autoassociators map the m-dimensional input vector x to an n-dimensional vector z , where n ⁇ m.
- the vector z is mapped to an output vector x '.
- the mappings are done by means of matrices w 1 ⁇ R n ⁇ m and w 2 ⁇ R n ⁇ m .
- the autoassociators are trained so that their output vectors x ' match as closely as possible with the input vectors x ( Figure 5 left side). As a result, the information of the m-dimensional input vector x is compressed to the n-dimensional vector z. It assumes that no information is lost and the model captures the properties of the class.
- the compression ratio m: n of the individual Autoassoziatoren may be different.
- an error vector e rec (x-x ') 2 is calculated for each auto-associate (FIG. 5, right-hand side). The squaring takes place elementwise.
- This error vector e rec is a "dimension" that x 'x corresponds to the distance of the vector to the input vector and is thus inversely proportional to the probability that the assigned to the respective autoassociator phrase boundary is present.
- Fig. 6 The complete the carassocators and the classifier comprehensive neural network is shown schematically in Fig. 6. It shows car associates 7 for k classes.
- the individual elements p i of the output vector p indicate the probability with which a phrase boundary has been detected at the autoassociator i.
- the probability p i is greater than 0.5, this is evaluated as having a corresponding phrase boundary i. If the probability p i is less than 0.5, this means that the phrase limit i is not present here.
- the output vector p has more than two elements p i , it is expedient to evaluate the output vector p in such a way that the phrase boundary is present whose probability p i is greatest in comparison to the other probabilities p i of the output vector p .
- a phrase boundary is determined whose probability p i is in the range of 0.5, for example in the range of 0.4 to 0.6, to carry out a further routine with which the existence the phrase boundary is checked.
- This further routine can be based on both a rule-driven and a data-driven approach.
- the individual Autoassoziatoren 7 When training with a training file that includes appropriate phrasing information, in a first training phase, the individual Autoassoziatoren 7 each trained to their predetermined Phrasi fürspark. As stated above, the input vectors x corresponding to the phrase boundary associated with the respective auto-associate are applied to the input and output sides of the individual auto-associates 7, respectively.
- a second training phase the weighting elements of the autoassociators 7 are recorded and the classifier 8 is trained.
- the error vectors e rec of the autoassociators and at the output side the vectors containing the values for the different phrase boundaries are applied.
- the classifier learns from the error vectors to determine the output vectors p .
- a fine adjustment of all Weighting elements of the entire neural network (the k car associates and the classifier).
- the classifier 8 shown in FIG. 6 has weighting matrices GW, which are each assigned to an auto-associate 7.
- the weighting matrix GW associated with the i-th auto-associate 7 has weighting factors w n in the i-th row. The remaining elements of the matrix are equal to zero.
- the number of weighting factors w n corresponds to the dimension of the input vector, wherein in each case a weighting element w n is related to a component of the input vector.
- a neural network according to the invention has been trained with a predetermined English text. The same text was used to train an HMM recognizer. The performance criteria used were the percentage of correctly recognized phrase boundaries (B-corr), the total correctly rated words, whether one or no phrase boundary follows (total), and the non-correctly recognized words without phrase boundary (NB-ncorr) determined.
- B-corr percentage of correctly recognized phrase boundaries
- NB-ncorr non-correctly recognized words without phrase boundary
- results shown in the table show that the neural networks according to the invention with respect to the correctly recognized Phrase boundaries and the total correctly recognized Words yield approximately the same results as an HMM recognizer.
- the neural networks according to the invention are. the erroneously detected phrase boundaries, in places where it in itself there is no phrase limit, much better than that HMM recognizer. This kind of mistake is in the language-to-text implementation particularly serious, since these errors are the one Immediately generate striking false accentuation.
- one of the neural networks according to the invention was trained with a fraction of the training text used in the above experiments (5%, 10%, 30%, 50%). The following results were achieved: Fraction of the training text B-corr total NB-ncorr 5% 70.50% 89.96% 4.65% 10% 75.00% 90.76% 4.57% 30% 76.30% 91.48% 4.16% 50% 78.01% 91.53% 4.44%
- the embodiment described above has k autoassociators on. For a precise evaluation of the phrase boundaries It may be appropriate to have a large number of car associates to use, taking up to 20 auto-associates appropriate could be. This is a quasi-continuous course achieved the output values.
- the neural networks described above are computer programs realized independently on a computer to translate the linguistic category of a text into whose prosodic marker expire. You thus stop automatically executable process.
- the computer program can also be stored on an electronically readable Disk will be saved and so on another Computer system to be transferred.
- the computer system 9 has an internal bus 10 having a memory area 11, a central processing unit 12 and an interface 13 is connected.
- the interface 13 provides via a Data line 14 a data connection to other computer systems ago.
- On the internal bus are also an acoustic Output unit 15, a graphic output unit 16 and a Input unit 17 connected.
- the acoustic output unit 15 is a speaker 18, the graphical output unit 16 with a screen 19 and the input unit 17 connected to a keyboard 20.
- To the computer system 9 can transmitted over the data line 14 and the interface 13 text are stored in the memory area 11.
- the memory area 11 is divided into several areas, in which texts, audio files, application programs for Carrying out the method according to the invention and other application and utilities are stored.
- the as a text file stored texts are with predetermined program packages analyzed and the respective linguistic categories of words. Thereafter, with the inventive Procedures from the linguistic categories the determined prosodic markers. These prosodic markers will be again entered into another program package, the using prosodic markers to create audio files, via the internal bus 10 to the acoustic output unit 15 transmitted and from this on the speaker 18 as Language are output.
- the method can be similar construction of a Device and adapted training but also to Evaluation of an unknown text regarding a prediction of stresses, e.g. according to the internationally standardized ToBI-labels (tones and breaks indices), and / or the sentence melody are used. These adjustments have in Dependence on the particular language of the processed Text to be done, since the prosody always language-specific is.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die vorliegende Erfindung betrifft ein Verfahren zum Bestimmen prosodischer Markierungen und eine Vorrichtung zur Umsetzung des Verfahrens.The present invention relates to a method for determining prosodic markers and a device for implementation of the procedure.
Bei der Aufbereitung von unbekanntem Text für die Sprachsynthese in einem TTS-System, ('text to speech'-Systemen) bzw. Text/Sprache-Umsetzungssystemen, ist ein wesentlicher Schritt die Aufbereitung und Strukturierung des Textes für die nachfolgende Generierung der Prosodie. Um prosodische Parameter für Sprachsynthesesysteme zu erzeugen, wird ein zweistufiger Ansatz verfolgt. Dabei werden in der ersten Stufe zunächst prosodische Marker bzw. prosodische Markierungen erzeugt, die dann in der zweiten Stufe in physikalische Parameter umgesetzt werden.In the preparation of unknown text for speech synthesis in a TTS system, ('text to speech' systems) or Text / speech translation systems is an essential step the preparation and structuring of the text for the subsequent ones Generation of prosody. To prosodic parameters for speech synthesis systems to produce a two-stage Approach followed. At first, in the first stage produced prosodic markers or prosodic markers, the then converted into physical parameters in the second stage become.
Als prosodische Markierungen können insbesondere Phrasengrenzen und Wortakzente (pitch-accent) dienen. Unter Phrasen werden Gruppierungen von Wörtern verstanden, die innerhalb eines Textes in der Regel zusammen gesprochen werden, also ohne dazwischen eingeschoben liegende Sprechpausen. Sprechpausen liegen erst an den jeweiligen Enden der Phrasen, den Phrasengrenzen, an. Durch das Einlegen derartiger Pausen an den Phrasengrenzen der synthetisierten Sprache wird deren Verständlichkeit und Natürlichkeit wesentlich gesteigert.In particular, phrase boundaries can be used as prosodic markers and word accents (pitch-accent) serve. Be under phrases Groupings of words understood within one Textes are usually spoken together, so without intervening inserted lying pauses. pauses lie only at the respective ends of the phrases, the phrase boundaries, at. By inserting such breaks to the Phrase boundaries of synthesized speech become their intelligibility and naturalness significantly increased.
In der Stufe 1 eines derartigen zweistufigen Ansatzes bereiten
sowohl die stabile Vorhersage bzw. Bestimmung von Phrasengrenzen
als auch die von Akzenten Probleme.In
In einer Veröffentlichung ist unter dem Titel "A hierarchical stochastic model for automatic prediction of prosodic boundary location" von M. Ostendorf und N. Veilleux in Computational Linguistics, 1994, ein Verfahren veröffentlicht worden, in dem zur Bestimmung von Phrasengrenzen "Classification and Regression Trees" (CART) verwendet werden. Die Initialisierung eines solchen Verfahrens erfordert ein hohes Maß an Expertenwissen. Der Aufwand steigt bei diesem Verfahren mit der angestrebten Genauigkeit überproportional.In a publication entitled "A hierarchical stochastic model for automatic prediction of prosodic boundary location "by M. Ostendorf and N. Veilleux in Computational Linguistics, 1994, a procedure has been published, in which to determine phrase boundaries "Classification and Regression Trees "(CART) .The initialization Such a procedure requires a high level of expertise. The effort increases with this method with the desired accuracy disproportionately.
Auf der Konferenz Eurospeech 1997 ist unter dem Titel "Assigning phase breaks from part-of-speech sequences" von Alan W. Black und Paul Taylor ein Verfahren veröffentlicht worden, in dem die Phrasengrenzen mit einem "Hidden-Markov-Modell" (HMM) bestimmt werden. Zur Erzielung einer guten Vorhersage-Genauigkeit für eine Phrasengrenze ist ein Trainingstext mit beträchtlichem Umfang notwendig. Die Erstellung dieser Trainingstexte ist teuer, da hierzu Expertenwissen notwendig ist.At the Eurospeech 1997 conference, under the title "Assigning phase breaks from part-of-speech sequences "by Alan W. Black and Paul Taylor have been published a procedure in which the phrase boundaries with a "hidden Markov model" (HMM) can be determined. To achieve good predictive accuracy for a phrase border is a training text with considerable extent necessary. The creation of these training texts is expensive because expert knowledge is necessary.
Der Artikel "An RNN-Based Prosodic Information Synthsizer for Mandarin Text-to-Speech", von Sin-Hong Chen et al. in "IEEE Transactions on Speech and Audio Processing", US, IEEE Inc. New York, Bd. 6, Nr. 3, 1.Mai 1998, Seiten 226-239, offenbart ein Verfahren zum Bestimmen prosodischer Markierungen, bei dem die Markierungen auf der Basis linguistischer Kategorien durch ein neuronales Feed-Forward-Netzwerk bestimmt werden.The article "An RNN-Based Prosodic Information Synthsizer for Mandarin Text-to-Speech, by Sin-Hong Chen et al., In IEEE Transactions on Speech and Audio Processing ", US, IEEE Inc. New York, Vol. 6, No. 3, May 1, 1998, pages 226-239 a method for determining prosodic marks the markings based on linguistic categories be determined by a neural feed-forward network.
Aus Yuyiko Yamaguchi et al.: "A Neural Network Approach to Multi-Language Text-to-Speech System", in: "Proceedings of the International Conference on Spoken Language Processing (ICSLP)", JP, Tokyo, ASJ, 18. November 1990, Seiten 325-328, ist ein Verfahren bekannt, bei dem mit Hilfe eines vernetzten neuronalen Feed-Forward-Netzwerk syntaktische Grenzen bestimmt werden.From Yuyiko Yamaguchi et al .: "A Neural Network Approach to Multi-Language Text-to-Speech System ", in:" Proceedings of the International Conference on Spoken Language Processing (ICSLP) ", JP, Tokyo, ASJ, November 18, 1990, pp. 325-328, a method is known in which by means of a networked neural feed-forward network syntactic limits determined become.
Demnach ist es die Aufgabe der vorliegenden Erfindung, ein Verfahren zur Aufbereitung und Strukturierung eines unbekannten gesprochenen Texts zu schaffen, das mit einem kleineren Trainingstext trainiert werden kann und etwa ähnliche Erkennungsraten wie bekannte Verfahren erzielt, die mit größeren Texten trainiert werden.Accordingly, it is the object of the present invention, a Process for the preparation and structuring of an unknown to create spoken text with a smaller one Training text can be trained and about similar detection rates as known processes achieved with larger Texts are trained.
Diese Aufgabe wird durch ein Verfahren gemäß Patentanspruch 1
und ein neuronales Netzwerk gemäß Patentanspruch 6 gelöst.This object is achieved by a method according to
Demnach werden in einem erfindungsgemäßen Verfahren prosodische Markierungen durch ein neuronales Netzwerk auf der Basis linguistischer Kategorien bestimmt. In Abhängigkeit von der jeweiligen Sprache eines Textes sind Unterteilungen der Wörter in verschiedene linguistische Kategorien bekannt. Bei der deutschen Sprache werden im Rahmen dieser Erfindung beispielsweise 14 Kategorien, für die englische Sprache z.B. 23 Kategorien vorgesehen. Unter Kenntnis dieser Kategorien wird ein neuronales Netzwerk so trainiert, daß es Strukturen erkennen kann und so auf der Basis von Gruppierungen von z.B. 3 bis 15 aufeinander folgenden Wörtern eine prosodische Markierung vorhersagt bzw. bestimmt.Accordingly, in a method according to the invention prosodic Tags based on a neural network determined by linguistic categories. Depending on the respective language of a text are subdivisions of the words known in various linguistic categories. In the German language are used in the context of this invention, for example 14 categories, for the English language e.g. 23 Categories provided. Being aware of these categories a neural network is trained to recognize structures can and so on based on groupings of e.g. 3 to 15 consecutive words a prosodic marker predicts or determines.
Weiterhin wird für ein erfindungsgemäßes Verfahren ein zweistufiger Ansatz gewählt, der das Erfassen der Eigenschaften jeder prosodischen Markierung durch neuronale Autoassoziatoren und das Auswerten der von jedem der Autoassoziatoren ausgegebenen detaillierten Ausgangsinformationen, die als sogenannter Fehler-Vektor vorliegt, in einem neuronalen Klassifikator beinhaltet.Furthermore, for a method according to the invention a two-stage Approach selected, the capturing of the properties any prosodic labeling by neuronal autoassociators and evaluating the output from each of the car associators detailed source information, referred to as so-called Error vector is present in a neural classifier includes.
Durch die erfindungsgemäße Anwendung von neuronalen Netzen wird ermöglicht, bei der Erzeugung prosodischer Parameter für Sprachsynthesesysteme Phrasengrenzen genau vorherzusagen.By the inventive use of neural networks is enabled in generating prosodic parameters for Speech synthesis systems accurately predict phrase boundaries.
Das erfindungsgemäße neuronale Netz ist robust gegenüber "wenigem" bzw. einem geringen Umfang von Trainingsmaterial (engl.: sparse training material).The neural network according to the invention is robust against "less" or a small amount of training material (sparse training material).
Die Verwendung neuronaler Netzwerke gestattet zeit- und kostensparende Trainingsverfahren und eine flexible Anwendung eines erfindungsgemäßen Verfahrens und eine entsprechende Vorrichtung auf beliebige Sprachen. Es ist wenig zusätzlich aufbereitete Information und wenig Expertenwissen zum Initialisieren eines solchen Systems einer bestimmten Sprache erforderlich. Das erfindungsgemäße neuronale Netzwerk ist deshalb gut geeignet, um mit einem multilingualen TTS-System Texte aus mehreren Sprachen zu synthetisieren. Da die erfindungsgemäßen neuronalen Netzwerke ohne Expertenwissen trainiert werden können, können sie kostengünstiger als bekannte Verfahren zum Bestimmen von Phrasengrenzen initialisiert werden.The use of neural networks allows time and money saving Training method and a flexible application a method according to the invention and a corresponding Device on any languages. It is little in addition prepared information and little expert knowledge to initialize of such a system of a particular language required. The neural network according to the invention is therefore well suited to having a multilingual TTS system Synthesize texts from multiple languages. Since the invention neural networks trained without expert knowledge they can be cheaper than known ones Method for determining phrase boundaries to be initialized.
In einer Weiterbildung umfaßt die zweistufige Struktur mehrere Autoassoziatoren, die jeweils auf eine Phrasierungsstärke für alle auszuwertenden linguistischen Klassen trainiert werden. So sind Teile des neuronalen Netzwerkes klassenspezifisch ausgebildet. Das Trainingsmaterial ist in der Regel statistisch asymmetrisch ausgebildet ,d.h., daß viele Wörter ohne Phrasengrenzen, aber nur wenige mit Phrasengrenzen vorhanden sind. Im Gegensatz zu Verfahren nach dem Stand der Technik wird eine Dominanz innerhalb eines neuronalen Netzes dadurch vermieden, daß ein klassenspezifisches Training der jeweiligen Autoassoziatoren durchgeführt wird.In a further development, the two-stage structure comprises several Autoassociators, each with a phrasing strength be trained for all to be evaluated linguistic classes. Thus, parts of the neural network are class specific educated. The training material is usually statistically asymmetrical, that is, many words without phrase borders, but only a few with phrase boundaries are. In contrast to the state of the art Technology becomes a dominance within a neural network thereby avoiding a class specific training of respective car associates is performed.
Vorteilhafte Weiterbildungen eines erfindungsgemäßen Verfahrens sind der Gegenstand von Unteransprüchen.Advantageous developments of a method according to the invention are the subject of dependent claims.
Das vorliegende Verfahren wird im folgenden unter Bezugnahme auf die zugehörigen Zeichnungen näher erläutert.The present process will be referred to below explained in detail on the accompanying drawings.
In den Zeichnungen zeigt:
In der Figur 1 ist schematisch ein erfindungsgemäßes neuronales
Netzwerkwerk 1 mit einem Eingang 2, einer Zwischenschicht
3 und einem Ausgang 4 zum Bestimmen prosodischer Markierungen
dargestellt. Der Eingang 2 ist aus neun Eingangsgruppen 5 zur
Durchführung einer 'part-of-speech'- (POS-) Sequenz Untersuchung
aufgebaut. Jede der Eingangsgruppe 5 umfaßt in Anpassung
an die deutsche Sprache 14 Neuronen 6, die aus Gründen
der Übersichtlichkeit nicht alle in Fig. 1 dargestellt sind.
Es ist also je ein Neuron 6 für eine der linguistischen Kategorie
vorhanden. Die linguistischen Kategorien sind beispielsweise
folgendermaßen unterteilt:
Der Ausgang 4 ist durch ein Neuron mit einem kontinuierlichen Verlauf ausgebildet, das bedeutet, daß die Ausgangswerte alle Werte eines bestimmten Zahlenbereiches, der z.B. alle reellen Zahlen zwischen 0 und 1 umfaßt, annehmen können.The output 4 is by a neuron with a continuous Trained, that means that the output values all Values of a certain range of numbers, e.g. all real Numbers between 0 and 1 may include.
Bei dem in Fig. 1 gezeigten Ausführungsbeispiel sind neun
Eingangsgruppen 5 zum Eingeben der Kategorien der einzelnen
Wörter vorgesehen. An die mittlere Eingangsgruppe 5a wird die
Kategorie des Wortes angelegt, von dem bestimmt werden soll,
ob am Ende des Wortes eine Phasengrenze vorliegt oder keine
Phasengrenze vorliegt. An die vier Eingangsgruppen 5b auf der
linken Seite der Eingangsgruppe 5a werden die Kategorien von
den Vorläufern des zu untersuchenden Wortes und an die auf
der rechten Seite angeordneten Eingangsgruppen 5c die Nachfolger
des zu untersuchenden Wortes angelegt. Vorläufer sind
alle Wörter, die im Kontext unmittelbar vor dem zu untersuchenden
Wort angeordnet sind. Nachfolger sind alle Wörter,
die im Kontext unmittelbar nachfolgend auf das zu untersuchende
Wort angeordnet sind. Hierdurch wird mit dem erfindungsgemäßen
neuronalen Netzwerk 1 nach Fig. 1 ein Kontext
von max. neun Wörtern ausgewertet.In the embodiment shown in Fig. 1 are nine
Bei der Auswertung wird die Kategorie des zu untersuchenden
Wortes an die Eingangsgruppe 5a angelegt, das heißt, daß an
das Neuron 6, das der Kategorie des Wortes entspricht, der
Wert +1 und an die übrigen Neuronen 6 der Eingangsgruppe 5a
der Wert -1 angelegt wird. In entsprechender Weise werden die
Kategorien der vier zu dem zu untersuchenden Wort vorhergehenden
bzw. nachfolgenden Wörter an die Eingangsgruppen 5b,
bzw. 5c angelegt. Sollten keine entsprechenden Vorläufer bzw.
Nachfolger vorhanden sein, wie es z.B. am Anfang und am Ende
eines Textes der Fall ist, werden an die Neuronen 6 der entsprechenden
Eingangsgruppen 5b, 5c der Wert 0 angelegt.In the evaluation, the category of the to be examined
Word applied to the
Eine weitere Eingangsgruppe 5d ist zum Eingeben der vorhergegangen Phrasengrenzen vorgesehen. An dieser Eingangsgruppe 5d können die letzten neun Phrasengrenzen eingegeben werden. Another input group 5d is for inputting the previous one Phrase boundaries provided. At this input group 5d The last nine phrase boundaries can be entered.
Für die deutsche Sprache - mit 14 linguistischen Kategorien - weist der Eingangsraum eine beachtliche Dimension m von 135 (m = 9 * 14 + 9) auf. Eine zweckmäßige Unterteilung der linguistischen Kategorien der englischen Sprache umfaßt 23 Kategorien, so daß die Dimension des Eingangsraumes 216 beträgt. Die Eingangsdaten bilden einen Eingangsvektor x mit der Dimension m.For the German language - with 14 linguistic categories - the input space has a considerable dimension m of 135 (m = 9 * 14 + 9). A convenient subdivision of the linguistic categories of the English language comprises 23 categories such that the dimension of the input space is 216. The input data form an input vector x with the dimension m.
Das erfindungsgemäße neuronale Netzwerk wird mit einer Trainingsdatei trainiert, die einen Text und die Informationen zu den Phrasengrenzen des Textes umfaßt. Diese Phrasengrenzen können rein binäre Werte enthalten, das heißt, lediglich Informationen, ob eine Phrasengrenze vorliegt oder ob keine Phrasengrenze vorliegt. Wird das neuronale Netzwerk mit einer derartigen Trainingsdatei trainiert, so ist die Ausgabe am Ausgang 4 binär. Der Ausgangs 4 erzeugt an sich kontinuierliche Ausgangswerte, die jedoch mittels einer Schwellwertentscheidung diskreten Werten zugeordnet werden.The neural network according to the invention is equipped with a training file trains who have a text and the information too includes the phrase boundaries of the text. These phrase boundaries can contain purely binary values, that is, only information, if there is a phrase boundary or if no Phrase boundary exists. Will the neural network with a training such a training file, so the output is on Output 4 binary. The output 4 generates continuous Output values, but by means of a threshold value decision be assigned to discrete values.
In Fig. 2 ist ein Beispielssatz dargestellt, der hinter den Begriffen "Wort" und "Phrasengrenze" jeweils eine Phrasengrenze aufweist. Hinter den anderen Wörtern dieses Beispielsatzes gibt es keine Phrasengrenze.In Fig. 2, an example sentence is shown behind the In each case, word and phrases have a phrase boundary having. Behind the other words of this example sentence there is no phrase boundary.
Für bestimmte Anwendungen ist es vorteilhaft, wenn die Ausgabe nicht nur binäre Werte, sondern mehrstufige Werte enthält, das heißt, daß Informationen über die Stärke der Phrasengrenze berücksichtigt werden. Hierzu ist das neuronale Netzwerk mit einer Trainingsdatei zu trainieren, die mehrstufige Informationen zu den Phrasengrenzen umfaßt. Die Abstufung kann von zwei Stufen bis an sich beliebig viele Stufen umfassen, so daß eine quasi kontinuierliche Ausgabe erzielt werden kann.For certain applications, it is advantageous if the output contains not only binary values, but multi-level values, that is, information about the strength of the phrase boundary be taken into account. This is the neural network to train with a training file containing multi-level information to the phrase boundaries. The gradation can from two stages to any number of stages, so that a quasi-continuous output can be achieved can.
In Fig. 3 ist ein Beispielsatz mit einer dreistufigen Auswertung
mit den Ausgangswerten 0 für keine Phrasengrenze, 1 für
eine primäre Phrasengrenze und 2 für eine sekundäre Phrasengrenze
dargestellt. Nach dem Begriff "sekundären" befindet
sich eine sekundäre Phrasengrenze und nach den Begriffen
"Phrasengrenze" und "erforderlich" eine primäre Phrasengrenze.In Fig. 3 is an example sentence with a three-stage evaluation
with the
In Fig. 4 ist eine bevorzugte Ausführungsform des erfindungsgemäßen
neuronalen Netzes dargestellt. Dieses neuronale Netz
umfaßt wiederum einen Eingang 2, der in Fig. 4 lediglich
schematisch als ein Element dargestellt ist, aber genauso wie
der Eingang 2 aus Fig. 1 aufgebaut ist. Die Zwischenschicht 3
besteht bei diesem Ausführungsbeispiel aus mehreren Autoasscziatoren
7 (AA1, AA2, AA3) die jeweils ein Modell für eine
vorbestimmte Phrasierungsstärke darstellen. Die Autoassoziatoren
7 sind Teilnetzwerke, die zum Detektieren einer bestimmten
Phrasierungsstärke trainiert werden. Der Ausgang der
Autoassoziatoren 7 ist mit einem Klassifikator 8 verbunden.
Der Klassifikator 8 ist ein weiteres neuronales Teilnetzwerk,
das auch den anhand von Fig. 1 bereits beschriebenen Ausgang
umfaßt.In Fig. 4 is a preferred embodiment of the invention
represented neural network. This neural network
again comprises an
Das in Fig. 4 gezeigte Ausführungsbeispiel umfaßt drei Autoassoziatoren, wobei mit jedem Autoassoziator eine bestimmte Phrasierungsstärke detektiert werden kann, so daß dieses Ausführungsbeispiel zur Detektion zweier unterschiedlicher Phrasierungsstärken und dem Vorliegen keiner Phrasierungsgrenze geeignet ist.The embodiment shown in Fig. 4 comprises three autoassociators, with each car associate a specific Phrasing strength can be detected, so that this embodiment for the detection of two different phrasing strengths and the absence of any phrasing limit suitable is.
Jeder Autoassoziator wird mit den Daten der Klasse, die er darstellt, trainiert. D.h., daß jeder Autoassoziator mit den zu der von ihm repräsentierten Phrasierungsstärke gehörenden Daten trainiert wird.Each car associate will be using the data of the class he is using represents, trains. That is, each car associator with the belonging to the phrasing strength he represents Data is trained.
Die Autoassoziatoren bilden den m-dimensionalen Eingangsvektor
x auf einen n-dimensionalen Vektor z ab, wobei n << m
gilt. Der Vektor z wird auf einen Ausgangsvektor x' abgebildet.
Die Abbildungen erfolgen mittels Matrizen w 1 ∈ Rn×m und
w 2 ∈ Rn×m. Die gesamte in den Autoassoziatoren ausgeführte Abbildung
kann durch folgende Formel dargestellt werden:
Die Autoassoziatoren werden so trainiert, daß ihre Ausgangsvektoren x' so genau wie möglich mit den Eingangsvektoren x übereinstimmen (Fig. 5 linke Seite). Hierdurch wird die Information des m-dimensionalen Eingangsvektors x auf den n-dimensionalen Vektor z komprimiert. Hierbei wird davon ausgegangen, daß keine Informationen verlorengehen und das Modell die Eigenschaften der Klasse erfaßt. Das Kompressionsverhältnis m:n der einzelnen Autoassoziatoren kann unterschiedlich sein.The autoassociators are trained so that their output vectors x ' match as closely as possible with the input vectors x (Figure 5 left side). As a result, the information of the m-dimensional input vector x is compressed to the n-dimensional vector z. It assumes that no information is lost and the model captures the properties of the class. The compression ratio m: n of the individual Autoassoziatoren may be different.
An die Eingangs- und Ausgangsseite der einzelnen Autoassoziatoren werden beim Training nur die Eingangsvektoren x angelegt, die den Zuständen entsprechen, bei denen die den jeweiligen Autoassoziatoren zugeordneten Phrasengrenzen auftreten.During training, only the input vectors x corresponding to the states at which the phrase boundaries associated with the respective autoassociators occur are applied to the input and output sides of the individual autoassociators.
Beim Betrieb wird für jeden Autoassoziator ein Fehler-Vektor e rec = (x-x') 2 berechnet (Fig. 5, rechte Seite). Die Quadrierung erfolgt hierbei elementweise. Dieser Fehler-Vektor e rec ist ein "Abstandsmaß", das dem Abstand des Vektors x' zum Eingangsvektor x entspricht und somit indirekt proportional zur Wahrscheinlichkeit ist, daß die dem jeweiligen Autoassoziator zugeordnete Phrasengrenze vorliegt.During operation, an error vector e rec = (x-x ') 2 is calculated for each auto-associate (FIG. 5, right-hand side). The squaring takes place elementwise. This error vector e rec is a "dimension" that x 'x corresponds to the distance of the vector to the input vector and is thus inversely proportional to the probability that the assigned to the respective autoassociator phrase boundary is present.
Das vollständige die Autoassoziatoren und den Klassifikator
umfassende neuronale Netzwerk ist schematisch in Fig. 6 dargestellt.
Es zeigt Autoassoziatoren 7 für k Klassen.The complete the carassocators and the classifier
comprehensive neural network is shown schematically in Fig. 6.
It shows
Die Elemente pi des Ausgangsvektors p werden gemäß folgender Formel berechnet: wobei Ai(x)=w2 (i)tanh(w1 (i)x) gilt und tanh als elementweise Operation ausgeführt wird und diag (w1 (i),...,wm (i)) ∈ Rm×m eine Diagonalmatrix mit den Elementen (w1 (i),...,wm (i)) darstellt.The elements p i of the output vector p are calculated according to the following formula: where A i (x) = w 2 (i) tanh (w 1 (i) x) and tanh is performed as an elementwise operation and diag (w 1 (i) , ..., w m (i) ) ∈ R m × m is a diagonal matrix with the elements (w 1 (i) , ..., w m (i) ).
Die einzelnen Elemente pi des Ausgangsvektors p geben die Wahrscheinlichkeit an, mit welcher eine Phrasengrenze am Autoassoziator i detektiert worden ist.The individual elements p i of the output vector p indicate the probability with which a phrase boundary has been detected at the autoassociator i.
Wenn die Wahrscheinlichkeit pi größer als 0,5 ist, wird dies als Vorliegen einer entsprechenden Phrasengrenze i bewertet. Ist die Wahrscheinlichkeit pi kleiner als 0,5, so bedeutet dies, daß die Phrasengrenze i hier nicht vorliegt.If the probability p i is greater than 0.5, this is evaluated as having a corresponding phrase boundary i. If the probability p i is less than 0.5, this means that the phrase limit i is not present here.
Hat der Ausgangsvektor p mehr als zwei Elemente pi, so ist es zweckmäßig, den Ausgangsvektor p derart zu bewerten, daß diejenige Phrasengrenze vorliegt, deren Wahrscheinlichkeit pi am größten im Vergleich zu den übrigen Wahrscheinlichkeiten pi des Ausgangsvektors p ist.If the output vector p has more than two elements p i , it is expedient to evaluate the output vector p in such a way that the phrase boundary is present whose probability p i is greatest in comparison to the other probabilities p i of the output vector p .
In einer Weiterbildung der Erfindung kann es zweckmäßig sein, falls eine Phrasengrenze ermittelt wird, deren Wahrscheinlichkeit pi im Bereich um 0,5, z.B. im Bereich von 0,4 bis 0,6, liegt, eine weitere Routine durchzuführen, mit der das Vorliegen der Phrasengrenze überprüft wird. Diese weitere Routine kann auf einem regelgetriebenen als auch auf einem datengetriebenen Ansatz beruhen.In a development of the invention, it may be expedient, if a phrase boundary is determined whose probability p i is in the range of 0.5, for example in the range of 0.4 to 0.6, to carry out a further routine with which the existence the phrase boundary is checked. This further routine can be based on both a rule-driven and a data-driven approach.
Beim Training mit einer Trainingsdatei, die entsprechende
Phrasierungsinformationen umfaßt, werden in einer ersten
Trainingsphase die einzelnen Autoassoziatoren 7 jeweils auf
ihre vorbestimmte Phrasierungsstärke trainiert. Wie es oben
angegeben ist, werden hierbei an die Eingangs- und die Ausgangsseite
der einzelnen Autoassoziatoren 7 die Eingangsvektoren
x angelegt, die der Phrasengrenze entsprechen, die dem
jeweiligen Autoassoziator zugeordnet ist.When training with a training file that includes appropriate phrasing information, in a first training phase, the
In einer zweiten Trainingsphase werden die Gewichtungselemente
der Autoassoziatoren 7 festgehalten und der Klassifikator
8 trainiert. An die Eingangsseite des Klassifikators 8 werden
die Fehler-Vektoren e rec der Autoassoziatoren und an der Ausgangsseite
die Vektoren, die die Werte für die unterschiedlichen
Phrasengrenzen enthalten, angelegt. In dieser Trainingsphase
lernt der Klassifikator aus den Fehler-Vektoren die
Ausgangsvektoren p zu bestimmen.In a second training phase, the weighting elements of the
In einer dritten Trainingsphase wird eine Feineinstellung aller Gewichtungselemente des gesamten neuronalen Netzwerkes (der k Autoassoziatoren und des Klassifikators) durchgeführt.In a third training phase, a fine adjustment of all Weighting elements of the entire neural network (the k car associates and the classifier).
Durch die oben beschriebene Architektur eines neuronalen Netzwerkes mit mehreren jeweils auf eine bestimmte Klasse trainierten Modellen (hier: den Autoassoziatoren) und einem übergeordneten Klassifikator ist es möglich, einen Eingangsvektor mit sehr großer Dimension auf einen Ausgangsvektor mit kleiner Dimension bzw. ein Skalar zuverlässig korrekt abzubilden. Diese Netzwerkarchitektur kann auch vorteilhaft bei anderen Anwendungen eingesetzt werden, bei welchen Elemente unterschiedlicher Klassen behandelt werden müssen. So kann es z.B. zweckmäßig sein, diese Netzwerkarchitektur auch bei der Spracherkennung zum Detektieren von Wort und/oder Satzgrenzen einzusetzen. Hierfür sind die Eingangsdaten entsprechend anzupassen.Due to the above-described architecture of a neural Network with several each to a specific class trained models (here: the car associators) and one parent classifier, it is possible to use an input vector having a very large dimension on an output vector with small dimension or a scalar reliable correct image. This network architecture can also be beneficial in other applications are used, in which elements different classes have to be treated. That's the way it works e.g. be expedient, this network architecture also in the Speech recognition for detecting word and / or sentence boundaries use. The input data must be adapted accordingly.
Der in Figur 6 gezeigte Klassifikator 8 weist Gewichtungsmatrizen
GW auf, die jeweils einem Autoassoziator 7 zugeordnet
sind. Die dem i-ten Autoassoziator 7 zugeordnete Gewichtungsmatrix
GW weist in der i-ten Zeile Gewichtungsfaktoren wn
auf.Die übrigen Elemente der Matrix sind gleich Null. Die Anzahl
der Gewichtungsfaktoren wn entspricht der Dimension des
Eingangsvektors, wobei jeweils ein Gewichtungselement wn in
Beziehung zu einer Komponente des Eingangsvektors steht. Besitzt
ein Gewichtungselement wn einen größeren Wert als die
übrigen Gewichtungselemente wn der Matrize, so bedeutet dies,
daß die korrespondierende Komponente des Eingangsvektors von
großer Bedeutung für die Bestimmung der Phrasengrenze, die
durch den Autoassoziator ermittelt wird, dem die entsprechende
Gewichtungsmatrix GW zugeordnet ist.The
Bei einer bevorzugten Ausführungsform werden erweiterte Autoassoziatoren
verwendet (Fig. 7), die eine bessere Erfassung
von Nichtlinearitäten erlauben. Diese erweiterten Autoassoziatoren
führen folgende Abbildung aus:
Bei Versuchen ist ein erfindungsgemäßes neuronales Netzwerk
mit einem vorbestimmten englischen Text trainiert worden. Der
gleiche Text wurde zum Trainieren eines HMM-Erkenners verwendet.
Als Leistungskriterien wurden im Betrieb die Prozentzahl
der korrekt erkannten Phrasengrenzen (B-corr), der insgesamt
korrekt beurteilten Wörter, unabhängig davon, ob eine oder
keine Phrasengrenze folgt (Gesamt), und der nicht-korrekt erkannten
Wörter ohne Phrasengrenze (NB-ncorr) ermittelt. Bei
diesen Versuchen wurde ein neuronales Netzwerk mit den Autoassoziatoren
nach Fig. 6 und ein neuronales Netzwerk mit den
erweiterten Autoassoziatoren verwendet. Es wurden folgende
Ergebnisse erzielt:
Die in der Tabelle aufgeführten Ergebnisse zeigen, daß die erfindungsgemäßen neuronalen Netzwerke bzgl. der korrekt erkannten Phrasengrenzen und der insgesamt korrekt erkannten Wörter etwa gleiche Ergebnisse wie ein HMM-Erkenner liefern. Jedoch sind die erfindungsgemäßen neuronalen Netzwerke bzgl. der fehlerhaft detektierten Phrasengrenzen, an Stellen, wo es an sich keine Phrasengrenze gibt, wesentlich besser als der HMM-Erkenner. Diese Art von Fehler ist bei der Sprache-zu-Text-Umsetzung besonders gravierend, da diese Fehler eine dem Zuhörer sofort auffallende Fehlbetonung erzeugen.The results shown in the table show that the neural networks according to the invention with respect to the correctly recognized Phrase boundaries and the total correctly recognized Words yield approximately the same results as an HMM recognizer. However, the neural networks according to the invention are. the erroneously detected phrase boundaries, in places where it in itself there is no phrase limit, much better than that HMM recognizer. This kind of mistake is in the language-to-text implementation particularly serious, since these errors are the one Immediately generate striking false accentuation.
In weiteren Versuchen wurde eines der erfindungsgemäßen neuronalen
Netzwerke mit einem Bruchteil des bei den obigen Versuchen
verwendeten Trainingstextes (5%, 10%, 30%, 50%) trainiert.
Hierbei wurden folgende Ergebnisse erzielt:
Mit Bruchteilen von 30% und 50% des Trainingstextes wurden
ausgezeichnete Erkennungsraten erzielt. Mit einem Bruchteil
von 10% und 5% des ursprünglichen Trainingstextes sind zufriedenstellende
Erkennungsraten erzielt worden. Dies zeigt,
daß die erfindungsgemäßen neuronalen Netzwerke auch bei geringem
Trainingsumfang gute Erkennungsraten liefern. Dies
stellt einen wesentlichen Fortschritt gegenüber bekannten
Phrasengrenzen-Erkennungsmethoden dar, da das Aufbereiten von
Trainingsmaterial kostenintensiv ist, da hier Expertenwissen
eingesetzt werden muß.With fractions of 30% and 50% of the training text were
achieved excellent recognition rates. With a
Das oben beschriebene Ausführungsbeispiel weist k Autoassoziatoren auf. Für eine präzise Bewertung der Phrasengrenzen kann es zweckmäßig sein, eine große Anzahl Autoassoziatoren zu verwenden, wobei bis zu 20 Autoassoziatoren zweckmäßig sein können. Hierdurch wird eine quasi kontinuierlicher Verlauf der Ausgabewerte erzielt.The embodiment described above has k autoassociators on. For a precise evaluation of the phrase boundaries It may be appropriate to have a large number of car associates to use, taking up to 20 auto-associates appropriate could be. This is a quasi-continuous course achieved the output values.
Die oben beschriebenen neuronalen Netzwerke sind als Computerprogramme realisiert, die selbständig auf einem Computer zum Umsetzen der linguistischen Kategorie eines Textes in dessen prosodischer Marker ablaufen. Sie stellen somit ein automatisch ausführbares Verfahren dar.The neural networks described above are computer programs realized independently on a computer to translate the linguistic category of a text into whose prosodic marker expire. You thus stop automatically executable process.
Das Computerprogramm kann auch auf einen elektronisch lesbaren Datenträger gespeichert werden und so auf ein anderes Computersystem übertragen werden.The computer program can also be stored on an electronically readable Disk will be saved and so on another Computer system to be transferred.
Ein zur Anwendung des erfindungsgemäßen Verfahrens geeignetes
Computersystem ist in Fig. 8 gezeigt. Das Computersystem 9
weist einen internen Bus 10 auf, der mit einem Speicherbereich
11, einer zentralen Prozessoreinheit 12 und einem Interface
13 verbunden ist. Das Interface 13 stellt über eine
Datenleitung 14 eine Datenverbindung zu weiteren Computersystemen
her. An dem internen Bus sind ferner eine akustische
Ausgabeeinheit 15, eine grafische Ausgabeeinheit 16 und eine
Eingabeeinheit 17 angeschlossen. Die akustische Ausgabeeinheit
15 ist mit einem Lautsprecher 18, die grafische Ausgabeeinheit
16 mit einem Bildschirm 19 und die Eingabeeinheit 17
mit einer Tastatur 20 verbunden. An das Computersystem 9 können
über die Datenleitung 14 und das Interface 13 Text übertragen
werden, die im Speicherbereich 11 abgespeichert werden.
Der Speicherbereich 11 ist in mehrere Bereiche unterteilt,
in denen Texte, Audiodateien, Anwendungsprogramme zum
Durchführen des erfindungsgemäßen Verfahrens und weitere Anwendungs-
und Hilfsprogramme gespeichert sind. Die als Textdatei
abgespeicherten Texte werden mit vorbestimmten Programmpaketen
analysiert und die jeweiligen linguistischen Kategorien
der Wörter ermittelt. Danach werden mit dem erfindungsgemäßen
Verfahren aus den linguistischen Kategorien die
prosodischen Marker ermittelt. Diese prosodischen Marker werden
wiederum in ein weiteres Programmpaket eingegeben, das
die prosodischen Marker zur Erzeugung von Audiodateien verwendet,
die über den internen Bus 10 zur akustischen Ausgabeeinheit
15 übertragen und von dieser am Lautsprecher 18 als
Sprache ausgegeben werden.A suitable for the application of the method according to the invention
Computer system is shown in FIG. The computer system 9
has an
In den hier dargestellten Beispielen ist nur eine Anwendung des Verfahrens auf die Vorhersage von Phrasengrenzen beschrieben worden. Das Verfahren kann bei ähnlichem Aufbau einer Vorrichtung und einem angepaßten Training aber auch zur Auswertung eines unbekannten Textes hinsichtlich einer Vorhersage von Betonungen, z.B. gemäß den international standardisierten ToBI-Labeln (tones and breaks indices), und/oder der Satzmelodie genutzt werden. Diese Anpassungen haben in Abhängigkeit von der jeweiligen Sprache des zu verarbeitenden Textes zu erfolgen, da die Prosodie stets sprachspezifisch ist.In the examples presented here is only one application of the method for the prediction of phrase boundaries Service. The method can be similar construction of a Device and adapted training but also to Evaluation of an unknown text regarding a prediction of stresses, e.g. according to the internationally standardized ToBI-labels (tones and breaks indices), and / or the sentence melody are used. These adjustments have in Dependence on the particular language of the processed Text to be done, since the prosody always language-specific is.
Claims (12)
- Method for determining prosodic markers, phrase boundaries and word accents serving as prosodic markers,prosodic markers being determined by a neural network (1) on the basis of linguistic categories,acquisition of the properties of each prosodic marker by neural autoassociators (7) which are trained to in each case one specific prosodic marker, andevaluation of the output information output by each of the autoassociators (7) in a neural classifier (8).
- Method according to Claim 1,
characterized in that, as prosodic markers, phrase boundaries are determined and preferably also evaluated and/or assessed. - Method according to Claim 1 and/or Claim 2,
characterized in that the linguistic categories of at least three words of a text to be synthesized are applied to the input (2) of the network (1). - Method according to one of the preceding claims,
characterized in that the autoassociators (1) are trained for a respective predetermined phrase boundary. - Method according to Claim 4,
characterized in that the neural classifier (8) is trained after the training of all the autoassociators (7). - Neural network for determining prosodic markers, phrase boundaries and word accents serving as prosodic markers, having an input (2), an intermediate layer (3) and an output (4), the input being designed for acquiring linguistic categories of words of a text to be analysed,
characterized in that properties of each prosodic marker can be acquired by neural autoassociators (7) which are trained to in each case one specific prosodic marker, and
in that the output information output by each of the autoassociators (7) can be evaluated in a neural classifier (8) . - Neural network according to Claim 6,
characterized in that the intermediate layer (3) has at least two autoassociators (7). - Neural network according to Claim 6 or 7,
characterized in that the input (2) has input groups (5) having a plurality of neurons (6) each assigned to a linguistic category, and each input group serves for acquiring the linguistic category of a word of the text to be analysed. - Neural network according to one of Claims 6 to 8,
characterized in that the network is designed for outputting a binary, tertiary or quaternary phrasing stage. - Neural network according to one of Claims 7 to 9,
characterized in that the network is designed for outputting a quasi-continuous phrasing region. - Method according to one of Claims 1 to 5,
characterized by
the use of a neural network according to one of Claims 6 to 10. - Device for determining prosodic markers having a computer system (9), which has a memory area (11) in which a program for executing a neural network according to one of Claims 6 to 10 is stored.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10018134 | 2000-04-12 | ||
DE10018134A DE10018134A1 (en) | 2000-04-12 | 2000-04-12 | Determining prosodic markings for text-to-speech systems - using neural network to determine prosodic markings based on linguistic categories such as number, verb, verb particle, pronoun, preposition etc. |
PCT/DE2001/001394 WO2001078063A1 (en) | 2000-04-12 | 2001-04-09 | Method and device for the determination of prosodic markers |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1273003A1 EP1273003A1 (en) | 2003-01-08 |
EP1273003B1 true EP1273003B1 (en) | 2005-12-07 |
Family
ID=7638473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP01940136A Expired - Lifetime EP1273003B1 (en) | 2000-04-12 | 2001-04-09 | Method and device for the determination of prosodic markers |
Country Status (4)
Country | Link |
---|---|
US (1) | US7409340B2 (en) |
EP (1) | EP1273003B1 (en) |
DE (2) | DE10018134A1 (en) |
WO (1) | WO2001078063A1 (en) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10207875A1 (en) * | 2002-02-19 | 2003-08-28 | Deutsche Telekom Ag | Parameter-controlled, expressive speech synthesis from text, modifies voice tonal color and melody, in accordance with control commands |
US20060293890A1 (en) * | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
US20070055526A1 (en) * | 2005-08-25 | 2007-03-08 | International Business Machines Corporation | Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis |
US7860705B2 (en) * | 2006-09-01 | 2010-12-28 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
JP4213755B2 (en) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | Speech translation apparatus, method and program |
JP5418596B2 (en) * | 2009-07-17 | 2014-02-19 | 日本電気株式会社 | Audio processing apparatus and method, and storage medium |
TWI573129B (en) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | Streaming encoder, prosody information encoding device, prosody-analyzing device, and device and method for speech-synthesizing |
US9195656B2 (en) | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
CN105374350B (en) * | 2015-09-29 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | Speech marking method and device |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
EP3497630B1 (en) | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3822863B1 (en) * | 2016-09-06 | 2022-11-02 | DeepMind Technologies Limited | Generating audio using neural networks |
WO2018081089A1 (en) | 2016-10-26 | 2018-05-03 | Deepmind Technologies Limited | Processing text sequences using neural networks |
KR102071582B1 (en) * | 2017-05-16 | 2020-01-30 | 삼성전자주식회사 | Method and apparatus for classifying a class to which a sentence belongs by using deep neural network |
CN109492223B (en) * | 2018-11-06 | 2020-08-04 | 北京邮电大学 | Chinese missing pronoun completion method based on neural network reasoning |
CN111354333B (en) * | 2018-12-21 | 2023-11-10 | 中国科学院声学研究所 | Self-attention-based Chinese prosody level prediction method and system |
CN111508522A (en) * | 2019-01-30 | 2020-08-07 | 沪江教育科技(上海)股份有限公司 | Statement analysis processing method and system |
US11610136B2 (en) * | 2019-05-20 | 2023-03-21 | Kyndryl, Inc. | Predicting the disaster recovery invocation response time |
KR20210099988A (en) * | 2020-02-05 | 2021-08-13 | 삼성전자주식회사 | Method and apparatus for meta-training neural network and method and apparatus for training class vector of neuarl network |
CN112786023B (en) * | 2020-12-23 | 2024-07-02 | 竹间智能科技(上海)有限公司 | Mark model construction method and voice broadcasting system |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2764343B2 (en) * | 1990-09-07 | 1998-06-11 | 富士通株式会社 | Clause / phrase boundary extraction method |
JPH09500223A (en) * | 1993-07-13 | 1997-01-07 | ボルドー、テオドール・オースチン | Multilingual speech recognition system |
AU675389B2 (en) * | 1994-04-28 | 1997-01-30 | Motorola, Inc. | A method and apparatus for converting text into audible signals using a neural network |
JP3536996B2 (en) * | 1994-09-13 | 2004-06-14 | ソニー株式会社 | Parameter conversion method and speech synthesis method |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
BE1011892A3 (en) * | 1997-05-22 | 2000-02-01 | Motorola Inc | Method, device and system for generating voice synthesis parameters from information including express representation of intonation. |
US6134528A (en) * | 1997-06-13 | 2000-10-17 | Motorola, Inc. | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
-
2000
- 2000-04-12 DE DE10018134A patent/DE10018134A1/en not_active Ceased
-
2001
- 2001-04-09 WO PCT/DE2001/001394 patent/WO2001078063A1/en active IP Right Grant
- 2001-04-09 DE DE50108314T patent/DE50108314D1/en not_active Expired - Lifetime
- 2001-04-09 EP EP01940136A patent/EP1273003B1/en not_active Expired - Lifetime
-
2003
- 2003-01-27 US US10/257,312 patent/US7409340B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1273003A1 (en) | 2003-01-08 |
US7409340B2 (en) | 2008-08-05 |
WO2001078063A1 (en) | 2001-10-18 |
DE10018134A1 (en) | 2001-10-18 |
US20030149558A1 (en) | 2003-08-07 |
DE50108314D1 (en) | 2006-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1273003B1 (en) | Method and device for the determination of prosodic markers | |
DE69908047T2 (en) | Method and system for the automatic determination of phonetic transcriptions in connection with spelled words | |
DE602004012909T2 (en) | A method and apparatus for modeling a speech recognition system and estimating a word error rate based on a text | |
DE60111329T2 (en) | Adapting the phonetic context to improve speech recognition | |
DE69818161T2 (en) | Automated grouping of meaningful sentences | |
DE60126564T2 (en) | Method and arrangement for speech synthesis | |
DE69010941T2 (en) | Method and device for the automatic determination of phonological rules for a system for recognizing continuous speech. | |
DE3337353C2 (en) | Speech analyzer based on a hidden Markov model | |
DE69427083T2 (en) | VOICE RECOGNITION SYSTEM FOR MULTIPLE LANGUAGES | |
DE69937176T2 (en) | Segmentation method to extend the active vocabulary of speech recognizers | |
DE69622565T2 (en) | METHOD AND DEVICE FOR DYNAMICALLY ADJUSTING A LARGE VOCABULARY LANGUAGE IDENTIFICATION SYSTEM AND USING RESTRICTIONS FROM A DATABASE IN A VOICE LABELING LANGUAGE IDENTIFICATION SYSTEM | |
DE69818231T2 (en) | METHOD FOR THE DISCRIMINATIVE TRAINING OF VOICE RECOGNITION MODELS | |
DE69315374T2 (en) | Speech recognition system for lifelike language translation | |
DE69519328T2 (en) | Method and arrangement for converting speech to text | |
DE69618503T2 (en) | Speech recognition for audio languages | |
DE3876207T2 (en) | VOICE RECOGNITION SYSTEM USING MARKOV MODELS. | |
DE19825205C2 (en) | Method, device and product for generating post-lexical pronunciations from lexical pronunciations with a neural network | |
DE19942178C1 (en) | Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association | |
DE20004416U1 (en) | Speech recognition device using multiple feature streams | |
DE4310190A1 (en) | Speaker verification system using nearest neighbour distance - accepts or rejects identification of speaker claiming to be registered speaker on basis of relationship between distance and given threshold | |
EP0925579A1 (en) | Process for adaptation of a hidden markov sound model in a speech recognition system | |
DE602004004310T2 (en) | System with combined statistical and rule-based grammar model for speech recognition and understanding | |
DE112006000322T5 (en) | Audio recognition system for generating response audio using extracted audio data | |
DE69519229T2 (en) | METHOD AND DEVICE FOR ADAPTING A VOICE RECOGNIZER TO DIALECTIC LANGUAGE VERSIONS | |
DE60133537T2 (en) | AUTOMATIC UMTRAINING OF A LANGUAGE RECOGNITION SYSTEM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20021002 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
RBV | Designated contracting states (corrected) |
Designated state(s): DE FR GB IT |
|
17Q | First examination report despatched |
Effective date: 20040728 |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAC | Information related to communication of intention to grant a patent modified |
Free format text: ORIGINAL CODE: EPIDOSCIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): DE FR GB IT |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REF | Corresponds to: |
Ref document number: 50108314 Country of ref document: DE Date of ref document: 20060112 Kind code of ref document: P |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20060118 |
|
ET | Fr: translation filed | ||
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20060908 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20110427 Year of fee payment: 11 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20110419 Year of fee payment: 11 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20110422 Year of fee payment: 11 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20110620 Year of fee payment: 11 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20120409 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20121228 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20120409 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 50108314 Country of ref document: DE Effective date: 20121101 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20120430 Ref country code: IT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20120409 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20121101 |