EP1005694B1 - Method for determining a representative of a speech unit of a language from a voice signal comprising phonetical sections - Google Patents

Method for determining a representative of a speech unit of a language from a voice signal comprising phonetical sections Download PDF

Info

Publication number
EP1005694B1
EP1005694B1 EP98948677A EP98948677A EP1005694B1 EP 1005694 B1 EP1005694 B1 EP 1005694B1 EP 98948677 A EP98948677 A EP 98948677A EP 98948677 A EP98948677 A EP 98948677A EP 1005694 B1 EP1005694 B1 EP 1005694B1
Authority
EP
European Patent Office
Prior art keywords
measure
language
selection
group
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP98948677A
Other languages
German (de)
French (fr)
Other versions
EP1005694A1 (en
Inventor
Martin Holzapfel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1005694A1 publication Critical patent/EP1005694A1/en
Application granted granted Critical
Publication of EP1005694B1 publication Critical patent/EP1005694B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Definitions

  • the invention relates to a method for determining a Representatives for a language component of a language a speech signal comprising sound sections.
  • a language can be described as a set of modular language modules .
  • An affiliation function specifies the affiliation measure with which a sound section is a representative of a corresponding language module.
  • HMMs Hidden Markov models
  • a segmentation of a speech signal can be done using "Fast Viterbi Alignment” based on the on the speech signal trained HMMs (see [4] and [6]).
  • the object on which the invention is based is to specify a method for determining a representative for a language component of a language from a speech signal comprising sound sections, which avoids the disadvantages described above and ensures an improved choice of the representative.
  • a segmentation is evaluated using statistical evaluation of the individual sound sections, whereby a statistically "good” representative for each Phonetic section is determined as a segment.
  • the object of the invention is according to the features of Claim 1 solved.
  • a method for determination is specified a representative for a selected language module a language consisting of a sound section Speech signal, the sound sections of the speech signal according to belonging to the language modules in one for each selected language module belonging to the group.
  • You thus get for Several language modules each have a group with at least one a sound section.
  • a selection measure serves from which Speech signal for the sound sections selection values too determine and frequencies of the selection values obtained To be determined according to the section of the respective group. Based on Frequencies obtained in this way become a membership function determines the one for each sound section of a group Affiliation measure that indicates how useful this is Phonetic section as a representative (i.e. a selected one Section).
  • the sound section is now called Representative of the group for the selected one Language module determines whose affiliation measure above of a predetermined threshold.
  • a great advantage of this method is that it does not any representative from the group for the selected one Language module is taken out, but a representative is determined using the selected language module sufficient quality (corresponding to a high degree of belonging) describes.
  • the sound sections of a group, the one language element are assigned in the speech signal, which are preferably about naturally spoken language as a long speech sample is made accessible to the computer with regard to their Usability statistically distributed. So there are "good” and “bad” sound sections to the selected one Speech module. With the invention in particular avoided a bad section of sound as a representative of the selected language module.
  • frequencies are determined for all selection values and from these frequencies, as described above, a membership function.
  • the representative for the selected language element from the group of Sound sections determined by each membership measure (for each selection measure results in a membership function with a membership measure) multiplicatively into a total measure comes in. Is the total dimension for the respective sound section above a predetermined total threshold, so suitable this section of the sound represents the selected one Language component and is made up of the group of sound sections, that belong to this selected language module, selected.
  • the multiplicative weighting of the membership measure in the Overall dimension corresponds to an AND operation Probability density functions. The representative can thus meet all selection measures with sufficient quality.
  • HMM hidden Markov model
  • a special development of the invention consists in synthetic language from the identified representatives produce.
  • the language determined by language modules, whereby representatives according to the invention for the language modules can be determined on the basis of these representatives in completely new context. From this results a synthetic speech output by using speech modules, embodied by individual representatives (sound sections), in new sequence are issued.
  • Phonetic section to represent the selected one To determine the language module, whose degree of affiliation the has the highest value or, if several selection measures are taken into account, the overall dimension of which is the highest value having. So it will be the "best" sound section in the Group of sound sections for the selected one Language module determined.
  • a determination of language components from a speech signal is for a concatenative speech synthesis, so rearranging the found language modules to new ones semantic strings of language, of importance.
  • a step 101 the sound sections of the speech signal are combined in a group for each speech module according to their affiliation to the speech modules. This can be summarized automatically and is described, for example, in [4].
  • An HMM hidden Markov model
  • the speech signal can be any speech sample with an approximate length of one hour to three hours.
  • Sound sections in each of these groups There are usually several sound sections in each of these groups included, with one representative each for speech synthesis to be determined from each group.
  • the single ones Sound sections in a group are not all the same, but are subject to a statistical distribution. In the following, the knowledge of a distribution is used to a suitable representative under the sound sections to find and select a group.
  • the sound sections are accordingly one predefined selection measure, whereby for each According to the phonetic section, a selection value results for each selection measure.
  • the individual sound sections are preferably repeated different selection measures, it results for each selection measure has its own selection value (for each Phonetic section) (see step 102).
  • the frequencies are determined Selection values for all sound sections in this group determined (see step 103).
  • this representation being a statistical distribution of the sound sections rated according to the selection measure shows.
  • a next step 104 the determined Frequencies used to perform a membership function (for each of the representations described above).
  • the membership function preferably provides an envelope about the statistically distributed frequencies of the Selection values. This step is also carried out for every selection measure for every group.
  • a group includes how already described above, all sound sections that one Express the given language element. From the Membership function can be for any sound section Affiliation measure can be determined, which is a measure of the Usability of the respective sound section as a representative represents the group for the respective selection measure.
  • the sound section is represented as one in one Step 105 selected, its membership measure above of a predetermined threshold.
  • a predetermined threshold Preferably, as described above, several selection measures used, so that there are several membership measures for each section of sound result which, combined multiplicatively, result in an overall measure. Accordingly, the section of the sound becomes the representative of the Group selected, the total dimension above a predetermined total threshold.
  • Link 201 indicates that the Speech module SBS1 through the sound sections LA1-1, LA1-2, LA1-3, ..., LA1-m can be expressed.
  • This Sound sections assigned to the speech module SBS1 are grouped together in a group GR1.
  • the individual sound sections of group GR1 are from the Speech signal obtained and all describe the speech module SBS1.
  • the individual are according to the speech signal Sound sections, based on different selection measures, each of different grades. So it's a goal a "usable" representative from the sound sections the group GR1 to determine the language module SBS1 of synthetic language.
  • Any language module SBSn can be provided by numerous (here 'p') sound sections in a group GR2 are summarized, expressed.
  • Selection measures There are several Options for such selection measures, here one Selection is presented individually or in combination with each other or in combination with others Selection measures can be used to create an advantageous one Determination of a representative from the group of Allow sound sections.
  • the deviation becomes relative by normalizing the mean length 1 ⁇ to 1.
  • the membership function Z l_syn is also standardized to 1.
  • ZG denotes the degree of membership.
  • the membership function Z f_syn has the following form:
  • the frequency f is also normalized to the average frequency f ⁇ .
  • the membership function Z f_syn is also standardized to 1.
  • An upper parameter of the frequency is denoted by f OG and a lower parameter of the frequency by f UG .
  • Fig. 5 the energy of the sound section is shown as a selection measure.
  • the relative deviation of this energy from an average value of the energy is the criterion of the membership function Z E_al :
  • E ⁇ the mean (expected value) of the energy E
  • E UG a lower threshold of the energy
  • E OG an upper threshold of the energy
  • ⁇ E the variance of the energy.
  • the membership function Z E_al is standardized to 1.
  • a membership function Z l_al results for evaluating the relative deviation of the length change of the sound section. If there is an upper threshold l OG , a lower threshold l UG and a variance in length ⁇ l , the membership function Z l_al applies :
  • FIG. 6 shows a selection measure SCORE, which is a measure for the fitting of a sound section as a representative, ie a sound section to be selected is a typical, characteristically articulated sound section and thus 'fits' as a representative for the corresponding language element.
  • This membership function Z S (s) can be determined as follows:
  • the listed membership functions are taken into account when assessing whether a sound section is suitable as a representative of the corresponding language module.
  • the individual membership measures are AND-linked. This is done by multiplying the individual membership measures to a total measure.
  • the multiplication over all states in the membership functions Z E_al and Z l_al means the individual states within an HMM which is used to describe the sound section. Depending on the modeling, HMMs can be used with different numbers of states, all of these states separately received for each phone in the section is saturated by the membership function Z resultant overall dimensions.

Description

Die Erfindung betrifft ein Verfahren zur Bestimmung eines Repräsentanten für einen Sprachbaustein einer Sprache aus einem Lautabschnitte umfassenden Sprachsignal.The invention relates to a method for determining a Representatives for a language component of a language a speech signal comprising sound sections.

Dem Fachmann ist bekannt, ein von einer Person gesprochenes Signal, also ein Sprachsignal in Lautabschnitte zu unterteilen (Segmentierung), wobei jeder Lautabschnitt ein Teil des Sprachsignals umfaßt.It is known to the person skilled in the art to divide a signal spoken by a person, that is to say a speech signal, into sound sections (segmentation), each sound section comprising part of the speech signal.

Eine Sprache kann ihrerseits als eine Menge modularer Sprachbausteine beschrieben werden.For its part, a language can be described as a set of modular language modules .

Eine Zugehörigkeitsfunktion gibt an, mit welchem Zugehörigkeitsmaß ein Lautabschnitt ein Repräsentant eines entsprechenden Sprachbausteins ist.An affiliation function specifies the affiliation measure with which a sound section is a representative of a corresponding language module.

Es existieren mehrere Ansätze zur Auswahl von Sprachbausteinen aus Datenbanken. Eine Optimierung erfolgt dabei über prosodische [1], linguistische [2] oder Kontinuitätskriterien [3]. Automatische generierte Datenbanken werden in [4], [6] und [7] beschrieben.There are several approaches to select from Language modules from databases. An optimization takes place thereby about prosodic [1], linguistic [2] or Continuity criteria [3]. Automatically generated Databases are described in [4], [6] and [7].

Hidden-Markov-Modelle (HMMs) sind aus [5] bekannt.Hidden Markov models (HMMs) are known from [5].

Eine Segmentierung eines Sprachsignals kann mittels "Fast-Viterbi-Alignment" anhand der auf das Sprachsignal trainierten HMMs (siehe [4] und [6]) erfolgen.A segmentation of a speech signal can be done using "Fast Viterbi Alignment" based on the on the speech signal trained HMMs (see [4] and [6]).

Es ist von Nachteil, daß eine Segmentierung eines Sprachsignals in einzelne Lautabschnitte manuell durchgeführt wird, weil dies enormen Aufwand und Erfahrung erfordert und für jeden Sprecher individuell durchgeführt werden muß.It is disadvantageous that a segmentation of a Voice signal in individual sound sections carried out manually is because this requires enormous effort and experience and must be carried out individually for each speaker.

Ferner ist es von gravierendem Nachteil, daß keine Überprüfung der Eignung der ausgewählten Repräsentanten erfolgt und somit durch Wahl eines schlechten Repräsentanten als ein Sprachbaustein das Ergebnis der Sprachsynthese entsprechend schlecht ist.It is also a serious disadvantage that none Checking the suitability of the selected representatives done and thus by choosing a bad representative as a language building block the result of speech synthesis is correspondingly bad.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren zur Bestimmung eines Repräsentanten für einen Sprachbaustein einer Sprache aus einem Lautabschnitte umfassenden Sprachsignal anzugeben, das die oben beschriebenen Nachteile vermeidet und eine verbesserte Wahl des Repräsentanten sicherstellt.The object on which the invention is based is to specify a method for determining a representative for a language component of a language from a speech signal comprising sound sections, which avoids the disadvantages described above and ensures an improved choice of the representative.

Eine Bewertung einer Segmentierung erfolgt mittels statistischer Bewertung der einzelnen Lautabschnitte, wodurch ein statistisch "guter" Repräsentanten für den jeweiligen Lautabschnitt als ein Segment bestimmt wird.A segmentation is evaluated using statistical evaluation of the individual sound sections, whereby a statistically "good" representative for each Phonetic section is determined as a segment.

Die Aufgabe der Erfindung wird gemäß den Merkmalen des Patentanspruchs 1 gelöst.The object of the invention is according to the features of Claim 1 solved.

Erfindungsgemäß angegeben wird ein Verfahren zur Bestimmung eines Repräsentanten für einen ausgewählten Sprachbaustein einer Sprache aus einem Lautabschnitte umfassenden Sprachsignal, wobei die Lautabschnitte des Sprachsignals entsprechend einer Zugehörigkeit zu den Sprachbausteinen in jeweils einer zu diesem ausgewählten Sprachbaustein gehörenden Gruppe zusammengefaßt werden. Man erhält somit für mehrere Sprachbausteine jeweils eine Gruppe mit mindestens einem Lautabschnitt. Ein Selektionsmaß dient dazu, aus dem Sprachsignal für die Lautabschnitte Selektionswerte zu ermitteln und Häufigkeiten der gewonnenen Selektionswerte des Lautabschnitts der jeweiligen Gruppe zu bestimmen. Anhand der so gewonnenen Häufigkeiten wird eine Zugehörigkeitsfunktion bestimmt, die für jeden Lautabschnitt einer Gruppe ein Zugehörigkeitsmaß, das angibt, wie brauchbar dieser Lautabschnitt als ein Repräsentant (also ein ausgewählter Lautabschnitt) ist, ergibt. Es wird nun der Lautabschnitt als Repräsentant der Gruppe für den jeweiligen ausgewählten Sprachbaustein bestimmt, dessen Zugehörigkeitsmaß oberhalb eines vorgegebenen Schwellwerts liegt.According to the invention, a method for determination is specified a representative for a selected language module a language consisting of a sound section Speech signal, the sound sections of the speech signal according to belonging to the language modules in one for each selected language module belonging to the group. You thus get for Several language modules each have a group with at least one a sound section. A selection measure serves from which Speech signal for the sound sections selection values too determine and frequencies of the selection values obtained To be determined according to the section of the respective group. Based on Frequencies obtained in this way become a membership function determines the one for each sound section of a group Affiliation measure that indicates how useful this is Phonetic section as a representative (i.e. a selected one Section). The sound section is now called Representative of the group for the selected one Language module determines whose affiliation measure above of a predetermined threshold.

Ein großer Vorteil dieses Verfahrens besteht darin, daß nicht irgendein Repräsentant aus der Gruppe für den ausgewählten Sprachbaustein herausgenommen wird, sondern ein Repräsentant ermittelt wird, der den ausgewählten Sprachbaustein mit ausreichender Güte (entsprechend hohem Zugehörigkeitsmaß) beschreibt.A great advantage of this method is that it does not any representative from the group for the selected one Language module is taken out, but a representative is determined using the selected language module sufficient quality (corresponding to a high degree of belonging) describes.

Die Lautabschnitte einer Gruppe, die einem Sprachbaustein zugeordnet sind, sind in dem Sprachsignal, das vorzugsweise über natürlich gesprochene Sprache als eine lange Sprachprobe dem Rechner zugänglich gemacht wird, im Hinblick auf deren Brauchbarkeit statistisch verteilt. Es gibt also "gute" und "schlechte" Lautabschnitte zu dem jeweiligen ausgewählten Sprachbaustein. Mit der Erfindung wird insbesondere vermieden, einen schlechten Lautabschnitt als Repräsentant des ausgewählten Sprachbausteins zu bestimmen.The sound sections of a group, the one language element are assigned in the speech signal, which are preferably about naturally spoken language as a long speech sample is made accessible to the computer with regard to their Usability statistically distributed. So there are "good" and "bad" sound sections to the selected one Speech module. With the invention in particular avoided a bad section of sound as a representative of the selected language module.

Es ist eine Weiterbildung der Erfindung, mindestens ein weiteres Selektionsmaß auf die Lautabschnitte anzuwenden, wobei sich jeweils ein mindestens ein weiterer Selektionswert für jeden Lautabschnitt ergibt. Für jede Gruppe von Lautabschnitten (also für jeden ausgewählten Sprachbaustein) werden für alle Selektionswerte Häufigkeiten ermittelt und aus diesen Häufigkeiten ergibt sich, wie oben beschrieben, eine Zugehörigkeitsfunktion.It is a further development of the invention, at least one apply another selection measure to the sound sections, where there is at least one additional selection value for each section of sound. For each group of Sound sections (i.e. for each selected language element) frequencies are determined for all selection values and from these frequencies, as described above, a membership function.

In einer zusätzlichen Weiterbildung wird der Repräsentant für den ausgewählten Sprachbaustein aus der Gruppe von Lautabschnitten bestimmt, indem jedes Zugehörigkeitsmaß (für jedes Selektionsmaß ergibt sich eine Zugehörigkeitsfunktion mit einem Zugehörigkeitsmaß) multiplikativ in ein Gesamtmaß eingeht. Liegt das Gesamtmaß für den jeweiligen Lautabschnitt oberhalb eines vorgegebenen Gesamtschwellwerts, so eignet sich dieser Lautabschnitt als Repräsentant des ausgewählten Sprachbausteins und wird aus der Gruppe von Lautabschnitten, die zu diesem ausgewählten Sprachbaustein gehören, ausgewählt.The representative for the selected language element from the group of Sound sections determined by each membership measure (for each selection measure results in a membership function with a membership measure) multiplicatively into a total measure comes in. Is the total dimension for the respective sound section above a predetermined total threshold, so suitable this section of the sound represents the selected one Language component and is made up of the group of sound sections, that belong to this selected language module, selected.

Es ist von Vorteil mehrere Selektionsmaße für die Bestimmung des Repräsentanten zu bestimmen, da so sichergestellt werden kann, daß kein Selektionswert allzu schlecht ist. Die multiplikative Gewichtung der Zugehörigkeitsmaßes in dem Gesamtmaß entspricht einer UND-Verknüpfung der Wahrscheinlichkeitsdichtefunktionen. Der Repräsentant kann also alle Selektionsmaße mit ausreichender Güte erfüllen.It is advantageous to use several selection measures for the determination of the representative, as this ensures can that no selection value is too bad. The multiplicative weighting of the membership measure in the Overall dimension corresponds to an AND operation Probability density functions. The representative can thus meet all selection measures with sufficient quality.

Ferner ist es eine Weiterbildung der Erfindung, daß die Lautabschnitte Phoneme, Diphone, Triphone, Silben, Halbsilben oder Wörter einer Sprache sind. Auch Kombinationen aus diesen genannten Lautabschnitten sind möglich.It is also a further development of the invention that the Phonemes, diphones, triphones, syllables, half-syllables or are words of a language. Combinations of these too mentioned sound sections are possible.

Eine andere Weiterbildung besteht darin, daß die Lautabschnitte einzelnen Zuständen eines Hidden-Markov-Modells (HMM) zugeordnet sind.Another development is that the Sound sections of individual states of a hidden Markov model (HMM) are assigned.

Auch ist es eine Weiterbildung, das Selektionsmaß durch eine der nachfolgend angeführten Größen zu bestimmen:

  • a) Energie der jeweiligen Lautabschnitte;
  • b) Länge der jeweiligen Lautabschnitte;
  • c) Grundfrequenz der jeweiligen Lautabschnitte;
  • d) Längenmanipulation der jeweiligen Lautabschnitte;
  • e) statistisches Maß für ein Passen der jeweiligen Lautabschnitte.
  • It is also a further development to determine the selection measure by one of the variables listed below:
  • a) energy of the respective sound sections;
  • b) length of the respective sound sections;
  • c) fundamental frequency of the respective sound sections;
  • d) length manipulation of the respective sound sections;
  • e) statistical measure for a fit of the respective sound sections.
  • Eine besondere Weiterbildung der Erfindung besteht, darin, synthetisch Sprache aus den ermittelten Repräsentanten zu erzeugen. Die Sprache, bestimmt durch Sprachbausteine, wobei erfindungsgemäß für die Sprachbausteine Repräsentanten ermittelt worden sind, kann anhand dieser Repräsentanten in völlig neuem Kontext zusammengesetzt werden. Hieraus ergibt sich eine synthetische Sprachausgabe, indem Sprachbausteine, verkörpert durch einzelne Repräsentanten (Lautabschnitte), in neuer Aneinanderreihung ausgegeben werden.A special development of the invention consists in synthetic language from the identified representatives produce. The language, determined by language modules, whereby representatives according to the invention for the language modules can be determined on the basis of these representatives in completely new context. From this results a synthetic speech output by using speech modules, embodied by individual representatives (sound sections), in new sequence are issued.

    Auch ist es eine Weiterbildung der Erfindung, den Lautabschnitt zum Repräsentant des ausgewählten Sprachbausteins zu bestimmen, dessen Zugehörigkeitsmaß den höchsten Wert aufweist oder, falls mehrere Selektionsmaße berücksichtigt werden, dessen Gesamtmaß den höchsten Wert aufweist. Es wird also der "beste" Lautabschnitt in der Gruppe der Lautabschnitte für den jeweiligen ausgewählten Sprachbaustein ermittelt.It is also a further development of the invention Phonetic section to represent the selected one To determine the language module, whose degree of affiliation the has the highest value or, if several selection measures are taken into account, the overall dimension of which is the highest value having. So it will be the "best" sound section in the Group of sound sections for the selected one Language module determined.

    Weiterbildungen der Erfindung ergeben sich auch aus den abhängigen Ansprüchen.Further developments of the invention also result from the dependent claims.

    Anhand der folgenden Figuren werden Ausführungsbeispiele der Erfindung näher dargestellt.Exemplary embodiments of the Invention presented in more detail.

    Es zeigen

    Fig.1
    ein Blockdiagramm, das einzelne Schritte eines Verfahrens zur Bestimmung eines Repräsentanten für einen Sprachbaustein einer Sprache aus einem Lautabschnitte umfassenden Sprachsignal darstellt,
    Fig.2
    eine Skizze, die den Aufbau einer Sprache und deren Abbildung auf ein Sprachsignal, insbesondere einen vorgelesenen Text, darstellt,
    Fig.3
    eine Skizze, die ein Selektionsmaß 'Längenmanipulation' darstellt,
    Fig.4
    eine Skizze, die ein Selektionsmaß 'Grundfrequenz' darstellt,
    Fig.5
    eine Skizze, die ein Selektionsmaß 'Energie' darstellt,
    Fig.6
    eine Skizze, die ein Selektionsmaß 'SCORE' darstellt.
    Show it
    Fig. 1
    1 shows a block diagram which represents individual steps of a method for determining a representative for a speech component of a speech from a speech signal comprising speech sections,
    Fig. 2
    a sketch which shows the structure of a language and its mapping onto a speech signal, in particular a read text,
    Fig. 3
    a sketch which represents a selection measure 'length manipulation',
    Fig. 4
    a sketch which represents a selection measure 'fundamental frequency',
    Fig. 5
    a sketch that represents a selection measure 'energy',
    Fig. 6
    a sketch that represents a selection measure 'SCORE'.

    Eine Bestimmung von Sprachbausteinen aus einem Sprachsignal, vorzugsweise einer ausreichend langen Sprechprobe eines Sprechers, ist für eine konkatenative Sprachsynthese, also ein Neuordnen der gefundenen Sprachbausteine zu neuen semantischen Aneinanderreihungen der Sprache, von Bedeutung. Je genauer einzelne Lautabschnitte aus dem Sprachsignal "ausgeschnitten" werden, desto höher ist auch die Qualität der synthetischen Sprache.A determination of language components from a speech signal, preferably a sufficiently long speech test of one Speaker's, is for a concatenative speech synthesis, so rearranging the found language modules to new ones semantic strings of language, of importance. The more precise individual sound sections from the speech signal "cut out", the higher the quality the synthetic language.

    In Fig.1 sind Schritte eines Verfahrens zur Bestimmung eines Repräsentanten für einen Sprachbaustein einer Sprache aus einem Lautabschnitte umfassenden Sprachsignal dargestellt. In einem Schritt 101 werden die Lautabschnitte des Sprachsignals entsprechend einer Zugehörigkeit zu den Sprachbausteinen in jeweils einer Gruppe für jeden Sprachbaustein zusammengefaßt. Dieses Zusammenfassen kann automatisch erfolgen und ist z.B. in [4] beschrieben. Auf das Sprachsignal wird vorzugsweise ein HMM (=Hidden-Markov-Modell) trainiert. Das Sprachsignal kann eine beliebige Sprachprobe mit einer ungefähren Länge von einer Stunde bis drei Stunden sein. Nach Durchführung des Schrittes 101 sind die Lautabschnitte in Gruppen zusammengefaßt, wobei jede Gruppe zumindest einen Lautabschnitt umfaßt, der für einen vorgegebenen Sprachbaustein der Sprache steht. 1 shows steps of a method for determining a representative of a language component of a language from a speech signal comprising sound sections. In a step 101, the sound sections of the speech signal are combined in a group for each speech module according to their affiliation to the speech modules. This can be summarized automatically and is described, for example, in [4]. An HMM (= hidden Markov model) is preferably trained on the speech signal. The speech signal can be any speech sample with an approximate length of one hour to three hours. After step 101 has been carried out, the sound sections are combined in groups, each group comprising at least one sound section which stands for a predetermined language component of the language.

    Zumeist sind in jeder dieser Gruppen mehrere Lautabschnitte enthalten, wobei für die Sprachsynthese je ein Repräsentant aus jeder Gruppe bestimmt werden soll. Die einzelnen Lautabschnitte in einer Gruppe sind nicht alle gleich, sondern unterliegen einer statistischen Verteilung. Nachfolgend wird das Wissen um eine Verteilung benutzt, um einen geeigneten Repräsentanten unter den Lautabschnitten einer Gruppe zu finden und auszuwählen.There are usually several sound sections in each of these groups included, with one representative each for speech synthesis to be determined from each group. The single ones Sound sections in a group are not all the same, but are subject to a statistical distribution. In the following, the knowledge of a distribution is used to a suitable representative under the sound sections to find and select a group.

    Die Lautabschnitte werden hierzu entsprechend eines vorgegebenen Selektionsmaßes bewertet, wobei sich für jeden Lautabschnitt pro Selektionsmaß ein Selektionswert ergibt. Vorzugsweise werden die einzelnen Lautabschnitte nach verschiedenen Selektionsmaßen bewertet, es ergibt sich für jedes Selektionsmaß ein eigener Selektionswert (für jeden Lautabschnitt) (siehe hierzu Schritt 102).The sound sections are accordingly one predefined selection measure, whereby for each According to the phonetic section, a selection value results for each selection measure. The individual sound sections are preferably repeated different selection measures, it results for each selection measure has its own selection value (for each Phonetic section) (see step 102).

    Für jede Gruppe werden die Häufigkeiten der ermittelten Selektionswerte für alle Lautabschnitte dieser Gruppe ermittelt (siehe Schritt 103). Dies entspricht einem Auftragen in einer zweidimensionalen Darstellung, wobei die Abszisse Werte des Selektionsmaßes umfaßt und die Ordinate deren Häufigkeiten beschreibt. Für alle Lautabschnitte der Gruppe ergibt sich pro Selektionsmaß eine solche Darstellung, wobei diese Darstellung eine statistische Verteilung der entsprechend dem Selektionsmaß bewerteten Lautabschnitte aufzeigt.For each group, the frequencies are determined Selection values for all sound sections in this group determined (see step 103). This corresponds to one Application in a two-dimensional representation, the The abscissa values of the selection measure include and the ordinate describes their frequencies. For all sound sections of the For each group of selections, there is such a representation, this representation being a statistical distribution of the sound sections rated according to the selection measure shows.

    In einem nächsten Schritt 104 werden die ermittelten Häufigkeiten benutzt, um eine Zugehörigkeitsfunktion (für jede der oben beschriebenen Darstellungen) zu bestimmen. Vorzugsweise stellt die Zugehörigkeitsfunktion eine Hüllkurve über die statistisch verteilten Häufigkeiten der Selektionswerte dar. Auch dieser Schritt erfolgt wieder für jedes Selektionsmaß für jede Gruppe. Eine Gruppe umfaßt, wie bereits oben beschrieben, alle Lautabschnitte, die einen vorgegebenen Sprachbaustein ausdrücken. Aus der Zugehörigkeitsfunktion kann für jeden Lautabschnitt ein Zugehörigkeitsmaß ermittelt werden, das ein Maß für die Brauchbarkeit des jeweiligen Lautabschnitts als Repräsentant der Gruppe für das jeweilige Selektionsmaß darstellt.In a next step 104, the determined Frequencies used to perform a membership function (for each of the representations described above). The membership function preferably provides an envelope about the statistically distributed frequencies of the Selection values. This step is also carried out for every selection measure for every group. A group includes how already described above, all sound sections that one Express the given language element. From the Membership function can be for any sound section Affiliation measure can be determined, which is a measure of the Usability of the respective sound section as a representative represents the group for the respective selection measure.

    Demnach wird der Lautabschnitt als Repräsentant in einem Schritt 105 ausgewählt, dessen Zugehörigkeitsmaß oberhalb eines vorgegebenen Schwellwertes liegt. Vorzugsweise werden, wie oben beschrieben, mehrere Selektionsmaße verwendet, so daß sich für jeden Lautabschnitt mehrere Zugehörigkeitsmaße ergeben, die, multiplikativ verknüpft, ein Gesamtmaß ergeben. Entsprechend wird dann der Lautabschnitt als Repräsentant der Gruppe ausgewählt, dessen Gesamtmaß oberhalb eines vorgegebenen Gesamtschwellwerts liegt.Accordingly, the sound section is represented as one in one Step 105 selected, its membership measure above of a predetermined threshold. Preferably, as described above, several selection measures used, so that there are several membership measures for each section of sound result which, combined multiplicatively, result in an overall measure. Accordingly, the section of the sound becomes the representative of the Group selected, the total dimension above a predetermined total threshold.

    Fig.2 zeigt zur Veranschaulichung den Zusammenhang zwischen der Sprache SPR, die Sprachbausteine SBSi (i=1,2,..,n) umfaßt und dem Sprachsignal SSI, das Lautabschnitten LAi-j (j=1,2,..,m) enthält, die in Gruppen GRi zusammengefaßt sind. For illustration, FIG. 2 shows the relationship between the language SPR, which comprises language modules SBSi (i = 1,2, .., n) and the speech signal SSI, the sound sections LAi-j (j = 1,2, .., m ) contains, which are summarized in groups GRi.

    Mit der Verknüpfung 201 wird angezeigt, daß der Sprachbaustein SBS1 durch die Lautabschnitte LA1-1, LA1-2, LA1-3, ..., LA1-m ausgedrückt werden kann. Diese Lautabschnitte, die dem Sprachbaustein SBS1 zugeordnet werden, sind in einer Gruppe GR1 zusammengefaßt. Die einzelnen Lautabschnitte der Gruppe GR1 sind aus dem Sprachsignal gewonnen und beschreiben alle den Sprachbaustein SBS1. Entsprechend dem Sprachsignal sind die einzelnen Lautabschnitte, bezogen auf verschiedenen Selektionsmaße, jeweils von unterschiedlicher Güte. Es ist also ein Ziel, einen "brauchbaren" Repräsentanten aus den Lautabschnitten der Gruppe GR1 zu ermitteln, der den Sprachbaustein SBS1 bei der synthetischen Sprache realisiert.Link 201 indicates that the Speech module SBS1 through the sound sections LA1-1, LA1-2, LA1-3, ..., LA1-m can be expressed. This Sound sections assigned to the speech module SBS1 are grouped together in a group GR1. The individual sound sections of group GR1 are from the Speech signal obtained and all describe the speech module SBS1. The individual are according to the speech signal Sound sections, based on different selection measures, each of different grades. So it's a goal a "usable" representative from the sound sections the group GR1 to determine the language module SBS1 of synthetic language.

    Analog gelten die gleichen Beziehungen für die Verknüpfung 202. Ein beliebiger Sprachbaustein SBSn kann durch zahlreiche (hier 'p') Lautabschnitte, die in einer Gruppe GR2 zusammengefaßt sind, ausgedrückt werden. Similarly, the same relationships apply to the link 202. Any language module SBSn can be provided by numerous (here 'p') sound sections in a group GR2 are summarized, expressed.

    Nachfolgend soll auf die oben bereits erwähnten Selektionsmaße eingegangen werden. Es gibt mehrere Möglichkeiten für solche Selektionsmaße, wobei hier eine Auswahl vorgestellt wird, die einzeln oder in Kombination untereinander oder auch in Kombination mit weiteren Selektionsmaßen verwendet werden können, um eine vorteilhafte Bestimmung eines Repräsentanten aus der Gruppe von Lautabschnitten zu ermöglichen.The following should refer to those already mentioned above Selection measures. There are several Options for such selection measures, here one Selection is presented individually or in combination with each other or in combination with others Selection measures can be used to create an advantageous one Determination of a representative from the group of Allow sound sections.

    Fig.3 zeigt als Selektionsmaß die Längenmanipulation, also ein Maß für die originale Dauer des Lautabschnitts relativ zur synthetisierten Dauer des Lautabschnitts. Abweichungen bis zu je einem unteren Schwellwert ℓUG und einem oberen Schwellwert ℓOG gelten als unproblematisch. Über diese Schwellwerte hinaus, also kleiner als der untere Schwellwert ℓUG oder größer als der obere Schwellwert ℓOG, fällt die Zugehörigkeitsfunktion Zℓ_syn exponentiell ab. Dabei ist die Zugehörigkeitsfunktion Zℓ_syn bestimmt durch:

    Figure 00090001
    3 shows as a selection measure the length manipulation , that is a measure of the original duration of the sound section relative to the synthesized duration of the sound section. Deviations of up to a lower threshold ℓ UG and an upper threshold ℓ OG are considered to be unproblematic. The membership function Z , _syn drops exponentially beyond these threshold values, that is to say less than the lower threshold value ℓ UG or greater than the upper threshold value ℓ OG . The membership function Z ℓ_syn is determined by:
    Figure 00090001

    Durch eine Normierung der mittleren Länge ℓ auf 1 wird die Abweichung relativ. Auch die Zugehörigkeitsfunktion Zℓ_syn ist auf 1 normiert. ZG bezeichnet das Zugehörigkeitsmaß.The deviation becomes relative by normalizing the mean length 1 to 1. The membership function Z ℓ_syn is also standardized to 1. ZG denotes the degree of membership.

    Fig.4 zeigt eine Grundfrequenz-Manipulation als Selektionsmaß. Dabei soll die Abweichung der Grundfrequenz des Lautabschnitts von einer Ziel-Grundfrequenz (bei der synthetisierten Sprache) minimal sein. Die Zugehörigkeitsfunktion Zf_syn hat dabei folgende Form:

    Figure 00100001
    4 shows a fundamental frequency manipulation as a selection measure. The deviation of the fundamental frequency of the sound section from a target fundamental frequency (in the synthesized speech) should be minimal. The membership function Z f_syn has the following form:
    Figure 00100001

    Auch hier ist der Übersicht halber die Frequenz f auf die mittlere Frequenz fØ normiert. Auch die Zugehörigkeitsfunktion Zf_syn ist auf 1 normiert. Ein oberer Parameter der Frequenz wird mit fOG und eine unterer Parameter der Frequenz mit fUG bezeichnet.For the sake of clarity, the frequency f is also normalized to the average frequency fØ. The membership function Z f_syn is also standardized to 1. An upper parameter of the frequency is denoted by f OG and a lower parameter of the frequency by f UG .

    In Fig.5 wird die Energie des Lautabschnitts als Selektionsmaß dargestellt. Die relative Abweichung dieser Energie von einem Mittelwert der Energie ist das Kriterium der Zugehörigkeitsfunktion ZE_al:

    Figure 00100002
    In Fig. 5 the energy of the sound section is shown as a selection measure. The relative deviation of this energy from an average value of the energy is the criterion of the membership function Z E_al :
    Figure 00100002

    Es sind E der Mittelwert (Erwartungswert) der Energie E, EUG eine untere Schwelle der Energie, EOG eine obere Schwelle der Energie und σE die Varianz der Energie. Die Zugehörigkeitsfunktion ZE_al ist auf 1 normiert.There are E the mean (expected value) of the energy E, E UG a lower threshold of the energy, E OG an upper threshold of the energy and σ E the variance of the energy. The membership function Z E_al is standardized to 1.

    Verwendet man anstelle der Energie die Länge des Lautabschnitts als ein Selektionsmaß, so ergibt sich analog zu Fig.5 eine Zugehörigkeitsfunktion Zℓ_al zur Bewertung der relativen Abweichung der Längenänderung des Lautabschnitts. Existieren wieder eine obere Schwelle ℓOG, eine untere Schwelle ℓUG und eine Varianz der Länge σ, so gilt für die Zugehörigkeitsfunktion Zℓ_al:

    Figure 00110001
    If instead of the energy the length ℓ of the sound section is used as a selection measure, analogous to FIG. 5, a membership function Z ℓ_al results for evaluating the relative deviation of the length change of the sound section. If there is an upper threshold ℓ OG , a lower threshold ℓ UG and a variance in length σ , the membership function Z ℓ_al applies :
    Figure 00110001

    In Fig.6 wird ein Selektionmaß SCORE dargestellt, das ein Maß für das Passen eines Lautabschnitts als Repräsentant ist, d.h. ein auszuwählender Lautabschnitt ist ein typischer, charakteristisch artikulierter Lautabschnitt und 'paßt' somit als Repräsentant für den entsprechenden Sprachbaustein. FIG. 6 shows a selection measure SCORE, which is a measure for the fitting of a sound section as a representative, ie a sound section to be selected is a typical, characteristically articulated sound section and thus 'fits' as a representative for the corresponding language element.

    Eine Zugehörigkeitsfunktion ZS(s) wird zwischen dem Lautabschnitt mit dem "besten" (ZS(smax)=1) und dem "schlechtesten" (ZS(smin) = 1-sG) Selektionsmaß SCORE linear angenommen (siehe entsprechenden Verlauf von ZS(s) in Fig.6). Diese Zugehörigkeitsfunktion ZS(s) kann folgendermaßen bestimmt sein:

    Figure 00110002
    A membership function Z S (s) is assumed to be linear between the sound section with the "best" (Z S (s max ) = 1) and the "worst" (Z S (s min ) = 1-s G ) (see corresponding course of Z S (s) in Fig. 6). This membership function Z S (s) can be determined as follows:
    Figure 00110002

    Vorzugsweise werden für die Beurteilung, ob ein Lautabschnitt sich als ein Repräsentant des entsprechenden Sprachbausteins eignet, mehrere der aufgeführten Zugehörigkeitsfunktionen berücksichtigt. Um sicherzustellen, daß ein Repräsentant ausgewählt wird, dessen Wert bei keiner Zugehörigkeitsfunktion unterhalb einer vorgegebenen Schwelle liegt, werden die einzelnen Zugehörigkeitsmaße UND-verknüpft. Dies erfolgt durch eine Multiplikation der einzelnen Zugehörigkeitsmaße zu einem Gesamtmaß. Unter Berücksichtigung der oben aufgeführten Zugehörigkeitsfunktionen ergibt sich:

    Figure 00120001
    Preferably, several of the listed membership functions are taken into account when assessing whether a sound section is suitable as a representative of the corresponding language module. To ensure that a representative is selected whose value does not lie below a predefined threshold for any membership function, the individual membership measures are AND-linked. This is done by multiplying the individual membership measures to a total measure. Taking into account the membership functions listed above, the following results:
    Figure 00120001

    Mit der Multiplikation über alle Zustände bei den Zugehörigkeitsfunktionen ZE_al und Zℓ_al sind die einzelnen Zustände innerhalb eines HMMs gemeint, das zur Beschreibung des Lautabschnitts dient. Je nach Modellierung, können HMMs mit unterschiedlicher Anzahl an Zuständen verwendet werden, wobei alle diese Zustände einzeln für jeden Lautabschnitt in das sich durch die Zugehörigkeitsfunktion Zges ergebende Gesamtmaß eingehen. The multiplication over all states in the membership functions Z E_al and Z ℓ_al means the individual states within an HMM which is used to describe the sound section. Depending on the modeling, HMMs can be used with different numbers of states, all of these states separately received for each phone in the section is saturated by the membership function Z resultant overall dimensions.

    Im Rahmen dieses Dokuments wurden folgende Veröffentlichungen zitiert:

  • [1] Nick Campbell, Alan W. Black: "Prosody and the Selection of Source Units for Concatenative Synthesis", in Progress in Speechsynthesis, ISBN 0-387-94701-9, Springer Verlag New York, 1997, S. 279-292
  • [2] Andrew J. Hunt, Alan W. Black: "Unit Selection in a concatenative speech synthesis system using a large speech data base", Proc. EUROSPEECH 1995, Madrid, S. 373-376.
  • [3] Alistair D. Conkie, Stephen Isard: "Optimal Coupling of Diphones", in Progress in Speechsynthesis, ISBN 0-387-94701-9, Springer Verlag New York, 1997, S. 293-304.
  • [4] R. E. Donovan, P. C. Woodland: "Improvements in an HMM-based speech synthesiser", Proc. ICASSP 1995, Michigan, S. 573-576.
  • [5] G. Ruske: "Automatische Spracherkennung: Methoden der Klassifikation u. Merkmalsextraktion", Oldenbourg Verlag, München 1988, S. 160-171.
  • [6] R. E. Donovan, P. C. Woodland: "Automatic Speech Synthesiser Parameter Estimation using HMMs", IEEE, Proc. ICASSP 1995, S. 640-643.
  • [7] Patent Abstracts of Japan, Bd. 17, Nr. 477, 1993, S. 1603.
  • The following publications have been cited in this document:
  • [1] Nick Campbell, Alan W. Black: "Prosody and the Selection of Source Units for Concatenative Synthesis", in Progress in Speech Synthesis, ISBN 0-387-94701-9, Springer Verlag New York, 1997, pp. 279-292
  • [2] Andrew J. Hunt, Alan W. Black: "Unit Selection in a concatenative speech synthesis system using a large speech data base", Proc. EUROSPEECH 1995, Madrid, pp. 373-376.
  • [3] Alistair D. Conkie, Stephen Isard: "Optimal Coupling of Diphones", in Progress in Speech Synthesis, ISBN 0-387-94701-9, Springer Verlag New York, 1997, pp. 293-304.
  • [4] RE Donovan, PC Woodland: "Improvements in an HMM-based speech synthesizer", Proc. ICASSP 1995, Michigan, pp. 573-576.
  • [5] G. Ruske: "Automatic Speech Recognition: Methods of Classification and Feature Extraction", Oldenbourg Verlag, Munich 1988, pp. 160-171.
  • [6] RE Donovan, PC Woodland: "Automatic Speech Synthesizer Parameter Estimation using HMMs", IEEE, Proc. ICASSP 1995, pp. 640-643.
  • [7] Patent Abstracts of Japan, Vol. 17, No. 477, 1993, p. 1603.
  • Claims (8)

    1. Method for determining a representative of a predetermined speech unit of a language from a speech signal comprising phonetic segments,
      a) in which the phonetic segments of the speech signal are combined in each case in a group in accordance with membership of speech units of the language,
      b) in which selection values are determined from the speech signal for the phonetic segments of the respective group in accordance with a prescribed selection measure,
      c) in which frequencies of the selection values are determined for the group,
      d) in which the frequencies are used to determine a membership function which specifies a membership measure for the usefulness of the respective phonetic segment of the respective group, and
      e) in which that phonetic segment whose membership measure lies above a prescribed threshold value is determined as representative from the group of the phonetic segments for the selected speech unit.
    2. Method according to Claim 1, in which at least one further selection measure is used to determine further selection values for the phonetic segments of the group and further frequencies are determined for the further selection values, and a further membership function with a corresponding further membership measure is determined for each further frequency.
    3. Method according to Claim 2, in which each membership measure features multiplicatively in an overall measure, and the representative is determined from the group of phonetic segments whose overall measure lies above a prescribed total threshold value.
    4. Method according to one of the preceding claims, in which the phonetic segments are phonemes, diphones, triphones, syllables, half-syllables, words of the language, or combinations of these.
    5. Method according to one of the preceding claims, in which the phonetic segments are assigned to individual states of hidden Markor models.
    6. Method according to one of the preceding claims, in which the selection measure is one of the variables listed below:
      a) energy of the respective phonetic segments;
      b) length of the respective phonetic segments;
      c) fundamental frequency of the respective phonetic segments;
      d) length manipulation of the respective phonetic segments;
      e) a statistical measure for matching the respective phonetic segments.
    7. Method according to one of the preceding claims, in which speech is composed from the respresentatives obtained.
    8. Method according to one of the preceding claims, in which the representative of the speech unit is determined as the phonetic segment whose membership measure has the highest value or, if a plurality of selection measures are considered, whose overall measure has the highest value.
    EP98948677A 1997-08-21 1998-07-27 Method for determining a representative of a speech unit of a language from a voice signal comprising phonetical sections Expired - Lifetime EP1005694B1 (en)

    Applications Claiming Priority (3)

    Application Number Priority Date Filing Date Title
    DE19736465 1997-08-21
    DE19736465 1997-08-21
    PCT/DE1998/002120 WO1999010878A1 (en) 1997-08-21 1998-07-27 Method for determining a representative speech sound block from a voice signal comprising speech units

    Publications (2)

    Publication Number Publication Date
    EP1005694A1 EP1005694A1 (en) 2000-06-07
    EP1005694B1 true EP1005694B1 (en) 2001-10-31

    Family

    ID=7839772

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP98948677A Expired - Lifetime EP1005694B1 (en) 1997-08-21 1998-07-27 Method for determining a representative of a speech unit of a language from a voice signal comprising phonetical sections

    Country Status (6)

    Country Link
    EP (1) EP1005694B1 (en)
    JP (1) JP2001514400A (en)
    CN (1) CN1115664C (en)
    DE (1) DE59801989D1 (en)
    ES (1) ES2167945T3 (en)
    WO (1) WO1999010878A1 (en)

    Families Citing this family (4)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    DE10120513C1 (en) 2001-04-26 2003-01-09 Siemens Ag Method for determining a sequence of sound modules for synthesizing a speech signal of a tonal language
    US8918316B2 (en) * 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
    CN108269589B (en) * 2016-12-31 2021-01-29 中国移动通信集团贵州有限公司 Voice quality evaluation method and device for call
    CN110246490B (en) * 2019-06-26 2022-04-19 合肥讯飞数码科技有限公司 Voice keyword detection method and related device

    Family Cites Families (1)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    JP2590414B2 (en) * 1991-03-12 1997-03-12 科学技術庁長官官房会計課長 Fuzzy pattern recognition method

    Also Published As

    Publication number Publication date
    DE59801989D1 (en) 2001-12-06
    ES2167945T3 (en) 2002-05-16
    EP1005694A1 (en) 2000-06-07
    CN1267384A (en) 2000-09-20
    WO1999010878A1 (en) 1999-03-04
    JP2001514400A (en) 2001-09-11
    CN1115664C (en) 2003-07-23

    Similar Documents

    Publication Publication Date Title
    DE69925932T2 (en) LANGUAGE SYNTHESIS BY CHAINING LANGUAGE SHAPES
    EP1159734B1 (en) Method and array for determining a characteristic description of a voice signal
    DE602005002706T2 (en) Method and system for the implementation of text-to-speech
    EP0925461B1 (en) Process for the multilingual use of a hidden markov sound model in a speech recognition system
    DE4397106B4 (en) Fast method for vector quantization based on a tree structure
    EP0925579B1 (en) Process for adaptation of a hidden markov sound model in a speech recognition system
    DE69826446T2 (en) VOICE CONVERSION
    DE60004420T2 (en) Recognition of areas of overlapping elements for a concatenative speech synthesis system
    DE69627865T2 (en) VOICE SYNTHESIZER WITH A DATABASE FOR ACOUSTIC ELEMENTS
    DE2115258A1 (en) Speech synthesis by concatenating words encoded in formant form
    EP1273003B1 (en) Method and device for the determination of prosodic markers
    DE4241688A1 (en) Generating sub-word model for speech recognition - successively dividing conditions in original model into temporal and contextual domains to form hidden Markow network using max. likelihood method
    EP1159733B1 (en) Method and array for determining a representative phoneme
    EP1282897B1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
    DE19920501A1 (en) Speech reproduction method for voice-controlled system with text-based speech synthesis has entered speech input compared with synthetic speech version of stored character chain for updating latter
    EP1005694B1 (en) Method for determining a representative of a speech unit of a language from a voice signal comprising phonetical sections
    EP1435087B1 (en) Method for producing reference segments describing voice modules and method for modelling voice units of a spoken test model
    DE60021666T2 (en) Incremental training of a speech recognizer for a new language
    DE69723930T2 (en) Method and device for speech synthesis and data carriers therefor
    EP1039447B1 (en) Determination of regression classes tree structure for a speech recognizer
    DE60222413T2 (en) VOICE RECOGNITION
    DE19719381C1 (en) Computer based speech recognition method
    EP1076896A1 (en) Method and device enabling a computer to recognise at least one keyword in speech
    DE10042571C2 (en) Process for concatenative speech synthesis using graph-based building block selection with a variable evaluation function
    EP1170723A2 (en) Method for the computation of phoneme duration statistics and method for the determination of the duration of isolated phonemes for speech synthesis

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    17P Request for examination filed

    Effective date: 20000218

    AK Designated contracting states

    Kind code of ref document: A1

    Designated state(s): DE ES FR GB IT

    17Q First examination report despatched

    Effective date: 20000906

    RIC1 Information provided on ipc code assigned before grant

    Free format text: 7G 10L 13/06 A

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    RIC1 Information provided on ipc code assigned before grant

    Free format text: 7G 10L 13/06 A

    RTI1 Title (correction)

    Free format text: METHOD FOR DETERMINING A REPRESENTATIVE OF A SPEECH UNIT OF A LANGUAGE FROM A VOICE SIGNAL COMPRISING PHONETICAL SECTIONS

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): DE ES FR GB IT

    REF Corresponds to:

    Ref document number: 59801989

    Country of ref document: DE

    Date of ref document: 20011206

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: IF02

    GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

    Effective date: 20020114

    REG Reference to a national code

    Ref country code: ES

    Ref legal event code: FG2A

    Ref document number: 2167945

    Country of ref document: ES

    Kind code of ref document: T3

    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    26N No opposition filed
    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: FR

    Payment date: 20040716

    Year of fee payment: 7

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: ES

    Payment date: 20040719

    Year of fee payment: 7

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: GB

    Payment date: 20050707

    Year of fee payment: 8

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: IT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

    Effective date: 20050727

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050728

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: FR

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20060331

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: ST

    Effective date: 20060331

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20060727

    REG Reference to a national code

    Ref country code: ES

    Ref legal event code: FD2A

    Effective date: 20050728

    GBPC Gb: european patent ceased through non-payment of renewal fee

    Effective date: 20060727

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20070919

    Year of fee payment: 10

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: DE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20090203