EP1105867B1 - Procede et dispositif permettant de concatener des segments audio en tenant compte de la coarticulation - Google Patents

Procede et dispositif permettant de concatener des segments audio en tenant compte de la coarticulation Download PDF

Info

Publication number
EP1105867B1
EP1105867B1 EP99942891A EP99942891A EP1105867B1 EP 1105867 B1 EP1105867 B1 EP 1105867B1 EP 99942891 A EP99942891 A EP 99942891A EP 99942891 A EP99942891 A EP 99942891A EP 1105867 B1 EP1105867 B1 EP 1105867B1
Authority
EP
European Patent Office
Prior art keywords
band
audio segment
concatenation
audio
phone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP99942891A
Other languages
German (de)
English (en)
Other versions
EP1105867A1 (fr
Inventor
Christoph Buskies
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BUSKIES, CHRISTOPH
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE1998137661 external-priority patent/DE19837661C2/de
Application filed by Individual filed Critical Individual
Publication of EP1105867A1 publication Critical patent/EP1105867A1/fr
Application granted granted Critical
Publication of EP1105867B1 publication Critical patent/EP1105867B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Definitions

  • the invention relates to a method and a device for concatenation of audio segments for the generation of synthesized acoustic data, in particular synthesized Language.
  • the invention further relates to synthesized speech signals which are transmitted through the co-articulation-compatible concatenation of language segments were generated, as well as a data carrier that a computer program for the invention Generation of synthesized acoustic data, in particular synthesized Language, contains.
  • the invention relates to a data memory which contains audio segments which are used for co-articulation-compatible concatenation according to the invention are suitable, and one Sound carrier which contains acoustic data synthesized according to the invention.
  • data-based speech synthesis is increasingly being carried out at the corresponding segments from a database comprising individual language segments selected and linked together (concatenated).
  • the speech quality depends primarily on the number and type of available language segments, because only speech can be synthesized by using speech segments in the database play back.
  • a link (concatenation) of the language segments perform according to complex rules.
  • an inventory i.e. a database comprising the voice audio segments is used, that is complete and manageable.
  • An inventory is complete if it has any phonetic sequence of the language to be synthesized, and is manageable if the number and type of data of the inventory with the technically available means in one can be processed as desired.
  • such a procedure ensure that the concatenation of the individual inventory elements is synthesized Language generates that differ from a naturally spoken language if possible differs little.
  • a synthesized language must be fluid and the same have articulatory effects of a natural language.
  • co-articulatory effects i.e. the mutual influence of Speech sounds, a special meaning too.
  • the inventory items should look like this be the co-articulation of individual consecutive speech sounds consider. Furthermore, a procedure for concatenating the inventory elements, the elements taking into account the co-articulation of individual consecutive Speech sounds and the higher-level co-articulation of several consecutive Link speech sounds, also across word and sentence boundaries.
  • WO 95/30193 describes a method and an apparatus for converting text into audible speech signals using a neural network.
  • the text to be converted into language is converted into a sequence of Phonemas converted, with additional information about the syntactic boundaries of the text and the emphasis on the individual syntactic components of the text be generated.
  • These are forwarded together with the phonemes to a facility, which determines the duration of the pronunciation of the individual phonemes based on rules.
  • a processor generates each individual phoneme in conjunction with the corresponding one syntactical and temporal information a suitable input for the neural Network, this input also being the corresponding one for the neural network includes prosodic information for the entire phoneme sequence.
  • the neural network selects from the available audio segments the one that matches the entered phonemes best play, and chains these audio segments accordingly.
  • the individual audio segments are linked in terms of their duration and overall amplitude and frequency to upstream and downstream audio segments taking into account the Prosodic information adapted to the language to be synthesized and temporally sequentially linked together. A change in individual areas of the Audio segments are not described here.
  • the neural is used to generate the audio segments required for this method Train first by using naturally spoken language in Phone or Phon sequences is subdivided and phonemes corresponding to these phones or phoneme sequences or phoneme sequences in the form of audio segments. Because this procedure only a change of individual audio segments, but no change individual areas of an audio segment, the neural network must as many different phones or phone sequences as possible can be trained to any Convert text into synthesized natural sounding language. This can vary depending on Design use case very complex. On the other hand, an inadequate one Training process of the neural network the quality of the speech to be synthesized influence negatively. Furthermore, it is not the case with the method described here possible, the concatenation moment of the individual audio segments depending on the upstream or downstream audio segments to determine a co-articulation To carry out concatenation.
  • No. 5,524,172 describes a device for generating synthesized speech, which uses the so-called diphone method.
  • a text that is in synthesized language is to be converted into phoneme sequences, with each phoneme sequence corresponding prosodic information.
  • From a database that Includes audio segments in the form of diphones two for each phoneme in the sequence selected the phoneme reproducing diphone and taking into account the corresponding prosodic information concatenated.
  • the two diphones each weighted using a suitable filter and the duration and the pitch of both diphones changed so that when the diphones are concatenated a synthesized phoneme is generated, the duration and pitch of the duration and pitch corresponds to the desired phoneme sequence.
  • the concatenation moment In concatenation, the individual Diphone added in such a way that a temporally back area of a first diphone and overlap a temporally front area of a second diphone, the concatenation moment generally lies in the area of the stationary areas of the individual diphones (see Figure 2a). Since a variation of the concatenation moment taking into account the Coarticulation of successive audio segments (diphones) is not provided here, can the quality (naturalness and intelligibility) of such a synthesized language be adversely affected.
  • the database provides audio segments, which differ slightly, but are suitable for synthesizing the same phoneme are. In this way, the natural variation of the language is to be replicated to to achieve a higher quality of the synthesized language.
  • Both the use the smoothing filter as well as the selection from a number of different audio segments to implement a phoneme requires implementation of this method high computing power of the system components used. It also increases the size of the database due to the increased number of intended audio segments. Furthermore, this method is also a co-articulation-dependent choice of the concatenation moment of individual audio segments is not provided, whereby the Quality of the synthesized language can be reduced.
  • DE 693 18 209 T2 deals with formant synthesis.
  • this document become two polyphonic sounds using an interpolation mechanism connected to one another on a last phoneme of a preceding sound and on a first phoneme of a downstream sound is used, the two phonemes of the two sounds are the same and the connected sounds make up a phoneme be overlaid.
  • the two phonemes describing the two phonemes are superimposed Curves weighted with a weighting function.
  • the weighting function is applied to each phoneme in an area immediately after the start of the Phoneme begins and ends immediately before the end of the phoneme.
  • the phonemes that form the transition between the sounds essentially the respective ones entire phonemes.
  • the moment of concatenation becomes two Loud so determined that the last phoneme in the preceding sound and the first Completely overlap the phoneme in the downstream sound.
  • DE 689 15 353 T2 is an improvement in sound quality wants to achieve by specifying a procedure such as the transition between two adjacent samples are to be designed. This is especially true at low Sampling rates relevant.
  • the speech synthesis described in this document uses waveforms reproduce the sounds to be concatenated.
  • waveforms for upstream A corresponding end sample value and an assigned zero crossing point become loud determined, while for waveforms for downstream sounds a first upper sample value and an assigned zero crossing point is determined.
  • Dependency of these specific samples and the assigned zero crossing points sounds are connected to each other in a maximum of four different ways.
  • the Number of connection types is reduced to two when using the waveforms of the Nyquist theorem.
  • DE 689 15 353 T2 describes that the range of waveforms used varies between the last sample of the upstream waveform and the first sample of the downstream waveform extends. A variation in the duration of the areas used depending on the Concatenating wet shapes, as is the case with the invention, is not in DE 689 15 353 T1 described.
  • a temporal end range of the temporally upstream language segment and a temporal beginning area of the temporally downstream Language segments are edited or adapted to each other so that - under Consideration of the text to be synthesized - transitions sounding as natural as possible be generated. Information about how the start and end time ranges cannot be found in this document.
  • a method and a corresponding one To provide device that addresses the problems of the prior art eliminate and generate synthesized acoustic data, especially synthesized Speech data, enable that for a listener not from the corresponding distinguish between natural acoustic data, in particular naturally spoken language.
  • the acoustic data synthesized by the invention, in particular synthesized Speech data should have an authentic acoustic quality, especially one have authentic speech quality.
  • the invention provides a method according to claim 1 Device according to claim 16 synthesized speech signals according to claim 47, one A data carrier according to claim 33, as well a sound carrier according to claim 58.
  • the invention enables synthesized generate acoustic data that reproduce a sequence of sounds by at the concatenation of audio segment areas the moment of concatenation of two Audio segment areas depending on properties of the audio segment areas to be linked, in particular those relating to the two audio segment areas Coarticulation effects is determined.
  • the concatenation moment is according to the present Invention preferably in the vicinity of the boundaries of the solo articulation area selected. In this way, a voice quality is achieved with the prior art is not achievable.
  • the invention sees a different Selection of the audio segment areas and different types of co-articulation Concatenation before. So a higher degree of naturalness of the synthesized acoustic data achieved when a temporally downstream audio segment area, the beginning of which reproduces a static sound, with a temporal one Audio segment area is connected by means of a crossfade, or if a downstream audio segment area, the beginning of which is a dynamic sound reproduces, with a temporally preceding audio segment area by means of a hardfade is connected.
  • the invention enables the number of data synthesis necessary Reduce audio segment areas by using audio segment areas that always start playing a dynamic sound, making everyone Concatenations of these audio segment areas are carried out using a hardfade can be. For this, downstream audio segment areas are also recorded with time connected upstream audio segment areas, the beginnings of which each have a dynamic Play out loud. This way, even with low computing power (e.g. in answering machines or car control systems) synthesized according to the invention high quality acoustic data are generated.
  • the invention also provides for the simulation of acoustic phenomena that occur as a result of mutual interaction of individual segments corresponding to natural ones acoustic data result.
  • individual audio segments are provided here or individual areas of the audio segments with the help of suitable functions to edit.
  • the frequency, the duration, the amplitude or the spectrum of the audio segments are changed.
  • prosodic information is preferably used to solve this task and / or higher-level co-articulation effects are taken into account.
  • the signal curve of synthesized acoustic data can also be improved, if the concatenation moment at the locations of the individual audio segment areas to be linked is placed on which the two areas used with regard one or more suitable properties.
  • These properties can include be: zero, amplitude value, slope, derivative of any degree, Spectrum, pitch, amplitude value in a frequency range, volume, language style, Speech emotion, or other properties considered in the sound classification scheme.
  • the invention makes it possible to select the audio segment areas Generation of the synthesized acoustic data and improve their concatenation more efficiently by using heuristic knowledge that the Selection, editing, variation and concatenation of the audio segment areas concerned.
  • audio segment areas are preferred be used, the lute / phone or parts of sound sequences / phone sequences play.
  • the invention allows the use of the synthesized acoustic generated Data by converting this data into acoustic signals and / or voice signals and / or can be stored on a data carrier.
  • the invention can be used to generate synthesized speech signals To make it stand out from known synthesized speech signals differ in that they do not differ in their naturalness and intelligibility from real ones Distinguish language.
  • audio segment areas become coarticulation-friendly concatenated, the parts of the sound sequence / phoneme of the language to be synthesized play back by the areas of the audio segments to be used as well as the moment the concatenation of these areas according to the invention as defined in claim 28 be determined.
  • An additional improvement in the synthesized language can be achieved if a temporally downstream audio segment area, the beginning of which is a static sound or reproduces a static phone, with a temporally preceding audio segment area is connected by means of a crossfade, or if a later one Audio segment area, the beginning of which is a dynamic sound or a dynamic Phon reproduces, with a temporally preceding audio segment area by means of a Hardfades is connected.
  • a quick and efficient procedure is particularly important when generating synthesized speech desirable.
  • coarticulation-compatible methods according to the invention Always carry out concatenations using hard fades, whereby only audio segment areas are used, the beginnings of which are always dynamic Play loud or dynamic phone.
  • Such audio segment areas can with the invention by co-articulating concatenation of corresponding audio segment areas generated beforehand.
  • the invention provides speech signals which allow a natural flow of speech, Speech melody and speech rhythm have preceded by audio segment areas respectively and / or after concatenation in its entirety or in individual areas Can be edited using suitable functions.
  • This variation is particularly advantageous additionally in areas where the corresponding moments of the Concatenations are, among other things, the frequency, duration, amplitude or spectrum too change.
  • An additionally improved signal curve can be achieved if the concatenation moments in places of the audio segment areas to be linked where these in one or more suitable. Properties match.
  • Speech signals by known methods or devices, e.g. a CD player, to allow, it is particularly preferable that the speech signals in acoustic signals can be converted or stored on a data carrier.
  • a data carrier which contains a computer program which carries out the implementation of the invention Method or control of the device according to the invention and its allows various embodiments. Furthermore, the invention allows Data carriers also generate voice signals that are co-articulating Have concatenations.
  • a data memory can be provided which contains audio segments which are suitable are concatenated to acoustic data synthesized according to the invention become.
  • a data carrier preferably contains audio segments for implementation of the inventive method, for use in the inventive Device or the data carrier according to the invention are suitable. Alternatively, you can the data carrier also comprise voice signals according to the invention.
  • the invention enables synthesized acoustic according to the invention
  • data in particular synthesized voice data
  • conventional known devices for example a tape recorder, a CD player or a PC audio card
  • a sound carrier is provided for this, of the data, at least partially with the inventive method or the device according to the invention or using the device according to the invention
  • Data carrier or the data memory according to the invention were generated,
  • the sound carrier can also contain data which, according to the invention, is compatible with the articulation are concatenated speech signals.
  • the sounds / phones to be synthesized become an input unit 101 of the device 1 for generating synthesized speech data and in a first storage unit 103 stored (see Figure 1a).
  • a selection device 105 are made an inventory containing audio segments (elements), which is stored in a database 107 stored, or by an upstream synthesis device 108 (which is not part of of the invention) the audio segment areas are selected, the lute or phone or reproduce parts of sounds or phones that the individual entered Correspond to phonetic signs or phonemes or parts thereof and in an order, which corresponds to the order of the entered phonetic signs or phonemes, in one second storage unit 109 stored.
  • the selection device selects 105 preferably the audio segments that make up most parts of sound sequences or play back from polyphones that are a sequence of sound signals or phonemes from the entered phonetic string or phoneme sequence, so that a Minimum number of audio segments for the synthesis of the entered phoneme sequence is needed.
  • the database 107 or the upstream synthesis device 108 provides an inventory with audio segments of different types available, so the selector selects 105 preferably the longest audio segment areas, the parts of the sound sequence / phoneme sequence play back to the entered sequence of sounds or phoneme and / or a sequence of sounds / phones from a minimal number of audio segment areas to synthesize.
  • it is advantageous to play chained sounds / phone To use audio segment areas that have a static upstream Play loud / phon and a dynamic sound / phon downstream. So arise audio segments due to the embedding of the dynamic lute / phone always start with a static sound / phon. This simplifies and unifies the procedure for concatenations of such audio segments, since this is only crossfades are needed.
  • an audio segment area for synthesizing the end of the entered sound sequence / phoneme sequence an audio segment area is to be used from the inventory choose that reproduces one end of a sound sequence / phoneme sequence and with a preceding one To concatenate audio segment area (see Figure 3e and step 8 in Figure 4).
  • the individual audio segments are stored in coded form in the database 107, whereby the coded form of the audio segments in addition to the waveform of the respective audio segment can specify which parts of sound sequences / sound sequences the respective audio segment shows the type of concatenation (e.g. hardfade, linear or exponential Crossfade) with which temporally subsequent audio segment range and at what moment the concatenation with which temporally following Audio segment area takes place.
  • the encoded form contains the Audio segments also provide information regarding prosody, superordinate co-articulations and transition functions that are used to make an additional improvement to achieve the voice quality.
  • the characteristics of the audio segment areas upstream e.g. Concatenation type and concatenation moment.
  • the chaining takes place two consecutive audio segment areas with the help of the concatenation device 111 as follows.
  • the waveform, the type of concatenation, the Concatenation moment and possibly additional information of the first audio segment area and the second audio segment area from the database or the synthesis device ( Figure 3b and steps 10 and 11) loaded.
  • audio segment areas mentioned above selected such audio segment areas those regarding their type of concatenation and their concatenation moment to each other fit. In this case, the loading of information regarding the type of concatenation and the concatenation moment of the second audio segment area is not more necessary.
  • the waveform of the first Audio segment area in a temporally back area and the waveform of the second audio segment area in a temporally front area each with suitable Edited transition functions, e.g. with a suitable weighting function multiplied (see Figure 3b, steps 12 and 13).
  • suitable Edited transition functions e.g. with a suitable weighting function multiplied
  • the lengths of the back area of the first audio segment area and the temporally front area of the second Audio segment area result from the type of concatenation and temporal position the concatenation moment, these lengths also in the coded form of the audio segments can be stored in the database.
  • the two audio segment areas are to be linked with a crossfade, they become added overlapping according to the respective concatenation moment (see figures 3bl, 3cI, 3dI and 3eI, step 15).
  • a linear symmetric is preferred To use crossfade, but it can also be any other type of crossfade or any kind of transition functions can be used.
  • the two audio segment areas do not overlap connected in series (see Figure 3bII, 3cII, 3dll and 3ell, step 15).
  • the two audio segment areas become temporally immediate arranged one behind the other.
  • the synthesized speech data thus generated To be able to process them further, they are preferably stored in a third memory unit 115 filed
  • step 16 For the further chaining with subsequent audio segment areas, the so far considered chained audio segment areas as the first audio segment area (step 16) and the chaining process described above is repeated until the entire Phonetic sequence / phonetic sequence was synthesized.
  • the prosodic and additional information in addition to the phonetic order can be entered when concatenating the audio segment areas consider.
  • the frequency, duration, amplitude and / or spectral properties of the audio segment regions before and / or after them Concatenation are changed so that the synthesized speech data a natural Have word and / or sentence melody (steps 14, 17 or 18). It is preferable here to choose concatenation moments at points of the audio segment areas which match these in one or more suitable properties.
  • the processing of the two audio segment areas with the help suitable functions in the area of the concatenation moment are provided, e.g. adapt the frequencies, durations, amplitudes and spectral properties.
  • suitable functions in the area of the concatenation moment are provided, e.g. adapt the frequencies, durations, amplitudes and spectral properties.
  • superordinate acoustic phenomena real language such as overarching co-articulation effects or language style (e.g. whispering, Emphasis, singing voice, falsetto, emotional expression) in the synthesis the phonetic sequence / phonetic sequences.
  • information such superordinate phenomena concern, additionally in coded form with the corresponding ones Audio segments saved, so when selecting the audio segment areas to choose only those that match the overall co-articulation properties of the temporal correspond to upstream and / or downstream audio segment areas.
  • the synthesized speech data thus generated preferably has a form that it using an output unit 117, which converts the speech data into acoustic Convert voice signals and the voice data and / or voice signals on one to store acoustic, optical, magnetic or electrical data carriers (Step 19).
  • inventory elements are made up of real spoken words Language creates.
  • his ability to control the language to be recorded e.g. pitch control the language or speak exactly at one pitch
  • the quality of a language to be synthesized be significantly improved.
  • this invention has been described using the example of speech synthesis, the invention is not limited to the area of synthesized language, but can Synthesis of any acoustic data or any sound events used become. Therefore, this invention is also for the production and / or provision of synthesized speech data and / or speech signals for any languages or dialects as well as for the synthesis of music.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)
  • Photoreceptors In Electrophotography (AREA)
  • Document Processing Apparatus (AREA)
  • Circuits Of Receivers In General (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Claims (59)

  1. Procédé de concaténation, conforme au principe de coarticulation, de segments audio afin de produire des données acoustiques synthétisées reproduisant une suite de sons concaténés, selon les étapes suivantes:
    détermination d'au moins deux segments audio possédant des parties qui chacune reproduit une partie d'un son ou de la suite de sons, caractérisé par les étapes:
    établissement d'une zone à exploiter dans un segment audio mémorisé antérieurement,
    établissement d'une zone à exploiter dans un segment audio mémorisé postérieurement qui débute immédiatement avant la zone à exploiter dans le segment audio mémorisé postérieurement et se termine avec la zone de coarticulation qui suit la zone d'articulation solo premièrement exploitée dans le segment audio mémorisé postérieurement,
    où la durée et l'état de la zone à exploiter sont déterminés en fonction des segments audio mémorisés antérieurement et postérieurement, et
    concaténation de la zone établie dans le segment audio mémorisé antérieurement avec la zone établie dans le segment audio mémorisé postérieurement en ce que le moment de la concaténation se situe, en fonction de caractéristiques de la zone exploitée dans le segment audio mémorisé postérieurement, dans sa zone, qui commence immédiatement avant la zone à exploiter dans 1c segment audio mémorisé postérieurement et se termine avec cela.
  2. Procédé selon la revendication 1, caractérisé par le fait que:
    le moment de la concaténation est établi dans une zone qui, d'un point de vue du temps, se situe aux abords des limites de la zone d'articulation solo à exploiter premièrement dans le segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son statique, et
    une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Crossfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
  3. Procédé selon la revendication 1, caractérisé par le fait que:
    le moment de la concaténation est établi dans une zone qui, d'un point de vue du temps, se situe immédiatement avant la zone à exploiter du segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son dynamique, et
    une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Hardfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
  4. Procédé selon l'une des revendications 1 à 3, caractérisé par le fait que:
    pour un son ou une suite de sons concaténés, une zone d'un segment audio est déterminée au commencement de la suite de sons concaténés de manière à ce que le commencement de cette zone reproduise les caractéristiques du commencement de la suite de sons concaténés.
  5. Procédé selon l'une des revendications 1 à 4, caractérisé par le fait que:
    pour un son ou une suite de sons concaténés, une zone d'un segment audio est déterminée à la fin de la suite de sons concaténés de manière à ce que la fin de cette zone reproduise les caractéristiques de la fin de la suite de sons concaténés.
  6. Procédé selon l'une des revendications 1 à 5, caractérisé par le fait que:
    que les données de langage à synthétiser sont résumées en groupes qui chacun sont décrits par un segment audio.
  7. Procédé selon l'une des revendications 1 à 6, caractérisé par le fait que:
    pour un segment audio mémorisé postérieurement, une zone d'un segment audio est déterminée, qui reproduit le plus grand nombre de parties de sons de la suite de sons se succédant l'une après l'autre afin d'utiliser pour la production des données acoustiques synthétisées le plus petit nombre de zones de segments audio possible.
  8. Procédé selon l'une des revendications 1 à 7, caractérisé par le fait que:
    un traitement des zones à exploiter des segments audio à l'aide de fonctions appropriées est réalisé en fonction de caractéristiques de la suite de sons concaténés. Cela peut être une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
  9. Procédé selon l'une des revendications 1 à 8, caractérisé par le fait que:
    un traitement des zones à exploiter des segments audio à l'aide de fonctions appropriées est réalisé dans une zone où se situe le moment de la concaténation. Cela peut être une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
  10. Procédé selon l'une des revendications 1 à 9, caractérisé par le fait que:
    le moment de la concaténation se situe à des endroits, dans les zones à exploiter dans les segments audio mémorisés antérieurement et/ou postérieurement, où les deux zones correspondent l'une à l'autre du point de vue d'une ou de plusieurs caractéristiques appropriées. Ces caractéristiques peuvent être: le point zéro, valeur d'amplitude, rapport d'inclinaison, dérivation d'un degré quelconque, spectre, hauteur, valeur d'amplitude dans une zone de fréquences, puissance sonore, style de langage, émotion ou tout autre caractéristique considérée d'un point de vue d'un schéma de classification des sons.
  11. Procédé selon l'une des revendications 1 à 10 caractérisé par le fait que:
    la détermination des zones à exploiter dans les segments audio, leur traitement, leur variation de même que leur concaténation est réalisée en plus avec l'utilisation de connaissances heuristiques qui sont acquises au travers d'un procédé heuristique réalisé supplémentairement.
  12. Procédé selon l'une des revendications 1 à 11, caractérisé par le fait que:
    les données acoustiques à synthétiser sont des données de langage et les sons sont des phones.
  13. Procédé selon l'une des revendications 2 à 12, caractérisé par le fait que:
    les sons statiques comprennent voyelles, diphtongues, liquides, vibrantes, fricatives et nasales.
  14. Procédé selon l'une des revendications 3 à 13, caractérisé par le fait que:
    les sons dynamiques comprennent occlusives, affricatives, coups de glotte et sons frappés.
  15. Procédé selon l'une des revendications 1 à 14, caractérisé par le fait que:
    une transformation des données acoustiques synthétisées en signaux acoustique et/ou signaux de langage se produit.
  16. Dispositif de concaténation, conforme au principe de coarticulation, de segments audio pour la production de données acoustiques synthétisées qui reproduissent une suite de sons avec:
    une banque de données (107), dans laquelle sont mémorisés des segments audio qui reproduissent pour chacun d'eux des zones d'un son ou d'une suite de sons
    et/ou un dispositif de synthèse (108) quelconque connecté en amont et qui livre des segments audio,
    un dispositif (105) permettant de détenniner au moins deux segments audio dans la banque de données (107) et/ou le dispositif de synthèse (108) connecté en amont, et
    un dispositif de concaténation (111) des segments audio, caractérisé par le fait que ce dispositif de concaténation (111) est destiné pour,
    définir une zone à exploiter dans un segment audio mémorisé antérieurement,
    définir une zone à exploiter dans un segment audio mémorisé postérieurement, dans une zone qui commence avec le segment audio mémorisé postérieurement et se termine avec la zone de coarticulation dans le segment audio mémorisé postérieurement qui suit la zone d'articulation solo premièrement exploitée,
    déterminer la durée et le statut des zones à exploiter en fonction des segments audio mémorisés antérieurement et postérieurement, et
    concaténer la zone á exploiter dans le segment mémorisé postérieurement avec la zone á exploiter dans le segment mémorisé antérieurement par détermination du moment de la concaténation en fonction de caractéristiques de la zone à exploiter dans le segment mémorisé postérieurement dans une zone qui commence immédiatement avant la zone exploitée dans le segment audio mémorisé postérieurement et se termine avec cela.
  17. Dispositif selon la revendication 16 caractérisé par le fait que le dispositif de concaténation (111) comprend:
    des dispositifs pour la concaténation de la zone exploitée dans le segment audio mémorisé antérieurement avec la zone exploitée dans le segment audio mémorisé postérieurement, dont la zone exploitée reproduit au début un son statique, aux abords des limites de la zone d'articulation solo premièrement apparue dans la zone exploitée dans le segment audio mémorisé postérieurement avec des fonctions de transition appropriées,
    des dispositifs pour le traitement d'une zone postérieure de la zone exploitée dans le segment audio mémorisé antérieurement et d'une zone antérieure de la zone exploitée dans le segment audio mémorisé postérieurement avec des fonctions de transition appropriées, et
    des dispositifs pour l'addition par recouvrement des deux zones en une zone de transition (cross fade) en fonction des segments audio à concaténer, et où les fonctions de transition et la durée d'une zone de transition des deux zones sont déterminées en fonction des données acoustiques à synthétiser.
  18. Dispositif selon la revendication 16 ou 17 caractérisé par le fait que
    le dispositif de concaténation (111) comprend:
    des dispositifs pour la concaténation de la zone exploitée dans le segment audio mémorisé antérieurement avec la zone exploitée dans le segment audio mémorisé postérieurement dont la zone exploitée reproduit au début un son dynamique immédiatement avant la zone exploitée dans le segment audio mémorisé postérieurement,
    des dispositifs pour le traitement d'une zone postérieure de la zone exploitée dans le segment audio mémorisé antérieurement et d'une zone antérieure de la zone exploitée dans le segment audio mémorisé postérieurement avec des fonctions de transition appropriées, et où les fonctions de transition sont déterminées en fonction des données acoustiques à synthétiser, et
    des dispositifs pour une liaison sans recouvrement des segments audio.
  19. Dispositif selon l'une des revendications 16 à 18 caractérisé par le fait que
    la banque de données (107) comprend des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio qui possédent des zones, dont le début reproduit un son ou une partie de la suite de sons concaténés au début de la suite de sons concaténés.
  20. Dispositif selon l'une des revendications 16 à 19 caractérisé par le fait que
    la banque de données (107) comprend des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio qui possédent des zones, dont la fin reproduit un son ou une partie de la suite de sons concaténés à la fin de la suite de sons concaténés.
  21. Dispositif selon l'une des revendications 16 à 19 caractérisé par le fait que
    la banque de données (107) comprend une groupe des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio qui possédent des zones, dont les commencements ne reproduisent, pour chacun d'eux, qu'un son statique.
  22. Dispositif selon l'une des revendications 16 à 21 caractérisé par le fait que
    le dispositif de concaténation (111) comprend:
    des dispositifs pour la production d'autres segments audio au travers de la concaténation de zones dans les segments audio où les commencements des zones, pour chacun d'eux, reproduisent un son statique avec chaque fois une zone dans un segment audio mémorisé postérieurement dont la zone exploitée reproduit au commencement un son dynamique, et
    un dispositif qui introduit les autres segments audio dans la banque de données (107) ou bien le dispositif de détermination (105).
  23. Dispositif selon l'une des revendications 16 à 22 caractérisé par le fait que
    le dispositif de détermination (105) est approprié à déterminer, au cours de la détermination des zones dans les segments audio dans la banque de données (107) ou bien dans le dispositif de synthèse (108), les zones dans les segments audio qui, pour chacune d'elles, reproduisent le plus de parties juxtaposées du son concaténé de la suite de sons concaténés.
  24. Dispositif selon l'une des revendications 16 à 23 caractérisé par le fait que
    le dispositif de concaténation (111) présente des dispositifs pour le traitement des zones exploitées dans les segments audio à l'aide de fonctions appropriées en fonction de caractéristiques de la suite de sons concaténés. Cela peut être une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
  25. Dispositif selon l'une des revendications 16 à 24 caractérisé par le fait que
    le dispositif de concaténation (111) présente des dispositifs pour le traitement des zones exploitées dans les segments audio à l'aide de fonctions appropriées dans une zone comprenant le moment de la concaténation. Cela peut être une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
  26. Dispositif selon l'une des revendications 16 à 25 caractérisé par le fait que:
    le dispositif de concaténation (111) présente des dispositifs pour la détermination du moment de la concaténation à un endroit dans la zone exploitée dans le segment audio mémorisés antérieurement et/ou postérieurement, où les deux zones correspondent l'une à l'autre du point de vue d'une ou de plusieurs caractéristiques appropriées. Ces caractéristiques peuvent être: le point zéro, valeur d'amplitude, rapport d'inclinaison, dérivation d'un degré quelconque, spectre, hauteur, valeur d'amplitude dans une zone de fréquences, puissance sonore, style de langage, émotion ou tout autre caractéristique considérée d'un point de vue d'un schéma de classification des sons.
  27. Dispositif selon l'une des revendications 16 à 26 caractérisé par le fait que:
    le dispositif de détermination (105) comprend des dispositifs pour l'implémentation de connaissances heuristiques qui concernent la détermination des zones exploitées dans les segments audio, leur traitement, leur variation, de même que leur concaténation.
  28. Dispositif selon l'une des revendications 16 à 27 caractérisé par le fait que:
    la banque de données (107) contient des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio qui contiennent des zones qui, pour chacune d'elles, reproduissent au moins une partie d'un son, ou respectivement d'un phone, un son, ou respectivement un phone, des parties de suites de sons, ou respectivement de polyphones, ou bien de suites de sons, ou respectivement de polyphones.
  29. Dispositif selon l'une des revendications 17 à 28 caractérisé par le fait que:
    la banque de données (107) contient des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio, où un son statique comprend un phone statique et comprend voyelles, diphtongues, liquides, vibrantes, fricatives et nasales.
  30. Dispositif selon l'une des revendications 18 à 29 caractérisé par le fait que:
    la banque de données (107) contient des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio, où un son dynamique comprend un phone dynamique et comprend occlusives, affricatives, coups de glotte et sons frappés.
  31. Dispositif selon l'une des revendications 16 à 30 caractérisé par le fait que:
    le dispositif de concaténation (111) est approprié à produire des données de langage synthétisées au travers de la concaténation de segments audio.
  32. Dispositif selon l'une des revendications 16 à 31 caractérisé par le fait que:
    des dispositifs (117) pour la transformation des données acoustiques synthétisées en signaux acoustiques et/ou signaux de langage sont disponibles.
  33. Support de stockage de données qui contient un programme informatique pour la concaténation, de manière conforme au principe de coarticulation, de segments audio, afin de produire des données acoustiques synthétisées reproduisant une suite de sons concaténés, selon les étapes suivantes:
    détermination d'au moins deux segments audio possédant des parties qui chacune reproduit une partie d'un son ou de la suite de sons, caractérisé par les étapes:
    établissement d'une zone à exploiter dans un segment audio mémorisé antérieurement,
    établissement d'une zone à exploiter dans un segment audio mémorisé antérieurement,
    établissement d'une zone à exploiter dans un segment audio mémorisé postérieurement qui débute immédiatement avant le segment audio mémorisé postérieurement et se termine avec la zone de coarticulation qui suit la zone d'articulation solo premièrement exploitée dans le segment audio mémorisé postérieurement,
    où la durée et l'état de la zone à exploiter sont déterminés en fonction des segments audio mémorisés antérieurement et postérieurement, et
    concaténation de la zone établie dans le segment audio mémorisé antérieurement avec la zone établie dans le segment audio mémorisé postérieurement en ce que le moment de la concaténation se situe, en fonction de caractéristiques de la zone exploitée dans le segment audio mémorisé postérieurement, dans sa zone, qui commence immédiatement avant la zone à exploiter dans le segment audio mémorisé postérieurement et se termine avec cela.
  34. Support de stockage de données selon la revendication 33, caractérisé par le fait que:
    le programme informatique choisit le moment de la concaténation de la zone exploitée dans le deuxième segment audio avec la zone exploitée dans le premier segment audio de manière à ce que:
    le moment de la concaténation est établi dans une zone qui, d'un point de vue du temps, se situe aux abords des limites de la zone d'articulation solo à exploiter premièrement dans le segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son statique, et
    une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Crossfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
  35. Support de stockage de données selon la revendication 33 ou 34, caractérisé par le fait que:
    le programme informatique choisit le moment de la concaténation de la zone exploitée dans le deuxième segment audio avec la zone exploitée dans le premier segment audio de manière à ce que:
    le moment de la concaténation est établi dans une zone qui, d'un point de vue du temps, se situe immédiatement avant la zone à exploiter du segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son dynamique, et
    une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Hardfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
  36. Support de stockage de données selon l'une des revendications 33 à 35, caractérisé par le fait que:
    le programme informatique pour un son ou une suite de sons concaténés, une zone d'un segment audio est déterminée au commencement de la suite de sons concaténés de manière à ce que le commencement de cette zone reproduise les caractéristiques du commencement de la suite de sons concaténés.
  37. Support de stockage de données selon l'une des revendications 33 à 36, caractérisé par le fait que:
    le programme informatique pour un son ou une suite de sons concaténés, une zone d'un segment audio est déterminée à la fin de la suite de sons concaténés de manière à ce que la fin de cette zone reproduise les caractéristiques de la fin de la suite de sons concaténés.
  38. Support de stockage de données selon l'une des revendications 33 à 37, caractérisé par le fait que:
    le programme informatique réalise un traitement des zones à exploiter des segments audio à l'aide de fonctions appropriées en fonction de caractéristiques de la suite de sons concaténés. Cela peut être, entre autres, une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
  39. Support de stockage de données selon l'une des revendications 33 à 38, caractérisé par le fait que:
    le programme informatique détermine pour un segment audio mémorisé postérieurement, une zone d'un segment audio, qui reproduit le plus grand nombre de parties de sons de la suite de sons se succédant l'une après l'autre afin d'utiliser pour la production des données acoustiques synthétisées le plus petit nombre de zones de segments audio possible.
  40. Support de stockage de données selon l'une des revendications 33 à 39, caractérisé par le fait que:
    le programme informatique réalise un traitement des zones à exploiter des segments audio à l'aide de fonctions appropriées dans une zone où se situe le moment de la concaténation. Cela peut être, entre autres, une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
  41. Support de stockage de données selon l'une des revendications 33 à 40, caractérisé par le fait que:
    le programme informatique situe le moment de la concaténation à des endroits, dans les zones à exploiter dans les segments audio mémorisés antérieurement et/ou postérieurement, où les deux zones correspondent l'une à l'autre du point de vue d'une ou de plusieurs caractéristiques appropriées. Ces caractéristiques peuvent, entre autres, être: le point zéro, valeur d'amplitude, rapport d'inclinaison, dérivation d'un degré quelconque, spectre, hauteur, valeur d'amplitude dans une zone de fréquences, puissance sonore, style de langage, émotion ou tout autre caractéristique considérée d'un point de vue d'un schéma de classification des sons
  42. Support de stockage de données selon l'une des revendications 33 à 41, caractérisé par le fait que:
    le programme informatique réalise une implémentation de connaissances heuristiques qui concernent la détermination des zones exploitées dans les segments audio, leur traitement, leur variation, de même que leur concaténation.
  43. Support de stockage de données selon l'une des revendications 33 à 42, caractérisé par le fait que:
    le programme informatique est approprié pour la production de données de langage synthétisées, où les sons sont des phones.
  44. Support de stockage de données selon l'une des revendications 34 à 42, caractérisé par le fait que:
    le programme informatique est approprié pour la production de sons statiques, où les sons statiques comprennent voyelles, diphtongues, liquides, vibrantes, fricatives et nasales.
  45. Support de stockage de données selon l'une des revendications 35 à 44, caractérisé par le fait que:
    le programme informatique est approprié pour la production de sons dynamiques, et les sons dynamiques comprennent occlusives, affricatives, coups de glotte et sons frappés.
  46. Support de stockage de données selon l'une des revendications 33 à 45, caractérisé par le fait que:
    le programme informatique transforme les données acoustiques synthétisées en données acoustiquement et/ou les signaux de langage synthétisés transformables.
  47. Des signaux de langage synthétisés, qui se composent d'une suite de sons, ou respectivement de phones, et où les signaux de langage sont produits par le fait que:
    au moins deux des sons, ou respectivement des phones, reproduisant les segments audio sont déterminés, et
    les segments audio sont enchaínés au travers d'une concaténation conforme au principe de coarticulation, et où
    une zone à exploiter dans un segment audio mémorisé antérieurement est déterminée,
    une zone à exploiter dans un segment audio mémorisé postérieurement est déterminée, qui commence immédiatement avant le segment audio mémorisé postérieurement et se termine avec la zone de coarticulation qui suit la zone d'articulation solo premièrement exploitée, est établie,
    où la durée et le statut des zones à exploiter sont déterminés en fonction des segments audio, et
    les zones exploitées dans les segments audio sont concaténées de manière conforme au principe de coarticulation, en ce que le moment de la concaténation se situe, en fonction de caractéristiques de la zone exploitée dans le segment audio mémorisé antérieurement, hdans sa zone, qui commence immédiatement avant la zone à exploiter dans le segment audio mémorise postérieurement et se termine avec cela.
  48. Signaux de langage synthétisés selon la revendication 47, caractérisés par le fait que les signaux de langage sont produits en ce que,
    les segments audio sont concaténés à un moment qui se situe de manière appropriée, qui, d'un point de vue du temps, se situe aux abords des limites de la zone d'articulation solo à exploiter premièrement dans le segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son statique ou un phone statique, où un phone statique comprend une voyelle, une diphtongue, une liquide, une vibrante, une fricative ou une nasale, et
    une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Crossfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
  49. Signaux de langage synthétisés selon la revendication 47 ou 48, caractérisés par le fait que les signaux de langage sont produits en ce que,
    les segments audio sont concaténés à un moment qui se situe de manière appropriée, d'un point de vue du temps, se situe immédiatement avant la zone à exploiter du segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son dynamique respectivement un phone statique, où un phone dynamique comprend une occlusive, une affricative, un coup de glotte ou un son frappé, et
    une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Hardfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
  50. Signaux de langage synthétisés selon l'une des revendications 47 à 49 caractérisé par le fait que:
    le premier son, ou respectivement le premier phone, ou une partie de la première suite de sons, ou respectivement du premier polyphone, dans la suite est produit au travers d'un segment audio, dont la zone exploitée reproduit au commencement les caractéristiques du commencement de la suite.
  51. Signaux de langage synthétisés selon l'une des revendications 47 à 50 caractérisé par le fait que:
    le dernier son, ou respectivement le dernier phone, ou une partie de la dernière suite de sons,
    ou respectivcment du dernier polyphone, dans la suite est produit au travers d'un segment audio, dont la zone exploitée reproduit au commencement les caractéristiques du fin de la suite.
  52. Signaux de langage synthétisés selon l'une des revendications 47 à 51 caractérisé par le fait que:
    les zones de segments audio mémorisées postérieurement et commençant avec la reproduction d'un son, ou respectivement d'un phone, dynamique sont concaténées avec des zones dans les segments audio mémorisées antérieurement et commençant avec la reproduction d'un son, ou respectivement d'un phone, statique.
  53. Signaux de langage synthétisés selon l'une des revendications 47 à 52 caractérisé par le fait que:
    les zones de segments audio déterminées sont celles qui reproduisent lc plus possible de sons, ou respectivement de phones, de la suite afin d'exploiter, au cours de la production des signaux de langage, le plus petit nombre de zones de segments audio possible.
  54. Signaux de langage synthétisés selon l'une des revendications 47 à 53 caractérisé par le fait que:
    les signaux de langage sont produits par la concaténation des zones de segments audio exploitées, qui sont traitées, à l'aide de fonctions appropriées en fonction de caractéristiques de la suite de sons, ou respectivement de la suite de phones. Cela peut être, entre autres, une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
  55. Signaux de langage synthétisés selon l'une des revendications 47 à 54 caractérisé par le fait que:
    les signaux de langage sont produits par la concaténation des zones de segments audio exploitées, qui sont traitées, à l'aide de fonctions appropriées en fonction de caractéristiques de la suite de sons, ou respectivement de la suite de phones, dans une zone dans laquelle se situe le moment de la concaténation. Cela peut être, entre autres, une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
  56. Signaux de langage synthétisés selon l'une des revendications 47 à 55 caractérisé par le fait que:
    le moment de la concaténation se situe dans un endroit approprié dans les zones exploitées dans les segments audio mémorisés antérieurement et/ou postérieurement, où les deux zones correspondent l'une à l'autre du point de vue d'une ou de plusieurs caractéristiques appropriées. Ces caractéristiques peuvent, entre autres, être: le point zéro, valeur d'amplitude, rapport d'inclinaison, dérivation d'un degré quelconque, spectre, hauteur, valeur d'amplitude dans une zone de fréquences, puissance sonore, style de langage, émotion ou tout autre caractéristique considérée d'un point de vue d'un schéma de classification des sons.
  57. Signaux de langage synthétisés selon l'une des revendications 47 à 56 caractérisé par le fait que:
    les signaux de langage sont appropriés à être transformés en signaux acoustiques.
  58. Support audio qui contient des données qui sont, tout au moins en partie, des données acoustiques synthétisées et
    qui furent produites,
    avec un procédé selon revendication 1, ou
    avec un dispositif selon revendication 16, ou
    avec l'utilisation d'un support de données selon revendication 33,
    ou bien qui sont
    des signaux de langage selon revendication 47.
  59. Support audio selon revendication 58, caractérisé par le fait que:
    les données acoustiques synthétisées sont des signaux de langage.
EP99942891A 1998-08-19 1999-08-19 Procede et dispositif permettant de concatener des segments audio en tenant compte de la coarticulation Expired - Lifetime EP1105867B1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19837661 1998-08-19
DE1998137661 DE19837661C2 (de) 1998-08-19 1998-08-19 Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
PCT/EP1999/006081 WO2000011647A1 (fr) 1998-08-19 1999-08-19 Procede et dispositif permettant de concatener des segments audio en tenant compte de la coarticulation

Publications (2)

Publication Number Publication Date
EP1105867A1 EP1105867A1 (fr) 2001-06-13
EP1105867B1 true EP1105867B1 (fr) 2003-06-25

Family

ID=7878051

Family Applications (1)

Application Number Title Priority Date Filing Date
EP99942891A Expired - Lifetime EP1105867B1 (fr) 1998-08-19 1999-08-19 Procede et dispositif permettant de concatener des segments audio en tenant compte de la coarticulation

Country Status (7)

Country Link
US (1) US7047194B1 (fr)
EP (1) EP1105867B1 (fr)
AT (1) ATE243876T1 (fr)
AU (1) AU5623199A (fr)
CA (1) CA2340073A1 (fr)
DE (2) DE19861167A1 (fr)
WO (1) WO2000011647A1 (fr)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US7941481B1 (en) 1999-10-22 2011-05-10 Tellme Networks, Inc. Updating an electronic phonebook over electronic communication networks
US7308408B1 (en) * 2000-07-24 2007-12-11 Microsoft Corporation Providing services for an information processing system using an audio interface
DE10042571C2 (de) * 2000-08-22 2003-02-06 Univ Dresden Tech Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion
JP3901475B2 (ja) * 2001-07-02 2007-04-04 株式会社ケンウッド 信号結合装置、信号結合方法及びプログラム
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
DE102004044649B3 (de) * 2004-09-15 2006-05-04 Siemens Ag Verfahren zur integrierten Sprachsynthese
US20080154601A1 (en) * 2004-09-29 2008-06-26 Microsoft Corporation Method and system for providing menu and other services for an information processing system using a telephone or other audio interface
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8374868B2 (en) * 2009-08-21 2013-02-12 General Motors Llc Method of recognizing speech
US20110046957A1 (en) * 2009-08-24 2011-02-24 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
US9368104B2 (en) * 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
JP6428774B2 (ja) * 2014-07-02 2018-11-28 ヤマハ株式会社 音声制御装置、音声制御方法およびプログラム
RU2718418C2 (ru) * 2015-11-09 2020-04-02 Сони Корпорейшн Устройство декодирования, способ декодирования и программа
CN111145723B (zh) * 2019-12-31 2023-11-17 广州酷狗计算机科技有限公司 转换音频的方法、装置、设备以及存储介质
CN113066459B (zh) * 2021-03-24 2023-05-30 平安科技(深圳)有限公司 基于旋律的歌曲信息合成方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0727397B2 (ja) * 1988-07-21 1995-03-29 シャープ株式会社 音声合成装置
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
SE469576B (sv) 1992-03-17 1993-07-26 Televerket Foerfarande och anordning foer talsyntes
US5463715A (en) * 1992-12-30 1995-10-31 Innovation Technologies Method and apparatus for speech generation from phonetic codes
AU675389B2 (en) * 1994-04-28 1997-01-30 Motorola, Inc. A method and apparatus for converting text into audible signals using a neural network
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.

Also Published As

Publication number Publication date
AU5623199A (en) 2000-03-14
WO2000011647A1 (fr) 2000-03-02
CA2340073A1 (fr) 2000-03-02
ATE243876T1 (de) 2003-07-15
US7047194B1 (en) 2006-05-16
DE19861167A1 (de) 2000-06-15
EP1105867A1 (fr) 2001-06-13
DE59906115D1 (de) 2003-07-31

Similar Documents

Publication Publication Date Title
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
EP1105867B1 (fr) Procede et dispositif permettant de concatener des segments audio en tenant compte de la coarticulation
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE19610019C2 (de) Digitales Sprachsyntheseverfahren
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60216651T2 (de) Vorrichtung zur Sprachsynthese
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE112013005807T5 (de) Vorrichtung und Verfahren zur Erzeugung einer Echtzeitmusikbegleitung
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE60205421T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
EP0058130B1 (fr) Procédé pour la synthèse de la parole avec un vocabulaire illimité et dispositif pour la mise en oeuvre dudit procédé
EP1110203B1 (fr) Procede et dispositif de traitement numerique de la voix
JP3281266B2 (ja) 音声合成方法及び装置
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
EP1344211B1 (fr) Vorrichtung und verfahren zur differenzierten sprachausgabe
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
DE60316678T2 (de) Verfahren zum synthetisieren von sprache
DE19837661C2 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
JPH09179576A (ja) 音声合成方法

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20010319

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

17Q First examination report despatched

Effective date: 20010928

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: BUSKIES, CHRISTOPH

RIN1 Information on inventor provided before grant (corrected)

Inventor name: BUSKIES, CHRISTOPH

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030625

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

Effective date: 20030625

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030625

Ref country code: GB

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030625

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030625

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030625

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: GERMAN

REF Corresponds to:

Ref document number: 59906115

Country of ref document: DE

Date of ref document: 20030731

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030819

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030819

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030819

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20030829

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030831

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030831

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030831

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030925

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030925

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030925

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030925

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20031024

Year of fee payment: 5

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20031222

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

BERE Be: lapsed

Owner name: *BUSKIES CHRISTOPH

Effective date: 20030831

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20040326

EN Fr: translation not filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: ERR

Free format text: CORRECTION FOR CODE "EP GBV"

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20180831

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 59906115

Country of ref document: DE