DE02765393T1 - Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit - Google Patents

Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit Download PDF

Info

Publication number
DE02765393T1
DE02765393T1 DE02765393T DE02765393T DE02765393T1 DE 02765393 T1 DE02765393 T1 DE 02765393T1 DE 02765393 T DE02765393 T DE 02765393T DE 02765393 T DE02765393 T DE 02765393T DE 02765393 T1 DE02765393 T1 DE 02765393T1
Authority
DE
Germany
Prior art keywords
pitch
signal
speech
wave
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE02765393T
Other languages
English (en)
Inventor
Yasushi Sato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Publication of DE02765393T1 publication Critical patent/DE02765393T1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Signalerzeugende Vorrichtung, umfassend:
Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und
Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das jeweils mit den erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.

Claims (30)

  1. Signalerzeugende Vorrichtung, umfassend: Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das jeweils mit den erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
  2. Signalerzeugende Vorrichtung, umfassend: Mittel zum Erkennen einer durchschnittlichen Tonhöhenperiode in einem bestimmten Zeitabstabd eines Sprachwellensignals; einen variablen Filter zum Filtern der Sprachwellensignale, wobei Frequenzmerkmale des Filters dazu veranlasst werden, in ihrer Resonanz zur erkannten durchschnittlichen Tonhöhenperiode zu variieren; Mittel zur Einzelerkennung momentaner Tonhöhenperioden in dem Sprachwellensignal basierend auf der Ausgabe des variablen Filters; Mittel zum Extrahieren eines entsprechenden Tonhöhen-Wellenelements, das jeweils mit den erkannten Tonhöhenperioden basierend of der jeweils erkannten Tonhöhenzeit übereinstimmt; und Mittel zum Erweitern oder Verdichten des extrahierten Tonhöhen-Wellenelement auf einer Zeitachse, um das extrahierte Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
  3. Signalerzeugende Vorrichtung nach Anspruch 1 oder 2, wobei die vorgegebene, festgelegte Zeitdauer der durchschnittlichen Tonhöhenperiode in einem bestimmten Zeitabstand des Sprachwellensignals gleichwertig ist.
  4. Tonhöhen-Wellensignal erzeugende Vorrichtung, umfassend: einen variablen Filter, in dem die Frequenzmerkmale gemäß der Kontrolle zum Filtern eines Sprachsignals, das eine Sprachwelle darstellt, variiert sind, wodurch eine Grundfrequenzkomponente eines Sprachlautes extrahiert wird; eine Filtermerkmal feststellende Einheit, die die Grundfrequenz des Sprachlautes basierend auf der durch den variablen Filter extrahierten Grundfrequenzkomponente identifiziert, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Spachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Tonsignals gleichwertig ist; und eine Sprachsignal-Verarbeitungseinheit, die das Sprachsignals durch ein im wesentlichen Identischmachen der Phase des Sprachsignals im jeweiligen Abschnitt zu einem Tonhöhen-Wellenelement verarbeitet.
  5. Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 5, wobei die Filtermerkmal festlegende Eineinheit eine Tonhöhenlängen festlegende Einheit umfasst, die im Wesentlichen die Zeitdauer des Tonhöhen-Wellensignals im jeweiligen Abschnitt durch Abtasten des Tonhöhen-Wellensignals im jeweiligen Abschnitt mit im Wesentlichen der selben Anzahl an Proben identisch macht.
  6. Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 5, wobei die Filtermerkmal festlegende Einheit folgendes umfasst: eine die durchschnittliche Tonhöhe erkennende Einheit, die die Tonhöhenlänge eines durch ein Sprachsignal dargestellten Sprachlautes vor dem Filtern basierend auf dem Sprachsignal erkennt; und eine Feststellungseinheit, die feststellt, ob ein Unterschied um einem vorgegebenen Betrag, oder größer, zwischen der durch die Gegenerkennungseinheit identifizierten Periode und der durch die durchschnittliche Tonhöhe erkennende Einheit identifizierte Tonhöhenlänge besteht, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die Gegenerkennungseinheit identifizierten Grundfrequenz existierenden abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied nicht besteht, und den variable Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die durchschnittliche Tonhöhen erkennende Einheit identifizierten Grundfrequenz, die aus der Tonhöhenlänge identifiziert wird, abgeschnitten werden, falls ein solcher Unterschied besteht.
  7. Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 6, wobei die durchschnittliche Tonhöhe erkennende Einheit folgendes umfasst: eine Cepstralanalyseeinheit zum Feststellen einer Frequenz, bei der das Cepstrum eines Sprachsignals vor dem Filtern einen Höchstwert hat; eine Analyseeinheit zur selbstständigen Harmonisierung, die eine Frequenz feststellt, bei der das Periodogramm der selbstständigen Harmonisierungsfunktion eines Sprachsignals vor dem Filtern einen Höchstwert hat; und eine den Durchschnitt ausrechnende Einheit, die den Durchschnitt der Tonhöhen des durch das Sprachsignal dargestellten Sprachlauts basierend auf den durch die Cepstralanalyseeinheit und durch die Analyseeinheit zur selbständigen Harmonisierung festgestellten Frequenzen feststellt, und die den festgestellten Durchschnitt als die Tonhöhenlänge eines Sprachlauts identifiziert.
  8. Tonhöhen-Wellensignal erzeugendes Verfahren, die folgenden Schritte umfassend: die Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und das jeweilige Erweitern oder Verdichten der Tonhöhen-Wellenelemente auf einer Zeitachse, das mit der jeweils erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden bei behalten wird, um dadurch jedes Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
  9. Tonhöhen-Wellensignal erzeugendes Verfahren, wobei das Verfahren die folgenden Schritte umfasst: Erkennen von durchschnittlichen Tonhöhenperioden in einem bestimmten Zeitabstand eines Sprachwellensignals; Filtern der Sprachwellensignale, wobei Frequenzmerkmale des Filters dazu veranlasst werden, in ihrer Resonanz zur erkannten, durchschnittlichen Tonhöhenzeit zu variieren; Einzelerkennung momentaner Tonhöhenperioden in dem Sprachwellensignal basierend auf der Ausgabe des variablen Filters; Extrahieren eines entsprechenden Tonhöhen-Wellenelements, das jeweils mit den erkannten Tonhöhenperioden basierend of der jeweils erkannten Tonhöhenzeit übereinstimmt; und
  10. Erweitern oder Verdichten des extrahierten Tonhöhen-Wellenelements auf einer Zeitachse; un das extrahierte Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
  11. Tonhöhen-Wellensignal erzeugendes Verfahren, dadurch gekennzeichnet, dass eine Grundfrequenzkomponente eines Sprachlauts durch Filtern eines eine Welle des Sprachlauts darstellenden Sprachsignal unter Anwendung eines variablen Filters mit gemäß der Kontrolle variierten Frequenzmerkmalen extrahiert wird; eine Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Grundfrequenzkomponente identifiziert wird, und dass der variable Filter so kontrolliert wird, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; das Sprachsignal in Abschnitte geteilt wird, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Tonsignals gleichwertig ist; und das Sprachsignal durch ein im Wesentlichen Identischmachen der Phase des Sprachsignals im jeweiligen Abschnitt zu einem Tonhöhen-Wellensignal verarbeitet wird.
  12. Sprachsignal verdichtende Vorrichtung, umfassend: Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das mit jeder der erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen; und Kodierungsmittel zur Einzelkodierung eines Wertes der jeweils erkannten momentanen Tonhöhenperioden, und ein das normalisierte Tonhöhen-Wellenelement darstellende Signal mit der vorgegebenen, festgelegten Zeitdauer, die durch die Umsetzung erhalten worden ist.
  13. Sprachsignal verdichtende Vorrichtung nach Anspruch 11, wobei die Kodierungsmittel so funktionieren, dass das normalisierte Tonhöhen-Wellenelement darstellende Signal mit der vorgegebenen, festgelegten Zeitdauer statistisch kodiert wird.
  14. Sprachsignal verdichtende Vorrichtung, umfassend: Sprachsignal verarbeitende Mittel zum Erhalt von Sprachsignalen, die die Welle eines ersten zu verdichtenden Sprachlauts darstellen, und die Zeitdauer der jeweils einer Einheitstonhöhe des Sprachsignals gleichwertigen Abschnitte im Wesentlichen identisch macht, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Unterband extrahierende Mittel zum Extrahieren einer Grundfrequenzkomponente und einer harmonischen Wellenkomponente eines ersten Sprachlauts vom Tonhöhen-Wellensignal; Wiedergewinnungsmittel zum Identifizieren von Unterbandinformationen mit der höchsten Harmonisierung mit einer mit der Zeit auftretenden Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente, die durch die Unterband extrahierenden Mittel extrahiert worden sind, von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente eines zweiten Sprachlauts zum Erzeugen eines Unterschieds aufzeigen; differenzierende Mittel zum Erzeugen eines Differenzialsignals, das einen Unterschied zwischen der Welle des ersten Sprachlauts und der Welle des durch die Unterbandinformationen darstellenden zweiten Sprachlauts basierend auf dem Sprachsignal und der durch die Wiedergewinnungsmittel identifizierten Unterbandinformationen darstellt; und Ausgabemittel zur Ausgabe eines Kennungscodes zum Identifizieren der durch die Wiedergewinnungsmittel und dem Differenzialsignal identifizierten Unterbandinformationen.
  15. Sprachsignal verdichtende Vorrichtung nach Anspruch 13, wobei den Sprecher identifizierende Daten, die Sprachlautmerkmale eines Sprechers des zweiten durch die Unterbandinformationen darstellenden Sprachlauts aufweisen, in Übereinstimmung mit den Unterbandinformationen gebracht werden; und die Wiedergewinnungsmittel Merkmal identifizierende Mittel zur Identifizierung von Merkmalen eines Sprechers des ersten Sprachlauts basierend auf dem Sprachsignal umfassen, die Merkmal identifizierenden Mittel Unterbandinformationen mit der höchsten Harmonisierung, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente haben, die durch die Unterband extrahierenden Mittel von nur Unterbandinformationen, die in Übereinstimmung mit den Sprecher identifizierende Daten extrahiert worden sind, die die durch die Merkmal identifizierenden Mittel identifizierten Merkmale aufweisen.
  16. Sprachsignal verdichtende Vorrichtung nach Anspruch 14, wobei die Sprachsignal verarbeitenden Mittel folgendes umfassen: einen variablen Filter mit gemäß der Kontrolle variierten Frequenzmerkmalen zum Filtern des Sprachsignals, wodurch eine Grundfrequenzkomponente des Sprachlauts extrahiert wird; eine Filtermerkmal feststellende Einheit, die die Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Frequenzkomponente identifiziert, und den variablen Filter so kontrol-liert, dass Frequenzmerkmale erhalten werden, so dass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Sprachsignals gleichwertig ist; und eine Tonhöhenlänge festlegende Einheit, die ein Tonhöhen-Wellensignal mit einer Zeitdauer im jeweiligen Abschnitt, die im Wesentlichen identisch ist durch Abtasten des Sprachsignals im jeweiligen Abschnitt des Sprachsignals mit im Wesentlichen der gleichen Anzahl an Proben erzeugt.
  17. Sprachsignal erweiternde Vorrichtung, umfassend: Eingabemittel zum Erhalt eines Kennungscodes zum Bestimmen von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente auf einem ersten Tonhöhen-Wellensignal aufweisen, ERZEUGT durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines ersten Sprachlauts darstellenden Sprachsignals, einem den Unterschied zwischen der Welle eines zweiten wiederherzustellenden Sprachlauts und der Welle eines ersten Sprachlauts darstellenden Differenzialsignals, und den Tonhöhendaten, die die Zeitlänge eines der Einheitstonhöhe des Sprachlauts gleichwertigen Abschnitts aufzeigen, gleichwertig ist; Tonhöhen-Wellensignal wiederherstellende Mittel zum Erhalt von Unterbandinformationen, die durch den von den Eingabemitteln erhaltenen Kennungscode der Unterbandinformationen identifiziert sind, und zum Wiederherstellen des ersten Tonhöhen-Wellensignals basierend auf den erhaltenen Unterbandinformationen; Zusatzmittel zum Erzeugen eines zweiten Tonhöhen-Wellensignals, das die Summe der Welle des ersten durch die Tonhöhen-Wellensignal wiederherstellenden Mittel wiederhergestellte Tonhöhen-Wellensignal und der durch das Differenzialsignal dargestellten Welle darstellt; und Sprachsignal wiederherstellende Mittel zum Erzeugen eines Sprachsignals, das den zweiten Sprachlaut basierend auf den Tonhöhendaten und den zweiten Tonhöhen-Wellendaten darstellt.
  18. Sprachsignal verdichtendes Verfahren, die folgenden Schritte umfassend: die Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; das jeweilige Erweitern oder Verdichten der Tonhöhen-Wellenelemente auf einer Zeitachse, das mit jeder der erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch jedes Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen; und die Einzelkodierung eines Wertes der jeweils momentan erkannten Tonhöhenperiode und eines Signals, das das normalisierte Tonhöhen-Wellenelement mit der vorgegebenen, festgelegten Zeitdauer, die durch die Umsetzung erhalten wird, dargestellt.
  19. Sprachsignal verdichtendes Verfahren, wobei ein die Welle eines ersten zu verdichtenden Sprachlauts darstellendes Sprachsignal erhalten wird, und die Zeitdauer der jeweils einer Einheitstonhöhe des Sprachsignals gleichwertigen Abschnitte im Wesentlichen identisch gemacht werden, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; eine Grundfrequenzkomponente und eine harmonische Wellenkomponente des ersten Sprachlauts vom Tonhöhen-Wellensignal extrahiert wird; Unterbandinformationen mit der höchsten Harmonisierung mit einer mit der Zeit auftretenden Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente, die durch die Unterband extrahierenden Mittel extrahiert worden sind, von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente eines zweiten Sprachlauts zum Erzeugen eines Unterschieds aufzeigt, identifiziert werden; ein Differenzialsignal, das einen Unterschied zwischen der Welle des ersten Sprachlauts und der Welle des durch die Unterbandinformationen darstellenden zweiten Sprachlauts basierend auf dem Sprachsignal und der durch die Wiedergewinnungsmittel identifizierten Unterbandinformationen darstellt, ERZEUGT wird; und ein Kennungscode zum Identifizieren der durch die Wiedergewinnungsmittel und dem Differenzsignal identifizierten Unterbandinformationen ausgegeben wird.
  20. Sprachsignal erweiterndes Verfahren, wobei ein Kennungscode zum Bestimmen von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente auf einem ersten Tonhöhen-Wellensignal aufweisen, erzeugt durch das im Wesentlichen Identischmachen der Zeitlängen der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines ersten Sprachlauts darstellenden Sprachsignals, einem den Unterschied zwischen der Welle eines zweiten wiederherzustellenden Sprachlauts und der Welle eines ersten Sprachlauts darstellenden Differenzialsignal, und den Tonhöhendaten, die die Zeitlänge eines der Einheitstonhöhe des Sprachlauts gleichwertigen Abschnitts aufzeigen, gleichwertig ist, erhalten wird; Unterbandinformationen, die durch den von den Eingabemitteln erhaltenen Kennungscode der Unterbandinformationen identifiziert sind, erhalten werden, und das erste Tonhöhen-Wellensignal basierend auf den erhaltenen Unterbandinformationen wiederhergestellt wird; ein zweites Tonhöhen-Wellensignal erzeugt wird, das die Summe der Welle des ersten wiederhergestellten Tonhöhen-Wellensignals und der durch das Differenzialsignal dargestellten Welle darstellt; und ein Sprachsignal, das den zweiten Sprachlaut basierend auf den Tonhöhendaten und den zweiten Tonhöhen-Wellendaten darstellt, erzeugt wird.
  21. Sprache generierende Vorrichtung, umfassend: Speichermittel zum Speichern von Rhythmusinformationen, die den Rhythmus einer Probe eines Einheitssprachlauts darstellen, Tonhöheninformationen, die die Tonhöhe der Probe darstellen, und Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente eines Tonhöhen-Wellensignals aufzeigen, die durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle einer Probe darstellenden Sprachsignals gleichwertig sind, mit solchen Informationen erzeugt wird, die in Übereinstimmung mit der Probe gebracht werden; Vorhersagemittel zur Eingabe von Textinformationen, die einen Text darstellen, und Vorhersageinformationen erzeugen, die das Ergebnis der Vorhersage der Tonhöhe und des Spektrums eines den Text bildenden Einheitssprachlauts darstellen, basierend auf den Textinformationen; Wiedergewinnungsmittel zum Identifizieren einer Probe mit einer Tonhöhe und einem Spektrum, die die höchste Harmonisierung mit der Tonhöhe und dem Spektrum eines Einheitssprachlauts hat, die den Text basierend auf den Tonhöheninformationen, den Spektrumsinformationen, und den Vorhersageinformationen bildet; und Signal generierende Mittel zum Erzeugen eines generierten Sprachsignals, das einen Sprachlaut darstellt, in welchem der Sprachlaut einen Rhythmus hat, der durch die Rhythmusinformationen dargestellt wird, die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebracht worden ist, wobei die mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Spektrumsinformationen dargestellt wird, und die Zeitdauer des Abschnitts, der der Einheitstonhöhe gleichwertig ist, eine Zeitdauer ist, die durch die Tonhöheninformationen durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Tonhöheninformationen dargestellt wird.
  22. Sprache generierende Vorrichtung nach Anspruch 20, wobei die Spektrumsinformationen durch Daten gebildet werden, die das Ergebnis von dem nichtlinearen Quanteln des Volumens darstellen, das eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Tonhöhen-Wellensignals darstellt.
  23. Sprachverzeichnis erzeugende Vorrichtung, umfassend: Tonhöhen-Wellensignal erzeugende Mittel zum Erhalt eines Sprachsignals, das die Welle eines Einheitssprachlauts darstellt, und im Wesentlichen die Zeitdauer der Abschnitte identisch macht, die der Einheitstonhöhe des Sprachsignals gleichwertig sind, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Tonhöheninformationen erzeugende Mittel zum Erzeugen von Ausgabe-Tonhöheninformationen, die die Original-Zeitdauer des Abschnitts darstellt; Spektrumsinformationen extrahierende Mittel zum Erzeuund zur Ausgabe von Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals basierend auf dem Tonhöhen-Wellensignal aufweist; und Rhythmusinformationen erzeugende Mittel zum Erhalt von phonetischen Daten, die Lautzeichen darstellen, die die Aussprache des Einheitssprachlauts darstellen, die den Rhythmus der durch die phonetischen Daten dargestellte Aussprache festlegt, und den festgestellten Rhythmus darstellende Rhythmusinformationen erzeugt und ausgibt.
  24. Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 22, wobei die Spektrumsinformationen extrahierenden Mittel folgendes umfassen: einen variablen Filter mit gemäß der Kontrolle variierten Frequenzmerkmalen zum Filtern des Sprachsignals, wodurch eine Grundfrequenzkomponente des Sprachsignals extrahiert wird; Filtermerkmal feststellende Mittel, die die Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Frequenzkomponente identifizieren, und den variablen Filter so kontrollieren, dass Frequenzmerkmale erhalten werden, sodass Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Sprachsignals gleichwertig ist; und eine Tonhöhenlänge festlegende Einheit, die ein Tonhöhen-Wellensignal mit einer Zeitdauer im jeweiligen Abschnitt, die im Wesentlichen identisch ist durch Abtasten des Sprachsignals im jeweiligen Abschnitt des Sprachsignals mit im Wesentlichen der gleichen Anzahl an Proben erzeugt.
  25. Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 23, wobei die Filtermerkmal festlegenden Mittel Gegenerkennungsmittel zum Identifizieren einer Periode umfassen, in der die durch den variablen Filter extrahierte Grundfrequenzkomponente einen vorgegebenen Wert erreicht, und die Grundfrequenz basierend auf der identifizierten Periode identifiziert wird.
  26. Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 24, wobei die Filtermerkmal festlegenden Mittel folgendes umfassen: die durchschnittliche Tonhöhe erkennende Mittel, zur Erkennung der Tonhöhenlänge eines durch ein Sprachsignal dargestellten Sprachlautes vor dem Filtern basierend auf dem Sprachsignal; und Feststellungsmittel, zum Feststellen, ob ein Unterschied um einen vorgegebenen Betrag, oder größer, zwischen der durch die Gegenerkennungseinheit identifizierten Periode und der durch die durchschnittliche Tonhöhe erkennende Einheit identifizierte Tonhöhenlänge besteht, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die Gegenerkennungseinheit identifizierten Grundfrequenz existierenden abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied nicht besteht, und den variable Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die durchschnittliche Tonhöhen erkennende Einheit identifizierten Grundfrequenz, die aus der Tonhöhenlänge identifiziert wird, abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied besteht.
  27. Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 25, wobei die die durchschnittliche Tonhöhe erkennenden Mittel folgendes umfassen: Cepstralanalysmittel zum Feststellen einer Frequenz, bei der das Cepstrum eines Sprachsignals vor dem Filtern durch den variablen Filter einen Höchstwert hat; Analysemittel zur selbstständigen Harmonisierung zur Feststellung einer Frequenz, bei der das Periodogramm der selbstständigen Harmonisierungsfunktion eine s Sprachsignals vor dem Filtern durch den variablen Filter einen Höchstwert hat; und den Durchschnitt ausrechnende Mittel zur Feststellung des Durchschnitts der Tonhöhen des durch das Sprachsignal dargestellten Sprachlauts basierend auf den durch die Cepstralanalysemittel und auf den durch die Analysemittel zur selbständigen Harmonisierung festgestellten Frequenzen feststellen, und die den festgestellten Durchschnitt als die Zeitdauer der Tonhöhe des Einheitssprachlauts identifizieren.
  28. Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 26, wobei die Spektrumsinformationen extrahierenden Mittel Daten erzeugen, die das Ergebnis von dem linearen Quanteln des Wertes darstellen, der eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals aufweist, und die Daten als Spektrumsinformationen ausgeben.
  29. Sprachgenerationsverfahren, wobei Rhythmusinformationen, die den Rhythmus einer Probe eines Einheitssprachlauts darstellen, Tonhöheninformationen, die die Tonhöhe der Probe darstellen, und Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente eines Tonhöhen-Wellensignals aufzeigen, die durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines die Welle einer Probe darstellenden Sprachsignals gleichwertige sind, mit solchen Informationen gespeichert werden, die in Übereinstimmung mit der Probe gebracht werden; Textinformationen, die einen eingegebenen Text darstellen, und Vorhersageinformationen, die das Ergebnis der Vorhersage der Tonhöhe und des Spektrums eines den Text bildenden Einheitssprachlauts darstellen, basierend auf den Textinformationen erzeugt werden; eine Probe mit einer Tonhöhe und einem Spektrum, die die höchste Harmonisierung mit der Tonhöhe und dem Spektrum eines Einheitssprachlauts hat, die den Text basierend auf den Tonhöheninformationen, den Spektrumsinformationen, und den Vorhersageinformationen bildet, identifiziert wird; und ein generiertes Sprachsignal, das einen Sprachlaut darstellt, in welchem der Sprachlaut einen Rhythmus hat, der durch die Rhythmusinformationen dargestellt wird, die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebracht worden ist, wobei die mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Spektrumsinformationen dargestellt wird, und die Zeitdauer des Abschnitts, der der Einheitstonhöhe gleichwertig ist, eine Zeitdauer ist, die durch die Tonhöheninformationen durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Tonhöheninformationen dargestellt wird, erzeugt wird.
  30. Sprachverzeichnis erzeugendes Verfahren, wobei ein Sprachsignal erhalten wird, das die Welle eines Einheitssprachlauts darstellt, und im Wesentlichen die Zeitdauer der Abschnitte identisch gemacht wird, die der Einheitstonhöhe des Sprachsignals gleichwertig sind, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Tonhöheninformationen, die die Original-Zeitdauer des Abschnitts darstellen, erzeugt und ausgegeben werden; Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals aufweisen, basierend auf dem Tonhöhen-Wellensignal erzeugt und ausgegeben werden; und phonetischen Daten, die Lautzeichen darstellen, die die Aussprache des Einheitssprachlauts darstellen, erhalten werden, der Rhythmus der durch die phonetischen Daten dargestellte Aussprache festgelegt wird, und die den festgestellten Rhythmus darstellende Rhythmusinformationen erzeugt und ausgegeben werden.
DE02765393T 2001-08-31 2002-08-30 Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit Pending DE02765393T1 (de)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2001263395 2001-08-31
JP2001263395 2001-08-31
JP2001298610 2001-09-27
JP2001298609 2001-09-27
JP2001298609 2001-09-27
JP2001298610 2001-09-27
PCT/JP2002/008837 WO2003019527A1 (fr) 2001-08-31 2002-08-30 Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant

Publications (1)

Publication Number Publication Date
DE02765393T1 true DE02765393T1 (de) 2005-01-13

Family

ID=27347409

Family Applications (4)

Application Number Title Priority Date Filing Date
DE07003891T Pending DE07003891T1 (de) 2001-08-31 2002-08-30 Vorrichtung und Verfahren zur Erzeugung von Tonhöhenwellensignalen und Vorrichtung sowie Verfahren zum Komprimieren, Erweitern und Synthetisieren von Sprachsignalen unter Verwendung dieser Tonhöhenwellensignale
DE02765393T Pending DE02765393T1 (de) 2001-08-31 2002-08-30 Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
DE60234195T Expired - Lifetime DE60234195D1 (de) 2001-08-31 2002-08-30 Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
DE60232560T Expired - Lifetime DE60232560D1 (de) 2001-08-31 2002-08-30 Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE07003891T Pending DE07003891T1 (de) 2001-08-31 2002-08-30 Vorrichtung und Verfahren zur Erzeugung von Tonhöhenwellensignalen und Vorrichtung sowie Verfahren zum Komprimieren, Erweitern und Synthetisieren von Sprachsignalen unter Verwendung dieser Tonhöhenwellensignale

Family Applications After (2)

Application Number Title Priority Date Filing Date
DE60234195T Expired - Lifetime DE60234195D1 (de) 2001-08-31 2002-08-30 Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
DE60232560T Expired - Lifetime DE60232560D1 (de) 2001-08-31 2002-08-30 Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz.

Country Status (5)

Country Link
US (2) US7630883B2 (de)
EP (2) EP1422690B1 (de)
CN (1) CN1324556C (de)
DE (4) DE07003891T1 (de)
WO (1) WO2003019527A1 (de)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1224956C (zh) * 2001-08-31 2005-10-26 株式会社建伍 基音波形信号发生设备、基音波形信号发生方法及程序
JP3881932B2 (ja) * 2002-06-07 2007-02-14 株式会社ケンウッド 音声信号補間装置、音声信号補間方法及びプログラム
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
MXPA06002241A (es) * 2003-08-26 2006-08-31 Clearplay Inc Metodo y aparato para controlar el funcionamiento de una senal de audio.
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
JP4446072B2 (ja) * 2004-07-23 2010-04-07 株式会社ディーアンドエムホールディングス オーディオ信号出力装置
JP2006191316A (ja) * 2005-01-05 2006-07-20 Freescale Semiconductor Inc 音声信号処理装置
US8850011B2 (en) 2005-04-21 2014-09-30 Microsoft Corporation Obtaining and displaying virtual earth images
JP4599558B2 (ja) * 2005-04-22 2010-12-15 国立大学法人九州工業大学 ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
WO2007004397A1 (ja) * 2005-07-01 2007-01-11 Pioneer Corporation 音響信号処理装置、音響信号処理方法、音響信号処理プログラムおよびコンピュータに読み取り可能な記録媒体
US8089349B2 (en) 2005-07-18 2012-01-03 Diego Giuseppe Tognola Signal process and system
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
KR100762596B1 (ko) * 2006-04-05 2007-10-01 삼성전자주식회사 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법
JP4757130B2 (ja) * 2006-07-20 2011-08-24 富士通株式会社 ピッチ変換方法及び装置
US8271284B2 (en) * 2006-07-21 2012-09-18 Nec Corporation Speech synthesis device, method, and program
US20080260169A1 (en) * 2006-11-06 2008-10-23 Plantronics, Inc. Headset Derived Real Time Presence And Communication Systems And Methods
US9591392B2 (en) * 2006-11-06 2017-03-07 Plantronics, Inc. Headset-derived real-time presence and communication systems and methods
CN1975861B (zh) * 2006-12-15 2011-06-29 清华大学 声码器基音周期参数抗信道误码方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
KR100922897B1 (ko) * 2007-12-11 2009-10-20 한국전자통신연구원 Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8204444B2 (en) * 2009-02-04 2012-06-19 Qualcomm Incorporated Adjustable transmission filter responsive to internal sadio status
CN102822888B (zh) * 2010-03-25 2014-07-02 日本电气株式会社 话音合成器和话音合成方法
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
JP6131574B2 (ja) * 2012-11-15 2017-05-24 富士通株式会社 音声信号処理装置、方法、及びプログラム
US9060223B2 (en) 2013-03-07 2015-06-16 Aphex, Llc Method and circuitry for processing audio signals
KR102251833B1 (ko) * 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
CN105448297A (zh) * 2014-08-28 2016-03-30 中国移动通信集团公司 一种获取基音周期的方法及装置
US9685169B2 (en) * 2015-04-15 2017-06-20 International Business Machines Corporation Coherent pitch and intensity modification of speech signals
KR20180078252A (ko) * 2015-10-06 2018-07-09 인터랙티브 인텔리전스 그룹, 인코포레이티드 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
CN109346105B (zh) * 2018-07-27 2022-04-15 南京理工大学 直接显示基音周期轨迹的基音周期谱图方法
CN109670185B (zh) * 2018-12-27 2023-06-23 北京百度网讯科技有限公司 基于人工智能的文本生成方法和装置
CN111064706B (zh) * 2019-11-25 2021-10-22 大连大学 一种mRMR-SVM的空间网络数据流检测方法
CN117133270B (zh) * 2023-09-06 2024-07-26 联通(广东)产业互联网有限公司 语音合成方法、装置、电子设备及存储介质

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6040629B2 (ja) 1981-12-08 1985-09-11 松下電器産業株式会社 音素片編集型音声合成の補間方式
JPS58188000A (ja) 1982-04-28 1983-11-02 日本電気株式会社 音声認識合成装置
JPS5977498A (ja) 1982-10-25 1984-05-02 富士通株式会社 音声特徴パラメータの圧縮装置
EP0248593A1 (de) * 1986-06-06 1987-12-09 Speech Systems, Inc. Vorverarbeitungssystem zur Spracherkennung
JP2558658B2 (ja) 1986-11-13 1996-11-27 博也 藤崎 基本周波数分析装置
JPH0266598A (ja) 1988-09-01 1990-03-06 Matsushita Electric Ind Co Ltd 音声信号圧縮伸張装置
JP2876604B2 (ja) 1988-11-19 1999-03-31 ソニー株式会社 信号圧縮方法
US5430241A (en) 1988-11-19 1995-07-04 Sony Corporation Signal processing method and sound source data forming apparatus
JP2600384B2 (ja) 1989-08-23 1997-04-16 日本電気株式会社 音声合成方法
JP2968976B2 (ja) 1990-04-04 1999-11-02 邦夫 佐藤 音声認識装置
JPH04127747A (ja) * 1990-09-19 1992-04-28 Toshiba Corp 可変レート符号化方式
JP3297749B2 (ja) 1992-03-18 2002-07-02 ソニー株式会社 符号化方法
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
CN1064773C (zh) * 1993-06-30 2001-04-18 索尼公司 数字信号的编码方法和解码方法
JPH07129196A (ja) 1993-11-08 1995-05-19 Matsushita Electric Ind Co Ltd 音声波形切出し装置、音声波形成形装置および音声合成装置
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
EP0706172A1 (de) * 1994-10-04 1996-04-10 Hughes Aircraft Company Sprachkodierer und Dekodierer mit niedriger Bitrate
JP2805598B2 (ja) * 1995-06-16 1998-09-30 ヤマハ株式会社 演奏位置検出方法およびピッチ検出方法
JPH0981188A (ja) 1995-09-13 1997-03-28 Toshiba Corp 音声分析システム及び音声波形のピッチの時間的基準位置付与方法
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
AU7723696A (en) * 1995-11-07 1997-05-29 Euphonics, Incorporated Parametric signal modeling musical synthesizer
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
JP3424787B2 (ja) * 1996-03-12 2003-07-07 ヤマハ株式会社 演奏情報検出装置
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.
JPH10149187A (ja) 1996-11-19 1998-06-02 Yamaha Corp 音声情報抽出装置
JP3349905B2 (ja) 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
JP3112654B2 (ja) * 1997-01-14 2000-11-27 株式会社エイ・ティ・アール人間情報通信研究所 信号分析方法
JP3618217B2 (ja) * 1998-02-26 2005-02-09 パイオニア株式会社 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体
JP4641620B2 (ja) * 1998-05-11 2011-03-02 エヌエックスピー ビー ヴィ ピッチ検出の精密化
JPH11327594A (ja) * 1998-05-13 1999-11-26 Ricoh Co Ltd 音声合成辞書作成システム
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
DE69925932T2 (de) * 1998-11-13 2006-05-11 Lernout & Hauspie Speech Products N.V. Sprachsynthese durch verkettung von sprachwellenformen
EP1039442B1 (de) 1999-03-25 2006-03-01 Yamaha Corporation Verfahren und Vorrichtung zur Wellenformkomprimierung und Erzeugung
WO2000065572A1 (fr) * 1999-04-27 2000-11-02 Hitachi, Ltd. Appareil de synthese de la parole, procede de synthese de la parole, et support d'enregistrement
CN1136538C (zh) * 1999-05-21 2004-01-28 松下电器产业株式会社 语音识别用的输入语音音程标准化装置
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
JP4416244B2 (ja) * 1999-12-28 2010-02-17 パナソニック株式会社 音程変換装置
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
CN1224956C (zh) * 2001-08-31 2005-10-26 株式会社建伍 基音波形信号发生设备、基音波形信号发生方法及程序

Also Published As

Publication number Publication date
EP1793370A3 (de) 2007-09-19
US7630883B2 (en) 2009-12-08
US20070174056A1 (en) 2007-07-26
EP1422690A1 (de) 2004-05-26
EP1422690A4 (de) 2007-05-23
EP1422690B1 (de) 2009-10-28
CN1324556C (zh) 2007-07-04
DE07003891T1 (de) 2007-11-08
US7647226B2 (en) 2010-01-12
US20040030546A1 (en) 2004-02-12
WO2003019527A1 (fr) 2003-03-06
EP1793370A2 (de) 2007-06-06
EP1793370B1 (de) 2009-06-03
DE60234195D1 (de) 2009-12-10
CN1473322A (zh) 2004-02-04
DE60232560D1 (de) 2009-07-16

Similar Documents

Publication Publication Date Title
DE02765393T1 (de) Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE10109648C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE2918533C2 (de)
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE10134471C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE69620560T2 (de) Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
WO2002093550A2 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen unter verwendung einer autokorrelationsfunktion
Abdallah et al. If the independent components of natural images are edges, what are the independent components of natural sounds
DE69127134T2 (de) Sprachkodierer
DE69618408T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE69706650T2 (de) System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
DE69128582T2 (de) Methode zur Phonemunterscheidung
DE69703233T2 (de) Verfahren und Systeme zur Sprachkodierung
DE69026474T2 (de) System zur Spracherkennung
DE69128990T2 (de) Sprecherkennungsvorrichtung