DE02765393T1 - Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit - Google Patents
Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit Download PDFInfo
- Publication number
- DE02765393T1 DE02765393T1 DE02765393T DE02765393T DE02765393T1 DE 02765393 T1 DE02765393 T1 DE 02765393T1 DE 02765393 T DE02765393 T DE 02765393T DE 02765393 T DE02765393 T DE 02765393T DE 02765393 T1 DE02765393 T1 DE 02765393T1
- Authority
- DE
- Germany
- Prior art keywords
- pitch
- signal
- speech
- wave
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims 10
- 238000004519 manufacturing process Methods 0.000 title 1
- 230000003407 synthetizing effect Effects 0.000 title 1
- 239000011295 pitch Substances 0.000 claims 148
- 238000001228 spectrum Methods 0.000 claims 19
- 230000033764 rhythmic process Effects 0.000 claims 13
- 238000001914 filtration Methods 0.000 claims 11
- 238000011084 recovery Methods 0.000 claims 8
- 238000001514 detection method Methods 0.000 claims 2
- 230000006870 function Effects 0.000 claims 2
- 230000005236 sound signal Effects 0.000 claims 2
- 239000000654 additive Substances 0.000 claims 1
- 230000000996 additive effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 claims 1
- 230000001149 cognitive effect Effects 0.000 claims 1
- 238000013139 quantization Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Signalerzeugende
Vorrichtung, umfassend:
Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und
Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das jeweils mit den erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und
Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das jeweils mit den erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
Claims (30)
- Signalerzeugende Vorrichtung, umfassend: Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das jeweils mit den erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
- Signalerzeugende Vorrichtung, umfassend: Mittel zum Erkennen einer durchschnittlichen Tonhöhenperiode in einem bestimmten Zeitabstabd eines Sprachwellensignals; einen variablen Filter zum Filtern der Sprachwellensignale, wobei Frequenzmerkmale des Filters dazu veranlasst werden, in ihrer Resonanz zur erkannten durchschnittlichen Tonhöhenperiode zu variieren; Mittel zur Einzelerkennung momentaner Tonhöhenperioden in dem Sprachwellensignal basierend auf der Ausgabe des variablen Filters; Mittel zum Extrahieren eines entsprechenden Tonhöhen-Wellenelements, das jeweils mit den erkannten Tonhöhenperioden basierend of der jeweils erkannten Tonhöhenzeit übereinstimmt; und Mittel zum Erweitern oder Verdichten des extrahierten Tonhöhen-Wellenelement auf einer Zeitachse, um das extrahierte Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
- Signalerzeugende Vorrichtung nach Anspruch 1 oder 2, wobei die vorgegebene, festgelegte Zeitdauer der durchschnittlichen Tonhöhenperiode in einem bestimmten Zeitabstand des Sprachwellensignals gleichwertig ist.
- Tonhöhen-Wellensignal erzeugende Vorrichtung, umfassend: einen variablen Filter, in dem die Frequenzmerkmale gemäß der Kontrolle zum Filtern eines Sprachsignals, das eine Sprachwelle darstellt, variiert sind, wodurch eine Grundfrequenzkomponente eines Sprachlautes extrahiert wird; eine Filtermerkmal feststellende Einheit, die die Grundfrequenz des Sprachlautes basierend auf der durch den variablen Filter extrahierten Grundfrequenzkomponente identifiziert, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Spachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Tonsignals gleichwertig ist; und eine Sprachsignal-Verarbeitungseinheit, die das Sprachsignals durch ein im wesentlichen Identischmachen der Phase des Sprachsignals im jeweiligen Abschnitt zu einem Tonhöhen-Wellenelement verarbeitet.
- Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 5, wobei die Filtermerkmal festlegende Eineinheit eine Tonhöhenlängen festlegende Einheit umfasst, die im Wesentlichen die Zeitdauer des Tonhöhen-Wellensignals im jeweiligen Abschnitt durch Abtasten des Tonhöhen-Wellensignals im jeweiligen Abschnitt mit im Wesentlichen der selben Anzahl an Proben identisch macht.
- Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 5, wobei die Filtermerkmal festlegende Einheit folgendes umfasst: eine die durchschnittliche Tonhöhe erkennende Einheit, die die Tonhöhenlänge eines durch ein Sprachsignal dargestellten Sprachlautes vor dem Filtern basierend auf dem Sprachsignal erkennt; und eine Feststellungseinheit, die feststellt, ob ein Unterschied um einem vorgegebenen Betrag, oder größer, zwischen der durch die Gegenerkennungseinheit identifizierten Periode und der durch die durchschnittliche Tonhöhe erkennende Einheit identifizierte Tonhöhenlänge besteht, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die Gegenerkennungseinheit identifizierten Grundfrequenz existierenden abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied nicht besteht, und den variable Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die durchschnittliche Tonhöhen erkennende Einheit identifizierten Grundfrequenz, die aus der Tonhöhenlänge identifiziert wird, abgeschnitten werden, falls ein solcher Unterschied besteht.
- Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 6, wobei die durchschnittliche Tonhöhe erkennende Einheit folgendes umfasst: eine Cepstralanalyseeinheit zum Feststellen einer Frequenz, bei der das Cepstrum eines Sprachsignals vor dem Filtern einen Höchstwert hat; eine Analyseeinheit zur selbstständigen Harmonisierung, die eine Frequenz feststellt, bei der das Periodogramm der selbstständigen Harmonisierungsfunktion eines Sprachsignals vor dem Filtern einen Höchstwert hat; und eine den Durchschnitt ausrechnende Einheit, die den Durchschnitt der Tonhöhen des durch das Sprachsignal dargestellten Sprachlauts basierend auf den durch die Cepstralanalyseeinheit und durch die Analyseeinheit zur selbständigen Harmonisierung festgestellten Frequenzen feststellt, und die den festgestellten Durchschnitt als die Tonhöhenlänge eines Sprachlauts identifiziert.
- Tonhöhen-Wellensignal erzeugendes Verfahren, die folgenden Schritte umfassend: die Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und das jeweilige Erweitern oder Verdichten der Tonhöhen-Wellenelemente auf einer Zeitachse, das mit der jeweils erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden bei behalten wird, um dadurch jedes Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
- Tonhöhen-Wellensignal erzeugendes Verfahren, wobei das Verfahren die folgenden Schritte umfasst: Erkennen von durchschnittlichen Tonhöhenperioden in einem bestimmten Zeitabstand eines Sprachwellensignals; Filtern der Sprachwellensignale, wobei Frequenzmerkmale des Filters dazu veranlasst werden, in ihrer Resonanz zur erkannten, durchschnittlichen Tonhöhenzeit zu variieren; Einzelerkennung momentaner Tonhöhenperioden in dem Sprachwellensignal basierend auf der Ausgabe des variablen Filters; Extrahieren eines entsprechenden Tonhöhen-Wellenelements, das jeweils mit den erkannten Tonhöhenperioden basierend of der jeweils erkannten Tonhöhenzeit übereinstimmt; und
- Erweitern oder Verdichten des extrahierten Tonhöhen-Wellenelements auf einer Zeitachse; un das extrahierte Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
- Tonhöhen-Wellensignal erzeugendes Verfahren, dadurch gekennzeichnet, dass eine Grundfrequenzkomponente eines Sprachlauts durch Filtern eines eine Welle des Sprachlauts darstellenden Sprachsignal unter Anwendung eines variablen Filters mit gemäß der Kontrolle variierten Frequenzmerkmalen extrahiert wird; eine Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Grundfrequenzkomponente identifiziert wird, und dass der variable Filter so kontrolliert wird, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; das Sprachsignal in Abschnitte geteilt wird, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Tonsignals gleichwertig ist; und das Sprachsignal durch ein im Wesentlichen Identischmachen der Phase des Sprachsignals im jeweiligen Abschnitt zu einem Tonhöhen-Wellensignal verarbeitet wird.
- Sprachsignal verdichtende Vorrichtung, umfassend: Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das mit jeder der erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen; und Kodierungsmittel zur Einzelkodierung eines Wertes der jeweils erkannten momentanen Tonhöhenperioden, und ein das normalisierte Tonhöhen-Wellenelement darstellende Signal mit der vorgegebenen, festgelegten Zeitdauer, die durch die Umsetzung erhalten worden ist.
- Sprachsignal verdichtende Vorrichtung nach Anspruch 11, wobei die Kodierungsmittel so funktionieren, dass das normalisierte Tonhöhen-Wellenelement darstellende Signal mit der vorgegebenen, festgelegten Zeitdauer statistisch kodiert wird.
- Sprachsignal verdichtende Vorrichtung, umfassend: Sprachsignal verarbeitende Mittel zum Erhalt von Sprachsignalen, die die Welle eines ersten zu verdichtenden Sprachlauts darstellen, und die Zeitdauer der jeweils einer Einheitstonhöhe des Sprachsignals gleichwertigen Abschnitte im Wesentlichen identisch macht, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Unterband extrahierende Mittel zum Extrahieren einer Grundfrequenzkomponente und einer harmonischen Wellenkomponente eines ersten Sprachlauts vom Tonhöhen-Wellensignal; Wiedergewinnungsmittel zum Identifizieren von Unterbandinformationen mit der höchsten Harmonisierung mit einer mit der Zeit auftretenden Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente, die durch die Unterband extrahierenden Mittel extrahiert worden sind, von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente eines zweiten Sprachlauts zum Erzeugen eines Unterschieds aufzeigen; differenzierende Mittel zum Erzeugen eines Differenzialsignals, das einen Unterschied zwischen der Welle des ersten Sprachlauts und der Welle des durch die Unterbandinformationen darstellenden zweiten Sprachlauts basierend auf dem Sprachsignal und der durch die Wiedergewinnungsmittel identifizierten Unterbandinformationen darstellt; und Ausgabemittel zur Ausgabe eines Kennungscodes zum Identifizieren der durch die Wiedergewinnungsmittel und dem Differenzialsignal identifizierten Unterbandinformationen.
- Sprachsignal verdichtende Vorrichtung nach Anspruch 13, wobei den Sprecher identifizierende Daten, die Sprachlautmerkmale eines Sprechers des zweiten durch die Unterbandinformationen darstellenden Sprachlauts aufweisen, in Übereinstimmung mit den Unterbandinformationen gebracht werden; und die Wiedergewinnungsmittel Merkmal identifizierende Mittel zur Identifizierung von Merkmalen eines Sprechers des ersten Sprachlauts basierend auf dem Sprachsignal umfassen, die Merkmal identifizierenden Mittel Unterbandinformationen mit der höchsten Harmonisierung, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente haben, die durch die Unterband extrahierenden Mittel von nur Unterbandinformationen, die in Übereinstimmung mit den Sprecher identifizierende Daten extrahiert worden sind, die die durch die Merkmal identifizierenden Mittel identifizierten Merkmale aufweisen.
- Sprachsignal verdichtende Vorrichtung nach Anspruch 14, wobei die Sprachsignal verarbeitenden Mittel folgendes umfassen: einen variablen Filter mit gemäß der Kontrolle variierten Frequenzmerkmalen zum Filtern des Sprachsignals, wodurch eine Grundfrequenzkomponente des Sprachlauts extrahiert wird; eine Filtermerkmal feststellende Einheit, die die Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Frequenzkomponente identifiziert, und den variablen Filter so kontrol-liert, dass Frequenzmerkmale erhalten werden, so dass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Sprachsignals gleichwertig ist; und eine Tonhöhenlänge festlegende Einheit, die ein Tonhöhen-Wellensignal mit einer Zeitdauer im jeweiligen Abschnitt, die im Wesentlichen identisch ist durch Abtasten des Sprachsignals im jeweiligen Abschnitt des Sprachsignals mit im Wesentlichen der gleichen Anzahl an Proben erzeugt.
- Sprachsignal erweiternde Vorrichtung, umfassend: Eingabemittel zum Erhalt eines Kennungscodes zum Bestimmen von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente auf einem ersten Tonhöhen-Wellensignal aufweisen, ERZEUGT durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines ersten Sprachlauts darstellenden Sprachsignals, einem den Unterschied zwischen der Welle eines zweiten wiederherzustellenden Sprachlauts und der Welle eines ersten Sprachlauts darstellenden Differenzialsignals, und den Tonhöhendaten, die die Zeitlänge eines der Einheitstonhöhe des Sprachlauts gleichwertigen Abschnitts aufzeigen, gleichwertig ist; Tonhöhen-Wellensignal wiederherstellende Mittel zum Erhalt von Unterbandinformationen, die durch den von den Eingabemitteln erhaltenen Kennungscode der Unterbandinformationen identifiziert sind, und zum Wiederherstellen des ersten Tonhöhen-Wellensignals basierend auf den erhaltenen Unterbandinformationen; Zusatzmittel zum Erzeugen eines zweiten Tonhöhen-Wellensignals, das die Summe der Welle des ersten durch die Tonhöhen-Wellensignal wiederherstellenden Mittel wiederhergestellte Tonhöhen-Wellensignal und der durch das Differenzialsignal dargestellten Welle darstellt; und Sprachsignal wiederherstellende Mittel zum Erzeugen eines Sprachsignals, das den zweiten Sprachlaut basierend auf den Tonhöhendaten und den zweiten Tonhöhen-Wellendaten darstellt.
- Sprachsignal verdichtendes Verfahren, die folgenden Schritte umfassend: die Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; das jeweilige Erweitern oder Verdichten der Tonhöhen-Wellenelemente auf einer Zeitachse, das mit jeder der erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch jedes Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen; und die Einzelkodierung eines Wertes der jeweils momentan erkannten Tonhöhenperiode und eines Signals, das das normalisierte Tonhöhen-Wellenelement mit der vorgegebenen, festgelegten Zeitdauer, die durch die Umsetzung erhalten wird, dargestellt.
- Sprachsignal verdichtendes Verfahren, wobei ein die Welle eines ersten zu verdichtenden Sprachlauts darstellendes Sprachsignal erhalten wird, und die Zeitdauer der jeweils einer Einheitstonhöhe des Sprachsignals gleichwertigen Abschnitte im Wesentlichen identisch gemacht werden, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; eine Grundfrequenzkomponente und eine harmonische Wellenkomponente des ersten Sprachlauts vom Tonhöhen-Wellensignal extrahiert wird; Unterbandinformationen mit der höchsten Harmonisierung mit einer mit der Zeit auftretenden Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente, die durch die Unterband extrahierenden Mittel extrahiert worden sind, von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente eines zweiten Sprachlauts zum Erzeugen eines Unterschieds aufzeigt, identifiziert werden; ein Differenzialsignal, das einen Unterschied zwischen der Welle des ersten Sprachlauts und der Welle des durch die Unterbandinformationen darstellenden zweiten Sprachlauts basierend auf dem Sprachsignal und der durch die Wiedergewinnungsmittel identifizierten Unterbandinformationen darstellt, ERZEUGT wird; und ein Kennungscode zum Identifizieren der durch die Wiedergewinnungsmittel und dem Differenzsignal identifizierten Unterbandinformationen ausgegeben wird.
- Sprachsignal erweiterndes Verfahren, wobei ein Kennungscode zum Bestimmen von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente auf einem ersten Tonhöhen-Wellensignal aufweisen, erzeugt durch das im Wesentlichen Identischmachen der Zeitlängen der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines ersten Sprachlauts darstellenden Sprachsignals, einem den Unterschied zwischen der Welle eines zweiten wiederherzustellenden Sprachlauts und der Welle eines ersten Sprachlauts darstellenden Differenzialsignal, und den Tonhöhendaten, die die Zeitlänge eines der Einheitstonhöhe des Sprachlauts gleichwertigen Abschnitts aufzeigen, gleichwertig ist, erhalten wird; Unterbandinformationen, die durch den von den Eingabemitteln erhaltenen Kennungscode der Unterbandinformationen identifiziert sind, erhalten werden, und das erste Tonhöhen-Wellensignal basierend auf den erhaltenen Unterbandinformationen wiederhergestellt wird; ein zweites Tonhöhen-Wellensignal erzeugt wird, das die Summe der Welle des ersten wiederhergestellten Tonhöhen-Wellensignals und der durch das Differenzialsignal dargestellten Welle darstellt; und ein Sprachsignal, das den zweiten Sprachlaut basierend auf den Tonhöhendaten und den zweiten Tonhöhen-Wellendaten darstellt, erzeugt wird.
- Sprache generierende Vorrichtung, umfassend: Speichermittel zum Speichern von Rhythmusinformationen, die den Rhythmus einer Probe eines Einheitssprachlauts darstellen, Tonhöheninformationen, die die Tonhöhe der Probe darstellen, und Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente eines Tonhöhen-Wellensignals aufzeigen, die durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle einer Probe darstellenden Sprachsignals gleichwertig sind, mit solchen Informationen erzeugt wird, die in Übereinstimmung mit der Probe gebracht werden; Vorhersagemittel zur Eingabe von Textinformationen, die einen Text darstellen, und Vorhersageinformationen erzeugen, die das Ergebnis der Vorhersage der Tonhöhe und des Spektrums eines den Text bildenden Einheitssprachlauts darstellen, basierend auf den Textinformationen; Wiedergewinnungsmittel zum Identifizieren einer Probe mit einer Tonhöhe und einem Spektrum, die die höchste Harmonisierung mit der Tonhöhe und dem Spektrum eines Einheitssprachlauts hat, die den Text basierend auf den Tonhöheninformationen, den Spektrumsinformationen, und den Vorhersageinformationen bildet; und Signal generierende Mittel zum Erzeugen eines generierten Sprachsignals, das einen Sprachlaut darstellt, in welchem der Sprachlaut einen Rhythmus hat, der durch die Rhythmusinformationen dargestellt wird, die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebracht worden ist, wobei die mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Spektrumsinformationen dargestellt wird, und die Zeitdauer des Abschnitts, der der Einheitstonhöhe gleichwertig ist, eine Zeitdauer ist, die durch die Tonhöheninformationen durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Tonhöheninformationen dargestellt wird.
- Sprache generierende Vorrichtung nach Anspruch 20, wobei die Spektrumsinformationen durch Daten gebildet werden, die das Ergebnis von dem nichtlinearen Quanteln des Volumens darstellen, das eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Tonhöhen-Wellensignals darstellt.
- Sprachverzeichnis erzeugende Vorrichtung, umfassend: Tonhöhen-Wellensignal erzeugende Mittel zum Erhalt eines Sprachsignals, das die Welle eines Einheitssprachlauts darstellt, und im Wesentlichen die Zeitdauer der Abschnitte identisch macht, die der Einheitstonhöhe des Sprachsignals gleichwertig sind, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Tonhöheninformationen erzeugende Mittel zum Erzeugen von Ausgabe-Tonhöheninformationen, die die Original-Zeitdauer des Abschnitts darstellt; Spektrumsinformationen extrahierende Mittel zum Erzeuund zur Ausgabe von Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals basierend auf dem Tonhöhen-Wellensignal aufweist; und Rhythmusinformationen erzeugende Mittel zum Erhalt von phonetischen Daten, die Lautzeichen darstellen, die die Aussprache des Einheitssprachlauts darstellen, die den Rhythmus der durch die phonetischen Daten dargestellte Aussprache festlegt, und den festgestellten Rhythmus darstellende Rhythmusinformationen erzeugt und ausgibt.
- Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 22, wobei die Spektrumsinformationen extrahierenden Mittel folgendes umfassen: einen variablen Filter mit gemäß der Kontrolle variierten Frequenzmerkmalen zum Filtern des Sprachsignals, wodurch eine Grundfrequenzkomponente des Sprachsignals extrahiert wird; Filtermerkmal feststellende Mittel, die die Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Frequenzkomponente identifizieren, und den variablen Filter so kontrollieren, dass Frequenzmerkmale erhalten werden, sodass Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Sprachsignals gleichwertig ist; und eine Tonhöhenlänge festlegende Einheit, die ein Tonhöhen-Wellensignal mit einer Zeitdauer im jeweiligen Abschnitt, die im Wesentlichen identisch ist durch Abtasten des Sprachsignals im jeweiligen Abschnitt des Sprachsignals mit im Wesentlichen der gleichen Anzahl an Proben erzeugt.
- Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 23, wobei die Filtermerkmal festlegenden Mittel Gegenerkennungsmittel zum Identifizieren einer Periode umfassen, in der die durch den variablen Filter extrahierte Grundfrequenzkomponente einen vorgegebenen Wert erreicht, und die Grundfrequenz basierend auf der identifizierten Periode identifiziert wird.
- Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 24, wobei die Filtermerkmal festlegenden Mittel folgendes umfassen: die durchschnittliche Tonhöhe erkennende Mittel, zur Erkennung der Tonhöhenlänge eines durch ein Sprachsignal dargestellten Sprachlautes vor dem Filtern basierend auf dem Sprachsignal; und Feststellungsmittel, zum Feststellen, ob ein Unterschied um einen vorgegebenen Betrag, oder größer, zwischen der durch die Gegenerkennungseinheit identifizierten Periode und der durch die durchschnittliche Tonhöhe erkennende Einheit identifizierte Tonhöhenlänge besteht, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die Gegenerkennungseinheit identifizierten Grundfrequenz existierenden abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied nicht besteht, und den variable Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die durchschnittliche Tonhöhen erkennende Einheit identifizierten Grundfrequenz, die aus der Tonhöhenlänge identifiziert wird, abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied besteht.
- Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 25, wobei die die durchschnittliche Tonhöhe erkennenden Mittel folgendes umfassen: Cepstralanalysmittel zum Feststellen einer Frequenz, bei der das Cepstrum eines Sprachsignals vor dem Filtern durch den variablen Filter einen Höchstwert hat; Analysemittel zur selbstständigen Harmonisierung zur Feststellung einer Frequenz, bei der das Periodogramm der selbstständigen Harmonisierungsfunktion eine s Sprachsignals vor dem Filtern durch den variablen Filter einen Höchstwert hat; und den Durchschnitt ausrechnende Mittel zur Feststellung des Durchschnitts der Tonhöhen des durch das Sprachsignal dargestellten Sprachlauts basierend auf den durch die Cepstralanalysemittel und auf den durch die Analysemittel zur selbständigen Harmonisierung festgestellten Frequenzen feststellen, und die den festgestellten Durchschnitt als die Zeitdauer der Tonhöhe des Einheitssprachlauts identifizieren.
- Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 26, wobei die Spektrumsinformationen extrahierenden Mittel Daten erzeugen, die das Ergebnis von dem linearen Quanteln des Wertes darstellen, der eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals aufweist, und die Daten als Spektrumsinformationen ausgeben.
- Sprachgenerationsverfahren, wobei Rhythmusinformationen, die den Rhythmus einer Probe eines Einheitssprachlauts darstellen, Tonhöheninformationen, die die Tonhöhe der Probe darstellen, und Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente eines Tonhöhen-Wellensignals aufzeigen, die durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines die Welle einer Probe darstellenden Sprachsignals gleichwertige sind, mit solchen Informationen gespeichert werden, die in Übereinstimmung mit der Probe gebracht werden; Textinformationen, die einen eingegebenen Text darstellen, und Vorhersageinformationen, die das Ergebnis der Vorhersage der Tonhöhe und des Spektrums eines den Text bildenden Einheitssprachlauts darstellen, basierend auf den Textinformationen erzeugt werden; eine Probe mit einer Tonhöhe und einem Spektrum, die die höchste Harmonisierung mit der Tonhöhe und dem Spektrum eines Einheitssprachlauts hat, die den Text basierend auf den Tonhöheninformationen, den Spektrumsinformationen, und den Vorhersageinformationen bildet, identifiziert wird; und ein generiertes Sprachsignal, das einen Sprachlaut darstellt, in welchem der Sprachlaut einen Rhythmus hat, der durch die Rhythmusinformationen dargestellt wird, die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebracht worden ist, wobei die mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Spektrumsinformationen dargestellt wird, und die Zeitdauer des Abschnitts, der der Einheitstonhöhe gleichwertig ist, eine Zeitdauer ist, die durch die Tonhöheninformationen durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Tonhöheninformationen dargestellt wird, erzeugt wird.
- Sprachverzeichnis erzeugendes Verfahren, wobei ein Sprachsignal erhalten wird, das die Welle eines Einheitssprachlauts darstellt, und im Wesentlichen die Zeitdauer der Abschnitte identisch gemacht wird, die der Einheitstonhöhe des Sprachsignals gleichwertig sind, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Tonhöheninformationen, die die Original-Zeitdauer des Abschnitts darstellen, erzeugt und ausgegeben werden; Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals aufweisen, basierend auf dem Tonhöhen-Wellensignal erzeugt und ausgegeben werden; und phonetischen Daten, die Lautzeichen darstellen, die die Aussprache des Einheitssprachlauts darstellen, erhalten werden, der Rhythmus der durch die phonetischen Daten dargestellte Aussprache festgelegt wird, und die den festgestellten Rhythmus darstellende Rhythmusinformationen erzeugt und ausgegeben werden.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001263395 | 2001-08-31 | ||
JP2001263395 | 2001-08-31 | ||
JP2001298610 | 2001-09-27 | ||
JP2001298609 | 2001-09-27 | ||
JP2001298609 | 2001-09-27 | ||
JP2001298610 | 2001-09-27 | ||
PCT/JP2002/008837 WO2003019527A1 (fr) | 2001-08-31 | 2002-08-30 | Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant |
Publications (1)
Publication Number | Publication Date |
---|---|
DE02765393T1 true DE02765393T1 (de) | 2005-01-13 |
Family
ID=27347409
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE07003891T Pending DE07003891T1 (de) | 2001-08-31 | 2002-08-30 | Vorrichtung und Verfahren zur Erzeugung von Tonhöhenwellensignalen und Vorrichtung sowie Verfahren zum Komprimieren, Erweitern und Synthetisieren von Sprachsignalen unter Verwendung dieser Tonhöhenwellensignale |
DE02765393T Pending DE02765393T1 (de) | 2001-08-31 | 2002-08-30 | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit |
DE60234195T Expired - Lifetime DE60234195D1 (de) | 2001-08-31 | 2002-08-30 | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit |
DE60232560T Expired - Lifetime DE60232560D1 (de) | 2001-08-31 | 2002-08-30 | Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE07003891T Pending DE07003891T1 (de) | 2001-08-31 | 2002-08-30 | Vorrichtung und Verfahren zur Erzeugung von Tonhöhenwellensignalen und Vorrichtung sowie Verfahren zum Komprimieren, Erweitern und Synthetisieren von Sprachsignalen unter Verwendung dieser Tonhöhenwellensignale |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60234195T Expired - Lifetime DE60234195D1 (de) | 2001-08-31 | 2002-08-30 | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit |
DE60232560T Expired - Lifetime DE60232560D1 (de) | 2001-08-31 | 2002-08-30 | Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz. |
Country Status (5)
Country | Link |
---|---|
US (2) | US7630883B2 (de) |
EP (2) | EP1422690B1 (de) |
CN (1) | CN1324556C (de) |
DE (4) | DE07003891T1 (de) |
WO (1) | WO2003019527A1 (de) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1224956C (zh) * | 2001-08-31 | 2005-10-26 | 株式会社建伍 | 基音波形信号发生设备、基音波形信号发生方法及程序 |
JP3881932B2 (ja) * | 2002-06-07 | 2007-02-14 | 株式会社ケンウッド | 音声信号補間装置、音声信号補間方法及びプログラム |
DE04735990T1 (de) * | 2003-06-05 | 2006-10-05 | Kabushiki Kaisha Kenwood, Hachiouji | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm |
MXPA06002241A (es) * | 2003-08-26 | 2006-08-31 | Clearplay Inc | Metodo y aparato para controlar el funcionamiento de una senal de audio. |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
JP4446072B2 (ja) * | 2004-07-23 | 2010-04-07 | 株式会社ディーアンドエムホールディングス | オーディオ信号出力装置 |
JP2006191316A (ja) * | 2005-01-05 | 2006-07-20 | Freescale Semiconductor Inc | 音声信号処理装置 |
US8850011B2 (en) | 2005-04-21 | 2014-09-30 | Microsoft Corporation | Obtaining and displaying virtual earth images |
JP4599558B2 (ja) * | 2005-04-22 | 2010-12-15 | 国立大学法人九州工業大学 | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 |
WO2007004397A1 (ja) * | 2005-07-01 | 2007-01-11 | Pioneer Corporation | 音響信号処理装置、音響信号処理方法、音響信号処理プログラムおよびコンピュータに読み取り可能な記録媒体 |
US8089349B2 (en) | 2005-07-18 | 2012-01-03 | Diego Giuseppe Tognola | Signal process and system |
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
KR20070077652A (ko) * | 2006-01-24 | 2007-07-27 | 삼성전자주식회사 | 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법 |
KR100762596B1 (ko) * | 2006-04-05 | 2007-10-01 | 삼성전자주식회사 | 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법 |
JP4757130B2 (ja) * | 2006-07-20 | 2011-08-24 | 富士通株式会社 | ピッチ変換方法及び装置 |
US8271284B2 (en) * | 2006-07-21 | 2012-09-18 | Nec Corporation | Speech synthesis device, method, and program |
US20080260169A1 (en) * | 2006-11-06 | 2008-10-23 | Plantronics, Inc. | Headset Derived Real Time Presence And Communication Systems And Methods |
US9591392B2 (en) * | 2006-11-06 | 2017-03-07 | Plantronics, Inc. | Headset-derived real-time presence and communication systems and methods |
CN1975861B (zh) * | 2006-12-15 | 2011-06-29 | 清华大学 | 声码器基音周期参数抗信道误码方法 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
KR100922897B1 (ko) * | 2007-12-11 | 2009-10-20 | 한국전자통신연구원 | Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법 |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
KR101475724B1 (ko) * | 2008-06-09 | 2014-12-30 | 삼성전자주식회사 | 오디오 신호 품질 향상 장치 및 방법 |
WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8204444B2 (en) * | 2009-02-04 | 2012-06-19 | Qualcomm Incorporated | Adjustable transmission filter responsive to internal sadio status |
CN102822888B (zh) * | 2010-03-25 | 2014-07-02 | 日本电气株式会社 | 话音合成器和话音合成方法 |
US8762158B2 (en) * | 2010-08-06 | 2014-06-24 | Samsung Electronics Co., Ltd. | Decoding method and decoding apparatus therefor |
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
JP6131574B2 (ja) * | 2012-11-15 | 2017-05-24 | 富士通株式会社 | 音声信号処理装置、方法、及びプログラム |
US9060223B2 (en) | 2013-03-07 | 2015-06-16 | Aphex, Llc | Method and circuitry for processing audio signals |
KR102251833B1 (ko) * | 2013-12-16 | 2021-05-13 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
CN105448297A (zh) * | 2014-08-28 | 2016-03-30 | 中国移动通信集团公司 | 一种获取基音周期的方法及装置 |
US9685169B2 (en) * | 2015-04-15 | 2017-06-20 | International Business Machines Corporation | Coherent pitch and intensity modification of speech signals |
KR20180078252A (ko) * | 2015-10-06 | 2018-07-09 | 인터랙티브 인텔리전스 그룹, 인코포레이티드 | 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법 |
CN109346105B (zh) * | 2018-07-27 | 2022-04-15 | 南京理工大学 | 直接显示基音周期轨迹的基音周期谱图方法 |
CN109670185B (zh) * | 2018-12-27 | 2023-06-23 | 北京百度网讯科技有限公司 | 基于人工智能的文本生成方法和装置 |
CN111064706B (zh) * | 2019-11-25 | 2021-10-22 | 大连大学 | 一种mRMR-SVM的空间网络数据流检测方法 |
CN117133270B (zh) * | 2023-09-06 | 2024-07-26 | 联通(广东)产业互联网有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6040629B2 (ja) | 1981-12-08 | 1985-09-11 | 松下電器産業株式会社 | 音素片編集型音声合成の補間方式 |
JPS58188000A (ja) | 1982-04-28 | 1983-11-02 | 日本電気株式会社 | 音声認識合成装置 |
JPS5977498A (ja) | 1982-10-25 | 1984-05-02 | 富士通株式会社 | 音声特徴パラメータの圧縮装置 |
EP0248593A1 (de) * | 1986-06-06 | 1987-12-09 | Speech Systems, Inc. | Vorverarbeitungssystem zur Spracherkennung |
JP2558658B2 (ja) | 1986-11-13 | 1996-11-27 | 博也 藤崎 | 基本周波数分析装置 |
JPH0266598A (ja) | 1988-09-01 | 1990-03-06 | Matsushita Electric Ind Co Ltd | 音声信号圧縮伸張装置 |
JP2876604B2 (ja) | 1988-11-19 | 1999-03-31 | ソニー株式会社 | 信号圧縮方法 |
US5430241A (en) | 1988-11-19 | 1995-07-04 | Sony Corporation | Signal processing method and sound source data forming apparatus |
JP2600384B2 (ja) | 1989-08-23 | 1997-04-16 | 日本電気株式会社 | 音声合成方法 |
JP2968976B2 (ja) | 1990-04-04 | 1999-11-02 | 邦夫 佐藤 | 音声認識装置 |
JPH04127747A (ja) * | 1990-09-19 | 1992-04-28 | Toshiba Corp | 可変レート符号化方式 |
JP3297749B2 (ja) | 1992-03-18 | 2002-07-02 | ソニー株式会社 | 符号化方法 |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
CN1064773C (zh) * | 1993-06-30 | 2001-04-18 | 索尼公司 | 数字信号的编码方法和解码方法 |
JPH07129196A (ja) | 1993-11-08 | 1995-05-19 | Matsushita Electric Ind Co Ltd | 音声波形切出し装置、音声波形成形装置および音声合成装置 |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
JP3528258B2 (ja) * | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
EP0706172A1 (de) * | 1994-10-04 | 1996-04-10 | Hughes Aircraft Company | Sprachkodierer und Dekodierer mit niedriger Bitrate |
JP2805598B2 (ja) * | 1995-06-16 | 1998-09-30 | ヤマハ株式会社 | 演奏位置検出方法およびピッチ検出方法 |
JPH0981188A (ja) | 1995-09-13 | 1997-03-28 | Toshiba Corp | 音声分析システム及び音声波形のピッチの時間的基準位置付与方法 |
US5933808A (en) * | 1995-11-07 | 1999-08-03 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms |
AU7723696A (en) * | 1995-11-07 | 1997-05-29 | Euphonics, Incorporated | Parametric signal modeling musical synthesizer |
JP3840684B2 (ja) * | 1996-02-01 | 2006-11-01 | ソニー株式会社 | ピッチ抽出装置及びピッチ抽出方法 |
JP3424787B2 (ja) * | 1996-03-12 | 2003-07-07 | ヤマハ株式会社 | 演奏情報検出装置 |
BE1010336A3 (fr) * | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
JPH10149187A (ja) | 1996-11-19 | 1998-06-02 | Yamaha Corp | 音声情報抽出装置 |
JP3349905B2 (ja) | 1996-12-10 | 2002-11-25 | 松下電器産業株式会社 | 音声合成方法および装置 |
JP3112654B2 (ja) * | 1997-01-14 | 2000-11-27 | 株式会社エイ・ティ・アール人間情報通信研究所 | 信号分析方法 |
JP3618217B2 (ja) * | 1998-02-26 | 2005-02-09 | パイオニア株式会社 | 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体 |
JP4641620B2 (ja) * | 1998-05-11 | 2011-03-02 | エヌエックスピー ビー ヴィ | ピッチ検出の精密化 |
JPH11327594A (ja) * | 1998-05-13 | 1999-11-26 | Ricoh Co Ltd | 音声合成辞書作成システム |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
DE69925932T2 (de) * | 1998-11-13 | 2006-05-11 | Lernout & Hauspie Speech Products N.V. | Sprachsynthese durch verkettung von sprachwellenformen |
EP1039442B1 (de) | 1999-03-25 | 2006-03-01 | Yamaha Corporation | Verfahren und Vorrichtung zur Wellenformkomprimierung und Erzeugung |
WO2000065572A1 (fr) * | 1999-04-27 | 2000-11-02 | Hitachi, Ltd. | Appareil de synthese de la parole, procede de synthese de la parole, et support d'enregistrement |
CN1136538C (zh) * | 1999-05-21 | 2004-01-28 | 松下电器产业株式会社 | 语音识别用的输入语音音程标准化装置 |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
JP4416244B2 (ja) * | 1999-12-28 | 2010-02-17 | パナソニック株式会社 | 音程変換装置 |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
US20020184009A1 (en) * | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
US6584437B2 (en) * | 2001-06-11 | 2003-06-24 | Nokia Mobile Phones Ltd. | Method and apparatus for coding successive pitch periods in speech signal |
CN1224956C (zh) * | 2001-08-31 | 2005-10-26 | 株式会社建伍 | 基音波形信号发生设备、基音波形信号发生方法及程序 |
-
2002
- 2002-08-30 CN CNB028028139A patent/CN1324556C/zh not_active Expired - Lifetime
- 2002-08-30 US US10/415,437 patent/US7630883B2/en not_active Expired - Lifetime
- 2002-08-30 DE DE07003891T patent/DE07003891T1/de active Pending
- 2002-08-30 DE DE02765393T patent/DE02765393T1/de active Pending
- 2002-08-30 DE DE60234195T patent/DE60234195D1/de not_active Expired - Lifetime
- 2002-08-30 DE DE60232560T patent/DE60232560D1/de not_active Expired - Lifetime
- 2002-08-30 WO PCT/JP2002/008837 patent/WO2003019527A1/ja active Application Filing
- 2002-08-30 EP EP02765393A patent/EP1422690B1/de not_active Expired - Lifetime
- 2002-08-30 EP EP07003891A patent/EP1793370B1/de not_active Expired - Lifetime
-
2007
- 2007-03-09 US US11/715,937 patent/US7647226B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1793370A3 (de) | 2007-09-19 |
US7630883B2 (en) | 2009-12-08 |
US20070174056A1 (en) | 2007-07-26 |
EP1422690A1 (de) | 2004-05-26 |
EP1422690A4 (de) | 2007-05-23 |
EP1422690B1 (de) | 2009-10-28 |
CN1324556C (zh) | 2007-07-04 |
DE07003891T1 (de) | 2007-11-08 |
US7647226B2 (en) | 2010-01-12 |
US20040030546A1 (en) | 2004-02-12 |
WO2003019527A1 (fr) | 2003-03-06 |
EP1793370A2 (de) | 2007-06-06 |
EP1793370B1 (de) | 2009-06-03 |
DE60234195D1 (de) | 2009-12-10 |
CN1473322A (zh) | 2004-02-04 |
DE60232560D1 (de) | 2009-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE02765393T1 (de) | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit | |
DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE10109648C2 (de) | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE3687815T2 (de) | Verfahren und vorrichtung zur sprachanalyse. | |
DE2918533C2 (de) | ||
DE69329511T2 (de) | Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten | |
DE69421911T2 (de) | Spracherkennung mit pausedetektion | |
DE60133757T2 (de) | Verfahren und vorrichtung zur kodierung von stimmloser sprache | |
DE10134471C2 (de) | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals | |
DE69620560T2 (de) | Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
WO2002093550A2 (de) | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen unter verwendung einer autokorrelationsfunktion | |
Abdallah et al. | If the independent components of natural images are edges, what are the independent components of natural sounds | |
DE69127134T2 (de) | Sprachkodierer | |
DE69618408T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE60302478T2 (de) | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale | |
DE60034772T2 (de) | Zurückweisungsverfahren in der spracherkennung | |
DE69706650T2 (de) | System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung | |
DE69512961T2 (de) | Spracherkennung auf Grundlage von "HMMs" | |
DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
DE69703233T2 (de) | Verfahren und Systeme zur Sprachkodierung | |
DE69026474T2 (de) | System zur Spracherkennung | |
DE69128990T2 (de) | Sprecherkennungsvorrichtung |