DE10252327A1

DE10252327A1 - Process for widening the bandwidth of a narrow band filtered speech signal especially from a telecommunication device divides into signal spectral structures and recombines

Info

Publication number: DE10252327A1
Application number: DE2002152327
Authority: DE
Inventors: Stefano Ambrosius Dr. Klinke; Frank Lorenz
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2002-11-11
Filing date: 2002-11-11
Publication date: 2004-05-27
Also published as: WO2004044894A1; AU2003278058A1; EP1561205A1

Abstract

A process to widen the bandwidth of a narrow band filtered speech signal, especially in telecommunications, comprises dividing the signal into intervals to give a spectral structure and classify as voiced or non-voiced. Spectral restorations are performed (EG1,EG2) and combined (EG3) and combined with the narrow band interval to give a broadband structure.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Erweiterung der Brandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals gemäß dem Oberbegriff des Patentanspruches 1.The present invention relates to a method of expanding the bandwidth of a narrowband filtered speech signal, in particular a speech signal sent by a telecommunication device according to the generic term of claim 1.

Sprachcodierverfahren sind durch ihre unterschiedlichen Bandbreiten charakterisiert. So gibt es beispielsweise Schmalband-Codierer (engl.: narrow-band coder), welche Sprachsignale, die im Frequenzbereich bis 4000 Hz liegen, in codierte Sprachsignale umsetzen und Breitband-Codierer (engt.: wideband coder), welche Sprachsignale, die typischerweise zwischen 50 und 7000 Hz liegen, in codierte Sprachsignale umsetzen. Die Sprachsignale, die dem Schmalband-Codierer zugeführt werden, werden dabei in der Regel mit einer geringeren Abtastrate abgetastet als die Sprachsignale, die dem Breitband-Codierer zugeführt werden. Dafür ist die Nettobitrate des Schmalband-Codierers in der Regel niedriger als die Nettobitrate des Breitband-Codierers.Speech coding procedures are through characterized their different bandwidths. For example, there is Narrow-band coder, which speech signals, which are in the frequency range up to 4000 Hz, in coded speech signals implement and broadband encoder (narrow: wideband coder) which Speech signals, which are typically between 50 and 7000 Hz, convert into coded speech signals. The speech signals sent to the narrowband encoder supplied are, as a rule, with a lower sampling rate sampled as the speech signals that are supplied to the broadband encoder. For that is the net bit rate of the narrowband encoder is usually lower than the net bit rate of the broadband encoder.

Werden die codierten Sprachsignale verschiedener Bandbreite innerhalb des gleichen Kanalmodus übertragen, so ermöglicht dies die Anwendung verschiedener Raten bei der Kanalcodierung, was zu unterschiedlichem Fehlerschutz führt. So ist es bei Anwendung des gleichen Kanalmodus möglich, bei schlechten Übertragungsbedingungen über den Übertragungskanal den schmalbandigen codierten Sprachsignalen im Zuge der Kanalcodierung mehr redundante Fehlerschutzbits hinzuzufügen als den breitbandigen codierten Sprachsignalen. Daher bietet sich bei variierenden Übertragungsbedingungen die Übertragung von Sprachsignalen über einen Übertragungskanal an, bei der ab hängig von den Übertragungsbedingungen die Sprachcodierung zwischen einer breitbandigen und einer schmalbandigen Sprachcodierung umgeschaltet ["Wide-Band" to Narrow-Band"-Switching ("WB/NB"-Switching)] und die Kanalcodierung, insbesondere die Rate der Kanalcodierung, daran angepaßt wird. Empfangsseitig erfolgt eine an die Codierung angepaßte Decodierung der codierten Sprachsignale.Will the coded speech signals transmit different bandwidth within the same channel mode, so enables this the application of different rates in channel coding what leads to different error protection. So it is with application the same channel mode possible, in the event of poor transmission conditions via the transmission channel the narrow-band coded speech signals in the course of channel coding more add redundant error protection bits than the broadband encoded Speech signals. Therefore, it offers itself with varying transmission conditions the transfer of voice signals over a transmission channel dependent on from the transmission conditions the speech coding between a broadband and a narrowband speech coding switched ["wide-band" to narrow-band "switching (" WB / NB "switching)] and the channel coding, in particular the rate of the channel coding, thereon customized becomes. At the receiving end there is a decoding adapted to the coding the coded speech signals.

Bei dem neuen Telekommunikationssystem zur drahtlosen Telekommunikation UMTS (Universal Mobile Telecommunications System") ist beispielsweise eine Breitband-Codierung standardisiert worden, um mit den zukünftigen UMTS-Endgeräten eine sehr gute Sprachqualität zu gewährleisten.With the new telecommunication system for wireless telecommunications UMTS (Universal Mobile Telecommunications System ") is for example Broadband coding has been standardized to match future ones UMTS terminals a very good voice quality to ensure.

Nachteilig bei einem derartigen Ansatz ist, dass ein empfangender Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfindet.A disadvantage of such an approach is that a receiving participant especially the sudden Switch from broadband coding to narrowband coding and the associated loss of quality feels extremely disturbing.

Dieses sogenannte "WB/NB-Switching"-Problem kann auch bei der Handover-Situation in Telekommunikationssystemen zur drahtlosen Telekommunikation mit mehreren Basisstationen und Mobilteilen, wobei die Basisstationen unterschiedlichen Telekommunikationsteilsystemen zugeordnet sind und die Mobilteilen innerhalb des Systems für ein teilsystemübergreifendes Roaming als Dual-Mode-Mobilteilen ausgebildet sind, auftreten: Ausgangspunkt der Betrachtungen ist eine bestehende breitbandige Gesprächsverbindung zwischen einer Basisstation und einem Mobilteil. Wenn nun für das Mobilteil bzw. den Gesprächsteilnehmer eine Übergabe (Handover) an eine andere Basisstation durchgeführt wird, kann der Fall eintreten, dass die übernehmende Basisstation zu einem Teilsystem gehört, welches den breitbandigen Sprachservice nicht unterstützt. Aus diesem Grunde wird dann auf die schmalbandige Codierung und Decodierung zurückgeschaltet.This so-called "WB / NB switching" problem can also in the handover situation in telecommunication systems for wireless Telecommunications with multiple base stations and handsets, where the base stations different telecommunication subsystems are assigned and the handsets within the system for a cross-subsystem Roaming as dual-mode handsets occur: starting point of the Considerations is an existing broadband call connection between a base station and a handset. If now for the handset or the participant a handover (Handover) to another base station, the case can occur that the takeover Base station belongs to a subsystem that the broadband Voice service not supported. For this reason, the narrowband coding and Decoding switched back.

Auch in diesem Szenario wird der empfangende Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfinden.In this scenario too receiving subscribers in particular the sudden switching of broadband coding on narrowband coding and the associated loss of quality find it extremely disturbing.

Basisstationen, die wie oben beschrieben keine breitbandige Gesprächsverbindung unterstützen, sowie andere Telekommunikationsendgeräte, welche lediglich Schmalband-Codierung oder analoge Sprachsignalübertragung im Bereich von typisch 300 bis 3400 Hz ermöglichen, sind noch weit verbreitet, da die bisher bekannten Telekommunikationssysteme Sprachsignale bisher im Allgemeinen mit einer Bandbreite von etwa 3,1 kHz zwischen 3400 Hz und 300 Hz übertragen, da die Verständlichkeit der Kommunikation trotz der damit gegebenen Bandbegrenzung der Sprache ausreichend ist. Zur Übertragung der Sprachsignale verwenden die bisher bekannten Telekommunikationssysteme dabei verschiedene digitale und analoge Codierverfahren.Base stations that do not, as described above broadband call connection support, as well as other telecommunications terminals, which are only narrowband coding or analog voice signal transmission in the typical 300 to 3400 Hz range are still widespread, since the previously known telecommunications systems voice signals so far generally with a bandwidth of about 3.1 kHz between 3400 Hz and 300 Hz transmitted, because the intelligibility communication in spite of the given band limitation of the language is sufficient. To transfer the Voice signals use the previously known telecommunication systems various digital and analog coding methods.

Um eine Qualitätsverbesserung derart zu erzielen, dass eine Sprachqualität in Telekommunikationssystemen mit der Sprachqualität bei Radio- und Fernsehsignalen vergleichbar ist, wird es erforderlich, Frequenzanteile der Sprache, die über die Bandbreite von 300 Hz bis 3400 Hz hinausgehen, empfängerseitig abzuschätzen und zu synthetisieren.To achieve a quality improvement like this that a voice quality in telecommunication systems with the voice quality at radio and television signals is comparable, it becomes necessary to share frequencies the language that over the bandwidth goes from 300 Hz to 3400 Hz on the receiver side estimate and synthesize.

Im Stand der Technik sind verschiedene Verfahren bekannt, die eine Erweiterung der Bandbreite eines schmalbandigen Sprachsignals ermöglichen.There are several in the prior art Known methods of expanding the bandwidth of a narrowband Enable speech signal.

In vielen Verfahren der digitalen Sprachcodierung wird das digitale Sprachsignal zur Weiterverarbeitung und Übertragung in Koeffizienten, welche die spektrale Grobstruktur eines Signalabschnitts beschreiben, und ein sogenanntes Restsignal (auch Prädiktionsfehlersignal genannt) aufgespalten, welches die spektrale Feinstruktur bildet. Dieses Restsignal enthält nicht mehr die spektrale Einhüllende des Sprachsignals, wel the durch die Koeffizienten, die die spektrale Grobstruktur beschreiben, repräsentiert wird.In many digital processes Speech coding becomes the digital speech signal for further processing and transmission in coefficients that represent the spectral rough structure of a signal section describe, and a so-called residual signal (also prediction error signal called) split, which forms the spectral fine structure. This Contains residual signal no longer the spectral envelope of the speech signal, wel the by the coefficients that the spectral Describe rough structure, represented becomes.

Auf der Decoderseite werden diese beiden – meist quantisiert übertragenen – Teile, welche die spektrale Grob- und Feinstruktur beschrieben, wieder zusammengefügt und bilden das decodierte Sprachsignal.On the decoder side, these two - mostly quantized transmitted - parts that describe the spectral coarse and fine structure, put together again and form the decoded speech signal.

Eine typische Repräsentation für die spektrale Grobstruktur bilden die LPC-Koeffizienten, welche ein rekursives Filter (sogenanntes Synthesefilter) beschreiben, dessen übertragungsfunktion der spektralen Grobstruktur entspricht. Diese Koeffizienten werden in ihrer eigentlichen oder einer transformierten Form in vielen Sprachcodern verwendet. Hierbei wird auf Empfängerseite das empfangene Restsignal als Eingangssignal für das Synthesefilter verwendet, so dass am Ausgang des Filters das rekonstruierte Sprachsignal verfügbar ist. Die LPC-Koeffizienten sind folglich eine Repräsentation der spektralen Grobstruktur eines Sprachsignalsabschnitts und können unter Verwendung eines passenden Anregungssignals zur Synthese von Sprachsignalen verwendet werden.A typical representation for the spectral coarse structure form the LPC coefficients, which one describe recursive filter (so-called synthesis filter), its transfer function corresponds to the rough spectral structure. These coefficients will be in its actual or a transformed form in many Voice encoders used. Here, the received residual signal on the receiver side as an input signal for uses the synthesis filter, so that at the output of the filter reconstructed speech signal available is. The LPC coefficients are therefore a representation the rough spectral structure of a speech signal section and can under Use of a suitable excitation signal for the synthesis of speech signals be used.

Aus der Druckschrift – Carl, H.; Heute, U.: „Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 – ist ein Verfahren zur Erweiterung der Bandbreite im oberen Frequenzbereich bekannt, das zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) basiert, die eine Relation zwischen den LPC-Koeffizienten (Linear Predictive Coding, lineare Prädiktionscodierung) eines schmalbandigen Sprachsignalabschnitts und denen eines breitbandigen Sprachsignalabschnitts bilden. Das hat zur Folge, dass die Codebücher gleichzeitig mit schmalbandiger und breitbandiger Sprache trainiert und im Kommunikationsendgerät abgespeichert werden müssen.From the publication - Carl, H.; Today, U .: “Bandwidth Enhancement of Narrow-Band Speech Signals ", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 - is a method for expanding the bandwidth in the upper frequency range known to evaluate the statistical properties of a narrowband speech signal on special language data books, the so-called code books (Codebooks) based, which is a relation between the LPC coefficients (Linear Predictive Coding) of a narrowband Speech signal section and those of a broadband speech signal section form. As a result, the code books simultaneously with narrowband and broadband language trained and stored in the communication terminal Need to become.

Außerdem wird aus dem schmalbandigen Restsignal, das durch die lineare Prädiktionsanalyse des schmalbandigen Sprachsignals erzeugt wurde, ein breitbandiges Anregungssignal erzeugt, welches Frequenzkomponenten oberhalb der Bandbreite des schmalbandigen Sprachsignals enthält.In addition, the narrowband residual signal, that by the linear prediction analysis of the narrowband speech signal was generated, a broadband excitation signal generates which frequency components are above the bandwidth of the narrowband Contains voice signal.

Versuche haben gezeigt, dass die aus den Codebüchern mittels LPC-Koeffizienten erhaltenen spektralen Grobstrukturen für das abzuschätzende Frequenzband häufig fehlerhaft sind, also z.B. bei stimmhaften Lauten zu viel Energie für das obere Frequenzband abschätzen, was zu einer schlechten Qualität der Bandbreitenerweiterung führt.Trials have shown that the from the code books Spectral coarse structures obtained by means of LPC coefficients for the frequency band to be estimated frequently are faulty, e.g. too much energy with voiced sounds for the estimate upper frequency band, resulting in poor quality the bandwidth expansion leads.

Aus der nachveröffentlichten Internationalen Anmeldung PCT/DE01/01826 ist ein alternatives Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals bekannt. Bei diesem Verfahren wird auf Basis des schmalbandigen Sprachsignals detektiert, ob das schmalbandige Sprachsignal einem stimmhaften Laut, einem stimmlosen Laut oder einer Kombination stimmhaft/stimmlos entspricht, und aufgrund der detektierten Lautart wird eine Auswahl getroffen, wie das schmalbandige Sprachsignal spektral erweitert wird. Hierbei wird auf Basis der getroffenen stimmhaft/stimmlos-Unterscheidung mindestens ein Parameter berechnet, der die Form der spektralen Struktur der oberen Erweiterung bestimmt, so dass schließlich eine Verknüpfung auf Basis des schmalbandigen Sprachsignals und der gewählten Ergänzung derart erfolgt, dass ein im oberen Frequenzbereich erweitertes Sprachsignal erzeugt wird oder auf Basis der Ergänzung ein breitbandiges Sprachsignal in voller Bandbreite erzeugt wird.From the post-published international application PCT / DE01 / 01826 is an alternative method to extend the Bandwidth of a narrowband speech signal is known. With this The method is detected on the basis of the narrowband speech signal, whether the narrowband speech signal is a voiced sound, a unvoiced sound or a combination of voiced / unvoiced and based on the type of sound detected, a selection is made, how the narrowband speech signal is spectrally expanded. in this connection is based on the voiced / unvoiced distinction at least calculates a parameter that reflects the shape of the spectral structure of the upper extension determines, so that finally a shortcut on The basis of the narrowband speech signal and the chosen supplement like this there is a voice signal that is expanded in the upper frequency range will or based on the supplement a broadband speech signal is generated in full bandwidth.

Nach dem Detektieren eines stimmhaften Lautes wird eine Ergänzung gewählt, die den typischen Verlauf der spektralen Struktur eines stimmhaften Lautes – mit einer vernachlässigbar geringen Signalenergie in Frequenzanteilen oberhalb einer Frequenzfrequenz – aufweist.After detecting a voiced sound will be a complement selected which the typical course of the spectral structure of a voiced Loud - with one negligible low signal energy in frequency components above a frequency frequency - has.

Diese Ergänzung kann stets die gleiche sein, unabhängig davon um welchen stimmhaften Laut – z.B. „a", „e" oder „i" – es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs für stimmhafte Laute entfällt.This addition can always be the same be independent of which voiced sound - e.g. "A", "e" or "i" - it is such that determining the sound and using a codebook for voiced Noises are omitted.

Nach dem Detektieren eines stimmlosen Lautes wird eine Ergänzung gewählt, die den typischen Verlauf der spektralen Grobstruktur eines stimmlosen Lautes aufweist, d.h. ein wesentlicher Teil der Signalenergie befindet sich oberhalb der oberen Grenzfrequenz des schmalbandigen Sprachsignals. Auf diese Weise kann einfach ohne genaue Kenntnis des Lautes eine Erweiterung des schmalbandigen Sprachsignals durchgeführt werden.After detecting an unvoiced sound will be a complement selected which the typical course of the spectral rough structure of a voiceless Has loud, i.e. a substantial part of the signal energy is located above the upper limit frequency of the narrowband speech signal. This way you can easily get a sound without knowing the sound Expansion of the narrowband speech signal can be performed.

Zwei alternative Ausführungsbeispiele, die auf dem oben beschriebenen Verfahren basieren, werden in der genannten PCT-Anmeldung auf den Seiten 7-8, Seiten 15-25 iVm den 1-2 beschrieben.Two alternative exemplary embodiments, which are based on the method described above, are in connection with the aforementioned PCT application on pages 7-8, pages 15-25 1 - 2 described.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, die Bandbreite eines schmalbandig gefilterten Sprachsignals auf einfache und kostengünstige Weise ohne Qualitätseinbußen zu erweitern und dabei die Nachteile aus dem vorstehend gewürdigten Stand der Technik zu vermeiden.The basis of the invention Task is the bandwidth of a narrowband filtered Voice signal in a simple and inexpensive way without quality loss and expand thereby the disadvantages from the prior art acknowledged above avoid.

Diese Aufgabe wird ausgehend von dem im Oberbegriff des Anspruchs 1 definierten Verfahren durch die im Kennzeichen des Anspruchs 1 angegebenen Merkmale gelöst.This task is based on the method defined in the preamble of claim 1 by the solved in the characterizing part of claim 1.

Die der Erfindung zugrundeliegende Idee besteht in der Kombination der aus dem vorstehend gewürdigten Stand der Technik bekannten Verfahren. Diese Kombination behebt die Nachteile beider Verfahren und ermöglicht das Erreichen eines optimalen Qualität des erweiterten Signals.The basis of the invention Idea consists in the combination of the one previously appreciated Methods known in the prior art. This combination fixes the disadvantages of both methods and enables one to be achieved optimal quality of the extended signal.

So wird das schmalbandig gefilterte Sprachsignal in bezug auf Frequenzanteile oberhalb der Grenzfrequenz derart geschätzt, dass zunächst das schmalbandige Sprachsignal in Sprachsignalzeitabschnitte unterteilt wird, jeweils eine spektrale Struktur aus den schmalbandigen Sprachsignalzeitabschnitten berechnet wird, jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter und/oder stimmloser Laut klassifiziert wird, erste eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals in bezug auf die vorgenommene lautartbezogene Klassifizierung erzeugt werden, wobei zumindest für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist, zweite eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals basierend auf allgemein bekannten Methoden zur Auswertung der statistischen Eigenschaften des schmalbandigen Sprachsignals erzeugt werden, wobei die Ergänzung abhängig von dem jeweiligen Laut ist, die beiden Ergänzungen, z.B durch Multiplikation gemäß Anspruch 8, verknüpft werden und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise derart verknüpft werden, dass jeweils eine erweiterte spektrale Struktur entsteht sowie anschließend auf der Basis der erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird, bevor abschließend aus den einzelnen breitbandigen erweiterten Sprachsignalzeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird.Thus, the narrowband filtered speech signal is estimated with respect to frequency components above the cutoff frequency in such a way that the narrowband speech signal is first divided into speech signal time segments, each a spectral structure is calculated from the narrowband speech signal time segments, each narrowband speech signal time segment is classified as a voiced and / or unvoiced sound, first additions with a spectral structure are generated to expand the narrowband speech signal with respect to the sound type-related classification, at least for the case of the voiced sound the addition is independent of the respective sound, second additions having a spectral structure for expanding the narrowband speech signal are generated based on generally known methods for evaluating the statistical properties of the narrowband speech signal, the addition being dependent on the respective sound, the two additions, for example by multiplication according to claim 8, and the spectral structure of the generated supplement are intermittently linked in such a way that an extended spectral str structure and then, on the basis of the expanded spectral structure, a broadband extended speech signal time segment is generated before finally a broadband expanded speech signal is generated from the individual broadband expanded speech signal time segments.

Der Hauptvorteil des erfindungsgemäßen Verfahrens liegt darin, dass mögliche Fehler in der Schätzung der erweiterten Spektralstruktur der aus der Druckschrift – Carl, H.; Heute, U.: „Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 bekannten Methode durch die aus der aus der nachveröffentlichten Internationalen Anmeldung PCT/DE01/01826 bekannten Methode korrigiert werden. Falls mit der erstgenannten Methode ei ne Spektralstruktur für einen stimmhaften Laut geschätzt wird, die zu viel Energie im oberen Frequenzbereich hat, wird die durch Kombination der beiden Methoden verknüpfte Spektralstruktur mit der gemäß der PCT-Anmeldung geschätzten Spektralstruktur berichtigt.The main advantage of the method according to the invention is that possible Estimation error the expanded spectral structure of that from the publication - Carl, H.; Today, U .: “Bandwidth Enhancement of Narrow-Band Speech Signals ", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 known method from the from the subsequently published International application PCT / DE01 / 01826 known method corrected become. If a spectral structure with the former method for one voiced sound is estimated that has too much energy in the upper frequency range, is caused by Combination of the two methods linked spectral structure with the according to the PCT application estimated Corrected spectral structure.

Da es mit der Kombination beider Methoden möglich ist, die Fehler bei der Schätzung der Spektralstruktur von stimmhaften Lauten zu korrigieren, brauchen bei der erstgenannten Methode nur stimmlose Laute trainiert zu werden. Dies erlaubt eine verbesserte Schätzung für stimmlose Laute und daher eine verbesserte Qualität des erweiterten Sprachsignals.Since it is with the combination of both Methods possible is the error in the estimation correct the spectral structure of voiced sounds in the former method, only unvoiced sounds are trained. This allows an improved estimate for unvoiced sounds and therefore one improved quality of the extended speech signal.

Die Weiterbildung der Erfindung gemäß Anspruch zeichnet sich dadurch aus, dass durch eine Fouriertransformation die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes berechnet und durch eine inverse Fouriertransformation aus der erweiterten spektralen Struktur der breitbandige erweiterte Sprachsignalzeitabschnitt erzeugt werden kann, ohne dass dabei das Sprachsignal in eine Grobstruktur und Feinstruktur aufgespaltet werden muss.The development of the invention according to claim is characterized in that by a Fourier transformation the spectral structure of the narrowband speech signal period calculated and by an inverse Fourier transformation from the extended spectral structure of the broadband extended speech signal period can be generated without the speech signal being roughly structured and fine structure has to be split.

Bei der Weiterbildung gemäß Anspruch 4 wird die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils erzeugte erste Ergänzung derart erzeugt, dass die Energie dieser Ergänzung in Bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes vernachlässigbar ist.In the training according to claim 4 will be the for the narrow-band speech signal periods classified as voiced sounds first addition generated in each case generated in such a way that the energy of this supplement in relation to the total energy of the narrowband speech signal section is negligible is.

Diese Ergänzung kann stets die gleiche sein, unabhängig davon, um welchen stimmhaften Laut – z.B.: "a", "e" oder "i" – es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs zu diesem Zweck für stimmhafte Laute entfällt.This addition can always be the same be independent of which voiced sound - e.g. "a", "e" or "i" - is acts so that a determination of the sound as well as the application a codebook for this purpose for voiced sounds is omitted.

Durch die Weiterbildung gemäß Anspruch 4 ist eine Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals ge währleistet, da durch diese Art der Weiterbildung berücksichtigt wird, dass bei stimmlosen Lauten im oberen Frequenzbereich ein wesentlicher Teil der Signalenergie fortgesetzt wird, so dass eine Vernachlässigung des genauen Verlaufs dieses Teils verhindert wird, die dadurch erfolgt, daß stets die gleiche Ergänzung vorgenommen wird und somit das synthetisierte Sprachsignals verfälscht würde.By training according to claim 4 is a quality improvement of the broadband extended voice signal guaranteed ge, because of this type of further training taken into account is that with unvoiced sounds in the upper frequency range an essential Part of the signal energy continues, causing neglect the exact course of this part is prevented, which is done by always the same addition is carried out and thus the synthesized speech signal would be falsified.

Bei der Weiterbildung gemäß Anspruch 5 wird die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalabschnitte jeweils erzeugte erste Ergänzung derart erzeugt, daß die Energie dieser Ergänzung in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes nicht vernachlässigbar ist. Auf diese Weise kann einfach ohne genaue Kenntnis des stimmlosen Lautes ein Erweiterung des schmalbandig gefilterten Sprachsignals durchgeführt werden.In the training according to claim 5 will be the for the narrowband speech signal sections classified as unvoiced sounds first addition generated in each case generated in such a way that the Energy of this supplement not in relation to the total energy of the narrowband speech signal section negligible is. This way it can easily be done without precise knowledge of the unvoiced Loud an extension of the narrowband filtered speech signal carried out become.

Um die Qualität des breitbandigen erweiterten Sprachsignals gemäß der Ansprüche 1 bis 5 zu verbessern, ist es von Vorteil, wenn gemäß Anspruch 7 der aus der erweiterten spektralen Struktur jeweils erzeugte breitbandige erweiterte Sprachsignalzeitabschnitt hochpassgefiltert wird, der hochpassgefilterte Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt verknüpft wird und aus den einzelnen verknüpften Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal erzeugt wird.Extended to the quality of broadband Speech signal according to claims 1 to 5 to improve, it is advantageous if according to claim 7 of the extended spectral structure each generated broadband extended speech signal period is high pass filtered, the high pass filtered speech signal period with the corresponding narrowband speech signal period is linked and linked from each Speech signal periods the broadband extended speech signal is produced.

Weitere Einzelheiten, Merkmale und Vorteile der Erfindung werden nachfolgend anhand der in den Figuren dargestellten Ausführungsbeispiele näher erläutert. Dabei zeigen:More details, features and Advantages of the invention are described below with reference to the figures illustrated embodiments explained in more detail. there demonstrate:

1 als ein erstes Ausführungsbeispiel ein Ablaufdiagramm zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb ei ner Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Frequenzbereich, 1 As a first exemplary embodiment, a flowchart for expanding the bandwidth of a speech signal sent by a telecommunications device in the direction of the upper frequencies above a cut-off frequency of the narrow-band filtered speech signal in the frequency range,

2 als ein zweites Ausführungsbeispiel ein Ablaufdiagramm zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Frequenzbereich, 2 as a second embodiment 1 shows a flowchart for expanding the bandwidth of a voice signal sent by a telecommunications device in the direction of the upper frequencies above a cut-off frequency of the narrow-band filtered voice signal in the frequency range,

3a das Spektrum eines stimmhaften Lautes (Vokals), 3a the spectrum of a voiced sound (vowels),

3b das Spektrum eines stimmlosen Lautes (Frikativs), 3b the spectrum of an unvoiced sound (fricative),

4a eine mögliche Erweiterung des Spektrums eines Vokals, 4a a possible expansion of the spectrum of a vowel,

4b eine mögliche Erweiterung des Spektrums eines Frikativs, 4b a possible expansion of the spectrum of a fricative,

1 zeigt anhand eines Ablaufdiagramms einen ersten Prozess (eine erste Methode) zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz – z.B. 4 kHz – des schmalbandig gefilterten Sprachsignals im Frequenzbereich. Gemäß einem Ausgangszustand AZ des dargestellten Prozesses wird von dem Telekommunikationsgerät das Sprachsignal gesendet. Es liegt somit ein schmalbandig gefiltertes Sprachsignal vor. 1 shows on the basis of a flow diagram a first process (a first method) for expanding the bandwidth of a speech signal sent by a telecommunication device in the direction of the upper frequencies above a cut-off frequency - for example 4 kHz - of the narrowband filtered speech signal in the frequency domain. According to an initial state AZ of the process shown, the voice signal is sent by the telecommunication device. There is thus a narrowband filtered speech signal.

In einem ersten Prozessschritt P0.1 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.1 die Spektralstruktur z.B. durch eine „Fourier-Transformation" berechnet und in einem dritten Prozessschritt P2.1 eine Klassi fizierung derart durchgeführt, dass der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut – wie beispielsweise "a", "e" oder "i", deren Aussprache ein in 3a dargestelltes Spektrum aufweist – und/oder als ein stimmloser Laut - wie beispielsweise "s", "sch" oder "f", deren Aussprache ein in 3b dargestelltes Spektrum aufweist – eingestuft bzw. definiert wird.In a first process step P0.1, this speech signal is subdivided into narrow-band speech signal time segments of preferably the same size. The spectral structure is then calculated for each speech signal time period in a second process step P1.1, for example by means of a “Fourier transformation”, and a classification is carried out in a third process step P2.1 in such a way that the respective speech signal time period as a voiced sound - such as “a "," e "or" i ", whose pronunciation is an in 3a has shown spectrum - and / or as an unvoiced sound - such as "s", "sch" or "f", the pronunciation of which in 3b has the spectrum shown - classified or defined.

Diese Unterscheidung wird beispielsweise anhand der Position der ersten Formanten oder anhand des Verhältnisses von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz - beispielsweise 2 kHz – geschehen. Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach durchzuführen, da wie ein Vergleich des in 3a dargestellten Spektrum eines stimmhaften Lautes mit dem in 3b dargestellten Spektrum eines stimmlosen Lautes zeigt, stimmhafte und stimmlose Laute in der Regel sehr unterschiedliche Spektren haben.This distinction will be made, for example, on the basis of the position of the first formants or on the basis of the ratio of spectral components above and below a certain frequency - for example 2 kHz. A distinction based on the narrow-band spectrum is easy to carry out, because like a comparison of the in 3a shown spectrum of a voiced sound with the in 3b shown spectrum of an unvoiced sound shows that voiced and unvoiced sounds generally have very different spectra.

Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie zu Langzeitsignalenergie mit einem Schwellwert realisiert.Alternatively, a short-term signal energy of a first narrowband filtered speech signal time segment and a long-term signal energy based on further successive Narrow-band filtered speech signal time segments correlating to the first signal determined and then detecting by comparing a ratio of short-term signal energy implemented for long-term signal energy with a threshold value.

Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie – d.h. der Signalenergie in einem kurzen Zeitausschnitt des Schmalband-Sprachsignals – und der Langzeitsignalenergie – d.h. der Signalenergie über einen längeren Zeitausschnitt betrachtet – und anschließendem Vergleich des Verhältnis Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.Alternatively, the distinction can be made by Comparison of short-term signal energy - i.e. the signal energy in a short time segment of the narrowband speech signal - and the Long-term signal energy - i.e. the signal energy over a longer time slice considered - and followed by Comparison of the ratio Short-term to long-term energy can be carried out with a fixed threshold.

Im Anschluss daran wird in einem vierten Prozessschritt P3.1 im Rahmen einer ersten Spektralstrukturerweiterung in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung die im zweiten Prozessschritt P1.1 berechnete Spektralstruktur durch eine „Inverse Fourier-Transformation" erweitert. Dies geschieht derart, dass zeitabschnittsweise in Bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung erste Ergänzungen EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei beispielsweise (insbesondere) für den Fall des stimmhaften Lautes die erste Ergänzung EG1 unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes – stimmhaft/stimmlos (stimmhaft und/oder stimmlos) – wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt), die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer erweiterten spektralen Struktur verknüpft werden und aus dieser erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird.Subsequently, in one fourth process step P3.1 as part of a first spectral structure expansion with regard to the sound-related classification made in the third process step P2.1 the spectral structure calculated in the second process step P1.1 an "inverse Fourier transform ". This happens in such a way that it intermittently with respect to that in the third process step P2.1 initial type-related classification EG1 for expanding the speech signal, each with a spectral structure have, are generated, for example (in particular) for the case of the voiced sound the first addition EG1 regardless of that respective sound is (with determination of the type of speech - voiced / unvoiced (voiced and / or voiceless) - will also determines the addition necessary to expand the range) spectral structure of the narrowband speech signal period and the spectral structure of the supplement created periodically an expanded spectral structure and from this expanded spectral structure each generated a broadband extended speech signal period becomes.

Parallel dazu werden in einem fünften Prozessschritt P4.1 im Rahmen einer zweiten Spektralstrukturerweiterung z.B. gemäß der Druckschrift – Carl, H.; Heute, U.: „Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 – zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals basierend auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) zweite eine spektrale Struktur aufweisende Ergänzungen EG2 erzeugt, wobei die Ergänzung abhängig von dem jeweiligen Laut ist.In parallel, in a fifth process step P4.1 as part of a second spectral structure expansion e.g. according to the publication - Carl, H.; Today, U .: “Bandwidth Enhancement of Narrow-Band Speech Signals ", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 - for Evaluation of the statistical properties of a narrowband Speech signal based on special speech data books, the so-called code books second generates supplements EG2 having a spectral structure, where the complement dependent of the respective sound.

In einem sich daran anschließenden sechsten Prozessschritt P5.1 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2 verknüpft, bevor in einem siebten Prozessschritt P6.1 eine erweiterte Spektralstruktur erzeugt und in einem achten Prozessschritt P7.1 ein erweiterter Sprachsignalzeitabschnitt erzeugt wird. Diese Verknüpfung geschieht vorzugsweise durch eine Multiplikation.In a subsequent sixth Process step P5.1 becomes the first supplement EG1 with the second supplement EG2 connected, before an extended spectral structure in a seventh process step P6.1 generated and in an eighth process step P7.1 an extended Speech signal period is generated. This link is preferably done by multiplication.

Daran anschließend gibt es zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.After that there are two ways the broadband speech signal extended towards the upper frequencies to obtain.

Um eine gewisse Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals zu erzielen, ist es möglich, den jeweiligen im vierten Prozessschritt P3.1 erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitt in einem neunten Prozessschritt P8.1 mittels eines Hochpassfilters zu filtern, danach in einem zehnten Prozessschritt P9.1 diesen gefilterten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt aus dem ersten Prozessschritt P0.1 zu verknüpfen, bevor abschließend in einem elften Prozessschritt P10.1 aus den einzelnen verknüpften Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird.In order to achieve a certain improvement in the quality of the broadband expanded speech signal, it is possible to expand the broadband expanded in each case in the fourth process step P3.1 Filtering the speech signal time period in a ninth process step P8.1 using a high-pass filter, then in a tenth process step P9.1 to link this filtered speech signal time period with the corresponding narrowband speech signal time period from the first process step P0.1, before finally in an eleventh process step P10.1 the individual linked speech signal time segments, the broadband voice signal expanded in the direction of the upper frequencies is generated by combining these time segments.

Kann auf eine derartige Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem achten Prozessschritt P7.1 aus den in diesem Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem elften Prozessschritt P10.1 durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.Can on such a quality improvement the broadband extended speech signal can be dispensed with, so instead it is also possible immediately after the eighth process step P7.1 from the in this Process step each generated broadband extended speech signal periods in the eleventh process step P10.1 by joining them together Periods of time the broadband towards the upper frequencies to generate extended speech signal.

Anhand der 2 soll zunächst die erfindungsgemäße Erweiterung eines schmalbandig gefilterten Sprachsignals in die Richtung der oberen Frequenzen gemäß eines zweiten Prozesses (einer zweiten Methode) erläutert werden.Based on 2 The expansion of a narrowband filtered speech signal in the direction of the upper frequencies according to the invention is first to be explained according to a second process (a second method).

Im Allgemeinen wird ein Sprachsignal durch lineare Prädiktion analysiert. Dabei werden unter der Annahme, dass ein Sprach abtastwert durch die lineare Kombination von vorherigen Sprachabtastwerten angenähert werden kann, lineare Prädiktionskoeffizienten, sogenannte LPC-Koeffizienten, die die Filterkoeffizienten eines Sprachsynthesefilters darstellen, sowie ein Anregungssignal für dieses Synthesefilter berechnet. Durch Anwenden der zu einem Sprachsignalabschnitt gehörenden LPC-Koeffizienten auf diesen Sprachsignalabschnitt mittels Filterung des Abschnitts mit einem durch diese Koeffizienten definierten nichtrekursiven Digitalfilter entsteht das sogenannte Prädiktionsfehlersignal. Dieses Signal beschreibt die Differenz zwischen dem durch die lineare Prädiktion geschätztem Signalwert und dem tatsächlichem Signalwert. Es stellt auch gleichzeitig das Anregungssignal für das durch die LPC-Koeffizienten definierte rein rekursive Synthesefilter dar, mit dem der Original-Sprachsignalabschnitt durch Filtern des Prädiktionsfehler- bzw. Anregungssignals wiedergewonnen wird. Um ein Sprachsignal in die Richtung der oberen Frequenzen zu erweitern, ist die Kenntnis eines breitbandigen Anregungssignals und der Filterkoeffizienten, die das (breitbandige) Sprachsignal im Sinne der linearen Prädiktion beschreiben erforderlich.Generally a voice signal through linear prediction analyzed. Doing so assumes that a speech sample can be approximated by the linear combination of previous speech samples can, linear prediction coefficients, so-called LPC coefficients, which are the filter coefficients of a Represent speech synthesis filter, and an excitation signal for this Synthesis filter calculated. By applying that to a speech signal section belonging LPC coefficients on this speech signal section by means of filtering of the section with a non-recursive defined by these coefficients Digital filter creates the so-called prediction error signal. This Signal describes the difference between that by linear prediction estimated Signal value and the actual Signal value. It also puts through the excitation signal for the defined the LPC coefficients purely recursive synthesis filter with which the original speech signal section by filtering the prediction error or excitation signal is recovered. To a voice signal in expanding the direction of the upper frequencies is knowledge of one broadband excitation signal and the filter coefficient, the the (broadband) speech signal in the sense of linear prediction describe required.

Da beispielsweise in Telekommunikationssystemen in denen schmalbandig übertragen wird, das Sprachsignal schmalbandig vorliegt, wird erfindungsgemäß anhand des mittels linearer Prädiktion aus dem Sprachsignal berechneten schmalbandigen Anregungssignal ein breitbandiges Anregungssignal ermittelt.Because, for example, in telecommunication systems in which narrowband broadcast is, the speech signal is narrowband, is based on the invention using linear prediction the narrowband excitation signal calculated from the speech signal broadband excitation signal determined.

Dies erfolgt beispielweise durch Frequenzspiegelung des schmalbandigen Anregungssignals, bei dem die Frequenzanteile zwischen 0 kHz und 4 kHz an der 4 kHz – Spektrallinie in einen Bereich von 4 kHz bis 8 kHz gespiegelt werden.This is done, for example, by Frequency mirroring of the narrowband excitation signal at which the frequency components between 0 kHz and 4 kHz on the 4 kHz spectral line be reflected in a range from 4 kHz to 8 kHz.

Alternativ kann die Berechnung auch durch Addition des schmalbandigen Signals mit Gauß'schem (weißen) oder begrenzten (gefärbtem) Rauschen realisiert werden.Alternatively, the calculation can also by adding the narrowband signal with Gaussian (white) or limited (colored) noise will be realized.

2 zeigt anhand eines Ablaufdiagramms den zweiten Prozess (die zweite Methode) zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz – z.B. 4 kHz – des schmalbandig gefilterten Sprachsignals im Frequenzbereich. Gemäß dem Ausgangszustand AZ des dargestellten Prozesses wird wieder von dem Telekommunikationsgerät das Sprachsignal gesendet. Es liegt somit wider ein schmalbandig gefiltertes Sprachsignal vor. 2 shows the second process (the second method) for expanding the bandwidth of a speech signal sent by a telecommunication device in the direction of the upper frequencies above a cut-off frequency - for example 4 kHz - of the narrow-band filtered speech signal in the frequency range using a flowchart. According to the initial state AZ of the process shown, the voice signal is sent again by the telecommunication device. It is therefore available against a narrowband filtered speech signal.

In einem ersten Prozessschritt P0.2 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.2 in bekannter Weise im Rahmen einer Prädiktionsanalyse LPC-Koeffizienten und ein schmalbandiges Prädiktionsfehlersignal berechnet, in einem dritten Prozessschritt P2.2 auf der Basis der LPC-Koeffizienten und des schmalbandigen Prädiktionsfehlersignals die Spektralstruktur der schmalbandigen Sprachsignalzeitabschnitte berechnet und in einem vierten Prozessschritt P3.2 eine Klassifizierung derart durchgeführt, dass der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut – wie beispielsweise "a", "e" oder "i", deren Aussprache ein in 3a dargestelltes Spektrum aufweist – und/oder als ein stimmloser Laut – wie beispielsweise "s", "sch" oder "f", deren Aussprache ein in 3b dargestelltes Spektrum aufweist – eingestuft bzw. definiert wird.In a first process step P0.2, this voice signal is subdivided into narrow-band voice signal time segments of preferably the same size. LPC coefficients and a narrow-band prediction error signal are then calculated in a known manner for each speech signal period in a second process step P1.2 in a prediction analysis, in a third process step P2.2 the spectral structure of the narrow-band prediction error signal is calculated on the basis of the LPC coefficients Speech signal time segments are calculated and in a fourth process step P3.2 a classification is carried out in such a way that the respective speech signal time segment as a voiced sound - such as “a”, “e” or “i”, the pronunciation of which in 3a has shown spectrum - and / or as an unvoiced sound - such as "s", "sch" or "f", the pronunciation of which in 3b has the spectrum shown - classified or defined.

Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie zu Langzeitsignalenergie mit einem Schwellwert realisiert.As an alternative to this, a short-term signal energy of a first narrow-band filtered speech signal time segment and a long-term signal energy are determined on the basis of further successive narrow-band filtered speech signal time segments correlating with the first signal, and then the detection by comparing a ratio Realized short-term signal energy to long-term signal energy with a threshold.

Im Anschluss daran wird in einem fünften Prozessschritt P4.2 in Bezug auf die im dritten Prozessschritt P2.1 vorgenommene 1autartbezogene Klassifizierung die im dritten Prozessschritt P2.2 berechnete Spektralstruktur erweitert. Dies geschieht derart, dass zeitabschnittsweise in Bezug auf die im vierten Prozessschritt P3.2 vorgenommene lautartbezogene Klassifizierung erste Ergänzungen EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes – stimmhaft/stimmlos (stimmhaft und/oder stimmlos) – wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt), die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer erweiterten spektralen Struktur verknüpft werden.Subsequently, in one fifth process step P4.2 in relation to that made in the third process step P2.1 1 type-related classification that in the third process step P2.2 calculated spectral structure expanded. This happens in such a way that periodically with respect to that in the fourth process step P3.2 Classification based on sound type first additions EG1 for expanding the speech signal, each a spectral Have structure, are generated, in the case of voiced Loud the addition regardless of the respective sound is (with determination of the type of speech - voiced / unvoiced (voiced and / or voiceless) - will also determines the addition necessary to expand the bandwidth), the spectral structure of the narrowband speech signal period and the spectral structure of the supplement created periodically into one extended spectral structure.

Handelt es sich in dem fünften Prozessschritt P4.2 bei dem untersuchten schmalbandigen Sprachsignal um einen stimmhaften Laut, so wird die schmalbandige spektrale Struktur, wie in 4a dargestellt, derart durch eine Ergänzung erweitert, dass die erweiterte breitbandige spektrale Struktur oberhalb von 4 kHz wesentlich weniger Energie als unterhalb von 4 kHz besitzt. Es ist z.B. ein Abfall, ein exponentieller Abfall, ein Anstieg, ein gleichbleibendes Nullniveau oder ein gleichbleibendes Niveau der spektralen Struktur zu höheren Frequenzen hin denkbar.If the examined narrow-band speech signal is a voiced sound in the fifth process step P4.2, the narrow-band spectral structure, as in 4a shown, expanded in such a way that the expanded broadband spectral structure above 4 kHz has much less energy than below 4 kHz. For example, a drop, an exponential drop, an increase, a constant zero level or a constant level of the spectral structure to higher frequencies is conceivable.

Alternativ kann auch ganz von einer Erweiterung abgesehen werden, weil in der Regel die Signalenergie eines stimmhaften Lautes oberhalb der oberen Grenzfrequenz des Schmalband-Sprachsignals (z.B. 4 kHz) vernachlässigbar ist (vgl. 3a). Der erzeugte breitbandige Frequenzgang entspricht für diesen Fall dem schmalbandigen Frequenzgang des zugrundeliegenden schmalbandigen Sprachsignals.Alternatively, an extension can also be completely dispensed with, because the signal energy of a voiced sound above the upper limit frequency of the narrowband speech signal (eg 4 kHz) is usually negligible (cf. 3a ). The broadband frequency response generated in this case corresponds to the narrowband frequency response of the underlying narrowband speech signal.

Es ist auch möglich, dass die Erweiterung, die nach Detektion eines stimmhaften Lautes vorgenommen wird, unabhängig von der genauen Kenntnis der Laute stets die gleiche ist (angepasst lediglich an die Energie des Schmalband-Sprachsignals), so dass eine einfache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.It is also possible that the extension that after a voiced sound is detected, regardless of the exact knowledge of the sounds is always the same (adapted only the energy of the narrowband speech signal), so that a simple, inexpensive and rapid implementation of this extension is achieved.

Handelt es sich in dem fünften Prozessschritt P9.2 bei dem untersuchten schmalbandigen Sprachsignal um einen stimmlosen Laut, so wird der schmalbandige Frequenzgang, wie in 4b dargestellt, derart erweitert, dass er – im Gegensatz zur Erweiterung bei stimmhaften Lauten – im Bereich oberhalb der ersten Grenzfrequenz des Schmalband-Sprachsignals (z.B. 4 kHz) einen nicht vernachlässigbaren Teil seiner Gesamtenergie besitzt.If in the fifth process step P9.2 the narrow-band speech signal under investigation is an unvoiced sound, the narrow-band frequency response, as in 4b shown, expanded so that - in contrast to the expansion with voiced sounds - it has a non-negligible part of its total energy in the range above the first cut-off frequency of the narrowband speech signal (eg 4 kHz).

Auch hierbei kann die Erweiterung stets, unabhängig von der genauen Kenntnis der Laute, durch eine gleichartige spektrale Erweiterung erfolgen (angepasst lediglich an die Energie des Schmalband-Sprachsignals), so dass hierdurch ebenso eine ein fache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.The extension can also be used here always, independently from the exact knowledge of the sounds, by a similar spectral Expansion takes place (only adapted to the energy of the narrowband speech signal), so that this is also a simple, inexpensive and quick implementation of this Extension is achieved.

Als Ergebnis der ersten bis fünften Prozessschritte P0.2...P4.2 in 2 wird also eine neue erweiterte breitbandige spektrale Struktur in Abhängigkeit von dem Laut, der der vorhandenen schmalbandigen spektralen Struktur zugrundeliegt, generiert.As a result of the first to fifth process steps P0.2 ... P4.2 in 2 a new expanded broadband spectral structure is generated depending on the sound on which the existing narrowband spectral structure is based.

Außerdem wird in einem sechsten Prozessschritt P5.2 das in dem zweiten Prozessschritt P1.2 berechnete schmalbandige Prädiktionsfehlersignal zum einem breitbandigen Prädiktionsfehlersignal erweitert, so dass bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Pürädiktionsfehlersignalabschnitte des breitbandigen Prädiktionsfehlersignales erzeugt werden.In addition, in a sixth Process step P5.2 that calculated in the second process step P1.2 narrowband prediction error signal for a broadband prediction error signal expanded so that regarding the time period of the narrowband speech signal time periods corresponding prediction error signal sections of the broadband prediction error signal be generated.

Parallel dazu werden wieder in einem siebten Prozessschritt P6.2 im Rahmen einer zweiten Spektralstrukturerweiterung z.B. gemäß der Druckschrift – Carl, H.; Heute, U.: „Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 – zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals basierend auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) zweite eine spektrale Struktur aufweisende Ergänzungen EG2 erzeugt, wobei die Ergänzung abhängig von dem jeweiligen Laut ist.In parallel, in a seventh process step P6.2, as part of a second expansion of the spectral structure, for example according to the publication - Carl, H .; Today, U .: "Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994 , Edinburgh, 1994, pp. 1178-1181 - for evaluating the statistical properties of a narrowband speech signal based on special speech data books, the so-called code books (codebooks), second supplements having a spectral structure are generated, the supplement being dependent on the respective sound.

In einem sich daran anschließenden achten Prozessschritt P7.2 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2 verknüpft, bevor in einem neunten Prozessschritt P8.2 eine erweiterte Spektralstruktur erzeugt wird. Diese Verknüpfung geschieht vorzugsweise durch eine Multiplikation.In a subsequent eighth process step P7.2 will be the first addition EG1 with the second addition Linked EG2, before an extended spectral structure in a ninth process step P8.2 is produced. This link is preferably done by multiplication.

Daran anschließend wird aus der im neunten Prozessschritt P8.2 erzeugten erweiterten spektralen Struktur durch die Berechnung von breitbandigen Filterkoeffizienten in einem zehn ten Prozessschritt P9.2 und dem im sechsten Prozessschritt P5.2 jeweils erzeugten breitbandigen Prädiktionsfehlersignalabschnitt in einem elften Prozessschritt P10.2 mittels eines sogenannten Synthesefilters jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt.This is followed by the ninth process step P8.2 generated extended spectral structure through the calculation of broadband filter coefficients in a tenth process step P9.2 and the broadband generated in the sixth process step P5.2 Prädiktionsfehlersignalabschnitt in an eleventh process step P10.2 using a so-called synthesis filter each a broadband extended speech signal period generated.

Daran anschließend gibt es wieder zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.Then there are two options the broadband speech signal extended towards the upper frequencies to obtain.

Um eine gewisse Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals zu erzielen, ist es möglich, den jeweiligen im elften Prozessschritt P10.2 erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitt in einem zwölften Prozessschritt P11.2 mittels eines Hochpassfilters zu filtern, danach in einem dreizehnten Prozessschritt P12.2 diesen gefilterten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt aus dem ersten Prozessschritt P0.2 zu verknüpfen, bevor abschließend in einem vierzehnten Prozessschritt P13.2 aus den einzelnen verknüpften Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird.In order to improve the quality of the to achieve broadband extended speech signal, it is possible to filter the respective broadband extended speech signal time segment generated in the eleventh process step P10.2 in a twelfth process step P11.2 using a high pass filter, then in a thirteenth process step P12.2 this filtered speech signal time segment with the corresponding narrowband Linking the speech signal time period from the first process step P0.2 before finally, in a fourteenth process step P13.2, the broadband speech signal expanded in the direction of the upper frequencies is generated from the individual linked speech signal time periods by combining these time periods.

Kann auf eine derartige Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem elften Prozessschritt P10.2 aus den in diesem Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem vierzehnten Prozessschritt P13.2 durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.Can on such a quality improvement the broadband extended speech signal can be dispensed with, so instead it is also possible immediately after the eleventh process step P10.2 from the in this Process step each generated broadband extended speech signal periods in the fourteenth process step P13.2 by joining them together Periods of time the broadband towards the upper frequencies to generate extended speech signal.

Claims

Method for expanding the bandwidth of a narrowband filtered speech signal, in particular a speech signal sent by a telecommunications device, above a cut-off frequency of the narrowband speech signal, in which a) the narrowband speech signal is divided into speech signal time segments (P0.1, P0.2) and a spectral structure in each case is calculated from the speech signal time segments (P1.1, P1.2, P2.2), b) each narrowband speech signal time segment is classified as a voiced and / or unvoiced sound (P2.1, P3.2), characterized in that c) first Supplements (EGl) with a spectral structure for expanding the narrowband speech signal with respect to the phonetic-related classification carried out in b) are generated (P3.1, P4.2), in particular at least in the case of the voiced sound, the addition being independent of the particular one According to, d) second expansions (EG2) having a spectral structure for expansions tion of the narrowband speech signal based on generally known methods for evaluating the statistical properties of the narrowband speech signal are generated (P4.1, P6.2), the addition being dependent on the particular sound, e) the first addition (EGl) each with the second supplement (EG2) is linked (EG3, P5.1, P7.2), f) the spectral structure of the narrowband speech signal time segment and the spectral structure of the linked supplement (EG3) are linked periodically in this way (P6.1, P8.2) that an expanded spectral structure is created in each case, g) on the basis of the expanded spectral structure, a broadband expanded speech signal time segment is generated (P7.1, P9.2, P10.2), h) a broadband expanded speech signal is generated from the individual broadband expanded speech signal time segments is generated (P8.1, P9.1, P10.1, P11.2, P12.1, P13.2).

A method according to claim 1, characterized in that the spectral structure of the narrowband speech signal period is calculated by a Fourier transformation and from the extended spectral structure by an inverse Fourier transformation of the broadband extended speech signal period is generated.

A method according to claim 1, characterized in that the spectral structure of the narrowband speech signal period by calculating the frequency response of a speech signal period belonging LPC synthesis filter is calculated from the extended spectral Structure the coefficients of a broadband LPC synthesis filter be calculated with respect the time period of the narrowband speech signal time periods corresponding prediction error signal periods a broadband prediction error signal are generated (P5.2) and by filtering the prediction error signal time period in the broadband LPC synthesis filter each a broadband extended speech signal period is generated (P9.2, P10.2).

A method according to claim 1, characterized in that for the narrow-band speech signal periods classified as voiced sounds first addition generated in each case (EG1) is generated in such a way (P3.1, P4.2) that the energy of this supplement (EGl) with respect to the total energy of the narrowband speech signal section negligible is.

A method according to claim 1 or 4, characterized in that that for the narrowband speech signal sections classified as unvoiced sounds first addition generated in each case (EGl) is generated in such a way (P3.1, P4.2) that the energy of this supplement (EG1) with respect to the total energy of the narrowband speech signal section not negligible is.

Method according to one of claims 1 to 5, characterized in that that the first addition generated (EG1) drops, declines exponentially, increases, has a constant zero level or constant Level.

Method according to one of claims 1 to 5, characterized in that the broadband extended speech signal time section generated from the expanded spectral structure is high-pass filtered (P8.1, P11.2), the high-pass filtered speech signal time section is linked to the corresponding narrow-band speech signal time section (P9.1, P12.2) and from the individual linked speech signal periods the broadband extended speech signal is generated (P10.1, P13.2).

A method according to claim 1, characterized in that the shortcut the first addition (EG1) with the second addition (EG2) by multiplication.