DE60218252T2

DE60218252T2 - Verfahren und Vorrichtung zur Sprachtranskodierung

Info

Publication number: DE60218252T2
Application number: DE60218252T
Authority: DE
Inventors: Yoshiteru Fukuoka-shi Tsuchinaga; Yasuji Kawasaki-shi Ota; Masanao Kawasaki-shi Suzuki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-08-31
Filing date: 2002-03-27
Publication date: 2007-10-31
Anticipated expiration: 2022-03-28
Also published as: JP4518714B2; EP1748424A2; US7092875B2; DE60218252D1; EP1288913A3; EP1748424A3; JP2003076394A; EP1748424B1; US20030065508A1; EP1288913A2; EP1288913B1

Description

Hintergrund der Erfindung
Diese Erfindung betrifft ein Sprach-transkodierendes (umschlüsselndes) Verfahren und Gerät. Insbesondere betrifft die Erfindung ein Sprach-transkodierendes Verfahren und – Gerät zum Transkodieren (Umschlüsseln) von Sprach-Code, der von einem Sprach-Code kodierenden Gerät kodiert wurde, das in einem Netzwerk, wie zum Beispiel dem Internet, verwendet wird oder von einem Sprach-kodierenden Gerät, das in einem mobilen/zellularen Telefonsystem verwendet wird, in Sprach-Code eines anderen kodierenden Schemas.
Es hat ein explosionsartiges Anwachsen bei Teilnehmern an zellularen Telefonen in vergangenen Jahren gegeben und es wird vorhergesagt, dass die Anzahl derartiger Nutzer in der Zukunft, weiter wachsen wird. Sprachkommunikation unter Verwendung des Internets (Sprache über IP oder VoIP) kommt in zunehmend größere Verwendung in Unternehmensnetzwerken (Intranets) und zur Bereitstellung von Ferntelefondienst. In derartigen Sprachkommunikationssystemen wird eine Verwendung von Sprach-kodierender Technologie zum Komprimieren von Sprache durchgeführt, um den Kommunikationskanal effizient zu verwenden. Das verwendete Sprach-kodierende Schema jedoch unterscheidet sich von System zu System. Zum Beispiel hinsichtlich W-CDMA, von dem erwartet wird, in der nächsten Generation von zellularen Telefonsystemen verwendet zu werden, wurde AMR (Adaptive Multi-Rate – adaptive Multirate) als das allgemeine, globale Sprach-kodierende Schema angenommen. Mit VoIP andererseits wird ein Schema, das konform mit einer ITU-T Empfehlung G.729A ist, verbreitet als das Sprach-kodierende Verfahren verwendet.
Es wird angenommen, dass die wachsende Popularität des Internets und zellularer Telefone in der Zukunft von einem Anwachsen von Verkehr begleitet wird, der Sprachkommunikation über Internet umfasst und von Mobiltelefonbenutzern. Da jedoch die Sprach-kodierenden Schemata für Mobiltelefonnetzwerke sich von denjenigen der Netzwerke, wie zum Beispiel dem Internet, wie oben erwähnt unterscheiden, kann eine Kommunikation zwischen Netzwerken nicht stattfinden, ohne ein Umschlüsseln durchzuführen. Beim Stand der Technik ist es daher notwendig einen durch ein Netzwerk kodierten Sprach-Code in Sprach-Code gemäß einem Sprach-kodierenden Schema, das in einem anderen Netzwerk wird, durch Verwenden eines Sprach-Transkodierers umzuschlüsseln (transkodieren).
Sprachumschlüsseln/Sprach-transkodieren
15 stellt das Prinzip eines typischen Sprach-transkodierenden Verfahrens gemäß dem Stand der Technik dar. Dieses Verfahren soll unten als „Stand der Technik 1" bezeichnet werden. In 15 wird lediglich ein Fall berücksichtigt, bei dem Sprache, die in ein Endgerät 1 von einem Benutzer A eingegeben wird, zu einem Endgerät 2 des Benutzers B gesendet wird. Es wird hier angenommen, dass das Endgerät 1, das von einem Benutzer A in Besitz ist, lediglich einen Kodierer 1a eines kodierenden Schemas 1 aufweist und dass das Endgerät 2 des Benutzers B lediglich einen Dekodierer 2a eines kodierenden Schemas 2 aufweist.
Sprache, die von einem Benutzer A auf der sendenden Seite erzeugt wird, wird in den Kodierer 1a des kodierenden Schemas 1 eingegeben, der in einem Endgerät 1 umfasst ist. Der Kodierer 1a kodiert das eingegebene Sprachsignal in einen Sprach-Code des kodierenden Schemas 1 und gibt diesen Code an eine Übertragungsleitung 1b aus. Wenn der Sprach-Code des kodierenden Schemas 1 über die Übertragungsleitung 1b eintritt, dekodiert ein Dekodierer 3a des Sprachtranskodierers 3 den Sprach-Code des kodierenden Schemas 1 in dekodierende Sprache. Ein Kodierer 3b des Sprachtranskodierers 3 kodiert dann das dekodierende Sprachsignal in Sprach-Code eines kodierenden Schemas 2 und sendet diesen Sprach-Code an eine Übertragungsleitung 2b. Der Sprach-Code eines kodierenden Schemas 2 wird in das Endgerät 2 über die Übertragungsleitung 2b eingegeben. Auf Empfangen des Sprach-Codes eines kodierenden Schemas 2 als eine Eingabe dekodiert der Dekodierer 2a den Sprach-Code des kodierenden Schemas 2, um Sprache zu dekodieren. Als ein Ergebnis ist der Benutzer B auf der empfangenden Seite in der Lage, dekodierende Sprache zu hören. Verarbeiten zum Dekodieren von Sprache, die einmal kodiert wurde, und dann Zurückkodieren der dekodierten Sprache wird als „Tandem-Verbindung" bezeichnet.
In der Anordnung nach dem Stand der Technik 1 wird eine Verwendung der Tandem-Verbindung durchgeführt, bei der Sprach-Code, der von einem Sprach-kodierenden Schema 1 kodiert wurde, in dekodierende Sprache dekodiert wird, wonach ein Kodieren erneut von einem Sprach-kodierenden Schema 2 durchgeführt wird. Als eine Folge entsteht ein Problem einer merkbaren Verringerung in der Qualität dekodierender Sprache und ein Zuwachs in einer Verzögerung.
Ein Beispiel eines Verfahrens zum Lösen dieses Problems der Tandem-Verbindung wurde vorgeschlagen (siehe die Beschreibung der Japanischen Patentanmeldung Nr. 2001-75427). Das vorgeschlagene Verfahren zerlegt Sprach-Code in Parameter-Code, wie z.B. LSP-Code und Zeitabstands-Code und wandelt jeden Parameter-Code getrennt in Codes eines anderen Sprach-kodierenden Schemas, ohne Sprach-Code wieder in ein Sprachsignal herzustellen. Das Prinzip dieses Verfahrens ist in 16 dargestellt. Dieses Verfahren soll unten als „Stand der Technik 2" bezeichnet werden.
Ein Kodierer 1a eines kodierenden Schemas 1 kodiert ein Sprachsignal, das von einem Benutzer A erzeugt wird, in einen Sprach-Code eines kodierenden Schemas 1 und sendet diesen Sprach-Code an eine Übertragungsleitung 1b. Die Sprach-transkodierende Einheit 4 transkodiert den Sprach-Code des kodierenden Schemas 1, der von der Übertragungsleitung 1b eingetreten ist, in einen Sprach-Code eines kodierenden Schemas 2 und sendet diesen Sprach-Code zu einer Übertragungsleitung 2b. Ein Dekodierer 2a in einem Endgerät 2 dekodiert dekodierende Sprache aus dem Sprach-Code eines kodierenden Schemas 2, der über die Übertragungsleitung 2b eintritt und ein Benutzer B ist in der Lage, dekodierende Sprache zu hören.
Das kodierende Schema 1 kodiert ein Sprachsignal durch (1) einen ersten LSP-Code, der durch Quantisieren von LSP-Parametern erhalten wird, die aus linearen Vorhersage-Koeffizienten (LPC-Koeffizienten) festgestellt werden, die durch eine lineare Rahmen-um-Rahmen-Vorhersageanalyse erhalten werden; (2) einen ersten Zeitabstands-Code, der das Ausgabesignal eines adaptiven Code-Buchs spezifiziert, das zum Ausgeben eines periodischen Sprach-Quellsignals dient; (3) einen ersten algebraischen Code (Rausch-Code), der das Ausgabesignal eines algebraischen Code-Buches (oder Rausch-Code-Buches) spezifiziert, der zum Ausgeben eines rauschenden Sprach-Quellsignals dient; und (4) einen ersten Verstärkungs-Code, der durch Quantisieren einer Abstandsverstärkung erhalten wird, die die Amplitude des Ausgabesignals des adaptiven Code-Buches darstellt und einer algebraischen Verstärkung, die die Amplitude des Ausgabesignals des algebraischen Code-Buches darstellt. Das kodierende Schema 2 kodiert ein Sprachsignal durch (1) einen zweiten LPC-Code, (2) einen zweiten Zeitabstands-Code, (3) einen zweiten algebraischen Code (Rausch-Code) und (4) einen zweiten Verstärkungs-Code, die durch Quantisierung gemäß eines Quantisierungsverfahrens unterschiedlich zu dem des kodierenden Schemas 1 erhalten werden.
Die Sprach-transkodierende Einheit 4 weist einen Code-Demultiplexer 4a, einen LSP-Code-Umwandler 4b, einen Zeitabstands-Codeumwandler 4c, einen Umwandler für algebraischen Code 4d, einen Verstärkungs-Code-Umwandler 4e und einen Code-Multiplexer 4f auf. Der Code-Demultiplexer 4a demultiplext den Sprach-Code des kodierenden Schemas 1, wobei der Code von dem Kodierer 1a eines Endgerätes 1 über die Übertragungsleitung 1b eintritt, in Codes einer Vielzahl von Komponenten, die notwendig sind, um das Sprachsignal zu rekonstruieren, nämlich (1) LSP-Code, (2) Zeitabstands-Code, (3) algebraischen Code und (4) Verstärkungs-Code. Diese Codes werden in die Code Umwandler 4b, 4c, 4d bzw. 4e eingegeben. Die Letzteren transkodieren den eingetretenen LSP-Code, den Zeitabstands-Code, jeweils in LSP-Code, Zeitabstands-Code, algebraischen Code und Verstärkungs-Code des kodierenden Schemas 2 und der Code-Multiplexer 4f multiplext diese Codes des kodierenden Schemas 2 und sendet das multiplexte Signal an die Übertragungsleitung 2b.
17 ist ein Blockdiagramm, das die Sprach-transkodierende Einheit zeigt, in der die Konstruktion der Code-Umwandler 4b bis 4e geklärt wird. Komponenten in 17, die zu den in 16 gezeigten identisch sind, werden durch die gleichen Referenzzeichen bezeichnet. Der Code-Demultiplexer 4a demultiplext einen LSP-Code 1, einen Zeitabstands-Code 1, einen algebraischen Code 1 und einen Verstärkungs-Code 1 aus dem Sprach-Code basierend auf einem kodierenden Schema 1, der von der Übertragungsleitung über einen Eingabeanschluss #1 eintritt und gibt diese Codes jeweils in die Code Umwandler 4b, 4c, 4d und 4e ein.
Der LSP-Code-Umwandler 4b weist einen LSP-Dequantisierer 4b₁ zum Dequantisieren des LSP-Codes 1 des kodierenden Schemas 1 und zum Ausgeben eines dequantisierten LSP-Wertes auf, und einen LSP-Quantisierer 4b₂ zum Quantisieren des dequantisierten LSP-Wertes unter Verwendung einer LSP-Quantisierungstabelle gemäß einem kodierenden Schema 2 und zum Ausgeben eines LSP-Codes 2. Der Zeitabstands-Codeumwandler 4c weist einen Zeitabstands-Dequantisierer 4c₁ zum Dequantisieren des Zeitabstands-Codes des kodierenden Schemas 1 und zum Ausgeben eines dequantisierten Zeitabstandswertes auf und einen Zeitabstands-Quantisierer 4c₂ zum Quantisieren des dequantisierten Zeitabstandswertes unter Verwendung einer Zeitabstands-Quantisierungstabelle gemäß dem kodierenden Schemas 2 und zum Ausgeben eines Zeitabstands-Codes 2. Der algebraische Code-Umwandler 4d weist einen algebraischen Code-Dequantisierer 4d₁ zum Dequantisieren des algebraischen Codes 1 eines kodierenden Schemas 1 und zum Ausgeben eines dequantisierten algebraischen Code-Wertes auf und einen algebraischen Code Quantisierer 4d₂ zum Quantisieren des dequantisierten algebraischen Code-Wertes, unter Verwendung einer algebraischen Code-Quantisierungstabelle gemäß dem kodierenden Schemas 2 und zum Ausgeben eines algebraischen Codes 2. Der Verstärkungs-Codeumwandler 4a weist einen Verstärkungs-Dequantisierer 4e₁ zum Dequantisieren des Verstärkungs-Codes 1 eines kodierenden Schemas 1 und zum Ausgeben eines dequantisierten Verstärkungswertes auf und einen Verstärkungs-Quantisierer 4e₂ zum Quantisieren des dequantisierten Verstärkungswertes unter Verwendung einer Verstärkungs-Quantisierungstabelle gemäß einem kodierenden Schema 2 und zum Ausgeben eines Verstärkungs-Codes 2.
Der Code-Multiplexer 4f multiplext den LSP-Code 2, den Zeitabstands-Code 2, den algebraischen Code 2 und den Verstärkungs-Code 2, die jeweils von den Quantisierern 4b₂ , 4c₂ , 4d₂ und 4e₂ ausgegeben werden, wodurch ein Sprach-Code basierend auf einem kodierenden Schema 2 erzeugt wird und sendet diesen Sprach-Code an die Übertragungsleitung von einem Ausgabeanschluss #2.
In dem Tandem-Verbindungsschema (Stand der Technik 1), das in 15 dargestellt ist, ist die Eingabe dekodierende Sprache, die durch Dekodieren eines Sprach-Codes in Sprache erhalten wird, der gemäß einem kodierenden Schema 1 kodiert wurde, die dekodierende Sprache wird erneut kodiert und dann dekodiert. Als eine Folge ist, da Sprachparameter aus dekodierender Sprache extrahiert werden, in der die Menge an Information weitgehend im Vergleich zu dem ursprünglichen Eingabesprachsignal zum Neu-Kodieren (z.B. Sprachinformationskomprimierung) verringert wurde, der dadurch erhaltene Sprach-Code nicht notwendigerweise der optimale Sprach-Code. Im Gegensatz wird gemäß dem transkodierenden Gerät gemäß dem in 16 gezeigten Stand der Technik 2 der Sprach-Code eines kodierenden Schemas 1 in den Sprach-Code eines kodierenden Schemas 2 über den Prozess einer Dequantisierung und Quantisierung transkodiert. Als ein Ergebnis ist es möglich, ein Sprachtranskodieren mit weit weniger Verschlechterung im Vergleich zu der Tandem-Verbindung des Standes der Technik 1 durchzuführen. Ein zusätzlicher Vorteil ist, dass, da es unnötig ist, auch nur einmal ein Dekodieren in Sprache zu bewirken, um das Sprachtranskodieren durchzuführen, es nur wenig der Verzögerung gibt, die ein Problem bei der herkömmlichen Tandem-Verbindung ist.
Ruhekomprimierung
Ein tatsächliches Sprachkommunikationssystem weist im Allgemeinen eine hohe Komprimierungsfunktion zum Bereitstellen einer weiteren Verbesserung bei der Effizienz einer Informationsübertragung durch effektives Verwenden von in Sprache enthaltenen Ruhesegmenten auf. 18 ist eine Konzeptansicht einer Ruhekomprimierungsfunktion. Menschliche Konversation umfasst Ruhesegmente, wie zum Beispiel stille Intervalle oder Hintergrundrausch-Intervalle, die zwischen Sprachaktivitätssegmenten liegen. Ein Übertragen von Sprachinformation über Ruhesegmente hinweg ist unnötig, was es ermöglicht, den Kommunikationskanal effektiv zu verwenden. Dies ist der Grundansatz, der bei der Ruhekomprimierung verwendet wird. Wenn jedoch ein Segment zwischen Sprachaktivitätsintervallen, das auf der empfangenden Seite rekonstruiert wird, vollständig ruhig wird, wird ein akustisch unnatürliches Gefühl erzeugt. Daher wird gewöhnlich natürliches Rauschen (so genanntes „Komfortrauschen") bei der empfangenden Seite erzeugt, das kein akustisch unnatürliches Gefühl erzeugt. Um das Komfortrauschen zu erzeugen, das einem Eingabesignal gleicht, ist es notwendig, Komfortrausch-Information (unten bezeichnet als „CN-Information") von der sendenden Seite zu übertragen. Jedoch ist die Menge an Information in einer CN-Information gleich im Vergleich zu Sprache. Da darüber hinaus die Natur der Ruhesegmente lediglich graduell variiert, muss CN-Information nicht zu allen Zeiten übertragen werden. Da dieses es ermöglicht, die Menge an übertragener Information im Vergleich zu der Information in Sprachaktivitätssegmenten weitgehend zu reduzieren, kann die Gesamtübertragungseffizienz des Kommunikationskanals verbessert werden. Eine derartige Ruhekomprimierungsfunktion wird von einer VAD-Einheit (Sprachaktivitäts-Detektionseinheit – Speech Activity Detection Unit) zum Detektieren einer Sprachaktivität und von Ruhesegmenten, einer DTX-Einheit (Discontinuous Transmission Unit – diskontinuierliche Übertragungseinheit) zum Steuern der Erzeugung und Übertragung einer CN-Information an der sendenden Seite und einem CNG (Comfort Noise Generator – Komfortrausch-Generator) zum Erzeugen von Komfortrauschen auf der empfangenen Seite implementiert.
Das Prinzip der Operation der Ruhekomprimierungsfunktion wird nun in Bezug auf 19 beschrieben.
Auf der sendenden Seite wird ein Eingabesignal, das in Rahmen fester Länge geteilt wurde (z.B. 80 Abtastungen je 10ms), zu einem VAD 5a zugeführt, der die Sprachaktivitätssegmente detektiert. Der VAD 5a gibt ein Entscheidungssignal VAD_Flag aus, das eine logische „1" ist, wenn ein Sprachaktivitätssegment detektiert wird und eine logische „0", wenn ein Ruhesegment detektiert wird. Im Falle eines Sprachaktivitätssegmentes (VAD_Flag = 1), werden Schalter SW1 bis SW4 alle zu einer Sprachseite umgeschaltet, so dass ein Sprachkodierer 5b auf der sendenden Seite und ein Sprachdekodierer 6a auf der empfangenden Seite jeweils das Sprachsignal gemäß einem gewöhnlichen Sprach-kodierenden Schema (z.B. G.729A oder AMR) kodieren bzw. dekodieren. Im Falle eines Ruhesegmentes (VAD_Flag = 0) werden andererseits Schalter SW1 bis SW4 alle zu einer Ruheseite umgeschaltet, so dass ein Ruhekodierer 4c auf der sendenden Seite ein Ruhesignal kodierendes Verarbeiten durchführt, z.B. Steuern zum Erzeugen und Übertragen von CN-Information, unter der Steuerung einer DTX-Einheit (nicht gezeigt) und derart, dass ein Ruhedekodierer 6b an der empfangenden Seite dekodierendes Verarbeiten, z.B. das Komfortrauschen erzeugt, unter der Steuerung einer CNG-Einheit (nicht gezeigt) ausführt.
Der Betrieb des Ruhekodierers 5c und Ruhedekodierers wird als nächstes beschrieben. 20 ist ein Blockdiagramm dieses Kodierers und Dekodierers und 21A, 21B sind Flussdiagramme eines Verarbeitens, das von dem Ruhekodierer 5c bzw. dem Ruhedekodierer 6b durchgeführt wird.
Ein CN-Informations-Generator 7a analysiert das Eingabesignal Rahmen um Rahmen und berechnet einen CN-Parameter zur Erzeugung eines Komfortrauschens in einer CNG-Einheit 8a an der empfangenden Seite (Schritt S101). Gewöhnlicherweise wird Information über die ungefähre Form der Frequenzcharakteristik und Amplitudeninformation als CN-Parameter verwendet. Ein DTX-Steuergerät 7b steuert einen Schalter 7c, um so Rahmen um Rahmen zu steuern, ob die erhaltene CN-Information an die empfangende Seite übertragen werden soll oder nicht (S102). Verfahren einer Steuerung umfassen ein Verfahren eines adaptiven Ausübens von Steuerung gemäß der Natur eines Signals und ein Verfahren eines periodischen Ausführens von Steuerung, z.B. bei regelmäßigen Zeitabständen. Falls eine Übertragung der CN-Information notwendig ist („Ja" bei Schritt S102) wird der CN-Parameter in einen CN-Quantisierer 7d eingegeben, der den CN-Parameter quantisiert, einen CN-Code erzeugt (S103) und den Code an die empfangende Seite als Kanaldaten überträgt (S104). Ein Rahmen, in dem CN-Information übertragen wird, soll unten als ein SID-Rahmen (Silence Insertion Descriptor Frame – Ruheeinsatzbeschreiber)-„Rahmen" bezeichnet werden. Andere Rahmen als diese Rahmen sind Rahmen („Nicht-Senderahmen"), bei denen keine CN-Information übertragen wird. Falls eine „Nein"-Entscheidung bei Schritt S102 getroffen wird, wird nichts in den anderen Rahmen übertragen (S105).
Die CNG-Einheit 8a auf der empfangenden Seite erzeugt Komfortrauschen basierend auf dem übertragenen CN-Code. Insbesondere wird der CN-Code, der von der sendenden Seite übertragen wird, in einen CN-Dequantisierer 8b eingegeben, der diesen CN-Code dequantisiert, um den CN-Parameter zu erhalten (S111). Die CNG-Einheit 8a verwendet dann diesen CN-Parameter um Komfortrauschen zu erzeugen (S112). Im Falle eines Nicht-Senderahmens, nämlich eines Rahmens, in dem kein CN-Parameter ankommt, wird Komfortrauschen unter Verwendung des zuletzt empfangenen CN-Parameters erzeugt (S113).
Daher wird in einem tatsächlichen Sprachkommunikationssystem ein Ruhesegment in einer Konversation unterschieden und Information zum Erzeugen akustisch natürlichen Rauschens auf der Empfangsseite wird intermittierend in diesem Ruhesegment übertragen, wodurch es möglich gemacht wird, eine Übertragungseffizienz weiter zu verbessern. Eine Ruhekomprimierungsfunktion dieser Art wird in dem Mobil-Telefonnetzwerk in der nächsten Generation und dem zuvor erwähnten VoIP-Netzwerk angenommen, in denen Schemata verwendet werden, die sich in Abhängigkeit des Systems unterscheiden.
Die in G.729A verwendeten Ruhekomprimierungsfunktionen (VoIP) und AMR (Mobil-Telefon der nächsten Generation), die typische kodierende Schemata sind, werden nun beschrieben. Tabelle 1: Vergleich von G.729A- und AMR-Ruhekomprimierungsfunktionen
LPC-Koeffizienten (lineare Vorhersagekoeffizienten) und eine Rahmensignalleistung werden als CN-Information sowohl in G.729A als auch AMR verwendet. Ein LPC-Koeffizient ist ein Parameter, der die ungefähre Form einer Frequenzcharakteristik des Eingabesignals darstellt und eine Rahmensignalleistung ist ein Parameter, der die Amplitudencharakteristik des Eingabesignals darstellt. Diese Parameter werden durch Analysieren des Eingabesignals Rahmen um Rahmen erhalten. Ein Verfahren eines Erzeugens der CN-Information in G.729A und AMR wird beschrieben.
In G.729A wird die LPC-Information als ein durchschnittlicher Wert der LPC-Koeffizienten über die letzten 6 Rahmen einschließlich des gegenwärtigen Rahmens festgestellt. Der erhaltene, durchschnittliche Wert oder der LPC-Koeffizient des vorliegenden Rahmens wird eventuell als CN-Information verwendet, die die Signalfluktuation in der Nähe des SID-Rahmens berücksichtigt. Die Entscheidung, welcher gewählt werden sollte, wird durch Messen einer Verzerrung zwischen dem durchschnittlichen LPC- und dem vorliegenden LPC-Koeffizient getroffen. Falls eine Signalfluktuation (eine große Verzerrung) bestimmt wurde, wird der LPC-Koeffizient des vorliegenden Rahmens verwendet. Die Rahmenleistungsinformation wird als ein Wert festgestellt, der durch Mitteln einer logarithmischen Leistung eines LPC-Vorhersage-Restsignals über 0–3 Rahmen einschließlich des gegenwärtigen Rahmens erhalten wird. Hier ist das LPC-Vorhersage-Restsignal ein Signal, das durch Leiten des Eingabesignals durch ein LPC-Inversionsfilter Rahmen um Rahmen erhalten wird.
Bei AMR wird die LPC-Information als ein durchschnittlicher Wert eines LPC-Koeffizienten über die letzten 8 Rahmen einschließlich des gegenwärtigen Rahmens festgestellt. Die Berechnung des durchschnittlichen Wertes wird in einer Domäne durchgeführt, in der LPC-Koeffizienten in LSP-Parameter umgewandelt wurden. Hier ist LSP ein Parameter einer Frequenzdomäne, in der eine Kreuzumwandlung mit einem LPC-Koeffizienten möglich ist. Die Rahmensignalleistungsinformation wird als ein Wert festgestellt, der durch Mitteln einer logarithmischen Leistung des Eingabesignals über die letzten 8 Rahmen (einschließlich des gegenwärtigen Rahmens) erhalten wird.
Daher wird LPC-Information und Rahmensignalleistungsinformation als die CN-Information bei sowohl den G.729A- und AMR-Schemata verwendet, obwohl sich die Verfahren der Erzeugung (Berechnung) unterscheiden.
Die CN-Information wird zu einem CN-Code quantisiert und der CN-Code wird an einen Dekodierer übertragen. Die Bit-Zuweisung des CN-Codes in dem G.729A- und AMR-Schemata ist in Tabelle 1 angezeigt. Bei G.729A wird die LPC-Information bei 10 Bits quantisiert und die Rahmenleistungsinformation wird bei 5 Bits quantisiert. Bei dem AMR-Schema wird andererseits die LPC-Information bei 29 Bits quantisiert und die Rahmenleistungsinformation wird bei 6 Bits quantisiert. Hier wird die LPC-Information in einen LSP-Parameter umgewandelt und quantisiert. Daher unterscheidet sich eine Bitzuordung für eine Quantisierung in dem G.729A-Schema von derjenigen in dem AMR-Schema. 22A und 22B sind Diagramme, die jeweils die Struktur eines Ruhe-Codes (CN-Codes) in den G.729A- und AMR-Schemata darstellen.
In G.729A beträgt die Größe eines Ruhe-Codes 15 Bits, wie in 22A gezeigt, und ist aus einem LSP-Code I_LSPg (10 Bits) und einem Leistungs-Code I_POWg (5 Bits) zusammengesetzt.
Jeder Code wird durch einen Index (Elementnummer) eines Code-Buches gebildet, das im Besitz eines G.729A-Quantisierers ist. Die Details sind wie folgt: (1) Der LSP-Code I_LSPg ist aus 6 Codes L_G1 (1 Bit), L_G2 (5 Bits) und L_G3 (4 Bits) zusammengesetzt, in denen L_G1 eine Vorhersagekoeffizient-Umschaltinformation eines LSP-Quantisierers ist und L_G2, L_G3 Indizes eines Code-Buches CG_G1, CB_G2 des LSP-Quantisierers sind und (2) der Leistungs-Code I_POWg ist ein Index eines Codebuches CB_G3 eines Leistungsquantisierers.
Bei dem AMR-Schema beträgt die Größe eines Ruhe-Codes 35 Bits, wie in 22B gezeigt, und ist aus einem LSP-Code I_LSPa (29 Bits) und einem Leistungs-Code I_POWa (6 Bits) zusammengesetzt. Die Details sind wie folgt: (1) der LSP-Code I_LSPa ist aus Codes L_A1 (3 Bits), L_A2 (8 Bits), L_A3 (9 Bits) und L_A4 (9 Bits) zusammengesetzt, in denen die Code Indizes von Codebüchern GB_A1, GB_A2, GB_A3, GB_A4 eines LSP-Quantisierers sind und (2) der Leistungs-Code I_POWa ist ein Index eines Codebuches GB_A5 eines Leistungsquantisierers.
DTX-Steuerung
Ein DTX-Steuerungsverfahren wird als nächstes beschrieben. 23 stellt den zeitlichen Fluss einer DTX-Steuerung bei G.729A dar und 24, 25 stellen den zeitlichen Fluss einer DTX-Steuerung bei AMR dar.
Wenn eine VAD-Einheit eine Änderung von einem Sprachaktivitätssegment (VAD_Flag = 1) zu einem Ruhesegment (VAD_FLAG = 0) hin in dem G.729A-Schema detektiert, wird der erste Rahmen in dem Ruhesegment als ein SID-Rahmen gesetzt. Der SID-Rahmen wird durch Erzeugung von CN-Information und Quantisierung der CN-Information durch das oben beschriebene Verfahren erzeugt und an die empfangende Seite übertragen. In dem Ruhesegment wird eine Signalfluktuation Rahmen um Rahmen beobachtet, wobei lediglich ein Rahmen, bei dem Fluktuation detektiert wurde, als ein SID-Rahmen gesetzt wird und CN-Information erneut in dem SID-Rahmen übertragen wird. Ein Rahmen für den keine Fluktuation detektiert wurde, wird als ein Nicht-Senderahmen gesetzt und in diesem Rahmen wird keine Information übertragen. Eine Begrenzung ist eingeführt, gemäß derer zumindest zwei Nicht-Senderahmen zwischen SID-Rahmen umfasst sind. Eine Fluktuation wird durch Messen des Änderungsbetrages in einer CN-Information zwischen dem gegenwärtigen Rahmen und dem zuletzt übertragenen SID-Rahmen detektiert. In dem G.729A-Schema wird, wie oben erwähnt, das Setzen eines SID-Rahmens adaptiv in Bezug auf eine Fluktuation in dem Ruhesignal durchgeführt.
Eine DTX-Steuerung in dem AMR-Schema wird mit Bezug auf 24 und 25 beschrieben. In dem AMR-Schema ist das Verfahren eines Setzens von SID-Rahmen derart, dass im Wesentlichen ein SID-Rahmen periodisch alle 8 Rahmen gesetzt wird, wie in 24 gezeigt, im Gegensatz zu dem adaptiven Steuerungsverfahren in dem G.729A-Schema. Jedoch wird eine Reststeuerung, wie in 25 gezeigt, an einem Punkt durchgeführt, an dem es eine Änderung zu einem Ruhesegment gibt, das einem langen Sprachaktivitätssegment folgt. Insbesondere werden 7 Rahmen, die dem Punkt einer Änderung folgen, als Sprachaktivitätssegmente ungeachtet der Änderung zu dem Ruhesegment (VAD_FLAG = 0) gesetzt und das übliche Sprach-kodierende Verarbeiten wird in Bezug auf diese Rahmen ausgeführt. Dieses Intervall von 7 Rahmen wird als „Rest" bezeichnet. Ein Rest wird in einem Fall gesetzt, bei dem die Anzahl an Rahmen (P-FRM), die dem SID-Rahmen folgen, der zuletzt gesetzt wurde, 23 Rahmen oder mehr beträgt. Als ein Ergebnis eines Setzens eines Restes wird CN-Information an dem Änderungspunkt (dem Punkt, bei dem das Ruhesegment beginnt) daran gehindert, aus einem charakteristischen Parameter des Sprachaktivitätssegmentes (die letzten 8 Rahmen) festgestellt zu werden, was es ermöglicht, dass eine Sprachqualität an dem Änderungspunkt von einer Sprachaktivität zu Ruhe verbessert werden kann.
Der achte Rahmen wird dann als der erste SID-Rahmen (SID_FIRST-Rahmen) gesetzt. In dem SID_FIRST-Rahmen jedoch wird keine CN-Information übertragen. Der Grund dafür ist, dass die CN-Information aus einem dekodierten Signal in dem Restintervall durch einen Dekodierer auf der empfangenden Seite erzeugt werden kann. Der dritte Rahmen nach dem SID_FIRST-Rahmen wird als ein SID_UPDATE-Rahmen gesetzt und eine CN-Information wird hier zum ersten Mal übertragen. In dem Ruhesegment wird von diesem Punkt an alle acht Rahmen ein SID_UPDATE-Rahmen gesetzt. Der SID_UPDATE-Rahmen wird von dem oben beschriebenen Verfahren erzeugt und wird zu der empfangenden Seite übertragen. Andere Rahmen als diese werden als Nicht-Senderahmen gesetzt und CN-Information wird in diesen Nicht-Senderahmen nicht übertragen.
In einem Fall, bei dem die Anzahl an Rahmen, die einem SID-Rahmen folgen, der zuletzt gesetzt wurde, weniger als 23 Rahmen beträgt, wie in 24 gezeigt, wird keine Reststeuerung ausgeführt. In diesem Fall wird der Rahmen an dem Änderungspunkt (der erste Rahmen des Ruhesegments) als SID_UPDATE gesetzt. Jedoch wird keine CN-Information berechnet und die zuletzt übertragene CN-Information wird erneut in diesem Rahmen übertragen. Wie zuvor beschrieben überträgt eine DTX-Steuerung in dem AMR-Schema die CN-Information unter fester Steuerung ohne eine adaptive Steuerung des G.729A-Typs durchzuführen und daher wird eine Reststeuerung wie erforderlich durchgeführt, die den Punkt berücksichtigt, an dem die Änderung von Sprachaktivität zu Ruhe auftritt.
Wie oben beschrieben ist die Grundtheorie der Ruhekomprimierungsfunktion gemäß dem G.729A-Schema die gleiche wie diejenige des AMR-Schemas, aber die Erzeugung und Quantisierung einer CN-Information und ein DTX-Steuerungsverfahrens unterscheiden sich zwischen den zwei Schemata.
26 ist ein Blockdiagramm für einem Fall, bei dem jedes der Kommunikationssysteme die Ruhekomprimierungsfunktion gemäß einem Stand der Technik (1) aufweist. Im Falle der Tandem-Verbindung ist die Struktur derart, dass Sprach-Code gemäß einem kodierenden Schema 1 in ein dekodierendes Signal kodiert wird und das dekodierende Signal erneut gemäß einem kodierenden Schema 2 kodiert wird, wie oben beschrieben. In einem Fall bei dem jedes System die Ruhekomprimierungsfunktion aufweist, wie in 26 gezeigt, trifft eine VAD-Einheit 3c in dem Sprach-Transkodierer 3 eine Sprachaktivitäts-/Ruhesegmententscheidung hinsichtlich des dekodierenden Signals, das durch ein Kodieren/Dekodieren (Informationskomprimierung) erhalten wird, das gemäß einem kodierenden Schema 1 durchgeführt wird. Als eine Folge gibt es Fälle, bei denen die Präzision der Sprachaktivitäts-/Ruhesegmententscheidung von der VAD-Einheit 3c abnimmt und Probleme entstehen, wie zum Beispiel gedämpfte Sprache bei dem Beginnen einer Äußerung, das durch eine fehlerhafte Entscheidung verursacht wird. Das Endergebnis ist ein Abfall in einer Sprachqualität. Obwohl es eine vorstellbare Gegenmaßnahme ist, alle Segmente als Sprachaktivitätssegmente im kodierenden Schema 2 zu verarbeiten, erlaubt dieser Ansatz nicht, dass eine optimale Ruhekomprimierung durchgeführt wird und der ursprünglich beabsichtigte Effekt des Verbesserns einer Übertragungseffizienz durch Ruhekomprimierung wird verloren. Darüber hinaus wird in einem Ruhesegment eine CN-Information gemäß einem kodierenden Schema 2 aus Komfortrauschen erhalten, das von dem Dekodierer 3a eines kodierenden Schemas 1 erzeugt wird und dies ist nicht notwendigerweise die beste CN-Information zum Erzeugen von Rauschen, das dem Eingabesignal gleicht.
Obwohl weiter Stand der Technik 2 ein Sprach-transkodierendes Verfahren ist, das dem Stand der Technik 1 (der Tandem-Verbindung) in Form einer verminderten Verschlechterung an Sprachqualität und Übertragungsverzögerung überlegen ist, ist ein Problem bei diesem Verfahren, dass es die Ruhekomprimierungsfunktion nicht berücksichtigt. Da mit anderen Worten ein Stand der Technik 2 annimmt, dass Information Information ist, die durch ein Kodieren eines eingegebenen Sprach-Codes als ein Sprachaktivitätssegment zu allen Zeiten erhalten wird, kann eine normale transkodierende Operation nicht ausgeführt werden, wenn ein SID-Rahmen oder ein Nicht-Senderahmen von der Ruhekomprimierungsfunktion erzeugt wird.
In WO-A-0048170 ist ein Verfahren und Gerät zur CELP-basierten (Code-exited linear prediction – Code angeregte lineare Vorhersage) zu CELP-basierter Sprachentschlüsslungsgerät-Paketübersetzung offenbart und insbesondere zum Übersetzen digitaler Sprachpakete von einem CELP-Format zu einem anderen CELP-Format.
Zusammenfassung der Erfindung
Demgemäß ist es ein Ziel der vorliegenden Erfindung, wie in den angehängten Ansprüchen beansprucht, die eine Kommunikation zwischen zwei Sprachkommunikationssystemen mit Ruhe-kodierenden Verfahren betrifft, die sich von einander unterscheiden, einen CN-Code zu Transkodieren, der durch Kodieren gemäß eines Ruhe-kodierenden Verfahrens auf der sendenden Seite erhalten wurde, in CN-Code, der mit einem Ruhe-Code kodierenden Verfahren an der empfangenden Seite übereinstimmt, ohne den CN-Code in ein CN-Signal zu dekodieren.
Ein anderes Ziel der vorliegenden Erfindung ist, CN-Code auf der sendenden Seite in CN-Code auf der empfangenden Seite zu transkodieren, unter Berücksichtigung von Unterschieden in einer Rahmenlänge und in einer DTX-Steuerung zwischen den sendenden und empfangenden Seiten.
Ein weiteres Ziel der vorliegenden Erfindung ist ein Ruhe-Transkodieren mit hoher Qualität und Sprach-transkodieren bei einer Kommunikation zwischen zwei Sprachkommunikationssystemen zu erreichen, die Ruhekomprimierungsfunktionen aufweisen, die sich von einander unterscheiden.
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein erster Ruhe-Code, der durch Kodieren eines Ruhesignals erhalten wird, das in einem Eingabesignal enthalten ist, durch eine Ruhekomprimierungsfunktion eines ersten Sprachkodierenden Schemas in einen zweiten Ruhe-Code eines zweiten Sprach-kodierenden Schemas umgewandelt, ohne zunächst den ersten Ruhe-Code in ein Ruhesignal zu dekodieren. Zum Beispiel wird der erste Ruhe-Code in eine Vielzahl von ersten Element-Codes demultiplext, wobei die Vielzahl von ersten Element-Codes in eine Vielzahl an zweiten Element-Codes umgewandelt werden, die den zweiten Ruhe-Code bilden und die Vielzahl von zweiten Element-Codes, die durch diese Umwandlung erhalten werden, gemultiplext werden, um den zweiten Ruhe-Code auszugeben.
Gemäß einem ersten Aspekt der vorliegenden Erfindung kann bei einer Kommunikation zwischen zwei Sprachkommunikationssystemen mit Ruhekomprimierungsfunktionen, die sich voneinander unterscheiden, ein Ruhe-Code (CN-Code), der durch Kodieren erhalten wird, das gemäß dem Ruhe-kodierenden Verfahren auf der sendenden Seite durchgeführt wird, in Ruhe-Code (CN-Code) transkodiert werden, das mit einem Ruhe-kodierenden Verfahren auf der empfangenden Seite übereinstimmt, ohne dass der CN-Code in ein CN-Signal kodiert wird.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird Ruhe-Code lediglich in einem vorgeschriebenen Rahmen (einem Ruherahmen) eines Ruhesegmentes übertragen, wobei ein Ruhe-Code nicht in anderen Rahmen (Nicht-Senderahmen) des Ruhesegmentes übertragen wird und eine Rahmentyp-Information, die die Unterscheidung zwischen einem Sprachaktivitätsrahmen, einem Ruherahmen und einem Nicht-Senderahmen anzeigt, an Code-Information auf einer Basis je Rahmen angehängt wird. Wenn ein Ruhe-Code transkodiert wird, wird der Typ eines Rahmens des Codes basierend auf der Rahmentyp-Information identifiziert. Im Falle eines Ruherahmens und eines Nicht-Senderahmens, wird ein erster Ruhe-Code in einen zweiten Ruhe-Code unter Berücksichtigung eines Unterschieds in einer Rahmenlänge und Ungleichheit bei einer Ruhe-Code-Übertragungssteuerung zwischen ersten und zweiten Ruhe-kodierenden Schemata transkodiert.
Wenn zum Beispiel (1) das erste Ruhe-kodierende Schema ein Schema ist, bei dem gemittelter Ruhe-Code jede vorbestimmte Anzahl von Rahmen in einem Ruhesegment übertragen wird und Ruhe-Code nicht in anderen Rahmen in dem Ruhesegment übertragen wird, (2) ist das zweite Ruhe-kodierende Schema ein Schema, bei dem ein Ruhe-Code lediglich in Rahmen übertragen wird, wobei die Rate einer Änderung eines Ruhesignals in einem Ruhesegment groß ist, ein Ruhe-Code nicht in anderen Rahmen in dem Ruhesegment übertragen wird und darüber hinaus Ruhe-Code nicht sukzessiv übertragen wird und (3) eine Rahmenlänge in dem ersten Ruhe-kodierenden Schema zweimal eine Rahmenlänge in dem zweiten Ruhe-kodierenden Schema ist, (a) eine Code-Information eines Nicht-Senderahmens in dem ersten Ruhe-kodierenden Schema in eine Code-Information von zwei Nicht-Senderahmen in dem zweiten Ruhe-kodierenden Schema umgewandelt wird und (b) Code-Information eines Ruherahmens in dem ersten Ruhe-kodierenden Schema in zwei Rahmen von Code-Information eines Ruherahmens und Code-Information eines Nicht-Senderahmens in dem zweiten Ruhe-kodierenden Schema umgewandelt wird.
Falls weiter, wenn es eine Änderung von einem Sprachaktivitätssegment zu einem Ruhesegment gibt, das erste Ruhe-kodierende Schema n sukzessive Rahmen als Sprachaktivitätsrahmen berücksichtigt, einschließlich eines Rahmens an einem Punkt, bei dem die Änderung auftrat, und Sprach-Code in diesen n sukzessiven Rahmen überträgt und den nächsten Rahmen als anfänglichen Ruherahmen annimmt, der nicht einschließlich des Ruherahmens ist und Rahmentyp-Information in diesem nächsten Rahmen überträgt, dann (a) wenn der anfängliche Ruherahmen in dem ersten Ruhe-kodierenden Schema detektiert wurde, dequantisierte Werte, die durch Dequantisieren von Sprach-Code der direkt vorangehenden n Sprachaktivitätsrahmen in dem ersten Sprachkodierenden Schema erhalten werden, gemittelt werden, um einen Durchschnittswert zu erhalten und (b) der Durchschnittswert quantisiert wird, um dadurch einen Ruhe-Code in einem Ruherahmen des zweiten Ruhe-kodierenden Schemas zu erhalten.
In einem anderen Beispiel (1) ist das erste Ruhe-kodierende Schema ein Schema, bei dem Ruhe-Code lediglich in Rahmen übertragen wird, wobei die Rate einer Änderung eines Ruhesignals in einem Ruhesegment groß ist, Ruhe-Code nicht in anderen Rahmen in dem Ruhesegment übertragen wird und darüber hinaus Ruhe-Code nicht sukzessiv übertragen wird, (2) das zweite Ruhe-kodierende Schema ein Schema ist, in dem gemittelter Ruhe-Code jede vorbestimmte Anzahl N an Rahmen in einem Ruhesegment übertragen wird und Ruhe-Code nicht in anderen Rahmen in dem Ruhesegment übertragen wird, und (3) eine Rahmenlänge in dem ersten Ruhe-kodierenden Schema eine halbe Rahmenlänge in dem zweiten kodierenden Schema ist, (a) dequantisierte Werte eines jeden Ruhe-Codes in 2 × N sukzessiven Rahmen des ersten Ruhe-kodierenden Schemas gemittelt werden, um einen Durchschnittswert zu erhalten und der Durchschnittswert quantisiert wird, um ein Transkodieren in Ruhe-Code jedes Rahmens alle N Rahmen in dem zweiten Ruhe-kodierenden Schema zu bewirken und (b) in Bezug auf andere Rahmen als die alle N Rahmen, Code von zwei sukzessiven Rahmen des ersten Ruhe-kodierenden Schemas in Code eines einzigen Nicht-Senderahmens des zweiten Ruhe-kodierenden Schemas transkodiert wird, ungeachtet des Rahmentyps.
Falls weiter, wenn es eine Änderung von einem Sprachaktivitätssegment zu einem Ruhesegment hin gibt, das zweite Ruhe-kodierende Schema N sukzessive Rahmen als Sprachaktivitätsrahmen berücksichtigt, einschließlich eines Rahmens an einem Punkt, bei dem die Änderung auftrat, und Sprachaktivitäts-Code in diesem N sukzessiven Rahmen überträgt und den nächsten Rahmen als einen anfänglichen Ruherahmen annimmt, der nicht einschließlich von Ruhe-Code ist und lediglich Rahmentyp-Information in diesem nächsten Rahmen überträgt, dann (a) ein Ruhe-Code eines ersten Ruherahmens dequantisiert wird, um dequantisierte Werte einer Vielzahl an Element-Codes zu erzeugen und zu der gleichen Zeit dequantisierte Werte anderer Element-Codes, die vorbestimmt oder zufällig sind, erzeugt werden, (b) dequantisierte Werte jedes der Element-Codes zweier sukzessiver Rahmen unter Verwendung von Quantisierungstabellen des zweiten Sprach-kodierenden Schemas quantisiert werden, wodurch eine Umwandlung in einen Rahmen eines Sprach-Codes des zweiten Sprach-kodierenden Schemas bewirkt wird und (c) nachdem N Rahmen an Sprach-Code des zweiten Sprach-kodierenden Schemas ausgegeben werden, lediglich Rahmentyp-Information des anfänglichen Ruherahmens, der nicht einschließlich eines Ruhe-Codes ist, übertragen wird.
Gemäß dem zweiten Aspekt der vorliegenden Erfindung kann ein Ruhe-Code (CN-Code) an der sendenden Seite in Ruhe-Code (CN-Code) an der empfangenden Seite, ohne Ausführung eines Dekodierens in ein Ruhesignal, unter Berücksichtigung eines Unterschieds in einer Rahmenlänge und Ungleichheit in einer Ruhe-Code Übertragungssteuerung zwischen der sendenden und der empfangenden Seite transkodiert werden.
Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung in Verbindung mit den begleitenden Zeichnungen ersichtlich.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm, das nützlich zum Beschreiben des Prinzips der vorliegenden Erfindung ist;
2 ist ein Blockdiagramm einer ersten Ausführung eines Ruhe-Transkodierens gemäß der vorliegenden Erfindung;
3 stellt Rahmen dar, die gemäß den G.729A- und AMR-Schemata verarbeitet werden;
4A bis 4C zeigen Steuerungsverfahren zur Umwandlung eines Rahmentyps von AMR zu G.729A;
5A und 5B sind Flussdiagramme eines Verarbeitens durch eine Leistungskorrektureinheit;
6 ist ein Blockdiagramm gemäß einer zweiten Ausführung der vorliegenden Erfindung;
7 ist ein Blockdiagramm, gemäß einer dritten Ausführung der vorliegenden Erfindung;
8 zeigt Steuerungsverfahren zur Umwandlung eines Rahmentyps von G.729A zu AMR;
9 zeigt Steuerungsverfahren zur Umwandlung eines Rahmentyps von G.729A zu AMR;
10 ist ein Diagramm, das nützlich beim Beschreiben einer Umwandlungssteuerung (AMR-Umwandlungssteuerung alle acht Rahmen) in einem Ruhesegment ist;
11 ist ein Blockdiagramm gemäß einer vierten Ausführung der vorliegenden Erfindung;
12 ist ein Blockdiagramm eines Sprach-Transkodierers gemäß der vierten Ausführung;
13A und 13B sind Diagramme, die nützlich beim Beschreiben einer transkodierenden Steuerung an einem Punkt sind, bei dem es eine Änderung von Sprachaktivität zu Ruhe gibt;
14 ist ein Diagramm, das nützlich beim Beschreiben einer transkodierenden Steuerung an einem Punkt ist, bei dem es eine Änderung von Ruhe zu Sprachaktivität gibt;
15 ist ein Diagramm, das nützlich beim Beschreiben eines Standes der Technik 1 ist (eine Tandem-Verbindung);
16 ist ein Diagramm, das nützlich beim Beschreiben eines Standes der Technik 2 ist;
17 ist ein Diagramm zum Beschreiben eines Standes der Technik 2 in größerem Detail;
18 ist eine Konzeptansicht einer Ruhekomprimierungsfunktion gemäß dem Stand der Technik;
19 ist ein Diagramm, das das Prinzip einer Ruhekomprimierungsfunktion gemäß dem Stand der Technik darstellt;
20 ist ein Verarbeitungs-Blockdiagramm der Ruhekomprimierungsfunktion gemäß dem Stand der Technik;
21A und 21B sind verarbeitende Flussdiagramme der Ruhekomprimierungsfunktion gemäß dem Stand der Technik;
22A und 22B sind Diagramme, die die Struktur eines Ruhe-Codes gemäß dem Stand der Technik zeigen;
23 ist ein Diagramm, das nützlich beim Beschreiben einer DTX-Steuerung gemäß G.729A ist;
24 ist ein Diagramm, das nützlich beim Beschreiben einer DTX-Steuerung (ohne Reststeuerung) gemäß dem AMR-Schema im Stand der Technik ist;
25 ist ein Diagramm, das nützlich beim Beschreiben einer DTX-Steuerung (mit Reststeuerung) gemäß dem AMR-Schema im Stand der Technik ist; und
26 ist ein Blockdiagramm gemäß dem Stand der Technik in einem Fall, bei dem die Ruhekomprimierungsfunktion bereitgestellt wird.
Beschreibung der bevorzugten Ausführungen
(A) Prinzip der vorliegenden Erfindung.
1 ist ein Diagramm, das nützlich beim Beschreiben des Prinzips der vorliegenden Erfindung ist. Es wird angenommen, dass ein kodierendes Schema basierend auf CELP (Code Excited Linear Prediction – Code angeregte lineare Vorhersage), wie zum Beispiel ein AMR oder ein G.729A als kodierendes Schema 1 und kodierendes Schema 2 verwendet werden und dass jedes kodierende Schema die oben beschriebene Ruhekomprimierungsfunktion aufweist. In 1 wird ein Eingabesignal xin in einen Kodierer 51a eines kodierenden Schemas 1 eingegeben, worauf der Kodierer 51a das Eingabesignal kodiert und Code-Daten bst1 ausgibt. Zu dieser Zeit führt der Kodierer 51a eines kodierenden Schemas 1 ein Sprachaktivitäts-/Ruhesegmentkodieren in Übereinstimmung mit der Entscheidung (VAD_FLAG) aus, die durch eine VAD-Einheit 51b in Übereinstimmung mit der Ruhekomprimierungsfunktion getroffen wird. Dem gemäß sind die Code-Daten bst1 aus Sprachaktivitäts-Code oder CN-Code zusammengesetzt. Die Code-Daten bst1 enthalten Rahmentyp-Information Ftype1, die anzeigt, ob dieser Rahmen ein Sprachaktivitätsrahmen oder ein SID-Rahmen (oder ein Nicht-Senderrahmen) ist.
Ein Rahmentypdetektor 52 detektiert die Rahmentyp-Information Ftype1 aus den eingegebenen Code-Daten bst1 und gibt die Rahmentyp-Information Ftype1 an ein transkodierendes Steuergerät 53 aus. Das Letztere identifiziert Sprachaktivitätssegmente und Ruhesegmente basierend auf der Rahmentyp-Information Ftype1, wählt ein geeignetes transkodierendes Verarbeiten gemäß dem Ergebnis einer Identifikation aus und schaltet Steuerungsschalter S1, S2 um.
Falls die Rahmentyp-Information Ftype1 einen SID-Rahmen anzeigt, wird ein Ruhe-Code-Transkodierer 60 ausgewählt. In dem Ruhe-Code-Transkodierer 60 werden die Code-Daten bst1 in einen Code-Demultiplexer 61 eingegeben, der die Daten in Element-CN-Codes des kodierenden Schemas 1 demultiplext. Die Element-CN-Codes treten in jeden der CN-Code-Umwandler 62₁ bis 62_n ein. Die CN-Code-Umwandler 62₁ bis 62_n transkodieren die Element-CN-Codes direkt in die jeweiligen Element-CN-Codes eines kodierenden Schemas 2, ohne ein Dekodieren in ein CN-Signal zu bewirken. Ein Code-Multiplexer 63 multiplext die Element-CN-Codes, die durch Transkodieren erhalten werden, und gibt die multiplexten Codes in einen Dekodierer 54 eines kodierenden Schemas 2 als Ruhe-Code bst2 eines kodierenden Schemas 2 ein.
Falls die Rahmentyp-Information Ftype1 einen Nicht-Senderahmen anzeigt, wird kein transkodierendes Verarbeiten durchgeführt. In einem derartigen Fall enthält der Ruhe-Code bst2 lediglich Rahmentyp-Information, die den Nicht-Senderahmen anzeigt.
In einem Fall, bei dem die Rahmentyp-Information Ftype1 einen Sprachaktivitätsrahmen anzeigt, wird ein Sprach-Transkodierer 70 ausgewählt, der gemäß einem Stand der Technik 1 oder 2 konstruiert ist. Der Sprach-Transkodierer 70 führt ein Sprach-transkodierendes Verarbeiten gemäß dem Stand der Technik 1 oder 2 durch und gibt Code-Daten bst2 aus, die aus einem Sprach-Code eines kodierenden Schemas 2 zusammengesetzt sind.
Da daher eine Rahmentyp-Information Ftype1 in einem Sprach-Code umfasst ist, kann ein Rahmentyp durch Bezugnehmen auf diese Information identifiziert werden. Als ein Ergebnis kann auf eine VAD-Einheit in dem Sprach-Transkodierer verzichtet werden und darüber hinaus können fehlerhafte Entscheidungen hinsichtlich Sprachaktivitätssegmenten und Ruhesegmenten beseitigt werden.
Da weiter CN-Code eines kodierenden Schemas 1 direkt in CN-Code eines kodierenden Schemas 2 kodiert wird, ohne zunächst in ein dekodiertes Signal (CN-Signal) dekodiert zu werden, kann eine optimale CN-Information in Bezug auf das Eingabesignal auf der empfangenden Seite erhalten werden. Als ein Ergebnis kann natürliches Hintergrundrauschen rekonstruiert werden, ohne den Effekt eines Erhöhens einer Übertragungseffizienz durch die Ruhekomprimierungsfunktion aufzugeben.
Weiter kann ein transkodierendes Verarbeiten ebenso hinsichtlich SID-Rahmen und Nicht-Senderahmen zusätzlich zu Sprachaktivitätsrahmen ausgeführt werden. Als ein Ergebnis ist es möglich, zwischen unterschiedlichen Sprach-kodierenden Schemata zu transkodieren, die eine Ruhekomprimierungsfunktion aufweisen.
Weiter kann ein Transkodieren zwischen zwei Sprachkodierenden Schemata mit unterschiedlichen Ruhe-/Sprachkomprimierungsfunktionen durchgeführt werden, während der Effekt eines Erhöhens einer Übertragungseffizienz durch die Ruhekomprimierungsfunktion aufrechterhalten wird und während ein Abfall in einer Qualität und Übertragungsverzögerung unterdrückt wird.
(B) Erste Ausführung
2 ist ein Blockdiagramm einer ersten Ausführung des Ruhe-Transkodierens gemäß der vorliegenden Erfindung. Dies stellt ein Beispiel dar, bei dem AMR als kodierendes Schema 1 verwendet wird und G.729A als kodierendes Schema 2. In 2 tritt ein n-ter Rahmen von Kanaldaten bst1(n), z.B.
Kanaldaten, in ein Endgerät 1 von einem AMR Kodierer (nicht gezeigt) ein. Der Rahmentyp-Detektor 52 extrahiert Rahmentyp-Information Ftype1(n), die in den Kanaldaten bst1(n) enthalten ist und gibt diese Information an das transkodierende Steuergerät 53. Die Rahmentyp-Information Ftype(n) in dem AMR-Schema besteht aus vier Arten, nämlich Sprachaktivitätsrahmen (SPEECH), SID-Rahmen (SID_FIRST), SID-Rahmen (SID_UPDATE) und Nicht-Senderahmen (NO_DATA) (siehe 24 und 25). Der Ruhe-Code-Transkodierer 60 übt eine CN-transkodierende Steuerung gemäß der Rahmentyp-Information Ftype1(n) aus.
Bei der CN-transkodierenden Steuerung ist es notwendig, den Unterschied in Rahmenlängen zwischen AMR und G.729A zu berücksichtigen. Wie in 3 gezeigt, beträgt die Rahmenlänge in AMR 20 ms, wohingegen sie in G.729A 10 ms beträgt. Dem gemäß verursacht ein Umwandlungsverarbeiten ein Umwandeln eines Rahmens (eines n-ten Rahmens) in AMR als zwei Rahmen [m-ter und (m+1)-ter Rahmen] in G.729A. 4A bis 4C stellen Steuerungsverfahren zum Durchführen des Transkodierens von einem AMR- zu einem G.729A-Rahmentyp dar. Diese Verfahren werden nun in Reihenfolge beschrieben.
(a) Falls Ftype1(n) = SPEECH (Empfang eines Sprachaktivitätsrahmens).
Falls Ftype1(n) = SPEECH gilt, wie in 4A gezeigt, werden die Steuerungsschalter S1, S2 in 2 zu Anschluss 2 umgeschaltet und ein transkodierendes Verarbeiten wird durch den Sprach-Transkodierer 70 ausgeführt.
(b) Falls Ftype1(n) = SID_UPDATE (Empfang eines SID-Rahmens)
Nun wird eine Operation, wenn Ftype1(n) = SID_UPDATE gilt, beschrieben. Falls ein Rahmen in AMR ein SID_UPDATE-Rahmen ist, wie in 4B gezeigt, wird ein m-ter Rahmen in G.729A als ein SID-Rahmen gesetzt und ein CN-transkodierendes Verarbeiten wird ausgeführt. Insbesondere werden die Schalter in 2 zu Anschluss 3 geschaltet und ein Ruhe-Code-Transkodierer 60 transkodiert einen CN-Code bst1(n) in dem AMR-Schema in einen m-ter Rahmen eines CN-Codes bst2(m) in dem G.729A-Schema. Da SID-Rahmen nicht sukzessive in dem G.729A-Schema gesetzt sind, wie oben in Bezug auf 23 beschrieben, wird der (m+1)-te Rahmen, der der nächste Rahmen ist, als ein Nicht-Senderahmen gesetzt. Der Betrieb eines jeden CN-Element-Code-Umwandlers (LSP-Transkodierer 62₁ und Rahmenleistungs-Transkodierer 62₂ ) wird später beschrieben.
Wenn zunächst der CN-Code bst1(n) in den Code-Demultiplexer 61 eintritt, demultiplext der Letztere den CN-Code best1(n) in LSP-Code I_LSP1(n) und Rahmen-Leistungscode I_POW1(n), gibt I_LSP1(n) in einen LSP-Dequantisierer 81 ein, der die gleiche Quantisierungstabelle wie diejenige des AMR-Schemas aufweist und gibt I_POW1(n) in einen Rahmenleistungs-Dequantisierer 91 ein, der die gleiche Quantisierungstabelle wie diejenige des AMR-Schemas aufweist.
Der LSP-Dequantisierer 81 dequantisiert den eingegebenen LSP-Code I_LSP1(n) und gibt einen LSP-Parameter LSP1(n) in dem AMR-Schema aus. Das heißt, der LSP-Dequantisierer 81 gibt den LSP-Parameter LSP1(n), der das Ergebnis einer Dequantisierung ist, in einen LSP-Quantisierer 82 als einen LSP-Parameter LSP2(m) eines m-ten Rahmens des G.729A-Schemas ein. Der LSP-Quantisierer 82 quantisiert LSP2(m) und gibt LSP-Code I_LSP2(m) des G.729A-Schemas aus. Obwohl der LSP-Quantisierer 82 irgendein Quantisierungsverfahren verwenden kann, ist die verwendete Quantisierungstabelle die gleiche wie diejenige, die in dem G.729A-Schema verwendet wird.
Der Rahmenleistungs-Dequantisierer 91 dequantisiert den eingegebenen Rahmenleistungs-Code I_POW1(n) und gibt einen Rahmen-Leistungsparameter POW1(n) in dem AMR-Schema aus. Die Rahmenleistungsparameter in den AMR- und G.729A-Schemata umfassen unterschiedliche Signaldomänen, wenn eine Rahmenleistung berechnet wird, wobei die Signaldomäne in dem AMR-Schema das Eingabesignal ist und in dem G.729A-Schema die LPC-Restsignal-Domäne, wie in Tabelle 1 angezeigt. Dem gemäß korrigiert in Übereinstimmung mit einem später beschriebenen Verfahren eine Rahmen-Leistungskorrektureinheit 92 POW1(n) in dem AMR-Schema zu der LSP-Restsignal-Domäne in einer derartigen Weise, dass dieses in dem G.729A-Schema verwendet werden kann. Die Rahmen-Leistungskorrektureinheit 92, deren Eingabe POW1(n) ist, gibt einen Rahmen-Leistungsparameter POW2(m) in dem G.729A-Schema aus. Ein Rahmenleistungs-Quantisierer 93 quantisiert POW2(m) und gibt einen Rahmen-Leistungs-Code I_POW2(m) in dem G.729A-Schema aus. Obwohl der Rahmenleistungs-Quantisierer 93 irgendein Quantisierungsverfahren verwenden kann, ist die verwendete Quantisierungstabelle die gleiche wie diejenige, die in dem G.729A-Schema verwendet wird.
Der Code-Multiplexer 63 multiplext I_LSP2(m) und I_POW2(n) und gibt das multiplexte Signal als einen CN-Code bst2(m) in dem G.729A-Schema aus.
Der (m+1)-ten Rahmen wird als ein Nicht-Senderahmen gesetzt und daher wird ein Umwandlungsverarbeiten hinsichtlich dieses Rahmens nicht ausgeführt. Dem gemäß umfasst bst2(m+1) lediglich Rahmentyp-Information, die den Nicht-Senderahmen anzeigt.
(c) Falls Ftype1(n) = NO_DATA
Falls als nächstes Rahmentyp-Daten FTYPE1(n) = NO_DATA gilt, werden sowohl der m-te und der (m+1)-te Rahmen als Nicht-Senderahmen gesetzt, wie in 4C gezeigt. In diesem Fall wird kein transkodierendes Verarbeiten ausgeführt und bst2(m), bst2(m+1) enthalten lediglich Rahmentyp-Information, die einen Nicht-Senderahmen anzeigt.
(d) Verfahren eines Korrigierens einer Rahmenleistung.
Eine logarithmische Leistung POW1 gemäß dem G.792A-Schema wird auf der Basis der vorliegenden Gleichung berechnet: POW1 = 20log10E1 (1)wobei das Folgende gilt:
Hier stellt err(n) [(n = 0, ..., N₁–1, N₁: Rahmenlänge (80 Abtastungen gemäß G.729A)] das LPC-Restsignal dar. Dieses wird gemäß der folgenden Gleichung unter Verwendung des Eingabesignals s(n) (n = 0, ..., N₁–1) und eines LPC-Koeffizienten α₁ (i = 1, ..., 10) festgestellt, der aus S(n) erhalten wird:
Andererseits wird eine logarithmische Leistung POW2 in dem AMR-Schema auf Grundlage der folgenden Gleichung berechnet: POW2 = log2E2(4)
wobei N2 die Rahmenlänge (160 Abtastungen) in dem AMR-Schema darstellt.
Wie aus den Gleichungen (2) und (5) offensichtlich sein sollte, verwenden die G.729A- und die AMR-Schemata Signale unterschiedlicher Domänen, nämlich Rest err(n) und Eingabesignal S(n), um die Leistungen E1 bzw. E2 zu berechnen. Dem gemäß ist eine Leistungskorrektureinheit zum Durchführen einer Umwandlung zwischen den Zweien notwendig. Obwohl es kein einzelnes spezifisches Verfahren zum Durchführen dieser Korrektur gibt, sind die unten dargestellten Verfahren denkbar.
– Korrektur von G.729A auf AMR hin.
5A stellt den Fluss eines Verarbeitens für diese Korrektur dar. Der erste Schritt ist, eine Leistung E1 aus der logarithmischen Leistung POW1 in dem G.729A-Schema festzustellen. Dies wird gemäß der folgenden Gleichung durchgeführt: E1 = 10(POW1/20) (6)
Der nächste Schritt ist, ein Pseudo-LPC-Restsignal d_err(n) (n = 0, ..., N₁–1) gemäß der folgenden Gleichung zu erzeugen, so dass eine Leistung E1 wird: d_err(n) = E1·q(n) (7)wobei q(n) (n = 0, ..., N₁–1) ein zufälliges Rauschen darstellt, dessen Leistung auf 1 normalisiert wurde. Das Signal d_err(n) wird durch einen LPC-Synthesefilter geleitet, um ein Pseudosignal (Eingabesignal-Domäne) d_s(n) (n = 0, ..., N₁-1) zu erzeugen.
wobei α₁ (i = 1, ..., 10) einen LPC-Parameter in G.729A darstellt, der aus dem dequantisierten LSP-Wert festgestellt wird. Es wird angenommen, dass der anfängliche Wert von d_s(–i) (i = 1, ..., 10) 0 beträgt. Die Leistung von d_s(n) wird berechnet und als eine Leistung E1 in dem AMR-Schema verwendet. Dem gemäß wird eine logarithmische Leistung POW2 in AMR durch die folgende Gleichung festgestellt:
– Korrektur von AMR auf G.729A hin
5B stellt den Fluss eines Verarbeitens für diese Korrektur dar. Der erste Schritt ist, eine Leistung E2 aus der logarithmischen Leistung POW2 in dem AMR-Schema festzustellen. Dies wird gemäß der folgenden Gleichung durchgeführt: E2 = 2POW2 (10)
Der nächste Schritt ist es, ein Pseudo-Eingabesignal d_s(n) (n = 0, ..., N₂–1) gemäß der folgenden Gleichung zu erzeugen, so dass eine Leistung E2 wird: d_s(n) = E2·q(n) (11)wobei q(n) ein zufälliges Rauschen darstellt, bei dem eine Leistung auf 1 normalisiert wurde. Das Signal d_s(n) wird durch einen LPC-Inversions-Synthesefilter geleitet, um ein Pseudo-Signal (LPC-Restsignal-Domäne) d_err(n) (n = 0, ..., N₂–1)
wobei α_i (i = 1, ..., 10) einen LPC-Parameter in AMR darstellt, der aus dem dequantisierten LSP-Wert festgestellt wird. Es wird angenommen, dass der anfängliche Wert von d_s(–i) (i = 1, ..., 10) 0 beträgt. Die Leistung von d err(n) wird berechnet und als Leistung E1 in den G.729A-Schema verwendet. Dem gemäß wird eine logarithmische Leitung POW1 in G.729A durch folgende Gleichung festgestellt:
(e) Effekte der ersten Ausführung
Gemäß der ersten Ausführung kann, wie oben beschrieben, ein LSP-Code und ein Rahmenleistungs-Code, die den CN-Code in dem AMR-Schema bilden, in einen CN-Code in dem G.729A-Schema transkodiert werden. Weiter können durch Schalten zwischen dem Sprach-Transkodierer 70 und dem Ruhe-Code-Transkodierer 60 Code-Daten (Sprachaktivitäts-Code und Ruhe-Code) von einem AMR-Schema mit einer Ruhekomprimierungsfunktion normal in Code-Daten eines G.729A-Schemas mit einer Ruhekomprimierungsfunktion transkodiert werden, ohne einmal die Code-Daten in dekodierender Sprache zu dekodieren.
(C) Zweite Ausführung
6 ist ein Blockdiagramm einer zweiten Ausführung der vorliegenden Erfindung, bei der identische Komponenten zu denen der in 2 gezeigten ersten Ausführung durch die gleichen Bezugzeichen bezeichnet werden. Wie in der ersten Ausführung nimmt die zweite Ausführung AMR als ein kodierendes Schema 1 und G.729A als ein kodierendes Schema 2 an. In diesem Fall wird ein Umwandlungsverarbeiten für einen Fall durchgeführt, bei dem der Rahmentyp Ftype1(n) des AMR-Schemas, der von dem Rahmentyp-Detektor 52 detektiert wird, SID_FIRST beträgt.
In diesem Fall, bei dem ein Rahmen in dem AMR-Schema ein SID_FIRST-Rahmen ist, wird ein Umwandlungsverarbeiten auf Setzen des m-ten Rahmens und des (m+1)-ten Rahmens des G.729A-Schemas als ein SID-Rahmen bzw. einen Nicht-Senderahmen hin, wie in (b–2) aus 4B gezeigt, in einer Weise ähnlich zu dem Fall durchgeführt, bei dem der AMR-Rahmen ein SID_UPDATE-Rahmen [(b–1) in 4B] in der ersten Ausführung ist. In dem Fall jedoch eines SID_FIRST-Rahmens in dem AMR-Schema ist es notwendig, die Tatsache zu berücksichtigen, dass auf Grund einer Reststeuerung kein CN-Code gesendet wird, wie oben in Bezug auf 25 beschrieben. Mit anderen Worten wird bst1(n) nicht gesendet und kommt daher nicht an. Daher können mit der in 2 gezeigten Anordnung der ersten Ausführung LSP2(m) und POW2(m), die CN-Parameter in dem G.729A-Schema sind, nicht erhalten werden.
Dem gemäß werden in der zweiten Ausführung diese Parameter unter Verwendung der letzten sieben Sprachaktivitätsrahmen berechnet, die direkt vor dem SID_FIRST-Rahmen gesendet wurden. Das Umwandlungsverarbeiten wird nun beschrieben.
Wie zuvor erwähnt, wird LSP2(m) in dem SID_FIRST-Rahmen als ein Durchschnittswert der letzten sieben Rahmen von LSP-Parametern OLD_LSP(l), (l = n–1, n–7) berechnet, die von dem LSP-Dequantisierer 4b₁ (siehe 17) des LSP-Code-Umwandlers 4b in dem Sprach-Transkodierer 70 ausgegeben werden. Dem gemäß hält eine LSP-Puffereinheit 83 immer die LSP-Parameter der letzten sieben Rahmen in Bezug auf den gegenwärtigen Rahmen und eine LSP-Durchschnittswert-Berechnungseinheit 84 berechnet und hält den Durchschnittswert der LSP-Parameter OLD_LSP(l), (l = n–1, n–7) der letzten sieben Rahmen.
Ähnlich wird POW2(m) ebenso als ein Durchschnittswert der letzten sieben Rahmen aus einer Rahmenleistung OLD_POW(l), (l = n–1, n–7) berechnet. OLD_POW(l) wird als die Rahmenleistung eines Sprachquellensignals EX(1) erhalten, das von dem Verstärkungs-Codeumwandler 4e (siehe 17) in einem Sprach-Transkodierer 70 erhalten wird. Dem gemäß berechnet eine Leistungsberechnungseinheit 94 eine Rahmenleistung des Sprachquellensignals EX(1), ein Rahmenleistungspuffer 95 hält immer eine Rahmenleistung OLD_POW(1) der letzten sieben Rahmen in Bezug auf den vorliegenden Rahmen und eine Leistungsdurchschnittswert-Berechnungseinheit 96 berechnet und hält den Durchschnittswert einer Rahmenleistung OLD_POW(1) der letzten sieben Rahmen.
Falls der Rahmentyp in einem Ruhesegment nicht SID_FIRST ist, werden der LSP-Quantisierer 82 und der Rahmenleistungs-Quantisierer 93 von dem transkodierenden Steuergerät 53 benachrichtigt und erhalten und geben daher den LSP-Code I_POW2(m) und einen Rahmenleistungs-Code I_LSP2(m) unter Verwendung des LSP-Parameters und des Rahmenleistungsparameters aus, die von dem LSP-Dequantisierer 81 und dem Rahmenleistungs-Dequantisierer 91 ausgegeben werden.
Falls jedoch der Rahmentyp in einem Ruhesegment SID_FIRST ist, z.B. falls Ftype1(n) = SID_FIRST in einem Ruhesegment gilt, wird dies von dem transkodierenden Steuergerät 53 gemeldet. In Reaktion erhalten der LSP-Quantisierer 82 und der Rahmenleistungs-Quantisierer 93 den LSP-Code I_LSP2(m) bzw. den Rahmenleistungs-Code I_POW2(m) des G.729A-Schemas unter Verwendung des durchschnittlichen LSP-Parameters und des durchschnittlichen Rahmenleistungsparameters der letzten sieben Rahmen, die von der LSP-Durchschnittswert-Berechnungseinheit 84 bzw. der Leistungsdurchschnittswert-Berechnungseinheit 96 gehalten werden und geben diesen aus.
Der Code-Multiplexer 63 multiplext den LSP-Code I_LSP2(m) und einen Rahmenleistungs-Code I_POW2(m) und gibt das multiplexte Signal als bst2(m) aus.
Weiter wird ein Umwandlungsverarbeiten nicht hinsichtlich des (m+1)-ten Rahmens ausgeführt und lediglich Rahmentyp-Information, die einen Nicht-Senderahmen anzeigt, wird in bst2(m+1) eingeschlossen und gesendet.
Daher wird gemäß der zweiten Ausführung, wie oben beschrieben, selbst falls ein zu transkodierender CN-Code auf Grund einer Reststeuerung in dem AMR-Schema nicht erhalten wird, ein CN- Parameter unter Verwendung von Sprachparametern der letzten Sprachaktivitätsrahmen erhalten und ein CN-Code gemäß G.729A kann erzeugt werden.
(C) Dritte Ausführung
7 ist ein Blockdiagramm einer dritten Ausführung der vorliegenden Erfindung, in der Komponenten, die identisch zu denjenigen der ersten Ausführung sind, durch die gleichen Bezugszeichen bezeichnet werden. Die dritte Ausführung stellt ein Beispiel dar, bei dem G.729A als kodierendes Schema 1 und AMR als kodierendes Schema 2 verwendet wird. In 7 tritt ein m-ter Rahmen an Kanaldaten bst1(m), z.B. Sprach-Code, in einen Anschluss 1 von einem G.729A-Kodierer (nicht gezeigt) ein. Der Rahmentyp-Detektor 52 extrahiert eine Rahmentyp-Information Ftype(m), die in best1(m) enthalten ist und gibt diese Information an das transkodierende Steuergerät 53 aus. Rahmentyp-Information Ftype(m) in dem G.729A-Schema ist von drei Arten, nämlich Sprachaktivitätsrahmen (SPEECH), SID-Rahmen (SID) und Nicht-Senderahmen (NO_DATA) (siehe 23). Das transkodierende Steuergerät 53 schaltet die Schalter S1, S2 bei Identifizieren von Sprachaktivitätssegmenten und Ruhesegmenten basierend auf einem Rahmentyp um.
Der Ruhe-Code-Transkodierer 60 führt ein CN-transkodierendes Verarbeiten gemäß einer Rahmentyp-Information Ftype(m) in einem Ruhesegment aus. Dem gemäß ist es notwendig, den Unterschied in Rahmenlänge zwischen AMR und G.729A wie in der ersten Ausführung zu berücksichtigen. Das heißt, zwei Rahmen [m-ter und (m+1)-ter Rahmen] in G.729A werden als ein Rahmen (ein n-ter Rahmen) in AMR umgewandelt. Bei der Umwandlung von G.729A zu AMR ist es notwendig, die Umwandlungsverarbeitung unter Berücksichtigung des Unterschiedes einer DTX-Steuerung zu steuern.
Falls Ftyp1(m), Ftype1(m+1) beide Sprachaktivitätsrahmen (SPEECH) sind, wie in 8 gezeigt, wird der n-te Rahmen in dem AMR-Schema ebenso als ein Sprachaktivitätsrahmen gesetzt. Mit anderen Worten werden die Steuerungsschalter S1, S2 in 7 jeweils zu den Anschlüssen 2, 4 geschaltet und der Sprach-Transkodierer 70 führt ein Transkodieren eines Sprach-Codes gemäß einem Stand der Technik 2 aus.
Falls weiter Ftype1(m), Ftype1(m+1) beide Nicht-Senderahmen (NO_DATA) sind, wie in 9 gezeigt, wird der n-te Rahmen in dem AMR-Schema ebenso als ein Nicht-Senderahmen gesetzt und ein transkodierendes Verarbeiten wird nicht durchgeführt. Mit anderen Worten werden die Steuerungsschalter S1, S2 in 7 jeweils zu Anschlüssen 3, 5 geschaltet und der Code-Multiplexer 63 gibt lediglich Rahmentyp-Information in dem Nicht-Senderahmen aus. Dem gemäß wird lediglich Rahmentyp-Information, die den Nicht-Senderahmen anzeigt, in best2(n) eingeschlossen.
Ein Verfahren eines Umwandelns von CN-Code in einem Ruhesegment, wie in 10 gezeigt, wird nun beschrieben. 10 stellt den zeitlichen Fluss des CN-transkodierenden Verfahrens in einem Ruhesegment dar. In dem Ruhesegment werden die Schalter S1, S2 aus 7 jeweils zu Anschlüssen 3, 5 geschaltet und der Ruhe-Code-Transkodierer 60 führt ein Verarbeiten zum Transkodieren eines CN-Codes aus. Es ist notwendig, die Ungleichheit in einer DTX-Steuerung zwischen dem G.729A- und AMR-Schema bei diesem transkodierenden Verarbeiten zu berücksichtigen. Eine Steuerung zum Übertragen eines SID-Rahmens in G.729A ist adaptiv und SID-Rahmen werden bei unregelmäßigen Intervallen in Abhängigkeit von einer Fluktuation in der CN-Information (Ruhesignal) gesetzt. In dem AMR-Schema andererseits wird ein SID-Rahmen (SID_UPDATE) periodisch, zum Beispiel alle acht Rahmen, gesetzt. In dem Ruhesegment wird daher, wie in 10 gezeigt, ein Transkodieren zu einem SID-Rahmen (SID_UPDATE) alle acht Rahmen (was 16 Rahmen in dem G.729A-Schema entspricht) in Übereinstimmung mit dem AMR-Schema, in das das Transkodieren durchgeführt werden soll, ungeachtet des Rahmentyps (SID oder NO_DATA) des G.729A-Schemas durchgeführt, von dem aus das Transkodieren durchgeführt wird. Weiter wird das Transkodieren in einer derartigen Weise durchgeführt, dass die anderen sieben Rahmen einen Nicht-Senderahmen (NO_DATA) bilden.
Insbesondere bei dem Transkodieren zu einem SID_UPDATE-Rahmen eines n-ten Rahmen in dem AMR-Schema in 10 wird ein Durchschnittswert aus CN-Parametern der SID-Rahmen festgestellt, die über die letzten 16 Rahmen [(m–14)-ter, ..., (m+1)-ter Rahmen] (die acht Rahmen in dem AMR-Schema entsprechen) einschließlich der gegenwärtigen Rahmen [m-ter, (m+1)-ter Rahmen] empfangen werden und das Transkodieren wird zu einem CN-Parameter des SID_UPDATE-Rahmens in dem AMR-Schema durchgeführt. Das transkodierende Verarbeiten wird nun in Bezug auf 7 beschrieben.
Falls ein SID-Rahmen in dem G.729A-Schema in einem k-ten Rahmen empfangen wird, demultiplext der Code-Demultiplexer 61 einen CN-Code bst1(k) in einen LSP-Code I_LSP1(k) und einen Rahmenleistungs-Code I_POW1(k), gibt I_LSP1(k) in den LSP-Dequantisierer 81 ein, der die gleiche Quantisierungstabelle wie die des G.729A-Schemas aufweist und gibt I_POW1(k) in den Rahmenleistungs-Dequantisierer 91 ein, der die gleiche Quantisierungstabelle wie diejenige des G.729A-Schemas aufweist. Der LSP-Dequantisierer 81 dequantisiert den LSP-Code I_LSP1(k) und gibt einen LSP-Parameter LSP1(k) in dem G.729A-Schema aus. Der Rahmenleistungs-Dequantisierer 91 dequantisiert den Rahmenleistungs-Code I_POW1(k) und gibt einen Rahmenleistungsparameter POW1(k) in dem G.729A-Schema aus.
Die Rahmenleistungsparameter in den G.729A- und AMR-Schemata umfassen unterschiedliche Signal-Domänen, wenn eine Rahmenleistung berechnet wird, wobei die Signal-Domäne die LPC-Restsignal Domäne in dem G.729A-Schema und das Eingabesignal in dem AMR-Schema ist, wie in Tabelle 1 angezeigt. Dem gemäß bewirkt eine Rahmenleistungs-Korrektureinheit 92 eine Korrektur für die Eingabesignal-Domäne in einer derartigen Weise, dass die Parameter POW1(k) der LSP-Restsignal-Domäne in G.729A in dem AMR-Schema verwendet werden können. Als ein Ergebnis gibt die Rahmenleistungs-Korrektureinheit 92, deren Eingabe POW1(k) ist, einen Rahmenleistungs-Parameter POW2(k) in dem AMR-Schema aus.
Die festgestellten Parameter LSP1(k), POW1(k) werden jeweils in Puffer 85, 97 eingegeben. Die CN-Parameter von SID-Rahmen, die über die letzten 16 Rahmen (k = m–14, ..., m+1) empfangen werden, werden von den Puffern 85, 97 gehalten. Falls ein SID-Rahmen nicht über die letzten 16 Rahmen hinweg empfangen wird, wird der CN-Parameter des SID-Rahmens verwendet, der zuletzt empfangen wurde.
Durchschnittswert-Berechnungseinheiten berechnen jeweils Durchschnittswerte der von den Puffern 85, 97 gehaltenen Daten und geben diese Durchschnittswerte als CN-Parameter LSP2(n) bzw. POW2(n) in dem AMR-Schema aus. Der LSP-Quantisierer 82 quantisiert LSP2(n) und gibt einen LSP-Code I_LSP2(n) des AMR-Schemas aus. Obwohl der LSP-Quantisierer 82 irgendein Quantisierungsverfahren verwenden kann, ist die verwendete Quantisierungstabelle die gleiche, die in dem AMR-Schema verwendet wird. Der Rahmenleistungs-Quantisierer 93 quantisiert POW2(n) und gibt einen Rahmenleistungs-Code I_POW2(n) des AMR-Schemas aus. Obwohl der Rahmenleistungs-Quantisierer 93 irgendein Quantisierungsverfahren verwenden kann, ist die verwendete Quantisierungstabelle die gleiche, wie diejenige, die in dem AMR-Schema verwendet wird. Der Code-Multiplexer 63 multiplext I_LSP2(n) und I_POW2(n), fügt Rahmentyp-Information (= U) hinzu und gibt das Ergebnis als bst2(n) aus.
Wie oben beschrieben, ist die dritte Ausführung derart, dass, falls in einem Ruhesegment ein Verarbeiten zum Transkodieren eines CN-Codes periodisch in Übereinstimmung mit einer DTX-Steuerung in dem AMR-Schema, in das das Transkodieren durchgeführt werden soll, ungeachtet des Rahmentyps in dem G.729A-Schema, aus dem das Transkodieren durchgeführt wird, durchgeführt wird, der Durchschnittswert der CN-Parameter in dem G.729A-Schema, der empfangen wird, während ein transkodierendes Verarbeiten durchgeführt wird, als der CN-Parameter des AMR-Schemas verwendet wird, wodurch es möglich gemacht wird, CN-Code in dem AMR-Schema zu erzeugen.
Weiter können durch Schalten zwischen einem Sprach-Transkodierer und einem CN-Code-Umwandler Code-Daten (Sprachaktivitäts-Code und Ruhe-Code) von einem G.729A-Schema mit einer Ruhekomprimierungsfunktion normal in Code-Daten eines AMR-Schemas mit einer Ruhekomprimierungsfunktion transkodiert werden, ohne einmal die Code-Daten in dekodierende Sprache zu dekodieren.
(E) Vierte Ausführung
11 ist ein Blockdiagramm einer vierten Ausführung der vorliegenden Erfindung, in der Komponenten, die identisch zu denjenigen der in 7 gezeigten dritten Ausführung sind, durch die gleichen Bezugszeichen bezeichnet werden. 12 ist ein Blockdiagramm des Sprach-Transkodierers 70 gemäß der vierten Ausführung. Wie in der dritten Ausführung nimmt die vierte Ausführung G.729A als kodierendes Schema 1 und AMR als kodierendes Schema 2 an. In diesem Fall wird ein Verarbeiten zum Transkodieren von CN-Code an einem Punkt durchgeführt, an dem es eine Änderung von einem Sprachaktivitätssegment zu einem Ruhesegment hin gibt.
13A und 13B stellen den zeitlichen Fluss des transkodierenden Steuerungsverfahrens dar. In einem Fall, bei dem ein m-ter und ein (m+1)-ter Rahmen in dem G.729A-Schema ein Sprachaktivitäts- bzw. SID-Rahmen sind, bezeichnet dies einen Punkt, bei dem es eine Änderung von einem Sprachaktivitätssegment zu einem Ruhesegment hin gibt. Bei AMR wird eine Reststeuerung an diesem Änderungspunkt durchgeführt. Falls darüber hinaus die Anzahl an vergangenen Rahmen von einem Verarbeiten letzter Zeit zum Transkodieren eines SID_UPDATE-Rahmens in den Rahmen ausgeführt wurde, bei dem sich das Segment ändert, 23 oder weniger beträgt, wird keine Reststeuerung ausgeführt. Ein Fall, bei dem die Anzahl vergangenen Rahmen 23 übersteigt und eine Reststeuerung durchgeführt wird, wird nun beschrieben.
In einem Fall, bei dem eine Reststeuerung durchgeführt wird, ist es erforderlich, dass sieben Rahmen [n-ter, ..., (n+6)-ter Rahmen] von dem Rahmen an dem Änderungspunkt an als Sprachaktivitätsrahmen gesetzt werden, trotz der Tatsache, dass diese Ruhe-Rahmen sind. Dem gemäß wird wie in 13A gezeigt, ein transkodierendes Verarbeiten in Übereinstimmung mit einer DTX-Steuerung in dem AMR-Schema, in das das Transkodieren durchgeführt werden soll, unter Berücksichtigung eines (m+1)-ten bis (m+13)-ten Rahmen in dem G.729A-Schema als Sprachaktivitätsrahmen seiend trotz der Tatsache ausgeführt, dass diese Ruherahmen sind (SID- oder Nicht-Senderahmen). Dieses transkodierende Verarbeiten wird in Bezug auf 11 und 12 beschrieben.
Um ein Transkodieren von G.729A-Sprachaktivitätsrahmen in einen AMR-Sprachaktivitätsrahmen an dem Punkt zu bewirken, bei dem es eine Änderung von einem Sprachaktivitätssegment zu einem Ruhesegment gibt, wird lediglich transkodierendes Verarbeiten unter Verwendung des Sprach-Transkodierer 70 ausgeführt. Von dem Punkt der Änderung an kann die G.729A-Seite jedoch keine G.729A-Sprachparameter erhalten (LSP, Zeitabstand, algebraischen Code, Abstandsverstärkung und algebraische Code-Verstärkung), die die Eingabe an einen Sprach-Transkodierer 70 bilden, da die Rahmen Ruherahmen sind. Dem gemäß werden, wie in 12 gezeigt, CN-Parameter LSP1(k), POW1(k) (k < n), die zuletzt von dem Ruhe-Code-Transkodierer 60 empfangen werden, durch LSP und algebraische Code-Verstärkung ersetzt und ein Zeitabstandsgenerator 101, ein Generator für algebraischen Code 102 und ein Abstandsverstärkungsgenerator 103 erzeugen die anderen Parameter [Zeitabstand lag(m), Abstandsverstärkung Ga(m) und algebraischen Code Code(m)] frei in einem Ausmaß, das nicht in akustisch unnatürlichen Effekten resultiert. Wie für das Verfahren einer Erzeugung können diese anderen Parameter zufällig oder basierend auf festen Werten erzeugt werden. Hinsichtlich einer Abstandsverstärkung jedoch wird es gewünscht, dass der Minimalwert (0,2) gesetzt wird.
Eine Operation des Sprach-Transkodierers 70 in einem Sprachaktivitätssegment und wenn es eine Änderung von einem Sprachaktivitätssegment zu einem Ruhesegment gibt wird nun beschrieben.
In einem Sprachaktivitätssegment demultiplext ein Code Demultiplexer 71 eingegebenen Sprach-Code von G.729A in LSP-Code I_SLP1(m), Zeitabstands-Code I_LAG1(m), algebraischen Code I_CODE1(m) und Verstärkungs-Code I_GAIN1(m) und gibt diese Codes in einen LSP-Dequantisierer 72a, einen Zeitabstands-Dequantisierer 73a, einen Dequantisierer für algebraischen Code 74a bzw. einen Verstärkungs-Dequantisierer 75a ein. Weiter wählen in dem Sprachaktivitätssegment Umschalteinheiten 77a bis 77e Ausgaben von dem LSP-Dequantisierer 72a, den Zeitabstands-Dequantisierer 73a, dem Dequantisierer für algebraischen Code 74a und dem Verstärkungs-Dequantisierer 75a gemäß einem Befehl von dem transkodierenden Steuergerät 53 aus.
Der LSP-Dequantisierer 72a dequantisiert einen LSP-Code in dem G.729A-Schema und gibt einen dequantisierten LSP-Wert LSP aus und ein LSP-Quantisierer 72b quantisiert diesen dequantisierten LSP-Wert unter Verwendung einer LSP-Quantisierungstabelle gemäß dem AMR-Schema und gibt den LSP-Code I_LSP2(n) aus. Der Zeitabstands-Dequantisierer 73a dequantisiert einen Zeitabstands-Code in dem G.729A-Schema und gibt einen dequantisierten Zeitabstandswert LAG aus und ein Zeitabstands-Quantisierer 73b quantisiert diesen dequantisierten Zeitabstandswert unter Verwendung einer Zeitabstands-Quantisierungstabelle gemäß dem AMR-Schema und gibt einen Zeitabstands-Code I_LAG2(n) aus. Der Dequantisierer für algebraischen Code 74a dequantisiert einen algebraischen Code in dem G.729A-Schema und gibt einen dequantisierten Wert für einen algebraischen Code Code aus und der Quantisierer für algebraischen Code 74b quantisiert diesen dequantisierten Wert für algebraischen Code unter Verwendung einer Quantisierungstabelle für algebraischen Code gemäß dem AMR-Schema und gibt einen algebraischen Code I_CODE2(n) aus. Der Verstärkungs-Dequantisierer 75a dequantisiert einen Verstärkungs-Code in dem G.729A-Schema und gibt einen dequantisierten Wert für algebraische Verstärkung Ga und einen dequantisierten Wert für algebraische Verstärkung Gc aus und ein Abstandverstärkungs-Quantisierer 75b quantisiert diesen dequantisierten Abstandsverstärkungswert Ga unter Verwendung einer Abstandverstärkungs-Quantisierungstabelle gemäß dem AMR-Schema und gibt einen Abstandsverstärkungs-Code I_GAIN2a(n) aus. Weiter quantisiert ein Quantisierer für algebraische Verstärkung den dequantisierten Wert für eine algebraische Verstärkung Gc unter Verwendung einer Verstärkungs-Quantisierungstabelle gemäß dem AMR-Schema und gibt den Code für eine algebraische Verstärkung I_GAIN2c(n) aus.
Ein Code-Multiplexer 76 multiplext den LSP-Code, einen Zeitabstands-Code, den algebraischen Code, einen Abstandsverstärkungs-Code und einen Code für algebraische Verstärkung, die von den Quantisierern 72b bis 75b und 75c ausgegeben werden, fügt Rahmentyp-Information (= S) hinzu, um Sprach-Code gemäß dem AMR-Schema zu erzeugen und überträgt diesen Code.
Die vorangehende Operation wird in dem Sprachaktivitätssegment wiederholt, um den G.729A-Sprach-Code in AMR-Sprach-Code umzuwandeln und denselbigen auszugeben.
Wenn es eine Änderung von einem Sprachaktivitätssegment zu einem Ruhesegment gibt, ist die Operation wie folgt, falls Reststeuerung ausgeführt wird: Gemäß einem Befehl von dem transkodierenden Steuergerät 53 wählt die Umschalteinheit 77a den LSP-Parameter LSP1(k) aus, der aus dem LSP-Code erhalten wird, der zuletzt von dem Ruhe-Code-Transkodierer 60 empfangen wird und gibt diesen Parameter an den LSP-Quantisierer 72b. Weiter wählt die Umschalteinheit 77b den Zeitabstandsparameter lag(m) aus, der durch den Zeitabstandsgenerator 101 erzeugt wird, und gibt diesen Parameter in den Zeitabstandsquantisierer 73b ein. Weiter wählt die Umschalteinheit 77c den algebraischen Code-Parameter Code(m), der durch den algebraischen Code-Generator 102 erzeugt wird und gibt diesen Code in den Quantisierer für den algebraischen Code 74b ein. Weiter wählt die Umschalteinheit 77d den Abstandverstärkungsparameter Ga(m) aus, der durch den Abstandverstärkungsgenerator 103 erzeugt wird und gibt diesen Parameter in den Abstandverstärkungs-Quantisierer 75b ein. Weiter wählt die Umschalteinheit 77e den Rahmenleistungsparameter POW1(k) aus, der aus dem Rahmenleistungs-Code I_POW1(k) erhalten wird, der zuletzt von dem Ruhe-Code-Transkodierer 60 empfangen wird und gibt diesen Parameter in den Quantisierer für die algebraische Verstärkung 75c ein.
Der LSP-Quantisierer 72b quantisiert den LSP-Parameter LSP1(k), der von dem Ruhe-Code-Transkodierer 60 über die Umschalteinheit 77a eingetreten ist, unter Verwendung der LSP-Quantisierungstabelle des AMR-Schemas und gibt einen LSP-Code I_LSP2(n) aus. Der Zeitabstandsquantisierer 73b quantisiert den Zeitabstandsparameter, der von dem Zeitabstandsgenerator 101 über die Umschalteinheit 77b eingetreten ist, unter Verwendung einer Zeitabstands- Quantisierungstabelle gemäß dem AMR-Schema und gibt einen Zeitabstands-Code I_LAG2(n) aus. Der algebraische Quantisierer 74b quantisiert den algebraischen Code-Parameter, der von dem Generator für den algebraischen Code 102 über die Umschalteinheit 77c eingetreten ist, unter Verwendung einer Quantisierungstabelle für algebraischen Code gemäß dem AMR-Schema und gibt einen algebraischen Code I_CODE2(n) aus. Der Abstandsverstärkungs-Quantisierer 75b quantisiert den Abstandsverstärkungsparameter, der von dem Abstandsverstärkungsgenerator 103 über die Umschalteinheit 77b eingetreten ist, unter Verwendung einer Abstandverstärkungs-Quantisierungstabelle gemäß dem AMR-Schema und gibt einen Abstandsverstärkungs-Code I_GAIN2a(n) aus. Der Quantisierer für die algebraische Verstärkung 75b quantisiert den Rahmenleistungsparameter POW1(k), der von dem Ruhe-Code-Transkodierer 60 über die Umschalteinheit 77e eingetreten ist, unter Verwendung einer Quantisierungstabelle für eine algebraische Verstärkung und gibt einen algebraischen Verstärkungs-Code I_GAIN2c(n) aus.
Der Code-Multiplexer 76 multiplext den LSP-Code, den Zeitabstands-Code, den algebraischen Code, Abstandsverstärkungs-Code und algebraischen Verstärkungs-Code, die von den Quantisierern 72b bis 75b und 75c ausgegeben werden, fügt Rahmentyp-Information (= S) hinzu, um Sprach-Code gemäß dem AMR-Schema zu erzeugen und überträgt diesen Code.
Bei dem Punkt einer Änderung von einem Sprachaktivitätssegment zu einem Ruhesegment, wiederholt der Sprach-Transkodierer 70 die obige Operation bis sieben Rahmen eines Sprachaktivitäts-Code in dem AMR-Schema übertragen sind. Wenn die Übertragung von sieben Rahmen eines Sprachaktivitäts-Codes vollständig ist, stoppt der Sprach-Transkodierer 70 die Ausgabe von Sprachaktivitäts-Codes, bis das nächste Sprachaktivitätssegment detektiert ist.
Wenn die Übertragung von sieben Rahmen von Sprachaktivitäts-Codes vollständig ist, werden die Schalter S1, S2 in 11 jeweils zu den Anschlüssen 3, 5 unter der Steuerung des transkodierenden Steuergerätes 53 umgeschaltet und ein CN-transkodierendes Verarbeiten wird daher durch den Ruhe-Code-Transkodierer 60 ausgeführt.
Wie in 13A gezeigt, ist es erforderlich, dass die (m+14)-ten und (m+15)-ten Rahmen [die (n+7)-ten Rahmen auf der AMR-Seite], die einem Rest folgen, als SID_FIRST Rahmen in Übereinstimmung mit einer DTX-Steuerung in dem AMR-Schema gesetzt werden. Jedoch ist eine Übertragung eines CN-Parameters unnötig und daher umfasst der Code-Multiplexer 63 lediglich Information, die den SID_FIRST-Rahmentyp in bst2(n+7) darstellt und gibt dieselbige aus. Ein CN-Transkodieren wird daher in einer ähnlichen Weise ausgeführt, wie in der in 7 gezeigten, dritten Ausführung.
Das Vorhergehende stellt ein CN-Transkodieren in einem Fall dar, bei dem Reststeuerung ausgeführt wird. Jedoch wird keine Reststeuerung in einem Fall ausgeführt, bei dem die Anzahl an vergangenen Rahmen von dem Verarbeiten der letzten Zeit zur Umwandlung in einen SID_UPDATE-Rahmen in einen Rahmen, bei dem das Segment sich ändert, ausgeführt wurde, 23 oder weniger beträgt. Das Verfahren einer Steuerung in diesem Fall, bei dem keine Reststeuerung durchgeführt wird, wird in Bezug auf 13B beschrieben.
Die m-ten und (m+1)-ten Rahmen, die die Grenzrahmen zwischen einem Sprachaktivitätssegment und einem Ruhesegment sind, werden in Sprachaktivitätsrahmen in dem AMR-Schema transkodiert und von dem Sprach-Transkodierer 70 in einer ähnlichen Weise ausgegeben, wie derjenigen, wenn eine Reststeuerung durchgeführt wurde.
Die folgenden (m+2)-ten und (m+3)-ten Rahmen werden in SID_UPDATE-Rahmen transkodiert.
Weiter, für Rahmen von dem (m+4)-ten Rahmen an, wird ein Verfahren verwendet, das identisch zu dem transkodierenden Verfahren ist, das in dem Ruhesegment verwendet wird, das in der dritten Ausführung beschrieben ist.
Das CN-transkodierende Verfahren an dem Punkt einer Änderung von einem Ruhesegment zu einem Sprachaktivitätssegment wird nun beschrieben. 14 stellt den zeitlichen Fluss dieses Umwandlungssteuerungsverfahrens dar. In einem Fall, bei dem der m-te Rahmen in dem G.729A-Schema ein Ruherahmen ist (SID-Rahmen oder Nicht-Senderahmen) und der (m+1)-te Rahmen ein Sprachaktivitätsrahmen ist, stellt dies einen Punkt dar, bei dem es eine Änderung von einem Ruhesegment zu einem Sprachaktivitätssegment hin gibt. In diesem Fall wird der n-te Rahmen in dem AMR-Schema als ein Sprachaktivitätsrahmen transkodiert, um gedämpfte Sprache bei dem Anfang einer Äußerung zu verhindern (z.B. Verschwinden der Anstiegsflanke der Sprache). Dem gemäß wird der m-te Rahmen in dem G.729A-Schema, der ein Ruherahmen ist, als ein Sprachaktivitätsrahmen transkodiert. Dieses transkodierende Verfahren ist das gleiche, wie das, das zur Zeit eines Restes verwendet wird, wobei der Sprach-Transkodierer 70 das Transkodieren in einen Sprachaktivitätsrahmen in dem AMR-Schema durchführt und diesen Rahmen ausgibt.
Daher wird, wie oben beschrieben, in Übereinstimmung mit dieser Ausführung, falls es erforderlich ist, einen G.729A-Ruherahmen in einen AMR-Sprachaktivitätsrahmen an einem Punkt umzuwandeln, bei dem ein Sprachaktivitätssegment sich in ein Ruhesegment ändert, ein G.729A-CN-Parameter durch einen AMR-Sprachaktivitätsparameter ersetzt, wodurch ein Sprachaktivitäts-Code in dem AMR-Schema erzeugt werden kann.
Gemäß der vorliegenden Erfindung, die eine Kommunikation zwischen zwei Sprachkommunikationssystemen betrifft, die Ruhe kodierende Verfahren aufweisen, die sich voneinander unterscheiden, kann Ruhe-Code (CN-Code), der durch ein Kodieren gemäß einem Ruhe kodierenden Verfahren auf der sendenden Seite erhalten wird, in einen Ruhe-Code (CN-Code) transkodiert werden, der einem Ruhe kodierenden Verfahren auf der empfangenden Seite entspricht, ohne den CN-Code ein einziges Mal in ein CN-Signal zu dekodieren. Dies macht es möglich, ein Transkodieren in Ruhe-Code mit einer hohen Qualität zu erzielen.
Weiter, gemäß der vorliegenden Erfindung, kann Ruhe-Code (CN-Code) an der sendenden Seite in Ruhe-Code (CN-Code) auf der empfangenden Seite unter Berücksichtigung von Unterschieden in einer Rahmenlänge und in einer DTX-Steuerung zwischen den sendenden und empfangenden Seiten transkodiert werden. Dies ermöglicht es, ein Transkodieren in Ruhe-Code mit einer hohen Qualität zu erzielen.
Weiter, gemäß der vorliegenden Erfindung, kann transkodierendes Verarbeiten für einen normalen Code nicht nur hinsichtlich von Sprachaktivitätsrahmen ausgeführt werden, sondern ebenso hinsichtlich SID- und Nicht-Senderahmen basierend auf einer hohen Komprimierungsfunktion. Als ein Ergebnis ist es möglich, ein Transkodieren zwischen Sprachkodierenden Schemata durchzuführen, die eine hohe Komprimierungsfunktion aufweisen, was schwierig mit den Sprach-Transkodierern gemäß dem Stand der Technik zu erreichen war.
Weiter, gemäß der vorliegenden Erfindung, kann ein Sprach-Transkodieren zwischen unterschiedlichen Kommunikationssystemen durchgeführt werden, während der Effekt eines Ansteigens einer Übertragungseffizienz durch die Ruhekomprimierungsfunktion aufrechterhalten werden kann und während ein Abfall in einer Qualität und einer Übertragungsverzögerung unterdrückt wird. Da beinahe alle Sprachkommunikationssysteme beginnend mit VoIP und zellulare Telefonsysteme die Ruhekomprimierungsfunktion verwenden, sind die Auswirkungen der vorliegenden Erfindung weitreichend.
Da viele anscheinend stark unterschiedliche Ausführungen der vorliegenden Erfindung durchgeführt werden können, ohne von dem Umfang dieser abzuweichen, ist es selbstverständlich, dass die Erfindung nicht auf die speziellen Ausführungen dieser begrenzt ist, ausgenommen wie in den angehängten Ansprüchen definiert.

Claims

Sprachumschlüsselungsverfahren des Umschlüsselns eines ersten Sprachcodes, der durch Verschlüsseln eines Eingabesignals durch ein erstes Sprachverschlüsselungsschema erhalten wird, in einen zweiten Sprachcode eines zweiten Sprachverschlüsselungsschemas, das einen Schritt des Umschlüsselns eines ersten Ruhecodes, der durch Verschlüsseln eines in dem Eingabesignal enthaltenen Ruhesignals durch eine Ruhekomprimierungsfunktion des ersten Sprachverschlüsselungsschemas erhalten wurde, in einen zweiten Ruhecode des zweiten Sprachverschlüsselungsschemas, ohne den ersten Ruhecode in ein Ruhesignal zu entschlüsseln, umfasst.
Verfahren nach Anspruch 1 und wobei der erste Ruhecode von einem Multiplexen einer Vielzahl von ersten Elementcodes eingeschlossen wird und mit den Schritten: Demultiplexen des ersten Ruhecodes, der durch Verschlüsseln des in dem Eingabesignal enthaltenen Ruhesignals erhalten wurde, durch die Ruhekomprimierungsfunktion des ersten Sprachverschlüsselungsschemas in die Vielzahl von ersten Elementcodes; Umschlüsseln, im Umschlüsselungsschritt, der Vielzahl von ersten Elementcodes in eine Vielzahl von zweiten Elementcodes, die den zweiten Ruhecode aufbauen; und Multiplexen der Vielzahl von zweiten Elementcodes, die durch das Umschlüsseln erhalten wurden, um dadurch den zweiten Ruhecode auszugeben.
Verfahren nach Anspruch 2, wobei die erste Elementcodes Codes sind, die durch Teilen des Ruhesignals in Rahmen, die eine feste Anzahl von Proben aufweisen, erhalten werden und durch Quantisieren charakteristischer Parameter, die die Eigenschaften des durch eine Rahmen-für-Rahmen-Analyse erhaltenen Ruhesignals darstellen, durch Verwenden von Quantisierungstabellen spezifisch für das erste Sprachverschlüsselungsschema; und die zweiten Elementcodes Codes sind, die durch Quantisieren der charakteristischen Parameter durch Verwenden von Quantisierungstabellen spezifisch für das zweite Sprachverschlüsselungsschema erhalten werden.
Verfahren nach Anspruch 3, wobei die charakteristischen Parameter ein LPC (Line Prediction Coefficient) sind, der die annähernde Form einer Frequenzcharakteristik des Ruhesignals darstellt und eine Rahmensignalleistung eine Amplitudencharakteristik des Ruhesignals darstellt.
Verfahren nach Anspruch 2, wobei der Schritt des Umwandelns der Vielzahl der ersten Elementcodes in eine Vielzahl von zweiten Elementcodes die Schritte umfasst: Dequantisieren der Vielzahl der ersten Elementcodes durch Dequantisierer die Quantisierungstabellen aufweisen, die identisch mit denen des ersten Sprachverschlüsselungsschemas sind; und Quantisieren der dequantisierten Werte der Vielzahl der ersten Elementcodes, die durch Dequantisierung erhalten wurden, durch Quantisierer, die Quantisierungstabellen aufweisen, die identisch mit denen des zweiten Sprachverschlüsselungsschemas sind.
Sprachumschlüsselungsgerät zum Umschlüsseln eines ersten Sprachcodes, der durch Verschlüsseln eines Eingabesignals durch ein erstes Sprachverschlüsselungsschema erhalten wird, in einen zweiten Sprachcode eines zweiten Sprachverschlüsselungsschemas, mit: einer Einrichtung zum Umschlüsseln eines ersten Ruhecodes, der durch Verschlüsseln eines in dem Eingabesignal enthaltenen Ruhesignals durch eine Ruhekomprimierungsfunktion des ersten Sprachverschlüsselungsschemas erhalten wurde, in einen zweiten Ruhecode des zweiten Sprachverschlüsselungsschemas ohne den ersten Ruhecode in ein Ruhesignal zu entschlüsseln, umfasst.
Gerät nach Anspruch 6 und wobei der erste Ruhecode von einem Multiplexen einer Vielzahl von ersten Elementcodes eingeschlossen wird und mit: einem Codedemultiplexer zum Demultiplexen des ersten Ruhecodes, der durch Verschlüsseln des in dem Eingabesignal enthaltenen Ruhesignals erhalten wurde, durch die Ruhekomprimierungsfunktion des ersten Sprachverschlüsselungsschemas in eine Vielzahl von ersten Elementcodes; Elementcodeumwandlern, die Einrichtungen zum Umschlüsseln umfassen, zum Umschlüsseln der Vielzahl von ersten Elementcodes in eine Vielzahl von zweiten Elementcodes, die den zweiten Ruhecode aufbauen; und einem Codemultiplexer zum Multiplexen der zweiten Elementcodes, die durch die Elementcodeumwandler erhalten wurden, um dadurch den zweiten Ruhecode auszugeben.
Gerät nach Anspruch 7, wobei die ersten Elementcodes Codes sind, die durch Teilen des Ruhesignals in Rahmen, die eine feste Anzahl von Proben aufweisen, erhalten werden und durch Quantisieren charakteristischer Parameter, die die Eigenschaften des durch eine Rahmen-für-Rahmen-Analyse erhaltenen Ruhesignals darstellen, durch Verwenden von Quantisierungstabellen spezifisch für das erste Sprachverschlüsselungsschema; und die zweiten Elementcodes Codes sind, die durch Quantisieren der charakteristischen Parameter durch Verwenden von Quantisierungstabellen spezifisch für das zweite Sprachverschlüsselungsschema erhalten werden.
Gerät nach Anspruch 7, wobei jeder Elementcodeumwandler umfasst einen Dequantisierer zum Dequantisieren des ersten Elementcodes auf Grundlage einer Quantisierungstabelle, die identisch mit der des ersten Sprachverschlüsselungsschemas ist, und einen Quantisierer zum Quantisieren eines dequantisierten Wertes des ersten Elementcodes, der durch den Dequantisierer erhalten wurde, auf der Grundlage von einer Quantisierungstabelle, die identisch mit der des zweiten Sprachverschlüsselungsschemas ist.