JP6713424B2 - Audio decoding device, audio decoding method, program, and recording medium - Google Patents

Audio decoding device, audio decoding method, program, and recording medium Download PDF

Info

Publication number
JP6713424B2
JP6713424B2 JP2017013846A JP2017013846A JP6713424B2 JP 6713424 B2 JP6713424 B2 JP 6713424B2 JP 2017013846 A JP2017013846 A JP 2017013846A JP 2017013846 A JP2017013846 A JP 2017013846A JP 6713424 B2 JP6713424 B2 JP 6713424B2
Authority
JP
Japan
Prior art keywords
band
speech
code
frequency
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017013846A
Other languages
Japanese (ja)
Other versions
JP2018124304A (en
Inventor
仲 大室
仲 大室
祥子 栗原
祥子 栗原
登 原田
登 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017013846A priority Critical patent/JP6713424B2/en
Publication of JP2018124304A publication Critical patent/JP2018124304A/en
Application granted granted Critical
Publication of JP6713424B2 publication Critical patent/JP6713424B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

この発明は、デジタル通信ネットワークを利用した音声・音響信号(以下、単に音声とも呼ぶ)通信に関し、特に、入力音声を符号化する音声符号化技術および受信した音声符号から音声を生成する音声復号技術に関する。 The present invention relates to voice/acoustic signal (hereinafter, also simply referred to as voice) communication using a digital communication network, and particularly to a voice encoding technique for encoding an input voice and a voice decoding technique for generating a voice from a received voice code. Regarding

アナログ電話を代表とする従来からの電話システムで伝送できる音声の周波数帯域は、およそ300Hzから3.4kHzである。これは用件を伝えるのに必要な音声品質と、伝送に必要な情報量とのバランスを考慮して、国際電気通信連合(ITU-T: International Telecommunication Union Telecommunication Standardization Sector)によって決められ、広く世界で採用されていることによる。一般に、周波数帯域の上限が4kHz以下の音声を狭帯域信号(または狭帯域音声、電話音声とも呼ぶ)、4kHzを超えて7kHz程度の音声を広帯域信号(または広帯域音声)と呼ぶ。音声をデジタル信号のパルス符号変調(PCM: Pulse Code Modulation)方式で表現する場合、サンプリング定理により、狭帯域信号は8kHzでサンプリングし、広帯域信号は16kHzでサンプリングすることが望ましい。これらのことから、8kHzでサンプリングされた信号を狭帯域信号と呼び、16kHzでサンプリングされた信号を広帯域信号と呼ぶこともある。 The frequency band of voice that can be transmitted by a conventional telephone system represented by an analog telephone is approximately 300 Hz to 3.4 kHz. This is determined by the International Telecommunication Union Telecommunication Standardization Sector (ITU-T) in consideration of the balance between the voice quality required to convey a message and the amount of information required for transmission, and is widely used worldwide. It is adopted by. In general, voice with a frequency band upper limit of 4 kHz or less is called a narrow band signal (or narrow band voice, also called telephone voice), and voice with a frequency of more than 4 kHz and about 7 kHz is called a wide band signal (or wide band voice). When voice is expressed by a pulse code modulation (PCM) method of a digital signal, it is desirable to sample a narrow band signal at 8 kHz and a wide band signal at 16 kHz according to the sampling theorem. For these reasons, a signal sampled at 8 kHz may be called a narrow band signal, and a signal sampled at 16 kHz may be called a wide band signal.

最近の音響技術の発展及びデジタル信号処理技術の進歩により、日常生活で使われる機器の音声の品質が向上している。このような状況において、電話の音声にも広帯域化を求める声がある。 Due to recent developments in acoustic technology and advances in digital signal processing technology, the quality of sound of equipment used in daily life has been improved. In such a situation, there is a demand for a wider band in the voice of the telephone.

デジタル通信ネットワークを利用して音声信号を効率的に伝送するために、音声符号化の手法が用いられる。狭帯域信号用の音声符号化(狭帯域音声符号化とも呼ぶ)には、ITU-T G.711やITU-T G.726などの国際標準方式がある。また、広帯域信号用の音声符号化(広帯域音声符号化とも呼ぶ)には、ITU-T G.711.1やITU-T G.722などの国際標準方式がある。音声通信を行う端末(以下、端末)は、いずれか一つ以上の音声符号化方式に対応した符号化装置と復号装置とを備える。端末が複数の音声符号化方式に対応しているときは、通信の開始時にその通信に用いる符号化方式を切り替える。従来、符号化方式の切り替えには、SIPやH.323と呼ばれる呼制御プロトコル(シグナリングとも呼ばれる)が用いられ、通信を行う端末同士が共通で対応する符号化方式を、あらかじめ決められた優先順位に基づいて選択していた。例えば、双方の端末がG.711.1とG.711に対応していれば広帯域音声符号化であるG.711.1で通信を行い、一方がG.711.1とG.711、他方がG.722とG.711に対応している場合は、両端末は広帯域音声に対応しているが、音声符号化はG.711が用いられ、狭帯域音声で通信を行う。 In order to efficiently transmit a voice signal using a digital communication network, a voice coding method is used. Speech coding for narrowband signals (also called narrowband speech coding) includes international standard methods such as ITU-T G.711 and ITU-T G.726. In addition, there are international standard methods such as ITU-T G.711.1 and ITU-T G.722 for speech coding for wideband signals (also referred to as wideband speech coding). A terminal (hereinafter, terminal) that performs voice communication includes an encoding device and a decoding device compatible with any one or more audio encoding methods. When the terminal supports a plurality of voice coding systems, the coding system used for the communication is switched at the start of communication. Conventionally, a call control protocol called SIP or H.323 (also called signaling) is used to switch the coding method, and the communication methods commonly used by communication terminals are determined by a predetermined priority order. Had chosen based on. For example, if both terminals are compatible with G.711.1 and G.711, communication is performed with G.711.1, which is wideband voice coding, and one is G.711.1 and G.711 and the other is G.722 and G. When .711 is supported, both terminals are compatible with wideband voice, but G.711 is used for voice encoding and communication is performed with narrowband voice.

通信の開始時に呼制御プロトコルを用いて符号化方式を切り替えるのは、符号化方式間に互換性がないためであるが、呼制御プロトコルによる符号化方式の切り替えは、端末間の音声通信の確立を複雑化し、接続トラブルが発生する原因になっている。また、通信ネットワークとしてインターネットを利用するIP電話などでは、比較的自由に呼制御プロトコルによる符号化方式の切り換えができるが、従来から利用されている企業内通信網や通信事業者間相互接続網を経由する音声通信では、通信経路上にG.711しか通さない設備があると、端末が複数の符号化方式に対応していてもG.711しか利用できない問題がある。 The reason why the call control protocol is used to switch the coding method at the start of communication is that there is no compatibility between the code methods, but the call control protocol switching is to establish the voice communication between terminals. Is complicated and causes connection problems. Also, with IP phones that use the Internet as a communication network, it is possible to switch the encoding method by the call control protocol relatively freely, but it is not possible to use the conventional intra-company communication network or inter-communication carrier interconnection network. In the voice communication that passes through, if there is a facility on the communication path that allows only G.711, there is a problem that only G.711 can be used even if the terminal supports a plurality of encoding methods.

この問題に対して、特許文献1には、G.711と完全な互換性を有する広帯域音声符号化が実現可能であることが記載されている。G.711と完全な互換性を有する広帯域音声符号化方式であれば、符号化方式の切り替え手続きは極めて簡略化され、通信経路上にG.711しか通さない設備があっても、広帯域音声を通過させることができる。 With respect to this problem, Patent Document 1 describes that wideband speech coding having complete compatibility with G.711 can be realized. If the wideband speech coding method is completely compatible with G.711, the switching procedure of the coding method is extremely simplified, and even if there is equipment on the communication path that only G.711 can pass through, wideband speech can be transmitted. Can be passed.

図1を参照して、特許文献1に記載された音声符号化装置を示す。音声符号化装置に入力された音声は入力バッファ81に蓄積され、10ミリ秒〜20ミリ秒程度の長さのフレームに区切られて帯域分割フィルタ82に送られる。帯域分割フィルタ82は入力音声を低域音声と高域音声とに分割する。低域音声は低域音声符号化部83へ送られ、高域音声は高域音声符号化部84へ送られる。高域音声符号化部84は、高域音声を符号化して高域符号を生成し、その高域符号を低域音声符号化部83へ送る。低域音声符号化部83は、低域音声と高域符号とを受け取り、G.711符号のLSB(Least Significant Bit)またはMSB(Most Significant Bit)に高域符号を1または0のビット列として埋め込んだ低域符号を生成し、その低域符号をパケット構成部85へ送る。パケット構成部85は、低域音声符号化部83から低域符号を受け取り、その低域符号を用いてパケットを構成する。パケット送出部86は、パケット構成部85で作成されたパケットの情報を受け取り、音声パケットとしてパケット通信網に送出する。 With reference to FIG. 1, a speech coding apparatus described in Patent Document 1 is shown. The voice input to the voice encoding device is accumulated in the input buffer 81, is divided into frames having a length of about 10 milliseconds to 20 milliseconds, and is sent to the band division filter 82. The band division filter 82 divides the input voice into a low frequency voice and a high frequency voice. The low frequency speech is sent to the low frequency speech encoding unit 83, and the high frequency speech is transmitted to the high frequency speech encoding unit 84. The high frequency speech encoding unit 84 encodes the high frequency speech to generate a high frequency code, and sends the high frequency code to the low frequency speech encoding unit 83. The low-frequency speech encoding unit 83 receives the low-frequency speech and the high-frequency code, and embeds the high-frequency code as a bit string of 1 or 0 in the LSB (Least Significant Bit) or MSB (Most Significant Bit) of the G.711 code. A low-pass code is generated and the low-pass code is sent to the packet composing unit 85. The packet composing unit 85 receives the low band code from the low band speech coding unit 83 and composes a packet using the low band code. The packet sending unit 86 receives the packet information created by the packet composing unit 85 and sends it as a voice packet to the packet communication network.

図2を参照して、特許文献1に記載された音声復号装置を示す。音声符号化装置から出力された音声パケットは、音声復号装置のパケット受信部91が受信し、受信バッファ92へ蓄積される。受信バッファ92から出力された音声パケットは低域音声復号部94で復号される。また、高域符号抽出部95は音声符号から高域符号を抽出する。高域音声復号部96は、抽出された高域符号から高域音声成分を復号する。チェックサム検出部93は、受信バッファ92から出力された音声符号を、高域符号が低域符号のLSBまたはMSBに埋め込まれているかどうかの判定を行い、埋め込まれている場合には、スイッチ97を高域音声復号部96側にセットし、高域音声成分を帯域合成フィルタ98に送る。チェックサム検出部93での判定の結果、高域符号が低域符号のLSBまたはMSBに埋め込まれていないと判定された場合には、スイッチ97を高域なし側にセットする。つまり、高域音声成分は生成されない。帯域合成フィルタ98は、低域音声復号部94の出力と、高域音声復号部96の出力を広帯域の音声信号に合成して出力する。 Referring to FIG. 2, a speech decoding device described in Patent Document 1 is shown. The voice packet output from the voice encoding device is received by the packet receiving unit 91 of the voice decoding device and accumulated in the reception buffer 92. The audio packet output from the reception buffer 92 is decoded by the low frequency audio decoding unit 94. Further, the high band code extraction unit 95 extracts a high band code from the speech code. The high frequency audio decoding unit 96 decodes the high frequency audio component from the extracted high frequency code. The checksum detection unit 93 determines whether or not the high-frequency code is embedded in the LSB or MSB of the low-frequency code in the voice code output from the reception buffer 92, and if it is embedded, the switch 97 is used. Is set on the high-frequency speech decoding unit 96 side, and the high-frequency speech component is sent to the band synthesis filter 98. If the checksum detector 93 determines that the high frequency band code is not embedded in the LSB or MSB of the low frequency band code, the switch 97 is set to the high frequency side-free side. That is, the high frequency sound component is not generated. The band synthesizing filter 98 synthesizes the output of the low band audio decoding unit 94 and the output of the high band audio decoding unit 96 into a wide band audio signal and outputs it.

特許第4758687号公報Japanese Patent No. 47588687

しかしながら、特許文献1には、G.711と完全な互換性を有する広帯域音声符号化を実現するための一部の構成が記載されているにとどまる。具体的には、高域音声符号化部84は、単に高域音声を符号化することだけが記載されており、高域音声復号部96は、単に高域符号から高域音声成分を復号することだけが記載されている。G.711と完全な互換性を有する広帯域音声符号化を実現するためには、復号装置から再生される広帯域音声の品質が十分に良好であること、少なくともG.711方式で復号された狭帯域音声よりも高い品質の広帯域音声が再生できることが必要である。また、同様の考え方によって、G.726と完全な互換性を有する広帯域音声符号化の実現が期待されるが、特許文献1にはG.726との互換性実現に関して具体的に記載されていない。 However, Patent Document 1 only describes a part of the configuration for realizing wideband speech coding having complete compatibility with G.711. Specifically, it is described that the high-frequency speech encoding unit 84 simply encodes the high-frequency speech, and the high-frequency speech decoding unit 96 simply decodes the high-frequency speech component from the high-frequency code. Only that is mentioned. In order to realize wideband speech coding that is completely compatible with G.711, the quality of the wideband speech reproduced from the decoding device must be sufficiently good, and at least the narrowband decoded by the G.711 method must be used. It is necessary to be able to reproduce a wideband voice of higher quality than voice. In addition, according to the same idea, it is expected that wideband speech coding having complete compatibility with G.726 is realized, but Patent Document 1 does not specifically describe how to realize compatibility with G.726. ..

この発明の目的は、上述のような点に鑑みて、広帯域音声の音声通信において、再生される広帯域音声の品質を向上することができる音声符号化技術を提供することである。 In view of the above points, an object of the present invention is to provide a voice encoding technique capable of improving the quality of wideband voice reproduced in voice communication of wideband voice.

上記の課題を解決するために、この発明の第一の態様の音声符号化装置は、入力音声を低域音声と高域音声とに帯域分割する帯域分割部と、復号低域音声に基づいて高域音声を符号化して高域符号を生成する高域音声符号化部と、低域音声を符号化して高域符号を埋め込んだ低域符号を生成する低域音声符号化部と、低域符号を復号して復号低域音声を生成する低域音声復号部と、低域符号を音声符号として出力する符号送出部と、を含み、低域符号は、ITU-T G.726方式と互換性を持つものである。 In order to solve the above-mentioned problems, a voice encoding device according to a first aspect of the present invention is based on a band dividing unit that band-divides an input voice into a low-frequency voice and a high-frequency voice, and a decoded low-frequency voice. A high-frequency speech encoding unit that encodes high-frequency speech to generate a high-frequency code, a low-frequency speech encoding unit that encodes low-frequency speech and generates a low-frequency code in which a high-frequency code is embedded, and a low-frequency speech encoding unit. Includes a low-band speech decoding unit that decodes the code to generate decoded low-band speech, and a code sending unit that outputs the low-band code as a speech code.The low-band code is compatible with the ITU-T G.726 system. It has sex.

この発明の第二の態様の音声復号装置は、第一の態様の音声符号化装置が出力する音声符号を受信する符号受信部と、音声符号を復号して復号低域音声を生成する低域音声復号部と、音声符号に埋め込まれた高域符号を抽出する高域符号抽出部と、復号低域音声に基づいて高域符号を復号して復号高域音声を生成する高域音声復号部と、復号低域音声と復号高域音声とを合成して復号音声を出力する帯域合成部と、を含む。 A speech decoding apparatus according to a second aspect of the present invention is a code receiving section for receiving a speech code output by the speech encoding apparatus according to the first aspect, and a low-frequency band for decoding a speech code to generate a decoded low frequency speech. A voice decoding unit, a high band code extracting unit that extracts a high band code embedded in the voice code, and a high band voice decoding unit that decodes the high band code based on the decoded low band voice to generate decoded high band voice. And a band synthesizing unit for synthesizing the decoded low-frequency speech and the decoded high-frequency speech and outputting the decoded speech.

この発明によれば、音声符号化において、広帯域音声の再生に必要な情報をできるだけ損なわないようにしつつ少ないビットで高域音声を符号化することができる。また、音声復号において、聴覚的に品質劣化の少ない高域音声を生成することによって、高い品質の広帯域音声を再生することができる。すなわち、広帯域音声の音声通信において、再生される広帯域音声の品質を向上することができる。 According to the present invention, in audio encoding, high-frequency audio can be encoded with a small number of bits while minimizing the loss of information necessary for reproducing wideband audio. Further, in speech decoding, high-quality wideband speech can be reproduced by generating high-frequency speech that is auditorily less deteriorated in quality. That is, in voice communication of wideband voice, the quality of reproduced wideband voice can be improved.

図1は、従来の音声符号化装置の機能構成を例示する図である。FIG. 1 is a diagram illustrating a functional configuration of a conventional speech encoding device. 図2は、従来の音声復号装置の機能構成を例示する図である。FIG. 2 is a diagram illustrating a functional configuration of a conventional speech decoding device. 図3は、実施形態の音声符号化装置の機能構成を例示する図である。FIG. 3 is a diagram illustrating a functional configuration of the speech encoding apparatus according to the embodiment. 図4は、実施形態の音声復号装置の機能構成を例示する図である。FIG. 4 is a diagram illustrating a functional configuration of the speech decoding device according to the embodiment. 図5は、実施形態の音声符号化方法の処理手続きを例示する図である。FIG. 5 is a diagram exemplifying a processing procedure of the speech encoding method according to the embodiment. 図6は、実施形態の音声復号方法の処理手続きを例示する図である。FIG. 6 is a diagram illustrating a processing procedure of the speech decoding method according to the embodiment. 図7は、実施形態の高域音声符号化部の機能構成を例示する図である。FIG. 7 is a diagram illustrating a functional configuration of the high frequency audio encoding unit according to the embodiment. 図8は、実施形態の係数符号化部の機能構成を例示する図である。FIG. 8 is a diagram illustrating a functional configuration of the coefficient encoding unit according to the embodiment. 図9は、実施形態の高域音声復号部の機能構成を例示する図である。FIG. 9 is a diagram exemplifying the functional configuration of the high frequency audio decoding unit according to the embodiment. 図10は、実施形態の係数復号部の機能構成を例示する図である。FIG. 10 is a diagram illustrating a functional configuration of the coefficient decoding unit according to the embodiment. 図11は、実施形態の低域音声符号化部の機能構成を例示する図である。FIG. 11 is a diagram exemplifying the functional configuration of the low-frequency speech encoding unit according to the embodiment. 図12は、変形例Aの低域音声符号化部の機能構成を例示する図である。FIG. 12 is a diagram exemplifying the functional configuration of the low-frequency speech encoding unit of Modification A. 図13は、変形例Aの低域音声符号化部の機能構成を例示する図である。FIG. 13 is a diagram exemplifying the functional configuration of the low-frequency speech encoding unit of Modification A. 図14は、実施形態の低域音声復号部の機能構成を例示する図である。FIG. 14 is a diagram exemplifying the functional configuration of the low-frequency speech decoding unit of the embodiment. 図15は、変形例Bの低域音声復号部の機能構成を例示する図である。FIG. 15 is a diagram exemplifying the functional configuration of the low-frequency speech decoding unit of modification B. 図16は、変形例Bの低域音声復号部の機能構成を例示する図である。FIG. 16 is a diagram exemplifying the functional configuration of the low-frequency speech decoding unit of modification B. 図17は、変形例Cの高域音声符号化部の機能構成を例示する図である。FIG. 17 is a diagram exemplifying the functional configuration of the high frequency audio encoding unit according to the modification C. 図18は、変形例Cの効果を説明するための図である。FIG. 18 is a diagram for explaining the effect of the modification C. 図19は、変形例Cの指定帯域信号抽出部の機能構成を例示する図である。FIG. 19 is a diagram illustrating a functional configuration of the designated band signal extraction unit of the modification C.

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In the drawings, components having the same function are denoted by the same reference numerals, and duplicate description will be omitted.

文中で使用する記号「」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。 The symbol " - " used in the sentence should be written directly above the character just before it, but it is written immediately after the character due to the limitation of text notation. In the mathematical formula, these symbols are described at their original positions, that is, directly above the characters.

この発明の実施形態では、入力音声を音声符号に符号化して出力する音声符号化装置と、音声符号化装置により出力された音声符号を復号して復号音声を出力する音声復号装置とを説明する。音声符号化装置は、1フレーム分の入力音声を音声符号に変換して出力したら、次のフレームの入力音声の処理を行い、フレームの時間周期でこれを繰り返す。音声復号装置は、1フレーム分の音声符号を処理して復号音声を出力したら、次のフレームの音声符号の処理を行い、フレームの時間周期でこれを繰り返す。 In the embodiments of the present invention, a speech coding apparatus that encodes input speech into a speech code and outputs the speech code, and a speech decoding apparatus that decodes the speech code output by the speech coding apparatus and outputs decoded speech. .. After converting one frame of input voice into a voice code and outputting the voice code, the voice encoding device processes the input voice of the next frame, and repeats this in the time period of the frame. The voice decoding device, after processing the voice code for one frame and outputting the decoded voice, processes the voice code of the next frame and repeats this in the time period of the frame.

実施形態の音声符号化装置は、図3に示すように、入力バッファ11、帯域分割フィルタ(帯域分割部とも呼ぶ)12、低域音声符号化部13、高域音声符号化部14、遅延部15、低域音声復号部16、および符号送出部17を備える。この音声符号化装置が後述する各ステップの処理を行うことにより実施形態の音声符号化方法が実現される。 As shown in FIG. 3, the speech coding apparatus according to the embodiment includes an input buffer 11, a band division filter (also referred to as a band division unit) 12, a low band speech coding unit 13, a high band speech coding unit 14, and a delay unit. 15, a low-frequency speech decoding unit 16 and a code transmitting unit 17 are provided. The speech coding method of the embodiment is realized by the processing of each step described later by this speech coding apparatus.

実施形態の音声復号装置は、図4に示すように、符号受信部21、低域音声復号部22、高域符号抽出部23、遅延部24、高域音声復号部25、および帯域合成フィルタ(帯域合成部とも呼ぶ)26を備える。この音声復号装置が後述する各ステップの処理を行うことにより実施形態の音声復号方法が実現される。 As shown in FIG. 4, the voice decoding device according to the embodiment includes a code receiving unit 21, a low band voice decoding unit 22, a high band code extraction unit 23, a delay unit 24, a high band voice decoding unit 25, and a band synthesis filter ( 26). The speech decoding method of the embodiment is realized by the processing of each step described later by this speech decoding device.

音声符号化装置および音声復号装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。 The voice encoding device and the voice decoding device are, for example, a special program loaded into a known or dedicated computer having a central processing unit (CPU), a main storage device (RAM: Random Access Memory), and the like. It is a special device configured. Each device executes each process under the control of the central processing unit, for example. The data input to each device and the data obtained by each process are stored in, for example, the main storage device, and the data stored in the main storage device is read as needed and used for other processes. .. Further, at least a part of each processing unit of each device may be configured by hardware such as an integrated circuit.

図5を参照して、実施形態の音声符号化方法の処理手続きを説明する。 The processing procedure of the audio encoding method according to the embodiment will be described with reference to FIG.

ステップS11において、音声符号化装置へ音声が入力される。入力音声xは入力バッファ11に蓄えられ、10ミリ秒〜20ミリ秒程度の長さのフレームに区切られ、帯域分割フィルタ12に送られる。入力音声xは広帯域音声であり、サンプリング周波数が16kHzとする。入力音声xは、帯域分割フィルタ12によって、サンプリング周波数が8kHzの低域音声xLと高域音声xHとに分割される。低域音声xLは低域音声符号化部13へ送られ、高域音声xHは高域音声符号化部14へ送られる。帯域分割フィルタ12は、G.711.1やG.722で利用される直交ミラーフィルター(QMF: Quadrature Mirror Filter)を用いることができる。または、適当なローパスフィルタとハイパスフィルタを用いて、入力音声xにローパスフィルタをかけて1/2サンプル数に間引きした信号を低域音声xLとし、入力音声xにハイパスフィルタをかけて1/2サンプル数に間引きした信号を高域音声xHとしてもよい。 In step S11, voice is input to the voice encoding device. The input voice x is stored in the input buffer 11, divided into frames each having a length of about 10 milliseconds to 20 milliseconds, and sent to the band division filter 12. The input sound x is wide band sound and the sampling frequency is 16 kHz. The input voice x is divided by the band division filter 12 into a low frequency voice x L and a high frequency voice x H having a sampling frequency of 8 kHz. The low-frequency speech x L is sent to the low-frequency speech coding unit 13, and the high-frequency speech x H is sent to the high-frequency speech coding unit 14. As the band division filter 12, a quadrature mirror filter (QMF) used in G.711.1 or G.722 can be used. Or, by using an appropriate low-pass filter and high-pass filter, the input sound x is low-pass filtered and the signal decimated to 1/2 sample is set as the low-pass sound x L , and the input sound x is high-pass filtered to 1/ the thinned signal to 2 number of samples may be the high-band speech x H.

ステップS12において、高域音声符号化部14は、後述の低域音声復号部16から受け取った復号低域音声x Lを利用して高域音声xHを符号化し、高域符号cHを遅延部15へ送る。高域音声符号化部14の処理の詳細は後述する。遅延部15は高域符号cHを1フレーム分記憶するメモリを持ち、1フレーム前の高域符号を低域音声符号化部13へ送るとともに、受け取った高域符号を記憶する。なお、後述のように、遅延部15は省略することができるため、高域音声符号化部14の出力である高域符号と、遅延部15の出力である1フレーム前の高域符号とは区別せず、単に高域符号cHと呼ぶこととする。 In step S12, the high-band speech encoding unit 14, the decoded low-band speech x received from the low-band speech decoding section 16 to be described later - encodes the high-band speech x H using the L, and the high frequency encoding c H It is sent to the delay unit 15. Details of the processing of the high frequency audio encoding unit 14 will be described later. The delay unit 15 has a memory for storing one frame of the high frequency code c H , sends the high frequency code of one frame before to the low frequency speech encoding unit 13, and stores the received high frequency code. Since the delay unit 15 can be omitted, as will be described later, the high band code output from the high band speech coding unit 14 and the high band code one frame before output from the delay unit 15 Without distinction, it will be simply referred to as the high frequency code c H.

ステップS13において、低域音声符号化部13は、従来の音声符号化装置が備える低域音声符号化部83と同じ構成を用いることができる。すなわち、低域音声xLと高域符号cHとを受け取り、G.711符号のLSBまたはMSBに高域符号を1または0のビット列として埋め込んだ低域符号cLを出力する。低域音声符号化部13の出力は、符号送出部17へ送られるとともに、低域音声復号部16へも送られる。 In step S13, the low-frequency speech encoding unit 13 can use the same configuration as the low-frequency speech encoding unit 83 included in the conventional speech encoding device. That is, the low-frequency speech x L and the high-frequency code c H are received, and the low-frequency code c L in which the high-frequency code is embedded as a bit string of 1 or 0 in the LSB or MSB of the G.711 code is output. The output of the low-frequency speech encoding unit 13 is sent to the code transmitting unit 17 and also to the low-frequency speech decoding unit 16.

ステップS14において、低域音声復号部16は、低域音声符号化部13から受け取った低域符号cLを復号し、復号低域音声x Lを高域音声符号化部14へ送る。低域音声復号部16は、従来の音声復号装置が備える低域音声復号部94と同じ構成を用いることができる。 In step S14, the low-frequency speech decoding unit 16 decodes the low-frequency code c L received from the low-frequency speech encoding unit 13 and sends the decoded low-frequency speech x L to the high-frequency speech encoding unit 14. The low-frequency audio decoding unit 16 can use the same configuration as the low-frequency audio decoding unit 94 included in the conventional audio decoding device.

ステップS15において、符号送出部17は、低域音声符号化部13から受け取った低域符号cLを音声符号として通信ネットワークに送出する。 In step S15, the code sending unit 17 sends the low band code c L received from the low band speech coding unit 13 to the communication network as a speech code.

音声符号化装置から送出された音声符号cLは、G.711と完全なビット互換性を有し、従来のG.711方式に対応した音声復号装置が音声符号cLを受信した場合は、G.711復号方式によって狭帯域音声を再生することができ、この発明の音声復号装置が音声符号cLを受信した場合は、後述する音声復号方法によって広帯域音声を再生することができる。また、音声符号cLは既存のG.711のみに対応した通信ネットワークを通過することができる。 The voice code c L transmitted from the voice encoding device has complete bit compatibility with G.711, and when the voice decoding device corresponding to the conventional G.711 system receives the voice code c L , Narrowband audio can be reproduced by the G.711 decoding system, and when the audio decoding device of the present invention receives the audio code c L , wideband audio can be reproduced by the audio decoding method described later. Further, the voice code c L can pass through the existing communication network compatible only with G.711.

図6を参照して、実施形態の音声復号方法の処理手続きを説明する。 The processing procedure of the speech decoding method according to the embodiment will be described with reference to FIG.

ステップS21において、符号受信部21は、通信ネットワークから音声符号cLを受信し、低域音声復号部22および高域符号抽出部23へ送る。 In step S21, the code receiving unit 21 receives the voice code c L from the communication network and sends it to the low frequency voice decoding unit 22 and the high frequency code extracting unit 23.

ステップS22において、低域音声復号部22は、音声符号cLをG.711方式で復号し、復号低域音声x Lを遅延部24へ送る。遅延部24は復号低域音声x Lを1フレーム分記憶するメモリを持ち、1フレーム前の復号低域音声を高域音声復号部25および帯域合成フィルタ26へ送るとともに、受け取った復号低域音声を記憶する。なお、後述のように、遅延部24は省略することができるため、低域音声復号部22の出力である復号低域音声と、遅延部24の出力である1フレーム前の復号低域音声とは区別せず、単に復号低域音声x Lと呼ぶこととする。 In step S22, the low-frequency speech decoding unit 22 decodes the speech code c L by the G.711 method and sends the decoded low-frequency speech x L to the delay unit 24. The delay unit 24 has a memory for storing one frame of the decoded low band speech x - L , sends the decoded low band speech of one frame before to the high band speech decoding unit 25 and the band synthesis filter 26, and receives the received decoded low band. Memorize the voice. Since the delay unit 24 can be omitted, as will be described later, the decoded low-frequency voice output from the low-frequency voice decoding unit 22 and the decoded low-frequency voice one frame before output from the delay unit 24. Are not distinguished, and are simply referred to as decoded low frequency speech x L .

ステップS23において、高域符号抽出部23は、音声符号cLから高域符号cHを抽出する。高域符号抽出部23の構成は、従来の高域符号抽出部95と同じ構成を用いることができる。すなわち、G.711符号のLSBまたはMSBに埋め込まれた1または0のビット列を高域符号cHに戻す。高域符号cHは高域音声復号部25へ送られる。 In step S23, the high frequency code extracting unit 23 extracts the high frequency code c H from the speech code c L. The configuration of the high band code extraction unit 23 can be the same as that of the conventional high band code extraction unit 95. That is, the bit string of 1 or 0 embedded in the LSB or MSB of the G.711 code is returned to the high frequency code c H. The high band code c H is sent to the high band speech decoding unit 25.

ステップS24において、高域音声復号部25は、復号低域音声x Lを利用して高域符号cHを復号し、復号高域音声x Hを帯域合成フィルタ26へ送る。高域音声復号部25の処理の詳細は後述する。 In step S24, the high-band speech decoding unit 25, the decoded low-band speech x - using the L decodes the high frequency code c H, decoded high-band speech x - Send H to the band synthesis filter 26. Details of the process of the high frequency audio decoding unit 25 will be described later.

ステップS25において、帯域合成フィルタ26は、復号低域音声x Lおよび復号高域音声x Hから広帯域の復号音声xを合成して出力する。帯域合成フィルタ26は、帯域分割フィルタ12と同様に、G.711.1やG.722で利用されている直交ミラーフィルター(QMF: Quadrature Mirror Filter)を用いることができる。 In step S25, the band synthesis filter 26, the decoded low-band speech x - L and the decoded high-band speech x - from H wideband decoded speech x - a synthesized and output. As the band synthesis filter 26, a quadrature mirror filter (QMF) used in G.711.1 or G.722 can be used as in the band division filter 12.

音声復号装置は、特許文献1に記載されているようにチェックサム検出部93およびスイッチ97を備えるように構成し、受信した音声符号cLに高域符号cHが埋め込まれているか否かを判定し、埋め込まれている場合は広帯域音声を出力し、埋め込まれていない場合は狭帯域音声を出力する切り替え処理を行うことも可能である。 The voice decoding device is configured to include the checksum detection unit 93 and the switch 97 as described in Patent Document 1, and determines whether the high frequency code c H is embedded in the received voice code c L. It is also possible to perform a switching process of making a determination and outputting a wideband voice if embedded, and outputting a narrowband voice if not embedded.

音声符号化装置が備える遅延部15および音声復号装置が備える遅延部24は省略してもよい。音声符号化装置は、高域符号cHが埋め込まれた低域符号cLを復号して高域音声xHを符号化するフィードバック構造のため、遅延部15を省略すると、音声符号化装置における復号低域音声x Lと音声復号装置における復号低域音声x Lとを一致させることができなくなる。しかしながら、そのずれは聴感上では区別がつかない程度の違いであり、実用上の問題は少ない。各遅延部を省略すると、音声通信における遅延時間を1フレーム分短くできる。 The delay unit 15 included in the voice encoding device and the delay unit 24 included in the voice decoding device may be omitted. Since the speech coding apparatus has a feedback structure that decodes the low-band code c L in which the high-band code c H is embedded and codes the high-band speech x H , if the delay unit 15 is omitted, in the speech coding apparatus decoded low-band speech x - L and the decoded low-band speech x in the audio decoding device - and L can not be matched. However, the difference is such that it is indistinguishable in terms of hearing, and there are few practical problems. If each delay unit is omitted, the delay time in voice communication can be shortened by one frame.

以下、音声符号化装置が備える高域音声符号化部14の詳細な構成を説明する。高域音声符号化部14は、図7に示すように、帯域分割フィルタ(高域帯域分割部とも呼ぶ)31H、帯域分割フィルタ(低域帯域分割部とも呼ぶ)31L、パワー計算部32H,32L、線形予測部33H,33L、相対ゲイン計算部34、係数符号化部35、ゲイン符号化部36、およびマルチプレクサ(多重化部とも呼ぶ)37を備える。 Hereinafter, a detailed configuration of the high frequency audio encoding unit 14 included in the audio encoding device will be described. As shown in FIG. 7, the high frequency audio encoding unit 14 includes a band division filter (also referred to as a high frequency band division unit) 31 H , a band division filter (also referred to as a low frequency band division unit) 31 L , and a power calculation unit 32. H , 32 L , linear prediction units 33 H , 33 L , a relative gain calculation unit 34, a coefficient coding unit 35, a gain coding unit 36, and a multiplexer (also referred to as a multiplexing unit) 37.

高域音声符号化部14には、高域音声xHおよび復号低域音声x Lが入力される。入力音声のサンプリング周波数が16kHz、フレーム長が10ミリ秒である場合を例として説明すると、高域音声xHおよび復号低域音声x Lはともにサンプリング周波数が8kHz、フレーム長が10ミリ秒であり、1フレームのサンプル数は80サンプルとなる。 The high-band speech encoding unit 14, the high-band speech x H and the decoded low-band speech x - L is input. Taking the case where the sampling frequency of the input audio is 16 kHz and the frame length is 10 ms as an example, the high-frequency audio x H and the decoded low-frequency audio x - L both have a sampling frequency of 8 kHz and a frame length of 10 ms. Therefore, the number of samples in one frame is 80 samples.

帯域分割フィルタ31Lは、復号低域音声x Lをサンプリング周波数がそれぞれ4kHzのLL帯域音声x LLとLH帯域音声x LHとに分割する。帯域分割フィルタ31Lは、音声符号化装置の帯域分割フィルタ12と同じものを用いてもよいし、帯域分割フィルタ12とはタップ数や特性の異なる帯域分割フィルタを用いてもよい。LL帯域音声x LLは高域音声符号化部14では利用しないため、帯域分割フィルタ31LはLH帯域音声x LHのみを出力するように構成してもよい。LH帯域音声x LHは、線形予測部33Lおよびパワー計算部32Lへ入力される。 The band division filter 31 L divides the decoded low band speech x - L into LL band speech x - LL and LH band speech x - LH each having a sampling frequency of 4 kHz. The band-division filter 31 L may be the same as the band-division filter 12 of the audio encoding device, or may be a band-division filter having a different number of taps or characteristics from the band-division filter 12. Since the LL band voice x - LL is not used in the high band voice encoding unit 14, the band division filter 31 L may be configured to output only the LH band voice x - LH . The LH band speech x - LH is input to the linear prediction unit 33 L and the power calculation unit 32 L.

線形予測部33Lは、LH帯域音声x LHに線形予測分析を適用して、p次のLH帯域線形予測係数aLH(i)(ただし、i=1, 2, …, p)を出力する。ここで、pは一般に4〜10程度の値を用いる。なお、p次の線形予測係数はp個の値の組であるが、以下では、特定のiのときの線形予測係数を示す場合を除いて、インデックスiを省略し、単にaLHと表記する。aLHはベクトルとみなすこともでき、線形予測係数ベクトルとも呼ぶ。 The linear prediction unit 33 L applies a linear prediction analysis to the LH band speech x LH and outputs a p-th order LH band linear prediction coefficient a LH (i) (where i=1, 2,..., P). To do. Here, a value of about 4 to 10 is generally used for p. Note that the p-th order linear prediction coefficient is a set of p values, but in the following, the index i will be omitted and simply expressed as a LH , unless a linear prediction coefficient at a specific i is shown. .. a LH can be regarded as a vector and is also called a linear prediction coefficient vector.

パワー計算部32Lは、LH帯域音声x LHの1フレーム分のパワーPLHを計算する。このとき、前後のフレームを含めた平均パワー、例えば、1フレーム前の信号と1フレーム後の信号を合わせた3フレーム分のパワー、またはその1/3を1フレーム分のパワーとしてもよい。以下、1フレーム分のパワーの計算については同様とする。 Power calculating portion 32 L is, LH band speech x - calculating the power P LH of one frame of LH. At this time, the average power including the preceding and following frames, for example, the power for three frames including the signal one frame before and the signal one frame later, or 1/3 thereof may be set as the power for one frame. The same applies to the calculation of power for one frame.

帯域分割フィルタ31Hは、高域音声xHをサンプリング周波数がそれぞれ4kHzのHL帯域音声xHLとHH帯域音声xHHとに分割する。帯域分割フィルタ31Hは、音声符号化装置の帯域分割フィルタ12と同じものを用いてもよいし、帯域分割フィルタ12とはタップ数や特性の異なる帯域分割フィルタを用いてもよい。HH帯域音声xHHは高域音声符号化部14では利用しないため、帯域分割フィルタ31HはHL帯域音声xHLのみを出力するように構成してもよい。HL帯域音声xHLは、線形予測部33Hおよびパワー計算部32Hへ入力される。 The band division filter 31 H divides the high frequency sound x H into an HL band sound x HL and an HH band sound x HH each having a sampling frequency of 4 kHz. The band-division filter 31 H may be the same as the band-division filter 12 of the speech coding apparatus, or may be a band-division filter having a different number of taps or characteristics from the band-division filter 12. Since the HH band speech x HH is not used in the high band speech coding unit 14, the band division filter 31 H may be configured to output only the HL band speech x HL . The HL band speech x HL is input to the linear prediction unit 33 H and the power calculation unit 32 H.

線形予測部33Hは、HL帯域音声xHLに線形予測分析を適用して、p次のHL帯域線形予測係数aHL(i)(ただし、i=1, 2, …, p)を出力する。以下では、LH帯域線形予測係数aLHと同様に、インデックスiを省略して単にaHLと表記する。aHLもaLHと同様にベクトルとみなすことができ、線形予測係数ベクトルとも呼ぶ。 The linear prediction unit 33 H applies a linear prediction analysis to the HL band speech x HL and outputs a p-th order HL band linear prediction coefficient a HL (i) (where i=1, 2,..., P). .. Below, like the LH band linear prediction coefficient a LH , the index i is omitted and simply expressed as a HL . Like a LH , a HL can be regarded as a vector and is also called a linear prediction coefficient vector.

パワー計算部32Hは、HL帯域音声xHLの1フレーム分のパワーPHLを計算する。 The power calculator 32 H calculates the power P HL for one frame of the HL band voice x HL .

相対ゲイン計算部34は、次式で定義される相対ゲインGHLを計算する。相対ゲインGHLはHL帯域音声xHLのLH帯域音声x LHに対する相対ゲインであり、LH帯域音声x LHの各サンプルに相対ゲインGHLを乗じた信号のパワーが、HL帯域音声xHLのパワーPHLと同じになる。 The relative gain calculator 34 calculates the relative gain G HL defined by the following equation. The relative gain G HL is HL band speech x HL of LH band speech x - is the relative gain for LH, LH band speech x - power of the signal obtained by multiplying the relative gain G HL to each sample of LH is, HL band speech x HL It becomes the same as the power P HL .

Figure 0006713424
Figure 0006713424

係数符号化部35は、LH帯域線形予測係数aLHを用いてHL帯域線形予測係数aHLをM1ビットで符号化し、係数符号c1をゲイン符号化部36およびマルチプレクサ37へ送る。M1の定め方については後述する。 The coefficient encoding unit 35 encodes the HL band linear prediction coefficient a HL with M 1 bits using the LH band linear prediction coefficient a LH , and sends the coefficient code c 1 to the gain encoding unit 36 and the multiplexer 37. How to determine M 1 will be described later.

ゲイン符号化部36は、LH帯域線形予測係数aLHおよび係数符号c1を用いて相対ゲインGHLをM2ビットで符号化し、ゲイン符号c2をマルチプレクサ37へ送る。M2の定め方については後述する。 The gain encoding unit 36 encodes the relative gain G HL with M 2 bits using the LH band linear prediction coefficient a LH and the coefficient code c 1 , and sends the gain code c 2 to the multiplexer 37. The method of determining M 2 will be described later.

M1, M2の定め方を説明する。特許文献1によれば、低域音声160サンプルあたり16ビット、すなわち80サンプルあたり8ビットの高域符号を低域符号に埋め込んでも、復号低域音声の主観品質は高域符号を埋め込まない場合に比べて劣化しないとされている。したがって、フレーム長が10ミリ秒(80サンプル)の場合は、M1+M2≦8となるように、M1, M2を決めるのがよい。一例として、M1=4, M2=4とする。 Explain how to determine M 1 and M 2 . According to Patent Document 1, even if a high band code of 16 bits per 160 samples of low band speech, that is, 8 bits per 80 samples is embedded in a low band code, the subjective quality of decoded low band speech is It is said that it does not deteriorate in comparison. Therefore, when the frame length is 10 milliseconds (80 samples), it is preferable to determine M 1 and M 2 so that M 1 +M 2 ≦8. As an example, M 1 =4 and M 2 =4.

係数符号化部35は、LH帯域線形予測係数aLHとHL帯域線形予測係数aHLとには相関があることを利用して、HL帯域線形予測係数aHLを符号化する。例えば、LH帯域線形予測係数aLHの値からHL帯域線形予測係数aHLの値を推定し、HL帯域線形予測係数aHLと推定値a'HLとの誤差を符号化するとよい。なお、推定は音声データベースを用いた統計的な手法を用いる。 Coefficient coding section 35, the the LH band linear prediction coefficients a LH and HL band linear prediction coefficients a HL using a correlation, to encode the HL band linear prediction coefficients a HL. For example, the value of the HL band linear prediction coefficient a HL may be estimated from the value of the LH band linear prediction coefficient a LH , and the error between the HL band linear prediction coefficient a HL and the estimated value a′ HL may be encoded. Note that the estimation uses a statistical method using a voice database.

係数符号化部35は、図8に示すように、LSP変換部351、LSP変換部352、LSP推定部353、および誤差符号化部354を備える。LSP変換部351は、HL帯域線形予測係数aHLをHL帯域線スペクトル対(以下、線スペクトル対をLSPと呼ぶ)fHLに変換する。LSPは線形予測パラメータの一種で、p次の線形予測係数とp次のLSPは相互に変換が可能である。LSPの表記についても線形予測係数の表記と同様に、インデックスi(i=1, 2, …, p)を省略することとし、インデックスiを省略したときはベクトルとみなすことができる。LSP変換部352は、LH帯域線形予測係数aLHをLH帯域LSPfLHに変換する。LSP推定部353は、LH帯域LSPfLHを用いてHL帯域LSPfHLの値を推定する。推定ルールは、音声データベースを用いた統計的な手法を用いることができ、例えば、変換関数を定義しておいてもよいし、LH帯域LSPfLHの分布とHL帯域LSPfHLの分布の対応関係を統計的に調べて定義しておいてもよい。誤差符号化部354は、HL帯域LSPfHLとHL帯域LSPの推定値f'HLとの誤差を、例えばベクトル量子化の手法を使って符号化し、係数符号c1を出力する。 As shown in FIG. 8, the coefficient coding unit 35 includes an LSP conversion unit 351, an LSP conversion unit 352, an LSP estimation unit 353, and an error coding unit 354. The LSP conversion unit 351 converts the HL band linear prediction coefficient a HL into an HL band line spectrum pair (hereinafter, the line spectrum pair is referred to as LSP) f HL . The LSP is a kind of linear prediction parameter, and the p-th order linear prediction coefficient and the p-th order LSP can be mutually converted. Regarding the notation of the LSP, the index i (i=1, 2,..., P) is omitted as in the notation of the linear prediction coefficient, and when the index i is omitted, it can be regarded as a vector. The LSP conversion unit 352 converts the LH band linear prediction coefficient a LH into the LH band LSPf LH . The LSP estimation unit 353 estimates the value of the HL band LSPf HL using the LH band LSPf LH . For the estimation rule, a statistical method using a voice database can be used. For example, a conversion function may be defined, or the correspondence between the distribution of the LH band LSPf LH and the distribution of the HL band LSPf HL can be determined. It may be statistically examined and defined. The error encoding unit 354 encodes the error between the HL band LSPf HL and the estimated value f′ HL of the HL band LSP using, for example, the vector quantization method, and outputs the coefficient code c 1 .

ゲイン符号化部36では、LH帯域線形予測係数aLHと係数符号c1との組み合わせと、相対ゲインGHLとの間に相関があることを利用して、相対ゲインGHLを符号化する。例えば、LH帯域線形予測係数aLHと係数符号c1との組み合わせから相対ゲインGHLの値を推定し、相対ゲインGHLと推定値G'HLとの誤差を対数尺度(またはデシベル単位)で符号化するとよい。なお、推定は音声データベースを用いた統計的な手法を用いればよい。 The gain encoding unit 36 encodes the relative gain G HL by utilizing the correlation between the combination of the LH band linear prediction coefficient a LH and the coefficient code c 1 and the relative gain G HL . For example, to estimate the value of the relative gain G HL from a combination of LH band linear prediction coefficients a LH and coefficient code c 1, the error between the relative gain G HL and the estimated value G 'HL on a logarithmic scale (or decibels) It is good to encode. Note that the estimation may be performed by using a statistical method using a voice database.

マルチプレクサ37は、係数符号化部35の出力する係数符号c1とゲイン符号化部36の出力するゲイン符号c2とを入力とし、高域符号cHとして出力する。 The multiplexer 37 receives the coefficient code c 1 output from the coefficient encoding unit 35 and the gain code c 2 output from the gain encoding unit 36, and outputs the high frequency code c H.

線形予測分析を含む音声の分析に関する詳細は、下記参考文献1に記載されている。
〔参考文献1〕古井貞煕著、「ディジタル音声処理」、東海大学出版会、pp. 60-98
Details regarding speech analysis, including linear predictive analysis, are provided in Reference 1 below.
[Reference 1] Sadahiro Furui, "Digital Audio Processing," Tokai University Press, pp. 60-98

以下、音声復号装置が備える高域音声復号部25の詳細な構成を説明する。高域音声復号部25は、図9に示すように、デマルチプレクサ(符号分離部とも呼ぶ)40、帯域分割フィルタ(帯域分割部とも呼ぶ)41、パワー計算部42、線形予測部43、逆フィルタ44、複製部45、係数復号部46、相対ゲイン復号部47、合成フィルタ48、パワー計算部49、ゲイン計算部50、乗算部(HL帯域乗算部とも呼ぶ)51、相対ゲイン予測部52、係数予測部53、乱数部54、合成フィルタ55、パワー計算部56、ゲイン計算部57、乗算部(HH帯域乗算部とも呼ぶ)58、および帯域合成フィルタ(帯域合成部とも呼ぶ)59を備える。 Hereinafter, a detailed configuration of the high frequency audio decoding unit 25 included in the audio decoding device will be described. As shown in FIG. 9, the high frequency audio decoding unit 25 includes a demultiplexer (also referred to as a code separation unit) 40, a band division filter (also referred to as a band division unit) 41, a power calculation unit 42, a linear prediction unit 43, and an inverse filter. 44, duplication unit 45, coefficient decoding unit 46, relative gain decoding unit 47, synthesis filter 48, power calculation unit 49, gain calculation unit 50, multiplication unit (also referred to as HL band multiplication unit) 51, relative gain prediction unit 52, coefficient A prediction unit 53, a random number unit 54, a synthesis filter 55, a power calculation unit 56, a gain calculation unit 57, a multiplication unit (also called an HH band multiplication unit) 58, and a band synthesis filter (also called a band synthesis unit) 59 are provided.

高域音声復号部25には、復号低域音声x Lおよび高域符号cHが入力される。高域符号cHは、デマルチプレクサ40へ入力される。復号低域音声x Lは、帯域分割フィルタ41へ入力される。 The decoded low-frequency speech x - L and the high-frequency code c H are input to the high-frequency speech decoding unit 25. The high frequency code c H is input to the demultiplexer 40. The decoded low frequency sound x L is input to the band division filter 41.

帯域分割フィルタ41は、高域音声符号化部14の帯域分割フィルタ31Lと同じ構成とし、復号低域音声x Lをサンプリング周波数がそれぞれ4kHzのLL帯域音声x LLとLH帯域音声x LHとに分割する。LL帯域音声x LLは高域音声復号部25では利用しないため、帯域分割フィルタ41はLH帯域音声x LHのみを出力するように構成してもよい。LH帯域音声x LHは、線形予測部43およびパワー計算部42へ入力される。 The band division filter 41 has the same configuration as the band division filter 31 L of the high frequency speech encoding unit 14, and the decoded low frequency speech x L is the LL band speech x LL and the LH band speech x with a sampling frequency of 4 kHz. Split into LH and. Since the LL band speech x - LL is not used in the high band speech decoding unit 25, the band division filter 41 may be configured to output only the LH band speech x - LH . The LH band speech x - LH is input to the linear prediction unit 43 and the power calculation unit 42.

線形予測部43は、LH帯域音声x LHに線形予測分析を適用して、p次のLH帯域線形予測係数aLHを出力する。LH帯域線形予測係数aLHは、逆フィルタ44、係数復号部46、相対ゲイン復号部47、および係数予測部53へ入力される。 Linear prediction unit 43, LH band speech x - by applying linear prediction analysis to LH, and outputs a p-th order LH band linear prediction coefficients a LH. The LH band linear prediction coefficient a LH is input to the inverse filter 44, the coefficient decoding unit 46, the relative gain decoding unit 47, and the coefficient prediction unit 53.

パワー計算部42は、高域音声符号化部14のパワー計算部32Lと同様に、LH帯域音声x LHの1フレーム分のパワーPLHを計算する。パワーPLHは、ゲイン計算部50およびゲイン計算部57へ入力される。 Power calculation unit 42, like the power calculating portion 32 L of the high-band speech encoding unit 14, LH band speech x - calculating the power P LH of one frame of LH. The power P LH is input to the gain calculator 50 and the gain calculator 57.

逆フィルタ44は、LH帯域線形予測係数aLHをフィルタ係数とするFIRフィルタであり、LH帯域音声x LHからLH帯域線形予測残差eLHを求め、複製部45へ送る。ここで、x LH(j)はLH帯域音声x LHの第jサンプルを、eLH(j)はLH帯域線形予測残差の第jサンプルを、j=1は現フレームの先頭サンプルを、j=Nは現フレームの最後のサンプルを表すとすると、eLH(j)は次式で表される。 Inverse filter 44 is a FIR filter that the LH band linear prediction coefficients a LH and filter coefficients, LH band speech x - seeking LH band linear prediction residual e LH from LH, and sends the replicated portion 45. Here, x - LH (j) is the j-th sample of the LH band speech x - LH , e LH (j) is the j-th sample of the LH band linear prediction residual, and j=1 is the start sample of the current frame. , J=N represents the last sample of the current frame, then e LH (j) is expressed by the following equation.

Figure 0006713424
Figure 0006713424

1フレームが80サンプルからなるときは、N=80である。なお、j-iが負のときは、過去のフレーム内のサンプル位置を現フレームの先頭サンプルを基準とした相対サンプル位置として表すものとする。1フレーム分のサンプル値の組を表すときは、インデックスjを省略して表記する。 When one frame consists of 80 samples, N=80. When j-i is negative, the sample position in the past frame is represented as a relative sample position with the head sample of the current frame as a reference. When representing a set of sample values for one frame, the index j is omitted.

複製部45は、次式のように、LH帯域線形予測残差eLHを複製してHL帯域駆動音源eHLを出力する。HL帯域駆動音源eHLは、合成フィルタ48へ入力される。 The duplication unit 45 duplicates the LH band linear prediction residual e LH and outputs the HL band driving sound source e HL as in the following equation. The HL band drive sound source e HL is input to the synthesis filter 48.

Figure 0006713424
Figure 0006713424

デマルチプレクサ40は、高域符号cHを係数符号c1とゲイン符号c2とに分割する。係数符号c1は、係数復号部46、相対ゲイン復号部47、相対ゲイン予測部52、および係数予測部53へ入力される。ゲイン符号c2は、相対ゲイン復号部47および相対ゲイン予測部52へ入力される。 The demultiplexer 40 divides the high frequency code c H into a coefficient code c 1 and a gain code c 2 . The coefficient code c 1 is input to the coefficient decoding unit 46, the relative gain decoding unit 47, the relative gain prediction unit 52, and the coefficient prediction unit 53. The gain code c 2 is input to the relative gain decoding unit 47 and the relative gain prediction unit 52.

係数復号部46は、LH帯域線形予測係数aLHを用いて係数符号c1を復号し、HL帯域復号線形予測係数a HLを出力する。係数復号部46は、図10に示すように、LSP変換部461、LSP推定部462、再構成部463、および係数変換部464を備える。LSP変換部461およびLSP推定部462は、係数符号化部35のLSP変換部352およびLSP推定部353と同じである。再構成部463は、係数符号c1およびHL帯域LSPの推定値f'HLを用いて、誤差符号化に対応する復号方法によって、HL帯域復号LSPf HLを再構成する。係数変換部464は、HL帯域復号LSPf HLをHL帯域復号線形予測係数a HLに変換して出力する。HL帯域復号線形予測係数a HLは合成フィルタ48へ入力される。 Coefficient decoding unit 46 decodes the coefficient code c 1 using LH band linear prediction coefficients a LH, HL band decoded linear prediction coefficients a - outputs the HL. As shown in FIG. 10, the coefficient decoding unit 46 includes an LSP conversion unit 461, an LSP estimation unit 462, a reconstruction unit 463, and a coefficient conversion unit 464. The LSP conversion unit 461 and the LSP estimation unit 462 are the same as the LSP conversion unit 352 and the LSP estimation unit 353 of the coefficient coding unit 35. Reconstruction unit 463 uses the estimated value f 'HL coefficient code c 1 and HL band LSP, the decoding method corresponding to the error encoding, HL band decoding LSPf - reconstructing the HL. The coefficient conversion unit 464 converts the HL band decoded LSPf - HL into the HL band decoded linear prediction coefficient a - HL and outputs the coefficient. HL band decoded linear prediction coefficients a - HL is input to the synthesis filter 48.

相対ゲイン復号部47は、LH帯域線形予測係数aLHと係数符号c1との組み合わせを用いてゲイン符号c2を復号し、復号相対ゲインG HLを求める。復号相対ゲインG HLはゲイン計算部50へ入力される。復号方法は高域音声符号化部14のゲイン符号化部36の符号化方法に対応する方法を用い、例えば、LH帯域線形予測係数aLHと係数符号c1との組み合わせから相対ゲインGHLの値を推定し、ゲイン符号c2が表す誤差を相対ゲインの推定値G'HLに対数尺度上で加算、もしくはリニア尺度で乗算する方法により、復号相対ゲインG HLを求めることができる。 The relative gain decoding unit 47 decodes the gain code c 2 using a combination of LH band linear prediction coefficients a LH and coefficient code c 1, decoding relative gain G - seeking HL. The decoded relative gain G - HL is input to the gain calculation unit 50. As the decoding method, a method corresponding to the encoding method of the gain encoding unit 36 of the high frequency speech encoding unit 14 is used. For example, the relative gain G HL of the relative gain G HL is calculated from the combination of the LH band linear prediction coefficient a LH and the coefficient code c 1 . The decoded relative gain G HL can be obtained by a method of estimating the value and adding the error represented by the gain code c 2 to the estimated value G′ HL of the relative gain on a logarithmic scale or by multiplying by a linear scale.

合成フィルタ48は、係数復号部46から受け取ったHL帯域復号線形予測係数a HLをフィルタ係数とするIIRフィルタ(ARフィルタとも呼ぶ)であり、HL帯域駆動音源eHLからHL帯域合成音声yHLを出力する。HL帯域合成音声yHLはパワー計算部49および乗算部51へ入力される。 The synthesis filter 48 is an IIR filter (also referred to as an AR filter) that uses the HL band decoding linear prediction coefficient a HL received from the coefficient decoding unit 46 as a filter coefficient, and the HL band driving sound source e HL to the HL band synthetic speech y HL. Is output. The HL band synthesized speech y HL is input to the power calculation unit 49 and the multiplication unit 51.

パワー計算部49は、HL帯域合成音声yHLの1フレーム分のパワーPHLを計算する。パワーPHLはゲイン計算部50へ入力される。 The power calculator 49 calculates the power P HL for one frame of the HL band synthesized speech y HL . The power P HL is input to the gain calculator 50.

ゲイン計算部50は、復号相対ゲインG HL、パワーPLH、およびパワーPHLを用いて、次式で表されるゲインgHLを計算する。ゲインgHLは乗算部51へ入力される。 Gain calculating section 50, decoding relative gain G - HL, using the power P LH, and the power P HL, calculates a gain g HL represented by the following formula. The gain g HL is input to the multiplication unit 51.

Figure 0006713424
Figure 0006713424

乗算部51は、HL帯域合成音声yHLにゲインgHLを乗じて、復号HL帯域音声x HLを計算する。復号HL帯域音声x HLは帯域合成フィルタ59へ入力される。 Multiplication unit 51 multiplies the gain g HL to HL band synthesized speech y HL, decoding HL band speech x - calculating the HL. The decoded HL band speech x - HL is input to the band synthesis filter 59.

相対ゲイン予測部52は、係数符号c1およびゲイン符号c2を用いて、予測相対ゲインG HHを予測して求める。予測相対ゲインG HHはゲイン計算部57へ入力される。 The relative gain prediction unit 52 predicts and obtains the predicted relative gain G HH using the coefficient code c 1 and the gain code c 2 . The predicted relative gain G HH is input to the gain calculator 57.

係数予測部53は、LH帯域線形予測係数aLHおよび係数符号c1を用いて、HH帯域線形予測係数a HHを予測して求める。HH帯域線形予測係数a HHは合成フィルタ55へ入力される。 Coefficient prediction unit 53 uses the LH band linear prediction coefficients a LH and coefficient code c 1, HH band linear prediction coefficients a - obtained by predicting HH. HH band linear prediction coefficients a - HH is input to the synthesis filter 55.

乱数部54は、ガウス乱数を生成し、1フレーム長の乱数信号列eHHを出力する。乱数信号列eHHは合成フィルタ55へ入力される。 The random number unit 54 generates a Gaussian random number and outputs a random number signal sequence e HH having a one-frame length. The random number signal sequence e HH is input to the synthesis filter 55.

合成フィルタ55は、HH帯域線形予測係数a HHをフィルタ係数とするIIRフィルタであり、乱数信号列eHHからHH帯域合成音声yHHを出力する。HH帯域合成音声yHHはパワー計算部56および乗算部58へ入力される。 Synthesis filter 55, HH band linear prediction coefficients a - a IIR filter to HH filter coefficients, and outputs the HH band synthesized speech y HH from the random number signal sequence e HH. The HH band synthesized speech y HH is input to the power calculation unit 56 and the multiplication unit 58.

パワー計算部56は、HH帯域合成音声yHHの1フレーム分のパワーPHHを計算する。パワーPHHはゲイン計算部57へ入力される。 The power calculator 56 calculates the power P HH for one frame of the HH band synthesized voice y HH . The power P HH is input to the gain calculator 57.

ゲイン計算部57は、予測相対ゲインG HH、パワーPLH、およびパワーPHHを用いて、次式で表されるゲインgHHを計算する。ゲインgHHは乗算部57へ入力される。 Gain calculator 57, prediction relative gain G - with HH, power P LH, and the power P HH, calculates a gain g HH represented by the following formula. The gain g HH is input to the multiplication unit 57.

Figure 0006713424
Figure 0006713424

乗算部58は、HH帯域合成音声yHHにゲインgHHを乗じて、復号HH帯域音声x HHを計算する。復号HH帯域音声x HHは帯域合成フィルタ59へ入力される。 Multiplier 58 multiplies the gain g HH to HH band synthesized speech y HH, decoding HH band speech x - calculating the HH. The decoded HH band speech x - HH is input to the band synthesis filter 59.

帯域合成フィルタ59は、高域音声符号化部14の帯域分割フィルタ31Hに対応する(つまり逆変換としての)帯域合成フィルタであり、復号HL帯域音声x HLおよび復号HH帯域音声x HHを用いて、復号高域音声x Hを生成し出力する。なお、復号HL帯域音声x HLおよび復号HH帯域音声x HHのサンプリング周波数はいずれも4kHzであり、復号高域音声x Hのサンプリング周波数は8kHzである。 The band synthesizing filter 59 is a band synthesizing filter corresponding to the band dividing filter 31 H of the high-frequency speech encoding unit 14 (that is, as an inverse transform), and includes a decoded HL band speech x - HL and a decoded HH band speech x - HH. Is used to generate and output a decoded high frequency speech x H. The sampling frequency of the decoded HL band speech x - HL and the decoded HH band speech x - HH is 4 kHz, and the sampling frequency of the decoded high band speech x - H is 8 kHz.

この発明における音声符号化装置および音声復号装置のポイントを説明する。 The points of the speech coding apparatus and speech decoding apparatus according to the present invention will be described.

音声符号化装置では、広帯域音声を低域音声と高域音声とに帯域分割し、低域音声をさらにLL帯域の信号とLH帯域の信号とに、高域音声をさらにHL帯域の信号とHH帯域の信号とに帯域分割する。すなわち、広帯域音声は、LL帯域、LH帯域、HL帯域、HH帯域の4つの帯域に分割される。 In the speech coder, wideband speech is band-divided into low-frequency speech and high-frequency speech, low-frequency speech is further converted into LL band signals and LH band signals, and high-frequency speech is further measured into HL band signals and HH. Band signal is divided into band signal and band signal. That is, the wideband voice is divided into four bands of the LL band, the LH band, the HL band, and the HH band.

復号低域音声の品質を低下させずに低域符号に高域音声の情報を埋め込むには、高域音声をできるだけ少ないビット数で符号化する必要がある。そこで、HL帯域のスペクトル包絡情報とパワーの情報を、復号低域音声の品質を低下させない程度の少ないビット数で符号化して、低域符号に埋め込む。これらの情報を少ないビット数で符号化するために、パラメータ間の相関を最大限利用して符号化する。このとき、HH帯域の情報は送らないこととする。 In order to embed high-frequency audio information in the low-frequency code without degrading the quality of the decoded low-frequency audio, it is necessary to encode the high-frequency audio with as few bits as possible. Therefore, the spectrum envelope information and the power information of the HL band are encoded with a small number of bits so as not to deteriorate the quality of the decoded low frequency speech, and embedded in the low frequency code. In order to encode such information with a small number of bits, the correlation between parameters is used as much as possible. At this time, the information of the HH band is not sent.

音声復号装置では、低域符号からHL帯域のスペクトル包絡情報とパワーの情報を抽出し、HL帯域の信号とHH帯域の信号とを生成する。一般に、線形予測を用いた音声符号化手法では、スペクトル包絡情報と、合成フィルタを駆動する音源情報と、パワーを表す情報とが必要であるが、音声符号化装置は合成フィルタを駆動する音源情報を送らないため、音声復号装置で得られる別の情報から合成フィルタを駆動する音源情報を擬似生成する必要がある。そこで、LH帯域の線形予測残差信号がHL帯域の合成フィルタを駆動する音源情報と同じであるとみなし、LH帯域の線形予測残差信号でHL帯域の合成フィルタを駆動することによりHL帯域の信号を生成する。また、HH帯域については、音声符号化装置から情報を送らないため、音声復号装置で得られるLH帯域およびHL帯域の情報からHH帯域の信号を擬似生成する。具体的には、HH帯域のスペクトル包絡情報とパワーを表す情報を、LH帯域およびHL帯域の情報から統計的な手法によって予測し、合成フィルタはガウス乱数で駆動する。 The speech decoding apparatus extracts the HL band spectrum envelope information and the power information from the low band code, and generates the HL band signal and the HH band signal. Generally, a speech coding method using linear prediction requires spectrum envelope information, excitation information that drives a synthesis filter, and information that represents power, but a speech coding apparatus drives excitation information that drives a synthesis filter. Since it is not transmitted, it is necessary to generate pseudo sound source information for driving the synthesis filter from other information obtained by the speech decoding device. Therefore, it is considered that the linear prediction residual signal of the LH band is the same as the sound source information that drives the synthesis filter of the HL band, and the linear prediction residual signal of the LH band is driven to drive the synthesis filter of the HL band. Generate a signal. Further, regarding the HH band, since information is not sent from the voice encoding device, a signal in the HH band is pseudo-generated from the information of the LH band and the HL band obtained by the voice decoding device. Specifically, the spectrum envelope information of the HH band and the information indicating the power are predicted from the information of the LH band and the HL band by a statistical method, and the synthesis filter is driven by a Gaussian random number.

上記手法により、高域音声は10ミリ秒あたり8ビットで表現され、音声復号装置から聴感的に十分に良好な品質の広帯域音声を再生することができる。なお、再生される広帯域音声は聴感的に良好な品質であるが、入力音声とのSN比、特に高域のSN比は高くない。SN比が高くないにもかかわらず聴感的に良好となるのは、人間の聴覚特性が、高域についてはスペクトル包絡とパワーが入力音声に近い状態で再現されていれば、線形予測の駆動音源、すなわちスペクトルの微細構造や位相には鈍感であることによる。また、高域のスペクトル包絡やパワーが少ないビットで再現性の高い符号化ができること、特にHH帯域については情報を送らなくてもスペクトル包絡やパワーが再現できることは、高域のスペクトル包絡やパワーが低域のスペクトル包絡やパワーと高い相関を持つことを利用して実現している。 With the above method, high-frequency speech is represented by 8 bits per 10 milliseconds, and the speech decoding apparatus can reproduce wide-band speech with sufficiently good audibility. It should be noted that although the reproduced wideband sound has good audible quality, the SN ratio with the input sound, particularly the SN ratio in the high frequency range, is not high. Even if the SN ratio is not high, the auditory sense is good because the human predictive characteristics are linearly predicted when the spectral envelope and power are reproduced in a state where the power is close to the input voice in the high frequency range. That is, it is insensitive to the fine structure and phase of the spectrum. In addition, it is possible to perform highly reproducible encoding with a high-frequency spectrum envelope and bits with low power, and in particular, for the HH band, it is possible to reproduce the spectrum envelope and power without sending information. This is achieved by utilizing the fact that it has a high correlation with the low-frequency spectrum envelope and power.

[変形例A]
上記実施形態は、G.711と完全な互換性を有する広帯域音声符号化装置および広帯域音声復号装置の例であるが、これを以下に示すように、G.726と完全な互換性を有する広帯域音声符号化装置および広帯域復号装置に変形することができる。
[Modification A]
The above-described embodiment is an example of a wideband speech coding apparatus and a wideband speech decoding apparatus having complete compatibility with G.711, but as shown below, a wideband speech system having complete compatibility with G.726. It can be modified into a voice encoding device and a wideband decoding device.

図11は、実施形態の低域音声符号化部13として特許文献1に記載された音声符号化部を用いた構成例である。低域音声符号化部13は、図11に示すように、音声信号バッファ131、ビット解析部132、スイッチ133、G.711全コード探索部134、G.711偶数コード探索部135、G.711奇数コード探索部136、および音声符号バッファ137を備える。音声信号バッファ131は、低域音声xLをフレームと呼ばれる一定時間毎に区切って出力する。ビット解析部132は、フレーム毎に高域符号cHをビット列に分解し、各ビットの値に応じてスイッチ133を制御する。フレームの各サンプル点のうち、あらかじめ定めた前記ビット列の各ビットに対応するサンプル点では、当該ビットの値が0ならば、G.711偶数コード探索部135が、G.711の偶数符号に対応する128コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってLSBが当該ビットの値を表すG.711の音声符号を出力する。前記各ビットに対応するサンプル点において、当該ビットの値が1ならば、G.711奇数コード探索部136が、G.711の奇数符号に対応する128コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってLSBが当該ビットの値を表すG.711の音声符号を出力する。前記各ビットに対応するサンプル点以外では、G.711全コード探索部134が、G.711の全256コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってG.711の音声符号を出力する。音声符号バッファ137は、前記G.711の音声符号を1フレーム分まとめて音声符号(低域符号でもある)cLとして出力する。 FIG. 11 is a configuration example in which the voice encoding unit described in Patent Document 1 is used as the low-frequency voice encoding unit 13 of the embodiment. As shown in FIG. 11, the low-frequency audio encoding unit 13 includes an audio signal buffer 131, a bit analysis unit 132, a switch 133, a G.711 all code search unit 134, a G.711 even code search unit 135, and a G.711. An odd code search unit 136 and a voice code buffer 137 are provided. The audio signal buffer 131 divides the low-frequency audio x L at regular time intervals called a frame and outputs it. The bit analysis unit 132 decomposes the high-frequency code c H into a bit string for each frame, and controls the switch 133 according to the value of each bit. Among the sample points of the frame, at the sample point corresponding to each bit of the predetermined bit string, if the value of the bit is 0, the G.711 even code search unit 135 corresponds to the even code of G.711. A code having a quantized value close to the input voice sample value is searched from the 128 codes and the G.711 voice code whose LSB represents the value of the bit is output according to the search result. If the value of the bit is 1 at the sample point corresponding to each bit, the G.711 odd code search unit 136 converts the 128 code corresponding to the G.711 odd code into the input audio sample value. A code having a close coded value is searched for, and a G.711 voice code whose LSB represents the value of the bit is output according to the search result. Except for the sample points corresponding to the bits, the G.711 all-code search unit 134 searches for a code having a quantized value close to the input voice sample value from all 256 G.711 codes and follows the search result. Outputs G.711 voice code. The voice code buffer 137 collects the G.711 voice code for one frame and outputs it as a voice code (also a low frequency code) c L.

図12は、G.726と完全な互換性を有する広帯域音声符号化を実現するための低域音声符号化部の変形例である。変形例の低域音声符号化部13Aは、低域音声符号化部13と同様に、音声信号バッファ131、ビット解析部132、音声符号バッファ137を備え、さらに、G.726互換エンコーダ140を備える。G.726互換エンコーダ140は、スイッチ143、G.726全コード探索部144、G.726偶数コード探索部145、G.726奇数コード探索部146、適応予測部148、および差分信号計算部149を備える。G.726は適応差分パルス符号変調(Adaptive Differential Pulse Code Modulation; ADPCM)方式と呼ばれる。G.726では、適応予測部148が、過去の音声サンプルの量子化値を用いて現在の音声サンプル値を予測し、差分信号計算部149が、音声信号バッファ131から送られた現在の音声サンプル値と適応予測部148から送られた音声サンプルの予測値との差分信号を計算することで、前記差分を1サンプルあたり2〜5ビットで量子化する。デジタルコードレス電話機など、一般的には1サンプルあたり4ビットで量子化するモード(32kbit/sモードとも呼ばれる)が使われることが多いため、以下の説明では1サンプルあたり4ビットのモードを例に説明する。 FIG. 12 is a modified example of the low-frequency speech coding unit for realizing wideband speech coding that is completely compatible with G.726. The low-frequency audio encoding unit 13A of the modified example includes an audio signal buffer 131, a bit analysis unit 132, an audio code buffer 137, and further includes a G.726 compatible encoder 140, like the low-frequency audio encoding unit 13. .. The G.726 compatible encoder 140 includes a switch 143, a G.726 all code search unit 144, a G.726 even code search unit 145, a G.726 odd code search unit 146, an adaptive prediction unit 148, and a difference signal calculation unit 149. Prepare G.726 is called an Adaptive Differential Pulse Code Modulation (ADPCM) method. In G.726, the adaptive prediction unit 148 predicts the current voice sample value using the quantized value of the past voice sample, and the difference signal calculation unit 149 determines that the current voice sample sent from the voice signal buffer 131. By calculating a difference signal between the value and the predicted value of the voice sample sent from the adaptive prediction unit 148, the difference is quantized with 2 to 5 bits per sample. Generally, a mode in which quantization is performed with 4 bits per sample (also called 32 kbit/s mode) is often used in digital cordless telephones, etc. Therefore, in the following description, a mode with 4 bits per sample will be described as an example. To do.

フレームの各サンプル点のうち、あらかじめ定めた前記ビット列の各ビットに対応するサンプル点では、当該ビットの値が0ならば、G.726偶数コード探索部145が、G.726の偶数符号に対応する8コードから、前記差分信号に量子化値の近いコードを探索し、探索結果に従ってLSBが当該ビットの値を表すG.726の音声符号を出力する。前記各ビットに対応するサンプル点において、当該ビットの値が1ならば、G.726奇数コード探索部146が、G.726の奇数符号に対応する8コードから、前記差分信号に量子化値の近いコードを探索し、探索結果に従ってLSBが当該ビットの値を表すG.726の音声符号を出力する。前記各ビットに対応するサンプル点以外では、G.726全コード探索部144が、G.726の全16コードから、前記差分信号に量子化値の近いコードを探索し、探索結果に従ってG.726の音声符号を出力する。前記G.726の音声符号は音声符号バッファ137に送られるとともに、適応予測部148に送られる。 Among the sample points of the frame, at the sample point corresponding to each bit of the predetermined bit string, if the value of the bit is 0, the G.726 even code search unit 145 corresponds to the even code of G.726. A code having a quantized value close to that of the difference signal is searched from among the 8 codes, and a G.726 voice code whose LSB represents the value of the bit is output according to the search result. At the sample point corresponding to each bit, if the value of the bit is 1, G.726 odd code search unit 146, from the 8 codes corresponding to the odd code of G.726, to the difference signal of the quantization value It searches for a close code and outputs the G.726 voice code whose LSB represents the value of the bit according to the search result. Except for the sample points corresponding to the respective bits, the G.726 all-code search unit 144 searches for all 16 codes of G.726 for a code having a quantized value close to the difference signal, and according to the search result, G.726. The voice code of is output. The G.726 voice code is sent to the voice code buffer 137 and also to the adaptive prediction unit 148.

前記以外のG.726の詳細については、ITU-T G.726に記載されている。また、G.726は1サンプルあたりの量子化ビット数が少ないため、高域符号を埋め込んだ低域符号を生成すると、低域符号を復号した復号低域音声の雑音感がG.711の場合よりも増す問題がある。この雑音感を軽減する方法として、図13に示すように、参考文献2に記載された「量子化ノイズの耳障り感を効果的に低減する方法」を組み合わせることができる。
〔参考文献2〕特許第5014493号公報
Details of G.726 other than the above are described in ITU-T G.726. In addition, since G.726 has a small number of quantization bits per sample, if a low-frequency code with a high-frequency code embedded is generated, and the decoded low-frequency speech obtained by decoding the low-frequency code is noisy for G.711. There are more problems than. As a method of reducing this noise sensation, as shown in FIG. 13, a “method of effectively reducing the harshness of quantization noise” described in Reference 2 can be combined.
[Reference 2] Japanese Patent No. 5014493

送信する低域音声符号を偶数コードと奇数コードのように全コードを半数ずつに分けて探索範囲を切り換え、LSBまたはMSBに高域符号を1または0のビット列として埋め込む手法は、G.711とG.726に限らず広く既存の音声符号化方式に適用可能であり、上記構成例のG.726を他の既存音声符号化方式に置き換えることによって、当該既存音声符号化方式と完全な互換性を有する広帯域音声符号化装置および広帯域音声復号装置を実現することができる。 The method of dividing the low-frequency speech code to be transmitted by dividing the entire code into half codes such as even-numbered code and odd-numbered code and switching the search range, and embedding the high-frequency code as a bit string of 1 or 0 in LSB or MSB is G.711. Not limited to G.726, it can be widely applied to existing speech coding methods, and by replacing G.726 in the above configuration example with another existing speech coding method, it is completely compatible with the existing speech coding method. It is possible to realize a wideband speech coding apparatus and a wideband speech decoding apparatus having the above.

本変形例において、埋め込む高域符号のビットが0のときに偶数コードを探索し、1のときに奇数コードを探索する対応関係を、埋め込む高域符号のビットが0のときに奇数コードを探索し、1のときに偶数コードを探索する対応関係としてもよい。 In this modified example, when the bit of the high frequency code to be embedded is 0, the even code is searched, and when the bit of the high frequency code is 1, the odd code is searched. However, when 1 is set, the correspondence may be such that an even code is searched.

[変形例B]
図14は、実施形態の音声符号化装置における低域音声復号部16および実施形態の音声復号装置における低域音声復号部22の構成例である。G.711と完全な互換性を有する広帯域音声符号化装置および広帯域音声復号装置の低域音声復号部には、単純に既存のG.711デコーダを用いることができる。図15は、G.726と完全な互換性を有する広帯域音声符号化を実現するための、広帯域音声符号化装置および広帯域復号装置の低域音声符号化部の変形例であり、図14のG.711デコーダ162を既存のG.726デコーダ163に置き換えたものである。
[Modification B]
FIG. 14 is a configuration example of the low-frequency speech decoding unit 16 in the speech encoding device of the embodiment and the low-frequency speech decoding unit 22 in the speech decoding device of the embodiment. An existing G.711 decoder can be simply used for the low-band speech decoding unit of the wideband speech coding apparatus and the wideband speech decoding apparatus which are completely compatible with G.711. FIG. 15 is a modification of the low-frequency speech coding unit of the wideband speech coding apparatus and the wideband decoding apparatus for realizing wideband speech coding completely compatible with G.726. The .711 decoder 162 is replaced with the existing G.726 decoder 163.

G.726は1サンプルあたりの量子化ビット数が少ないため、復号低域音声の雑音感がG.711の場合よりも増す問題がある。この雑音感を軽減する方法として、図16に示すように、G.726デコーダ163の後段に、狭帯域音声符号化の手法として広く用いられているポストフィルタ164を用いることができる。ポストフィルタは、例えばITU-T G.729や日本の携帯電話に用いられたPSI-CELPなど、いわゆる「CELP系」と呼ばれる音声符号化の復号音声の品質を改善する手法として広く用いられているため、ここでは詳細な説明は省略する。 Since G.726 has a small number of quantization bits per sample, there is a problem that the sense of noise in decoded low-frequency speech increases more than in G.711. As a method of reducing this noise sensation, as shown in FIG. 16, a post filter 164 widely used as a narrow band speech encoding method can be used after the G.726 decoder 163. The post filter is widely used as a method for improving the quality of decoded speech in so-called "CELP system" such as ITU-T G.729 and PSI-CELP used in Japanese mobile phones. Therefore, detailed description is omitted here.

[変形例C]
図17は、図9に示した高域音声復号部25の変形例である。変形例の高域音声復号部25Aは、高域音声復号部25と比べて、指定帯域信号抽出部61、線形予測部62、および逆フィルタ63を備える点が異なる。高域音声復号部25では、LH帯域の線形予測残差信号でHL帯域の合成フィルタを駆動することによりHL帯域の信号を生成していた。ここでLH帯域の線形予測残差信号とは2〜4kHz帯域の線形予測残差信号であるが、高域音声復号部25Aでは、2〜4kHz帯域の代わりに、
F〜(F+2)kHz帯域
ただし、0≦F≦2
の線形予測残差信号でHL帯域の合成フィルタを駆動する。ここで、Fはあらかじめ定めた定数である。図17の構成では、指定帯域信号抽出部61は復号低域音声x LのF〜(F+2)kHz帯域成分を抽出して4kHzサンプリングの指定帯域信号x LFを求める。線形予測部62は、指定帯域信号x LFに線形予測分析を適用して、p次の指定帯域線形予測係数aLFを出力する。指定帯域線形予測係数aLFは、逆フィルタ63へ入力される。逆フィルタ63は、指定帯域線形予測係数aLFをフィルタ係数とするFIRフィルタであり、指定帯域信号x LFから指定帯域線形予測残差eLFを求め、複製部45へ送る。複製部45は指定帯域線形予測残差eLFを複製してHL帯域駆動音源eHLを出力する。
[Modification C]
FIG. 17 is a modification of the high frequency audio decoding unit 25 shown in FIG. The high-frequency speech decoding unit 25A of the modified example is different from the high-frequency speech decoding unit 25 in that it includes a designated band signal extraction unit 61, a linear prediction unit 62, and an inverse filter 63. In the high frequency speech decoding unit 25, the HL band signal is generated by driving the HL band synthesis filter with the LH band linear prediction residual signal. Here, the linear prediction residual signal of the LH band is a linear prediction residual signal of the 2 to 4 kHz band, but in the high frequency speech decoding unit 25A, instead of the 2 to 4 kHz band,
F to (F+2)kHz band However, 0≦F≦2
Drive the HL band synthesis filter with the linear prediction residual signal of Here, F is a predetermined constant. In the configuration of FIG. 17, the designated band signal extraction unit 61 extracts the F to (F+2) kHz band component of the decoded low frequency speech x - L to obtain the designated band signal x - LF of 4 kHz sampling. Linear prediction unit 62 is designated band signals x - by applying linear prediction analysis to LF, and outputs a p-th order specified band linear prediction coefficients a LF. The designated band linear prediction coefficient a LF is input to the inverse filter 63. Inverse filter 63 is a FIR filter that the specified band linear prediction coefficients a LF filter coefficients, designated subband signal x - asked for from the LF band linear prediction residual e LF, and sends to the replication section 45. The duplication unit 45 duplicates the designated band linear prediction residual e LF and outputs the HL band driving sound source e HL .

図9に示した高域音声復号部25はF=2に相当するが、F<2の方が好適な場合について説明する。図18(A)は低域音声xLの周波数スペクトルの一例であり、図18(B)は図18(A)の例に対応する復号低域音声x Lの周波数スペクトルである。図18(A)と図18(B)を比較すると、図18(B)は符号化歪みによって全帯域にわたってノイズが重畳しており、2〜4kHz帯域のSN比は、例えば1〜3kHz帯域のSN比よりも悪いと言える。このような場合には、2〜4kHz帯域の線形予測残差信号でHL帯域の合成フィルタを駆動するよりも、
F〜(F+2)kHz帯域
ただし、0≦F<2
の線形予測残差信号でHL帯域の合成フィルタを駆動する方が、生成されるHL帯域の信号のノイズ感を低減することができる。
The high-frequency speech decoding unit 25 shown in FIG. 9 corresponds to F=2, but a case where F<2 is preferable will be described. FIG. 18(A) is an example of the frequency spectrum of the low-frequency speech x L , and FIG. 18(B) is the frequency spectrum of the decoded low-frequency speech x - L corresponding to the example of FIG. 18(A). Comparing FIG. 18(A) and FIG. 18(B), noise is superimposed over the entire band in FIG. 18(B) due to coding distortion, and the SN ratio in the 2 to 4 kHz band is, for example, in the 1 to 3 kHz band. It can be said that it is worse than the SN ratio. In such a case, rather than driving the synthesis filter in the HL band with the linear prediction residual signal in the 2 to 4 kHz band,
F to (F+2)kHz band, 0≤F<2
Driving the synthesis filter of the HL band with the linear prediction residual signal of 1 can reduce the noise feeling of the generated signal of the HL band.

[変形例D]
図19は、指定帯域信号抽出部61の構成例である。指定帯域信号抽出部61は、フーリエ変換部161、周波数成分巡回部162、フーリエ逆変換部163、および帯域分割フィルタ(指定帯域分割部とも呼ぶ)164を備える。フーリエ変換部161は、復号低域音声x Lをフーリエ変換して周波数領域復号低域音声X Lに変換する。周波数成分巡回部162は、周波数領域復号低域音声X LのfkHz成分が、
f≦2+Fのとき f'=f+2-F
f>2+Fのとき f'=f-2-F
となるf'kHz成分を持つ周波数領域巡回復号低域音声X LSを計算する。フーリエ逆変換部163は、周波数領域巡回復号低域音声X LSをフーリエ逆変換して、巡回復号低域音声x LSを計算する。帯域分割フィルタ164は、図9に示した高域音声復号部25の帯域分割フィルタ41と同様に、入力された巡回復号低域音声x LSをサンプリング周波数がそれぞれ4kHzの高域音声と低域音声に分割し、高域音声を指定帯域信号x LFとして出力する。
[Modification D]
FIG. 19 is a configuration example of the designated band signal extraction unit 61. The designated band signal extraction unit 61 includes a Fourier transform unit 161, a frequency component cyclic unit 162, a Fourier inverse transform unit 163, and a band division filter (also referred to as a designated band division unit) 164. The Fourier transform unit 161 performs a Fourier transform on the decoded low frequency speech x - L to convert it into the frequency domain decoded low frequency speech X - L . The frequency component circulating unit 162 determines that the fkHz component of the frequency domain decoded low frequency speech X - L is
When f≦2+F f'=f+2-F
When f>2+F f'=f-2-F
Compute the low-frequency speech X LS in the frequency domain cyclic decoding with the f'kHz component as Inverse Fourier transform unit 163, frequency domain cyclic decoded low-band speech X - the LS and inverse Fourier transform, cyclic decoded low-band speech x - calculating the LS. The band division filter 164, similar to the band division filter 41 of the high frequency audio decoding unit 25 shown in FIG. 9, inputs the cyclically decoded low frequency audio x - LS into high frequency audio and low frequency audio each having a sampling frequency of 4 kHz. Divide into voice and output high frequency voice as specified band signal x - LF .

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 Although the embodiments of the present invention have been described above, the specific configuration is not limited to these embodiments, and even if the design is appropriately changed without departing from the gist of the present invention, Needless to say, it is included in the present invention. The various kinds of processing described in the embodiments may be executed not only in time series according to the order described, but also in parallel or individually according to the processing capability of the device that executes the processing or the need.

[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Program, recording medium]
When various processing functions in each device described in the above embodiment are realized by a computer, processing contents of functions that each device should have are described by a program. By executing this program on a computer, various processing functions of the above-described devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded in a computer-readable recording medium. The computer-readable recording medium may be, for example, a magnetic recording device, an optical disc, a magneto-optical recording medium, a semiconductor memory, or the like.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The distribution of this program is performed by, for example, selling, transferring, or lending a portable recording medium such as a DVD or a CD-ROM in which the program is recorded. Further, the program may be stored in a storage device of the server computer and transferred from the server computer to another computer via a network to distribute the program.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, the program recorded in a portable recording medium or the program transferred from the server computer in its own storage device. Then, when executing the processing, this computer reads the program stored in its own recording medium and executes the processing according to the read program. As another execution form of this program, a computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be sequentially executed. In addition, a configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by executing the execution instruction and the result acquisition without transferring the program from the server computer to the computer May be Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (such as data that is not a direct command to a computer but has the property of defining computer processing).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this embodiment, the present apparatus is configured by executing a predetermined program on the computer, but at least a part of the processing content may be implemented by hardware.

11 入力バッファ
12 帯域分割フィルタ
13 低域音声符号化部
14 高域音声符号化部
15 遅延部
16 低域音声復号部
17 符号送出部
21 符号受信部
22 低域音声復号部
23 高域符号抽出部
24 遅延部
25 高域音声復号部
26 帯域合成フィルタ
11 Input Buffer 12 Band Division Filter 13 Low-Band Speech Encoding Unit 14 High-Band Speech Encoding Unit 15 Delay Unit 16 Low-Band Speech Decoding Unit 17 Code Sending Unit 21 Code Receiving Unit 22 Low-Band Speech Decoding Unit 23 High-Band Code Extracting Unit 24 Delay Unit 25 High-Band Speech Decoding Unit 26 Band Synthesis Filter

Claims (5)

入力音声の低域音声を符号化した低域符号であって、上記低域符号を復号した低域音声に基づいて上記入力音声の高域音声を符号化した高域符号を埋め込んだ低域符号を音声符号として受信する符号受信部と、
上記音声符号を復号して復号低域音声を生成する低域音声復号部と、
上記音声符号に埋め込まれた上記高域符号を抽出する高域符号抽出部と、
上記復号低域音声に基づいて上記高域符号を復号して復号高域音声を生成する高域音声復号部と、
上記復号低域音声と上記復号高域音声とを合成して復号音声を出力する帯域合成部と、
を含み、
上記高域音声復号部は、
上記復号低域音声をLH帯域音声とLL帯域音声とに帯域分割する帯域分割部と、
上記音声符号をゲイン符号と係数符号とに分離する符号分離部と、
上記LH帯域音声の線形予測係数を用いて上記係数符号を復号してHL帯域復号線形予測係数を求める係数復号部と、
上記LH帯域音声の線形予測係数と上記係数符号とを用いて上記ゲイン符号を復号して復号相対ゲインを求める相対ゲイン復号部と、
上記LH帯域音声の線形予測係数と上記係数符号とを用いてHH帯域線形予測係数を予測して求める係数予測部と、
上記ゲイン符号と上記係数符号とを用いて予測相対ゲインを予測して求める相対ゲイン予測部と、
Fをあらかじめ決められた0≦F≦2の定数として、上記復号低域音声のF〜(F+2)キロヘルツ帯域成分を抽出して指定帯域信号を求める指定帯域信号抽出部と、
上記指定帯域信号の線形予測係数をフィルタ係数として上記指定帯域信号から求めた指定帯域線形予測残差を複製してHL帯域駆動音源を求める複製部と、
上記HH帯域線形予測係数をフィルタ係数としてガウス乱数から求めたHH帯域音声のパワーと上記LH帯域音声のパワーとの比に基づいて上記予測相対ゲインから算出したゲインを上記HH帯域音声に乗算して復号HH帯域音声を生成するHH帯域乗算部と、
上記HL帯域復号線形予測係数をフィルタ係数として上記HL帯域駆動音源から求めたHL帯域合成音声のパワーと上記LH帯域音声のパワーとの比に基づいて上記復号相対ゲインから算出したゲインを上記HL帯域合成音声に乗算して復号HL帯域音声を生成するHL帯域乗算部と、
上記復号HH帯域音声と上記復号HL帯域音声とを合成して上記復号高域音声を出力する帯域合成部と、
を含むものである、
音声復号装置。
A low-pass code obtained by encoding the low-pass voice of the input voice, wherein a low-pass code obtained by embedding a high-pass code obtained by encoding the high-pass voice of the input voice based on the low-pass voice obtained by decoding the low-pass code. A code receiving unit for receiving as a voice code,
A low-frequency audio decoding unit that decodes the audio code to generate a decoded low-frequency audio,
A high-frequency code extraction unit that extracts the high-frequency code embedded in the voice code,
A high-frequency speech decoding unit that decodes the high-frequency code based on the decoded low-frequency speech to generate decoded high-frequency speech,
A band synthesizing unit for synthesizing the decoded low-frequency speech and the decoded high-frequency speech to output decoded speech,
Including,
The above high frequency speech decoding unit,
A band division unit that divides the decoded low-frequency voice into an LH band voice and an LL band voice,
A code separation unit that separates the voice code into a gain code and a coefficient code,
A coefficient decoding unit that decodes the coefficient code using the linear prediction coefficient of the LH band speech to obtain an HL band decoding linear prediction coefficient;
A relative gain decoding unit that decodes the gain code using the linear prediction coefficient of the LH band speech and the coefficient code to obtain a decoded relative gain;
A coefficient predicting unit that predicts an HH band linear prediction coefficient using the linear prediction coefficient of the LH band speech and the coefficient code;
A relative gain prediction unit that predicts and calculates a predicted relative gain using the gain code and the coefficient code,
A designated band signal extraction unit for obtaining a designated band signal by extracting F to (F+2) kilohertz band component of the decoded low frequency speech, where F is a constant of 0≦F≦2, which is predetermined.
A duplication unit that duplicates a designated band linear prediction residual obtained from the designated band signal using the linear prediction coefficient of the designated band signal as a filter coefficient to obtain an HL band driven sound source,
The HH band speech is multiplied by a gain calculated from the predicted relative gain based on the ratio of the power of the HH band speech obtained from Gaussian random numbers using the HH band linear prediction coefficient as a filter coefficient and the power of the LH band speech. An HH band multiplication unit for generating a decoded HH band voice,
The gain calculated from the decoding relative gain based on the ratio of the power of the HL band synthesized speech obtained from the HL band driven sound source with the HL band decoding linear prediction coefficient as a filter coefficient is used as the HL band. An HL band multiplication unit that multiplies the synthesized voice to generate a decoded HL band voice,
A band synthesizing unit for synthesizing the decoded HH band speech and the decoded HL band speech and outputting the decoded high band speech;
Including
Speech decoding device.
請求項に記載の音声復号装置であって、
上記指定帯域信号抽出部は、
上記復号低域音声を周波数領域に変換して周波数領域復号低域音声を生成するフーリエ変換部と、
上記周波数領域復号低域音声のfキロヘルツ成分が、f≦2+Fのときはf'=f+2-Fとなり、f>2+Fのときはf'=f-2-Fとなるf'キロヘルツ成分からなる周波数領域巡回復号低域音声を計算する周波数成分巡回部と、
上記周波数領域巡回復号低域音声を時間領域に変換して巡回復号低域音声を生成するフーリエ逆変換部と、
上記巡回復号低域音声を高域音声と低域音声に分割し、その高域音声を上記指定帯域信号として出力する指定帯域分割部と、
を含むものである、
音声復号装置。
The voice decoding device according to claim 1 , wherein
The designated band signal extraction unit,
A Fourier transform unit for converting the decoded low-frequency speech into the frequency domain to generate frequency-domain decoded low-frequency speech,
The f kilohertz component of the frequency domain decoded low-frequency speech is f'=f+2-F when f≤2+F, and f'=f-2-F when f>2+F. 'A frequency component cyclic unit for calculating low-frequency speech, which is composed of a frequency domain cyclic decoding composed of kilohertz components,
A Fourier inverse transform unit for converting the frequency domain cyclic decoding low-frequency speech into the time domain to generate cyclic decoding low-frequency speech,
A specified band division unit that divides the cyclic decoding low-frequency audio into high-frequency audio and low-frequency audio, and outputs the high-frequency audio as the specified band signal;
Including
Speech decoding device.
符号受信部が、入力音声の低域音声を符号化した低域符号であって、上記低域符号を復号した低域音声に基づいて上記入力音声の高域音声を符号化した高域符号を埋め込んだ低域符号を音声符号として受信し、
低域音声復号部が、上記音声符号を復号して復号低域音声を生成し、
高域符号抽出部が、上記音声符号に埋め込まれた上記高域符号を抽出し、
高域音声復号部が、上記復号低域音声に基づいて上記高域符号を復号して復号高域音声を生成し、
帯域合成部が、上記復号低域音声と上記復号高域音声とを合成して復号音声を出力し、
上記高域音声復号部は、
上記復号低域音声をLH帯域音声とLL帯域音声とに帯域分割し、
上記音声符号をゲイン符号と係数符号とに分離し、
上記LH帯域音声の線形予測係数を用いて上記係数符号を復号してHL帯域復号線形予測係数を求め、
上記LH帯域音声の線形予測係数と上記係数符号とを用いて上記ゲイン符号を復号して復号相対ゲインを求め、
上記LH帯域音声の線形予測係数と上記係数符号とを用いてHH帯域線形予測係数を予測して求め、
上記ゲイン符号と上記係数符号とを用いて予測相対ゲインを予測して求め、
Fをあらかじめ決められた0≦F≦2の定数として、上記復号低域音声のF〜(F+2)キロヘルツ帯域成分を抽出して指定帯域信号を求め、
上記指定帯域信号の線形予測係数をフィルタ係数として上記指定帯域信号から求めた指定帯域線形予測残差を複製してHL帯域駆動音源を求め、
上記HH帯域線形予測係数をフィルタ係数としてガウス乱数から求めたHH帯域音声のパワーと上記LH帯域音声のパワーとの比に基づいて上記予測相対ゲインから算出したゲインを上記HH帯域音声に乗算して復号HH帯域音声を生成し、
上記HL帯域復号線形予測係数をフィルタ係数として上記HL帯域駆動音源から求めたHL帯域合成音声のパワーと上記LH帯域音声のパワーとの比に基づいて上記復号相対ゲインから算出したゲインを上記HL帯域合成音声に乗算して復号HL帯域音声を生成し、
上記復号HH帯域音声と上記復号HL帯域音声とを合成して上記復号高域音声を出力する、
音声復号方法。
The code receiving unit is a low band code obtained by coding the low band voice of the input voice, and outputs a high band code obtained by coding the high band voice of the input voice based on the low band voice obtained by decoding the low band code. the low-frequency encoding embedded received as the speech code,
The low-frequency audio decoding unit decodes the audio code to generate a decoded low-frequency audio,
High band sign extracting unit extracts the high frequency code embedded in the speech code,
A high-frequency audio decoding unit decodes the high-frequency code based on the decoded low-frequency audio to generate a decoded high-frequency audio,
The band synthesizing unit synthesizes the decoded low-frequency speech and the decoded high-frequency speech to output decoded speech ,
The above high frequency speech decoding unit,
Band-dividing the decoded low-frequency voice into LH band voice and LL band voice,
The voice code is separated into a gain code and a coefficient code,
Decoding the coefficient code using the linear prediction coefficient of the LH band speech to obtain an HL band decoding linear prediction coefficient,
Decoding the gain code using the linear prediction coefficient of the LH band speech and the coefficient code to obtain a decoded relative gain,
The HH band linear prediction coefficient is predicted and obtained using the linear prediction coefficient of the LH band speech and the coefficient code,
Predicting and obtaining a predicted relative gain using the gain code and the coefficient code,
Assuming that F is a predetermined constant of 0≦F≦2, F−(F+2) kilohertz band component of the decoded low frequency speech is extracted to obtain a designated band signal,
Using the linear prediction coefficient of the designated band signal as a filter coefficient, the designated band linear prediction residual obtained from the designated band signal is duplicated to obtain an HL band driven sound source,
The HH band speech is multiplied by a gain calculated from the predicted relative gain based on the ratio of the power of the HH band speech obtained from Gaussian random numbers using the HH band linear prediction coefficient as a filter coefficient and the power of the LH band speech. Generate decoded HH band audio,
The gain calculated from the decoding relative gain based on the ratio of the power of the HL band synthesized speech obtained from the HL band driven sound source with the HL band decoding linear prediction coefficient as a filter coefficient is used as the HL band. Generate a decoded HL band voice by multiplying the synthesized voice,
Synthesizing the decoded HH band sound and the decoded HL band sound, and outputting the decoded high band sound,
Speech decoding method.
請求項1または2に記載の音声復号装置としてコンピュータを機能させるためのプログラム。 Program for causing a computer to function as the speech decoding apparatus according to claim 1 or 2. 請求項1または2に記載の音声復号装置としてコンピュータを機能させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium in which a program for causing a computer to function as the audio decoding device according to claim 1 or 2 is recorded.
JP2017013846A 2017-01-30 2017-01-30 Audio decoding device, audio decoding method, program, and recording medium Active JP6713424B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017013846A JP6713424B2 (en) 2017-01-30 2017-01-30 Audio decoding device, audio decoding method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017013846A JP6713424B2 (en) 2017-01-30 2017-01-30 Audio decoding device, audio decoding method, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2018124304A JP2018124304A (en) 2018-08-09
JP6713424B2 true JP6713424B2 (en) 2020-06-24

Family

ID=63110251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017013846A Active JP6713424B2 (en) 2017-01-30 2017-01-30 Audio decoding device, audio decoding method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP6713424B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021145291A (en) * 2020-03-13 2021-09-24 サクサ株式会社 Telephone device

Also Published As

Publication number Publication date
JP2018124304A (en) 2018-08-09

Similar Documents

Publication Publication Date Title
JP3881943B2 (en) Acoustic encoding apparatus and acoustic encoding method
JP5343098B2 (en) LPC harmonic vocoder with super frame structure
JP5226777B2 (en) Recovery of hidden data embedded in audio signals
JP4390208B2 (en) Method for encoding and decoding speech at variable rates
JP4302978B2 (en) Pseudo high-bandwidth signal estimation system for speech codec
JP4583093B2 (en) Bit rate extended speech encoding and decoding apparatus and method
JP4958780B2 (en) Encoding device, decoding device and methods thereof
WO2001059757A2 (en) Method and apparatus for compression of speech encoded parameters
JPWO2006025313A1 (en) Speech coding apparatus, speech decoding apparatus, communication apparatus, and speech coding method
JP2010244078A (en) Spectrum envelope information quantization device, spectrum envelope information decoding device, spectrum envelope information quantizatization method, and spectrum envelope information decoding method
JP4445328B2 (en) Voice / musical sound decoding apparatus and voice / musical sound decoding method
EP3132443A1 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
KR20060135699A (en) Signal decoding apparatus and signal decoding method
JPH1097295A (en) Coding method and decoding method of acoustic signal
JP2006171751A (en) Speech coding apparatus and method therefor
JP5313967B2 (en) Bit rate extended speech encoding and decoding apparatus and method
EP2009623A1 (en) Speech coding
JP6713424B2 (en) Audio decoding device, audio decoding method, program, and recording medium
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JPH11504733A (en) Multi-stage speech coder by transform coding of prediction residual signal with quantization by auditory model
JP6691440B2 (en) Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, program, and recording medium
JP4574320B2 (en) Speech coding method, wideband speech coding method, speech coding apparatus, wideband speech coding apparatus, speech coding program, wideband speech coding program, and recording medium on which these programs are recorded
JP4373693B2 (en) Hierarchical encoding method and hierarchical decoding method for acoustic signals
JP3576485B2 (en) Fixed excitation vector generation apparatus and speech encoding / decoding apparatus
JP2005114814A (en) Method, device, and program for speech encoding and decoding, and recording medium where same is recorded

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200603

R150 Certificate of patent or registration of utility model

Ref document number: 6713424

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150