JP2010181890A - 音声符号化用開ループピッチ処理 - Google Patents

音声符号化用開ループピッチ処理 Download PDF

Info

Publication number
JP2010181890A
JP2010181890A JP2010044660A JP2010044660A JP2010181890A JP 2010181890 A JP2010181890 A JP 2010181890A JP 2010044660 A JP2010044660 A JP 2010044660A JP 2010044660 A JP2010044660 A JP 2010044660A JP 2010181890 A JP2010181890 A JP 2010181890A
Authority
JP
Japan
Prior art keywords
speech
noise
signal
audio
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010044660A
Other languages
English (en)
Other versions
JP5519334B2 (ja
JP2010181890A5 (ja
Inventor
Yang Gao
ガオ,ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mindspeed Technologies LLC
Original Assignee
Mindspeed Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/156,832 external-priority patent/US6823303B1/en
Priority claimed from US09/154,662 external-priority patent/US6493665B1/en
Application filed by Mindspeed Technologies LLC filed Critical Mindspeed Technologies LLC
Publication of JP2010181890A publication Critical patent/JP2010181890A/ja
Publication of JP2010181890A5 publication Critical patent/JP2010181890A5/ja
Application granted granted Critical
Publication of JP5519334B2 publication Critical patent/JP5519334B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】音声信号は、かなりの量の雑音コンテンツを含む。雑音を符号化する従来の方法は、雑音を適切にモデル化をすることがしばしば困難であり、望ましくない割り込みや不連続性の結果を生じ、音声中もそうである。従来の符号励起線形予測符号器のような、合成による分析(analysis by synthesis)の音声符号器は、特に低減されたビットレートにおいては適切に背景雑音を符号化できない。そこで最適な方法を提供する。
【解決手段】複数の先行フレームのうちの少なくとも1つのフレームについて音声化、無音声化の判断と、複数の先行フレームのうち少なくとも1つのフレームの先行ピッチラグで規定された近傍とに基づいて、複数のピッチラグ候補から最終ピッチラグを選択し、入力音声信号を符号化する。
【選択図】図2

Description

本発明は、一般には音声通信システムにおける音声エンコード及びデコードに関し、特に、ビットレートが限られた通信チャネルで高品質の音声再生を得るために、符号励起線形予測符号化を使用する種々の雑音補償技術に関する。
信号モデル化及びパラメータ推定は、帯域の制限を余儀なくされるなかで音声情報を通信する際に重要な役割を果たす。基本音声音をモデル化するため、音声信号を離散系波形としてサンプル化して、デジタル処理する。LPC(線形予測符号化)と称する信号符号化技術の一タイプにおいては、いかなる特定の時間インデクスのおける信号値も、以前の値の線形関数としてモデル化される。後続の信号は、このようにして以前の値に従って線形的に予測できる。その結果、信号を表現するために、一定の予測パラメータを推定し適用することにより十分な信号表現を決定できる。
LPC技術を適用すると、従来のソースエンコーダは、音声信号に作動し、通信チャネルを介した従来のソースデコーダとの通信のために、モデル化及びパラメータ情報を抽出する。一旦受信すると、デコーダは、人間の耳には当初の音声のように聞こえる、対をなす再生用の信号を再構築しようと試みる。
一定量の通信チャネル帯域が、モデル化及びパラメータ情報をデコーダに通信するのに必要である。例えば、チャネル帯域が共用されリアルタイムの再構築が必要な実施形態において、所要な帯域を減らすことが有用であると証明されている。しかしながら、従来のモデル化技術を使うと、再生音声における品質上の要件のため、一定水準以下に当該帯域を減らすことには制限がある。
音声信号は、かなりの量の雑音コンテンツを含む。雑音を符号化する従来の方法は、雑音を適切にモデル化をすることがしばしば困難であり、望ましくない割り込みや不連続性の結果を生じ、音声中もそうである。従来の符号励起線形予測符号器のような、合成による分析(analysis by synthesis)の音声符号器は、特に低減されたビットレートにおいては適切に背景雑音を符号化できない。背景雑音を符号化する別のもっと良い方法が、背景雑音を良好な品質で表現するのには望ましい。
図面を参照して本願の他部分を熟考した後に、従来のシステムにおける更なる制限及び欠点が当業者に明らかとなるだろう。
音声信号に対する、合成による分析の符号化手法を使用した音声エンコードシステムにおいて、本発明の種々な態様を見ることが出来る。エンコーダ処理回路が、音声信号分析器を使って音声信号の音声パラメータを識別する。音声信号分析器を、音声信号の多重音声パラメータを識別するのに用いてもよい。これらの音声パラメータを処理すると、音声エンコーダシステムは、音声信号を活性(アクティブ、active)又は不活性(イナクティブ、inactive)な音声コンテンツのいずれかを有するとして分類する。活性な音声コンテントを有するとして音声信号を分類すると、音声信号を表現するために第一の符号化方式を採用する。この符号化情報は、後に、音声デコードシステムを使用して音声信号を再生するのに用いてもよい。
本発明の特定の実施形態において、重み付きフィルタが、音声パラメータを識別するのを助けるために音声信号をフィルタしてもよい。音声エンコードシステムは、識別された音声パラメータを処理し、音声信号の音声コンテントを決定する。音声コンテントを識別すれば、本発明の一実施形態において、符号励起線形予測を使い、音声信号を符号化する。音声信号を音声が不活性であると識別すれば、ランダム励起シーケンスを音声信号の符号化のために使う。更に、音声が不活性な信号に対しては、エネルギー水準及びスペクトル情報を使い音声信号を符号化する。ランダム励起シーケンスを、本発明の音声デコードシステムにおいて発生させても良い。代わりに、ランダム励起シーケンスを、本発明のエンコード側で発生させてもよいし、または符号帳に格納してもよい。必要ならば、ランダム励起シーケンスを発生させた方法を音声エンコードシステムに伝送しても良い。しかし、本発明の他の実施形態において、ランダム励起シーケンスを発生させた方法を省略しても良い。
音声信号における雑音の識別を行い、その後に、雑音補償を使い音声信号のエンコード及びデコードを行う音声コーデックにおいて、本発明の更なる態様を見ることができる。音声信号内の雑音は、音声信号における雑音のような信号、例えば、背景雑音又は実質的に雑音のような特性を有する音声信号それ自体さえも含む。雑音挿入を使い、知覚的に当初の音声信号と実質的に区別できない方法で、音声信号を再生することを助ける。
生の音声信号および再生された音声信号の両方における雑音の検出及び補償を、音声コーデックの種々な部分において、分散型の方法で行ってもよい。例えば、音声信号における雑音の検出を音声コーデックのデコーダでのみで行ってもよい。代替として、エンコーダ及びデコーダで部分的に行ってもよい。再生された音声信号の雑音の補償も、かかる分散方法で行ってもよい。
本発明の他の態様、利点及び新規な特徴は、本発明の以下の詳細な説明を、添付図面と併せて考察したときに明白になるだろう。
図1aは、本発明によるソースエンコード及びデコードの使用を説明する音声通信システムの概略的なブロック図である。 図1bは、図1aのソースエンコード及びデコード機能性を利用した模範的な通信装置を説明する概略的なブロック図である。 図2は、図1a及び1bで説明した音声エンコーダの一実施形態に使用される多段式エンコード手法を説明する機能的なブロック図である。特に、図2は、図1a及び1bの音声エンコーダの一実施形態で行われる第一の段階の作動を説明するブロック機能図である。図3は、第二の段階の作動のブロック機能図であり、一方、図4は、第三の段階を説明している。 図3は、図1a及び1bで説明した音声エンコーダの一実施形態に使用される多段式エンコード手法を説明する機能的なブロック図である。特に、図2は、図1a及び1bの音声エンコーダの一実施形態で行われる第一の段階の作動を説明するブロック機能図である。図3は、第二の段階の作動のブロック機能図であり、一方、図4は、第三の段階を説明している。 図4は、図1a及び1bで説明した音声エンコーダの一実施形態に使用される多段式エンコード手法を説明する機能的なブロック図である。特に、図2は、図1a及び1bの音声エンコーダの一実施形態で行われる第一の段階の作動を説明するブロック機能図である。図3は、第二の段階の作動のブロック機能図であり、一方、図4は、第三の段階を説明している。 図5は、図2〜4で説明したものに対応する機能性を有する図1a及び1bに示した音声デコーダの一実施形態のブロック図である。 図6は、本発明に従って作られる音声エンコーダの代替の一実施形態のブロック図である。 図7は、図6の音声エンコーダのものに対応する機能性を有する音声デコーダの一実施形態のブロック図である。 図8は、一実施形態において、音声信号の識別された知覚的特性により適切なエンコード方式を選択する本発明を描いたブロック機能図である。 図9は、本発明の他の実施形態を説明するブロック機能図である。特に、図9は、音声信号が活性な又は不活性な音声コンテンツのいずれを有するかを区別すること、およびその区別により異なったエンコード方式を適用することを説明している。 図10は、本発明の他の実施形態を説明するブロック機能図である。特に、図10は、適切な音声信号符号化方式を選択するための音声パラメータの処理を説明している。 図11は、雑音と、パルス様の音声と、雑音様の音声との符号化及びデコードに関連する本発明の種々な態様を説明する音声コーデックのシステム図である。 図12は、一実施形態において、雑音検出及び雑音補償回路を利用して、音声信号のエンコード及びデコードを助ける、エンコーダ及びデコーダの両方を有する音声コーデックである本発明を描いたシステム図である。 図13は、一実施形態において、音声コーデックのデコーダにおいて雑音検出及び雑音補償を単独で行う本発明を描いたシステム図である。 図14は、一実施形態において、エンコーダ及びデコーダの両方において雑音検出を行うが、音声コーデックのデコーダにおいて雑音補償を単独で行う音声コーデックである本発明を描いたシステム図である。 図15は、図11〜14の種々な実施形態において説明した雑音検出及び補償回路の特定な実施形態である。
(訳注:国際出願時の明細書に記載されている符号等のうち一部について、出願手続の都合上、原文の表記に代えて、~g、^s、qバー、gドット等と記載した。)
<関連出願との関係>
本願は、1998年11月24日出願の米国特許出願第09/198,414に基づいており、その出願は1998年9月18日出願の米国特許出願第09/154,662の一部継続出願であり、その出願は1998年9月18日出願の米国特許出願第09/156,832の一部継続出願であり、その出願は、1998年8月24日出願の仮出願第60/097,569に基づいた1998年9月18日提出の米国特許出願第09/154,657の一部継続出願である。これらの全ての出願は、その全体が本願に援用され、本出願の一部を成す。
<本願への援用>
下記の出願は、その全体が本願に援用されることによって、本出願の一部を成す。
1)1998年8月24日出願の米国仮出願第60/097,569(代理人名簿No.98RSS325)
2)1998年11月24日出願の米国特許出願第09/198,414(代理人名簿No.97RSS039CIP)
3)1998年9月18日出願の米国特許出願第09/154,662(代理人名簿No.97RSS383)
4)1998年9月18日出願の米国特許出願第09/156,832(代理人名簿No.97RSS039)
5)1998年9月18日出願の米国特許出願第09/154,657(代理人名簿No.98RSS328)
6)1998年9月18日出願の米国特許出願第09/156,649(代理人名簿No.95E020)
7)1998年9月18日出願の米国特許出願第09/154,654(代理人名簿No.98RSS344)
8)1998年9月18日出願の米国特許出願第09/154,653(代理人名簿No.98RSS406)
9)1998年9月18日出願の米国特許出願第09/156,814(代理人名簿No.98RSS365)
10)1998年9月18日出願の米国特許出願第09/156,648(代理人名簿No.98RSS228)
11)1998年9月18日出願の米国特許出願第09/156,650(代理人名簿No.98RSS343)
12)1998年9月18日出願の米国特許出願第09/154,675(代理人名簿No.97RSS383)
13)1998年9月18日出願の米国特許出願第09/156,826(代理人名簿No.98RSS382)
14)1998年9月18日出願の米国特許出願第09/154,660(代理人名簿No.98RSS384)
図1は、本発明によるソースエンコード及びデコードの使用を説明する音声通信システムの概略的ブロック図である。ここでは、音声通信システム100が、通信チャネル103を通じた音声の通信及び再生をサポートする。通信チャネル103は、例えば、線、ファイバー又は光学リンクを備えうるが、一般には、携帯電話機用の実施形態に見ることができるような、共有帯域資源を必要とする多重同時音声交換をしばしばサポートしなければならない無線周波数のリンクを少なくとも部分的に備える。
図示しないが、例えば応答機の機能性、音声メール等を実現するための遅延再生またはプレーバック用の音声情報を一時的に記憶するために、記憶装置を通信チャネル103に結合してもよい。同様に、通信チャネル103を、例えば、その後のプレーバック用の音声を単に記録し且つ記憶する通信システム100の単一装置の実施形態におけるような記憶装置と置き換えても良い。
特に、マイクロホン111はリアルタイムで音声信号を生成する。マイクロホン111は、音声信号をA/D(アナログ−デジタル)変換器115へ送達する。A/D変換器115は、音声信号をデジタル形式に変換し、それからデジタル化された音声信号を音声エンコーダ117に送達する。
音声エンコーダ117は、複数のエンコードモードのうち選択された一のモードを使ってデジタル化された音声をエンコードする。複数のエンコードモードの各々は、結果として生じる再生音声の品質を最適化しようとする特定の技術を利用する。複数のモードのいずれかで作動しながら、音声エンコーダ117は一連のモデル化及びパラメータ情報(以下「音声インデクス」と称す)を生成し、音声インデクスをチャネルエンコーダ119に送達する。
チャネルエンコーダ119は、チャネルデコーダ131と整合し、通信チャネル103を通じて音声インデクスを送達する。チャネルデコーダ131は音声インデクスを音声デコーダ133へ転送する。音声エンコーダ117のものに対応するモードで作動しながら、音声デコーダ133は、D/A(デジタル−アナログ)変換器135を介してスピーカ137において当初の音声を音声インデクスからできるだけ正確に再現しようとする
音声エンコーダ117は、通信チャネル103を通じてデータ率の制限を基にして複数の作動モードのうち、一のモードを適切に選択する。通信チャネル103は、チャネルエンコーダ119とチャネルデコーダ131との間に帯域割り当てを備える。割り当ては、例えば、多くの上記チャネルが、必要に応じて割り当てられ再割り当てされる電話交換網により確立される。かかる一実施形態において、22.8kbps(キロビット/秒)チャネル帯域、即ちフルレートチャネル、又は11.4kbpsチャネル帯域、即ちハーフレートチャネルのいずれかを割り当ても良い。
フルレートチャネル帯域割り当てについては、音声エンコーダ117は、ビットレート11.0、8.0、6.65又は5.8kbpsをサポートするエンコードモードを適切に選択しても良い。音声エンコーダ117は、ハーフレートチャネルのみが割り当てられた場合は、8.0、6.65、5.8又は4.5kbpsのいずれかのエンコードビットレートモードを適切に選択する。勿論、これらのエンコードビットレート及び前述のチャネル割り当ては、本実施形態の単なる代表的なものである。代替の実施形態の目標を満たすための他の変更例も考慮される。
フル又はハーフレートの割り当てのいずれについても、音声エンコーダ117は、割り当てられたチャネルがサポートするであろう最高のエンコードビットレートを使って通信しようとする。割り当てられたチャネルが、騒々しかったり又は騒々しくなった場合、あるいは、最高の又はより高いエンコードビットレートを制限しているのであれば、音声エンコーダ117は、より低いビットレートエンコードモードを選択することにより適応する。同様に、通信チャネル103がより有利となれば、音声エンコーダ117は、より高いビットレートエンコードモードに切り替えることにより適応する。
より低いビットレートエンコードについては、音声エンコーダ117は、種々の方式を組み入れて、より良い低ビットレート音声再生を生成する。適用される多くの技術は音声自体の特性を基にしている。例えば、より低いビットレートエンコードでは、音声エンコーダ117は、雑音と、無声音声と、音声音声とを区分し、特定の区分に対応する適切なモデル化方式を選択でき且つ実行できるようにする。かくして、音声エンコーダ117は、複数のモデル化方式の中から現状の音声に最も適した方式を適切に選択することになる。音声エンコーダ117は、下記により詳細に明らかにするように、種々の他の方式をも適用し、モデル化の最適化をする。
図1bは、図1aの機能性を採用した模範的な通信装置のいくつかのバリエーションを説明する略ブロック図である。通信装置151は,音声の同時捕獲及び再生用の音声エンコーダ及びデコーダの両方を備える。一般的に単一ハウジング内で、通信装置151は、例えば、セルラー電話機機、携帯電話機、演算装置等を備える。代替として、例えばエンコードされた音声情報を記憶する記憶素子を有するいくらかの修正ついては、通信装置151は、応答機と、レコーダと、音声メールシステム等とを備えてもよい。
マイクロホン155及びA/D変換器157は整合し、デジタル音声信号をエンコードシステム159に供給する。エンコードシステム159は、音声及びチャネルエンコードを行い且つその結果生じる音声情報をチャネルに供給する。供給された音声情報は、遠隔地にある他の通信装置(図示しない)に向けても良い。
音声情報を受信すると、デコードシステム165はチャネル及び音声デコードを行い、それからD/A変換器167及びスピーカ169と整合し、当初に捕獲した音声のように聞こえるものを再生する。
エンコードシステム159は、音声エンコードを行う音声処理回路185及びチャネルエンコードを行うチャネル処理回路187の両方を備える。同様に、デコードシステム165は、音声デコードを行う音声処理回路189及びチャネルデコードを行うチャネル処理回路191の両方を備える。
音声処理回路185及びチャネル処理回路187を別個に説明するが、それらを部分的に又は全体として単一ユニットに組み合しても良い。例えば、音声処理回路185及びチャネル処理回路187は、単一DSP(デジタル信号プロセッサ)及び/又は他の処理回路を共用しても良い。同様に、音声処理回路189及びチャネル処理回路191を完全に分離しても、又は部分的に又は全体として組み合わせてもよい。更に、全体として又は部分的な組み合わせを音声処理回路185及び189、チャネル処理回路187及び191、処理回路185、187、189及び191、又は他に適用しても良い。
エンコードシステム159及びデコードシステム165の両方はメモリ161を利用する。音声処理回路185は、ソースエンコードプロセスにおいて音声メモリ177の固定符号帳181及び適応符号帳183を利用する。チャネル処理回路187は、チャネルメモリ175を利用し、チャネルエンコードを行う。同様に、音声処理回路189は、ソースデコードプロセスにおいて固定符号帳181及び適応符号帳183を利用する。チャネル処理回路187は、チャネルメモリ175を利用し、チャネルデコードを行う。
説明したように音声メモリ177を共用しても、そのメモリの別個の複写を処理回路185及び189に割り当てることができる。同様に、別個のチャネルメモリを処理回路187及び191の両方に割り当てることができる。メモリ161は、処理回路185、187、189及び191が利用するソフトウエアを有し、ソース及びチャネルエンコード及びデコードプロセスにおいて要求される種々の機能性も行う。
図2〜4は、図1a及び1bで説明した音声エンコーダの一実施形態に使用される多段式エンコード手法を説明するブロック機能図である。特に、図2は、図1a及び1bに示した音声エンコーダの一実施形態で行われる、第一のステージの作動を説明するブロック機能図である。エンコーダ処理回路を備える音声エンコーダは、下記の機能性を遂行するソフトウエア命令に従って、一般的に、作動する。
ブロック215において、ソースエンコーダ処理回路が、音声信号211の高域のフィルタを行う。フィルタは、約80Hzの遮断周波数を使い、例えば、60Hz電力線雑音及び他の低周波信号を除去する。かかるフィルタ後、ソースエンコーダ処理回路は、ブロック219が表示しているように知覚的重み付けフィルタを適用する。知覚的重み付けフィルタが作動し、フィルタされた音声信号の谷領域のエンファシスを行う。
エンコーダ処理回路が、制御ブロック245が表示しているように、ピッチ処理(PP)モードにおける作動を選択すれば、重み付き音声信号についてのピッチ処理作動をブロック225において行う。ピッチ処理作動は、重み付き音声信号のねじれを生じさせ、デコーダ処理回路が発生するであろう補間ピッチ値に一致させる。ピッチ前処理を適用すると、ねじれを生じた音声信号は、第一のターゲット信号229に指定される。ピッチ前処理を制御ブロック245において選択しなければ、重み付き音声信号は、ピッチ処理されずにブロック225を通過し且つ第一のターゲット信号229に指定される。
ブロック255が表示するように、エンコード処理回路は、適応符号帳257からの貢献が、第一の誤差信号253を最小にする対応ゲイン257と一緒に選択されるプロセスを適用する。第一の誤差信号253は、第一のターゲット信号229と適応符号帳からの重み付き、合成された貢献との差を有する。
ブロック247、249及び251において、適応ゲインが合成及び重み付けフィルタの両方に還元後生じた励起ベクトルを適用し、第一のターゲット信号229に最も調和するモデル化された信号を発生する。エンコード処理回路は、ブロック239が表示するように、LPC(線形予測符号化)分析を使用し、合成及び重み付けフィルタ用のフィルタパラメータを発生する。重み付けフィルタ219及び251の機能性は同等である。
次に、エンコーダ処理回路は、固定符号帳261からの貢献を使い、一致のため第一の誤差信号253を第二のターゲット信号として指定する。エンコーダ処理回路は、一般的には第二のターゲット信号に一致させようとするが、最も適切な貢献を選択する試みにおいて固定符号帳261内にある複数のサブ符号帳のうち少なくともひとつを探索する。
更に具体的には、エンコーダ処理回路は、様々な要因を基にして励起ベクトルと、それに対応するサブ符号帳と、ゲインとを選択する。例えば、ブロック279が表示しているように、エンコーダ処理回路は、エンコードビットレートと、最小化の程度と、音声自体の特性とを制御ブロック275において考慮する。たとえ多くの他の要因を考慮しても、模範的な特性には音声区別と、のいずれベルと、鮮明さと、周期数等とが含まれる。かくして、かかる他の要因を考慮することにより、たとえ第二のサブ符号帳が第二のターゲット信号265をより良く最小化しても、第二のサブ符号帳の最も良い励起ベクトルよりもむしろ、最も良い励起ベクトルを有する第一のサブ符号帳を選択してもよい。
図3は、図2で説明した音声エンコーダの実施形態で行われる第二のステージの作動を描くブロック機能図である。第二のステージにおいて、音声エンコーダ回路は、第一のステージの作動で見られる適応符号帳及び固定符号帳ベクトルの両方を同時に使用し、第三の誤差信号311を最小化する。
音声エンコーダ回路は、適応及び固定符号帳257及び261の両方から以前識別された励起ベクトル(第一のステージにおいて)用の最適なゲイン値を探索する。ブロック307及び309が表示するように、音声エンコーダ回路は、第一のターゲット信号229(第三の誤差信号を最小化する)に最も一致する、合成され且つ重み付き信号を、即ちブロック301及び303経由で、発生することにより最適なゲインを識別する。勿論、処理能力が許せば、ゲインと適応及び固定符号帳ベクトル選択の両方を共同で最適化することを使用することができところで第一及び第二のステージを組み合わすことがでる。
図4は、図2及び3で説明した音声エンコーダの実施形態で行われる、第三のステージの作動を描いたブロック機能図である。エンコード処理回路は、ブロック401、403及び405が表示するように、ゲイン正規化と、平滑化と、量子化とをエンコード処理の第二のステージにおいて識別された、共同に最適化されたゲインに適用する。再度、使用される適応及び固定符号帳ベクトルは、第一のステージ処理で識別されたベクトルである。
正規化と、平滑化と、量子化とを機能的に適用して、エンコーダ処理回路はモデル化プロセスを完了させた。それ故、識別されたモデル化パラメータをデコーダに通信する。特に、エンコーダ処理回路は、選択された適応符号帳ベクトルへのインデクスをマルチプレクサ419経由でチャネルエンコーダに供給する。同様に、エンコーダ処理回路は、選択された固定符号帳ベクトルと、その結果生じるゲインと、合成フィルタパラメータ等とへのインデクスをマルチプレクサ419に供給する。マルチプレクサ419は、受信装置のチャネル及び音声デコーダへの通信のため、チャネルエンコーダへの供給用のかかる情報のビットストリーム421を発生する。
図5は、図2〜4で説明した機能性に対応する機能性を有する音声デコーダの機能性を説明する一実施形態のブロック図である。音声エンコーダについては、デコーダ処理回路を備える音声デコーダは、下記の機能性を遂行するソフトウエア命令に従って一般的に作動する。
デマルチプレクサ511は、音声モデル化インデクスのビットストリーム513を、チャネルデコーダ経由で遠隔にあることが多いエンコーダから受信する。以前論議したように、エンコーダは、図2乃至4を参照して上で説明した多段式エンコードプロセス中に各インデクス値を選択した。デコーダ処理回路は、インデクスを利用して、例えば、適応符号帳515及び固定符号帳519から励起ベクトルを選択し、ブロック521において適応及び固定符号帳ゲインを設定し、且つ合成フィルタ531用のパラメータを設定する。
かかるパラメータ及びベクトルを選択又は設定して、デコーダ処理回路は、再生された音声信号539を発生する。特に、符号帳515及び519は、デマルチプレクサ511からのインデクスが識別した励起ベクトルを発生する。デコーダ処理回路は、ブロック521においてインデクス化されたゲインを総計したベクトルに適用する。ブロック527において、デコーダ処理回路は、ゲインを修正し、適応符号帳515からのベクトルの貢献をエンファシス化する。ブロック529において、励起スペクトルを平坦化にする目標と結合したベクトルに適応チルト補償を適用する。デコーダ処理回路は、平坦化された励起信号を使って、ブロック531において合成フィルタリングを行う。最後に、再生された音声信号539を発生させるため、再生された音声信号539の谷領域をデエンファシスする、ポストフィルタリングをブロック535において適用し、ひずみの影響を減らす。
本発明の模範的なセルラー電話機の実施形態において、A/D変換器115(図1a)は、1)入力レベル調整装置と、2)入力反エイリアジングジングフィルタと、3)8kHzでサンプリングを行うサンプルホールド装置と、4)アナログから13ビット表現への均一なデジタル変換とを含む、アナログから均一なデジタルPCMへの変換に一般的に関係する。
同様に、D/A変換器135は、1)13ビット/8kHzの均一なPCMからアナログへの変換と、2)ホールド装置と、3)x/sin(x)補正を含む再構築フィルタと、4)出力レベル調整装置とを含む、均一なデジタルPCMからアナログへの変換に、一般的に、関係する。
端末装置において、13ビットの均一なPCMフォルマントへ直接に変換することにより、又は8ビット/A−法則の混合されたフォルマントへ変換することにより、A/D機能を達成しても良い。D/A作動では、逆の作動が起こる。
エンコーダ117は、16ビットワードにおいて13ビット分解を左寄せにしたデータサンプルを受信する。三つの最下位の数字をゼロとする。デコーダ133は同じフォルマントでデータを出力する。音声コーデックの外では、更なる処理を適用し、異なる表現を有するトラヒックデータを調節することができる。
図2〜5で説明した作動機能性を持つAMR(適応マルチレート)コーデックの一特定実施形態は、ビットレート11.8、8.0、6.65、5.8及び4.55kbpsを持つ5つのソースコーデックを使用する。最も高いソース符号化ビットレートの内の4つはフルレートチャネルで、4つの最低ビットレートはハーフレートチャネルで使用する。
AMRコーデック内全ての5つのソースコーデックは、符号励起線形予測(CELP)符号化モデルを一般的に基にしている。以下で与えられる10次の線形予測(LP)、即ち、例えば、ブロック249、267、301、407及び531(図2乃至5の)において使用される短期合成フィルタを使う。
Figure 2010181890
ここで、^a,i=1,....,mは(量子化された)線形予測(LP)パラメータである。
長期フィルタ、即ちピッチ合成フィルタを、適応符号帳手法又はピッチ前処理手法のいずれかを使い実行する。ピッチ合成フィルタは以下のように与えられる。
Figure 2010181890
ここで、Tはピッチディレイ及びgはピッチゲインである。
図2を参照して、ブロック249において短期LP合成フィルタの入力における励起信号を、適応及び固定符号帳257及び261からの2つの励起ベクトルをそれぞれ加えて構築する。これらの符号帳から適切に選んだ2つのベクトルを、ブロック249及び261のぞれぞれにおいて短期合成フィルタを通るように供給して、音声を合成する。
知覚的重み付け歪み測度に従い、当初の音声と合成された音声との間の誤差を最小にする、合成による分析の探索手順を使い、符号帳における最適な励起シーケンスを選ぶ。例えば、ブロック251及び268において、合成による分析探索方式で使用される知覚的重み付けフィルタは以下の通り与えられる。
W(z)=A(z/γ)/A(z/γ) (3)
ここでA(z)は非量子化LPフィルタ及び0<γ<γ≦1は知覚的重み付け因子である。値γ=[0.9、0.94]及びγ=0.6を使う。重み付けフィルタは、例えば、ブロック251及び268において、非量子化LPパラメータを使うが、一方フォルマント合成フィルタは、例えば、ブロック249及び267において、量子化されたLPフィルタを使う。非量子化及び量子化LPパラメータは、共にブロック239において発生する。
本エンコーダの実施形態は、毎秒8000サンプルのサンプリング周波数で、160サンプルに対応する20ms(ミリ秒)音声フレーム上で作動する。各160音声サンプル毎に音声信号を分析し、CELPモデルのパラメータ、即ちLPフィルタ係数と、適応及び固定符号帳インデクスと、ゲインとを抽出する。これらのパラメータをエンコードし伝送する。デコーダにおいて、これらのパラメータをデコードし、再構築された励起信号をLP合成フィルタを通じてフィルタリングすることにより音声を合成する。
更に具体的には、ブロック239においてLP分析をフレーム毎に2回行うが、単一LPパラメータセットのみを線スペクトル周波数(LSF)及び予測多段量子化(PMVQ)を使って量子化されたベクトルに変換する。音声フレームをサブフレームに分割する。適応及び固定符号帳257及び261からのパラメータをすべてのサブフレームに伝送する。量子化された及び非量子化LPパラメータ、又はそれらの補間バージョンをサブフレームに応じて使用する。ブロック241においてPPモード又はLTPモード用のそれぞれのフレーム毎に、開ループピッチラグを一度又は二度推定する。
サブフレーム毎に、少なくと次の作動を繰り返す。最初に、エンコーダ処理回路(ソフトウエア命令に従って作動)は、LP残差と励起との間の誤差をフィルタすることにより更新されたようなフィルタの初期状態の重み付き合成フィルタW(z)H(z)を通じてLP残差をフィルタすることにより、x(n)、第一のターゲット信号229を演算する。これは、重み付き音声信号から重み付き合成フィルタのゼロ入力応答を差し引くという代替の手法と同等である。
二番目に、エンコーダ処理回路は、重み付き合成フィルタのインパルス応答、h(n)、を演算する。三番目に、LTPモードにおいて、閉ループピッチ分析を行い、第一のターゲット信号229、x(n)、を用いてピッチラグおよびゲインを、また、開ループピッチラグ周辺を探索することにより、インパルス応答、h(n)、を探す。種々のサンプル分解能を持つ分数のピッチを使用する。
PPモードにおいて、当初の入力信号にピッチ前処理を行って、補間ピッチ輪郭に一致させたため、閉ループ探索は必要ではない。補間ピッチ輪郭及び過去に合成された励起を使ってLTP励起ベクトルを演算する。
4番目に、エンコーダ処理回路は、適応符号帳コントリビューション(フィルタされた適応コードベクトル)をx(n)から除去することにより、新たなターゲット信号x(n)である第二のターゲット信号253を発生する。エンコーダ処理回路は、固定符号帳の探索において第二のターゲット信号253を使い、最適なイノベーションを探す。
5番目に、11.0kbpsビットレートモードに対して、(移動平均予測を固定符号帳ゲインに適用して)適応及び固定符号帳のゲインを4及び5ビットでそれぞれスカラ量子化する。他のモードに対しては、(移動平均予測を固定符号帳ゲインに適用して)適合及び固定符号帳のゲインをベクトル量子化する。
最後に、次のサブフレームにおいて第一のターゲット信号を探すために決められた励起信号を使ってフィルタメモリを更新する。
このAMRコーデックモードのビットの割り当てを表1に示した。たとえば、各20ms音声フレームに対しては,11.0、8.0、6.65、5.8あるいは4.55kbpsのビットレートに応じてそれぞれ220、160、133、116あるいは91ビットが作られる。
Figure 2010181890
第5図を参照して、デコーダ処理回路は、ソフトウエア制御に従って、音声信号をデマルチプレクサー511により受信ビット流から抽出した伝送モデリングインデクスを用いて再構成する。デコーダ処理回路はインデクスをデコードして、各伝送フレームにおける符号化パラメータを得る。これらのパラメータは、LSFベクトル、分数のピッチラグ、イノベーティブコードベクトル、および2つのゲインである。
LSFベクトルはLPフィルター係数に変換され、各サブフレームにおけるLPフィルターを得るために補間される。各サブフレームにおいては、デコーダ処理回路は、1)符号帳515および519から適応、イノベーティブコードベクトルを識別し、2)ブロック521においてそれぞれのゲインにより、寄与をスケーリングし、3)スケーリングした寄与を合計して、3)ブロック527および529において適応チルト補償を変更し適用することによって励起信号を構成する。これら音声信号はブロック531においてLP合成を通じてその励起をフィルタにかけ、サブフレーム基準で再構成される。最終的に、音声信号はブロック535の適応ポストフィルタを通り、再生音声信号539を生成する。
AMRエンコーダは、独自のシーケンスおよびフォルマントにて音声モデル化情報を生成し、AMRデコーダは同様の方法で同一の情報を受け取る。符号化された音声の異なるパラメータ、およびそれらの個々のビットは、主観的な品質に関して、同一でない重要性を持つ。チャンネルエンコーディング関数に供される前に、ビットは重要性の順に再配列される。
二つの予備処理関数:高域フィルタおよび信号ダウンスケーリングが、エンコーディングプロセスに先立って適用される。ダウンスケーリングは、固定点実装において、オバーフローの可能性を減らすために、入力を2分の1に割ること(dividing the input by a factor of 2)からなる。ブロック215(第2図)の高域フィルタは、好ましからざる低周波数成分に対する予防策として機能する。80Hzのカットオフ周波数のフィルタが使われ、それはのように与えられる。
hl(z)=(0.92727435−1.8544941z−1+0.92
727435z−2)/(1−1.9059465z−1+0.9114024z−2
ダウンスケーリングおよび高域フィルタリングはHhl(z)の分子の係数を2で割ることにより結合される。
短期予測、あるいは、線形予測(LP)分析は、30msのウィンドウを有する自己相関手法を用いる音声フレーム毎について、2回ずつ行われる。具体的には、2つのLP分析が2個の別個のウィンドウを用いてフレームごとに2度実行される。第1のLP分析(LP_analysis_1)では、ハイブリッドウィンドウ(hybrid window)が用いられ、それは第4のサブフレームにおいてその重みがコンセントレート(concentrate)される。ハイブリッドウィンドウは2つの部分からなる。第1の部分は、ハミングウィンドウ(Hamming window)の半分であり、第2の部分は余弦サイクルの1/4である。ウィンドウは以下のように与えられる。
Figure 2010181890
第2のLP分析(LP_analysis_2)では、対称なハミングウィンドウが用いられる。
Figure 2010181890
いずれのLP分析においても、ウィンドウされた音声の自己相関s’(n), n=0.239は以下により計算される。
Figure 2010181890
60Hz帯域拡張はラグウィンドウ化(lag windowing)により用いられ、自己相関は次のウィンドウを用いる。
lag(i)=exp[−1/2(2π60i/8000)]、i=1,10
さらに、r(0)に白色雑音補正係数1.000、(すなわち−40dBの底域雑音を加えるのに等しい)を乗じる。
修正自己相関r’(0)=1.0001r(0)およびr’(k)=r(k)wlag(k)、k=1,10は、Levinson-Durbinアルゴリズムを用いて、反射係数k及びLPフィルタ係数a、i=1,10を得るのに用いる。さらに、LPフィルタ係数aは線スペクトル周波数(LSFs)を得るのに用いられる。
補間非量子化LPパラメーターは、LP_analysis_1、およびLP_analysis_2から以下として得られたLSF係数を補間することによって得られる。
q1(n)=0.5q4(n-1) + 0.5q2(n)
q(n)=0.5q2(n-1) + 0.5q4(n)
ここでq1 (n)はサブフレーム1について補間したLSFであり、q2 (n) はカレントフレームのLP_analysis_2から得られたサブフレーム2のLSFであり、q3(n)はサブフレーム3について補間したLSFであり、q (n-1)は前のフレームのLP_analysis_1から得たLSF(余弦領域)であり、q4(n)はカレントフレームのLP_analysis_1から得られたサブフレーム4に対するLSFである。補間は余弦領域で行われた。
VAD(無音圧縮)アルゴリズムはブロック235(図2)において、入力音声フレームを活性音声フレームか不活性音声フレーム(暗騒音あるいは無音)かに分類するのに用いられる。
入力音声 s(n)はs(n)を以下のフィルタに通すことによって重み付けされた音声信号sw(n)を得るのに用いられる。
W(z)=A(z/γ)/A(z/γ
これは、サイズL_SFのサブフレームにおいて、重み付けされた音声は次のように与えられる。
Figure 2010181890
入力音声s(n)とその残差rw(n)を用いるブロック279内における音声/無音声の分類およびモード決定は次のときに誘導される。
Figure 2010181890
分類は4つの手段によって行われる。すなわち1)音声のシャープさ、P1_SHP;
2)正規化された一ディレイ相関P2_R1;3)正規化されたゼロ交差レートP3_ZC;および、4)正規化されたLP残差エネルギーP4_REである。
音声のシャープさは次のように与えられる。
Figure 2010181890
ここで、Maxは長さLの特定間隔におけるabs(r(n))の最大値である。正規化された一ディレイ相関と正規化ゼロ交差レートとは次のように与えられる。
Figure 2010181890
ここで、sgnは入力サンプルがポジティブかネガティブかによってその出力が1あるいは-1のいずれかとなるサイン関数である。最後に、正規化されたLP残差エネルギーは次により与えられる。
Figure 2010181890
ここで、
Figure 2010181890
であり、kはLP_analysis_1から得られた反射係数である。
音声/無音声の決定は次の条件に合致するならば導かれる。
if P2_R1 < 0.6 and P1_SHP > 0.2 set mode =2
if P3_ZC > 0.4 and P1_SHP > 0.18 set mode =2
if P4_RE < 0.4 and P1_SHP > 0.2 set mode =2
if (P2_R1 <-1.2+3.2 P1_SHP) set VUV =-3
if (P4_RE <-0.21+1.4286 P1_SHP) set VUV =-3
if (P3_ZC > 0.8-0.6 P1_SHP) set VUV =-3
if (P4_RE < 0.1)set VUV=-3
ブロック241(図2)におけるピッチラグの概算値を見出すために符号化レートに応じて各フレームについて1回あるいは2回の(各10ms)の開ループピッチ分析がおこなわれる。これは加重化音声信号Sw(n+nm)、n = 0,1,…,79に基づいており、ここで nm は最初の半分のフレームあるいは最後の半分のフレームにおけるこの信号のロケーションを定義する。第1ステップにおいて、その相関:
Figure 2010181890
の四つの最大値は、4つの領域、17…33、 34…67、 68 …135、136 …145のそれぞれにおいて見出される。得られた最大値Cki、i= 1,2,3,4は、それぞれ、次により除されて、正規化される。
Figure 2010181890
この正規化された最大値と対応するディレイは(RiKi)、i=1,2,3,4.で示される。
第2のステップは、4個の候補の中から遅延kIを4つの正規化された相関を最大化することによって選定する。第3ステップでは、kIはより低い領域に適合するためにki (i<I)に恐らく修正されるだろう。これは, kが[KI/m-4, kI/m+4], m=2,3,4,5 の中にあれば、ki (i<I)が選択されるだろうし、もし、前のフレームが無音声であるかによってki > kI 0.95I-iD, i < Iで、Dは1.0、0.85または0.65であれば、先行フレームは有音声でkは先行ピッチラグの近傍(±8で特定される)にあるか、先行する2個のフレームは有音声であり、kは先行する2個のピッチラグの近隣にある。最終選択ピッチラグはTopとして示される。
すべてのフレームにおいて、従来のCELPアプローチ(LTP_mode=1)、あるいは、本願においてPP(ピッチ前処理)として示した修正タイムワープアプローチ(LTP_mode=0)のいずれでLTP(長期予測)を作動するかが、決定される。4.55 および5.8 kbpsエンコードビットレートにおいては、LTP_modeは常に0にセットされる。8.0 および11.0 kbpsについては、LTP_modeは常に1にセットされる。ところが、6.65 kbpsエンコーディングビットレートについては、エンコーダがLTPかPPモードのどちらで作動するかを決定する。PPモードの間は、コーディングフレームあたり1ピッチラグのみが伝送される。
6.65 kbpsについては、決定アルゴリズムは次のようなものである。第1に、ブロック241において、カレントフレームに対するピッチラグpitの予測は次のように決定される。
Figure 2010181890
ここでLTP_mode_mは先行フレームLTP_modeであり、lag_f[1]、lag_f[3]はそれぞれ第2、第4のサブフレームに対する過去の閉ループピッチラグである。そして、lagIは、フレームの第2の半分におけるカレントフレームの開ループピッチラグであり、lag I1は、フレームの第1の半分における先行フレームの開ループピッチラグである。
第2に、カレントおよび先行フレームの線スペクトル周波数(LSF)の間の正規化スペクトル差は次のように計算される:
Figure 2010181890
ここで、Rpはカレントフレーム正規化ピッチ相関であり、pgain_past は過去のフレーム TH = (MIN(lagl*0.1,5) TH = MAX(20,TH) の第4のサブフレームからの量子化ピッチゲインである。
フレームの終わりでの正確なピッチラグの概算は正規化相関式にもとづいている。
Figure 2010181890
ここで、sw(n + nl)、 n = 0, 1, …L-1はルックアヘッド(ルックアヘッドの長さは25サンプルである)を含む重み付けされた音声信号の最後のセグメントを示す。またサイズLは、以下の対応する正規化相関CTopを有する開ループピッチラグTopにしたがって定義される。
Figure 2010181890
第1ステップにおいて、1つの整数ラグkは、[17,145]の境界中k∈[Top-10, Top+10] の領域Rkを最大化するように選択される。つぎに、正確なピッチラグPmとカレントフレームについて対応するインデクスImとが、Rkのアップサンプリングにより、整数ラグ[k-1,k+1] のまわりで探索される。
正確なピッチラグの可能性がある候補値は、PitLagTab8b[i] , i= 0,1,…,127と名づけられた表から得られる。最終ステップでは、正確なピッチラグPm=PitLagTab8b[Im]は、音声信号の以下の変形による累積ディレイτaccをチェックすることにより修正されるだろう。
Figure 2010181890
この正確ピッチラグは次のように再び修正されうる:
Figure 2010181890
得られたインデクスImはデコーダーに送られるだろう。
ピッチラグ輪郭、τc(n)、は、カレントラグPmと先行ラグPm-1の両方を用いて次のように定義される。
Figure 2010181890
ここでLf=160はフレームサイズである。
1個のフレームは、長期前処理のために3つのサブフレームに分割される。最初の2個のサブフレームについては、サブフレームサイズLは53であり、検索用サブフレームサイズLsrは70である。最後のサブフレームLsは54であり、Lsrは、Lsr= min{ 70, Ls+Lkhd − 10 − τacc}であり、ここで、Lkhd= 25 は、ルックアヘッドであり、累積ディレイτaccの最大値は14までに限定される。
{^s(m0 +n), n = 0,1…,Lsr-1}に一時的に記憶された重み付けされた音声の修正プロセスのターゲットは、過去の、修正され重み付けされた音声バッファー^sw(m0+n)、n<0を、ピッチラグ輪郭τc(n +m・Ls)、m = 0,1,2でワープすることにより計算される。
Figure 2010181890
ここで、Tc(n),TIC(n)は次によって計算される。
Tc(n) = trunc{τc (n+m・Ls)}、
TIC(n)= τc (n) - Tc(n)
mはサブフレームの数、Is(I, TIC(n)) は補間係数のセットであり、fIは10である。次に、マッチングさせるターゲット^s(n)、n = 0,1,…Lsr-1が、時間領域において、^sw(m0 +n)、n = 0,1,…Lsr-1.を重み付けして計算される。
^sI (n) = n・^sw (m0 +n)/Ls, n = 0,1,…Ls-1
^sI(n) =^sw(m0 +n), n = Ls,…Lsr-1
最良のローカルディレイを検索するためのローカル整数シフティングレンジ[SR0、SR1]は、次のように計算される。
Figure 2010181890
ここで、Psh=max{Psh1, Psh2} であり、Psh1はターゲット信号からのピーク比(すなわちシャープさ)に対する平均値である。
Figure 2010181890
Psh2は重み付け音声信号からのシャープさである。
Figure 2010181890
ここで、n0 = trunc{m0 + τacc+0.5}である。(ここで、mはサブフレーム数、τaccは先行累積ディレイである)。
最良のローカルディレイτoptを見出すために、カレントサブフレームの最後に、当初の重み付けされた音声信号と修正マッチングターゲットとの間の正規化相関ベクトルが次のように定義される。
Figure 2010181890
整数領域における最良のローカルディレイKoptはk∈[SR0、SR1]の領域でR(k)を最大化させることによって選択される。そしてこれは現実のディレイに対応する。
k=Kopt + n0 - m0 - τacc
もしR(kopt)<0.5ならば、kはゼロである。
rの周辺の{kr-0.75 + 0.1j、j = 0,1,….15}の領域においてより正確なローカルディレイを得るためには、分数の相関ベクトルRf(j)を得るためにR(k)を次により補間する。
Figure 2010181890
ここで {I(i,j)} は補間係数の1セットである。最適な小数ディレイインデクスjoptは、Rf(j)を最大化することによって選択される。最終的には、現在処理中のフレームの最終に於ける最善の局所ディレイτoptは、次式で与えられる。
τopt= k − 0.75+0.1jopt
局所ディレイは次いで次式によって調整される。
Figure 2010181890
バッファーを更新し、固定符号帳261を検索するための第2の目標信号253を作るために、{^S(m0+n),n=0,1,...Ls−1}に記録されるカレントサブフレームの修正重み付け音声は、原時間領域
[ m0 +τacc, m0+τopt+ Lsopt]
から原重み付け音声{Sw(n)}を修正時間領域
[ m0, m0+Ls ]
へワーピングして作られる。
Figure 2010181890
ここでTw(n) とTIw(n) は次式で計算される:
Tw(n)=trunc {τacc + n・τopt /Ls}
TIw(n)=τacc + n・τopt /Ls-Tw(n),
{Is(i,TIW(n))} は補間係数の一つのセットである。
カレントサブフレームに対する重み付け音声の修正を完了したのち、修正目標重み付け音声バッファーがつぎのように更新される。
^Sw(n)<= ^Sw(n +Ls), n = 0,1… nm-1
カレントサブフレームの終わりでの累積ディレイは次式により更新される。
τacc <= τacc + τopt
量子化する前に、知覚できる性質に改善するためにLSFsを平滑化する。一般に、スペクトル包絡中に急速な変化のある音声セグメントの間では平滑化は適用されない。スペクトル包絡中の変化の遅い非音声の間には、望ましくないスペクトル変化を減らすように平滑化が適用される。望ましくないスペクトル変化は典型的にはLPCパラメータの推定やLSF量子化によって起きるはずである。たとえば、スペクトル包絡中で非常に小さな変化を導入する一定のスペクトル包絡を有する定常ノイズ状信号は容易に人の耳で聴き取られ、うるさい変調として知覚される。
LSFsの平滑化は次式にもとづいて移動平均として実施される。
lsfi(n) = β(n) ・lsfi(n-1)+(1-β(n))・lsf_esti(n), i = 1,…,10
ここで、 lsf_esti(n) はフレームnのi番目の予測LSFであり、lsfi(n)はフレームnの量子化のためのi番目のLSFである。パラメータβ(n)は平滑化の量をコントロールし、例えば、β(n)がゼロのときは平滑化は適用されない。
β(n)はVAD情報(ブロック235で作られる)とスペクトル包絡の進化の2個の推定値から計算される。この進化の2個の推定値は次のように定義される。
Figure 2010181890
パラメータβ(n)は以下の論理でコントロールされる。
ステップ1:
Figure 2010181890
ステップ2:
Figure 2010181890
ここで、k1は第1の反射係数である。
ステップ1では、エンコーダ処理回路はそのVAD、およびスペクトル包絡の展開をチェックし、必要なら平滑化のすべてあるいは一部のリセットを実行する。ステップ2では、エンコーダ処理回路はカウンターN mode_frm(n) を更新し、平滑化パラメータβ(n)を計算する。パラメータβ(n)は0.0と0.9の間で変化し、音声、音楽、音調的(tonal-like)信号に対しては0.0をとり、非定常的背景雑音から傾斜上昇していき、定常的背景雑音が発生したときに0.9となる。
LSFsは20msフレームごとに、予測的多段階ベクトル量子化を用いて、一度量子化される。量子化の前に50Hzの最小空間が各隣接LSF間で確保される。重み付けのセットはLSFから計算され、wi= K|P (fi)|0.4 によって与えられる。
iはi番目のLSF値であり、P(fi)はfにおけるLPCのパワースペクトルである(Kは無関係な倍率定数である)。パワースペクトルの逆数は、(ある倍率定数まで)次式から得られる。
Figure 2010181890
そして、−0.4のべき数は次いで、ルックアップテーブルとテーブル入力(エントリー)の間の3次スプライン補間を用いて計算される。
平均値のベクトルはLSFsから減算され、予測誤差ベクトルfe が平均除去LSFベクトルからフルマトリックスAR(2)予測値を用いて計算される。単一予測値は、レート5.8、6.65、8.0および11.0kbpsコーダについて用いられ、4.55kbpsコーダについては、可能予測値として2セットの予測係数が試験される。
予測誤差のベクトルは、各ステージから次のステージへの多段階残存候補を使い、多段階VQを用いて量子化する。4.55kbpsコーダについて生じた予測誤差ベクトルの2つの可能なセットは、第1ステージの生き残り(残存)候補とみなされる。
最初の4つのステージには、それぞれ64の入力があり、そして第5と最後のテーブルには16の入力がある。第3ステージは該4.55kbpsコーダに用いられ、最初の4ステージは5.8、6.65および8.0kbpsコーダに用いられる。また全5ステージは11.0kbpsコーダにおいて用いられる。以下の表は各レートのLSFの量子化に用いられるビット数を要約したものである。
Figure 2010181890
各ステージに対する残存候補の数は下表に要約した。
Figure 2010181890
各ステージでの量子化は次式で与えられる重み付けひずみ尺度を最小にすることで行われる。
Figure 2010181890
すべてのkについてεkminとなるようにεを最小とするインデクスkminを有するコードベクトルが、予想/量子化誤差を示す値として選び出される(この式のfeは、第1ステージに対する初期予測誤差と引き続く各ステージから次のステージへの量子化予測誤差の両方を示す)。
すべての残存候補(および予測子でもある4.55kbpsコーダー)からのベクトルの最終選択は、最終ステージが検索されたのち、全誤差を最小にするようなベクトル(および予測子)のセットの結合を選ぶことによって最後になされる。すべてのステージからの寄与は合計され、量子化された予測誤差ベクトルを形成し、量子化された予測誤差ベクトルは予測ステージと平均LSFs値に加えられ量子化LSFsベクトルを生成する。
4.55kbpsコーダについては、仮に量子化が行われた結果としてのLSFsのオーダーフリップの数が1より大きいとき、LSFsベクトルは0.9(先行フレームのLSFs)+0.1(平均LSFs値)で置き換えられる。すべてのレートについて、量子化されたLSFsは順位づけられ50Hzの最小間隔で配置される。
量子化LSFの補間は余弦領域で、LTP_モードに応じた2つの方法で行われる。
もしLTP_モードが0のときは、カレントフレームの量子化LSFセットと先行フレームの量子化LSFセットの間に一次補間がおこなわれ、次のように第1、第2、第3のサブフレームについてのLSFセットを得るように作用する。
q(n) バー =0.75q4 (n-1) バー + 0.25q4 (n) バー
q(n) バー =0.5q4 (n-1) バー + 0.5q4 (n) バー
q(n) バー =0.25q4 (n-1) バー + 0.75q4 (n) バー
ここでq4(n-1) バー およびq4(n) バーはそれぞれ先行およびカレントフレームの量子化LSFセットのコサインであり、q1(n) バー、q2(n) バーおよび q3(n) バーはそれぞれ、第1、第2、第3のサブフレームに対するコサイン領域における補間LSFセットである。
もしLTP_モードが1のとき、最良の補間パスの検索が補間LSFセットを得るために行われる。検索は、参照LSFセットrl(n)バーとLP分析_2l(n)バーから得たLSFセットの間の重み付け平均絶対差をベースとしている。重み付けwバーはつぎのように計算される。
w(0) = (1-l(0))(1-l(1) + l(0))
w(9) = (1-l(9))(1-l(9) + l(8))
i = 1から9において
w(i) = (1-l(i))(1-Min(l(i + 1)-l (i), l(i)-l(i-l)))
ここでMin(a,b) は、aおよびbの最小値を返す。
これには4つの異なった補間パスがある。各パスについて、参照LSFセットrq(n) バーが余弦領域でつぎのように得られる:
rq(n) バー=α(k)q4バー (n)+(1−α(k))qバー (n−1),K=1から4
各パスごとにαバー={0.4,0.5,0.6,0.7}である。ついで、以下の距離尺度が各パスについてつぎのように計算される。
D=|rl(n) バー−l(n) バー|T Wバー
最小距離Dへ導くパスが選ばれ、対応する参照LSFセットが rq(n) バーが下記の通り得られる。
rq(n) バー =αoptq4(n) バー + (1- αopt) q4(n-1) バー
余弦領域の補間LSFセットは、次によって与えられる。
q(n) バー =0.5q4(n−1) バー+0.5rq(n) バー
q(n) バー =rq(n) バー
q3(n) バー =0.5rq(n) バー+0.5q4(n) バー
重み付け合成フィルター H(z)W(z) = A(z/γ1)/[A(z) バーA(z/γ2)]のインパルス応答h(n)が、各サブフレームについて計算される。このインパルス応答は、適応および固定符号帳257および261の検索に必要である。インパルス応答h(n)は、2個のフィルター1/A(z)バーおよび1/ A(z/γ2)を通してゼロにより拡張されたフィルターA(z/γ1)の係数のベクトルをフィルターして計算される。適応符号帳257の検索のための目標信号は通常、重み付け合成フィルターH(z)/W(z)のゼロ入力応答を重み付け音声信号Sw(n)から差し引いて計算される。この操作はフレームベースで行われる。目標信号を計算するための等価の方法としては、合成フィルター1/A(z)バーと重み付けフィルターW(z)の結合によりLP残差信号r(n)のフィルタリングがある。
サブフレームの励起を決定したのち、これらフィルターの初期状態の更新が、LP残差と励起の間の差をフィルタすることによって行われる。LP残差は次のように与えられる。
Figure 2010181890
残差信号r(n)は目標信号を見出すのに必要であり、また過去の励起バッファーを拡張する適応符号帳検索に用いられる。これは、40サンプルのサブフレームサイズ以下のディレイについて適応符号帳検索処理を簡易化する。
本実施例において、LTP寄与を作り出すには2つの方法がある。1つはピッチ前処理(PP)であり、このときPP−モードが選ばれ,もう一つの方法としては従来のLTPのように計算するのであるが,ここではLTP−モードが選ばれる。PP−モードでは、適応符号帳検索をする必要はない。またLTP励起は、補間ピッチ包絡が各フレームにセットされているので、過去に合成された励起にしたがって、直接的に計算される。AMRコーダーはLTP−モードで作動するとき、そのピッチラグは一つのサブフレーム内では一定であり、1個のサブフレームベースで検索されコード化される。
以前に合成された励起は{ ext(MAX_LAG+n), n<0}に記憶されているとするとき、これはまた適応符号帳と呼ばれている。LTP励起コードベクトルは、一時的に{ ext(MAX_LAG+n), 0<=n<L_SF}に記憶されているが、ピッチラグ包絡τc(n+m・L_SF), m = 0,1,2,3により過去の励起(適応符号帳)を補間して計算される。補間はある種のFIRフィルター(Hammingウィンドウサイン関数)を用いて計算される。
Figure 2010181890
ここで、Tc(n),TIC(n) は次式で計算される。
T(n) =trunc{τ (n+m・ L_SF)}
TIC(n)=τ(n) −TC (n)
mはサブフレーム数、{I,(i, TIC(n))} は補間係数,fIは10、MAX_LAGは145+11、そしてL_SF=40はサブフレームサイズである。補間値{ext(MAX_LAG+n), 0<=n<L_SF-17 +11} は、そのピッチラグが小さいときには再び補間するのに用いられるかもしれないことに注意を払われたい。一度補間が終わると、適応コードベクトルV={va(n),n=0から39}が補間値をコピーして得られる。
a(n)= {ext(MAX_LAG+n), 0<=n<L_SF}
適応符号帳検索は、サブフレームごとに行われる。それは閉ループピッチラグ検索の実施から成り、ついで、選択された小数ピッチラグでの過去の励起を補間して適応コードベクトルを計算する。そのLTPパラメータ(あるいは適応符号帳パラメータ)はピッチラグ(あるいはディレイ)およびピッチフィルターのゲインである。検索ステージで、励起は、閉ループ検索を簡易化するために、LP残差によって拡大される。
11.0kbpsのビットレートについては、ピッチディレイは第1および第3のサブフレームについては9ビットでエンコードされ、その他のサブフレームの相対的ディレイについては6ビットでエンコードされる。小数ピッチディレイは、レンジ[17,93(4/6)]において1/6の分解能で第1および第3のサブフレームに用いられる。そして、整数はレンジ[95,145]おいてのみ用いられる。第2および第4のサブフレームについては、1/6のピッチ分解能が、[T1-5(3/6),T1+4(3/6)]のレンジでレート11.0kbpsに対して用いられる。ここで、Tは以前の(第1または第3の)サブフレームのピッチラグである。
閉ループピッチ検索は、原音声と合成音声の間の平均平方重み付け誤差の最小化により行われる。これは次項を最大とすることによって達成できる。
Figure 2010181890
ここでTgs(n)は目標信号であり、y(n)はディレイkにおける過去のフィルター励起である(h(n)を畳み込んだ過去の励起)。その畳み込みy(n)は、検索領域での最初のディレイtmin について計算され,検索領域のその他のディレイk=tmin+1,…tmax については、再帰的関係を用いて更新される。
(n) = yk-1(n-1) + u(-)h(n)
ここで、u(n), n = -(143+11) から39は励起バッファーである。
検索ステージでは、サンプルu(n), n = 0〜39は使用可能ではなく、そして、40以下のピッチディレイについて必要となることに注意して欲しい。
検索を簡易化するのに、LP残差はu(n)にコピーされ、すべてのディレイに有効な計算においての関係を作り出す。一度最適な整数ピッチディレイが決まれば、上に定義したような小数(フラクション)がその整数周辺で試験される。小数ピッチ検索は正規化された相関を補間する事により行われ、その検索は最大値まで行われる。
一度小数ピッチラグが決められると、適応符号帳ベクトルv(n)は特定のフェーズ(小数)で、過去の励起u(n)を補間して計算される。この補間は2つのFIRフィルター(Hammingウィンドウサイン関数)を用いておこなわれ、一つは小数ピッチラグを見出す計算のために補間され、他は前述のように、過去の励起を補間するのに用いられる。適応符号帳ゲインgは仮に次式で与えられる。
Figure 2010181890
0<gp<1.2に限定され y(n) = v(n) * h(n)はフィルターされた適応符号帳ベクトルである(v(n)へのH(z)W(z)のゼロ状態応答)。適応符号帳ゲインは、ゲイン、ゲイン正規化及び平滑化などの共同最適化によって再修正されてもよい。この項 y(n)は今後Cp(n)と記される。
従来のアプローチでは、ピッチラグ最大化相関は正当値の2倍以上の結果になりやすい。よって、そのような従来的アプローチでは、より短いピッチラグ候補は、一定の重み付け係数を持った他の候補の相関を重み付けされやすい。時に、このアプローチは2倍あるいは3倍のピッチラグを補正しない。なぜなら、重み付け係数が充分攻撃的(aggressive)でないと、強い重み付け係数によってピッチラグが半分になってしまうからである。
本発明の実施例では、これらの重み付け係数は現在の候補が先行ピッチラグ(先行フレームが音声であるとき)のそばにあり、より短いラグの候補がより長いラグ(それは相関を最大化する)を整数で除することによって得られた値の近傍にあるかどうかをチェックすることによって適応化される。
知覚的品質を改善するために、音声分類器(speech classifier)が固定符号帳(ブロック275および279に示した)の検索手順を指示するのに、またゲイン正規化(図4のブロック401に示す)を制御するのに用いられる。音声分類器は低いレートコーダーに対して背景雑音性能を改善し、ノイズレベル推定の迅速な立ち上げに役立つ。この音声分類器は、定常的ノイズ様セグメントを音声、音楽、音調様信号、非定常ノイズなどから判別する。
音声分類は2段階で行われる。最初の分類(speech_mode)は修正入力信号に基づいて得られ、最終分類 (exc_mode)は最初の分類と、ピッチ寄与を取り除いた後の残差信号とから得られる。この音声分類からの2つの出力は、励起モードexc_modeとパラメータβsub(n)であり、サブフレームベースでのゲイン平滑化を制御するのに用いられる。
音声分類は入力信号の特性にしたがって、エンコーダを指示するのに用いられ、デコーダに伝送する必要はない。よって、ビット配分、符号帳、デコーディングは分類にまったく関係なく残る。エンコーダはインプット信号の知覚的に重要な特徴を、その特徴に応じるようにエンコーディングを適応させることによってサブフレームベースで強調する。ここで重要なことは、分類ミスは破滅的な音声品質の劣化とはならない点である。このように、VAD235と反対に、ブロック279(図2)で識別された音声分類器は適切な知覚品質に向けて幾分より積極的であるようにデザインされている。
最初の分類器(speech_classifier)は適応閾値を持ち6段階に作動する。
1.適応閾値
Figure 2010181890
2.計算パラメータ
ピッチ相関
Figure 2010181890
ピッチ相関の操作手段
ma_cp(n) = 0.9・ma_cp(n-1)+0.1・cp
カレントピッチサイクルにおける信号振幅の最大値
max(n) =max{|~s(i)|, i=start,…,L_SF-1}
ここで
start = min(L_SF-lag,0)
現在ピッチサイクルにおける信号振幅の合計
Figure 2010181890
相対的最大値の測定
max_mes = max(n)/ma_max_noise(n-1)
長期合計に対する最大値
Figure 2010181890
過去15サブフレームに対する3個のサブフレームのグループにおける最大値
max_group(n,k)= max{max(n-3(4-k)-j),j = 0,…,2},k=0,…4
先行4グループ最大値の最小値に対するグループ最大値
endmax2minmax = max_group(n,4)/min{max_group(n,k),k=0,...,3}
5グループ最大値の傾斜
Figure 2010181890
3.サブフレームの分類
Figure 2010181890
4.背景雑音レベルの変化、すなわち必要なリセットのチェック
レベルの減少に対するチェック:
Figure 2010181890
レベルの増加に対するチェック:
Figure 2010181890
5.クラス1のセグメント、すなわち定常ノイズの最大値の現在平均の更新
Figure 2010181890
ここで k1は第1の反射係数。
6.クラス2のセグメント、すなわち上記から続く音声、音楽、音調的信号、非定常的ノイズ、などの最大値の現在平均を更新
Figure 2010181890
最終分類器(exc_preselect) は最終クラスexc_modeおよびサブフレームベースの平滑化パラメータβsub(n)を与える。これは3つのステップを備える。
1.パラメータの計算
現在サブフレームにおける理想的励起の最大振幅
maxres2(n) = max{|res2(i)|, i=0,….L_SF-1}
相対的最大値の尺度
max_mesres2 = maxres2(n)/ma_maxres2(n-1)
2.サブフレームの分類と平滑化の計算
Figure 2010181890
3.最大値の現在平均の更新
Figure 2010181890
このプロセスが終了したとき、最終サブフレームベース分類exc_modeと平滑化パラメータβsub(n)は有効となる。
固定符号帳261の検索の質を向上させるために、ゲイン因子Grを持つLTP寄与を一時的に減少させて目標信号Tg(n)が作られる。
Tg(n) = Tgs(n) - Gr ・gp・ Ya(n), n = 0,1,…,39
ここで、Tgs(n)は原目標信号253であり、Ya(n)は適応符号帳からのフィルターにかけられた信号であり、gは選択された適応符号帳ベクトル用のLTPゲインであり、このゲイン因子は正規化LTPゲインRp,およびビットレートによって決定される。
Figure 2010181890
Figure 2010181890
ここで、正規化LTPゲインRpは次のように定義される。
Figure 2010181890
固定符号帳検索に用いられる制御ブロック275とゲイン正規化中のブロック401(第4図)で顧慮されるその他因子はノイズレベル+“)”であり、これは次式で与えられる。
PNSR = (max{(En-100),0.0}/Es)1/2
ここで、Esは背景雑音を含むカレントインプット信号のエネルギーであり、Enは背景雑音の現在(running)平均エネルギーである。Enはそのインプット信号が背景雑音であると検出されたときにのみ以下のように更新される。
if(最初の背景雑音フレームが真)
En=0.75Es
else if(背景雑音フレームが真)
En=0.75En_m+0.25Es
ここで,En_mは背景雑音エネルギーの最終評価である。
各ビットレートモードについて、固定符号帳261(図2)は2つあるいはそれ以上のサブ符号帳からなり、それらは異なった構造で構成されている。例えば、本実施例のような高いレートにおいては、すべてのサブ符号帳はパルスのみを含んでいる。より低いレートでは、サブ符号帳の一つはガウスノイズで満たされている。低いビットレート(例えば、6.65,5.8,4.55kbps)については、音声分類器は、定常的ノイズ様サブフレーム exc_mode=0の場合にはエンコーダにガウスサブ符号帳から選ばせる。exc_mode=1に対しては、すべてのサブ符号帳が適応重み付けを用いて検索される。
パルスサブ符号帳に対しては、サブ符号帳を選び、カレントサブフレームに対するコード語を選択するのに迅速な検索アプローチが使用される。同様な検索ルーチンが、異なったインプットパラメータを有するすべてのビットレートモードに対して用いられる。
特に、長期拡張フィルターFp(z)が選択されたパルス励起を通してフィルターに用いられる。このフィルターは、Fp(z) = 1/(1-βz-T)と定義される。ここで、Tはカレントサブフレームの中心にあるピッチラグの整数部分であり、βは[0.2,1.0]の結合した先行サブフレームのピッチゲインである。符号帳の検索より先に、インパルス応答h(n)にフィルターFp(z)を含める。
ガウスサブ符号帳については、その記憶要求と計算上の複雑性を低減させるために特殊な構造が用いられる。さらに、ピッチ強調はガウスサブ符号帳には適用されない。
このAMRコーダー実施例には、2種類のパルスサブ符号帳がある。すべてのパルスは+1あるいは−1の振幅を持つ。各パルスは、パルスポジションを符号化するために、0,1,2,3あるいは4ビットを持つ。いくつかのパルスの記号は、1ビットが1つの記号を符号化しながらデコーダに伝送される。その他のパルスの記号はその符号化された記号とそれらのパルス位置に関連した方法で決定される。
パルスサブ符号帳の第1の種類では、各パルスは、パルス位置をコードするために3あるいは4ビットを有している。個々のパルスの可能な位置は二つの基本非正常トラックと最初のフェーズ(相)によって決められる。
POS(np,i) = TRACK(mp,i) + PHAS(np,phas_mode)
ここで、i = 0,1,...,7 あるいは15(コード位置に対して3あるいは4ビットに対応する)は可能な位置インデクスであり、np = 0,...,Np-1(Npはパルスの総数である)は他のパルスと区別する。mp=0あるいは1は2つのトラックを定め、phase_mode=0あるいは1は、2つのフェーズモードを特定する。
パルスポジションを符号化する3ビットに対しては、2個の基礎トラックがある。
{TRACK(0,i)}={0,4,8,12,18,24,30,36}と
{TRACK(1,i)}={0,6,12,18,22,26, 30, 34}である。
もし各パルスポジションが4ビットで符号化されるとき、基礎トラックは次の通りである:
{TRACK(0,i)}={0,2,4,6,8,10,12,14,17,20,23,26,29,32,35,38}と
{TRACK(1,i)}={0,3,6,9,12,15,18,21,23,25,27,29,31,33,35,37}である。
各パルスの最初のフェーズは次のように決められる。
PHAS(np,0) = modulus(np/MAXPHAS)
PHAS(np,1) = PHAS(Np-1- np ,0)
ここで、MAXPHASは最大フェーズ値である。
どんなパルスサブ符号帳についても、少なくとも最初のパルスに対する最初の記号SIGN(np), np =0は、そのゲインサインが埋め込まれるので符号化される。Nsignをエンコードされたサインを有するパルスの数と仮定すれば、すなわち、np <Nsign<=Npにおいては、SIGN(np)がエンコードされ、np>= Nsign においてはSIGN(np)はエンコードされない。一般にサインのすべては次のように決定される。
np>=Nsign においては SIGN(np) = -SIGN(np-1)
反復アプローチを用いて、パルスポジションがnp=0からnp=Np-1の順に検索されるためである。もし2個のパルスが同じトラックに位置していたら、トラック上の最初のパルスのサインのみがエンコードされる。一方、第2のパルスのサインは第1のパルスの位置に依存する。もし、第2のパルスの位置が小さかったら、それは、反対のサインとなるが、そうでなければ、第1のパルスのサインと同じサインになるだろう。
パルスサブ符号帳の第2の種類では、イノベーションベクトルは10のサインを有するパルスを含む。各パルスはパルスポジションのコード化のために、0,1,又は2ビットを持つ。40サンプル分の大きさを有する1個のサブフレームは、4サンプル分の長さの10の小さなセグメントに分けられている。10パルスはそれぞれ10のセグメント内に置かれる。各パルスの位置は1個のセグメントに限定されるから、nで番号付けされたパルスに対する可能な位置はそれぞれ、パルスポジションをコードするための0,1,2ビットに対して, {4np}, {4np, 4np +2}あるいは {4np, 4np +1,4np +2,4np +3} である。10パルスすべてに対してサインがエンコードされる。
重み付け入力音声と重み付け合成音声の間の平均自乗誤差を最小とすることによって固定符号帳261が検索される。LTP励起に用いた目標信号が適応符号帳寄与を差し引いて更新される。すなわち、
x2(n) = x(n) - ^gpy(n), n =0,...,39
ここで、y(n)=v(n)*h(n)は適応符号帳ベクトル、^gは修正(減少)LTPゲインである。
もし、cが固定符号帳からのインデクスkにおけるコードベクトルとすると、パルス符号帳は次項を最大化することにより検索される。
Figure 2010181890
ここで、d=Htは目標信号x2(n) とインパルス応答h(n)間の相関である。Hは対角h(0)及びより低い対角h(1),...,h(39)を有するより低いテプリッツ畳み込み三角行列であり、またΦ=HtHはh(n)の相関マトリクスである。ベクトルd(後方向へフィルターされた目標)とマトリクスΦは符号帳検索に先立って計算される。ベクトルdの要素は次式によって計算される。
Figure 2010181890
そして対称マトリクスΦの要素は次式で計算される。
Figure 2010181890
分子中の相関は次式で与えられる。
Figure 2010181890
ここで、miは i番目のパルスの位置であり、
Figure 2010181890
はその振幅である。その複雑性のゆえに、すべての振幅
Figure 2010181890
は+1あるいは−1にセットする。すなわち、
Figure 2010181890
分母におけるエネルギーは次式で与えられる。
Figure 2010181890
検索処理を簡単化するために、パルスサインは、正規化ベクトルd(n)の重み付け総和と残差領域res(n)の正規化目標信号x(n)である信号b(n)を用いて前もってセットされる。
Figure 2010181890
もし、mに位置するi番目(i=n)のパルスがエンコードされたら、その位置に信号b(n)のサインがセットされる,すなわちSIGN(i)=sign[b(m)]である。
本実施例では、固定符号帳261はエンコードビットレートのそれぞれについて2あるいは3のサブ符号帳を有する。勿論もっと多くのサブ符号帳が他の実例では用いられ得る。しかしいくつかの符号帳であっても、次の手法を用いれば固定符号帳261の検索は非常に迅速になる。最初の検索ターンでは、エンコーダプロセス回路は、現在あるすべてのパルスの影響を考慮しつつ最初のパルス(n=0)から最後のパルス(n=N−1)までパルスポジションを順次検索する。
第2の検索ターンでは、エンコーダプロセス回路は各パルス位置を、カレントパルスの可能な位置に対するパルスに起因する基準値Aをチェックすることにより最初のパルスから最後のパルスまで順に補正する。第3のターンでは、第2の検索ターンが最後まで繰り返される。勿論、その先のターンも、さらに複雑になっても構わないならば有効である。
1つのパルスの位置のみが変化し、それはAの計算において、基準分子Cにおける1つの項の、および基準分母Eにおけるわずかな項の変化だけを導くので、上記検索アプローチは、きわめて効果的であることがわかる。一例として、パルス符号帳が、その位置をエンコードするためにパルスあたり3ビットのパルスで構成されているとする。判断基準Aの僅か96の簡易化計算(4パルス×2ポジション/パルス×3ターン=96)が実行される必要がある。
複雑性をさらに省くために、通常、固定符号帳261中のサブ符号帳の一つが最初の検索実施を終えたあと選ばれる。さらなる検索ターンは選ばれたサブ符号帳についてのみ実施される。別の実施形態では、第2の検索ターン終了後にのみ、サブ符号帳の一つが選ばれてもよく、あるいはその後に資源処理がなされるべきである。
ガウス符号帳は、記憶要求および計算の複雑度を減らすように構成されている。2個の基礎ベクトルを持ったくし型構造が用いられる。くし型構造では、基礎ベクトルは直交で、低複雑性検索を行う。AMRコーダーでは、第1の基礎ベクトルは偶数サンプル位置(0,2,…,38)をとり、第2の基礎ベクトルは奇数サンプル位置(1,3,…,39)をとる。
同じ符号帳が両方の基礎ベクトルに適用され、符号帳ベクトルの長さは20サンプル(サブフレーム長さの半分)である。
すべてのレート(6.65、5.8および4.55kbps)は同じガウス符号帳を使用する。ガウス符号帳CBGaussは僅か10エントリを持つのみであり、このように記憶要求は10・20=200、16ビット語である。10入力から32コードベクトルのような多数のものが生成される。1基礎ベクトル22に対するインデクスidxδには、コードベクトル対応部分Cidxδが次のように含まれる。
Figure 2010181890
ここで、テーブル入力l、シフトτはインデクスidxδから次式によって計算される。
τ=trunc{idxδ/10}
l= idxδ−10・τ
そして、δは第1基礎ベクトルに対しては0、第2基礎ベクトルに対しては1である。さらに、サインは各基礎ベクトルに対して適用される。
基本的には、各ガウステーブルへの入力により20もの多くののユニークなベクトルを生じ、環状シフトのためにすべてが同じエネルギーを持つ。10入力はすべて正規化され同一エネルギー0.5を持つ。すなわち
Figure 2010181890
これは、両方の基礎ベクトルが選択されたとき、その結合コードベクトルcidxδ,idxlは単一のエネルギーを持ち、従ってガウスサブ符号帳からの候補ベクトルについてはピッチ増強が行われないのでガウス符号帳からの最終励起ベクトルは単一エネルギーを持つだろうということを意味する。
ガウス符号帳の検索は、低複雑性検索を実行するために符号帳の構造を利用する。最初に、理想的励起resに基づき独立的に2個の基礎ベクトルの候補が検索される。各基礎ベクトルに対しては、それぞれのサインと共に、平均自乗誤差によって2個の最良候補が見出される。これは、最良候補である、インデクスidxδ、その符号sidxを見出すための式によって実現される。
Figure 2010181890
ここで、NGaussは基礎ベクトルに対する候補入力の数である。その他のパラメータは、上記のように表わされる。ガウス符号帳における入力の総数は2・2・NGauss である。細密な検索は、予備選択からの2つの基礎ベクトルに対する候補の可能な結合を考慮して重み付け音声と重み付け合成音声の間の誤差を最小にする。もし、ckok1が2つの基礎ベクトルに対するそれぞれのサインインデクスkおよびkで表わされる候補ベクトルからのガウスコードベクトルであるなら、ついで最終ガウスコードベクトルが次項を候補ベクトルに対して最大にすることにより選ばれる。
Figure 2010181890
d=Ht2は目標信号x(n)とインパルス応答h(n)(ピッチ増強なしで)の間の相関であり、またベクトルHは対角h(0)と低い側の対角h(1),...,h(39)を持つより低いテプリッツ畳み込み三角行列であり、Φ=HtHはh(n)の相関関係マトリクスである。
より具体的には、本実施形態では、2個のサブ符号帳が11kbpsのエンコードモードで31ビットを有する固定符号帳261に含まれ(あるいは利用され)る。第1サブ符号帳には、イノベーションベクトルは8パルスを含む。各パルスはパルスポジションを記録するために3ビットを有する。6パルスのサインは6ビットのデコーダに伝送される。第2サブ符号帳は10パルスからなるイノベーションベクトルを含む。各パルスの2ビットは10のセグメントのうちの1個に限定されているパルスポジションを符号化するのに割り当てられる。10ビットは10パルスの10のサインに使われる。固定符号帳261に用いられるサブ符号帳に対するビットの割り当ては下記のように要約できる。
サブ符号帳1: 8パルス×3ビット/パルス+6サイン=30ビット
サブ符号帳2: 10パルス×2ビット/パルス+10サイン=30ビット
2個のサブ符号帳のうちの1つはブロック275(図2)で、第1サブ符号帳からの基準値F1と、第2サブ符号帳からの基準値F2を比較した際に適用された適応重み付けを用いる第2のサブ符号帳を好適化することにより選ばれる。
If(W・F1>F2)、第一のサブ符号帳選択
else、第二のサブ符号帳選択
ここで重み付け0<Wc<=1は次のように定義される。
Figure 2010181890
NSRは音声信号に対する背景雑音比(すなわち、ブロック279における「ノイズレベル」)、Rは正規化LTPゲインであり、Psharpは理想的励起res(n)の鮮明度パラメータ(すなわち、ブロック279における「鮮明度」)である。
8kbpsモードでは、2個のサブ符号帳が20ビットを有する固定符号帳261に含まれる。第1サブ符号帳ではイノベーションベクトルは4パルスを含む。各パルスはパルスポジションをエンコードする4ビットを持つ。3パルスのサインは3ビットのデコーダに伝送される。第2サブ符号帳は10パルスを持つイノベーションベクトルを含む。各9パルスの1ビットは10セグメントの1個に限定されるパルスポジションを符号化するのに割り当てられる。10ビットは10パルスの10のサインのために費やされる。サブ符号帳のビット割り当ては以下の通りである。
サブ符号帳1: 4パルス×4ビット/パルス+3サイン=19ビット
サブ符号帳2: 9パルス×1ビット/パルス+1パルス×0ビット+10 サイン=19ビット
2個のサブ符号帳のうち1つは、11kbpsモードでのように第1サブ符号帳からの基準値F1と第2サブ符号帳からの基準値F2を比較した際に適用された適応重み付けを用いる第2サブ符号帳を好適化することにより選ばれる。重み付け、0<Wc<=1は次のように定義される。
Wc=1.0−0.6PNSR(1.0−0.5Rp)・min{Psharp+0.5,1.0}
6.65kbpsモードは、長期前処理(PP)あるいは従来のLTPを用いて作動する。18ビットのパルスサブ符号帳は、PPモードのときに使用される。13ビットのすべては、操作がLTP−モードで行われるとき、3つのサブ符号帳に割り当てられる。サブ符号帳への割り当ては次のように要約できる。
PP−モード:
サブ符号帳: 5パルス×3ビット/パルス+3サイン=18ビット
LTP-モード:
サブ符号帳1: 3パルス×3ビット/パルス+3サイン=12ビット,phase_mode=1
サブ符号帳2: 3パルス×3ビット/パルス+2サイン=11ビット,phase_mode=0
サブ符号帳3: 11ビットのガウスサブ符号帳
この3つのサブ符号帳の一つが、LTP-モードで検索する際にガウスサブ符号帳を好適化することにより選ばれる。適応重み付けはモードで2つのサブ符号帳からの基準値をガウスサブ符号帳からの基準値とを比較して適用される。重み付け0<Wc<=1はつぎのように、定義される。
Wc=1.0−0.9PNSR(1.0−0.5Rp)・min{Psharp+0.5,1.0}
if(ノイズ状無声(noise-like unvoiced)) W<= Wc(0.2R(1.0−Rsharp)+0.8)
5.8kbpsエンコードモードは、長期前処理(PP)でのみ作動する。全14ビットは3つのサブ符号帳に割り当てられる。このサブ符号帳ビット割り当ては次のように要約される。
サブ符号帳1: 4パルス×3ビット/パルス+1サイン=13ビット,phase_mode=1
サブ符号帳2: 3パルス×3ビット/パルス+3サイン=12ビット,phase_mode=0
サブ符号帳3: 12ビットのガウスサブ符号帳
この3つのサブ符号帳の1つが2つのパルスサブ符号帳からの基準値とガウスサブ符号帳からの基準値を比較するとき適用された適応重み付けを用いるガウスサブ符号帳を好適化することにより選ばれる。重み付け、0<W<=1は次のように定義される。
W=1.0−PNSR(1.0−0.5Rp)・min{Psharp+0.6,1.0}
if(ノイズ状無声) W<=W(0.3R(1.0−Psharp)+0.7)
この4.55kbpsビットレートモードは長期前処理(PP)でのみ作動する
。全10ビットは3つのサブ符号帳に割り当てられる。このサブ符号帳へのビット割り当ては次のように要約される。
サブ符号帳1: 2パルス×4ビット/パルス+1サイン=9ビット,phase_mode=1
サブ符号帳2: 2パルス×3ビット/パルス+2サイン=8ビット,phase_mode=0
サブ符号帳3: 8ビットのガウスサブ符号帳
この3つのサブ符号帳の1つが2つのパルスサブ符号帳からの基準値とガウスサブ符号帳からの基準値を比較するとき適用された適応重み付けを用いるガウスサブ符号帳を好適化することにより選ばれる。重み付け0<W<=1は、次のように定義される。
W=1.0−1.2PNSR(1.0−0.5Rp)・min{Psharp+0.6,1.0}
if(ノイズ状無声) W <= W(0.6Rp(1.0−Rsharp)+0.4)
4.55、5.8、6.65および8.0kbpsビットレートエンコードモードについては、ゲインの再最適化手法は適応および、固定符号帳ゲインそれぞれ、gpおよびgを第3図で示したように結合し、最適化して行われる。最適化ゲインは次の関係から与えられる:
gp = (R1R2-R3R4)/(R5R2-R3R3)
gc = (R4-gpR3)/R2
ここで、R=< Cpバー,Tgsバー>, R2 =<Ccバー,Ccバー >, R3 =<Cpバー,Ccバー>, R4 =<Ccバー ,Tgsバー>, R5 =<Cpバー,Cpバー >である。Ccバー , Cpバー , Tgsバーは、フィルターされた固定符号帳励起、フィルターされた適応符号帳励起,適応符号帳検索用目標信号である。
11kbpsビットレートエンコーディングについては、適応符号帳ゲインgが閉ループピッチ検索において計算したときと同じように残る。固定符号帳ゲインgは次のように得られる。
gc = R6/R2
ここで、R6 =< Cpバー,Tバー>およびTgバー= Tgsバー−gpCpバー
原CELPアルゴリズムは合成による分析(波形マッチング)の概念を基礎としている。低いビットレートあるいはノイズの多い音声を符号化するとき、波形マッチングはそのゲインが上下して困難になり、しばしば不自然な音となる。これらの問題を補うためには、閉ループ合成による分析で得られたゲインが修正あるいは正規化されることが必要である。
ゲインの正規化には、2つの基本的な手法がある。一つは開ループ手法と呼ばれるもので、合成された励起のエネルギーを量子化されていない残差信号のエネルギーに正規化する。もう一つは閉ループ手法で、これにより知覚的重み付けを考慮した正規化がなされる。ゲイン正規化の因子は、前記閉ループ手法の一つと前記開ループ手法の一つとの線形的な組合せである。その組合せに使用される重み付け係数は、前記LPCゲインにしたがって制御される。
次の条件の一つが満たされれば、ゲインの正規化を行う決定がなされる。
(a)ビットレートが8.0又は6.65kbpsで、雑音様の無声化された音
声が真。
(b)雑音レベルPNSRが0.5より大。
(c)ビットレートが6.65kbpsで、雑音レベルPNSRが0.2より大。
(d)ビットレートが5.8又は4.45kbps。
残差エネルギーEresと目標信号エネルギーETgsとは、それぞれ次のように定義される。
Figure 2010181890
そして、平滑化された開ループエネルギーと平滑化された閉ループエネルギーとは、次のように評価される。
If(第1サブフレームが真)
Ol_Eg = Eres
else
Ol_Eg <= βsub・Ol_Eg + (1-βsub)Eres
If(第1サブフレームが真)
Cl_Eg = ETgs
else
Cl_Eg <= βsub・Cl_Eg + (1-βsub)ETgs
βsubは、分類によって決定される平滑化係数である。基準エネルギーが得られたら、開ループゲインの平滑化因子を計算する。
Figure 2010181890
Colは、ビットレートが11.0kbpsの場合に0.8、他のレートについては0.7である。また、ν(n)は励起であって、
ν(n) = νa(n)gp + νc(n)gc, n=0,1,...,L_SF-1
及びgは、量子化されていないゲインである。同様に、閉ループゲインの正規化因子は、
Figure 2010181890
Cclは、ビットレートが11.0kbpsの場合に0.9、他のレートについてCclは0.8である。y(n)はフィルタされた信号(y(n) = ν(n)*h(n))で、
y(n) = ya(n)gp + yc(n)gc, n=0,1,...,L_SF-1
である。
最後のゲイン正規化因子gfは、Cl_g及びOl_gの組合せであり、LPCゲインパラメータCLPCに関して制御される。
If(音声が真又はレートが11kbps)
f = CLPCOl_g + (1-CLPC) Cl_g
f = MAX(1.0,gf)
f = MIN(gf, 1+CLPC)
If(背景雑音が真でレートが11kbpsより小)
f = 1.2 MIN{Cl_g, Ol_g}
ここで、CLPCは次のように定義される。
LPC = MIN{sqrt(Eres/ETgs), 0.8}/0.8
いったんゲイン正規化因子が決定されると、量子化されていないゲインは修正される。
p <= gp・gf
4.55、5.8、6.65及び8.0kbpsビットレートエンコーディングについては、前記適応符号帳ゲインと固定符号帳ゲインとは、4.55kbpsの場合6ビット、他のレートの場合7ビットを用いて量子化されたベクトルである。ゲイン符号帳検索は、元の音声信号と再構築された音声信号との間の重み付き誤差Errの自乗平均を最小とすることによってなされる。
Err = ‖Tgsバー - gppバー - gccバー‖2
11.0kbpsのレートについては、スカラー量子化が行われ、適応符号帳ゲインgpは4ビットを用いて、固定符号帳ゲインgcは5ビットを用いてそれぞれ量子化される。
固定符号帳ゲインgcは、以下のようにしてスケールされた固定符号帳励起のエネルギーをMA予測することによって得られる。サブフレームnにおけるスケールされた固定符号帳励起の平均除去エネルギーE(n)(dB)は、次式によって与えられる。
Figure 2010181890
c(i)はスケールされていない固定符号帳励起、Eバー = 30dBは、スケールされた固定符号帳励起の平均エネルギーである。
予測されたエネルギーは次式によって与えられる。
Figure 2010181890
[b1234] = [0.68 0.58 0.34 0.19]はMA予測係数、^R(n)はサブフレームnにおける量子化された予測誤差である。
予測されたエネルギーは、予測固定符号帳ゲインgcドットを(E(n)を~E(n)により、gcをgcドットにより置換して)計算するのに用いられる。これは、次のようにして行われる。まず、スケールされていない固定符号帳励起の平均エネルギーを計算する。
Figure 2010181890
そして、予測されたゲインgcドットを得る。
cドット = 10(0.05(~E(n)+Eバー-Ei))
ゲインgcと予測値gcドットとの間の修正因子は、次式によって与えられる。
γ = gc/gcドット
これはまた、予測誤差とも関連する。
R(n) = E(n) - ~E(n) = 20logγ
エンコードビットレート4.55、5.8、6.65、及び8.0kbpsについての符号帳検索は、2つのステップからなる。第1のステップでは、量子化された予測誤差を表す単式表(single entry table)のバイナリ検索が行われる。第2のステップでは、自乗平均誤差の意味で量子化されていない予測誤差に最も近い最適エントリのインデクスIndex_1が使用され、適応符号帳ゲインと予測誤差とを表す二次元VQテーブルの検索を制限する。VQテーブルの特定の配列及び順序を活用して、Index_1によって指示されるエントリの近辺で利用する候補がほとんどない、高速検索が実行される。実際、テストしたところ、VQテーブルのエントリの約半分がIndex_2を持つ最適エントリへ通じている。Index_2のみが送信される。
11.0kbpsビットレートエンコーディングモードでは、両方のスカラーゲイン符号帳が完全検索されて、gp 及びgcを量子化する。gpについては、誤差Err = abs(gp - gpバー)を最小化することによって検索が行われる。一方、gcについては、誤差Err = ‖Tgsバー - gpバーCpバー - gccバー‖2
を最小化することによって検索が行われる。
次のサブフレームの目標信号を計算するために、合成及び重み付けフィルタの状態を更新する必要がある。2つのゲインを量子化した後に、現在のサブフレームの励起信号u(n)を計算する。
u(n) = gpバーν(n) + gcバーc(n), n = 0, 39
pバー、gcバーは、それぞれ量子化された適応及び固定符号帳ゲインであり、ν(n)は適応符号帳励起(補間された過去の励起)、c(n)は固定符号帳励起である。40のサンプルサブフレームについて、フィルタ1/A(z)バー及びW(z)を通じて信号r(n) - u(n)をフィルタリングすることにより、フィルタの状態を更新することができる。これには、通常、3回のフィルタリングが必要であろう。
1回のフィルタリングのみが必要とされる簡便な手法は、次のようである。エンコーダにおける局所的合成音声^s(n)は、1/A(z)バーを通して励起信号をフィルタリングすることにより計算される。入力r(n) - u(n)のため、フィルタの出力はe(n) = s(n) - ^s(n)と等価であり、合成フィルタ1/A(z)バーの状態は、e(n), n=0,39によって与えられる。このフィルタを通して誤差信号e(n)をフィルタリングして知覚的に重み付けされた誤差ew(n)を見いだすことにより、フィルタW(z)の状態を更新することができる。しかし、信号ew(n)は、次式によって等価なものとして見いだされる。
w(n) =Tgs(n) - gpバーCp(n) - gcバーCc(n)
重み付けフィルタの状態は、ew(n)をn=30から39までについて計算することにより更新される。
デコーダの機能は、送信されたパラメータ(dLPパラメータ、適応符号帳ベクトルとそのゲイン、固定符号帳ベクトルとそのゲイン)のデコードと、合成を実行して再構成された音声を得ることからなる。次いで再構成された音声は、ポストフィルタリング及びアップスケールされる。
デコード処理は、以下の順序で実行される。まず、LPフィルタパラメータがエンコードされる。受信されたLSF量子化インデクスを使用して、量子化されたLSFベクトルが再構成される。補間が行われ、4つの補間されたLSFベクトル(4つのサブフレームに対応する)が得られる。各サブフレームについて、補間されたLSFベクトルはLPフィルタ係数ドメインakに変換され、サブフレーム内の再構成された音声を合成するのに使用される。
4.55、5.8、及び6.65(PP_モード)kbpsビットレートエンコーディングモードについて、受信されたピッチインデクスは、サブフレーム全体にわたってピッチラグを補間するのに使用される。各サブフレームについて、次の3つのステップが反復される。
1)ゲインのデコード
4.55、5.8、6.65、及び8.0kbpsのビットレートについて、受信されたインデクスを用いて、二次元VQテーブルから量子化された適応符号帳ゲインgpバーを見いだす。同じインデクスを用いて、同じ量子化テーブルから固定符号帳ゲイン修正因子γバーを取得する。量子化された固定符号帳ゲインgcバーは、以下のステップにしたがって得られる。
・予測されたエネルギーを計算する。
Figure 2010181890
・スケールされていない固定符号帳励起のエネルギーを計算する。
Figure 2010181890
・gcドット = 10(0.05(~E(n)+Eバー-Ei))として、予測されたゲインgcドットを得る。
量子化された固定符号帳ゲインは、gcバー=γバーgcドットで与えられる。11kbpsビットレートについては、受信された適応符号帳ゲインのインデクスを用いて、量子化テーブルから容易に量子化された適応ゲインgpバーが見いだされる。受信された固定符号帳ゲインインデクスは、固定符号帳ゲイン修正因子γドットを与える。量子化された固定符号帳ゲインgcバーの計算は、他のレートの場合と同じステップに従う。
2)適応符号帳ベクトルのデコード
8.0、11.0、及び6.65(LTP_モード=1の間)kbpsビットレートエンコーディングモードについては、受信されたピッチインデクス(適応符号帳インデクス)を用いてピッチラグの整数部と小数部とが見いだされる。適応符号帳ν(n)は、FIRフィルタを用いて過去の励起u(n)を(ピッチディレイにおいて)補間することによって見いだされる。
3)固定符号帳ベクトルのデコード
受信された符号帳インデクスを使用して、符号帳のタイプ(パルス又は)と、励起パルスの振幅及び位置又はガウス励起のベース及び符号雑音れかを抽出する。いずれの場合であっても、再構成された固定符号帳励起は、c(n)と与えられる。ピッチラグの整数部がサブフレームサイズ40よりも小で、選択された励起がパルスタイプであれば、ピッチシャープニングが適用される。これは、c(n)をc(n)=c(n)+βc(n−T)と変更するように読み替えるもので、βは[0.2, 1.0]によって拘束される以前のサブフレームからのデコードされたピッチゲインgpバーである。
合成フィルタの入力における励起は、u(n) = gpバーν(n) + gcバーc(n), n = 0, 39で与えられる。音声合成の前に、励起要素の後処理が行われる。これは、励起全体が、適応符号帳ベクトルの寄与を強調することで修正されることを意味する。
Figure 2010181890
適応ゲイン制御(AGC)は、強調されていない励起u(n)と強調されたu(n)バーとの間のゲインの相異を補償するために用いられる。強調された励起に対するゲインスケーリング因子ηは、次式により計算される。
Figure 2010181890
ゲインがスケーリングされた強調された励起u(n)バーは、
u(n)’バー=ηu(n)バーによって与えられる。再構成された音声は、
Figure 2010181890
によって与えられ、aiバーは補間されたLPフィルタの係数である。合成された音声s(n)バーは、次いで、適応ポストフィルタを通過する。
後処理は、2つの機能からなる。適応ポストフィルタリングと信号のアップスケーリングである。適応ポストフィルタは、3つのフィルタ、すなわちフォルマントポストフィルタと2つのチルト(tilt)補償フィルタとのカスケード接続である。フォルマントポストフィルタは、
f(z)=A(z/γ)バー/A(z/γ)バー
と与えられる。A(z)バーは受信された量子化及び補間されたLP逆フィルタであり、γ及びγは、フォルマントポストフィルタリングの量を制御する。
第1のチルト補償フィルタHtl(z)は、フォルマントポストフィルタHf(z)内部のチルトを補償するもので、次式で与えられる。
tl(z)=(1−μz−1
μ=γtl1はフォルマントポストフィルタk1=rh(1)/rh(0)のチルト因子で、k1は切頭インパルス応答hf(n)上で計算された第1の反射係数で、
Figure 2010181890
ポストフィルタリング処理は、以下のように行われる。まず、合成された音声s(n)バーがA(z/γ)バーを通じて逆フィルタされ、残差信号r(n)バーを生成する。信号r(n)バーは、合成フィルタ1/(A(z/γ)バー)によってフィルタされ、第1のチルト補償フィルタhtl(z)に渡されて、ポストフィルタリングされた音声信号sf(n)バーとなる。
適応ゲイン制御(AGC)は、合成音声信号s(n)バーとポストフィルタリングされた信号sf(n)バーとの間のゲインの差異を補償するのに用いられる。現在のサブフレームに対するゲインスケーリング因子γは、次のように計算される。
Figure 2010181890
ゲインがスケーリングされ、ポストフィルタリングされた信号s’(n)バーは、s’(n)バー=β(n)sf(n)バーによって与えられる。β(n)は、サンプルごとに更新され、次式で与えられる。
β(n)=αβ(n−1)+(1−α)γ
αはAGC因子であり、その値は0.9である。最後に、アップスケーリングは、ポストフィルタリングされた音声に因子2を乗じて、入力信号に適用されていた2倍のダウンスケーリング(the down scaling by 2)を復元する(undo)ことからなる。
図6及び図7は、4kbps音声コーデックについての代替実施例を示す図であり、また本発明の種々の態様を例示する。特に、図6は、本発明にしたがって製作された音声エンコーダ601のブロック図である。この音声エンコーダ601は、合成による分析の原理に基づいている。4kbpsで有料サービスとしての品質を達成するために、音声エンコーダ601は、通常のCELP符号化器の厳密な波形一致判断基準からは逸脱しているが、入力信号の重要な知覚的特徴を捉えようとしているものである。
音声エンコーダ601は、フレームサイズ20msで動作し、3つのサブフレーム(6.625msを2つと、6.75msを1つ)を備える。15msのルックアヘッドが用いられる。55msまでのコーデックの一方向符号化遅れが加算される。
ブロック615では、スペクトル包絡が各フレームについて10次のLPC分析によって表される。予測係数は、量子化のため、線スペクトル周波数(LSFs)に変換される。入力信号は、品質を損なうことなく符号化モデルにより適合するように修正される。この処理は、ブロック621によって示されているように、「信号修正(signal modification)」を意味している。再構成された信号の品質を改善するために、知覚的に重要な特徴が評価され、エンコードの過程で強調される。
LPC合成フィルタ625の励起信号は、2つの従来の要素、1)ピッチ寄与と2)イノベーション寄与とから構成されている。ピッチ寄与は、適応符号帳627を利用することによって与えられる。イノベーション符号帳629は、広帯域の入力信号に対してロバストであるために、いくつかのサブ符号帳を有している。これら2つの寄与に対して、それぞれ励起信号を与えるゲインが適用される。すなわち、各符号帳ベクトルが乗じられて合計される。
LSF及びピッチラグは、フレームをベースとして符号化され、残差パラメータ(イノベーション符号帳インデクス、ピッチゲイン、及びイノベーション符号帳ゲイン)は各サブフレームについて符号化される。LSFベクトルは、予測ベクトル量子化を用いて符号化される。ピッチラグは、ピッチ期間を構成する整数部と小数部とを有する。量子化されたピッチ期間は、不均一な分解能を持っており、遅れが小さいほど量子化された値の密度が高くなる。パラメータについてのビット割付を次表に示す。
Figure 2010181890
1つのフレームについてのすべてのパラメータの量子化が完全であるとき、インデクスは多重化されて、シリアルビットストリームに対して80ビットを形成する。
図7は、図6のエンコーダと対応する機能を備えたデコーダ701のブロック図である。デコーダ701は、デマルチプレクサ711から1フレームについて80ビットを受信する。ビットを受信すると、デコーダ701は、不良フレームの指示につき、同期ワードをチェックする。そして、80ビット全体を破棄してフレーム削除隠蔽(frame erasure concealment)を適用すべきかどうか決定する。そのフレームがフレーム削除を宣言されていないならば、前記80ビットはコーデックのパラメータインデクスにマップされ、パラメータは図6のエンコーダの逆量子化方式を利用してそのインデクスからデコードされる。
LSF、ピッチラグ、ピッチゲイン、イノベーションベクトル、及びイノベーションベクトルのゲインがデコードされると、ブロック715によって励起信号が再構成される。出力信号は、この再構成された励起信号をLPC合成フィルタ721を通過させることによって合成される。再構成された信号の知覚的な品質を向上させるため、ブロック731において、短期と長期との両方の後処理が適用される。
4kbpsコーデックのビット割付に関し(先の表に示されるように)、LSF及びピッチラグが、それぞれ20msあたり21ビット及び8ビットで量子化される。3つのサブフレームは異なるサイズであるが、残差ビットはそれらの中に均等に割付けられる。したがって、イノベーションベクトルは、サブフレームあたり13ビットで量子化される。これを加算すると20msにつきトータル80ビットとなり、4kbpsに相当する。
計画されている4kbpsコーデックについて予想される複雑さの数(complexity number)は、次表に示されている。すべての数値は、このコーデックが全二重モードの市販されている16ビット固定小数点(fixed point)DSP上に実装する想定に基づいている。すべての記憶容量に関する数値は、16ビットワードを仮定しており、複雑さは、前記コーデックの浮動小数点Cソースコードに基づいて見積もられている。
Figure 2010181890
デコーダ701は、一般にソフトウェアの制御にしたがって動作するデコード処理回路を備える。同様に、エンコーダ601(図6)もまた、ソフトウェアの制御にしたがって動作するエンコーダ処理回路を備える。このような処理回路は、少なくともその一部を、シングルDSPのような単一の処理ユニットの中に共存させることができる。
図8は、本発明を示す機能的なブロック図であり、一の実施例において、音声信号の識別された知覚的特性に応じて、適宜の符号化方式を選択する。特に、エンコーダ処理回路は、符号化選択処理801を利用して、与えられた音声信号に対して適切な符号化方式を選択する。ブロック810において、音声信号が分析され、少なくとも1つの知覚的な特性が識別される。この特性には、ピッチ、強さ、周期性、又は音声信号処理の分野における当業者にとっては周知の他の特性が含まれることがある。
ブロック820では、ブロック810で識別された特性が利用され、音声信号に対して適切な符号化方式を選択する。ブロック830では、ブロック820にて選択された符号化方式パラメータがデコーダへ伝送される。その符号化パラメータは、符号化パラメータがチャネルデコーダ131(図1a)へ搬送される通信チャネル(図1a)を介して伝送してもよい。あるいは、符号化パラメータは、いかなる通信媒体を介して伝送してもよい。
図9は、本発明の他の実施例を示す機能ブロック図である。特に、図9は、符号化選択システムを示しており、ブロック910において、アクティブな内容を持つかイナクティブな内容を持つかにより音声信号を分類する。ブロック910で実行される分類によって、第1又は第2の符号化方式が、ブロック930、940にてそれぞれ採用される。本発明には2以上の符号化方式を含めてもよく、それは本発明の範囲及び精神からなんら逸脱するものではない。種々の符号化方式からの選択は、決定ブロック920を用いて行うことができ、信号が持つ音声の活性(voice activity)が、特定の符号化方式を実行するについての主要な判断基準とされる。
図10は、本発明の他の実施例を示す機能ブロック図である。特に、図10は、他の実施例である符号化選択システム1000を示している。ブロック1010では、入力音声信号s(n)が重み付けフィルタW(z)を用いてフィルタリングされる。この重み付けフィルタには、知覚的重み付けフィルタ219(図2)又は重み付けフィルタ303(図3)と類似のフィルタを含めることができる。ブロック1020では、音声信号の音声パラメータが識別される。この音声パラメータには、ピッチ、強さ、周期性、又は音声信号処理の分野における当業者にとっては周知の他の特性等の音声特性が含まれることがある。
この特定の実施例にあっては、ブロック1030で、ブロック1020で識別された音声パラメータが処理され、音声信号がアクティブな音声内容を有しているか否か判定される。決定ブロック920は、ブロック1040に示すように、音声信号がボイスアクティブ(voice active)であると判明すれば、符号化選択システム1000に符号励起線形予測を採用するように指令する。あるいは、音声信号がボイスイナクティブ(voice inactive)であると判明すれば、音声信号のエネルギーレベルとスペクトル情報とがブロック1050で識別される。しかし、励起については、エンコーディングに対してランダムな励起シーケンスが用いられる。ブロック1060では、ランダムな符号ベクトルが識別され、音声信号のエンコーディングに使用される。
図11は、音声コーデックのシステム図であって、雑音、パルス様音声、及び雑音様音声の符号化及び復号化に関する本発明の種々の態様を示している。雑音は、雑音様の信号を表すものと解釈してもよく、背景雑音や実際の音声信号が含まれることがある。一定の実施例にあっては、音声信号はそれ自体雑音様の音声であることがあり、また単に雑音様の信号の特性を含んでいる場合もある。いわば、音声信号の一定の特性により、それが実質的に雑音様の音声であることになる場合がある。他の場合には、音声信号はかなりの量のパルス様の信号を含んでいる。一定のパルス様の音声は、背景雑音、例えばパルス様の特性を備えた街頭の背景雑音と類似した特性を含んでいる。
特に、低ビットレートであることを要する実施例における音声の符号化及び復号化では、その音声信号自体の特性に基づいて、入力音声信号に異なった処理をする必要があることになる。例えば、背景雑音は、音声を符号化/復号化するのに用いられる最適な手法とは異なる特別の手法を用いて、より効果的に符号化及び復号化することができる。同様に、雑音様の音声は、再生品質をより高めるために、パルス様の音声とは異なった処理をしてもよい。また、音声信号の雑音様信号成分も、他のタイプの音声とは異なった別の方法で処理することができ、それにより提供される音声の符号化及び復号化は、与えられた音声信号自体の特定の特性に対して決定論的である。
この種の、そして他のタイプの音声を分類し補償するのに用いることが可能な手法は多様である。一定の実施例では、音声信号の分類に雑音様信号又はパルス様信号の1つ又は他のものである音声信号の「ハードな(hard)」分類が含まれる。他の実施例では「ソフトな(soft)」分類が適用され、音声信号の中に存在するパルス様信号及び/又は雑音様信号の量を識別することが含まれる。
同様に、雑音補償は、「ハードな」方法又は「ソフトな」方法で適用することができる。実際、必須というわけではないが、「ハード」、「ソフト」いずれの手法も同一のコーデック内で異なる符号化機能に対して使用することができる。例えば、同一の符号体系内では、ゲイン平滑化、LSF平滑化、及びエネルギー正規化に「ソフトな」手法を利用することができ、ソースエンコーディングのタイプを選択するには「ハードな」手法を用いることができる。
より詳細には、コーデックは単に音声信号中の雑音様信号の有無を検出しているだけの実施例もある。あるいは、まず音声信号中における雑音様信号の存在を判定し、次いで、その雑音様信号の相対的なあるいは固有の量を決定することによってコーデックが適応する。この情報を用いて、前記相対的又は固有の量を検出することに基づいて、引き続き一定の「補償ステップ」を実行するかどうかを決定することもできるであろう。引き続くステップの一つに雑音の補償が含まれる。雑音補償には多様な方法が含まれ、特に、雑音様の音声信号、雑音が含まれている音声信号、及び背景雑音について、再生される音声信号の高度な知覚的品質を確保するのに用いられる。知覚の上では、再生された音声信号は、人の耳で聞いた場合、元の音声信号とほとんど差が感じ取れないように聞こえる。雑音補償は、音声コーデックのエンコーダ又はデコーダのいずれかで実行される。他の実施例では、音声コーデックのエンコーダとデコーダとの両方で実行される。
雑音補償は、雑音挿入を用いて行うことができる。雑音挿入は、種々の実施例において、多様な方法で行うことが可能である。1つの実施例では、デコーダにおいて、所定の量の平坦な、帯域が限定された、又はフィルタリングされた雑音信号を合成された信号に加える。雑音挿入を行う他の方法では、雑音様の符号帳を用いて雑音様の残差信号を符号化するか、あるいは、少なくとも知覚上元の雑音様信号とかなり似ているある合成された信号に対して、単にデコーダの励起として雑音様の信号を採用する。
他の雑音補償を行う方法では、パルス様の信号を修正することが行われる。ある実施例では、パルス様の信号を用いて励起信号を再生する。エンコーダでの計算が簡単になり、有声音の音声についての知覚的な品質が高まるからである。検出された信号については、エンコーダから伝送されるパルス様信号の知覚的品質は一般に低い。この欠点を克服するため、パルス様の励起又は合成された信号はデコーダで修正されて、再生された音声信号が知覚上より雑音らしく聞こえ、またあまり尖鋭的(spiky)に聞こえないようにする。この修正は、時間領域又は周波数領域のいずれかにおいて、異なった方法で実行することができるであろう。この修正を実行する代替の方法としては、この発明にしたがって行われるエネルギー拡張(energy spreading)、位相拡散(phase dispersing)、又はパルスピークのカッティング(pulse-peak cutting)がある。
雑音補償を行う他の方法は、ゲイン、すなわちエネルギーと、スペクトルとを平滑化することである。雑音様の信号は、それに付随しているエネルギーが急速に変化する遷移の状態にあるならば、知覚上、パルス信号と類似して聞こえることがある。逆に言えば、パルス様の信号も、その付随するエネルギーが平滑化されていたときは、少なくとも知覚の上では雑音信号とほとんど同じように聞こえる。平滑化することで、定常的な信号の知覚上の品質が効果的に向上される。
雑音補償をすべての音声信号について行う必要はないから、雑音検出を用いて本発明の種々の実施例において行われる雑音補償の度合が制御される。明示的に列挙していないが、再生信号の知覚上の自然な品質を維持するのを支援する雑音補償を行う代替の方法もまた本発明の範囲と精神とに包含されることは、当業者の認識するところであろう。
一例として、図11では、音声コーデック1100はエンコーダ及びデコーダ(図示せず)を有しており、ブロック1111で表されるように、音声信号1107の分類を行う。そして、雑音補償を行うブロック1113で表されるように、出力信号1109の再生品質を高めるべくエンコード及び/又はデコード処理によって補償を行う。特に、それと関連する種々のタイプの音声及び/又は雑音補償方式の分類は、全体として、音声コーデック1100のエンコーダ又はデコーダの内部に置くことができる。あるいは、その分類及び/又は雑音補償をエンコーダとデコーダとに分担させてもよい。前述の通り、このエンコーダは、変化する(「分類された」)音声特性について、使用される複数のエンコード方式の1つを選択することによって、例えば雑音様又はパルス様符号帳励起ベクトルを選択することによって、分類及び雑音補償を実行する回路とそれに関連するソフトウェアとを含むことができる。
雑音補償1113及び分類1111の処理は、段階的なものであってもよいし、あるいはより即時的なものであってもよい。例えば、分類1111は、現在の音声部分が背景雑音を含んでいるという(安全率を見込んだ)可能性を表す重み付け因子を生成することができる。同一の又は他の重み付け因子が、音声部分が雑音様又はパルス様の音声を含む確度を表してもよい。そして、このような一又は複数の重み付け因子は、雑音補償1113の処理において使用することができる。重み付け因子は、デコード処理中にデコーダが雑音を挿入するのに使用することができ、重み付け因子の大きさが大きいほど雑音挿入の量も大きくなる。より段階的でないか又は即時的な手法では、その一又は複数の重み付け因子に閾値を適用して雑音を挿入するかどうかを決定するようにしてもよい。
代替として、すでに述べたように、雑音補償1113には、分類された音声信号にもっともよく対応する異なったエンコード方式の選択等、エンコーダ内部の処理を含めてもよい。このような実施例では、例えば重み付け、閾値化(thresholding)等の、前記段階的な又はより即時的な手法を適用してもよい。
他の実施例では、雑音補償1113には、エンコード又はデコード処理中に音声信号を修正する処理が含まれる。分類1111及び雑音補償1113は、エンコーダ又はデコーダのいずれかで実行してよく、あるいはそれら両方の間で分散させて行うようにしてもよい。このような修正としては、音声再生に使用されるゲインの平滑化があるであろう。それにはまた、あるいは代替として、なんらかのLSF平滑化、エネルギー正規化、又はデコーダにおいて実行されるあるフィルタリングが含まれる。前記修正では、また、例えば雑音挿入フィルタリングを行う、及び/又はそのパルス様信号を雑音様信号で置き換えるなど、パルス様の信号に雑音を部分的に加えてもよい。このような補償方式を用いて、再生音声信号の知覚的品質が改善される。
図12は、図11の音声コーデックを例示する実施例であり、音声信号の少なくとも1つの特性を分類し、補償することを示している。一定の実施例にあっては、これは、種々のタイプの雑音を分類し、知覚的には区別することができない音声の再生においてモデル化された雑音を補償することを含む。特に、エンコーダ1210内部で、分類1240及び雑音補償1250の処理が動作し、音声信号内に雑音が存在することを識別し、音声信号の処理中に雑音を補償すべきかどうか判定する。同様に、デコーダ1230内では、分類1260及び雑音補償1270の処理が動作し、音声信号内に雑音が存在することを識別し、なんらかの存在する雑音を補償すべきかどうか判定する。分類処理1240と1260とは独立して動作する。同様に、本実施例にあっては、雑音補償処理1250と1270とは独立して動作し、音声信号を再生するために、存在するいかなる雑音も全量ともに補償する。
本発明のある実施例においては、分類処理1240と分類処理1260とは関連して動作し、音声信号の中の雑音を検出する。分類処理1240は、音声全体の分類、すなわち音声信号中の雑音検出を行う際に、通信リンク1220を介して分類処理1260と通信する。ここで用いる「雑音」という用語には、厳密には背景雑音あるいは音声信号自体の内部の(背景又はそうでない)雑音である可能性のある「雑音様の信号」が含まれる。信号は、雑音として分類されるべき雑音様の信号の特性を備えることだけが必要である。
同様に、雑音補償処理1250及び1270は、共同して動作し、音声信号を再生すべく雑音を補償することができる。雑音処理1250は、音声信号の再生において雑音挿入を行う際に、通信リンク1220を介して雑音補償処理1270と通信する。もちろん、他の実施例にあっては、分類処理1240と1260とが独立して動作することができる場合であっても、雑音補償処理1250及び1270は共同で動作することができる。また、雑音補償処理1250及び1270が独立して動作することができる場合であっても、分類処理1240と1260とは共同で動作することができる。
ある実施例においては、エンコーダ1210の雑音補償処理1250を用いて音声信号をエンコードする際に雑音を挿入してもよい。このような実施例では、その挿入された雑音は、エンコードされた後に、通信リンク1220を通じてデコーダ1230へ伝送されるであろう。その代わりに、デコーダ1230の雑音補償処理1270を用いて音声信号をデコードする間に、雑音を挿入してもよい。所望であれば、デコーダ1230を用いて音声信号を再生する前又は後に雑音を挿入することもできる。
例えば、雑音補償処理1150及び1170は、前述したように、音声信号を実際に再生する前に、種々のタイプの雑音の所定の符号帳を用いて行われることとなる雑音挿入を提供することが可能である。このような実施例では、特定のタイプの雑音に対する特定のコードベクトルが、実際の音声信号を再生するために使用されているコードベクトルの上に重畳される。他の実施例では、雑音をメモリに格納し、再生された音声の上に単純に重畳させることもできる。
前記したような種々の態様を組合せたいずれかのあるいは複数の実施例においては、エンコーダ1210とデコーダ1230とが協働して、音声信号及び再生された音声信号内の雑音の検出と補償との両方を実行することができる。
図13は、本発明を図示するシステム図であり、一実施例として、エンコーダ1310とデコーダ1330とを両方備えた音声コーデック1300である。特に、図13は、音声コーデック1300のデコーダ1330において雑音検出と雑音補償とを専属して実行するシステムを例示している。
本発明の一定の実施例においては、雑音検出1260及び雑音補償1370がデコーダ1330内で実行され、音声信号内の雑音の存在を識別し、音声信号を処理する間に雑音を補償すべきかどうかを判定するように動作する。この特定の実施例では、エンコーダ1310は、図12の実施例では分類処理1240及び補償処理1250機能ブロックにおいて実行可能であったように雑音検出又は雑音補償を行わない。音声信号はエンコーダ1310を用いてエンコードされ、次いで通信リンク1220を介してデコーダ1330へ伝送される。デコーダ1330では、雑音検出1360が音声信号の中になんらかの雑音が存在するかどうかを判定する。そして、雑音補償1370は、必要であれば、いかなる雑音も補償し、元の音声信号と知覚上はほとんど区別ができないように音声を再生する。図12の実施例と同様に、デコーダ1330を用いて音声信号を再生する前又は後に雑音を補償することができる。
図14は、本発明の一実施例を図示するシステム図であり、エンコーダ1410とデコーダ1330とを両方備えた音声コーデック1400である。特に、図14は、音声コーデック1400のエンコーダ1410とデコーダ1330との両方において雑音検出1440及び1360を実行するが、雑音補償1370は音声コーデック1400のデコーダで専属して実行するシステムを例示している。
本発明の一定の実施例においては、雑音検出1440はエンコーダ1410内で実行され、音声信号内の雑音の存在を識別すべく動作する。また、雑音検出1360及び雑音補償1370がデコーダ1330内で実行され、音声信号内の雑音の存在を識別し、音声信号を処理する間に雑音を補償すべきかどうかを判定するように動作する。この特定の実施例では、エンコーダ1410は、雑音検出1440を実行するが、雑音補償を実行しない。音声信号はエンコーダ1410を用いてエンコードされ、次いで通信リンク1220を介してデコーダ1330へ伝送される。デコーダ1330では、雑音検出1360がエンコーダ1410の雑音検出1440と共同して動作し、音声信号の中になんらかの雑音が存在するかどうかを判定する。そして、雑音補償1370は、必要であれば、いかなる雑音も挿入して、元の音声信号と知覚上はほとんど区別ができないように音声を再生する。図12及び図13の実施例と同様に、雑音補償1370は、デコーダ1330を用いて音声信号を再生する前又は後に実行することができる。
図15は、図11、図12、図13、及び図14の種々の実施例において記載されている雑音検出及び補償の特定の実施例を例示している。とりわけ、雑音処理システム1500を用いて、音声信号内の雑音の識別だけでなく、出力励起信号1550を用いて、音声信号を適正にエンコードし再生するために雑音をモデリングする適当な方法を実行することができる。この出力励起信号1550は、本発明にしたがったコードベクトルであってもよく、次いで音声信号を再生するのに用いられる。あるいは、出力励起信号1550は、それ自体再生された音声信号であってもよい。
本発明の一定の実施例にあっては、音声信号に対応する音声パラメータ1510は雑音分類器1530へ伝達される。また、励起信号1520は、雑音補償1540を実行するブロックへ伝達される。励起信号は、本発明にしたがった励起コードベクトルとすることができる。励起コードベクトルは、符号励起線形予測を用いて採用されるのと同様のパルス励起コードベクトルであってもよい。一定の実施例にあっては、雑音分類器1530を用いて雑音補償1540の動作を制御してもよい。一の実施例においては、雑音分類器1530は、雑音補償1540が動作するかどうかを完全に制御することができる。
音声パラメータ1510は、雑音分類器1510を通過した後で、音声信号が雑音フィルタリングを要求していないことを示す場合には、雑音補償1540は、音声パラメータ1510又は励起信号1520になんら作用的なフィルタリングを及ぼさない単なる通過デバイスとしての役割を果たすことになろう。
このような実施例では、出力励起信号1550はいかなる雑音挿入も含まない
であろう。
しかし、音声信号を分類して雑音のフィルタリングが必要であったら、雑音補償1540はフィルタリングを実行する作用をするであろう。そして、出力励起信号1550は雑音補償されるであろう。あるいは、雑音補償1540の作用の攻撃性(aggressiveness)を、雑音分類器1530を用いて実行される雑音分類の関数として決定してもよい。言い換えれば、雑音フィルタリングが雑音補償1540を用いて実行する度合又は範囲は、雑音分類を行うのに採用される少なくとも一の特性によって制御されるであろう。他の実施例にあっては、雑音分類1540は、雑音補償1540の応答が追加の入力信号(図示せず)の関数として修正されうる適応パルスフィルタとして動作することができる。
雑音補償1540は、音声パラメータ1510の雑音分類に応答して入力励起信号1520の高周波数スペクトル成分を移相するように動作しうる。励起信号1520の高周波数スペクトル成分を移相することで、ある実施例においては知覚的な効果が与えられる。このような具体化が、知覚的に高品質の音声再生を提供する。
他にも多くの修正や変形が可能であることはもちろんである。前記本発明の詳細な説明及び添付図面を参照して、このような他の修正及び変形は、当業者にとって明らかとなるであろう。また、このような修正や変形が、本発明の精神と範囲とから逸脱することなく実施しうることも明白である。
さらに、以下の付録Aは、この出願で使用される多くの定義、記号、及び略号のリストである。付録B及びCはそれぞれ、本発明の一実施例で使用される種々のエンコードビットレートでのソース及びチャネルビットの順序付け情報を示す。付録A、B、及びCは、本出願の詳細な説明の一部をなし、そうでなければ、その全体が本出願に援用される。
付録A
以下の符号、定義および略語が、本願のために用いられる。
適応符号帳(adaptive codebook): 適応符号帳は、各サブフレーム全てに適用される励起ベクトル(excitation vector)を含む。適応符号帳は、長期フィルタ状態から得られる。ピッチラグ値は、適応符号帳へのインデクスとして見ることができる。
適応ポストフィルタ(adaptive postfilter): 適応ポストフィルタは、再構築された音声の知覚的品質を向上させるために、短期合成フィルタの出力に適用される。適応マルチレートコーデック(AMR)においては、適応ポストフィルタは、フォルマントポストフィルタおよびチルト補償フィルタの二つのフィルタのカスケード接続(cascade)である。
適応マルチレートコーデック(Adaptive Multi Rate codec): 適応マルチレートコード(AMR)は、11.4kbps(「ハーフレート」)および22.8kbps(「フルレート」)の総ビットレートにて動作することのできる音声およびチャネルコーデックである。さらに、コーデックは、各チャネルモードに応じて、音声およびチャネル符号化(コーデックモード)のビットレートの種々の組合せにて動作することもできる。
AMRハンドオーバー(AMR handover): AMR動作を最適化するための、フルレートおよびハーフレートのチャネルモード間のハンドオーバーである。
チャネルモード(channel mode):ハーフレート(HR)またはフルレート(FR)の動作である。
チャネルモード適応(channel mode adaptation): (FRまたはHR)チャネルモードの制御および選択である。
チャネルリパッキング(channel repacking): セル内においてより高い容量を達成するための、所定のラジオセルのHR(およびFR)ラジオチャネルのリパッキングである。
閉ループピッチ分析(closed-loop pitch analysis): これは適応符号帳の検索である。すなわち、重み付けされた入力音声および長期フィルタ状態からピッチ(ラグ)値を概算するプロセスである。閉ループ検索においては、ラグは、誤差最小化ループ(合成による分析)を用いて検索される。適応マルチレートコーデックにおいては、閉ループピッチ検索は、各サブフレーム全てにつき実行される。
コーデックモード(codec mode): 所定のチャネルモードについての、音声およびチャネルコーデック間のビットパーティショニングである。
コーデックモード適応(codec mode adaptation): コーデックモードのビットレートの制御および選択である。通常、チャネルモードの変更を伴わない。
ダイレクトフォーム係数(direct form coefficients): 短期フィルタパラメータを記憶するためのフォーマットの一つである。適応マルチレートコーデックにおいては、音声サンプルを変更するために用いられる全てのフィルタは、ダイレクトフォーム係数を用いる。
固定符号帳(fixed codebook): 固定符号帳は、音声合成フィルタのための励起ベクトルを含む。符号帳の内容は、非適応型(すなわち固定)である。適応マルチレートコーデックにおいては、特定のレートについての固定符号帳は、マルチファンクション符号帳を用いて実行される。
分数のラグ(fractional lags): サブサンプル分解能を有するラグ値のセットである。適応マルチレートコーデックにおいては、サンプルの1/6ないし1.0の間のサブサンプル分解能が用いられる。
フルレート(FR)(full-rate): フルレートのチャネルまたはチャネルモードである。
フレーム(frame): 20ms(8kHzのサンプリングレートにて160サンプル)に相当する時間間隔である。
総ビットレート(gross bit-rate): 選択されたチャネルモード(22.8kbpsまたは11.4kbps)のビットレートである。
ハーフレート(HR)(half-rate): ハーフレートのチャネルまたはチャネルモードである。
帯域内信号法(in-band signaling): トラヒック内において搬送されるDTX、リンク制御、チャネルおよびコーデックモード変更等の信号法である。
整数のラグ(integer lags):全サンプル分解能を有するラグ値のセットである。
補間フィルタ(interpolating filter): 整数サンプル分解能でサンプルされた入力を与えられた、サブサンプル分解能サンプルの概算を生成するのに用いられるFIRフィルタである。
逆フィルタ(inverse filter): このフィルタは、音声信号から短期相関を取り除くものである。フィルタは、声道の逆周波数応答をモデルとする。
ラグ(lag): 長期フィルタのディレイである。これは、典型的に、真のピッチ期間、またはその倍数または約数である。
線スペクトル周波数(Line Spectral Frequencies): (線スペクトル対を参照。)
線スペクトル対(Line Spectral Pair): LPCパラメータの変形である。線スペクトル対は、逆フィルタ伝達関数A(z)を、一方が偶の対称を有し他方が奇の対称を有するような二つの伝達関数のセットに分解能することにより得られる。線スペクトル対(線スペクトル周波数とも称する)は、z−単位円上の多項式の根である。
LP分析ウィンドウ(LP analysis window): 各フレームについて、短期フィルタ係数は、高域フィルタされた音声サンプルを用いて分析ウィンドウ内にて計算される。適応マルチレートコーデックにおいては、分析ウィンドウの長さは常に240サンプルである。各フレームについて、二つの非対称ウィンドウが、知覚的重み付けフィルタを構成すべくLSF領域において補間されたLP係数を2セット生成するのに用いられる。合成フィルタを得るために、一フレームにつき一つのセットのLP係数のみが量子化されデコーダへ伝送される。HRおよびFRの両者について、25サンプルのルックアヘッドが用いられる。
LP係数(LP coefficients): 線形予測(LP)係数(線形予測符号化(LPC)係数とも称する)は、短期フィルタ係数を記すための総称的な記述用語である。
LTPモード(LTP Mode): コーデックは従来のLTPとともに動作する。
モード(mode): 単独で使用した場合、ソースコーデックモード、すなわち、AMRコーデックにおいて用いられるソースコーデックの一つを意味する。(コーデックモードおよびチャネルモードを参照されたい。)
マルチファンクション符号帳(multi-function codebook): 異なる種類のパルスイノベーションベクトル構造およびノイズイノベーションベクトルにより構成されたいくつかのサブ符号帳からなる固定符号帳である。符号帳からのコードワードが励起ベクトルを合成するために用いられる。
開ループピッチ検索(open-loop pitch search): 重み付けされた入力音声から直接、最適に近いピッチラグを概算するプロセスである。これはピッチ分析を簡略化し、閉ループピッチ検索を開ループ概算ラグ周辺の少数のラグに限定するためになされる。適応マルチレートコーデックにおいては、開ループピッチ検索は、PPモードについては各フレームにつき一度、LTPモードについては各フレームにつき二度実行される。
帯域外信号法(out-of-band signaling): リンク制御を支持するための、GSM制御チャネル上の信号法である。
PPモード(PP Mode): コーデックは、ピッチ前処理(pitch preprocessing)とともに動作する。
残差(residual): 逆フィルタ動作の結果の出力信号である。
短期合成フィルタ(short term synthesis filter): このフィルタは、励起信号に対し、声道のインパルス応答をモデルとする短期相関を導入する。
知覚的重み付けフィルタ(perceptual weighting filter): このフィルタは、符号帳の合成による分析の検索において用いられる。フィルタは、フォルマント周波数に近い範囲においては少なく、そこから遠い範囲においては多く、誤差を重み付けすることにより、フォルマント(声道共鳴)のノイズのマスキング特性を活用する。
サブフレーム(subframe): 5〜10ms(8kHzサンプリングレートにて40〜80サンプル)に相当する時間間隔である。
ベクトル量子化(vector quantization): 幾つかのパラメータをベクトル
にグループ化し、それらを同時に量子化する方法である。
ゼロ入力応答(zero input response): 過去の入力に起因する、すなわち、ゼロの入力が付与されると想定すればフィルタの現在の状態に起因するフィルタの出力である。
ゼロ状態応答(zero state response): 過去に入力が付与されていないと想定すれば、すなわち、フィルタにおける状態情報が全てゼロであると想定すれば、現在の入力に起因するフィルタの出力である。
A(z)
量子化されていない係数での逆フィルタ
^A(z)
量子化された係数での逆フィルタ
H(z)=1/^A(z)
量子化された係数での音声合成フィルタ

量子化されていない線形予測パラメータ(ダイレクトフォーム係数)
^a
量子化された線形予測パラメータ
1/B(z)
長期合成フィルタ
W(z)
知覚的重み付けフィルタ(量子化されていない係数)
γ、γ
知覚的重み付け因子
(z)
適応プレフィルタ

サブフレームの閉ループ分数ピッチラグに最も近い整数のピッチラグ
β
適応プレフィルタ係数(量子化されたピッチゲイン)
(z)=^A(z/γ)/^A(z/γ
フォルマントポストフィルタ
γ
フォルマントポストフィルタリングの量についての制御係数
γ
フォルマントポストフィルタリングの量についての制御係数
(z)
チルト補償フィルタ
γ
チルト補償フィルタリングの量についての制御係数
μ=γ
’が第一反射係数であるチルト因子
(n)
フォルマントポストフィルタの打切りインパルス応答

(n)の長さ
(i)
(n)の自己相関
^A(z/γ
フォルマントポストフィルタの逆フィルタ(分子)部分
1/^A(z/γ
フォルマントポストフィルタの合成フィルタ(分母)部分
^r(n)
逆フィルタ^A(z/γ)の残差信号
(z)
チルト補償フィルタのインパルス応答
βsc(n)
適応ポストフィルタのAGC制御されたゲインスケーリング因子
α
適応ポストフィルタのAGC因子
hl(z)
予備処理高域フィルタ
(n)、wII(n)
LP分析ウィンドウ
(I)
LP分析ウィンドウw(n)の第一部分の長さ
(I)
LP分析ウィンドウw(n)の第二部分の長さ
(II)
LP分析ウィンドウwII(n)の第一部分の長さ
(II)
LP分析ウィンドウwII(n)の第二部分の長さ
ac(k)
ウィンドウされた音声s’(n)の自己相関
lag(i)
自己相関(60Hzの帯域幅拡大)についてのラグウィンドウ

Hzでの帯域幅拡大

Hzでのサンプリング周波数
r’ac(k)
変更された(帯域幅拡大された)自己相関
LD(i)
レビンソンアルゴリズムのi番目の反復における予測誤差

i番目の反射係数
(i)
レビンソンアルゴリズムのi番目の反復におけるj番目のダイレクトフォーム係数
’(z)
対称LSF多項式
’(z)
反対称LSF多項式
(z)
z=−1の根が除かれた多項式F’(z)
(z)
z=1の根が除かれた多項式F’(z)

余弦領域における線スペクトル対(LSF)
ベクトルq
余弦領域におけるLSFベクトル
ベクトル^q (n)
フレームnのi番目のサブフレームでの量子化されたLSFベクトル
ω
線スペクトル周波数(LSF)
(x)
次数mのチェビシェフ多項式
(i)、f(i)
多項式F(z)およびF(z)の係数
’(i)、f’(i)
多項式F’(z)およびF’(z)の係数
f(i)
(z)またはF(z)のいずれかの係数
C(x)
チェビシェフ多項式の総和の多項式

角周波数ωの余弦
λ
チェビシェフ多項式評価についての反復係数

Hzでの線スペクトル周波数(LSF)
ベクトルf=[f...f10
HzでのLSFのベクトル表現
ベクトルz(1)(n)、ベクトルz(2)(n)
フレームnでの平均の除かれたLSFベクトル
ベクトルr(1)(n)、ベクトルr(2)(n)
フレームnでのLSF予測残差ベクトル
ベクトルp(n)
フレームnでの予測されたLSFベクトル
ベクトル^r(2)(n−1)
過去のフレームでの量子化された第二の残差ベクトル
ベクトル^f
量子化インデクスkでの量子化されたLSFベクトル
LSP
LSF量子化誤差
、i=1、...、10、
LSF量子化重み付け因子

線スペクトル周波数fi+1およびfi−1間の距離
h(n)
重み付けされた合成フィルタのインパルス応答

ディレイkでの開ループピッチ分析の相関最大
ti、i=1、...、3
ディレイt、i=1、...、3での相関最大
(M、t)、i=1、...、3
正規化された相関最大Mと、対応するディレイt、i=1、...、3
H(z)W(z)=A(z/γ)/^A(z)A(z/γ
重み付けされた合成フィルタ
A(z/γ
知覚的重み付けフィルタの分子
1/A(z/γ
知覚的重み付けフィルタの分母

前の(1番目または3番目の)サブフレームの分数ピッチラグに最も近い整数
s’(n)
ウィンドウされた音声信号
(n)
重み付けされた音声信号
^s(n)
再構築された音声信号
^s’(n)
ゲインスケールされポストフィルタされた信号
^s(n)
ポストフィルタされた音声信号(スケーリング前)
x(n)
適応符号帳検索のためのターゲット信号
(n)、ベクトルx
固定符号帳検索のためのターゲット信号
resLP(n)
LP残差信号
c(n)
固定符号帳ベクトル
v(n)
適応符号帳ベクトル
y(n)=v(n)*h(n)
フィルタされた適応符号帳ベクトル
フィルタされた固定符号帳ベクトル
(n)
過去のフィルタされた励起
u(n)
励起信号
^u(n)
完全に量子化された励起信号
^u’(n)
ゲインスケールされエンファシスされた励起信号
op
最適な開ループラグ
min
最小のラグ検索値
max
最大のラグ検索値
R(k)
適応符号帳検索において最大化されるべき相関ターム
R(k)
整数ディレイkおよび分数tについて、補間されたR(k)値

インデクスkでの代数的符号帳検索において最大化されるべき相関ターム

インデクスkでのAの分子における相関
Dk
インデクスkでのAの分母におけるエネルギー
d=H
ターゲット信号x(n)とインパルス応答h(n)すなわち後方向へフィルタされたターゲットとの間の相関
行列H
対角h(0)およびより低い対角h(1)、...、h(39)の、より低いテプリッツ畳み込み三角行列
行列Φ=H
h(n)の相関の行列
d(n)
ベクトルdの要素
φ(i、j)
対称行列Φの要素
ベクトルc
イノベーションベクトル

の分子における相関

i番目のパルスの位置
Figure 2010181890
i番目のパルスの振幅

固定符号帳励起におけるパルス数

の分母におけるエネルギー
resLTP(n)
正規化された長期予測残差
b(n)
正規化されたd(n)ベクトルおよび正規化された長期予測残差resLTP(n)の和
(n)
代数的符号帳検索についてのサイン信号
ベクトルz、z(n)
h(n)でコンボルブされた固定符号帳ベクトル
E(n)
平均の除かれたイノベーションエネルギー(dB)
Eバー
イノベーションエネルギーの平均
〜E(n)
予測されたエネルギー
[b
MA予測係数
^R(k)
サブフレームkでの量子化された予測誤差

平均イノベーションエネルギー
R(n)
固定符号帳ゲイン量子化の予測誤差

固定符号帳ゲイン量子化の量子化誤差
e(n)
合成フィルタ1/^A(z)の状態
(n)
合成による分析の検索の知覚的重み付けされた誤差
η
エンファシスされた励起についてのゲインスケーリング因子

固定符号帳ゲイン
ドット
予測された固定符号帳ゲイン
^g
量子化された固定符号帳ゲイン

適応符号帳ゲイン
^g
量子化された適応符号帳ゲイン
γgc=g/gドット
ゲインgおよび概算された一のgドットの間の修正因子
^γgc
γgcについての最適値
γsc
ゲインスケーリング因子
AGC
適応ゲイン制御
AMR
適応マルチレート
CELP
符号励起線形予測
C/I
キャリア対インタフィアラ比
DTX
非連続伝送
EFR
エンハンスされたフルレート
FIR
有限インパルス応答
FR
フルレート
HR
ハーフレート
LP
線形予測
LPC
線形予測符号化
LSF
線スペクトル周波数
LSF
線スペクトル対
LTP
長期予測子(または長期予測)
MA
移動平均
TFO
タンデムフリー動作
VAD
無音圧縮
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890
Figure 2010181890

Claims (20)

  1. 特性が変化する音声信号について合成による分析の手法を用いており、
    前記音声信号から音声パラメータを生成するエンコーダと、
    そのエンコーダと通信によって結合されており、前記音声パラメータから音声信号を再生するデコーダとを備え、
    前記エンコーダ及びデコーダの少なくとも一方が雑音の分類を行い、
    前記エンコーダ及びデコーダの少なくとも一方が、その雑音分類を利用して雑音の補償を行う
    音声コーデック。
  2. 前記エンコーダ及びデコーダの両方が雑音の分類を行う請求項1に記載の音声コーデック。
  3. 前記エンコーダ及びデコーダの両方が雑音の補償を行う請求項1に記載の音声コーデック。
  4. コードベクトルの励起を用いて前記音声信号を再生する請求項1に記載の音声コーデック。
  5. パルス様の励起を用いて前記音声信号を再生する請求項1に記載の音声コーデック。
  6. 前記音声信号を再生するときに、前記エンコーダ及びデコーダの少なくとも一方がゲインを平滑化する請求項1に記載の音声コーデック。
  7. 前記音声信号の変化する特性の少なくとも一つがピッチパラメータを含む請求項1に記載の音声コーデック。
  8. 前記エンコーダは、複数のソースエンコード手法の一つを選択することによって、前記雑音分類の少なくとも一部と前記雑音補償の少なくとも一部とを実行する請求項1に記載の音声コーデック。
  9. 前記デコーダは、前記音声再生の間に雑音を挿入することによって、前記雑音分類の少なくとも一部と前記雑音補償の少なくとも一部とを実行する請求項1に記載の音声コーデック。
  10. 特性が変化する音声信号について合成による分析の手法を用いており、
    前記音声信号の変化する特性の少なくとも一つを識別するときに雑音補償を選
    択的に適用して、前記音声信号の再生品質を向上させる処理回路と、
    前記処理回路と通信によって結合されて前記音声信号を再生する音声再生回路と
    を備えた音声コーデック。
  11. 音声再生にはパルス様の励起が用いられる請求項10に記載の音声コーデック。
  12. 前記処理回路は前記音声信号の雑音分類を適用する請求項10に記載の音声コーデック。
  13. 前記音声コーデックはデコーダをさらに備え、その処理回路の少なくとも一部がそのデコーダ内部にある請求項10に記載の音声コーデック。
  14. 適用されるエンコード方式には、パルス様の励起を使用することが含まれる請求項10に記載の音声コーデック。
  15. 前記処理回路は前記音声信号を再生するのに使用されるゲインを平滑化する請求項10に記載の音声コーデック。
  16. 前記前記音声信号の変化する特性の少なくとも一つがピッチパラメータを含む請求項10に記載の音声コーデック。
  17. 前記音声信号が複数のフレームに分割され、前記エンコーダ処理回路はエンコード方式をフレームをベースとして選択的に適用する請求項10に記載の音声コーデック。
  18. 特性が変化する音声信号に合成による分析のコード化手法を適用する音声コーデックが使用する方法であって、
    前記音声信号の変化する特性の少なくとも一つを識別するときに雑音分類を適用し、
    その雑音分類に応答して雑音補償を適用し、
    その補償が適用されてから前記音声信号を再生する方法。
  19. 前記音声信号を再生するときにゲインを平滑化することをさらに含む請求項18に記載の方法。
  20. 前記雑音補償は雑音挿入を行うことを含む請求項18に記載の方法。
JP2010044660A 1998-08-24 2010-03-01 音声符号化用開ループピッチ処理 Expired - Lifetime JP5519334B2 (ja)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US9756998P 1998-08-24 1998-08-24
US60/097,569 1998-08-24
US15465798A 1998-09-18 1998-09-18
US09/154,662 1998-09-18
US09/156,832 US6823303B1 (en) 1998-08-24 1998-09-18 Speech encoder using voice activity detection in coding noise
US09/156,832 1998-09-18
US09/154,657 1998-09-18
US09/154,662 US6493665B1 (en) 1998-08-24 1998-09-18 Speech classification and parameter weighting used in codebook search
US09/198,414 US6240386B1 (en) 1998-08-24 1998-11-24 Speech codec employing noise classification for noise compensation
US09/198,414 1998-11-24

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000566830A Division JP2002523806A (ja) 1998-08-24 1999-08-24 雑音補償のための音声分類を採用した音声コーデック

Publications (3)

Publication Number Publication Date
JP2010181890A true JP2010181890A (ja) 2010-08-19
JP2010181890A5 JP2010181890A5 (ja) 2014-01-16
JP5519334B2 JP5519334B2 (ja) 2014-06-11

Family

ID=27536839

Family Applications (7)

Application Number Title Priority Date Filing Date
JP2000566830A Pending JP2002523806A (ja) 1998-08-24 1999-08-24 雑音補償のための音声分類を採用した音声コーデック
JP2010044662A Pending JP2010181892A (ja) 1998-08-24 2010-03-01 音声符号化用ゲイン平滑化
JP2010044663A Expired - Lifetime JP5476160B2 (ja) 1998-08-24 2010-03-01 線スペクトル周波数の量子化のための符号帳の共有
JP2010044661A Expired - Lifetime JP5374418B2 (ja) 1998-08-24 2010-03-01 音声符号化用適応符号帳ゲインの制御
JP2010044659A Expired - Lifetime JP4995293B2 (ja) 1998-08-24 2010-03-01 音声符号化用のスカラー量子化(sq)とベクトル量子化(vq)の選択
JP2010044660A Expired - Lifetime JP5519334B2 (ja) 1998-08-24 2010-03-01 音声符号化用開ループピッチ処理
JP2011093333A Expired - Lifetime JP5412463B2 (ja) 1998-08-24 2011-04-19 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化

Family Applications Before (5)

Application Number Title Priority Date Filing Date
JP2000566830A Pending JP2002523806A (ja) 1998-08-24 1999-08-24 雑音補償のための音声分類を採用した音声コーデック
JP2010044662A Pending JP2010181892A (ja) 1998-08-24 2010-03-01 音声符号化用ゲイン平滑化
JP2010044663A Expired - Lifetime JP5476160B2 (ja) 1998-08-24 2010-03-01 線スペクトル周波数の量子化のための符号帳の共有
JP2010044661A Expired - Lifetime JP5374418B2 (ja) 1998-08-24 2010-03-01 音声符号化用適応符号帳ゲインの制御
JP2010044659A Expired - Lifetime JP4995293B2 (ja) 1998-08-24 2010-03-01 音声符号化用のスカラー量子化(sq)とベクトル量子化(vq)の選択

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011093333A Expired - Lifetime JP5412463B2 (ja) 1998-08-24 2011-04-19 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化

Country Status (6)

Country Link
US (1) US6240386B1 (ja)
EP (7) EP2088584A1 (ja)
JP (7) JP2002523806A (ja)
CA (1) CA2341712C (ja)
TW (1) TW454170B (ja)
WO (1) WO2000011650A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE43570E1 (en) 2000-07-25 2012-08-07 Mindspeed Technologies, Inc. Method and apparatus for improved weighting filters in a CELP encoder
US8620649B2 (en) 1999-09-22 2013-12-31 O'hearn Audio Llc Speech coding system and method using bi-directional mirror-image predicted pulses
US8620647B2 (en) 1998-09-18 2013-12-31 Wiav Solutions Llc Selection of scalar quantixation (SQ) and vector quantization (VQ) for speech coding
US10181327B2 (en) 2000-05-19 2019-01-15 Nytell Software LLC Speech gain quantization strategy

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6704701B1 (en) * 1999-07-02 2004-03-09 Mindspeed Technologies, Inc. Bi-directional pitch enhancement in speech coding systems
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
JP2001318694A (ja) 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US6728669B1 (en) * 2000-08-07 2004-04-27 Lucent Technologies Inc. Relative pulse position in celp vocoding
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US6529867B2 (en) * 2000-09-15 2003-03-04 Conexant Systems, Inc. Injecting high frequency noise into pulse excitation for low bit rate CELP
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
CN1202514C (zh) 2000-11-27 2005-05-18 日本电信电话株式会社 编码和解码语音及其参数的方法、编码器、解码器
US6614365B2 (en) * 2000-12-14 2003-09-02 Sony Corporation Coding device and method, decoding device and method, and recording medium
DE60209888T2 (de) * 2001-05-08 2006-11-23 Koninklijke Philips Electronics N.V. Kodieren eines audiosignals
US7319703B2 (en) * 2001-09-04 2008-01-15 Nokia Corporation Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts
US7046636B1 (en) 2001-11-26 2006-05-16 Cisco Technology, Inc. System and method for adaptively improving voice quality throughout a communication session
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
FR2850781B1 (fr) * 2003-01-30 2005-05-06 Jean Luc Crebouw Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede
US7146309B1 (en) 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
TWI233590B (en) * 2003-09-26 2005-06-01 Ind Tech Res Inst Energy feature extraction method for noisy speech recognition
US20050071154A1 (en) * 2003-09-30 2005-03-31 Walter Etter Method and apparatus for estimating noise in speech signals
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
FR2869484B1 (fr) * 2004-04-26 2006-07-07 Nortel Networks Ltd Procede de traitement de signal et recepteur de radiocommunication numerique associe
US7120576B2 (en) * 2004-07-16 2006-10-10 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system
ATE488838T1 (de) * 2004-08-30 2010-12-15 Qualcomm Inc Verfahren und vorrichtung für einen adaptiven de- jitter-puffer
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US20090063158A1 (en) * 2004-11-05 2009-03-05 Koninklijke Philips Electronics, N.V. Efficient audio coding using signal properties
CN101116135B (zh) * 2005-02-10 2012-11-14 皇家飞利浦电子股份有限公司 声音合成
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US20060217972A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
US20060217970A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for noise reduction
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
US20060217983A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for injecting comfort noise in a communications system
US20060217988A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for adaptive level control
FR2884989A1 (fr) * 2005-04-26 2006-10-27 France Telecom Procede d'adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques.
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US20070100611A1 (en) * 2005-10-27 2007-05-03 Intel Corporation Speech codec apparatus with spike reduction
US20070136054A1 (en) * 2005-12-08 2007-06-14 Hyun Woo Kim Apparatus and method of searching for fixed codebook in speech codecs based on CELP
JP4727413B2 (ja) * 2005-12-21 2011-07-20 三菱電機株式会社 音声符号化・復号装置
US8032370B2 (en) 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
US20070286351A1 (en) * 2006-05-23 2007-12-13 Cisco Technology, Inc. Method and System for Adaptive Media Quality Monitoring
US20080101338A1 (en) * 2006-11-01 2008-05-01 Reynolds Douglas F METHODS AND APPARATUS TO IMPLEMENT HIGHER DATA RATE VOICE OVER INTERNET PROTOCOL (VoIP) SERVICES
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
WO2008108721A1 (en) 2007-03-05 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
EP3629328A1 (en) * 2007-03-05 2020-04-01 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
EP2164238B1 (en) * 2007-06-27 2013-01-16 NEC Corporation Multi-point connection device, signal analysis and device, method, and program
US8248953B2 (en) 2007-07-25 2012-08-21 Cisco Technology, Inc. Detecting and isolating domain specific faults
US20090222268A1 (en) * 2008-03-03 2009-09-03 Qnx Software Systems (Wavemakers), Inc. Speech synthesis system having artificial excitation signal
US7948910B2 (en) * 2008-03-06 2011-05-24 Cisco Technology, Inc. Monitoring quality of a packet flow in packet-based communication networks
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
EP2304719B1 (en) 2008-07-11 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, methods for providing an audio stream and computer program
JP5489431B2 (ja) * 2008-08-11 2014-05-14 京セラ株式会社 無線通信モジュールおよび無線端末、無線通信方法
US20120095760A1 (en) * 2008-12-19 2012-04-19 Ojala Pasi S Apparatus, a method and a computer program for coding
CN101609678B (zh) * 2008-12-30 2011-07-27 华为技术有限公司 信号压缩方法及其压缩装置
CN101615395B (zh) 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
US20110137656A1 (en) * 2009-09-11 2011-06-09 Starkey Laboratories, Inc. Sound classification system for hearing aids
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
PT3364411T (pt) * 2009-12-14 2022-09-06 Fraunhofer Ges Forschung Dispositivo de quantização de vetor, dispositivo de codificação de voz, método de quantização de vetor e método de codificação de voz
US9647620B2 (en) 2010-01-17 2017-05-09 Mediatek Pte Ltd. Electronic device and integrated circuit comprising a gain control module and method therefor
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
IL205394A (en) 2010-04-28 2016-09-29 Verint Systems Ltd A system and method for automatically identifying a speech encoding scheme
CA3160488C (en) 2010-07-02 2023-09-05 Dolby International Ab Audio decoding with selective post filtering
AU2016202478B2 (en) * 2010-07-02 2016-06-16 Dolby International Ab Pitch filter for audio signals and method for filtering an audio signal with a pitch filter
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
TWI426505B (zh) * 2010-11-15 2014-02-11 Sonix Technology Co Ltd 音調偵測系統及聲音訊號調制方法
US8990074B2 (en) 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
IN2014DN03022A (ja) * 2011-11-03 2015-05-08 Voiceage Corp
JP5480226B2 (ja) * 2011-11-29 2014-04-23 株式会社東芝 信号処理装置および信号処理方法
MX347316B (es) * 2013-01-29 2017-04-21 Fraunhofer Ges Forschung Aparato y método para sintetizar una señal de audio, decodificador, codificador, sistema y programa de computación.
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP3291233B1 (en) 2013-09-12 2019-10-16 Dolby International AB Time-alignment of qmf based processing data
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
KR102245135B1 (ko) 2014-05-20 2021-04-28 삼성전자 주식회사 패턴 형성 방법 및 이를 이용한 집적회로 소자의 제조 방법
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
CN107041009B (zh) * 2015-05-29 2020-06-23 成都鼎桥通信技术有限公司 音频通路控制方法、终端与基站
CN105513599B (zh) * 2015-11-24 2019-05-21 西安烽火电子科技有限责任公司 一种基于非等重保护的速率自适应声码通信方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN106228978A (zh) * 2016-08-04 2016-12-14 成都佳荣科技有限公司 一种语音识别方法
CN107331393B (zh) * 2017-08-15 2020-05-12 成都启英泰伦科技有限公司 一种自适应语音活动检测方法
CN107863099B (zh) * 2017-10-10 2021-03-26 成都启英泰伦科技有限公司 一种新型双麦克风语音检测和增强方法
CN109767786B (zh) * 2019-01-29 2020-10-16 广州势必可赢网络科技有限公司 一种在线语音实时检测方法及装置
CN111024209B (zh) * 2019-12-25 2022-03-29 深圳金信诺高新技术股份有限公司 一种适用于矢量水听器的线谱检测方法
US11790931B2 (en) 2020-10-27 2023-10-17 Ambiq Micro, Inc. Voice activity detection using zero crossing detection
TW202226225A (zh) * 2020-10-27 2022-07-01 美商恩倍科微電子股份有限公司 以零點交越檢測改進語音活動檢測之設備及方法
CN112833924B (zh) * 2021-01-07 2022-07-22 济南轲盛自动化科技有限公司 具备自动去噪功能的反射式编码器及去噪方法
US20230305111A1 (en) * 2022-03-23 2023-09-28 Nxp B.V. Direction of arrival (doa) estimation using circular convolutional network

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54139307A (en) * 1978-04-20 1979-10-29 Nec Corp Pitch extraction unit
JPS5642296A (en) * 1979-09-17 1981-04-20 Nippon Electric Co Pitch extractor
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
JPH0635500A (ja) * 1992-06-01 1994-02-10 Hughes Aircraft Co セルプを使用した音声圧縮装置
JPH0744198A (ja) * 1993-08-02 1995-02-14 Matsushita Electric Ind Co Ltd 長期予測遅延探索方法
JPH09127997A (ja) * 1995-10-26 1997-05-16 Sony Corp 音声符号化方法及び装置
JPH09134196A (ja) * 1995-11-08 1997-05-20 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH09185398A (ja) * 1995-09-19 1997-07-15 At & T Corp 改良型弛緩コード励起線形予測コーダ
JPH10187196A (ja) * 1996-09-26 1998-07-14 Rockwell Internatl Corp 低ビットレートピッチ遅れコーダ
JPH10222195A (ja) * 1996-12-02 1998-08-21 Oki Electric Ind Co Ltd 音声信号の符号化装置、復号化装置、符号化方法および復号化方法
JP2000132197A (ja) * 1998-10-27 2000-05-12 Matsushita Electric Ind Co Ltd Celp型音声符号化装置

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR660301A (fr) * 1927-09-17 1929-07-10 Appareil désargileur
DE2854484A1 (de) * 1978-12-16 1980-06-26 Bayer Ag Stabile waessrige zeolith-suspensionen
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
JP3194930B2 (ja) * 1990-02-22 2001-08-06 日本電気株式会社 音声符号化装置
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
EP0588932B1 (en) 1991-06-11 2001-11-14 QUALCOMM Incorporated Variable rate vocoder
JP3088163B2 (ja) * 1991-12-18 2000-09-18 沖電気工業株式会社 Lsp係数の量子化方法
GB9205932D0 (en) * 1992-03-18 1992-04-29 Philips Electronics Uk Ltd Method and apparatus for editing an audio signal
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP3148778B2 (ja) * 1993-03-29 2001-03-26 日本電信電話株式会社 音声の符号化方法
JP3531935B2 (ja) * 1992-09-16 2004-05-31 富士通株式会社 音声符号化方法及び装置
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP3510643B2 (ja) * 1993-01-07 2004-03-29 株式会社東芝 音声信号のピッチ周期処理方法
DE69413002T2 (de) * 1993-01-21 1999-05-06 Apple Computer, Inc., Cupertino, Calif. Text-zu-sprache-Uebersetzungssystem unter Verwendung von Sprachcodierung und Decodierung auf der Basis von Vectorquantisierung
JP2616549B2 (ja) * 1993-12-10 1997-06-04 日本電気株式会社 音声復号装置
CA2136891A1 (en) 1993-12-20 1995-06-21 Kalyan Ganesan Removal of swirl artifacts from celp based speech coders
US5731767A (en) * 1994-02-04 1998-03-24 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus, information recording medium, and information transmission method
JPH07273738A (ja) * 1994-03-28 1995-10-20 Toshiba Corp 音声送信制御回路
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5751903A (en) 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US5774846A (en) 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5727072A (en) * 1995-02-24 1998-03-10 Nynex Science & Technology Use of noise segmentation for noise cancellation
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
US5797121A (en) * 1995-12-26 1998-08-18 Motorola, Inc. Method and apparatus for implementing vector quantization of speech parameters
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
JPH09244695A (ja) * 1996-03-04 1997-09-19 Kobe Steel Ltd 音声符号化装置及び復号化装置
US6215910B1 (en) * 1996-03-28 2001-04-10 Microsoft Corporation Table-based compression with embedded coding
JP3824706B2 (ja) * 1996-05-08 2006-09-20 松下電器産業株式会社 音声符号化/復号化装置
JP3259759B2 (ja) * 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JP3270922B2 (ja) * 1996-09-09 2002-04-02 富士通株式会社 符号化,復号化方法及び符号化,復号化装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
JP3367592B2 (ja) * 1996-09-24 2003-01-14 日本電信電話株式会社 自動利得調整装置
JP4003240B2 (ja) * 1996-11-07 2007-11-07 松下電器産業株式会社 音声符号化装置及び音声復号化装置
JP3464371B2 (ja) * 1996-11-15 2003-11-10 ノキア モービル フォーンズ リミテッド 不連続伝送中に快適雑音を発生させる改善された方法
JP3331297B2 (ja) * 1997-01-23 2002-10-07 株式会社東芝 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US6026356A (en) * 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54139307A (en) * 1978-04-20 1979-10-29 Nec Corp Pitch extraction unit
JPS5642296A (en) * 1979-09-17 1981-04-20 Nippon Electric Co Pitch extractor
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
JPH0635500A (ja) * 1992-06-01 1994-02-10 Hughes Aircraft Co セルプを使用した音声圧縮装置
JPH0744198A (ja) * 1993-08-02 1995-02-14 Matsushita Electric Ind Co Ltd 長期予測遅延探索方法
JPH09185398A (ja) * 1995-09-19 1997-07-15 At & T Corp 改良型弛緩コード励起線形予測コーダ
JPH09127997A (ja) * 1995-10-26 1997-05-16 Sony Corp 音声符号化方法及び装置
JPH09134196A (ja) * 1995-11-08 1997-05-20 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH10187196A (ja) * 1996-09-26 1998-07-14 Rockwell Internatl Corp 低ビットレートピッチ遅れコーダ
JPH10222195A (ja) * 1996-12-02 1998-08-21 Oki Electric Ind Co Ltd 音声信号の符号化装置、復号化装置、符号化方法および復号化方法
JP2000132197A (ja) * 1998-10-27 2000-05-12 Matsushita Electric Ind Co Ltd Celp型音声符号化装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8620647B2 (en) 1998-09-18 2013-12-31 Wiav Solutions Llc Selection of scalar quantixation (SQ) and vector quantization (VQ) for speech coding
US9190066B2 (en) 1998-09-18 2015-11-17 Mindspeed Technologies, Inc. Adaptive codebook gain control for speech coding
US9269365B2 (en) 1998-09-18 2016-02-23 Mindspeed Technologies, Inc. Adaptive gain reduction for encoding a speech signal
US8620649B2 (en) 1999-09-22 2013-12-31 O'hearn Audio Llc Speech coding system and method using bi-directional mirror-image predicted pulses
US10204628B2 (en) 1999-09-22 2019-02-12 Nytell Software LLC Speech coding system and method using silence enhancement
US10181327B2 (en) 2000-05-19 2019-01-15 Nytell Software LLC Speech gain quantization strategy
USRE43570E1 (en) 2000-07-25 2012-08-07 Mindspeed Technologies, Inc. Method and apparatus for improved weighting filters in a CELP encoder

Also Published As

Publication number Publication date
JP2011203737A (ja) 2011-10-13
EP2088585A1 (en) 2009-08-12
EP2085966A1 (en) 2009-08-05
JP2010181891A (ja) 2010-08-19
JP5519334B2 (ja) 2014-06-11
JP4995293B2 (ja) 2012-08-08
CA2341712C (en) 2008-01-15
TW454170B (en) 2001-09-11
JP5374418B2 (ja) 2013-12-25
WO2000011650A1 (en) 2000-03-02
JP2010181892A (ja) 2010-08-19
EP2259255A1 (en) 2010-12-08
JP2010181889A (ja) 2010-08-19
CA2341712A1 (en) 2000-03-02
EP2088584A1 (en) 2009-08-12
JP5476160B2 (ja) 2014-04-23
EP2088587A1 (en) 2009-08-12
EP2088586A1 (en) 2009-08-12
EP1110209B1 (en) 2008-10-08
JP2002523806A (ja) 2002-07-30
JP5412463B2 (ja) 2014-02-12
US6240386B1 (en) 2001-05-29
JP2010181893A (ja) 2010-08-19
EP1110209A1 (en) 2001-06-27

Similar Documents

Publication Publication Date Title
JP5519334B2 (ja) 音声符号化用開ループピッチ処理
US6813602B2 (en) Methods and systems for searching a low complexity random codebook structure
US6330533B2 (en) Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6493665B1 (en) Speech classification and parameter weighting used in codebook search
US6260010B1 (en) Speech encoder using gain normalization that combines open and closed loop gains
US6507814B1 (en) Pitch determination using speech classification and prior pitch estimation
US6823303B1 (en) Speech encoder using voice activity detection in coding noise
US6173257B1 (en) Completed fixed codebook for speech encoder
EP1194924B1 (en) Adaptive tilt compensation for synthesized speech residual
US8635063B2 (en) Codebook sharing for LSF quantization
US6449590B1 (en) Speech encoder using warping in long term preprocessing
KR20020077389A (ko) 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱
WO2000011651A9 (en) Synchronized encoder-decoder frame concealment using speech coding parameters

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120410

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120706

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120711

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120809

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120813

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120814

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130819

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130822

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130920

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130926

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131018

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131023

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20131121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140403

R150 Certificate of patent or registration of utility model

Ref document number: 5519334

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term