JP6812504B2 - 音声符号化方法および関連装置 - Google Patents

音声符号化方法および関連装置 Download PDF

Info

Publication number
JP6812504B2
JP6812504B2 JP2019118554A JP2019118554A JP6812504B2 JP 6812504 B2 JP6812504 B2 JP 6812504B2 JP 2019118554 A JP2019118554 A JP 2019118554A JP 2019118554 A JP2019118554 A JP 2019118554A JP 6812504 B2 JP6812504 B2 JP 6812504B2
Authority
JP
Japan
Prior art keywords
linear prediction
prediction efficiency
voice frame
historical
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019118554A
Other languages
English (en)
Other versions
JP2019204097A (ja
Inventor
▲ジー▼ 王
▲ジー▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2019204097A publication Critical patent/JP2019204097A/ja
Application granted granted Critical
Publication of JP6812504B2 publication Critical patent/JP6812504B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

発明は音声符号化技術に関し、特に、音声符号化方法および関連装置に関する。
過去の非常に長い期間の間、会話信号符号化は非会話信号(例えば、音楽)符号化と比較的独立している。即ち、会話信号符号化は専用の会話符号化器により実装され、非会話信号符号化は専用の非会話符号化器により実装される(非会話符号化器はまた、汎用音声符号化器と呼ばれることもある)。
一般に、会話符号化が符号化理論において非会話信号符号化と比較的独立であるからだけではなく、当該2つのタイプの信号が実際のアプリケーションでは一般に相対的に独立であるので、会話符号化器は非会話信号を符号化するために使用されず、非会話符号化器は会話信号を符号化するために使用されない。例えば、音声通信ネットワークにおいて、過去の非常に長期間の間、音声は全てのまたは主要な信号源であり、帯域幅が厳密に制限されているので、低速の様々な会話符号化器が音声通信ネットワークで広く利用されている。ビデオやエンターテイメントのようなアプリケーションでは、非会話信号が主要な信号源であり、これらのアプリケーションはオーディオ品質に比較的高い要件を課し、ビット・レートに比較的低い要件を課すので、非会話符号化器がこれらのシナリオで広く利用されている。
近年、カスタマイズされたリング・バック・トーンのような増大するマルチメディア信号源が従来の音声通信ネットワークに現れ、符号化器の符号化品質により高い要件を課している。専用の会話符号化器はこれらのマルチメディア信号により要求される比較的高い符号化品質を提供できず、混合音声符号化器のような新たな符号化技術が、時代の要求とともに出現している。
混合音声符号化器は、会話信号の符号化に適したサブ符号化器を含み非会話信号の符号化に適したサブ符号化器をさらに含む、音声符号化器である。混合音声符号化器は、常に、最も適したサブ符号化器を、入力音声信号を符号化するための全てのサブ符号化器から動的に選択しようとする。最も適したサブ符号化器を、現在の入力音声信号を符号化するための全てのサブ符号化器からどのように選択するかは、混合符号化器の重要な機能かつ要件であり、サブ符号化器選択はモード選択とも呼ばれ、混合符号化器の符号化品質に直接関連する。
先行技術では、サブ符号化器は一般に閉ループ・モードで選択される。即ち、各サブ符号化器は、現在の入力オーディオ・フレームを一度符号化するために使用され、当該符号化された現在の音声フレームの品質を直接比較することによって最適なサブ符号化器が選択される。しかし、閉ループ・モードの欠点は、(各サブ符号化器が当該入力された現在の音声フレームを一度符号化するために使用されるので)符号化動作の複雑性が比較的高く、さらに音声符号化の実際のオーバヘッドが相対的に大きいことである。
本発明の諸実施形態では、音声符号化のオーバヘッドを削減するための、音声符号化方法および関連装置を提供する。
本発明の諸実施形態の第1の態様では、現在の音声フレームの基準線形予測効率を推定するステップと、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップと、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って、音声符号化を現在の音声フレームに実施するステップとを含む、音声符号化方法を提供する。
第1の態様を参照して、第1の態様の第1の可能な実装方式では、当該基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。
第1の態様の第1の可能な実装方式を参照して、第1の態様の第2の可能な実装方式では、当該基準統合線形予測効率は、当該基準長期線形予測効率と当該基準短期線形予測効率の合計値、重み付き合計値、または平均値である。
第1の態様の第1の可能な実装方式を参照して、第1の態様の第3の可能な実装方式では、現在の音声フレームの基準線形予測効率が、現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、
現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ、
および/または、
現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含む。
第1の態様の第1の可能な実装方式を参照して、第1の態様の第4の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、
現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、および/または、
現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
第1の態様の第1の可能な実装方式を参照して、第1の態様の第5の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップであって、第1の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第1の音声符号化方式は線形予測に基づく音声符号化方式である、ステップを含む。
第1の態様の第1の可能な実装方式を参照して、第1の態様の第6の可能な実装方式では、現在の音声フレームの基準線形予測効率が、現在の音声フレームの基準短期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、
現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、および/または、
現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
第1の態様の第1の可能な実装方式を参照して、第1の態様の第7の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準短期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップであって、第2の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第2の音声符号化方式は線形予測に基づく音声符号化方式である、ステップを含む。
第1の態様の第1の可能な実装方式または第1の態様の第2の可能な実装方式を参照して、第1の態様の第8の可能な実装方式では、
現在の音声フレームの基準線形予測効率が現在の音声フレームの基準統合線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、
現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、および/または、
現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
第1の態様の第1の可能な実装方式または第1の態様の第2の可能な実装方式を参照して、第1の態様の第9の可能な実装方式では、
現在の音声フレームの基準線形予測効率が現在の音声フレームの基準統合線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップであって、第3の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第3の音声符号化方式は線形予測に基づく音声符号化方式である、ステップを含む。
第1の態様の第1乃至第9の可能な実装方式を参照して、第1の態様の第10の可能な実装方式では、現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、現在の音声フレームの長期線形予測効率を推定するステップであって、現在の音声フレームの長期線形予測効率は現在の音声フレームの基準長期線形予測効率である、ステップにより取得され、または、
現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得し、当該N1個の履歴音声フレームの線形予測効率および現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップであって、N1は正の整数であり、第1の統計値は現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、当該N11個の履歴音声フレームは当該N1個の履歴音声フレームのサブセットである、ステップにより取得され、または、
現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得し、当該N2個の履歴音声フレームの基準線形予測効率および現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップであって、N2は正の整数であり、第2の統計値は現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、当該N21個の履歴音声フレームは当該N2個の履歴音声フレームのサブセットである、ステップにより取得され、または、
現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得し、現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得し、当該N3個の履歴音声フレームの線形予測効率、当該N4個の履歴音声フレームの基準線形予測効率、および現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップであって、N3およびN4は正の整数であり、第3の統計値は現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、当該N31個の履歴音声フレームは当該N3個の履歴音声フレームのサブセットであり、当該N41個の履歴音声フレームは当該N4個の履歴音声フレームのサブセットである、ステップにより取得される。
第1の態様の第1乃至第9の可能な実装方式を参照して、第1の態様の第11の可能な実装方式では、
現在の音声フレームの基準短期線形予測効率は以下の方式における推定、即ち、現在の音声フレームの短期線形予測効率を推定するステップであって、現在の音声フレームの短期線形予測効率は現在の音声フレームの基準短期線形予測効率である、ステップにより取得され、または、
現在の音声フレームの基準短期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得し、当該N5個の履歴音声フレームの線形予測効率および現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップであって、N5は正の整数であり、第4の統計値は現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、当該N51個の履歴音声フレームは当該N5個の履歴音声フレームのサブセットである、ステップにより取得され、または、
現在の音声フレームの基準短期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得し、当該N6個の履歴音声フレームの基準線形予測効率および現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップであって、N6は正の整数であり、第5の統計値は現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、当該N61個の履歴音声フレームは当該N6個の履歴音声フレームのサブセットである、ステップにより取得され、または、
現在の音声フレームの基準短期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得し、現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得し、当該N7個の履歴音声フレームの線形予測効率、当該N8個の履歴音声フレームの基準線形予測効率、および現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップであって、N7およびN8は正の整数であり、第6の統計値は現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、当該N71個の履歴音声フレームは当該N7個の履歴音声フレームのサブセットであり、当該N81個の履歴音声フレームは当該N8個の履歴音声フレームのサブセットである、ステップにより取得される。
第1の態様の第11の可能な実装方式を参照して、第1の態様の第12の可能な実装方式では、推定により現在の音声フレームの短期線形予測効率を取得するステップは、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップを含む。
第1の態様の第12の可能な実装方式を参照して、第1の態様の第13の可能な実装方式では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップは、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するステップであって、当該エネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は当該エネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された現在の音声フレームのエネルギは現在の音声フレームの線形予測残差のエネルギである、ステップを含む。
第1の態様の第13の可能な実装方式を参照して、第1の態様の第14の可能な実装方式では、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのエネルギ変化率は、短期線形予測が現在の音声フレームに実施される前に取得された現在の音声フレームのエネルギの、現在の音声フレームの線形予測残差のエネルギに対する比率である。
第1の態様の第10の可能な実装方式を参照して、第1の態様の第15の可能な実装方式では、推定により現在の音声フレームの長期線形予測効率を取得するステップは、現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップであって、当該相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は当該相関に基づいて取得され、第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、第1の履歴線形予測残差は現在の音声フレームの履歴音声フレームの線形予測残差であり、第1の履歴線形予測励起は現在の音声フレームの履歴音声フレームの線形予測励起である、ステップを含む。
第1の態様の第15の可能な実装方式を参照して、第1の態様の第16の可能な実装方式では、現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップは、
現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するステップ、
または、
現在の音声フレームの線形予測残差に利得因子を乗じて、現在の音声フレームの増幅された線形予測残差を取得し、現在の音声フレームの増幅された線形予測残差および第1の履歴線形予測信号の間の相関を計算により取得するステップであって、現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の計算により得られた相関は現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関である、ステップ、または、
第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、現在の音声フレームの線形予測残差および当該増幅された第1の履歴線形予測信号の間の相関を計算により取得するステップであって、現在の音声フレームの線形予測残差と当該増幅された第1の履歴線形予測信号との間の計算により得られた相関は現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関である、ステップを含む。
第1の態様の第15の可能な実装方式または第1の態様の第16の可能な実装方式を参照して、第1の態様の第17の可能な実装方式では、第1の履歴線形予測励起または第1の履歴線形予測残差は現在の音声フレームのピッチに基づいて決定される。
第1の態様の第15乃至第17の可能な実装方式を参照して、第1の態様の第18の可能な実装方式では、第1の履歴線形予測励起および現在の音声フレームの線形予測残差の間の時間領域相関は、他の履歴線形予測励起および現在の音声フレームの線形予測残差の間の時間領域相関以上であるか、または、
第1の履歴線形予測残差および現在の音声フレームの線形予測残差の間の時間領域相関は、別の履歴線形予測残差および現在の音声フレームの線形予測残差の間の時間領域相関以上である。
第1の態様の第15乃至第18の可能な実装方式を参照して、第1の態様の第19の可能な実装方式では、第1の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起である。
第1の態様の第15乃至第19の可能な実装方式を参照して、第1の態様の第20の可能な実装方式では、第1の履歴線形予測残差は現在の音声フレームの第1の履歴音声フレームの時間領域信号および第1の履歴音声フレームの線形予測係数に基づいて取得され、第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。
第1の態様の第15乃至第20の可能な実装方式を参照して、第1の態様の第21の可能な実装方式では、現在の音声フレームの線形予測残差は現在の音声フレームの時間領域信号および現在の音声フレームの線形予測係数に基づいて取得され、現在の音声フレームの線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である。
第1の態様の第15乃至第21の可能な実装方式を参照して、第1の態様の第22の可能な実装方式では、第1の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または、第1の履歴線形予測励起は適応コードブック励起である。
第1の態様の第15乃至第22の可能な実装方式を参照して、第1の態様の第23の可能な実装方式では、当該相関は時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、当該相関は時間領域歪みおよび/または周波数領域歪みである。
第1の態様の第23の可能な実装方式を参照して、第1の態様の第24の可能な実装方式では、当該周波数領域歪みは当該周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であるか、または、当該周波数領域歪みは当該周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であり、K1およびK2は正の整数である。
第1の態様の第24の可能な実装方式を参照して、第1の態様の第25の可能な実装方式では、当該歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。
本発明の諸実施形態の第2の態様では、現在の音声フレームの基準線形予測効率を推定するように構成された推定ユニットと、当該推定ユニットにより推定された現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するように構成された決定ユニットと、現在の音声フレームの基準線形予測効率にマッチし当該決定ユニットにより決定された音声符号化方式に従って現在の音声フレームに音声符号化を実施するように構成された符号化ユニットとを備える音声符号化器を提供する。
第2の態様を参照して、第2の態様の第1の可能な実装方式では、当該基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。
第2の態様の第1の可能な実装方式を参照して、第2の態様の第2の可能な実装方式では、当該基準統合線形予測効率は、当該基準長期線形予測効率と当該基準短期線形予測効率の合計値、重み付き合計値、または平均値である。
第2の態様の第1の可能な実装方式を参照して、第2の態様の第3の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率を含む場合、当該決定ユニットは特に、
現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、
かつ/または、
現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
第2の態様の第1の可能な実装方式を参照して、第2の態様の第4の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率を含む場合、当該決定ユニットは特に、
現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、かつ/または、
現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
第2の態様の第1の可能な実装方式を参照して、第2の態様の第5の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率を含む場合、当該決定ユニットは特に、現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成され、第1の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第1の音声符号化方式は線形予測に基づく音声符号化方式である。
第2の態様の第1の可能な実装方式を参照して、第2の態様の第6の可能な実装方式では、現在の音声フレームの基準線形予測効率が、現在の音声フレームの基準短期線形予測効率を含む場合、当該決定ユニットは特に、
現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、かつ/または、
現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
第2の態様の第1の可能な実装方式を参照して、第2の態様の第7の可能な実装方式では、現在の音声フレームの基準線形予測効率が、現在の音声フレームの基準短期線形予測効率を含む場合、当該決定ユニットは特に、現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成され、第2の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第2の音声符号化方式は線形予測に基づく音声符号化方式である。
第2の態様の第1の可能な実装方式または第2の態様の第2の可能な実装方式を参照して、第2の態様の第8の可能な実装方式では、
現在の音声フレームの基準線形予測効率が現在の音声フレームの基準統合線形予測効率を含む場合、当該決定ユニットは特に、
現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、かつ/または、
現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
第2の態様の第1の可能な実装方式または第2の態様の第2の可能な実装方式を参照して、第2の態様の第9の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準統合線形予測効率を含む場合、当該決定ユニットは特に、現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成され、第3の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第3の音声符号化方式は線形予測に基づく音声符号化方式である。
第2の態様の第1乃至第9の可能な実装方式を参照して、第2の態様の第10の可能な実装方式では、現在の音声フレームの基準長期線形予測効率を推定する態様において、当該推定ユニットは特に、現在の音声フレームの長期線形予測効率を推定するように構成され、現在の音声フレームの長期線形予測効率は現在の音声フレームの基準長期線形予測効率であるか、または、
現在の音声フレームの基準長期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得し、当該N1個の履歴音声フレームの線形予測効率および現在の音声フレームの長期線形予測効率の第1の統計値を計算するように構成され、N1は正の整数であり、第1の統計値は現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、当該N11個の履歴音声フレームは当該N1個の履歴音声フレームのサブセットであるか、または、
現在の音声フレームの基準長期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得し、当該N2個の履歴音声フレームの基準線形予測効率および現在の音声フレームの長期線形予測効率の第2の統計値を計算するように構成され、N2は正の整数であり、第2の統計値は現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、当該N21個の履歴音声フレームは当該N2個の履歴音声フレームのサブセットであるか、または、
現在の音声フレームの基準長期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得し、現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得し、当該N3個の履歴音声フレームの線形予測効率、当該N4個の履歴音声フレームの基準線形予測効率、および現在の音声フレームの長期線形予測効率の第3の統計値を計算するように構成され、N3およびN4は正の整数であり、第3の統計値は現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、当該N31個の履歴音声フレームは当該N3個の履歴音声フレームのサブセットであり、当該N41個の履歴音声フレームは当該N4個の履歴音声フレームのサブセットである。
第2の態様の第1乃至第9の可能な実装方式を参照して、第2の態様の第11の可能な実装方式では、
現在の音声フレームの基準短期線形予測効率を推定する態様において、当該推定ユニットは特に、現在の音声フレームの短期線形予測効率を推定するように構成され、現在の音声フレームの短期線形予測効率は現在の音声フレームの基準短期線形予測効率であるか、
または、
現在の音声フレームの基準短期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得し、当該N5個の履歴音声フレームの線形予測効率および現在の音声フレームの短期線形予測効率の第4の統計値を計算するように構成され、N5は正の整数であり、第4の統計値は現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、当該N51個の履歴音声フレームは当該N5個の履歴音声フレームのサブセットであるか、または、
現在の音声フレームの基準短期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得し、当該N6個の履歴音声フレームの基準線形予測効率および現在の音声フレームの短期線形予測効率の第5の統計値を計算するように構成され、N6は正の整数であり、第5の統計値は現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、当該N61個の履歴音声フレームは当該N6個の履歴音声フレームのサブセットであるか、または、
現在の音声フレームの基準短期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得し、現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得し、当該N7個の履歴音声フレームの線形予測効率、当該N8個の履歴音声フレームの基準線形予測効率、および現在の音声フレームの短期線形予測効率の第6の統計値を計算するように構成され、N7およびN8は正の整数であり、第6の統計値は現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、当該N71個の履歴音声フレームは当該N7個の履歴音声フレームのサブセットであり、当該N81個の履歴音声フレームは当該N8個の履歴音声フレームのサブセットである。
第2の態様の第11の可能な実装方式を参照して、第2の態様の第12の可能な実装方式では、推定により現在の音声フレームの短期線形予測効率を取得する態様において、当該推定ユニットは特に、現在の音声フレームの短期線形予測効率を現在の音声フレームの線形予測残差に基づいて取得するように構成される。
第2の態様の第12の可能な実装方式を参照して、第2の態様の第13の可能な実装方式では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、当該推定ユニットは特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成され、当該エネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は当該エネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された現在の音声フレームのエネルギは現在の音声フレームの線形予測残差のエネルギである。
第2の態様の第13の可能な実装方式を参照して、第2の態様の第14の可能な実装方式では、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのエネルギ変化率は、短期線形予測が現在の音声フレームに実施される前に取得された現在の音声フレームのエネルギの、現在の音声フレームの線形予測残差のエネルギに対する比率である。
第2の態様の第10の可能な実装方式を参照して、第2の態様の第15の可能な実装方式では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、当該推定ユニットは特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の計算に従って取得するように構成され、当該相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は当該相関に基づいて取得され、第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、第1の履歴線形予測残差は現在の音声フレームの履歴音声フレームの線形予測残差であり、第1の履歴線形予測励起は現在の音声フレームの履歴音声フレームの線形予測励起である。
第2の態様の第15の可能な実装方式を参照して、第2の態様の第16の可能な実装方式では、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の計算に従って取得する態様において、当該推定ユニットは特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するように構成されるか、または、
現在の音声フレームの線形予測残差に利得因子を乗じて、現在の音声フレームの増幅された線形予測残差を取得し、現在の音声フレームの増幅された線形予測残差および第1の履歴線形予測信号の間の相関を計算により取得するように構成され、現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の計算により得られた相関は現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関であるか、または、
第1の履歴線形予測信号に利得因子を乗じて、増幅された第1の履歴線形予測信号を取得し、現在の音声フレームの線形予測残差および当該増幅された第1の履歴線形予測信号の間の相関を計算により取得するように構成され、現在の音声フレームの線形予測残差と当該増幅された第1の履歴線形予測信号との間の計算により得られた相関は現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関である。
第2の態様の第15の可能な実装方式または第2の態様の第16の可能な実装方式を参照して、第2の態様の第17の可能な実装方式では、第1の履歴線形予測励起または第1の履歴線形予測残差は現在の音声フレームのピッチに基づいて決定される。
第2の態様の第15乃至第17の可能な実装方式を参照して、第2の態様の第18の可能な実装方式では、第1の履歴線形予測励起および現在の音声フレームの線形予測残差の間の時間領域相関は、他の履歴線形予測励起および現在の音声フレームの線形予測残差の間の時間領域相関以上であるか、または、
第1の履歴線形予測残差および現在の音声フレームの線形予測残差の間の時間領域相関は、別の履歴線形予測残差および現在の音声フレームの線形予測残差の間の時間領域相関以上である。
第2の態様の第15乃至第18の可能な実装方式を参照して、第2の態様の第19の可能な実装方式では、第1の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起である。
第2の態様の第15乃至第19の可能な実装方式を参照して、第2の態様の第20の可能な実装方式では、第1の履歴線形予測残差は現在の音声フレームの第1の履歴音声フレームの時間領域信号および第1の履歴音声フレームの線形予測係数に基づいて取得され、第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。
第2の態様の第15乃至第20の可能な実装方式を参照して、第2の態様の第21の可能な実装方式では、現在の音声フレームの線形予測残差は現在の音声フレームの時間領域信号および現在の音声フレームの線形予測係数に基づいて取得され、現在の音声フレームの線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である。
第2の態様の第15乃至第21の可能な実装方式を参照して、第2の態様の第22の可能な実装方式では、第1の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または第1の履歴線形予測励起は適応コードブック励起である。
第2の態様の第15乃至第22の可能な実装方式を参照して、第2の態様の第23の可能な実装方式では、当該相関は時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または当該相関は時間領域歪みおよび/または周波数領域歪みである。
第2の態様の第23の可能な実装方式を参照して、第2の態様の第24の可能な実装方式では、当該周波数領域歪みは当該周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であるか、または、当該周波数領域歪みは当該周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であり、K1およびK2は正の整数である。
第2の態様の第24の可能な実装方式を参照して、第2の態様の第25の可能な実装方式では、当該歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。
本発明の幾つかの実施形態の技術的解決策では、現在の音声フレームの基準線形予測効率が先ず推定され、当該推定された基準線形予測効率にマッチする音声符号化方式が上述の現在の音声フレームの推定された基準線形予測効率を用いて決定され、音声符号化が、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って上述の現在の音声フレームに実施されることは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の技術的解決策は、音声符号化の動作複雑性の削減を支援し、さらに音声符号化のオーバヘッドが減る。
本発明の当該実施形態における技術的解決策をより明確に説明するために、以下では当該実施形態を説明するのに必要な添付図面を簡単に説明する。明らかに、以下の説明における添付図面は本発明の幾つかの実施形態を示すにすぎず、当業者は創造的努力なしにこれらの添付図面から他の図面を依然として導出することができる。
本発明の1実施形態に従う音声符号化方法の略流れ図である。 本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。 本発明の1実施形態に従う音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。 本発明の別の実施形態に従う別の音声符号化器の略構造図である。
本発明の諸実施形態では、音声符号化のオーバヘッドを削減するための音声符号化方法および関連装置を提供する。
当業者に本発明の技術的解決策をより良く理解させるように、以下では、本発明の当該実施形態における添付図面を参照して、本発明の当該実施形態における技術的解決策を明確かつ十分に説明する。明らかに、説明した実施形態は本発明の諸実施形態の全部ではなく一部にすぎない。当業者が創造的努力なしに本発明の諸実施形態に基づいて取得する他の全ての実施形態は本発明の保護範囲に入るものとする。
詳細を以下で別々に説明する。
本発明の明細書、特許請求の範囲、および添付図面では、「第1の」、「第2の」、「第3の」、「第4の」等の用語は異なるオブジェクトを区別するためのものであり、特定の順序を示すものではない。さらに、「含む」、「有する」という用語、およびその他の任意の変形は非包括的な包含をカバーしようとするものである。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、または装置は、列挙したステップまたはユニットに限定されず、列挙しないステップまたはユニットを任意選択でさらに含み、または、当該プロセス、当該方法、当該製品、または当該装置の別の固有なステップまたはユニットを任意選択でさらに含む。
以下では先ず、本発明の当該実施形態で提供する音声符号化方法を説明する。本発明の当該実施形態で提供する音声符号化方法を音声符号化器により実行してもよい。当該音声符号化器が、音声信号を収集、格納、または外部に送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
本発明の音声符号化方法の1実施形態では、当該音声符号化方法が、現在の音声フレームの基準線形予測効率を推定するステップと、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップと、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するステップを含んでもよい。
先ず、図1を参照すると、図1は、本発明の1実施形態に従う音声符号化方法の略流れ図である。図1に示すように、本発明の当該実施形態で提供する音声符号化方法が以下の内容を含んでもよい。
101.現在の音声フレームの基準線形予測効率を推定する。
実際の適用では、現在の音声フレームの基準線形予測効率を、複数の利用可能なアルゴリズムを用いて推定してもよい。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。説明の簡単さのため、線形予測効率の値範囲が0‐1(即ち、0‐100%)である例を以下で主に使用し、別の値範囲をこれから導出してもよい。
102.上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を決定する。
本発明の幾つかの実施形態では、基準線形予測効率の音声符号化方式と音声フレームとの間の1組のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよく、または、異なる音声符号化方式が異なる基準線形予測効率間隔に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも2つの音声符号化方式から決定してもよい。
103.上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って、音声符号化を上述の現在の音声フレームに実施する。
本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを最初に決定してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。即ち、ステップ101乃至ステップ103は、現在の音声フレームが会話音声フレームであるかどうかまたは非会話音声フレームであるかどうかに関らず実行される。
本実施形態の技術的解決策では、現在の音声フレームの基準線形予測効率が先ず推定され、当該推定された基準線形予測効率にマッチする音声符号化方式が上述の現在の音声フレームの推定された基準線形予測効率を用いて決定され、音声符号化が、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って上述の現在の音声フレームに実施されることは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは別の音声フレーム)の基準統合線形予測効率は当該音声フレームの基準長期線形予測効率および当該音声フレームの基準短期線形予測効率に基づいて取得される。例えば、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。
本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式が、代数符号励起線形予測(ACELP、ACELP, Algebraic Code Excited Linear Prediction)符号化、変換符号化励起(TCX、Transform Coded Excitation)等を含んでもよく、線形予測に基づかない音声符号化方式が、汎用音声符号化(GAC、Generic Audio Coding)を含んでもよく、GACが、例えば、修正離散余弦変換(MDCT、Modified Discrete Cosine Transform)符号化または離散余弦変換(DCT、Discrete Cosine Transform)符号化を含んでもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含む。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、3つの線形予測効率間隔があり、それぞれ0‐30%GAC、30‐70%TCX、および70‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐30%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔0‐30%である)場合、線形予測効率間隔0‐30%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式(例えば、GAC)であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔30‐70%に入る(即ち、第1の線形予測効率間隔が線形予測効率間隔30‐70%である)場合、線形予測効率間隔30‐70%に対応する音声符号化方式(例えば、TCX)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔70‐100%に入る(即ち、第1の線形予測効率間隔が線形予測効率間隔70‐100%である)場合、線形予測効率間隔70‐100%に対応する音声符号化方式(例えば、ACELP符号化)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第2の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐40%、40‐60%、および60‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐40%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔0‐40%である)場合、線形予測効率間隔0‐40%に対応する音声符号化方式(例えば、GAC)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔40‐60%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔40‐60%である)場合、線形予測効率間隔40‐60%に対応する音声符号化方式(例えば、TCX)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定される。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔60‐100%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔60‐100%である)場合、線形予測効率間隔60‐100%に対応する音声符号化方式(例えば、ACELP符号化)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐50%、50‐80%、および80‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐50%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔0‐50%である)場合、線形予測効率間隔0‐50%に対応する音声符号化方式(例えば、GAC)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔50‐80%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔50‐80%である)場合、線形予測効率間隔50‐80%に対応する音声符号化方式(例えば、TCX)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定される。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔80‐100%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔80‐100%である)場合、線形予測効率間隔80‐100%に対応する音声符号化方式(例えば、ACELP符号化)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
上述の例で言及した閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、および第6の閾値)の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が0‐1である場合、第1の閾値の値が、0.2、0.5、0.6、0、8、0.9等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が0‐1である場合、第2の閾値の値が、0.3、0.3、0.6、0.8、0.9等であってもよく、別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。例えば、線形予測に基づく音声符号化方式(例えば、TCXまたはACELP符号化)を好適に選択して音声フレームを符号化する場合、対応する閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、または第6の閾値)を比較的小さく設定してもよい。線形予測に基づかない音声符号化方式(例えば、GAC符号化)を好適に選択して音声フレームを符号化する場合、対応する閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、または第6の閾値)を比較的大きく設定してもよい、等である。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
例えば、本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を、推定により以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより取得してもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
あるいは、上述の現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップとにより取得される。N1は正の整数であり(例えば、N1が1、2、3、または別の値に等しくてもよい)、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率を各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよく(例えば、上述のN11個の履歴音声フレームが音声フレームF1、F2、およびF3である場合、音声フレームF1の線形予測効率は音声フレームF1の以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、音声フレームF2の線形予測効率は音声フレームF2の以下の線形予測効率、即ち、音声フレームF3の長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、音声フレームF3の線形予測効率は、音声フレームF3の以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つである。音声フレームF1の統合線形予測効率を上述の音声フレームF1の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、音声フレームF2の統合線形予測効率を上述の音声フレームF2の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、音声フレームF3の統合線形予測効率を上述の音声フレームF3の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、N11が別の値であるシナリオはこれから導出される)、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである(N11はN1以下である)。上述のN1個の履歴音声フレームが、上述の現在の音声フレームの任意のN1個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接してもよい。上述のN1個の履歴音声フレーム内の上述のN11個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN11個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が例えば、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップとにより取得してもよい。N2は正の整数であり(例えば、N2が1、2、3、または別の値に等しくてもよい)、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである(N21はN2以下である)。上述のN2個の履歴音声フレームが、上述の現在の音声フレームの任意のN2個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN2個の履歴音声フレームであってもよい。上述のN2個の履歴音声フレーム内の上述のN21個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN21個の履歴音声フレームの線形予測効率と異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップとにより取得してもよい。N3およびN4は正の整数であり(例えば、N3およびN4が1、2、3、または別の値に等しくてもよい)、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、N31はN3以下である。上述のN3個の履歴音声フレームが、上述の現在の音声フレームの任意のN3個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN3個の履歴音声フレームであってもよい。上述のN3個の履歴音声フレームにおける、上述のN31個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN31個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、N41はN4以下である。上述のN4個の履歴音声フレームが、上述の現在の音声フレームの任意のN4個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN4個の履歴音声フレームであってもよい。上述のN4個の履歴音声フレームにおける、上述のN41個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN41個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームおよび上述のN4個の履歴音声フレームの積集合が空集合であってもよく、または、空集合でなくてもよい。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準短期線形予測効率は推定により、例えば、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより取得される。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得するステップと、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップとにより取得してもよい。N5は正の整数であり(例えば、N5が1、2、3、または別の値に等しくてもよい)、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである(N51はN5以下である)。上述のN5個の履歴音声フレームが、上述の現在の音声フレームの任意のN5個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN5個の履歴音声フレームであってもよい。上述のN5個の履歴音声フレーム内の上述のN51個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN51個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップとにより取得してもよい。N6は正の整数であり(例えば、N6が1、2、3、または別の値に等しくてもよい)、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである(N61はN6以下である)。上述のN6個の履歴音声フレームが、上述の現在の音声フレームの任意のN6個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN6個の履歴音声フレームであってもよい。上述のN6個の履歴音声フレームにおける、上述のN61個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN61個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得するステップと、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップとにより取得してもよい。N7およびN8は正の整数であり(例えば、N7およびN8が1、2、3、または別の値に等しくてもよい)、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットである(N71はN7以下である)。上述のN7個の履歴音声フレームが、上述の現在の音声フレームの任意のN7個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN7個の履歴音声フレームであってもよい。上述のN7個の履歴音声フレームにおける、上述のN71個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN71個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである(N81はN8以下である)。上述のN8個の履歴音声フレームが、上述の現在の音声フレームの任意のN8個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN8個の履歴音声フレームであってもよい。上述のN8個の履歴音声フレームにおける、上述のN81個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN81個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN7個の履歴音声フレームおよび上述のN8個の履歴音声フレームの積集合が空集合であってもよく、または、空集合でなくてもよい。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの短期線形予測効率を取得するステップが、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップを含んでもよい。
本発明の幾つかの実施形態では、例えば、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップは、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するステップを含む。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得するステップが、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップを含んでもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って取得してもよい。
例えば、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するステップを含んでもよい。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより大きい相関は上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、上述の相関が時間領域歪みおよび/または周波数領域歪みであってもよい(当該周波数領域歪みをまた、スペクトル歪みと称してもよい)。
本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよく、K1およびK2は正の整数である。
一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差を上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が適応コードブック励起と固定コードブック励起の重合せ励起であってもよく、または、上述の第1の履歴線形予測励起が適応コードブック励起であってもよく、または、上述の第1の履歴線形予測励起が別のタイプのコードブック励起であってもよい。
本発明の当該実施形態では、音声フレームの履歴音声フレーム(例えば、時間領域内の現在の音声フレームまたは現在の音声フレームに先行するかもしくは続く音声フレーム)は、同一の音声ストリーム内の時間領域における当該音声フレームに先行する音声フレームを指すことは理解されうる。履歴音声フレームが相対的な概念であることは理解できる。例えば、同一の音声ストリームに含まれる4つの音声フレームの時間領域シーケンスは音声フレームy1−>音声フレームy2−>音声フレームy3−>音声フレームy4であり、音声フレームy1、音声フレームy2、および音声フレームy3は音声フレームy4の履歴音声フレームであり、音声フレームy1および音声フレームy2は音声フレームy3の履歴音声フレームであり、音声フレームy1は音声フレームy2の履歴音声フレームであると仮定する。音声フレームy4は音声フレームy3の履歴音声フレームではなく、音声フレームy4は音声フレームy2または音声フレームy1の履歴音声フレームではなく、別のシナリオをこれから導出してもよいことは理解されうる。
本発明の当該実施形態における上述の技術的態様をより良く理解するのを支援するために、幾つかの特定の適用シナリオを以下で説明を行うための例として使用する。
先ず、図2を参照すると、図2は本発明の1実施形態に従う音声符号化方法の略流れ図である。図2に示すように、本発明の当該実施形態で提供する音声符号化方法が以下の内容を含んでもよい。
201.現在の音声フレームが会話音声フレームであるかどうかを判定する。
そうである場合、ステップ202が実行される。
そうでない場合、ステップ203が実行される。
202.会話符号化方式に基づいて音声符号化を上述の現在の音声フレームに実施する。
本発明の幾つかの実施形態では、現在の音声フレームが会話音声フレームである場合、音声符号化を、代数符号励起線形予測(ACELP、Algebraic Code Excited Linear Prediction)符号化に基づいて上述の現在の音声フレームに実施してもよい。例えば、現在の音声フレームが会話音声フレームである場合、現在の音声フレームを音声符号化のためにACELPサブ符号化器に入力してもよい。当該ACELPサブ符号化器はACELP符号化を使用するサブ符号化器である。
203.現在の音声フレームの基準線形予測効率を推定する。
現在の音声フレームの基準線形予測効率を、複数のアルゴリズムを用いて推定してもよい。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。
204.上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を決定する。
本発明の幾つかの実施形態では、音声フレームの音声符号化方式と基準線形予測効率との間のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも2つの音声符号化方式から決定してもよい。
上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式が、変換符号化励起(TCX、Transform Coded Excitation)であってもよく、または、汎用音声符号化(GAC、Generic Audio Coding)であってもよく、GACが例えば、修正離散余弦変換(Modified Discrete Cosine Transform)符号化であってもよい。
205.上述の決定された音声符号化方式に従って、音声符号化を上述の現在の音声フレームに実施する。
当該実施形態の技術的解決策では、現在の音声フレームが会話音声フレームであるかどうかが先ず決定され、現在の音声フレームが会話音声フレームである場合、音声符号化が会話符号化方式に基づいて上述の現在の音声フレームに実施されるか、または、現在の音声フレームが非会話音声フレームである場合は、現在の音声フレームの基準線形予測効率が先ず推定され、当該推定された基準線形予測効率にマッチする音声符号化方式が上述の現在の音声フレームの推定された基準線形予測効率を用いて決定され、音声符号化が、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って上述の現在の音声フレームに実施されることは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含む。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップであって、上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式である、ステップを含む。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、3つの線形予測効率間隔があり、それぞれ、0‐30%、30‐70%、および70‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐30%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔0‐30%である)場合、線形予測効率間隔0‐30%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔30‐70%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔30‐70%である)場合、線形予測効率間隔30‐70%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第2の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐40%、40‐60%、および60‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐40%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔0‐40%である)場合、線形予測効率間隔0‐40%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔40‐60%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔40‐60%である)場合、線形予測効率間隔40‐60%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐50%、50‐80%、および80‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐50%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔0‐50%である)場合、線形予測効率間隔0‐50%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔50‐80%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔50‐80%である)場合、線形予測効率間隔50‐80%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
例えば、本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより取得してもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
あるいは、上述の現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップとにより取得される。N1は正の整数であり、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が、例えば、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップとにより取得してもよい。N2は正の整数であり、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップとにより取得してもよい。N3およびN4は正の整数であり、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームおよび上述のN4個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準短期線形予測効率は推定により、例えば、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより取得される。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得するステップと、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップとにより取得してもよい。N5は正の整数であり、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップとにより取得してもよい。N6は正の整数であり、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得するステップと、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップとにより取得してもよい。N7およびN8は正の整数であり、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットであり、上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである。上述のN7個の履歴音声フレームおよび上述のN8個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの短期線形予測効率を取得するステップが、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップを含んでもよい。
本発明の幾つかの実施形態では、例えば、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップは、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するステップを含む。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得するステップが、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップを含んでもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの時間領域信号を、分析フィルタA(Z)を用いることによりフィルタして、現在の音声フレームの線形予測残差Rを取得してもよい。フィルタA(Z)のフィルタ係数は現在の音声フレームの線形予測係数である。
詳細については、以下の式1を参照されたい
Figure 0006812504
式1のS(i)は、現在の音声フレームのi番目の時間領域標本点の信号を示し、a(k)は現在の音声フレームのk番目の次数の線形予測係数を示し、Mはフィルタの次数の総数であり、Nは現在の音声フレームの時間領域長であり、R(i)は現在の音声フレームのi番目の時間領域標本点の線形予測残差を示す。
任意の音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測残差を上述の例の方式で取得してもよいことは理解されうる。
例えば、全ての音声フレームまたは幾つかの音声フレームの線形予測励起または線形予測残差をキャッシュしてもよく、その結果、当該線形予測励起または当該線形予測残差を、可能な次の音声フレームにおいて使用できる履歴線形予測励起または履歴線形予測残差として使用して、当該履歴線形予測励起または当該履歴線形予測残差と当該次の音声フレームの線形予測残差との間の相関を計算する。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って取得してもよい。
例えば、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するステップを含んでもよい。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値である。
本発明の任意の実装方式では、周波数領域における相互相関の関数値が計算されると、時間周波数変換(例えば、離散フーリエ変換(DFT、Discrete Fourier Transform)または離散余弦変換(DCT、discrete Cosine Transform))を現在の音声フレームの線形予測残差に実施して、現在の音声フレームの線形予測残差の周波数領域信号を取得してもよく、時間周波数変換(例えば、DFTまたはDCT)を第1の履歴線形予測信号に実施して、第1の履歴線形予測信号の周波数領域信号を取得してもよい。以下は相関計算式を列挙する。当該式は式1で示される。
Figure 0006812504
上述の式2のCは、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の時間領域における相互相関の関数値を示し、R(i)は、現在の音声フレームのi番目の時間領域標本点の線形予測残差を示し、E(i)は、第1の履歴線形予測信号のi番目の時間領域標本点の信号を示し、Nは、音声フレームの時間領域標本点の総量を示す。または、上述の式2のCは、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の周波数領域における相互相関の関数値を示し、R(i)は、現在の音声フレームの線形予測残差のi番目のスペクトル・エンベロープを示し、E(i)は、第1の履歴線形予測信号のi番目のスペクトル・エンベロープの信号を示し、Nは、音声フレームのスペクトル・エンベロープの総量を示す。確かに、別の相関計算方法は本発明では限定されない。
本発明における周波数領域相関を計算する別の実施形態において、ピッチ・ジッタをより良く克服するために、相互相関が計算される前にシフト処理を先ずR(i)またはE(i)の信号に実施してもよい。これは例えば式3で示される。
Figure 0006812504
式2に基づいて、シフト処理がさらに上述の式3におけるE(i)に実施され、jはシフト量を示し、jが整数であってもよく、シフト処理をR(i)に実施する方式は、シフト処理をE(i)に実施する方式と同様である。
本発明の他の実施形態では、上述の相関が、例えば、時間領域歪みおよび/または周波数領域歪みであってもよい。
本発明の任意の実装方式では、周波数領域歪みが計算されているとき、時間周波数変換(例えば、DFTまたはDCT)を、現在の音声フレームの線形予測残差に実施して現在の音声フレームの線形予測残差の周波数領域信号を取得してもよく、時間周波数変換(例えば、DFTまたはDCT)を、第1の履歴線形予測信号に実施して、第1の履歴線形予測信号の周波数領域信号を取得してもよい。現在の音声フレームの線形予測残差の周波数領域信号と第1の履歴線形予測信号の周波数領域信号との間の歪みDが計算される。
より小さな歪みDは、より強い相関およびより高い長期線形予測効率を示す。以下は歪みDの計算式を列挙する。これを式4に示す。
Figure 0006812504
式4のNは、音声フレームの時間領域標本点の総量を示してもよく、R(k)は、現在の音声フレームのk番目の時間領域標本点の線形予測残差を示し、E(k)は、第1の履歴線形予測信号のk番目の時間領域標本点の信号を示す。または、式4のNは、音声フレームのスペクトル・エンベロープの総量を示してもよく、R(k)は、現在の音声フレームの線形予測残差のk番目のスペクトル・エンベロープを示し、E(k)は、第1の履歴線形予測信号のk番目のスペクトル・エンベロープを示す。
以下は歪みDの2つの他の計算式を列挙する。これを式5または式6に示す。
Figure 0006812504
式5および式6のNは、音声フレームの時間領域標本点の総量を示してもよく、R(k)は、現在の音声フレームのk番目の時間領域標本点の線形予測残差を示し、E(k)は、第1の履歴線形予測信号のk番目の時間領域標本点の信号を示す。または、式5および式6のNは、音声フレームのスペクトル・エンベロープの総量を示してもよく、R(k)は、現在の音声フレームの線形予測残差のk番目のスペクトル・エンベロープを示し、E(k)は、第1の履歴線形予測信号のk番目のスペクトル・エンベロープを示す。
式5および式6のGは利得因子を示し、最小の歪みDは、Gの正しい値を選択することによって取得することができる。式4では、利得因子GはE(k)に適用され、式5では、利得因子GはR(k)に適用される。
本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよい。K1およびK2は正の整数である。
以下はさらに歪みDの3つの計算式を列挙する。これを式7または式8または式9に示す。
Figure 0006812504
式7乃至式9においてP(k)は重み付け係数のグループであり、P(k)が心理音響モデルを反映する知覚重み付け係数または他の重み付け係数のグループであってもよい。
式7乃至式9におけるN、R(k)、E(k)、およびGの意味は式5と同じである。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差を上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が適応コードブック励起および固定コードブック励起の重合せ励起であってもよく、または、上述の第1の履歴線形予測励起が適応コードブック励起であってもよい。
以下でさらに、上述の解決策を実装するための関連装置を提供する。
図3−aを参照すると、図3−aは本発明の別の実施形態に従う音声符号化器300の略構造図である。
時間領域音声信号を、フレームの単位で、本発明の当該実施形態で提供される音声符号化器300に入力してもよく、音声符号化器300により実施される符号化処理を受けた後、当該入力された音声フレームを比較的小さいビットストリームに圧縮してもよい。当該ビットストリームを記憶または送信に対して使用してもよく、当該元の時間領域音声フレームを、音声復号器を用いて復元してもよい。
本実施形態の音声符号化器300が、複数のサブ符号化器を含んでもよく、特に、少なくとも1つの線形予測ベースのサブ符号化器(説明の簡単さのため、線形予測ベースのサブ符号化器を以下の説明においてタイプAのサブ符号化器と称してもよい)と、線形予測に基づかないサブコードである少なくとも1つのサブ符号化器(説明の簡単さのため、線形予測に基づかないサブ符号化器を以下の説明ではタイプBの符号化器と称してもよい)を含んでもよい。
図3−aに示すように、音声符号化器300は、選択器301、タイプAのサブ符号化器302、タイプBのサブ符号化器303、および制御されたルータ304を含む。
選択器301は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化器を決定し、ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームを上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化器(例えば、Aタイプのサブ符号化器302またはBタイプのサブ符号化器303)に出力するように、制御されたルータ304を制御するように構成される。Aタイプのサブ符号化器302またはBタイプのサブ符号化器303は、音声符号化を当該入力された現在の音声フレームに実施し、符号化された音声信号を出力するように構成される。例えば、Aタイプのサブ符号化器302がTCX符号化器であってもよく、Bタイプのサブ符号化器302が、GAC符号化器であってもよく、例えば、Bタイプのサブ符号化器302がMDCT符号化器であってもよい。
本発明の幾つかの実施形態では、図3−bに示すように、図3−aに示すアーキテクチャを有する音声符号化器300に基づいて、分類器305およびサブ符号化器306をさらに追加してもよい。
分類器305は、現在の音声フレームが会話音声フレームであるかどうかを判定し、当該音声フレームが会話音声フレームである場合、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをサブ符号化器306に出力するように、制御されたルータ304を制御するように構成される。符号化器306は会話音声フレームの符号化に適したサブ符号化器であり、例えば、サブ符号化器306はACELP符号化器である。符号化器306は、音声符号化を当該入力された現在の音声フレームに実施し、当該符号化された音声信号を出力するように構成される。
本発明の幾つかの実施形態では、図3−cに示すように、選択器301が、判定ユニット3013、第1の推定ユニット3011、および第2の推定ユニット3022を備えてもよい。音声フレームの基準線形予測効率は、当該音声フレームの基準長期線形予測効率および基準短期線形予測効率を含む。
第1の推定ユニット3011は、現在の音声フレームの基準長期線形予測効率を推定するように構成される。
第2の推定ユニット3012は、現在の音声フレームの基準短期線形予測効率を推定するように構成される。
判定ユニット3013は、第1の推定ユニット3011により推定された上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ、/または、第2の推定ユニット3012により推定された上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器303に出力するように、制御されたルータ304を制御するか、または第1の推定ユニット3011により推定された上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、第2の推定ユニット3012により推定された上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器302に出力するように、制御されたルータ304を制御するように構成される。
本発明の幾つかの実施形態では、図3−dと図3−eに示すように、選択器301は第1の推定ユニット3011を備えないか、または、第2の推定ユニット3012を備えない。
図3−dに示すアーキテクチャでは、判定ユニット3013が、第1の推定ユニット3011により推定された上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器303に出力するように、制御されたルータ304を制御するか、または、第1の推定ユニット3011により推定された上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器302に出力するように、制御されたルータ304を制御するように構成されてもよい。
図3−eに示すアーキテクチャでは、判定ユニット3013が、第2の推定ユニット3012により推定された上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器303に出力するように、制御されたルータ304を制御するか、または、第2の推定ユニット3012により推定された上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器302に出力するように、制御されたルータ304を制御するように構成されてもよい。
本発明の幾つかの実施形態では、図3−fに示すように、図3−cに示すアーキテクチャを有する音声符号化器300に基づいて、音声符号化器300がさらに、現在の音声フレームの線形予測残差を取得するように構成されたプリプロセッサ3014を備えてもよい。プリプロセッサ3014が特に、分析フィルタA(Z)を用いて現在の音声フレームの時間領域信号をフィルタして、現在の音声フレームの線形予測残差Rを取得するように構成されてもよい。フィルタA(Z)のフィルタ係数は現在の音声フレームの線形予測係数である。
第1の推定ユニット3011は特に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得し、当該相関と現在の音声フレームの長期線形予測効率との間のマッピング関係に基づいて、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を取得するように構成される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。
本発明の幾つかの実施形態では、図3−gに示すように、図3−fに示すアーキテクチャを有する音声符号化器300に基づいて、音声符号化器300がさらにキャッシュ308を備えてもよい。キャッシュ308が、全ての音声フレームまたは幾つかの音声フレームの線形予測励起または線形予測残差をキャッシュしてもよく、その結果、当該線形予測励起または当該線形予測残差を、可能な次の音声フレームにおいて使用できる履歴線形予測励起または履歴線形予測残差として使用して、当該履歴線形予測励起または当該履歴線形予測残差と当該次の音声フレームの線形予測残差との間の相関を計算する。第1の推定ユニット3011が第1の履歴線形予測信号をキャッシュ308から取得してもよい。
本発明の幾つかの実施形態では、図3−hに示すように、キャッシュ308によりキャッシュされた履歴線形予測励起または履歴線形予測残差がローカル音声復号器311からのものであってもよい。ローカル音声復号器311が、Aタイプのサブ符号化器302およびBタイプのサブ符号化器303による符号化によって取得された後に出力された符号化された音声フレームに復号化処理を実施し、復号化された音声フレームを出力してもよく、線形予測器312が、ローカル音声復号器311により出力された時間領域音声フレームに線形予測を実施して、当該音声フレームの線形予測残差または線形予測励起を取得してもよい。
本発明の幾つかの実施形態では、図3−iに示すように、キャッシュ308によりキャッシュされた履歴線形予測励起がまた、Aタイプのサブ符号化器302からのものであってもよい。Aタイプのサブ符号化器302は当該音声フレームを符号化するプロセスにおいて音声フレームの線形予測励起を取得し、Aタイプのサブ符号化器302は、当該音声フレームの当該取得された線形予測励起をキャッシュのためにキャッシュ308に出力してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの長期線形予測効率を推定するために第1の推定ユニット3011により使用される当該第1の履歴線形予測励起または上述の第1の履歴線形予測残差を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ308によりキャッシュされた他の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ308によりキャッシュされた少なくとも1つの他の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ308によりキャッシュされた別の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ308によりキャッシュされた少なくとも1つの他の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上である。
音声符号化器300が、音声信号を収集、格納、または外部に送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
図4を参照すると、図4は本発明の別の実施形態に従う音声符号化器400の略構造図である。音声符号化器400が、推定ユニット410、決定ユニット420、および符号化ユニット430を備えてもよい。
推定ユニット410は、現在の音声フレームの基準線形予測効率を推定するように構成される。
決定ユニット420は、推定ユニット410により推定された上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するように構成される。
符号化ユニット430は、上述の現在の音声フレームの基準線形予測効率にマッチする、決定ユニット420により決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
例えば、現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。
本発明の幾つかの実施形態では、当該推定ユニットが特に、現在の音声フレームが非会話音声フレームであるとき上述の現在の音声フレームの基準線形予測効率を推定するように構成されてもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは別の音声フレーム)の基準統合線形予測効率は当該音声フレームの基準長期線形予測効率および当該音声フレームの基準短期線形予測効率に基づいて取得される。上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、決定ユニット420により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。
以下では例を用いて幾つかの可能な実施形態の方式を示す。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット420は特に、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式である。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420は特に、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第2の音声符号化方式は線形予測に基づく音声符号化方式である。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、決定ユニット420は特に、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式である。
本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式がACELP符号化、TCX等を含んでもよく、非線形予測に基づく音声符号化方式がGACを含んでもよく、当該GACが、例えば、MDCT符号化またはDCT符号化を含んでもよい。
上述の例で言及した閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、および第6の閾値)の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が0‐1である場合、第1の閾値の値が0.2、0.5、0.6、0、8等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が0‐1である場合、第2の閾値の値が0.3、0.3、0.6、0.8等であってもよく別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよいことは理解されうる。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に、異なる方式で推定ユニット410により推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット410は特に、現在の音声フレームの長期線形予測効率を推定するように構成される。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット410は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得し、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するように構成される。N1は正の整数であり、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット410は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得し、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するように構成される。N2は正の整数であり、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット410は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得し、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得し、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するように構成される。N3およびN4は正の整数であり、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット410が特に、現在の音声フレームの短期線形予測効率を推定するように構成されてもよい。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット410が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得し、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するように構成されてもよい。N5は正の整数であり、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット410が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得し、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するように構成されてもよい。N6は正の整数であり、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された、推定ユニット410により得られた第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット410が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得し、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得し、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するように構成されてもよい。N7およびN8は正の整数であり、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットであり、上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの短期線形予測効率を取得する態様において、推定ユニット410は特に、現在の音声フレームの短期線形予測効率を現在の音声フレームの線形予測残差に基づいて取得するように構成される。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、推定ユニット410が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述のエネルギ変化率は上述の現在の音声フレームの短期線形予測効率であり、または、上述の現在の音声フレームの短期線形予測効率は上述のエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率は、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率である。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、上述の推定ユニット410が特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の計算に従って取得するように構成されてもよい。上述の相関は上述の現在の音声フレームの長期線形予測効率であるか、または、上述の現在の音声フレームの長期線形予測効率は上述の相関に基づいて取得され、上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って様々な方式で推定ユニット410により取得してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の計算に従って取得する態様において、上述の推定ユニット410が特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するか、または、現在の音声フレームの線形予測残差に利得因子を乗じて、上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するように構成されてもよく、上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関であるか、
または、
第1の履歴線形予測信号に利得因子を乗じて、増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号の間の相関を計算により取得するように構成されてもよく、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより大きい相関は上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関が時間領域歪みおよび/または周波数領域歪みであってもよい。本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよく、K1およびK2は正の整数である。本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起である。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差は上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得される。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差は上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得される。上述の現在の音声フレームの線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または、上述の第1の履歴線形予測励起は適応コードブック励起である。
本実施形態における音声符号化器400の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装されてもよいことは理解されうる。具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器400が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
この装置の実施形態に含まれる閾値の値(例えば、第1の閾値および第2の閾値)およびその他のパラメータ(例えば、N1、N11、N21、およびN2)の例については、上述の方法の実施形態における値の関連する例を参照されたい。詳細についてはここでは再度説明しない。
本実施形態の技術的解決策では、音声符号化器400が先ず現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
図5を参照すると、図5は、本発明の別の実施形態に従う会話音声ビットストリームを復号するための符号化器の構造を説明する。当該符号化器は、少なくとも1つのバス501、バス501に接続された少なくとも1つのプロセッサ502、およびバス501に接続された少なくとも1つのメモリ503を備える。
バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。
本発明の幾つかの実施形態では、基準線形予測効率の音声符号化方式と音声フレームとの間の1組のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよく、または、異なる音声符号化方式が異なる基準線形予測効率間隔に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも2つの音声符号化方式から決定してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率を推定する前に、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502をさらに、現在の音声フレームが会話音声フレームであるかどうかを先ず判定するように構成してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、プロセッサ502により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、3つの線形予測効率間隔があり、それぞれ、0‐30%、30‐70%、および70‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐30%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔0‐30%である)場合、線形予測効率間隔0‐30%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔30‐70%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔30‐70%である)場合、線形予測効率間隔30‐70%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第2の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐40%、40‐60%、および60‐100%であると仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐40%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔0‐40%である)場合、線形予測効率間隔0‐40%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔40‐60%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔40‐60%である)場合、線形予測効率間隔40‐60%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐50%、50‐80%、および80‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐50%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔0‐50%である)場合、線形予測効率間隔0‐50%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔50‐80%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔50‐80%である)場合、線形予測効率間隔50‐80%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式が、代数符号励起線形予測(ACELP)符号化、変換符号化励起(TCX)等を含んでもよく、非線形予測に基づく音声符号化方式が汎用音声符号化(GAC)を含んでもよく、GACが、例えば、修正離散余弦変換(MDCT)符号化または離散余弦変換(DCT)符号化を含んでもよい。
上述の例で言及した閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、および第6の閾値)の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が0‐1である場合、第1の閾値の値が0.2、0.5、0.6、0、8等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が0‐1である場合、第2の閾値の値が0.3、0.3、0.6、0.8等であってもよく別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
例えば、本発明の幾つかの実施形態では、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。N1は正の整数であり、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。N2は正の整数であり、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。N3およびN4は正の整数であり、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームおよび上述のN4個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
例えば、本発明の幾つかの実施形態では、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得するステップと、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。N5は正の整数であり、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。N6は正の整数であり、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得するステップと、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。N7およびN8は正の整数であり、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットであり、上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである。上述のN7個の履歴音声フレームおよび上述のN8個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502が特に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するように構成されてもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って取得してもよい。
例えば、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502が特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するように構成されてもよい。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより大きい相関は、上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、上述の相関が時間領域歪みおよび/または周波数領域歪みであってもよい(当該周波数領域歪みをまた、スペクトル歪みと称してもよい)。
本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよく、K1およびK2は正の整数である。
一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差を上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が適応コードブック励起および固定コードブック励起の重合せ励起であってもよく、または、上述の第1の履歴線形予測励起が適応コードブック励起であってもよく、または、上述の第1の履歴線形予測励起が別のタイプのコードブック励起であってもよい。
本実施形態における音声符号化器500の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器500が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置であってもよく、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
この装置の実施形態に含まれる閾値(例えば、第1の閾値および第2の閾値)およびその他のパラメータ(例えば、N1、N11、N21、およびN2)の値の例については、上述の方法の実施形態における値の関連する例を参照されたい。詳細についてはここでは再度説明しない。
本実施形態の技術的解決策では、音声符号化器500は先ず、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
図6を参照すると、図6は、本発明の別の実施形態に従う音声符号化器600の構造ブロック図である。音声符号化器600が、少なくとも1つのプロセッサ601、少なくとも1つのネットワーク・インタフェース604または別のユーザ・インタフェース603、メモリ605、および少なくとも1つの通信バス602を備えてもよい。通信バス602は、これらのコンポーネントの間の接続および通信を実装するように構成される。音声符号化器600は任意選択でユーザ・インタフェース603を備える。ユーザ・インタフェース603は、ディスプレイ(例えば、タッチスクリーン、LCD、CRT、ホログラフィ(Holographic)、またはプロジェクタ(Projector))、クリック装置(例えば、マウス、トラックボール(trackball)、タッチパッド、またはタッチスクリーン)、カメラおよび/またはピックアップ装置等を含む。
メモリ602が、読取り専用メモリおよびランダム・アクセス・メモリを含んでもよく、命令およびデータをプロセッサ601に提供してもよい。メモリ602の一部がさらに、不揮発性ランダム・アクセス・メモリ(NVRAM)を備えてもよい。
幾つかの実装方式では、メモリ605は以下の要素、即ち、様々なシステム・プログラムを含み、様々な基本サービスを実装しハードウェアベースのタスクを処理するように構成されたオペレーティング・システム6051と、様々なアプリケーション・プログラムを含み、様々なアプリケーション・サービスを実装するように構成されたアプリケーション・プログラム・モジュール6052と、実行可能モジュールまたはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを格納する。
アプリケーション・プログラム・モジュール6052は、推定ユニット410、決定ユニット420、符号化ユニット430等を備えるがこれらに限られない。
本発明の当該実施形態では、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。
本発明の幾つかの実施形態では、基準線形予測効率の音声符号化方式と音声フレームとの間の1組のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよく、または、異なる音声符号化方式が異なる基準線形予測効率間隔に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも2つの音声符号化方式から決定してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率を推定する前に、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601をさらに現在の音声フレームが会話音声フレームであるかどうかを先ず判定するように構成してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、プロセッサ601により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成されてもよい。上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、3つの線形予測効率間隔があり、それぞれ、0‐30%、30‐70%、および70‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐30%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔0‐30%である)場合、線形予測効率間隔0‐30%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔30‐70%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔30‐70%である)場合、線形予測効率間隔30‐70%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成されてもよい。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第2の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐40%、40‐60%、および60‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐40%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔0‐40%である)場合、線形予測効率間隔0‐40%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔40‐60%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔40‐60%である)場合、線形予測効率間隔40‐60%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成されてもよい。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐50%、50‐80%、および80‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐50%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔0‐50%である)場合、線形予測効率間隔0‐50%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔50‐80%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔50‐80%である)場合、線形予測効率間隔50‐80%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式が、代数符号励起線形予測(ACELP)符号化、変換符号化励起(TCX)等を含んでもよく、非線形予測に基づく音声符号化方式が汎用音声符号化(GAC)を含んでもよく、GACが、例えば、修正離散余弦変換(MDCT)符号化または離散余弦変換(DCT)符号化を含んでもよい。
上述の例で言及した閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、および第6の閾値)の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が0‐1である場合、第1の閾値の値が0.2、0.5、0.6、0、8等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が0‐1である場合、第2の閾値の値が0.3、0.3、0.6、0.8等であってもよく、別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
例えば、本発明の幾つかの実施形態では、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。N1は正の整数であり、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。N2は正の整数であり、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。N3およびN4は正の整数であり、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームおよび上述のN4個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
例えば、本発明の幾つかの実施形態では、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得するステップと、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。N5は正の整数であり、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。N6は正の整数であり、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得するステップと、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。N7およびN8は正の整数であり、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットであり、上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである。上述のN7個の履歴音声フレームおよび上述のN8個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するように構成されてもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って取得してもよい。
例えば、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するように構成されてもよい。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより大きい相関は、上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、上述の相関が時間領域歪みおよび/または周波数領域歪みであってもよい(当該周波数領域歪みをまた、スペクトル歪みと称してもよい)。
本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよく、K1およびK2は正の整数である。
一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差を上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が適応コードブック励起および固定コードブック励起の重合せ励起であってもよく、または、上述の第1の履歴線形予測励起が適応コードブック励起であってもよく、または、上述の第1の履歴線形予測励起が別のタイプのコードブック励起であってもよい。
本実施形態における音声符号化器600の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器600が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置であってもよく、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
この装置の実施形態に含まれる閾値(例えば、第1の閾値および第2の閾値)およびその他のパラメータ(例えば、N1、N11、N21、およびN2)の値の例については、上述の方法の実施形態における値の関連する例を参照されたい。詳細についてはここでは再度説明しない。
本実施形態の技術的解決策では、音声符号化器600は先ず、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
本発明の1実施形態ではさらにコンピュータ記憶媒体を提供する。当該コンピュータ記憶媒体はプログラムを格納してもよい。実行されたとき、当該プログラムは、上述の方法の実施形態で説明した任意の音声符号化方法の一部または全部のステップを含む。
説明を簡単にするために、上述の方法の実施形態は一連の動作として表現されていることに留意すべきである。しかし、本発明によれば、幾つかのステップを他の順序で実施するかまたは同時に実施してもよいので、本発明は説明した動作の順序に限定されないことは当業者は理解すべきである。さらに、当業者はまた、本明細書で説明された全ての実施形態が好適な実施形態であり、関連する動作とモジュールは本発明に必ずしも必須ではないことも理解すべきである。
上述の実施形態では、各実施形態の説明はそれぞれの焦点を有する。1実施形態で詳細に説明されていない部分については、他の実施形態の関連説明を参照されたい。
本願で提供した幾つかの実施形態において、開示した装置を別の方式で実装してもよいことは理解されるべきである。例えば、説明した装置の実施形態は例示的なものにすぎない。例えば、当該ユニット分割は論理的な機能分割にすぎず、実際の実装では他の分割であってもよい。例えば、複数のユニットまたはコンポーネントを別のシステムに組み合わせるかまたは統合してもよく、または幾つかの機能を無視するかまたは実装しなくてもよい。さらに、幾つかのインタフェースを通じて、説明または議論した相互結合または直接結合または通信接続を実装してもよい。当該装置またはユニット間の間接結合または通信接続を、電気または他の形態で実装してもよい。
別々の部分として説明されたユニットが物理的に分離されていてもいなくてもよく、ユニットとして表示した部分が物理ユニットであってもなくてもよく、1つの位置に配置されてもよく、または、複数のネットワーク・ユニットに分散されてもよい。当該ユニットの一部または全部を、当該諸実施形態の解決策の目的を実現するための実際のニーズに従って選択してもよい。
さらに、当該本発明の諸実施形態における機能ユニットを1つの処理ユニットに統合してもよく、または、当該ユニットの各々が物理的に単体で存在してもよく、または、2つまたは複数のユニットが1つのユニットに統合される。上述の統合されたユニットをハードウェアの形態で実装してもよく、または、ソフトウェア機能ユニットの形態で実装してもよい。
当該統合されたユニットがソフトウェア機能ユニットの形態で実装され、独立な製品として販売または使用されるとき、当該統合されたユニットをコンピュータ可読記憶媒体に格納してもよい。かかる理解に基づいて、本発明の技術的解決策を本質的に、または先行技術に寄与する部分、または当該技術的解決策の全部もしくは一部をソフトウェア製品の形で実装してもよい。当該コンピュータ・ソフトウェア製品は記憶媒体に格納され、本発明の諸実施形態で説明した方法のステップの全部または一部を実施するように(パーソナル・コンピュータ、サーバ、またはネットワーク装置であってもよい)コンピュータ装置に指示するための幾つかの命令を含む。上述の記憶媒体は、USBフラッシュ・ドライブ、読取専用メモリ(ROM、Read−Only Memory)、ランダム・アクセス・メモリ(RAM、Random Access Memory)、取外し可能ハード・ディスク、磁気ディスク、または光ディスクのようなプログラム・コードを格納できる任意の媒体を含む。
上述の実施形態は本発明の技術的解決策を説明するためのものにすぎず、本発明を限定するためのものではない。上述の実施形態を参照して本発明を詳細に説明したが、当業者は本発明の諸実施形態の技術的解決策の趣旨と範囲から逸脱せずに、上述の実施形態で説明した技術的解決策に依然として修正を行ってもよく、または、その幾つかの技術的特徴に均等な置換えを行ってもよいことを当業者は理解すべきである。
300 音声符号化器
301 選択器
302 タイプAのサブコーダ
303 タイプBのサブコーダ
304 制御されたルーティング・スイッチ
305 分類器
306 サブコーダ
307 プリプロセッサ
308 キャッシュ
311 ローカル音声復号器
312 線形予測器
3011 第1の推定ユニット
3012 第2の推定ユニット
3013 判定ユニット
400 音声符号化器
410 推定ユニット
420 決定ユニット
430 符号化ユニット
500 音声符号化器
502 プロセッサ
503 メモリ
600 音声符号化器
601 プロセッサ
603 ユーザ・インタフェース
604 ネットワーク・インタフェース
605 メモリ
6051 オペレーティング・システム
6052 アプリケーション・プログラム・モジュール

Claims (14)

  1. 音声符号化方法であって、
    現在の音声フレームの基準線形予測効率を推定するステップと、
    前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップと、
    前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式に従って、音声符号化を前記現在の音声フレームに実施するステップと、
    を含み、
    前記基準線形予測効率が基準長期線形予測効率を含み、前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップは、前記現在の音声フレームの前記基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、前記第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップであって、前記第1の音声符号化方式は前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式であり、前記第1の音声符号化方式は線形予測に基づく音声符号化方式である、ステップを含む、方法。
  2. 前記現在の音声フレームの前記基準長期線形予測効率は以下の方式における推定、即ち、前記現在の音声フレームの長期線形予測効率を推定するステップにより取得され、前記現在の音声フレームの前記長期線形予測効率は前記現在の音声フレームの前記基準長期線形予測効率であるか、
    または、
    前記現在の音声フレームの前記基準長期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの長期線形予測効率を取得するステップと、前記現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、前記N1個の履歴音声フレームの前記線形予測効率および前記現在の音声フレームの前記長期線形予測効率の第1の統計値を計算するステップとにより取得され、N1は正の整数であり、前記第1の統計値は前記現在の音声フレームの前記基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、前記N11個の履歴音声フレームは前記N1個の履歴音声フレームのサブセットであるか、
    または、
    前記現在の音声フレームの前記基準長期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの長期線形予測効率を取得するステップと、前記現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、前記N2個の履歴音声フレームの前記基準線形予測効率および前記現在の音声フレームの前記長期線形予測効率の第2の統計値を計算するステップとにより取得され、N2は正の整数であり、前記第2の統計値は前記現在の音声フレームの前記基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、前記N21個の履歴音声フレームは前記N2個の履歴音声フレームのサブセットであるか、
    または、
    前記現在の音声フレームの前記基準長期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの長期線形予測効率を取得するステップと、前記現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、前記現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、前記N3個の履歴音声フレームの前記線形予測効率、前記N4個の履歴音声フレームの前記基準線形予測効率、および前記現在の音声フレームの前記長期線形予測効率の第3の統計値を計算するステップとにより取得され、N3およびN4は正の整数であり、前記第3の統計値は前記現在の音声フレームの前記基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、前記N31個の履歴音声フレームは前記N3個の履歴音声フレームのサブセットであり、前記N41個の履歴音声フレームは前記N4個の履歴音声フレームのサブセットである、
    請求項1に記載の方法。
  3. 推定により前記現在の音声フレームの長期線形予測効率を取得するステップは、前記現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って前記現在の音声フレームの前記線形予測残差と前記第1の履歴線形予測信号との間の相関を取得するステップを含み、前記相関は前記現在の音声フレームの前記長期線形予測効率であるか、または、前記現在の音声フレームの前記長期線形予測効率は前記相関に基づいて取得され、前記第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、前記第1の履歴線形予測残差は前記現在の音声フレームの履歴音声フレームの線形予測残差であり、前記第1の履歴線形予測励起は前記現在の音声フレームの前記履歴音声フレームの線形予測励起である、請求項2に記載の方法。
  4. 前記現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って前記現在の音声フレームの前記線形予測残差と前記第1の履歴線形予測信号との間の相関を取得するステップは、
    前記現在の音声フレームの前記線形予測残差と前記第1の履歴線形予測信号との間の前記相関を計算するステップ、
    または、
    前記現在の音声フレームの前記線形予測残差に利得因子を乗じて、前記現在の音声フレームの増幅された線形予測残差を取得し、前記現在の音声フレームの増幅された線形予測残差と前記第1の履歴線形予測信号との間の相関を計算により取得するステップであって、前記現在の音声フレームの前記増幅された線形予測残差と前記第1の履歴線形予測信号との間の計算により得られた前記相関は前記現在の音声フレームの前記線形予測残差と前記第1の履歴線形予測信号との間の前記相関である、ステップ
    または、
    前記第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、前記現在の音声フレームの前記線形予測残差と前記増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップであって、前記現在の音声フレームの前記線形予測残差と前記増幅された第1の履歴線形予測信号との間の計算により得られた前記相関は前記現在の音声フレームの前記線形予測残差と前記第1の履歴線形予測信号との間の前記相関である、ステップ
    を含む、請求項3に記載の方法。
  5. 前記第1の履歴線形予測励起または前記第1の履歴線形予測残差は前記現在の音声フレームのピッチに基づいて決定される、請求項3または4に記載の方法。
  6. 前記第1の履歴線形予測励起および前記現在の音声フレームの前記線形予測残差の間の時間領域相関は、他の履歴線形予測励起および前記現在の音声フレームの前記線形予測残差の間の時間領域相関以上であるか、または、
    前記第1の履歴線形予測残差および前記現在の音声フレームの前記線形予測残差の間の時間領域相関は、別の履歴線形予測残差および前記現在の音声フレームの前記線形予測残差の間の時間領域相関以上である、
    請求項3乃至5の何れか1項に記載の方法。
  7. 前記第1の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を前記現在の音声フレームの前記履歴音声フレームに実施することによって生成された線形予測励起である、請求項3乃至6の何れか1項に記載の方法。
  8. 前記第1の履歴線形予測残差は前記現在の音声フレームの第1の履歴音声フレームの時間領域信号および前記第1の履歴音声フレームの線形予測係数に基づいて取得され、前記第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である、請求項3乃至7の何れか1項に記載の方法。
  9. 前記現在の音声フレームの前記線形予測残差は前記現在の音声フレームの時間領域信号および前記現在の音声フレームの線形予測係数に基づいて取得され、前記現在の音声フレームの前記線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である、請求項3乃至8の何れか1項に記載の方法。
  10. 前記第1の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または前記第1の履歴線形予測励起は適応コードブック励起である、請求項3乃至9の何れか1項に記載の方法。
  11. 前記相関は時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または前記相関は時間領域歪みおよび/または周波数領域歪みである、請求項3乃至10の何れか1項に記載の方法。
  12. 前記周波数領域歪みは前記周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であるか、または前記周波数領域歪みは前記周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であり、K1およびK2は正の整数である、請求項11に記載の方法。
  13. 前記歪みの前記重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である、請求項12に記載の方法。
  14. バス(501)に接続された少なくとも1つのプロセッサ(502)と、前記バス(501)に接続された少なくとも1つのメモリ(503)とを含み、前記バス(501)を使用して、前記メモリ(503)に記憶されたコードを呼び出すことによって、前記プロセッサ(502)は、請求項1乃至13のいずれか1項に記載の方法を実行するように構成される、音声符号化器。
JP2019118554A 2014-04-29 2019-06-26 音声符号化方法および関連装置 Active JP6812504B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410177838.8A CN105096958B (zh) 2014-04-29 2014-04-29 音频编码方法及相关装置
CN201410177838.8 2014-04-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016565172A Division JP2017515154A (ja) 2014-04-29 2014-11-05 音声符号化方法および関連装置

Publications (2)

Publication Number Publication Date
JP2019204097A JP2019204097A (ja) 2019-11-28
JP6812504B2 true JP6812504B2 (ja) 2021-01-13

Family

ID=54358108

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016565172A Pending JP2017515154A (ja) 2014-04-29 2014-11-05 音声符号化方法および関連装置
JP2019118554A Active JP6812504B2 (ja) 2014-04-29 2019-06-26 音声符号化方法および関連装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016565172A Pending JP2017515154A (ja) 2014-04-29 2014-11-05 音声符号化方法および関連装置

Country Status (17)

Country Link
US (2) US10262671B2 (ja)
EP (2) EP3139379A4 (ja)
JP (2) JP2017515154A (ja)
KR (2) KR20190042770A (ja)
CN (3) CN107452390B (ja)
AU (2) AU2014392320A1 (ja)
CA (1) CA2947360C (ja)
CL (1) CL2016002750A1 (ja)
HK (1) HK1216449A1 (ja)
MX (1) MX364291B (ja)
MY (1) MY193553A (ja)
NZ (1) NZ726171A (ja)
RU (1) RU2661787C2 (ja)
SG (1) SG11201609043PA (ja)
UA (1) UA118588C2 (ja)
WO (1) WO2015165233A1 (ja)
ZA (1) ZA201607558B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452390B (zh) * 2014-04-29 2021-10-26 华为技术有限公司 音频编码方法及相关装置
CN106297813A (zh) 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
CN116962721A (zh) 2016-05-04 2023-10-27 微软技术许可有限责任公司 利用样本值的非相邻参考线进行帧内图片预测的方法
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1270439B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
DE69615870T2 (de) 1995-01-17 2002-04-04 Nec Corp Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
JP3089967B2 (ja) * 1995-01-17 2000-09-18 日本電気株式会社 音声符号化装置
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
JP3616432B2 (ja) * 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US5978756A (en) * 1996-03-28 1999-11-02 Intel Corporation Encoding audio signals using precomputed silence
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
US5839098A (en) * 1996-12-19 1998-11-17 Lucent Technologies Inc. Speech coder methods and systems
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
JP3583945B2 (ja) * 1999-04-15 2004-11-04 日本電信電話株式会社 音声符号化方法
JP3387092B2 (ja) * 2000-10-20 2003-03-17 日本ビクター株式会社 音声符号化装置
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
EP1383109A1 (fr) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie
JP2004069963A (ja) 2002-08-06 2004-03-04 Fujitsu Ltd 音声符号変換装置及び音声符号化装置
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
US7047188B2 (en) * 2002-11-08 2006-05-16 Motorola, Inc. Method and apparatus for improvement coding of the subframe gain in a speech coding system
US7176878B2 (en) * 2002-12-11 2007-02-13 Nvidia Corporation Backlight dimming and LCD amplitude boost
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7739120B2 (en) 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR100707174B1 (ko) 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US20070174502A1 (en) 2006-01-23 2007-07-26 Cheng-Chieh Lin Method and apparatus of identifying type of non-volatile memory
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
CN101000768B (zh) * 2006-06-21 2010-12-08 北京工业大学 嵌入式语音编解码的方法及编解码器
JP4399829B2 (ja) 2006-07-07 2010-01-20 日本ビクター株式会社 音声符号化方法及び音声復号化方法
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
CN101145343B (zh) * 2006-09-15 2011-07-20 展讯通信(上海)有限公司 一种用于音频处理框架中的编码和解码方法
WO2008035949A1 (en) * 2006-09-22 2008-03-27 Samsung Electronics Co., Ltd. Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding
BRPI0719886A2 (pt) 2006-10-10 2014-05-06 Qualcomm Inc Método e equipamento para codificação e decodificação de sinais de áudio
KR100964402B1 (ko) 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US8548815B2 (en) 2007-09-19 2013-10-01 Qualcomm Incorporated Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications
RU2455709C2 (ru) 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
KR200443078Y1 (ko) * 2008-04-15 2009-01-07 유혜경 절단위치의 조절이 가능한 절단장치
MX2011000364A (es) 2008-07-11 2011-02-25 Ten Forschung Ev Fraunhofer Metodo y discriminador para clasificar distintos segmentos de una señal.
KR101381513B1 (ko) 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
CN101615395B (zh) 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
JP5337235B2 (ja) * 2009-03-10 2013-11-06 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム及び記録媒体
WO2011034376A2 (en) * 2009-09-17 2011-03-24 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101397058B1 (ko) * 2009-11-12 2014-05-20 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US9275650B2 (en) * 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs
US20120009575A1 (en) * 2010-06-30 2012-01-12 Life Technologies Corporation Inducible nucleic acid targets for detection of pathogens, methods and compositions thereof
KR101747917B1 (ko) * 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
CN102985969B (zh) * 2010-12-14 2014-12-10 松下电器(美国)知识产权公司 编码装置、解码装置和编码方法、解码方法
FR2984580A1 (fr) * 2011-12-20 2013-06-21 France Telecom Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant
PT2951820T (pt) 2013-01-29 2017-03-02 Fraunhofer Ges Forschung Aparelho e método para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação
CN103325375B (zh) * 2013-06-05 2016-05-04 上海交通大学 一种极低码率语音编解码设备及编解码方法
CN105096957B (zh) 2014-04-29 2016-09-14 华为技术有限公司 处理信号的方法及设备
CN107452390B (zh) * 2014-04-29 2021-10-26 华为技术有限公司 音频编码方法及相关装置
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation

Also Published As

Publication number Publication date
KR101971268B1 (ko) 2019-04-22
CA2947360A1 (en) 2015-11-05
US10984811B2 (en) 2021-04-20
MX2016014176A (es) 2017-08-15
CN107452390B (zh) 2021-10-26
KR20160147942A (ko) 2016-12-23
RU2016146538A (ru) 2018-05-29
KR20190042770A (ko) 2019-04-24
AU2014392320A1 (en) 2016-11-24
CN105096958B (zh) 2017-04-12
CN107452391A (zh) 2017-12-08
US10262671B2 (en) 2019-04-16
AU2018253632B2 (en) 2020-10-22
EP3139379A1 (en) 2017-03-08
MY193553A (en) 2022-10-19
EP3139379A4 (en) 2017-04-12
UA118588C2 (uk) 2019-02-11
CN105096958A (zh) 2015-11-25
RU2016146538A3 (ja) 2018-05-29
JP2017515154A (ja) 2017-06-08
ZA201607558B (en) 2017-09-27
EP3618069A1 (en) 2020-03-04
NZ726171A (en) 2018-04-27
CA2947360C (en) 2020-09-08
JP2019204097A (ja) 2019-11-28
AU2018253632A1 (en) 2019-01-03
HK1216449A1 (zh) 2016-11-11
SG11201609043PA (en) 2016-12-29
EP3618069B1 (en) 2024-03-20
RU2661787C2 (ru) 2018-07-19
CN107452391B (zh) 2020-08-25
US20190164561A1 (en) 2019-05-30
BR112016025330A2 (pt) 2017-08-15
US20170047078A1 (en) 2017-02-16
CL2016002750A1 (es) 2017-06-02
CN107452390A (zh) 2017-12-08
MX364291B (es) 2019-04-22
WO2015165233A1 (zh) 2015-11-05

Similar Documents

Publication Publication Date Title
JP6812504B2 (ja) 音声符号化方法および関連装置
CN105210149B (zh) 用于音频信号解码或编码的时域电平调整
JP6704037B2 (ja) 音声符号化装置および方法
CN1947174B (zh) 可扩展编码装置、可扩展解码装置、可扩展编码方法以及可扩展解码方法
CN102119414B (zh) 用于在超帧中量化和逆量化线性预测系数滤波器的设备和方法
JP2018533058A (ja) ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
AU2014391078B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US11817107B2 (en) Phase reconstruction in a speech decoder
CN104584122A (zh) 使用改进的概率分布估计的基于线性预测的音频编码
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
EP3127112B1 (en) Apparatus and methods of switching coding technologies at a device
US10847172B2 (en) Phase quantization in a speech encoder
KR102569784B1 (ko) 오디오 코덱의 장기 예측을 위한 시스템 및 방법
US9620139B2 (en) Adaptive linear predictive coding/decoding

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190724

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201216

R150 Certificate of patent or registration of utility model

Ref document number: 6812504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250