JP2017515154A

JP2017515154A - 音声符号化方法および関連装置

Info

Publication number: JP2017515154A
Application number: JP2016565172A
Authority: JP
Inventors: ▲ジー▼ 王
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-04-29
Filing date: 2014-11-05
Publication date: 2017-06-08
Also published as: BR112016025330A2; SG11201609043PA; MX2016014176A; HK1216449A1; CN105096958B; KR20190042770A; JP2019204097A; UA118588C2; AU2018253632A1; EP3139379A4; RU2016146538A3; EP3618069B1; KR20160147942A; NZ726171A; ZA201607558B; CA2947360C; JP6812504B2; RU2661787C2; CN105096958A; BR112016025330B1

Abstract

音声符号化方法および関連装置を開示する。当該音声符号化方法は、現在の音声フレームの基準線形予測効率を推定するステップと、上述の現在の音声フレームの当該基準線形予測効率にマッチする音声符号化方式を決定するステップと、上述の現在の音声フレームの当該基準線形予測効率にマッチする当該音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するステップとを含む。本発明の諸実施形態で提供する当該技術的解決策は音声符号化のオーバヘッドを削減するのを支援する。

Description

本願は、発明の名称を「音声符号化方法および関連装置」とした２０１４年４月２９日に中国特許庁に出願された中国特許出願第２０１４１０１７７８３８．８号に対する優先権を主張し、引用によりその全体を本明細書に組み込む。

本発明は音声符号化技術に関し、特に、音声符号化方法および関連装置に関する。

過去の非常に長い期間の間、会話信号符号化は非会話信号（例えば、音楽）符号化と比較的独立している。即ち、会話信号符号化は専用の会話符号化器により実装され、非会話信号符号化は専用の非会話符号化器により実装される（非会話符号化器はまた、汎用音声符号化器と呼ばれることもある）。

一般に、会話符号化が符号化理論において非会話信号符号化と比較的独立であるからだけではなく、当該２つのタイプの信号が実際のアプリケーションでは一般に相対的に独立であるので、会話符号化器は非会話信号を符号化するために使用されず、非会話符号化器は会話信号を符号化するために使用されない。例えば、音声通信ネットワークにおいて、過去の非常に長期間の間、音声は全てのまたは主要な信号源であり、帯域幅が厳密に制限されているので、低速の様々な会話符号化器が音声通信ネットワークで広く利用されている。ビデオやエンターテイメントのようなアプリケーションでは、非会話信号が主要な信号源であり、これらのアプリケーションはオーディオ品質に比較的高い要件を課し、ビット・レートに比較的低い要件を課すので、非会話符号化器がこれらのシナリオで広く利用されている。

近年、カスタマイズされたリング・バック・トーンのような増大するマルチメディア信号源が従来の音声通信ネットワークに現れ、符号化器の符号化品質により高い要件を課している。専用の会話符号化器はこれらのマルチメディア信号により要求される比較的高い符号化品質を提供できず、混合音声符号化器のような新たな符号化技術が、時代の要求とともに出現している。

混合音声符号化器は、会話信号の符号化に適したサブ符号化器を含み非会話信号の符号化に適したサブ符号化器をさらに含む、音声符号化器である。混合音声符号化器は、常に、最も適したサブ符号化器を、入力音声信号を符号化するための全てのサブ符号化器から動的に選択しようとする。最も適したサブ符号化器を、現在の入力音声フレームを符号化するための全てのサブ符号化器からどのように選択するかは、混合符号化器の重要な機能かつ要件であり、サブ符号化器選択はモード選択とも呼ばれ、混合符号化器の符号化品質に直接関連する。

先行技術では、サブ符号化器は一般に閉ループ・モードで選択される。即ち、各サブ符号化器は、現在の入力音声フレームを一度符号化するために使用され、当該符号化された現在の音声フレームの品質を直接比較することによって最適なサブ符号化器が選択される。しかし、閉ループ・モードの欠点は、（各サブ符号化器が当該入力された現在の音声フレームを一度符号化するために使用されるので）符号化動作の複雑性が比較的高く、さらに音声符号化の実際のオーバヘッドが相対的に大きいことである。

本発明の諸実施形態では、音声符号化のオーバヘッドを削減するための、音声符号化方法および関連装置を提供する。

本発明の諸実施形態の第１の態様では、現在の音声フレームの基準線形予測効率を推定するステップと、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップと、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って、音声符号化を現在の音声フレームに実施するステップとを含む、音声符号化方法を提供する。

第１の態様を参照して、第１の態様の第１の可能な実装方式では、当該基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つを含む。

第１の態様の第１の可能な実装方式を参照して、第１の態様の第２の可能な実装方式では、当該基準統合線形予測効率は、当該基準長期線形予測効率と当該基準短期線形予測効率の合計値、重み付き合計値、または平均値である。

第１の態様の第１の可能な実装方式を参照して、第１の態様の第３の可能な実装方式では、現在の音声フレームの基準線形予測効率が、現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、
現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ、
および／または、
現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含む。

第１の態様の第１の可能な実装方式を参照して、第１の態様の第４の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、
現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、および／または、
現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。

第１の態様の第１の可能な実装方式を参照して、第１の態様の第５の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、現在の音声フレームの基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するステップであって、第１の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、ステップを含む。

第１の態様の第１の可能な実装方式を参照して、第１の態様の第６の可能な実装方式では、現在の音声フレームの基準線形予測効率が、現在の音声フレームの基準短期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、
現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、および／または、
現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。

第１の態様の第１の可能な実装方式を参照して、第１の態様の第７の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準短期線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、現在の音声フレームの基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式を決定するステップであって、第２の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第２の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、ステップを含む。

第１の態様の第１の可能な実装方式または第１の態様の第２の可能な実装方式を参照して、第１の態様の第８の可能な実装方式では、
現在の音声フレームの基準線形予測効率が現在の音声フレームの基準統合線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、
現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、および／または、
現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。

第１の態様の第１の可能な実装方式または第１の態様の第２の可能な実装方式を参照して、第１の態様の第９の可能な実装方式では、
現在の音声フレームの基準線形予測効率が現在の音声フレームの基準統合線形予測効率を含む場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、現在の音声フレームの基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式を決定するステップであって、第３の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第３の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、ステップを含む。

第１の態様の第１乃至第９の可能な実装方式を参照して、第１の態様の第１０の可能な実装方式では、現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、現在の音声フレームの長期線形予測効率を推定するステップであって、現在の音声フレームの長期線形予測効率は現在の音声フレームの基準長期線形予測効率である、ステップにより取得され、または、
現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得し、当該Ｎ１個の履歴音声フレームの線形予測効率および現在の音声フレームの長期線形予測効率の第１の統計値を計算するステップであって、Ｎ１は正の整数であり、第１の統計値は現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、当該Ｎ１１個の履歴音声フレームは当該Ｎ１個の履歴音声フレームのサブセットである、ステップにより取得され、または、
現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得し、当該Ｎ２個の履歴音声フレームの基準線形予測効率および現在の音声フレームの長期線形予測効率の第２の統計値を計算するステップであって、Ｎ２は正の整数であり、第２の統計値は現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、当該Ｎ２１個の履歴音声フレームは当該Ｎ２個の履歴音声フレームのサブセットである、ステップにより取得され、または、
現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得し、現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得し、当該Ｎ３個の履歴音声フレームの線形予測効率、当該Ｎ４個の履歴音声フレームの基準線形予測効率、および現在の音声フレームの長期線形予測効率の第３の統計値を計算するステップであって、Ｎ３およびＮ４は正の整数であり、第３の統計値は現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、当該Ｎ３１個の履歴音声フレームは当該Ｎ３個の履歴音声フレームのサブセットであり、当該Ｎ４１個の履歴音声フレームは当該Ｎ４個の履歴音声フレームのサブセットである、ステップにより取得される。

第１の態様の第１乃至第９の可能な実装方式を参照して、第１の態様の第１１の可能な実装方式では、
現在の音声フレームの基準短期線形予測効率は以下の方式における推定、即ち、現在の音声フレームの短期線形予測効率を推定するステップであって、現在の音声フレームの短期線形予測効率は現在の音声フレームの基準短期線形予測効率である、ステップにより取得され、または、
現在の音声フレームの基準短期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得し、当該Ｎ５個の履歴音声フレームの線形予測効率および現在の音声フレームの短期線形予測効率の第４の統計値を計算するステップであって、Ｎ５は正の整数であり、第４の統計値は現在の音声フレームの基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、当該Ｎ５１個の履歴音声フレームは当該Ｎ５個の履歴音声フレームのサブセットである、ステップにより取得され、または、
現在の音声フレームの基準短期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得し、当該Ｎ６個の履歴音声フレームの基準線形予測効率および現在の音声フレームの短期線形予測効率の第５の統計値を計算するステップであって、Ｎ６は正の整数であり、第５の統計値は現在の音声フレームの基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、当該Ｎ６１個の履歴音声フレームは当該Ｎ６個の履歴音声フレームのサブセットである、ステップにより取得され、または、
現在の音声フレームの基準短期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得し、現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得し、当該Ｎ７個の履歴音声フレームの線形予測効率、当該Ｎ８個の履歴音声フレームの基準線形予測効率、および現在の音声フレームの短期線形予測効率の第６の統計値を計算するステップであって、Ｎ７およびＮ８は正の整数であり、第６の統計値は現在の音声フレームの基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、当該Ｎ７１個の履歴音声フレームは当該Ｎ７個の履歴音声フレームのサブセットであり、当該Ｎ８１個の履歴音声フレームは当該Ｎ８個の履歴音声フレームのサブセットである、ステップにより取得される。

第１の態様の第１１の可能な実装方式を参照して、第１の態様の第１２の可能な実装方式では、推定により現在の音声フレームの短期線形予測効率を取得するステップは、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップを含む。

第１の態様の第１２の可能な実装方式を参照して、第１の態様の第１３の可能な実装方式では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップは、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するステップであって、当該エネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は当該エネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された現在の音声フレームのエネルギは現在の音声フレームの線形予測残差のエネルギである、ステップを含む。

第１の態様の第１３の可能な実装方式を参照して、第１の態様の第１４の可能な実装方式では、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのエネルギ変化率は、短期線形予測が現在の音声フレームに実施される前に取得された現在の音声フレームのエネルギの、現在の音声フレームの線形予測残差のエネルギに対する比率である。

第１の態様の第１０の可能な実装方式を参照して、第１の態様の第１５の可能な実装方式では、推定により現在の音声フレームの長期線形予測効率を取得するステップは、現在の音声フレームの線形予測残差および第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するステップであって、当該相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は当該相関に基づいて取得され、第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、第１の履歴線形予測残差は現在の音声フレームの履歴音声フレームの線形予測残差であり、第１の履歴線形予測励起は現在の音声フレームの履歴音声フレームの線形予測励起である、ステップを含む。

第１の態様の第１５の可能な実装方式を参照して、第１の態様の第１６の可能な実装方式では、現在の音声フレームの線形予測残差および第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するステップは、
現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を計算するステップ、
または、
現在の音声フレームの線形予測残差に利得因子を乗じて、現在の音声フレームの増幅された線形予測残差を取得し、現在の音声フレームの増幅された線形予測残差および第１の履歴線形予測信号の間の相関を計算により取得するステップであって、現在の音声フレームの増幅された線形予測残差と第１の履歴線形予測信号との間の計算により得られた相関は現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関である、ステップ、または、
第１の履歴線形予測信号に利得因子を乗じて増幅された第１の履歴線形予測信号を取得し、現在の音声フレームの線形予測残差および当該増幅された第１の履歴線形予測信号の間の相関を計算により取得するステップであって、現在の音声フレームの線形予測残差と当該増幅された第１の履歴線形予測信号との間の計算により得られた相関は現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関である、ステップを含む。

第１の態様の第１５の可能な実装方式または第１の態様の第１６の可能な実装方式を参照して、第１の態様の第１７の可能な実装方式では、第１の履歴線形予測励起または第１の履歴線形予測残差は現在の音声フレームのピッチに基づいて決定される。

第１の態様の第１５乃至第１７の可能な実装方式を参照して、第１の態様の第１８の可能な実装方式では、第１の履歴線形予測励起および現在の音声フレームの線形予測残差の間の時間領域相関は、他の履歴線形予測励起および現在の音声フレームの線形予測残差の間の時間領域相関以上であるか、または、
第１の履歴線形予測残差および現在の音声フレームの線形予測残差の間の時間領域相関は、別の履歴線形予測残差および現在の音声フレームの線形予測残差の間の時間領域相関以上である。

第１の態様の第１５乃至第１８の可能な実装方式を参照して、第１の態様の第１９の可能な実装方式では、第１の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起である。

第１の態様の第１５乃至第１９の可能な実装方式を参照して、第１の態様の第２０の可能な実装方式では、第１の履歴線形予測残差は現在の音声フレームの第１の履歴音声フレームの時間領域信号および第１の履歴音声フレームの線形予測係数に基づいて取得され、第１の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。

第１の態様の第１５乃至第２０の可能な実装方式を参照して、第１の態様の第２１の可能な実装方式では、現在の音声フレームの線形予測残差は現在の音声フレームの時間領域信号および現在の音声フレームの線形予測係数に基づいて取得され、現在の音声フレームの線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である。

第１の態様の第１５乃至第２１の可能な実装方式を参照して、第１の態様の第２２の可能な実装方式では、第１の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または、第１の履歴線形予測励起は適応コードブック励起である。

第１の態様の第１５乃至第２２の可能な実装方式を参照して、第１の態様の第２３の可能な実装方式では、当該相関は時間領域における相互相関の関数値および／または周波数領域における相互相関の関数値であるか、または、当該相関は時間領域歪みおよび／または周波数領域歪みである。

第１の態様の第２３の可能な実装方式を参照して、第１の態様の第２４の可能な実装方式では、当該周波数領域歪みは当該周波数領域内のＫ１個の周波数ビンの歪みの合計値または重み付き合計値であるか、または、当該周波数領域歪みは当該周波数領域内のＫ２個のサブバンドの歪みの合計値または重み付き合計値であり、Ｋ１およびＫ２は正の整数である。

第１の態様の第２４の可能な実装方式を参照して、第１の態様の第２５の可能な実装方式では、当該歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。

本発明の諸実施形態の第２の態様では、現在の音声フレームの基準線形予測効率を推定するように構成された推定ユニットと、当該推定ユニットにより推定された現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するように構成された決定ユニットと、現在の音声フレームの基準線形予測効率にマッチし当該決定ユニットにより決定された音声符号化方式に従って現在の音声フレームに音声符号化を実施するように構成された符号化ユニットとを備える音声符号化器を提供する。

第２の態様を参照して、第２の態様の第１の可能な実装方式では、当該基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つを含む。

第２の態様の第１の可能な実装方式を参照して、第２の態様の第２の可能な実装方式では、当該基準統合線形予測効率は、当該基準長期線形予測効率と当該基準短期線形予測効率の合計値、重み付き合計値、または平均値である。

第２の態様の第１の可能な実装方式を参照して、第２の態様の第３の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率を含む場合、当該決定ユニットは特に、
現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、
かつ／または、
現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。

第２の態様の第１の可能な実装方式を参照して、第２の態様の第４の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率を含む場合、当該決定ユニットは特に、
現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、かつ／または、
現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

第２の態様の第１の可能な実装方式を参照して、第２の態様の第５の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準長期線形予測効率を含む場合、当該決定ユニットは特に、現在の音声フレームの基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するように構成され、第１の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。

第２の態様の第１の可能な実装方式を参照して、第２の態様の第６の可能な実装方式では、現在の音声フレームの基準線形予測効率が、現在の音声フレームの基準短期線形予測効率を含む場合、当該決定ユニットは特に、
現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、かつ／または、
現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

第２の態様の第１の可能な実装方式を参照して、第２の態様の第７の可能な実装方式では、現在の音声フレームの基準線形予測効率が、現在の音声フレームの基準短期線形予測効率を含む場合、当該決定ユニットは特に、現在の音声フレームの基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式を決定するように構成され、第２の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第２の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。

第２の態様の第１の可能な実装方式または第２の態様の第２の可能な実装方式を参照して、第２の態様の第８の可能な実装方式では、
現在の音声フレームの基準線形予測効率が現在の音声フレームの基準統合線形予測効率を含む場合、当該決定ユニットは特に、
現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、かつ／または、
現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

第２の態様の第１の可能な実装方式または第２の態様の第２の可能な実装方式を参照して、第２の態様の第９の可能な実装方式では、現在の音声フレームの基準線形予測効率が現在の音声フレームの基準統合線形予測効率を含む場合、当該決定ユニットは特に、現在の音声フレームの基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式を決定するように構成され、第３の音声符号化方式は現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第３の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。

第２の態様の第１乃至第９の可能な実装方式を参照して、第２の態様の第１０の可能な実装方式では、現在の音声フレームの基準長期線形予測効率を推定する態様において、当該推定ユニットは特に、現在の音声フレームの長期線形予測効率を推定するように構成され、現在の音声フレームの長期線形予測効率は現在の音声フレームの基準長期線形予測効率であるか、または、
現在の音声フレームの基準長期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得し、当該Ｎ１個の履歴音声フレームの線形予測効率および現在の音声フレームの長期線形予測効率の第１の統計値を計算するように構成され、Ｎ１は正の整数であり、第１の統計値は現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、当該Ｎ１１個の履歴音声フレームは当該Ｎ１個の履歴音声フレームのサブセットであるか、または、
現在の音声フレームの基準長期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得し、当該Ｎ２個の履歴音声フレームの基準線形予測効率および現在の音声フレームの長期線形予測効率の第２の統計値を計算するように構成され、Ｎ２は正の整数であり、第２の統計値は現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、当該Ｎ２１個の履歴音声フレームは当該Ｎ２個の履歴音声フレームのサブセットであるか、または、
現在の音声フレームの基準長期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの長期線形予測効率を取得し、現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得し、現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得し、当該Ｎ３個の履歴音声フレームの線形予測効率、当該Ｎ４個の履歴音声フレームの基準線形予測効率、および現在の音声フレームの長期線形予測効率の第３の統計値を計算するように構成され、Ｎ３およびＮ４は正の整数であり、第３の統計値は現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、当該Ｎ３１個の履歴音声フレームは当該Ｎ３個の履歴音声フレームのサブセットであり、当該Ｎ４１個の履歴音声フレームは当該Ｎ４個の履歴音声フレームのサブセットである。

第２の態様の第１乃至第９の可能な実装方式を参照して、第２の態様の第１１の可能な実装方式では、
現在の音声フレームの基準短期線形予測効率を推定する態様において、当該推定ユニットは特に、現在の音声フレームの短期線形予測効率を推定するように構成され、現在の音声フレームの短期線形予測効率は現在の音声フレームの基準短期線形予測効率であるか、
または、
現在の音声フレームの基準短期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得し、当該Ｎ５個の履歴音声フレームの線形予測効率および現在の音声フレームの短期線形予測効率の第４の統計値を計算するように構成され、Ｎ５は正の整数であり、第４の統計値は現在の音声フレームの基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、当該Ｎ５１個の履歴音声フレームは当該Ｎ５個の履歴音声フレームのサブセットであるか、または、
現在の音声フレームの基準短期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得し、当該Ｎ６個の履歴音声フレームの基準線形予測効率および現在の音声フレームの短期線形予測効率の第５の統計値を計算するように構成され、Ｎ６は正の整数であり、第５の統計値は現在の音声フレームの基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、当該Ｎ６１個の履歴音声フレームは当該Ｎ６個の履歴音声フレームのサブセットであるか、または、
現在の音声フレームの基準短期線形予測効率を推定する態様において、当該推定ユニットは特に、推定により現在の音声フレームの短期線形予測効率を取得し、現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得し、現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得し、当該Ｎ７個の履歴音声フレームの線形予測効率、当該Ｎ８個の履歴音声フレームの基準線形予測効率、および現在の音声フレームの短期線形予測効率の第６の統計値を計算するように構成され、Ｎ７およびＮ８は正の整数であり、第６の統計値は現在の音声フレームの基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、当該Ｎ７１個の履歴音声フレームは当該Ｎ７個の履歴音声フレームのサブセットであり、当該Ｎ８１個の履歴音声フレームは当該Ｎ８個の履歴音声フレームのサブセットである。

第２の態様の第１１の可能な実装方式を参照して、第２の態様の第１２の可能な実装方式では、推定により現在の音声フレームの短期線形予測効率を取得する態様において、当該推定ユニットは特に、現在の音声フレームの短期線形予測効率を現在の音声フレームの線形予測残差に基づいて取得するように構成される。

第２の態様の第１２の可能な実装方式を参照して、第２の態様の第１３の可能な実装方式では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、当該推定ユニットは特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成され、当該エネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は当該エネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された現在の音声フレームのエネルギは現在の音声フレームの線形予測残差のエネルギである。

第２の態様の第１３の可能な実装方式を参照して、第２の態様の第１４の可能な実装方式では、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのエネルギ変化率は、短期線形予測が現在の音声フレームに実施される前に取得された現在の音声フレームのエネルギの、現在の音声フレームの線形予測残差のエネルギに対する比率である。

第２の態様の第１０の可能な実装方式を参照して、第２の態様の第１５の可能な実装方式では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、当該推定ユニットは特に、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第１の履歴線形予測信号の計算に従って取得するように構成され、当該相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は当該相関に基づいて取得され、第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、第１の履歴線形予測残差は現在の音声フレームの履歴音声フレームの線形予測残差であり、第１の履歴線形予測励起は現在の音声フレームの履歴音声フレームの線形予測励起である。

第２の態様の第１５の可能な実装方式を参照して、第２の態様の第１６の可能な実装方式では、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第１の履歴線形予測信号の計算に従って取得する態様において、当該推定ユニットは特に、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を計算するように構成されるか、または、
現在の音声フレームの線形予測残差に利得因子を乗じて、現在の音声フレームの増幅された線形予測残差を取得し、現在の音声フレームの増幅された線形予測残差および第１の履歴線形予測信号の間の相関を計算により取得するように構成され、現在の音声フレームの増幅された線形予測残差と第１の履歴線形予測信号との間の計算により得られた相関は現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関であるか、または、
第１の履歴線形予測信号に利得因子を乗じて、増幅された第１の履歴線形予測信号を取得し、現在の音声フレームの線形予測残差および当該増幅された第１の履歴線形予測信号の間の相関を計算により取得するように構成され、現在の音声フレームの線形予測残差と当該増幅された第１の履歴線形予測信号との間の計算により得られた相関は現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関である。

第２の態様の第１５の可能な実装方式または第２の態様の第１６の可能な実装方式を参照して、第２の態様の第１７の可能な実装方式では、第１の履歴線形予測励起または第１の履歴線形予測残差は現在の音声フレームのピッチに基づいて決定される。

第２の態様の第１５乃至第１７の可能な実装方式を参照して、第２の態様の第１８の可能な実装方式では、第１の履歴線形予測励起および現在の音声フレームの線形予測残差の間の時間領域相関は、他の履歴線形予測励起および現在の音声フレームの線形予測残差の間の時間領域相関以上であるか、または、
第１の履歴線形予測残差および現在の音声フレームの線形予測残差の間の時間領域相関は、別の履歴線形予測残差および現在の音声フレームの線形予測残差の間の時間領域相関以上である。

第２の態様の第１５乃至第１８の可能な実装方式を参照して、第２の態様の第１９の可能な実装方式では、第１の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起である。

第２の態様の第１５乃至第１９の可能な実装方式を参照して、第２の態様の第２０の可能な実装方式では、第１の履歴線形予測残差は現在の音声フレームの第１の履歴音声フレームの時間領域信号および第１の履歴音声フレームの線形予測係数に基づいて取得され、第１の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。

第２の態様の第１５乃至第２０の可能な実装方式を参照して、第２の態様の第２１の可能な実装方式では、現在の音声フレームの線形予測残差は現在の音声フレームの時間領域信号および現在の音声フレームの線形予測係数に基づいて取得され、現在の音声フレームの線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である。

第２の態様の第１５乃至第２１の可能な実装方式を参照して、第２の態様の第２２の可能な実装方式では、第１の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または第１の履歴線形予測励起は適応コードブック励起である。

第２の態様の第１５乃至第２２の可能な実装方式を参照して、第２の態様の第２３の可能な実装方式では、当該相関は時間領域における相互相関の関数値および／または周波数領域における相互相関の関数値であるか、または当該相関は時間領域歪みおよび／または周波数領域歪みである。

第２の態様の第２３の可能な実装方式を参照して、第２の態様の第２４の可能な実装方式では、当該周波数領域歪みは当該周波数領域内のＫ１個の周波数ビンの歪みの合計値または重み付き合計値であるか、または、当該周波数領域歪みは当該周波数領域内のＫ２個のサブバンドの歪みの合計値または重み付き合計値であり、Ｋ１およびＫ２は正の整数である。

第２の態様の第２４の可能な実装方式を参照して、第２の態様の第２５の可能な実装方式では、当該歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。

本発明の幾つかの実施形態の技術的解決策では、現在の音声フレームの基準線形予測効率が先ず推定され、当該推定された基準線形予測効率にマッチする音声符号化方式が上述の現在の音声フレームの推定された基準線形予測効率を用いて決定され、音声符号化が、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って上述の現在の音声フレームに実施されることは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の技術的解決策は、音声符号化の動作複雑性の削減を支援し、さらに音声符号化のオーバヘッドが減る。

本発明の当該実施形態における技術的解決策をより明確に説明するために、以下では当該実施形態を説明するのに必要な添付図面を簡単に説明する。明らかに、以下の説明における添付図面は本発明の幾つかの実施形態を示すにすぎず、当業者は創造的努力なしにこれらの添付図面から他の図面を依然として導出することができる。

本発明の１実施形態に従う音声符号化方法の略流れ図である。本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。本発明の１実施形態に従う音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。本発明の別の実施形態に従う別の音声符号化器の略構造図である。

本発明の諸実施形態では、音声符号化のオーバヘッドを削減するための音声符号化方法および関連装置を提供する。

当業者に本発明の技術的解決策をより良く理解させるように、以下では、本発明の当該実施形態における添付図面を参照して、本発明の当該実施形態における技術的解決策を明確かつ十分に説明する。明らかに、説明した実施形態は本発明の諸実施形態の全部ではなく一部にすぎない。当業者が創造的努力なしに本発明の諸実施形態に基づいて取得する他の全ての実施形態は本発明の保護範囲に入るものとする。

詳細を以下で別々に説明する。

本発明の明細書、特許請求の範囲、および添付図面では、「第１の」、「第２の」、「第３の」、「第４の」等の用語は異なるオブジェクトを区別するためのものであり、特定の順序を示すものではない。さらに、「含む」、「有する」という用語、およびその他の任意の変形は非包括的な包含をカバーしようとするものである。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、または装置は、列挙したステップまたはユニットに限定されず、列挙しないステップまたはユニットを任意選択でさらに含み、または、当該プロセス、当該方法、当該製品、または当該装置の別の固有なステップまたはユニットを任意選択でさらに含む。

以下では先ず、本発明の当該実施形態で提供する音声符号化方法を説明する。本発明の当該実施形態で提供する音声符号化方法を音声符号化器により実行してもよい。当該音声符号化器が、音声信号を収集、格納、または外部に送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。

本発明の音声符号化方法の１実施形態では、当該音声符号化方法が、現在の音声フレームの基準線形予測効率を推定するステップと、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップと、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するステップを含んでもよい。

先ず、図１を参照すると、図１は、本発明の１実施形態に従う音声符号化方法の略流れ図である。図１に示すように、本発明の当該実施形態で提供する音声符号化方法が以下の内容を含んでもよい。

１０１．現在の音声フレームの基準線形予測効率を推定する。

実際の適用では、現在の音声フレームの基準線形予測効率を、複数の利用可能なアルゴリズムを用いて推定してもよい。

本発明の当該実施形態では、音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。

本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。

現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。

基準線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ１（ｘ１は正の数である）であってもよく、基準長期線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ２（ｘ２は正の数である）であってもよく、基準短期線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ３（ｘ３は正の数である）であってもよく、基準統合線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ４（ｘ４は正の数である）であってもよく、長期線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ５（ｘ５は正の数である）であってもよく、短期線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ６（ｘ６は正の数である）であってもよく、ｘ１、ｘ２、ｘ３、ｘ４、ｘ５、またはｘ６が、例えば、０．５、０．８、１．５、２、５、１０、５０、１００、または別の正の数であってもよいことは理解されうる。説明の簡単さのため、線形予測効率の値範囲が０‐１（即ち、０‐１００％）である例を以下で主に使用し、別の値範囲をこれから導出してもよい。

１０２．上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を決定する。

本発明の幾つかの実施形態では、音声フレームの音声符号化方式と基準線形予測効率との間の１組のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよく、または、異なる音声符号化方式が異なる基準線形予測効率間隔に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも２つの音声符号化方式から決定してもよい。

１０３．上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って、音声符号化を上述の現在の音声フレームに実施する。

本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを最初に決定してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。即ち、ステップ１０１乃至ステップ１０３は、現在の音声フレームが会話音声フレームであるかどうかまたは非会話音声フレームであるかどうかに関らず実行される。

本実施形態の技術的解決策では、現在の音声フレームの基準線形予測効率が先ず推定され、当該推定された基準線形予測効率にマッチする音声符号化方式が上述の現在の音声フレームの推定された基準線形予測効率を用いて決定され、音声符号化が、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って上述の現在の音声フレームに実施されることは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。

本発明の幾つかの実施形態では、音声フレーム（例えば、現在の音声フレームまたは別の音声フレーム）の基準統合線形予測効率は当該音声フレームの基準長期線形予測効率および当該音声フレームの基準短期線形予測効率に基づいて取得される。例えば、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値（ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、０．５、１、２、３、５、１０、または別の値であってもよい）、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。

本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式が、代数符号励起線形予測（ＡＣＥＬＰ、ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）符号化、変換符号化励起（ＴＣＸ、ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ）等を含んでもよく、線形予測に基づかない音声符号化方式が、汎用音声符号化（ＧＡＣ、ＧｅｎｅｒｉｃＡｕｄｉｏＣｏｄｉｎｇ）を含んでもよく、ＧＡＣが、例えば、修正離散余弦変換（ＭＤＣＴ、ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）符号化または離散余弦変換（ＤＣＴ、ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）符号化を含んでもよい。

上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。

例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含む。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するステップを含む。上述の第１の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、３つの線形予測効率間隔があり、それぞれ０‐３０％ＧＡＣ、３０‐７０％ＴＣＸ、および７０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐３０％に入る（即ち、第１の線形予測効率間隔は線形予測効率間隔０‐３０％である）場合、線形予測効率間隔０‐３０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式（例えば、ＧＡＣ）であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔３０‐７０％に入る（即ち、第１の線形予測効率間隔が線形予測効率間隔３０‐７０％である）場合、線形予測効率間隔３０‐７０％に対応する音声符号化方式（例えば、ＴＣＸ）は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔７０‐１００％に入る（即ち、第１の線形予測効率間隔が線形予測効率間隔７０‐１００％である）場合、線形予測効率間隔７０‐１００％に対応する音声符号化方式（例えば、ＡＣＥＬＰ符号化）は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第２の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第２の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、３つの線形予測効率間隔があり、それぞれ０‐４０％、４０‐６０％、および６０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐４０％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔０‐４０％である）場合、線形予測効率間隔０‐４０％に対応する音声符号化方式（例えば、ＧＡＣ）は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔４０‐６０％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔４０‐６０％である）場合、線形予測効率間隔４０‐６０％に対応する音声符号化方式（例えば、ＴＣＸ）は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定される。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔６０‐１００％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔６０‐１００％である）場合、線形予測効率間隔６０‐１００％に対応する音声符号化方式（例えば、ＡＣＥＬＰ符号化）は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第３の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第３の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、３つの線形予測効率間隔があり、それぞれ０‐５０％、５０‐８０％、および８０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐５０％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔０‐５０％である）場合、線形予測効率間隔０‐５０％に対応する音声符号化方式（例えば、ＧＡＣ）は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔５０‐８０％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔５０‐８０％である）場合、線形予測効率間隔５０‐８０％に対応する音声符号化方式（例えば、ＴＣＸ）は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定される。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔８０‐１００％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔８０‐１００％である）場合、線形予測効率間隔８０‐１００％に対応する音声符号化方式（例えば、ＡＣＥＬＰ符号化）は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

上述の例で言及した閾値（例えば、第１の閾値、第２の閾値、第３の閾値、第４の閾値、第５の閾値、および第６の閾値）の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が０‐１である場合、第１の閾値の値が、０．２、０．５、０．６、０、８、０．９等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が０‐１である場合、第２の閾値の値が、０．３、０．３、０．６、０．８、０．９等であってもよく、別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。例えば、線形予測に基づく音声符号化方式（例えば、ＴＣＸまたはＡＣＥＬＰ符号化）を好適に選択して音声フレームを符号化する場合、対応する閾値（例えば、第１の閾値、第２の閾値、第３の閾値、第４の閾値、第５の閾値、または第６の閾値）を比較的小さく設定してもよい。線形予測に基づかない音声符号化方式（例えば、ＧＡＣ符号化）を好適に選択して音声フレームを符号化する場合、対応する閾値（例えば、第１の閾値、第２の閾値、第３の閾値、第４の閾値、第５の閾値、または第６の閾値）を比較的大きく設定してもよい、等である。

上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を１例として使用して説明を行う。

例えば、本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を、推定により以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより取得してもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。

あるいは、上述の現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第１の統計値を計算するステップとにより取得される。Ｎ１は正の整数であり（例えば、Ｎ１が１、２、３、または別の値に等しくてもよい）、上述の第１の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率を各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよく（例えば、上述のＮ１１個の履歴音声フレームが音声フレームＦ１、Ｆ２、およびＦ３である場合、音声フレームＦ１の線形予測効率は音声フレームＦ１の以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、音声フレームＦ２の線形予測効率は音声フレームＦ２の以下の線形予測効率、即ち、音声フレームＦ３の長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、音声フレームＦ３の線形予測効率は、音声フレームＦ３の以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つである。音声フレームＦ１の統合線形予測効率を上述の音声フレームＦ１の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、音声フレームＦ２の統合線形予測効率を上述の音声フレームＦ２の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、音声フレームＦ３の統合線形予測効率を上述の音声フレームＦ３の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、Ｎ１１が別の値であるシナリオはこれから導出される）、上述のＮ１１個の履歴音声フレームは上述のＮ１個の履歴音声フレームのサブセットである（Ｎ１１はＮ１以下である）。上述のＮ１個の履歴音声フレームが、上述の現在の音声フレームの任意のＮ１個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するＮ１個の履歴音声フレームであってもよい。上述のＮ１個の履歴音声フレーム内の上述のＮ１１個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のＮ１１個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第１の統計値が例えば、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第２の統計値を計算するステップとにより取得してもよい。Ｎ２は正の整数であり（例えば、Ｎ２が１、２、３、または別の値に等しくてもよい）、上述の第２の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ２１個の履歴音声フレームは上述のＮ２個の履歴音声フレームのサブセットである（Ｎ２１はＮ２以下である）。上述のＮ２個の履歴音声フレームが、上述の現在の音声フレームの任意のＮ２個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するＮ２個の履歴音声フレームであってもよい。上述のＮ２個の履歴音声フレーム内の上述のＮ２１個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のＮ２１個の履歴音声フレームの線形予測効率と異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第２の統計値は、例えば、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第３の統計値を計算するステップとにより取得してもよい。Ｎ３およびＮ４は正の整数であり（例えば、Ｎ３およびＮ４が１、２、３、または別の値に等しくてもよい）、上述の第３の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、上述のＮ３１個の履歴音声フレームは上述のＮ３個の履歴音声フレームのサブセットであり、Ｎ３１はＮ３以下である。上述のＮ３個の履歴音声フレームが、上述の現在の音声フレームの任意のＮ３個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するＮ３個の履歴音声フレームであってもよい。上述のＮ３個の履歴音声フレームにおける、上述のＮ３１個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のＮ３１個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のＮ４１個の履歴音声フレームは上述のＮ４個の履歴音声フレームのサブセットであり、Ｎ４１はＮ４以下である。上述のＮ４個の履歴音声フレームが、上述の現在の音声フレームの任意のＮ４個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するＮ４個の履歴音声フレームであってもよい。上述のＮ４個の履歴音声フレームにおける、上述のＮ４１個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のＮ４１個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のＮ３個の履歴音声フレームおよび上述のＮ４個の履歴音声フレームの積集合が空集合であってもよく、または、空集合でなくてもよい。上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第３の統計値は、例えば、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準短期線形予測効率は推定により、例えば、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより取得される。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。

あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第４の統計値を計算するステップとにより取得してもよい。Ｎ５は正の整数であり（例えば、Ｎ５が１、２、３、または別の値に等しくてもよい）、上述の第４の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ５１個の履歴音声フレームは上述のＮ５個の履歴音声フレームのサブセットである（Ｎ５１はＮ５以下である）。上述のＮ５個の履歴音声フレームが、上述の現在の音声フレームの任意のＮ５個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するＮ５個の履歴音声フレームであってもよい。上述のＮ５個の履歴音声フレーム内の上述のＮ５１個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のＮ５１個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第４の統計値が、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第５の統計値を計算するステップとにより取得してもよい。Ｎ６は正の整数であり（例えば、Ｎ６が１、２、３、または別の値に等しくてもよい）、上述の第５の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ６１個の履歴音声フレームは上述のＮ６個の履歴音声フレームのサブセットである（Ｎ６１はＮ６以下である）。上述のＮ６個の履歴音声フレームが、上述の現在の音声フレームの任意のＮ６個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するＮ６個の履歴音声フレームであってもよい。上述のＮ６個の履歴音声フレームにおける、上述のＮ６１個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のＮ６１個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第５の統計値が、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第６の統計値を計算するステップとにより取得してもよい。Ｎ７およびＮ８は正の整数であり（例えば、Ｎ７およびＮ８が１、２、３、または別の値に等しくてもよい）、上述の第６の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ７１個の履歴音声フレームは上述のＮ７個の履歴音声フレームのサブセットである（Ｎ７１はＮ７以下である）。上述のＮ７個の履歴音声フレームが、上述の現在の音声フレームの任意のＮ７個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するＮ７個の履歴音声フレームであってもよい。上述のＮ７個の履歴音声フレームにおける、上述のＮ７１個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のＮ７１個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のＮ８１個の履歴音声フレームは上述のＮ８個の履歴音声フレームのサブセットである（Ｎ８１はＮ８以下である）。上述のＮ８個の履歴音声フレームが、上述の現在の音声フレームの任意のＮ８個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するＮ８個の履歴音声フレームであってもよい。上述のＮ８個の履歴音声フレームにおける、上述のＮ８１個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のＮ８１個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のＮ７個の履歴音声フレームおよび上述のＮ８個の履歴音声フレームの積集合が空集合であってもよく、または、空集合でなくてもよい。上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第６の統計値が、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

本発明の幾つかの実施形態では、音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）の線形予測効率（例えば、長期線形予測効率または短期線形予測効率）を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）のより高い線形予測効率（例えば、長期線形予測効率または短期線形予測効率）は線形予測を当該音声フレームに実施できるより広い範囲を示す。

本発明の幾つかの実施形態では、推定により現在の音声フレームの短期線形予測効率を取得するステップが、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップを含んでもよい。

本発明の幾つかの実施形態では、例えば、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップは、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するステップを含む。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。

例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。

本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得するステップが、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するステップを含んでもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、上述の第１の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり（例えば、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい）、上述の第１の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である（例えば、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい）。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。

上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第１の履歴線形予測信号に従って取得してもよい。

例えば、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を計算するステップを含んでもよい。

あるいは、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第１の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第１の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間の相関である。

あるいは、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するステップが、第１の履歴線形予測信号に利得因子を乗じて増幅された第１の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第１の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第１の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間の相関である。

上述の第１の履歴線形予測残差または上述の第１の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第１の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第１の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも１つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第１の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第１の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも１つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。

一般に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間のより大きい相関は上述の現在の音声フレームのより大きい長期線形予測効率を示す。

本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および／または周波数領域における相互相関の関数値であるか、または、上述の相関が時間領域歪みおよび／または周波数領域歪みであってもよい（当該周波数領域歪みをまた、スペクトル歪みと称してもよい）。

本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のＫ１個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のＫ２個のサブバンドの歪みの合計値または重み付き合計値であってもよく、Ｋ１およびＫ２は正の整数である。

一般に、上述の現在の音声フレームの線形予測残差および上述の第１の履歴線形予測信号の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第１の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。

本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測残差を上述の現在の音声フレームの第１の履歴音声フレームの時間領域信号および上述の第１の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第１の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。

本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測励起が適応コードブック励起と固定コードブック励起の重合せ励起であってもよく、または、上述の第１の履歴線形予測励起が適応コードブック励起であってもよく、または、上述の第１の履歴線形予測励起が別のタイプのコードブック励起であってもよい。

本発明の当該実施形態では、音声フレームの履歴音声フレーム（例えば、時間領域内の現在の音声フレームまたは現在の音声フレームに先行するかもしくは続く音声フレーム）は、同一の音声ストリーム内の時間領域における当該音声フレームに先行する音声フレームを指すことは理解されうる。履歴音声フレームが相対的な概念であることは理解できる。例えば、同一の音声ストリームに含まれる４つの音声フレームの時間領域シーケンスは音声フレームｙ１−＞音声フレームｙ２−＞音声フレームｙ３−＞音声フレームｙ４であり、音声フレームｙ１、音声フレームｙ２、および音声フレームｙ３は音声フレームｙ４の履歴音声フレームであり、音声フレームｙ１および音声フレームｙ２は音声フレームｙ３の履歴音声フレームであり、音声フレームｙ１は音声フレームｙ２の履歴音声フレームであると仮定する。音声フレームｙ４は音声フレームｙ３の履歴音声フレームではなく、音声フレームｙ４は音声フレームｙ２または音声フレームｙ１の履歴音声フレームではなく、別のシナリオをこれから導出してもよいことは理解されうる。

本発明の当該実施形態における上述の技術的態様をより良く理解するのを支援するために、幾つかの特定の適用シナリオを以下で説明を行うための例として使用する。

先ず、図２を参照すると、図２は本発明の１実施形態に従う音声符号化方法の略流れ図である。図２に示すように、本発明の当該実施形態で提供する音声符号化方法が以下の内容を含んでもよい。

２０１．現在の音声フレームが会話音声フレームであるかどうかを判定する。

そうである場合、ステップ２０２が実行される。

そうでない場合、ステップ２０３が実行される。

２０２．会話符号化方式に基づいて音声符号化を上述の現在の音声フレームに実施する。

本発明の幾つかの実施形態では、現在の音声フレームが会話音声フレームである場合、音声符号化を、代数符号励起線形予測（ＡＣＥＬＰ、ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）符号化に基づいて上述の現在の音声フレームに実施してもよい。例えば、現在の音声フレームが会話音声フレームである場合、現在の音声フレームを音声符号化のためにＡＣＥＬＰサブ符号化器に入力してもよい。当該ＡＣＥＬＰサブ符号化器はＡＣＥＬＰ符号化を使用するサブ符号化器である。

２０３．現在の音声フレームの基準線形予測効率を推定する。

現在の音声フレームの基準線形予測効率を、複数のアルゴリズムを用いて推定してもよい。

本発明の当該実施形態では、音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）の基準線形予測効率を使用して、線形予測を音声フレームに実施できる範囲を表してもよい。音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。

基準線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ１（ｘ１は正の数である）であってもよく、基準長期線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ２（ｘ２は正の数である）であってもよく、基準短期線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ３（ｘ３は正の数である）であってもよく、基準統合線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ４（ｘ４は正の数である）であってもよく、長期線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ５（ｘ５は正の数である）であってもよく、短期線形予測効率の値範囲が０‐１（即ち、０‐１００％）であってもよいか、または、値範囲が０‐ｘ６（ｘ６は正の数である）であってもよく、ｘ１、ｘ２、ｘ３、ｘ４、ｘ５、またはｘ６が、例えば、０．５、０．８、１．５、２、５、１０、５０、１００、または別の正の数であってもよいことは理解されうる。

２０４．上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を決定する。

本発明の幾つかの実施形態では、音声フレームの音声符号化方式と基準線形予測効率との間のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも２つの音声符号化方式から決定してもよい。

上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式が、変換符号化励起（ＴＣＸ、ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ）であってもよく、または、汎用音声符号化（ＧＡＣ、ＧｅｎｅｒｉｃＡｕｄｉｏＣｏｄｉｎｇ）であってもよく、ＧＡＣが例えば、修正離散余弦変換（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）符号化であってもよい。

２０５．上述の決定された音声符号化方式に従って、音声符号化を上述の現在の音声フレームに実施する。

当該実施形態の技術的解決策では、現在の音声フレームが会話音声フレームであるかどうかが先ず決定され、現在の音声フレームが会話音声フレームである場合、音声符号化が会話符号化方式に基づいて上述の現在の音声フレームに実施されるか、または、現在の音声フレームが非会話音声フレームである場合は、現在の音声フレームの基準線形予測効率が先ず推定され、当該推定された基準線形予測効率にマッチする音声符号化方式が上述の現在の音声フレームの推定された基準線形予測効率を用いて決定され、音声符号化が、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って上述の現在の音声フレームに実施されることは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。

本発明の幾つかの実施形態では、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値（ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、０．５、１、２、３、５、１０、または別の値であってもよい）、または平均値であってもよい。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するステップであって、上述の第１の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、ステップを含む。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、３つの線形予測効率間隔があり、それぞれ、０‐３０％、３０‐７０％、および７０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐３０％に入る（即ち、第１の線形予測効率間隔は線形予測効率間隔０‐３０％である）場合、線形予測効率間隔０‐３０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔３０‐７０％に入る（即ち、第１の線形予測効率間隔は線形予測効率間隔３０‐７０％である）場合、線形予測効率間隔３０‐７０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式を決定するステップを含む。上述の第２の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第２の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。例えば、３つの線形予測効率間隔があり、それぞれ０‐４０％、４０‐６０％、および６０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐４０％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔０‐４０％である）場合、線形予測効率間隔０‐４０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔４０‐６０％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔４０‐６０％である）場合、線形予測効率間隔４０‐６０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式を決定するステップを含む。上述の第３の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第３の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。例えば、３つの線形予測効率間隔があり、それぞれ０‐５０％、５０‐８０％、および８０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐５０％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔０‐５０％である）場合、線形予測効率間隔０‐５０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔５０‐８０％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔５０‐８０％である）場合、線形予測効率間隔５０‐８０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

例えば、本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより取得してもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。

あるいは、上述の現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第１の統計値を計算するステップとにより取得される。Ｎ１は正の整数であり、上述の第１の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ１１個の履歴音声フレームは上述のＮ１個の履歴音声フレームのサブセットである。上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第１の統計値が、例えば、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第２の統計値を計算するステップとにより取得してもよい。Ｎ２は正の整数であり、上述の第２の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ２１個の履歴音声フレームは上述のＮ２個の履歴音声フレームのサブセットである。上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第２の統計値は、例えば、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第３の統計値を計算するステップとにより取得してもよい。Ｎ３およびＮ４は正の整数であり、上述の第３の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、上述のＮ３１個の履歴音声フレームは上述のＮ３個の履歴音声フレームのサブセットであり、上述のＮ４１個の履歴音声フレームは上述のＮ４個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のＮ３個の履歴音声フレームおよび上述のＮ４個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第３の統計値は、例えば、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第４の統計値を計算するステップとにより取得してもよい。Ｎ５は正の整数であり、上述の第４の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ５１個の履歴音声フレームは上述のＮ５個の履歴音声フレームのサブセットである。上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第４の統計値が、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第５の統計値を計算するステップとにより取得してもよい。Ｎ６は正の整数であり、上述の第５の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ６１個の履歴音声フレームは上述のＮ６個の履歴音声フレームのサブセットである。上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第５の統計値が、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第６の統計値を計算するステップとにより取得してもよい。Ｎ７およびＮ８は正の整数であり、上述の第６の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のＮ７１個の履歴音声フレームは上述のＮ７個の履歴音声フレームのサブセットであり、上述のＮ８１個の履歴音声フレームは上述のＮ８個の履歴音声フレームのサブセットである。上述のＮ７個の履歴音声フレームおよび上述のＮ８個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第６の統計値が、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

本発明の幾つかの実施形態では、例えば、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップは、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するステップを含む。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。

本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得するステップが、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するステップを含んでもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、上述の第１の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり、上述の第１の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。

本発明の幾つかの実施形態では、現在の音声フレームの時間領域信号を、分析フィルタＡ（Ｚ）を用いることによりフィルタして、現在の音声フレームの線形予測残差Ｒを取得してもよい。フィルタＡ（Ｚ）のフィルタ係数は現在の音声フレームの線形予測係数である。

詳細については、以下の式１を参照されたい

式１のＳ（ｉ）は、現在の音声フレームのｉ番目の時間領域標本点の信号を示し、ａ（ｋ）は現在の音声フレームのｋ番目の次数の線形予測係数を示し、Ｍはフィルタの次数の総数であり、Ｎは現在の音声フレームの時間領域長であり、Ｒ（ｉ）は現在の音声フレームのｉ番目の時間領域標本点の線形予測残差を示す。

任意の音声フレーム（例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム）の線形予測残差を上述の例の方式で取得してもよいことは理解されうる。

例えば、全ての音声フレームまたは幾つかの音声フレームの線形予測励起または線形予測残差をキャッシュしてもよく、その結果、当該線形予測励起または当該線形予測残差を、可能な次の音声フレームにおいて使用できる履歴線形予測励起または履歴線形予測残差として使用して、当該履歴線形予測励起または当該履歴線形予測残差と当該次の音声フレームの線形予測残差との間の相関を計算する。

本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および／または周波数領域における相互相関の関数値である。

本発明の任意の実装方式では、周波数領域における相互相関の関数値が計算されると、時間周波数変換（例えば、離散フーリエ変換（ＤＦＴ、ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）または離散余弦変換（ＤＣＴ、ｄｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ））を現在の音声フレームの線形予測残差に実施して、現在の音声フレームの線形予測残差の周波数領域信号を取得してもよく、時間周波数変換（例えば、ＤＦＴまたはＤＣＴ）を第１の履歴線形予測信号に実施して、第１の履歴線形予測信号の周波数領域信号を取得してもよい。以下は相関計算式を列挙する。当該式は式１で示される。

上述の式２のＣは、現在の音声フレームの線形予測残差および第１の履歴線形予測信号の時間領域における相互相関の関数値を示し、Ｒ（ｉ）は、現在の音声フレームのｉ番目の時間領域標本点の線形予測残差を示し、Ｅ（ｉ）は、第１の履歴線形予測信号のｉ番目の時間領域標本点の信号を示し、Ｎは、音声フレームの時間領域標本点の総量を示す。または、上述の式２のＣは、現在の音声フレームの線形予測残差および第１の履歴線形予測信号の周波数領域における相互相関の関数値を示し、Ｒ（ｉ）は、現在の音声フレームの線形予測残差のｉ番目のスペクトル・エンベロープを示し、Ｅ（ｉ）は、第１の履歴線形予測信号のｉ番目のスペクトル・エンベロープの信号を示し、Ｎは、音声フレームのスペクトル・エンベロープの総量を示す。確かに、別の相関計算方法は本発明では限定されない。

本発明における周波数領域相関を計算する別の実施形態において、ピッチ・ジッタをより良く克服するために、相互相関が計算される前にシフト処理を先ずＲ（ｉ）またはＥ（ｉ）の信号に実施してもよい。これは例えば式３で示される。

式２に基づいて、シフト処理がさらに上述の式３におけるＥ（ｉ）に実施され、ｊはシフト量を示し、ｊが整数であってもよく、シフト処理をＲ（ｉ）に実施する方式は、シフト処理をＥ（ｉ）に実施する方式と同様である。

本発明の他の実施形態では、上述の相関が、例えば、時間領域歪みおよび／または周波数領域歪みであってもよい。

本発明の任意の実装方式では、周波数領域歪みが計算されているとき、時間周波数変換（例えば、ＤＦＴまたはＤＣＴ）を、現在の音声フレームの線形予測残差に実施して現在の音声フレームの線形予測残差の周波数領域信号を取得してもよく、時間周波数変換（例えば、ＤＦＴまたはＤＣＴ）を、第１の履歴線形予測信号に実施して、第１の履歴線形予測信号の周波数領域信号を取得してもよい。現在の音声フレームの線形予測残差の周波数領域信号と第１の履歴線形予測信号の周波数領域信号との間の歪みＤが計算される。

より小さな歪みＤは、より強い相関およびより高い長期線形予測効率を示す。以下は歪みＤの計算式を列挙する。これを式４に示す。

式４のＮは、音声フレームの時間領域標本点の総量を示してもよく、Ｒ（ｋ）は、現在の音声フレームのｋ番目の時間領域標本点の線形予測残差を示し、Ｅ（ｋ）は、第１の履歴線形予測信号のｋ番目の時間領域標本点の信号を示す。または、式４のＮは、音声フレームのスペクトル・エンベロープの総量を示してもよく、Ｒ（ｋ）は、現在の音声フレームの線形予測残差のｋ番目のスペクトル・エンベロープを示し、Ｅ（ｋ）は、第１の履歴線形予測信号のｋ番目のスペクトル・エンベロープを示す。

以下は歪みＤの２つの他の計算式を列挙する。これを式５または式６に示す。

式５および式６のＮは、音声フレームの時間領域標本点の総量を示してもよく、Ｒ（ｋ）は、現在の音声フレームのｋ番目の時間領域標本点の線形予測残差を示し、Ｅ（ｋ）は、第１の履歴線形予測信号のｋ番目の時間領域標本点の信号を示す。または、式５および式６のＮは、音声フレームのスペクトル・エンベロープの総量を示してもよく、Ｒ（ｋ）は、現在の音声フレームの線形予測残差のｋ番目のスペクトル・エンベロープを示し、Ｅ（ｋ）は、第１の履歴線形予測信号のｋ番目のスペクトル・エンベロープを示す。

式５および式６のＧは利得因子を示し、最小の歪みＤは、Ｇの正しい値を選択することによって取得することができる。式４では、利得因子ＧはＥ（ｋ）に適用され、式５では、利得因子ＧはＲ（ｋ）に適用される。

本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のＫ１個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のＫ２個のサブバンドの歪みの合計値または重み付き合計値であってもよい。Ｋ１およびＫ２は正の整数である。

以下はさらに歪みＤの３つの計算式を列挙する。これを式７または式８または式９に示す。

式７乃至式９においてＰ（ｋ）は重み付け係数のグループであり、Ｐ（ｋ）が心理音響モデルを反映する知覚重み付け係数または他の重み付け係数のグループであってもよい。

式７乃至式９におけるＮ、Ｒ（ｋ）、Ｅ（ｋ）、およびＧの意味は式５と同じである。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測残差を上述の現在の音声フレームの第１の履歴音声フレームの時間領域信号および上述の第１の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第１の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。

本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測励起が適応コードブック励起および固定コードブック励起の重合せ励起であってもよく、または、上述の第１の履歴線形予測励起が適応コードブック励起であってもよい。

以下でさらに、上述の解決策を実装するための関連装置を提供する。

図３−ａを参照すると、図３−ａは本発明の別の実施形態に従う音声符号化器３００の略構造図である。

時間領域音声信号を、フレームの単位で、本発明の当該実施形態で提供される音声符号化器３００に入力してもよく、音声符号化器３００により実施される符号化処理を受けた後、当該入力された音声フレームを比較的小さいビットストリームに圧縮してもよい。当該ビットストリームを記憶または送信に対して使用してもよく、当該元の時間領域音声フレームを、音声復号器を用いて復元してもよい。

本実施形態の音声符号化器３００が、複数のサブ符号化器を含んでもよく、特に、少なくとも１つの線形予測ベースのサブ符号化器（説明の簡単さのため、線形予測ベースのサブ符号化器を以下の説明においてタイプＡのサブ符号化器と称してもよい）と、線形予測に基づかないサブコードである少なくとも１つのサブ符号化器（説明の簡単さのため、線形予測に基づかないサブ符号化器を以下の説明ではタイプＢの符号化器と称してもよい）を含んでもよい。

図３−ａに示すように、音声符号化器３００は、選択器３０１、タイプＡのサブ符号化器３０２、タイプＢのサブ符号化器３０３、および制御されたルータ３０４を含む。

選択器３０１は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化器を決定し、ルーティング制御信号を制御されたルータ３０４に送信して、制御されたルータ３０４に入力された現在の音声フレームを上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化器（例えば、Ａタイプのサブ符号化器３０２またはＢタイプのサブ符号化器３０３）に出力するように、制御されたルータ３０４を制御するように構成される。Ａタイプのサブ符号化器３０２またはＢタイプのサブ符号化器３０３は、音声符号化を当該入力された現在の音声フレームに実施し、符号化された音声信号を出力するように構成される。例えば、Ａタイプのサブ符号化器３０２がＴＣＸ符号化器であってもよく、Ｂタイプのサブ符号化器３０２が、ＧＡＣ符号化器であってもよく、例えば、Ｂタイプのサブ符号化器３０２がＭＤＣＴ符号化器であってもよい。

本発明の幾つかの実施形態では、図３−ｂに示すように、図３−ａに示すアーキテクチャを有する音声符号化器３００に基づいて、分類器３０５およびサブ符号化器３０６をさらに追加してもよい。

分類器３０５は、現在の音声フレームが会話音声フレームであるかどうかを判定し、当該音声フレームが会話音声フレームである場合、当該ルーティング制御信号を制御されたルータ３０４に送信して、制御されたルータ３０４に入力された現在の音声フレームをサブ符号化器３０６に出力するように、制御されたルータ３０４を制御するように構成される。符号化器３０６は会話音声フレームの符号化に適したサブ符号化器であり、例えば、サブ符号化器３０６はＡＣＥＬＰ符号化器である。符号化器３０６は、音声符号化を当該入力された現在の音声フレームに実施し、当該符号化された音声信号を出力するように構成される。

本発明の幾つかの実施形態では、図３−ｃに示すように、選択器３０１が、判定ユニット３０１３、第１の推定ユニット３０１１、および第２の推定ユニット３０２２を備えてもよい。音声フレームの基準線形予測効率は、当該音声フレームの基準長期線形予測効率および基準短期線形予測効率を含む。

第１の推定ユニット３０１１は、現在の音声フレームの基準長期線形予測効率を推定するように構成される。

第２の推定ユニット３０１２は、現在の音声フレームの基準短期線形予測効率を推定するように構成される。

判定ユニット３０１３は、第１の推定ユニット３０１１により推定された上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ、／または、第２の推定ユニット３０１２により推定された上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ３０４に送信して、制御されたルータ３０４に入力された現在の音声フレームをＢタイプのサブ符号化器３０３に出力するように、制御されたルータ３０４を制御するか、または第１の推定ユニット３０１１により推定された上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、第２の推定ユニット３０１２により推定された上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ３０４に送信して、制御されたルータ３０４に入力された現在の音声フレームをＢタイプのサブ符号化器３０２に出力するように、制御されたルータ３０４を制御するように構成される。

本発明の幾つかの実施形態では、図３−ｄと図３−ｅに示すように、選択器３０１は第１の推定ユニット３０１１を備えないか、または、第２の推定ユニット３０１２を備えない。

図３−ｄに示すアーキテクチャでは、判定ユニット３０１３が、第１の推定ユニット３０１１により推定された上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ３０４に送信して、制御されたルータ３０４に入力された現在の音声フレームをＢタイプのサブ符号化器３０３に出力するように、制御されたルータ３０４を制御するか、または、第１の推定ユニット３０１１により推定された上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ３０４に送信して、制御されたルータ３０４に入力された現在の音声フレームをＢタイプのサブ符号化器３０２に出力するように、制御されたルータ３０４を制御するように構成されてもよい。

図３−ｅに示すアーキテクチャでは、判定ユニット３０１３が、第２の推定ユニット３０１２により推定された上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ３０４に送信して、制御されたルータ３０４に入力された現在の音声フレームをＢタイプのサブ符号化器３０３に出力するように、制御されたルータ３０４を制御するか、または、第２の推定ユニット３０１２により推定された上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ３０４に送信して、制御されたルータ３０４に入力された現在の音声フレームをＢタイプのサブ符号化器３０２に出力するように、制御されたルータ３０４を制御するように構成されてもよい。

本発明の幾つかの実施形態では、図３−ｆに示すように、図３−ｃに示すアーキテクチャを有する音声符号化器３００に基づいて、音声符号化器３００がさらに、現在の音声フレームの線形予測残差を取得するように構成されたプリプロセッサ３０１４を備えてもよい。プリプロセッサ３０１４が特に、分析フィルタＡ（Ｚ）を用いて現在の音声フレームの時間領域信号をフィルタして、現在の音声フレームの線形予測残差Ｒを取得するように構成されてもよい。フィルタＡ（Ｚ）のフィルタ係数は現在の音声フレームの線形予測係数である。

第１の推定ユニット３０１１は特に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得し、当該相関と現在の音声フレームの長期線形予測効率との間のマッピング関係に基づいて、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を取得するように構成される。上述の第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、上述の第１の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり（例えば、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい）、上述の第１の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である（例えば、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい）。

本発明の幾つかの実施形態では、図３−ｇに示すように、図３−ｆに示すアーキテクチャを有する音声符号化器３００に基づいて、音声符号化器３００がさらにキャッシュ３０８を備えてもよい。キャッシュ３０８が、全ての音声フレームまたは幾つかの音声フレームの線形予測励起または線形予測残差をキャッシュしてもよく、その結果、当該線形予測励起または当該線形予測残差を、可能な次の音声フレームにおいて使用できる履歴線形予測励起または履歴線形予測残差として使用して、当該履歴線形予測励起または当該履歴線形予測残差と当該次の音声フレームの線形予測残差との間の相関を計算する。第１の推定ユニット３０１１が第１の履歴線形予測信号をキャッシュ３０８から取得してもよい。

本発明の幾つかの実施形態では、図３−ｈに示すように、キャッシュ３０８によりキャッシュされた履歴線形予測励起または履歴線形予測残差がローカル音声復号器３１１からのものであってもよい。ローカル音声復号器３１１が、Ａタイプのサブ符号化器３０２およびＢタイプのサブ符号化器３０３による符号化によって取得された後に出力された符号化された音声フレームに復号化処理を実施し、復号化された音声フレームを出力してもよく、線形予測器３１２が、ローカル音声復号器３１１により出力された時間領域音声フレームに線形予測を実施して、当該音声フレームの線形予測残差または線形予測励起を取得してもよい。

本発明の幾つかの実施形態では、図３−ｉに示すように、キャッシュ３０８によりキャッシュされた履歴線形予測励起がまた、Ａタイプのサブ符号化器３０２からのものであってもよい。Ａタイプのサブ符号化器３０２は当該音声フレームを符号化するプロセスにおいて音声フレームの線形予測励起を取得し、Ａタイプのサブ符号化器３０２は、当該音声フレームの当該取得された線形予測励起をキャッシュのためにキャッシュ３０８に出力してもよい。

本発明の幾つかの実施形態では、現在の音声フレームの長期線形予測効率を推定するために第１の推定ユニット３０１１により使用される当該第１の履歴線形予測励起または上述の第１の履歴線形予測残差を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第１の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ３０８によりキャッシュされた他の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上であるか、または、上述の第１の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ３０８によりキャッシュされた少なくとも１つの他の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上である。例えば、上述の第１の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ３０８によりキャッシュされた別の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上であるか、または、上述の第１の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ３０８によりキャッシュされた少なくとも１つの他の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上である。

音声符号化器３００が、音声信号を収集、格納、または外部に送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。

図４を参照すると、図４は本発明の別の実施形態に従う音声符号化器４００の略構造図である。音声符号化器４００が、推定ユニット４１０、決定ユニット４２０、および符号化ユニット４３０を備えてもよい。

推定ユニット４１０は、現在の音声フレームの基準線形予測効率を推定するように構成される。

決定ユニット４２０は、推定ユニット４１０により推定された上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するように構成される。

符号化ユニット４３０は、上述の現在の音声フレームの基準線形予測効率にマッチする、決定ユニット４２０により決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。

例えば、現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。

本発明の幾つかの実施形態では、当該推定ユニットが特に、現在の音声フレームが非会話音声フレームであるとき上述の現在の音声フレームの基準線形予測効率を推定するように構成されてもよい。

本発明の幾つかの実施形態では、音声フレーム（例えば、現在の音声フレームまたは別の音声フレーム）の基準統合線形予測効率は当該音声フレームの基準長期線形予測効率および当該音声フレームの基準短期線形予測効率に基づいて取得される。上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値（ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、０．５、１、２、３、５、１０、または別の値であってもよい）、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。

上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、決定ユニット４２０により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。

以下では例を用いて幾つかの可能な実施形態の方式を示す。

本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット４２０が特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット４２０が特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット４２０が特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。

本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット４２０が特に、上述の現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。

本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット４２０が特に、上述の現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット４２０が特に、上述の現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット４２０は特に、上述の現在の音声フレームの基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するように構成される。上述の第１の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の決定ユニット４２０は特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の決定ユニット４２０は特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット４２０は特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット４２０は特に、上述の現在の音声フレームの基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式を決定するように構成される。上述の第２の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第２の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット４２０は特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット４２０は特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット４２０は特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、決定ユニット４２０は特に、上述の現在の音声フレームの基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式を決定するように構成される。上述の第３の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第３の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。

本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式がＡＣＥＬＰ符号化、ＴＣＸ等を含んでもよく、非線形予測に基づく音声符号化方式がＧＡＣを含んでもよく、当該ＧＡＣが、例えば、ＭＤＣＴ符号化またはＤＣＴ符号化を含んでもよい。

上述の例で言及した閾値（例えば、第１の閾値、第２の閾値、第３の閾値、第４の閾値、第５の閾値、および第６の閾値）の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が０‐１である場合、第１の閾値の値が０．２、０．５、０．６、０、８等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が０‐１である場合、第２の閾値の値が０．３、０．３、０．６、０．８等であってもよく別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよいことは理解されうる。

上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に、異なる方式で推定ユニット４１０により推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を１例として使用して説明を行う。

本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット４１０は特に、現在の音声フレームの長期線形予測効率を推定するように構成される。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。

本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット４１０は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得し、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第１の統計値を計算するように構成される。Ｎ１は正の整数であり、上述の第１の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ１１個の履歴音声フレームは上述のＮ１個の履歴音声フレームのサブセットである。上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第１の統計値が、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット４１０は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得し、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第２の統計値を計算するように構成される。Ｎ２は正の整数であり、上述の第２の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ２１個の履歴音声フレームは上述のＮ２個の履歴音声フレームのサブセットである。上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第２の統計値は、例えば、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット４１０は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得し、上述の現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得し、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第３の統計値を計算するように構成される。Ｎ３およびＮ４は正の整数であり、上述の第３の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、上述のＮ３１個の履歴音声フレームは上述のＮ３個の履歴音声フレームのサブセットであり、上述のＮ４１個の履歴音声フレームは上述のＮ４個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第３の統計値は、例えば、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

本発明の幾つかの実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット４１０が特に、現在の音声フレームの短期線形予測効率を推定するように構成されてもよい。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。

本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット４１０が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得し、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第４の統計値を計算するように構成されてもよい。Ｎ５は正の整数であり、上述の第４の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ５１個の履歴音声フレームは上述のＮ５個の履歴音声フレームのサブセットである。上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第４の統計値が、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット４１０が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得し、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第５の統計値を計算するように構成されてもよい。Ｎ６は正の整数であり、上述の第５の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ６１個の履歴音声フレームは上述のＮ６個の履歴音声フレームのサブセットである。上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により、推定ユニット４１０により得られた第５の統計値が、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット４１０が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得し、上述の現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得し、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第６の統計値を計算するように構成されてもよい。Ｎ７およびＮ８は正の整数であり、上述の第６の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ７１個の履歴音声フレームは上述のＮ７個の履歴音声フレームのサブセットであり、上述のＮ８１個の履歴音声フレームは上述のＮ８個の履歴音声フレームのサブセットである。上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第６の統計値が、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

本発明の幾つかの実施形態では、推定により現在の音声フレームの短期線形予測効率を取得する態様において、推定ユニット４１０は特に、現在の音声フレームの短期線形予測効率を現在の音声フレームの線形予測残差に基づいて取得するように構成される。

本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、推定ユニット４１０が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述のエネルギ変化率は上述の現在の音声フレームの短期線形予測効率であり、または、上述の現在の音声フレームの短期線形予測効率は上述のエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。

本発明の幾つかの実施形態では、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率は、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率である。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。

本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、上述の推定ユニット４１０が特に、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第１の履歴線形予測信号の計算に従って取得するように構成されてもよい。上述の相関は上述の現在の音声フレームの長期線形予測効率であるか、または、上述の現在の音声フレームの長期線形予測効率は上述の相関に基づいて取得され、上述の第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、第１の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり（例えば、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい）、上述の第１の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である（例えば、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい）。

上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第１の履歴線形予測信号に従って様々な方式で推定ユニット４１０により取得してもよい。

本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第１の履歴線形予測信号の計算に従って取得する態様において、上述の推定ユニット４１０が特に、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を計算するか、または、現在の音声フレームの線形予測残差に利得因子を乗じて、上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第１の履歴線形予測信号との間の相関を計算により取得するように構成されてもよく、上述の現在の音声フレームの増幅された線形予測残差と上述の第１の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間の相関であるか、
または、
第１の履歴線形予測信号に利得因子を乗じて、増幅された第１の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第１の履歴線形予測信号の間の相関を計算により取得するように構成されてもよく、上述の現在の音声フレームの線形予測残差と上述の増幅された第１の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間の相関である。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測残差または上述の第１の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第１の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第１の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも１つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第１の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第１の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも１つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。

本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関は、例えば、時間領域における相互相関の関数値および／または周波数領域における相互相関の関数値であるか、または、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関が時間領域歪みおよび／または周波数領域歪みであってもよい。本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のＫ１個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のＫ２個のサブバンドの歪みの合計値または重み付き合計値であってもよく、Ｋ１およびＫ２は正の整数である。本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。

一般に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第１の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起である。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測残差は上述の現在の音声フレームの第１の履歴音声フレームの時間領域信号および上述の第１の履歴音声フレームの線形予測係数に基づいて取得される。上述の第１の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。

本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差は上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得される。上述の現在の音声フレームの線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または、上述の第１の履歴線形予測励起は適応コードブック励起である。

本実施形態における音声符号化器４００の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装されてもよいことは理解されうる。具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器４００が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。

この装置の実施形態に含まれる閾値の値（例えば、第１の閾値および第２の閾値）およびその他のパラメータ（例えば、Ｎ１、Ｎ１１、Ｎ２１、およびＮ２）の例については、上述の方法の実施形態における値の関連する例を参照されたい。詳細についてはここでは再度説明しない。

本実施形態の技術的解決策では、音声符号化器４００が先ず現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。

図５を参照すると、図５は、本発明の別の実施形態に従う会話音声ビットストリームを復号するための符号化器の構造を説明する。当該符号化器は、少なくとも１つのバス５０１、バス５０１に接続された少なくとも１つのプロセッサ５０２、およびバス５０１に接続された少なくとも１つのメモリ５０３を備える。

バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。

本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率を推定する前に、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２をさらに、現在の音声フレームが会話音声フレームであるかどうかを先ず判定するように構成してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。

本発明の幾つかの実施形態では、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値（ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、０．５、１、２、３、５、１０、または別の値であってもよい）、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。

上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、プロセッサ５０２により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。

例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するように構成される。上述の第１の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、３つの線形予測効率間隔があり、それぞれ、０‐３０％、３０‐７０％、および７０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐３０％に入る（即ち、第１の線形予測効率間隔は線形予測効率間隔０‐３０％である）場合、線形予測効率間隔０‐３０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔３０‐７０％に入る（即ち、第１の線形予測効率間隔は線形予測効率間隔３０‐７０％である）場合、線形予測効率間隔３０‐７０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第２の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第２の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、３つの線形予測効率間隔があり、それぞれ０‐４０％、４０‐６０％、および６０‐１００％であると仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐４０％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔０‐４０％である）場合、線形予測効率間隔０‐４０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔４０‐６０％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔４０‐６０％である）場合、線形予測効率間隔４０‐６０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、上述の現在の音声フレームの基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第３の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第３の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、３つの線形予測効率間隔があり、それぞれ０‐５０％、５０‐８０％、および８０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐５０％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔０‐５０％である）場合、線形予測効率間隔０‐５０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔５０‐８０％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔５０‐８０％である）場合、線形予測効率間隔５０‐８０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式が、代数符号励起線形予測（ＡＣＥＬＰ）符号化、変換符号化励起（ＴＣＸ）等を含んでもよく、非線形予測に基づく音声符号化方式が汎用音声符号化（ＧＡＣ）を含んでもよく、ＧＡＣが、例えば、修正離散余弦変換（ＭＤＣＴ）符号化または離散余弦変換（ＤＣＴ）符号化を含んでもよい。

上述の例で言及した閾値（例えば、第１の閾値、第２の閾値、第３の閾値、第４の閾値、第５の閾値、および第６の閾値）の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が０‐１である場合、第１の閾値の値が０．２、０．５、０．６、０、８等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が０‐１である場合、第２の閾値の値が０．３、０．３、０．６、０．８等であってもよく別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。

例えば、本発明の幾つかの実施形態では、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。

あるいは、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第１の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。Ｎ１は正の整数であり、上述の第１の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ１１個の履歴音声フレームは上述のＮ１個の履歴音声フレームのサブセットである。上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第１の統計値が、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第２の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。Ｎ２は正の整数であり、上述の第２の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ２１個の履歴音声フレームは上述のＮ２個の履歴音声フレームのサブセットである。上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第２の統計値は、例えば、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

あるいは、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第３の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。Ｎ３およびＮ４は正の整数であり、上述の第３の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、上述のＮ３１個の履歴音声フレームは上述のＮ３個の履歴音声フレームのサブセットであり、上述のＮ４１個の履歴音声フレームは上述のＮ４個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のＮ３個の履歴音声フレームおよび上述のＮ４個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第３の統計値は、例えば、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

例えば、本発明の幾つかの実施形態では、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、推定により、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。

あるいは、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第４の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。Ｎ５は正の整数であり、上述の第４の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ５１個の履歴音声フレームは上述のＮ５個の履歴音声フレームのサブセットである。上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第４の統計値が、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第５の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。Ｎ６は正の整数であり、上述の第５の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ６１個の履歴音声フレームは上述のＮ６個の履歴音声フレームのサブセットである。上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第５の統計値が、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第６の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。Ｎ７およびＮ８は正の整数であり、上述の第６の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のＮ７１個の履歴音声フレームは上述のＮ７個の履歴音声フレームのサブセットであり、上述のＮ８１個の履歴音声フレームは上述のＮ８個の履歴音声フレームのサブセットである。上述のＮ７個の履歴音声フレームおよび上述のＮ８個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第６の統計値が、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。

本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２が特に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するように構成されてもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、上述の第１の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり（例えば、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい）、上述の第１の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である（例えば、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい）。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。

例えば、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得する態様において、バス５０１を用いて、メモリ５０３に格納されたコードを起動することによって、プロセッサ５０２が特に、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を計算するように構成されてもよい。

一般に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号との間のより大きい相関は、上述の現在の音声フレームのより大きい長期線形予測効率を示す。

本発明の幾つかの実施形態では、上述の第１の履歴線形予測励起が適応コードブック励起および固定コードブック励起の重合せ励起であってもよく、または、上述の第１の履歴線形予測励起が適応コードブック励起であってもよく、または、上述の第１の履歴線形予測励起が別のタイプのコードブック励起であってもよい。

本実施形態における音声符号化器５００の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器５００が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置であってもよく、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。

この装置の実施形態に含まれる閾値（例えば、第１の閾値および第２の閾値）およびその他のパラメータ（例えば、Ｎ１、Ｎ１１、Ｎ２１、およびＮ２）の値の例については、上述の方法の実施形態における値の関連する例を参照されたい。詳細についてはここでは再度説明しない。

本実施形態の技術的解決策では、音声符号化器５００は先ず、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。

図６を参照すると、図６は、本発明の別の実施形態に従う音声符号化器６００の構造ブロック図である。音声符号化器６００が、少なくとも１つのプロセッサ６０１、少なくとも１つのネットワーク・インタフェース６０４または別のユーザ・インタフェース６０３、メモリ６０５、および少なくとも１つの通信バス６０２を備えてもよい。通信バス６０２は、これらのコンポーネントの間の接続および通信を実装するように構成される。音声符号化器６００は任意選択でユーザ・インタフェース６０３を備える。ユーザ・インタフェース６０３は、ディスプレイ（例えば、タッチスクリーン、ＬＣＤ、ＣＲＴ、ホログラフィ（Ｈｏｌｏｇｒａｐｈｉｃ）、またはプロジェクタ（Ｐｒｏｊｅｃｔｏｒ））、クリック装置（例えば、マウス、トラックボール（ｔｒａｃｋｂａｌｌ）、タッチパッド、またはタッチスクリーン）、カメラおよび／またはピックアップ装置等を含む。

メモリ６０２が、読取り専用メモリおよびランダム・アクセス・メモリを含んでもよく、命令およびデータをプロセッサ６０１に提供してもよい。メモリ６０２の一部がさらに、不揮発性ランダム・アクセス・メモリ（ＮＶＲＡＭ）を備えてもよい。

幾つかの実装方式では、メモリ６０５は以下の要素、即ち、様々なシステム・プログラムを含み、様々な基本サービスを実装しハードウェアベースのタスクを処理するように構成されたオペレーティング・システム６０５１と、様々なアプリケーション・プログラムを含み、様々なアプリケーション・サービスを実装するように構成されたアプリケーション・プログラム・モジュール６０５２と、実行可能モジュールまたはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを格納する。

アプリケーション・プログラム・モジュール６０５２は、推定ユニット４１０、決定ユニット４２０、符号化ユニット４３０等を備えるがこれらに限られない。

本発明の当該実施形態では、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。

本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率を推定する前に、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１をさらに現在の音声フレームが会話音声フレームであるかどうかを先ず判定するように構成してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。

上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、プロセッサ６０１により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。

例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値より小さく、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第１の閾値以上であり、かつ／または、上述の現在の音声フレームの基準短期線形予測効率が第２の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準長期線形予測効率が第３の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第４の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するように構成されてもよい。上述の第１の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、３つの線形予測効率間隔があり、それぞれ、０‐３０％、３０‐７０％、および７０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐３０％に入る（即ち、第１の線形予測効率間隔は線形予測効率間隔０‐３０％である）場合、線形予測効率間隔０‐３０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔３０‐７０％に入る（即ち、第１の線形予測効率間隔は線形予測効率間隔３０‐７０％である）場合、線形予測効率間隔３０‐７０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第５の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成されてもよい。上述の第２の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第２の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、３つの線形予測効率間隔があり、それぞれ０‐４０％、４０‐６０％、および６０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐４０％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔０‐４０％である）場合、線形予測効率間隔０‐４０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔４０‐６０％に入る（即ち、第２の線形予測効率間隔が線形予測効率間隔４０‐６０％である）場合、線形予測効率間隔４０‐６０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第６の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。

別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成されてもよい。上述の第３の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第３の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、３つの線形予測効率間隔があり、それぞれ０‐５０％、５０‐８０％、および８０‐１００％であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔０‐５０％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔０‐５０％である）場合、線形予測効率間隔０‐５０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔５０‐８０％に入る（即ち、第３の線形予測効率間隔が線形予測効率間隔５０‐８０％である）場合、線形予測効率間隔５０‐８０％に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。

上述の例で言及した閾値（例えば、第１の閾値、第２の閾値、第３の閾値、第４の閾値、第５の閾値、および第６の閾値）の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が０‐１である場合、第１の閾値の値が０．２、０．５、０．６、０、８等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が０‐１である場合、第２の閾値の値が０．３、０．３、０．６、０．８等であってもよく、別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。

例えば、本発明の幾つかの実施形態では、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。

あるいは、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第１の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。Ｎ１は正の整数であり、上述の第１の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ１１個の履歴音声フレームは上述のＮ１個の履歴音声フレームのサブセットである。上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第１の統計値が、上述のＮ１個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第２の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。Ｎ２は正の整数であり、上述の第２の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ２１個の履歴音声フレームは上述のＮ２個の履歴音声フレームのサブセットである。上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第２の統計値は、例えば、上述のＮ２個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

あるいは、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第３の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。Ｎ３およびＮ４は正の整数であり、上述の第３の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、上述のＮ３１個の履歴音声フレームは上述のＮ３個の履歴音声フレームのサブセットであり、上述のＮ４１個の履歴音声フレームは上述のＮ４個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のＮ３個の履歴音声フレームおよび上述のＮ４個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第３の統計値は、例えば、上述のＮ３個の履歴音声フレームの線形予測効率、上述のＮ４個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。

例えば、本発明の幾つかの実施形態では、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、推定により、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。

あるいは、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第４の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。Ｎ５は正の整数であり、上述の第４の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のＮ５１個の履歴音声フレームは上述のＮ５個の履歴音声フレームのサブセットである。上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第４の統計値が、上述のＮ５個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第５の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。Ｎ６は正の整数であり、上述の第５の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のＮ６１個の履歴音声フレームは上述のＮ６個の履歴音声フレームのサブセットである。上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第５の統計値が、上述のＮ６個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

あるいは、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得するステップと、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第６の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。Ｎ７およびＮ８は正の整数であり、上述の第６の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のＮ７１個の履歴音声フレームは上述のＮ７個の履歴音声フレームのサブセットであり、上述のＮ８１個の履歴音声フレームは上述のＮ８個の履歴音声フレームのサブセットである。上述のＮ７個の履歴音声フレームおよび上述のＮ８個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第６の統計値が、上述のＮ７個の履歴音声フレームの線形予測効率、上述のＮ８個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。

本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。

本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得するように構成されてもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、上述の第１の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり（例えば、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第１の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい）、上述の第１の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である（例えば、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第１の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの２つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい）。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。

例えば、上述の現在の音声フレームの線形予測残差と上述の第１の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を取得する態様において、メモリ６０５に格納されたプログラムまたは命令を起動することによって、プロセッサ６０１が特に、現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を計算するように構成されてもよい。

本実施形態における音声符号化器６００の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器６００が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置であってもよく、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。

本実施形態の技術的解決策では、音声符号化器６００は先ず、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。

本発明の１実施形態ではさらにコンピュータ記憶媒体を提供する。当該コンピュータ記憶媒体はプログラムを格納してもよい。実行されたとき、当該プログラムは、上述の方法の実施形態で説明した任意の音声符号化方法の一部または全部のステップを含む。

説明を簡単にするために、上述の方法の実施形態は一連の動作として表現されていることに留意すべきである。しかし、本発明によれば、幾つかのステップを他の順序で実施するかまたは同時に実施してもよいので、本発明は説明した動作の順序に限定されないことは当業者は理解すべきである。さらに、当業者はまた、本明細書で説明された全ての実施形態が好適な実施形態であり、関連する動作とモジュールは本発明に必ずしも必須ではないことも理解すべきである。

上述の実施形態では、各実施形態の説明はそれぞれの焦点を有する。１実施形態で詳細に説明されていない部分については、他の実施形態の関連説明を参照されたい。

本願で提供した幾つかの実施形態において、開示した装置を別の方式で実装してもよいことは理解されるべきである。例えば、説明した装置の実施形態は例示的なものにすぎない。例えば、当該ユニット分割は論理的な機能分割にすぎず、実際の実装では他の分割であってもよい。例えば、複数のユニットまたはコンポーネントを別のシステムに組み合わせるかまたは統合してもよく、または幾つかの機能を無視するかまたは実装しなくてもよい。さらに、幾つかのインタフェースを通じて、説明または議論した相互結合または直接結合または通信接続を実装してもよい。当該装置またはユニット間の間接結合または通信接続を、電気または他の形態で実装してもよい。

別々の部分として説明されたユニットが物理的に分離されていてもいなくてもよく、ユニットとして表示した部分が物理ユニットであってもなくてもよく、１つの位置に配置されてもよく、または、複数のネットワーク・ユニットに分散されてもよい。当該ユニットの一部または全部を、当該諸実施形態の解決策の目的を実現するための実際のニーズに従って選択してもよい。

さらに、当該本発明の諸実施形態における機能ユニットを１つの処理ユニットに統合してもよく、または、当該ユニットの各々が物理的に単体で存在してもよく、または、２つまたは複数のユニットが１つのユニットに統合される。上述の統合されたユニットをハードウェアの形態で実装してもよく、または、ソフトウェア機能ユニットの形態で実装してもよい。

当該統合されたユニットがソフトウェア機能ユニットの形態で実装され、独立な製品として販売または使用されるとき、当該統合されたユニットをコンピュータ可読記憶媒体に格納してもよい。かかる理解に基づいて、本発明の技術的解決策を本質的に、または先行技術に寄与する部分、または当該技術的解決策の全部もしくは一部をソフトウェア製品の形で実装してもよい。当該コンピュータ・ソフトウェア製品は記憶媒体に格納され、本発明の諸実施形態で説明した方法のステップの全部または一部を実施するように（パーソナル・コンピュータ、サーバ、またはネットワーク装置であってもよい）コンピュータ装置に指示するための幾つかの命令を含む。上述の記憶媒体は、ＵＳＢフラッシュ・ドライブ、読取専用メモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダム・アクセス・メモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、取外し可能ハード・ディスク、磁気ディスク、または光ディスクのようなプログラム・コードを格納できる任意の媒体を含む。

上述の実施形態は本発明の技術的解決策を説明するためのものにすぎず、本発明を限定するためのものではない。上述の実施形態を参照して本発明を詳細に説明したが、当業者は本発明の諸実施形態の技術的解決策の趣旨と範囲から逸脱せずに、上述の実施形態で説明した技術的解決策に依然として修正を行ってもよく、または、その幾つかの技術的特徴に均等な置換えを行ってもよいことを当業者は理解すべきである。

３００音声符号化器
３０１選択器
３０２タイプＡのサブコーダ
３０３タイプＢのサブコーダ
３０４制御されたルーティング・スイッチ
３０５分類器
３０６サブコーダ
３０７プリプロセッサ
３０８キャッシュ
３１１ローカル音声復号器
３１２線形予測器
３０１１第１の推定ユニット
３０１２第２の推定ユニット
３０１３判定ユニット
４００音声符号化器
４１０推定ユニット
４２０決定ユニット
４３０符号化ユニット
５００音声符号化器
５０２プロセッサ
５０３メモリ
６００音声符号化器
６０１プロセッサ
６０３ユーザ・インタフェース
６０４ネットワーク・インタフェース
６０５メモリ
６０５１オペレーティング・システム
６０５２アプリケーション・プログラム・モジュール

Claims

現在の音声フレームの基準線形予測効率を推定するステップと、
前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップと、
前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式に従って、音声符号化を前記現在の音声フレームに実施するステップと、
を含む、音声符号化方法。
前記基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つを含む、請求項１に記載の方法。
前記基準統合線形予測効率は、前記基準長期線形予測効率および前記基準短期線形予測効率の合計値、重み付き合計値、または平均値である、請求項２に記載の方法。
前記現在の音声フレームの前記基準線形予測効率が、前記現在の音声フレームの基準長期線形予測効率および前記現在の音声フレームの基準短期線形予測効率を含む場合、前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップは、
前記現在の音声フレームの前記基準長期線形予測効率が第１の閾値より小さく、かつ／または、前記現在の音声フレームの前記基準短期線形予測効率が第２の閾値より小さい場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ、
および／または、
前記現在の音声フレームの前記基準長期線形予測効率が第１の閾値以上であり、かつ／または、前記現在の音声フレームの前記基準短期線形予測効率が第２の閾値以上である場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ
を含む、請求項２に記載の方法。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準長期線形予測効率を含む場合、前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップは、
前記現在の音声フレームの前記基準長期線形予測効率が第３の閾値以上である場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップと、
および／または、
前記現在の音声フレームの前記基準長期線形予測効率が第４の閾値より小さい場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ
を含む、請求項２に記載の方法。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準長期線形予測効率を含む場合、前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップは、前記現在の音声フレームの前記基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、前記第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するステップであって、前記第１の音声符号化方式は前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式であり、前記第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、ステップを含む、請求項２に記載の方法。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準短期線形予測効率を含む場合、前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップは、
前記現在の音声フレームの前記基準短期線形予測効率が第５の閾値以上である場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップと、
および／または、
前記現在の音声フレームの前記基準短期線形予測効率が第５の閾値より小さい場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ
を含む、請求項２に記載の方法。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準短期線形予測効率を含む場合、前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップは、前記現在の音声フレームの前記基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、前記第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式を決定するステップを含み、前記第２の音声符号化方式は前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式であり、前記第２の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、請求項２に記載の方法。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準統合線形予測効率を含む場合、前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップは、
前記現在の音声フレームの前記基準統合線形予測効率が第６の閾値以上である場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップと、
および／または、
前記現在の音声フレームの前記基準統合線形予測効率が第６の閾値より小さい場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ
を含む、請求項２または３に記載の方法。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準統合線形予測効率を含む場合、前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するステップは、前記現在の音声フレームの前記基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、前記第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式を決定するステップであって、前記第３の音声符号化方式は前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式であり、前記第３の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、ステップを含む、請求項２または３に記載の方法。
前記現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、前記現在の音声フレームの長期線形予測効率を推定するステップにより取得され、前記現在の音声フレームの前記長期線形予測効率は前記現在の音声フレームの基準長期線形予測効率であるか、
または、
前記現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの長期線形予測効率を取得するステップと、前記現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得するステップと、前記Ｎ１個の履歴音声フレームの前記線形予測効率および前記現在の音声フレームの前記長期線形予測効率の第１の統計値を計算するステップとにより取得され、Ｎ１は正の整数であり、前記第１の統計値は前記現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、前記Ｎ１１個の履歴音声フレームは前記Ｎ１個の履歴音声フレームのサブセットであるか、
または、
前記現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの長期線形予測効率を取得するステップと、前記現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得するステップと、前記Ｎ２個の履歴音声フレームの前記基準線形予測効率および前記現在の音声フレームの前記長期線形予測効率の第２の統計値を計算するステップとにより取得され、Ｎ２は正の整数であり、前記第２の統計値は前記現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、前記Ｎ２１個の履歴音声フレームは前記Ｎ２個の履歴音声フレームのサブセットであるか、
または、
前記現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの長期線形予測効率を取得するステップと、前記現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得するステップと、前記現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得するステップと、前記Ｎ３個の履歴音声フレームの前記線形予測効率、前記Ｎ４個の履歴音声フレームの前記基準線形予測効率、および前記現在の音声フレームの前記長期線形予測効率の第３の統計値を計算するステップとにより取得され、Ｎ３およびＮ４は正の整数であり、前記第３の統計値は前記現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、前記Ｎ３１個の履歴音声フレームは前記Ｎ３個の履歴音声フレームのサブセットであり、前記Ｎ４１個の履歴音声フレームは前記Ｎ４個の履歴音声フレームのサブセットである、
請求項２乃至１０の何れか１項に記載の方法。
前記現在の音声フレームの前記基準短期線形予測効率は以下の方式における推定、即ち、前記現在の音声フレームの短期線形予測効率を推定するステップにより取得され、前記現在の音声フレームの前記短期線形予測効率は前記現在の音声フレームの前記基準短期線形予測効率であるか、
または、
前記現在の音声フレームの前記基準短期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの短期線形予測効率を取得するステップと、前記現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得するステップと、前記Ｎ５個の履歴音声フレームの前記線形予測効率および前記現在の音声フレームの前記短期線形予測効率の第４の統計値を計算するステップとにより取得され、Ｎ５は正の整数であり、前記第４の統計値は前記現在の音声フレームの前記基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、前記Ｎ５１個の履歴音声フレームは前記Ｎ５個の履歴音声フレームのサブセットであるか、
または、
前記現在の音声フレームの前記基準短期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの短期線形予測効率を取得するステップと、前記現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得するステップと、前記Ｎ６個の履歴音声フレームの前記基準線形予測効率および前記現在の音声フレームの前記短期線形予測効率の第５の統計値を計算するステップとにより取得され、Ｎ６は正の整数であり、前記第５の統計値は前記現在の音声フレームの前記基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、前記Ｎ６１個の履歴音声フレームは前記Ｎ６個の履歴音声フレームのサブセットであるか、
または、
前記現在の音声フレームの前記基準短期線形予測効率は以下の方式における推定、即ち、推定により前記現在の音声フレームの短期線形予測効率を取得するステップと、前記現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得するステップと、前記現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得するステップと、前記Ｎ７個の履歴音声フレームの前記線形予測効率、前記Ｎ８個の履歴音声フレームの前記基準線形予測効率、および前記現在の音声フレームの前記短期線形予測効率の第６の統計値を計算するステップとにより取得され、Ｎ７およびＮ８は正の整数であり、前記第６の統計値は前記現在の音声フレームの前記基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、前記Ｎ７１個の履歴音声フレームは前記Ｎ７個の履歴音声フレームのサブセットであり、前記Ｎ８１個の履歴音声フレームは前記Ｎ８個の履歴音声フレームのサブセットである
請求項２乃至１０の何れか１項に記載の方法。
推定により前記現在の音声フレームの短期線形予測効率を取得するステップは、前記現在の音声フレームの線形予測残差に基づいて前記現在の音声フレームの前記短期線形予測効率を取得するステップを含む、請求項１２に記載の方法。
前記現在の音声フレームの線形予測残差に基づいて前記現在の音声フレームの前記短期線形予測効率を取得するステップは、
短期線形予測が前記現在の音声フレームに実施される前と後に取得された前記現在の音声フレームのエネルギ変化率を計算するステップであって、前記エネルギ変化率は前記現在の音声フレームの前記短期線形予測効率であるか、または前記現在の音声フレームの前記短期線形予測効率は前記エネルギ変化率に基づく変換により取得され、前記短期線形予測が前記現在の音声フレームに実施された後に取得された前記現在の音声フレームの前記エネルギは前記現在の音声フレームの前記線形予測残差のエネルギである、ステップ
を含む、請求項１３に記載の方法。
前記短期線形予測が前記現在の音声フレームに実施される前および後に取得された前記現在の音声フレームの前記エネルギ変化率は、前記短期線形予測が前記現在の音声フレームに実施される前に取得された前記現在の音声フレームの前記エネルギの、前記現在の音声フレームの前記線形予測残差の前記エネルギに対する比率である、請求項１４に記載の方法。
推定により前記現在の音声フレームの長期線形予測効率を取得するステップは、前記現在の音声フレームの線形予測残差および第１の履歴線形予測信号に従って前記現在の音声フレームの前記線形予測残差と前記第１の履歴線形予測信号との間の相関を取得するステップを含み、前記相関は前記現在の音声フレームの前記長期線形予測効率であるか、または、前記現在の音声フレームの前記長期線形予測効率は前記相関に基づいて取得され、前記第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、前記第１の履歴線形予測残差は前記現在の音声フレームの履歴音声フレームの線形予測残差であり、前記第１の履歴線形予測励起は前記現在の音声フレームの前記履歴音声フレームの線形予測励起である、請求項１１に記載の方法。
前記現在の音声フレームの線形予測残差および第１の履歴線形予測信号に従って前記現在の音声フレームの前記線形予測残差と前記第１の履歴線形予測信号との間の相関を取得するステップは、
前記現在の音声フレームの前記線形予測残差と前記第１の履歴線形予測信号との間の前記相関を計算するステップ、
または、
前記現在の音声フレームの前記線形予測残差に利得因子を乗じて、前記現在の音声フレームの増幅された線形予測残差を取得し、前記現在の音声フレームの前記増幅された線形予測残差と前記第１の履歴線形予測信号との間の相関を計算により取得するステップであって、前記現在の音声フレームの前記増幅された線形予測残差と前記第１の履歴線形予測信号との間の計算により得られた相関は前記現在の音声フレームの前記線形予測残差と前記第１の履歴線形予測信号との間の前記相関である、ステップ
または、
前記第１の履歴線形予測信号に利得因子を乗じて増幅された第１の履歴線形予測信号を取得し、前記現在の音声フレームの前記線形予測残差と前記増幅された第１の履歴線形予測信号との間の相関を計算により取得するステップであって、前記現在の音声フレームの前記線形予測残差と前記増幅された第１の履歴線形予測信号との間の計算により得られた相関は前記現在の音声フレームの前記線形予測残差と前記第１の履歴線形予測信号との間の前記相関である、ステップ
を含む、請求項１６に記載の方法。
前記第１の履歴線形予測励起または前記第１の履歴線形予測残差は前記現在の音声フレームのピッチに基づいて決定される、請求項１６または１７に記載の方法。
前記第１の履歴線形予測励起および前記現在の音声フレームの前記線形予測残差の間の時間領域相関は、他の履歴線形予測励起および前記現在の音声フレームの前記線形予測残差の間の時間領域相関以上であるか、または、
前記第１の履歴線形予測残差および前記現在の音声フレームの前記線形予測残差の間の時間領域相関は、別の履歴線形予測残差および前記現在の音声フレームの前記線形予測残差の間の時間領域相関以上である、
請求項１６乃至１８の何れか１項に記載の方法。
前記第１の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を前記現在の音声フレームの前記履歴音声フレームに実施することによって生成された線形予測励起である、請求項１６乃至１９の何れか１項に記載の方法。
前記第１の履歴線形予測残差は前記現在の音声フレームの第１の履歴音声フレームの時間領域信号および前記第１の履歴音声フレームの線形予測係数に基づいて取得され、前記第１の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である、請求項１６乃至２０の何れか１項に記載の方法。
前記現在の音声フレームの前記線形予測残差は前記現在の音声フレームの時間領域信号および前記現在の音声フレームの線形予測係数に基づいて取得され、前記現在の音声フレームの前記線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である、請求項１６乃至２１の何れか１項に記載の方法。
前記第１の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または前記第１の履歴線形予測励起は適応コードブック励起である、請求項１６乃至２２の何れか１項に記載の方法。
前記相関は前記時間領域における相互相関の関数値および／または前記周波数領域における相互相関の関数値であるか、または前記相関は時間領域歪みおよび／または周波数領域歪みである、請求項１６乃至２３の何れか１項に記載の方法。
前記周波数領域歪みは前記周波数領域内のＫ１個の周波数ビンの歪みの合計値または重み付き合計値であるか、または前記周波数領域歪みは前記周波数領域内のＫ２個のサブバンドの歪みの合計値または重み付き合計値であり、Ｋ１およびＫ２は正の整数である、請求項２４に記載の方法。
前記歪みの前記重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である、請求項２５に記載の方法。
現在の音声フレームの基準線形予測効率を推定するように構成された推定ユニットと、
前記推定ユニットにより推定された前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式を決定するように構成された決定ユニットと、
前記現在の音声フレームの前記基準線形予測効率にマッチする、前記決定ユニットにより決定された音声符号化方式に従って、前記現在の音声フレームに音声符号化を実施するように構成された符号化ユニットと、
を備える、音声符号化器。
前記基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つを含む、請求項２７に記載の音声符号化器。
前記基準統合線形予測効率は、前記基準長期線形予測効率および前記基準短期線形予測効率の合計値、重み付き合計値、または平均値である、請求項２８に記載の音声符号化器。
前記現在の音声フレームの前記基準線形予測効率が、前記現在の音声フレームの基準長期線形予測効率および前記現在の音声フレームの基準短期線形予測効率を含む場合、前記決定ユニットは特に、
前記現在の音声フレームの前記基準長期線形予測効率が第１の閾値より小さく、かつ／または、前記現在の音声フレームの前記基準短期線形予測効率が第２の閾値より小さい場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、
および／または、
前記現在の音声フレームの前記基準長期線形予測効率が第１の閾値以上であり、かつ／または、前記現在の音声フレームの前記基準短期線形予測効率が第２の閾値以上である場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づく音声符号化方式であると判定する
ように構成される、請求項２８に記載の音声符号化器。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準長期線形予測効率を含む場合、前記決定ユニットは特に、
前記現在の音声フレームの前記基準長期線形予測効率が第３の閾値以上である場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づく音声符号化方式であると判定し、
および／または、
前記現在の音声フレームの前記基準長期線形予測効率が第４の閾値より小さい場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づかない音声符号化方式であると判定する
ように構成される、請求項２８に記載の音声符号化器。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準長期線形予測効率を含む場合、前記決定ユニットは特に、前記現在の音声フレームの前記基準長期線形予測効率が入る第１の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、前記第１の線形予測効率間隔とマッピング関係にある第１の音声符号化方式を決定するように構成され、前記第１の音声符号化方式は前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式であり、前記第１の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、請求項２８に記載の音声符号化器。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準短期線形予測効率を含む場合、前記決定ユニットは特に、
前記現在の音声フレームの前記基準短期線形予測効率が第５の閾値以上である場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づく音声符号化方式であると判定し、
および／または、
前記現在の音声フレームの前記基準短期線形予測効率が第５の閾値より小さい場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づかない音声符号化方式であると判定する
ように構成される、請求項２８に記載の音声符号化器。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準短期線形予測効率を含む場合、前記決定ユニットは特に、前記現在の音声フレームの前記基準短期線形予測効率が入る第２の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、前記第２の線形予測効率間隔とマッピング関係にある第２の音声符号化方式を決定するように構成され、前記第２の音声符号化方式は前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式であり、前記第２の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、請求項２８に記載の音声符号化器。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準統合線形予測効率を含む場合、前記決定ユニットは特に、
前記現在の音声フレームの前記基準統合線形予測効率が第６の閾値以上である場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づく音声符号化方式であると判定し、
および／または、
前記現在の音声フレームの前記基準統合線形予測効率が第６の閾値より小さい場合、前記現在の音声フレームの前記基準線形予測効率にマッチする前記音声符号化方式は線形予測に基づかない音声符号化方式であると判定する
ように構成される、請求項２８または２９に記載の音声符号化器。
前記現在の音声フレームの前記基準線形予測効率が前記現在の音声フレームの基準統合線形予測効率を含む場合、前記決定ユニットは特に、前記現在の音声フレームの前記基準統合線形予測効率が入る第３の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、前記第３の線形予測効率間隔とマッピング関係にある第３の音声符号化方式を決定するように構成され、前記第３の音声符号化方式は前記現在の音声フレームの前記基準線形予測効率にマッチする音声符号化方式であり、前記第３の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、請求項２８または２９に記載の音声符号化器。
前記現在の音声フレームの基準長期線形予測効率を推定する態様において、前記推定ユニットは特に、前記現在の音声フレームの長期線形予測効率を推定するように構成され、前記現在の音声フレームの前記長期線形予測効率は前記現在の音声フレームの基準長期線形予測効率であるか、
または、
前記現在の音声フレームの基準長期線形予測効率を推定する態様において、前記推定ユニットは特に、推定により前記現在の音声フレームの長期線形予測効率を取得し、前記現在の音声フレームのＮ１個の履歴音声フレームの線形予測効率を取得し、前記Ｎ１個の履歴音声フレームの前記線形予測効率および前記現在の音声フレームの前記長期線形予測効率の第１の統計値を計算するように構成され、Ｎ１は正の整数であり、前記第１の統計値は前記現在の音声フレームの基準長期線形予測効率であり、Ｎ１１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、前記Ｎ１１個の履歴音声フレームは前記Ｎ１個の履歴音声フレームのサブセットであるか、
または、
前記現在の音声フレームの基準長期線形予測効率を推定する態様において、前記推定ユニットは特に、推定により前記現在の音声フレームの長期線形予測効率を取得し、前記現在の音声フレームのＮ２個の履歴音声フレームの基準線形予測効率を取得し、前記Ｎ２個の履歴音声フレームの前記基準線形予測効率および前記現在の音声フレームの前記長期線形予測効率の第２の統計値を計算するように構成され、Ｎ２は正の整数であり、前記第２の統計値は前記現在の音声フレームの基準長期線形予測効率であり、Ｎ２１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、前記Ｎ２１個の履歴音声フレームは前記Ｎ２個の履歴音声フレームのサブセットであるか、
または、
前記現在の音声フレームの基準長期線形予測効率を推定する態様において、前記推定ユニットは特に、推定により前記現在の音声フレームの長期線形予測効率を取得し、前記現在の音声フレームのＮ４個の履歴音声フレームの基準線形予測効率を取得し、前記現在の音声フレームのＮ３個の履歴音声フレームの線形予測効率を取得し、前記Ｎ３個の履歴音声フレームの前記線形予測効率、前記Ｎ４個の履歴音声フレームの前記基準線形予測効率、および前記現在の音声フレームの前記長期線形予測効率の第３の統計値を計算するように構成され、Ｎ３およびＮ４は正の整数であり、前記第３の統計値は前記現在の音声フレームの基準長期線形予測効率であり、Ｎ３１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ４１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、前記Ｎ３１個の履歴音声フレームは前記Ｎ３個の履歴音声フレームのサブセットであり、前記Ｎ４１個の履歴音声フレームは前記Ｎ４個の履歴音声フレームのサブセットである、
請求項２８乃至３６の何れか１項に記載の音声符号化器。
前記現在の音声フレームの前記基準短期線形予測効率を推定する態様において、前記推定ユニットは特に、前記現在の音声フレームの短期線形予測効率を推定するように構成され、前記現在の音声フレームの前記短期線形予測効率は前記現在の音声フレームの前記基準短期線形予測効率であるか、
または、
前記現在の音声フレームの前記基準短期線形予測効率を推定する態様において、前記推定ユニットは特に、推定により前記現在の音声フレームの短期線形予測効率を取得し、前記現在の音声フレームのＮ５個の履歴音声フレームの線形予測効率を取得し、前記Ｎ５個の履歴音声フレームの前記線形予測効率および前記現在の音声フレームの前記短期線形予測効率の第４の統計値を計算するように構成され、Ｎ５は正の整数であり、前記第４の統計値は前記現在の音声フレームの前記基準短期線形予測効率であり、Ｎ５１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、前記Ｎ５１個の履歴音声フレームは前記Ｎ５個の履歴音声フレームのサブセットであるか、
または、
前記現在の音声フレームの前記基準短期線形予測効率を推定する態様において、前記推定ユニットは特に、推定により前記現在の音声フレームの短期線形予測効率を取得し、前記現在の音声フレームのＮ６個の履歴音声フレームの基準線形予測効率を取得し、前記Ｎ６個の履歴音声フレームの前記基準線形予測効率および前記現在の音声フレームの前記短期線形予測効率の第５の統計値を計算するように構成され、Ｎ６は正の整数であり、前記第５の統計値は前記現在の音声フレームの前記基準短期線形予測効率であり、Ｎ６１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、前記Ｎ６１個の履歴音声フレームは前記Ｎ６個の履歴音声フレームのサブセットであるか、
または、
前記現在の音声フレームの前記基準短期線形予測効率を推定する態様において、前記推定ユニットは特に、推定により前記現在の音声フレームの短期線形予測効率を取得し、前記現在の音声フレームのＮ８個の履歴音声フレームの基準線形予測効率を取得し、前記現在の音声フレームのＮ７個の履歴音声フレームの線形予測効率を取得し、前記Ｎ７個の履歴音声フレームの前記線形予測効率、前記Ｎ８個の履歴音声フレームの前記基準線形予測効率、および前記現在の音声フレームの前記短期線形予測効率の第６の統計値を計算するように構成され、Ｎ７およびＮ８は正の整数であり、前記第６の統計値は前記現在の音声フレームの前記基準短期線形予測効率であり、Ｎ７１個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも１つであり、Ｎ８１個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも１つであり、前記Ｎ７１個の履歴音声フレームは前記Ｎ７個の履歴音声フレームのサブセットであり、前記Ｎ８１個の履歴音声フレームは前記Ｎ８個の履歴音声フレームのサブセットである、
請求項２８乃至３６の何れか１項に記載の音声符号化器。
推定により前記現在の音声フレームの短期線形予測効率を取得する態様において、前記推定ユニットは特に、前記現在の音声フレームの前記短期線形予測効率を前記現在の音声フレームの線形予測残差に基づいて取得するように構成される、請求項３８に記載の音声符号化器。
前記現在の音声フレームの線形予測残差に基づいて前記現在の音声フレームの前記短期線形予測効率を取得する態様において、前記推定ユニットは特に、短期線形予測が前記現在の音声フレームに実施される前と後に取得された前記現在の音声フレームのエネルギ変化率を計算するように構成され、前記エネルギ変化率は前記現在の音声フレームの前記短期線形予測効率であるか、または前記現在の音声フレームの前記短期線形予測効率は前記エネルギ変化率に基づく変換により取得され、前記短期線形予測が前記現在の音声フレームに実施された後に取得された前記現在の音声フレームの前記エネルギは前記現在の音声フレームの前記線形予測残差のエネルギである、請求項３９に記載の音声符号化器。
前記短期線形予測が前記現在の音声フレームに実施される前および後に取得された前記現在の音声フレームの前記エネルギ変化率は、前記短期線形予測が前記現在の音声フレームに実施される前に取得された前記現在の音声フレームの前記エネルギの、前記現在の音声フレームの前記線形予測残差の前記エネルギに対する比率である、請求項４０に記載の音声符号化器。
推定により前記現在の音声フレームの長期線形予測効率を取得する態様において、前記推定ユニットは特に、前記現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を、前記現在の音声フレームの前記線形予測残差および前記第１の履歴線形予測信号の計算に従って取得するように構成され、前記相関は前記現在の音声フレームの前記長期線形予測効率であるか、または、前記現在の音声フレームの前記長期線形予測効率は前記相関に基づいて取得され、前記第１の履歴線形予測信号は第１の履歴線形予測励起または第１の履歴線形予測残差であり、前記第１の履歴線形予測残差は前記現在の音声フレームの履歴音声フレームの線形予測残差であり、前記第１の履歴線形予測励起は前記現在の音声フレームの前記履歴音声フレームの線形予測励起である、請求項３７に記載の音声符号化器。
前記現在の音声フレームの線形予測残差と第１の履歴線形予測信号との間の相関を、前記現在の音声フレームの前記線形予測残差および前記第１の履歴線形予測信号の計算に従って取得する態様において、前記推定ユニットは特に、前記現在の音声フレームの前記線形予測残差と前記第１の履歴線形予測信号との間の前記相関を計算するように構成されるか、
または、
前記現在の音声フレームの前記線形予測残差に利得因子を乗じて、前記現在の音声フレームの増幅された線形予測残差を取得し、前記現在の音声フレームの前記増幅された線形予測残差と前記第１の履歴線形予測信号との間の相関を計算により取得するように構成され、前記現在の音声フレームの前記増幅された線形予測残差と前記第１の履歴線形予測信号との間の計算により得られた相関は前記現在の音声フレームの前記線形予測残差と前記第１の履歴線形予測信号との間の前記相関であるか、
または、
前記第１の履歴線形予測信号に利得因子を乗じて、増幅された第１の履歴線形予測信号を取得し、前記現在の音声フレームの前記線形予測残差と前記増幅された第１の履歴線形予測信号との間の相関を計算により取得するように構成され、前記現在の音声フレームの前記線形予測残差と前記増幅された第１の履歴線形予測信号との間の計算により得られた相関は前記現在の音声フレームの前記線形予測残差と前記第１の履歴線形予測信号との間の前記相関である、
請求項４２に記載の音声符号化器。
前記第１の履歴線形予測励起または前記第１の履歴線形予測残差は前記現在の音声フレームのピッチに基づいて決定される、請求項４２または４３に記載の音声符号化器。
前記第１の履歴線形予測励起および前記現在の音声フレームの前記線形予測残差の間の時間領域相関は、他の履歴線形予測励起および前記現在の音声フレームの前記線形予測残差の間の時間領域相関以上であるか、または、
前記第１の履歴線形予測残差および前記現在の音声フレームの前記線形予測残差の間の時間領域相関は、別の履歴線形予測残差および前記現在の音声フレームの前記線形予測残差の間の時間領域相関以上である、
請求項４２乃至４４の何れか１項に記載の音声符号化器。
前記第１の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を前記現在の音声フレームの前記履歴音声フレームに実施することによって生成された線形予測励起である、請求項４２乃至４５の何れか１項に記載の音声符号化器。
前記第１の履歴線形予測残差は前記現在の音声フレームの第１の履歴音声フレームの時間領域信号および前記第１の履歴音声フレームの線形予測係数に基づいて取得され、前記第１の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である、請求項４２乃至４６の何れか１項に記載の音声符号化器。
前記現在の音声フレームの前記線形予測残差は前記現在の音声フレームの時間領域信号および前記現在の音声フレームの線形予測係数に基づいて取得され、前記現在の音声フレームの前記線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である、請求項４２乃至４７の何れか１項に記載の音声符号化器。
前記第１の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または前記第１の履歴線形予測励起は適応コードブック励起である、請求項４２乃至４８の何れか１項に記載の音声符号化器。
前記相関は前記時間領域における相互相関の関数値および／または前記周波数領域における相互相関の関数値であるか、または前記相関は時間領域歪みおよび／または周波数領域歪みである、請求項４２乃至４９の何れか１項に記載の音声符号化器。
前記周波数領域歪みは前記周波数領域内のＫ１個の周波数ビンの歪みの合計値または重み付き合計値であるか、または前記周波数領域歪みは前記周波数領域内のＫ２個のサブバンドの歪みの合計値または重み付き合計値であり、Ｋ１およびＫ２は正の整数である、請求項５０に記載の音声符号化器。
前記歪みの前記重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である、請求項５１に記載の音声符号化器。