JP2023517973A

JP2023517973A - 音声符号化方法、装置、コンピュータ機器及びコンピュータプログラム

Info

Publication number: JP2023517973A
Application number: JP2022554706A
Authority: JP
Inventors: 俊斌梁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-24
Filing date: 2021-05-25
Publication date: 2023-04-27
Anticipated expiration: 2041-05-25
Also published as: US20220270622A1; EP4040436A1; EP4040436A4; JP7471727B2; CN112767953A; WO2021258958A1; CN112767953B

Abstract

本願は音声符号化方法、装置、コンピュータ機器及び記憶媒体に関する。前記方法は、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップと、符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を含む。

Description

本願はインターネットの技術分野に関し、特に音声符号化方法、装置、コンピュータ機器及び記憶媒体に関する。

本願は、２０２０年６月２４日に中国特許庁に提出した、出願番号が第２０２０１０５８５５４５９号、出願の名称が「音声符号化方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張し、その全内容は引用により本願に組み込まれている。

通信技術の発展に伴って、音声符号化及び復号は現代の通信システムにおいて重要な役割を果たしている。現在、非リアルタイム音声符号化及び復号の応用シーン、例えば会議録音、オーディオ放送等において、通常、音声符号化のビットレートパラメータを予め設定し、符号化するときに、予め設定されたビットレートパラメータを使用して音声を符号化する。しかしながら、現在の予め設定されたビットレートパラメータを使用して音声を符号化する方式は、冗長符号化が存在する可能性があり、符号化品質が低くなるという問題を引き起こす。

本願により提供される各種の実施例によれば、音声符号化方法、装置、コンピュータ機器及び記憶媒体を提供する。

音声符号化方法であって、コンピュータ機器により実行され、前記方法は、
符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するステップと、
符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、
後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、
符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップと、
符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を含む。

１つの実施例において、符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップは、
符号化ビットレートをインタフェースを介して標準エンコーダに導入し、符号化結果を獲得するステップであって、標準エンコーダは符号化ビットレートを使用して符号化対象の音声フレームを符号化することに用いられる、ステップを含む。

音声符号化装置であって、前記装置は、
符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得することに用いられる音声フレーム取得モジュールと、
符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得することに用いられる第１重要性計算モジュールと、
後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得することに用いられる第２重要性計算モジュールと、
符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定することに用いられるビットレート計算モジュールと、
符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得することに用いられる符号化モジュールと、を含む。

コンピュータ機器であって、メモリと、プロセッサとを含み、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるときに、前記プロセッサに、
符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するステップと、
符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、
後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、
符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップと、
符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を実行させる。

コンピュータ可読命令が記憶されている１つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令が１つ又は複数のプロセッサにより実行されるときに、１つ又は複数のプロセッサに実行されるときに、
符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するステップと、
符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、
後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、
符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップと、
符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を実現させる。

本願の１つ又は複数の実施例の細部は以下の図面及び記述において言及されている。本願の他の特徴、目的及び利点は明細書、図面及び特許請求の範囲から明らかになる。

本発明の実施例の技術的手段をより明確に説明するために、以下、実施例の記述に使用する必要がある図面を簡単に紹介する。明らかなように、以下記述される図面は本発明の一部の実施例であり、当業者であれば、創造的な労働をしない前提でさらにこれらの図面に基づいて他の図面を取得することができる。

１つの実施例における音声符号化方法の応用環境図である。１つの実施例における音声符号化方法のプロセス模式図である。１つの実施例における特徴抽出のプロセス模式図である。１つの実施例における符号化対象の音声フレームの重要性計算のプロセス模式図である。１つの実施例における符号化ビットレート計算のプロセス模式図である。１つの実施例における重要性差異程度を獲得するプロセス模式図である。１つの実施例における符号化ビットレート決定のプロセス模式図である。１つの具体的な実施例における符号化対象の音声フレームの重要性計算のプロセス模式図である。図８の具体的な実施例における後方音声フレームの重要性計算のプロセス模式図である。図８の具体的な実施例における符号化結果を獲得するプロセス模式図である。１つの具体的な実施例におけるオーディオ放送のプロセス模式図である。１つの具体的な実施例における音声符号化方法の応用環境図である。１つの実施例における音声符号化装置の構造ブロック図である。１つの実施例におけるコンピュータ機器の内部構造図である。

本願の目的、技術的手段及び利点をより明確に理解しやすくするために、以下、図面及び実施例を参照しながら、本願をさらに詳細に説明する。理解すべきであるように、ここで記述される具体的な実施例は単に本願を解釈するためのものであり、本願を限定することに用いられるものではない。

音声技術（ＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙ）の主要な技術は、自動音声認識技術（ＡＳＲ）、音声合成技術（ＴＴＳ）及び声紋認識技術を有する。コンピュータが聞いたり、見たり、話したり、感じたりすることを可能にすることは、将来の人間とコンピュータとの相互作用が発展していく方向であり、ここで、音声は将来最も有望な人間とコンピュータの相互作用の方式の１つになると考えられる。

本願の実施例により提供される手段は人工知能の音声技術等の技術に関し、具体的に、以下の実施例により説明される。

本願により提供される音声符号化方法は、図１に示される応用環境に応用できる。ここで、端末１０２はユーザーが発した音信号を収集する。端末１０２は符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得し、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出する。端末１０２は符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。端末１０２は後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得する。端末１０２は符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定する。端末１０２は符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得する。ここで、端末１０２は、録音機能を有する各種のパーソナルコンピュータ、録音機能を有するノートブックコンピュータ、録音機能を有するスマートフォン、録音機能を有するタブレットコンピュータ及びオーディオ放送であってもよいがこれらに限定されない。理解できる点として、該音声符号化方法はサーバにも応用でき、さらに端末とサーバとを含むシステムにも応用できる。ここで、サーバは、独立した物理サーバであってもよく、複数の物理サーバで構成されるサーバクラスター又は分散型システムであってもよく、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、ＣＤＮ、及びビッグデータと人工知能プラットフォーム等の基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。

１つの実施例において、図２に示されるように、音声符号化方法を提供し、該方法が図１における端末に応用されることを例として説明すると、以下のステップを含む。

ステップ２０２：符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得する。

ここで、音声フレームは音声に対してフレーム分割を行った後に獲得されるものである。符号化対象の音声フレームとは、現在符号化する必要がある音声フレームを指す。後方音声フレームとは、符号化対象の音声フレームに対応する将来時間の音声フレームを指し、符号化対象の音声フレームの後に収集された音声フレームである。

具体的に、端末は言語収集装置により音声信号を収集することができ、該音声収集装置はマイクロホンであってもよい。端末は、収集された音声信号をデジタル信号に変換し、次にデジタル信号から符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得する。ここで、後方音声フレームは複数有してもよい。例えば、取得された後方音声フレームの数は３フレームである。端末は、内部記憶装置に予め記憶された音声信号を取得し、音声信号をデジタル信号に変換し、次にデジタル信号から符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するようにしてもよい。端末は、さらに、インターネット（ｉｎｔｅｒｎｅｔ）から音声信号をダウンロードし、音声信号をデジタル信号に変換し、次にデジタル信号から符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するようにしてもよい。端末は、さらに、他の端末又はサーバが送信した音声信号を取得し、音声信号をデジタル信号に変換し、次にデジタル信号から符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するようにしてもよい。

ステップ２０４：符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。

ここで、音声フレーム特徴とは、該音声フレームの音質の高さを測定することに用いられる特徴を指す。音声フレーム特徴は、音声開始フレーム特徴と、エネルギー変化特徴と、ピッチ周期突然変化フレーム特徴と、非音声フレーム特徴とを含むがこれらに限定されない。音声開始フレーム特徴とは、該音声フレームが音声信号が開始する音声フレームであるか否かに対応する特徴を指す。エネルギー変化特徴とは、現在の音声フレームに対応するフレームエネルギーが、前の音声フレームに対応するフレームエネルギーと比較して変化する特徴を指す。ピッチ周期突然変化フレーム特徴とは、該音声フレームに対応するピッチ周期の特徴を指す。非音声フレーム特徴とは、該音声フレームがノイズ音声フレームである場合に対応する特徴を指す。符号化対象の音声フレーム特徴とは、符号化対象の音声フレームに対応する音声フレーム特徴を指す。音声フレームの重要性とは、該音声フレームの音質の高さの、その前後の所定期間内の全体的な音声音質に対する寄与程度を指し、寄与程度が高いほど、対応する音声フレームの重要性が高くなる。符号化対象の音声フレームの重要性とは、符号化対象の音声フレームに対応する音声フレームの重要性を指す。

具体的に、端末は、符号化対象の音声フレームに対応する音声フレームのタイプに基づいて、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出する。音声フレームのタイプは、音声開始フレーム、エネルギー突然増加フレーム、ピッチ周期突然変化フレーム及び非音声フレームのうちの少なくとも１つを含んでもよい。

該符号化対象の音声フレームが音声開始フレームである場合、音声開始フレームに基づいて対応する音声開始フレーム特徴を獲得する。符号化対象の音声フレームがエネルギー突然増加フレームである場合、エネルギー突然増加フレームに基づいて対応するエネルギー変化特徴を獲得する。符号化対象の音声フレームがピッチ周期突然変化フレームである場合、ピッチ周期突然変化フレームに基づいて対応するピッチ周期突然変化フレーム特徴を獲得する。符号化対象の音声フレームが非音声フレームである場合、非音声フレームに基づいて対応する非音声フレーム特徴を獲得する。

次に、抽出された符号化対象の音声フレーム特徴に基づき加重計算を行って符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性獲得する。ここで、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴に対して順方向加重計算を行って順方向の符号化対象の音声フレームの重要性を獲得し、非音声フレーム特徴に対して逆方向加重計算を行って逆方向の符号化対象の音声フレームの重要性を獲得し、順方向の符号化対象の音声フレームの重要性と逆方向の符号化対象の音声フレームの重要性とに基づいて、最終的な符号化対象の音声フレームに対応する音声フレームの重要性を獲得することができる。

ステップ２０６：後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得する。

ここで、後方音声フレーム特徴とは、後方音声フレームに対応する音声フレーム特徴を指し、各後方音声フレームは全て対応する後方音声フレーム特徴を有する。後方音声フレームの重要性とは、後方音声フレームに対応する音声フレームの重要性を指す。

具体的に、端末は、後方音声フレームの音声フレームのタイプに基づいて後方音声フレームに対応する後方音声フレーム特徴を抽出する。該後方音声フレームが音声開始フレームである場合、音声開始フレームに基づいて対応する音声開始フレーム特徴を獲得する。後方音声フレームがエネルギー突然増加フレームである場合、エネルギー突然増加フレームに基づいて対応するエネルギー変化特徴を獲得する。後方音声フレームがピッチ周期突然変化フレームである場合、ピッチ周期突然変化フレームに基づいて対応するピッチ周期突然変化フレーム特徴を獲得する。後方音声フレームが非音声フレームである場合、非音声フレームに基づいて対応する非音声フレーム特徴を獲得する。

次に、後方音声フレーム特徴に基づき加重計算を行って後方音声フレームに対応する後方音声フレームの重要性を獲得する。ここで、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴に対して順方向加重計算を行って順方向の後方音声フレームの重要性を獲得し、非音声フレーム特徴に対して逆方向加重計算を行って逆方向の後方音声フレームの重要性を獲得し、順方向の後方音声フレームの重要性と逆方向の後方音声フレームの重要性とに基づいて最終的な後方音声フレームに対応する音声フレームの重要性を獲得することができる。

１つの具体的な実施例において、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性と後方音声フレームに対応する後方音声フレームの重要性とを計算するときに、それぞれ符号化対象の音声フレーム特徴と後方音声フレーム特徴とを重要性メトリクスモデルに入力して計算を行い、符号化対象の音声フレームの重要性と後方音声フレームのペアを獲得することができる。ここで、重要性メトリクスモデルは、履歴音声フレーム特徴と履歴音声フレームの重要性に基づいて線形回帰アルゴリズムを使用して作成されたモデルであり、端末内に設けられている。重要性メトリクスモデルを介して音声フレームの重要性を認識することで、正確性と効率とを向上させることができる。

ステップ２０８：符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定する。

ここで、重要性傾向とは、符号化対象の音声フレームと対応する後方音声フレームの音声フレームの重要性との傾向を指す。例えば、音声フレームの重要性はどんどん高くなり、又は音声フレームの重要性はどんどん低くなり、又は音声フレームの重要性は変化しない。重要性傾向特徴とは、重要性傾向を反映する特徴を指し、統計学的特徴であってもよく、例えば重要性の平均、重要性の差異等である。符号化ビットレートは符号化対象の音声フレームを符号化することに用いられる。

具体的に、端末は、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を獲得する。例えば、符号化対象の音声フレームの重要性と後方音声フレームの重要性との統計学的特徴を計算し、計算して獲得される統計学的特徴を重要性傾向特徴とする。統計学的特徴は、平均音声フレームの重要性特徴、中央値音声フレームの重要性特徴、標準偏差音声フレームの重要性特徴、最頻値音声フレームの重要性特徴、レンジ音声フレームの重要性特徴及び音声フレームの重要性差分特徴のうちの少なくとも１つを含んでもよい。重要性傾向特徴と予め設定されたビットレート計算関数とを使用して符号化対象の音声フレームに対応する符号化ビットレートを計算する。ここで、ビットレート計算関数は単調増加関数であり、ニーズに応じてカスタマイズすることができる。各々の重要性傾向特徴は、対応するビットレート計算関数を有してもよく、同じビットレート計算関数を使用してもよい。

ステップ２１０：符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得する。

具体的に、符号化ビットレートが獲得された場合、該符号化ビットレートを使用して符号化対象の音声フレームを符号化し、符号化結果を獲得する。該符号化結果とは、符号化対象の音声フレームに対応するストリームデータを指す。端末は、ストリームデータを内部記憶装置に記憶してもよく、ストリームデータをサーバに送信して格納してもよい。ここで、音声エンコーダにより符号化することができる。

１つの実施例において、収集される音声を再生する必要がある場合、格納されているストリームデータを取得し、ビットレートデータを復号し、最終的にスピーカ等の端末の音声再生装置で再生する。

上記音声符号化方法では、符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームとを取得し、それぞれ符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性と後方音声フレームに対応する後方音声フレームの重要性を計算する。次に、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づいて重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定し、それにより、符号化ビットレートを使用して符号化し、符号化結果を獲得する。これにより、音声フレームの重要性傾向特徴に基づいて符号化ビットレートを調整制御し、各符号化対象の音声フレームが全て調整制御された符号化ビットレートを有するようにすることができる。次に、調整制御された符号化ビットレートに基づいて符号化し、それにより、重要性傾向が強くなる場合には、符号化対象の音声フレームに比較的高い符号化ビットレートを割り当てて符号化し、重要性傾向が弱くなる場合には、符号化対象の音声フレームに比較的低い符号化ビットレートを割り当てて符号化することができる。それにより、各符号化対象の音声フレームに対応する符号化ビットレートを適応的に制御し、冗長符号化を回避し、音声符号化の品質を向上させることができる。

１つの実施例において、符号化対象の音声フレーム特徴及び後方音声フレーム特徴は音声開始フレーム特徴と非音声フレーム特徴とのうちの少なくとも１つを含み、図３に示されるように、音声開始フレーム特徴と非音声フレーム特徴との抽出は以下のステップを含む。

ステップ３０２：抽出対象の音声フレームを取得し、抽出対象の音声フレームは符号化対象の音声フレームと後方音声フレームとのうちの少なくとも１つである。

ステップ３０４ａ：抽出対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得する。

ここで、抽出対象の音声フレームとは、音声フレーム特徴を抽出する必要がある音声フレームを指し、符号化対象の音声フレーム又は後方音声フレームであってもよい。音声区間検出とは、音声区間検出（ｖａｄ、ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）アルゴリズムを使用して音声信号における音声開始端点、すなわち音声信号の０から１への遷移点を検出することを指す。音声区間検出アルゴリズムは、サブバンド信号対雑音比ベースの判定アルゴリズム、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ディープニューラルネットワーク）ベースの音声フレーム判定アルゴリズム、短期エネルギーベースの音声区間検出アルゴリズム及び二重閾値ベースの音声区間検出アルゴリズム等であってもよい。音声区間検出結果とは、抽出対象の音声フレームが音声端点であるか否かという検出結果を指し、音声フレームが音声開始端点であることと、音声フレームが非音声開始端点であることとを含む。

具体的に、サーバは、抽出対象の音声フレームに対して音声区間検出アルゴリズムを使用して音声区間検出を行い、音声区間検出結果を獲得する。

ステップ３０６ａ：音声区間検出結果が音声開始端点である場合、抽出対象の音声フレームに対応する音声開始フレーム特徴が第１目標値であることと、抽出対象の音声フレームに対応する非音声フレーム特徴が第２目標値であることとのうちの少なくとも１つを決定する。

ここで、音声開始端点とは該抽出対象の音声フレームが音声信号の開始であることを指す。第１目標値は特徴の具体的な値であり、異なる特徴に対応する第１目標値の意味は異なり、音声開始フレーム特徴が第１目標値である場合、第１目標値は抽出対象の音声フレームが音声開始端点の音声フレームであることを特徴付けることに用いられ、非音声フレーム特徴が第１目標値である場合、第１目標値は抽出対象の音声フレームがノイズ音声フレームであることを特徴付けることに用いられる。第２目標値は特徴の具体的な値であり、異なる特徴に対応する第２目標値の意味は異なり、非音声フレーム特徴が第２目標値である場合、第２目標値は抽出対象の音声フレームが非ノイズ音声フレームであることを特徴付けることに用いられ、音声開始フレーム特徴が第２目標値である場合、第２目標値は抽出対象の音声フレームが非音声開始端点の音声フレームであることを特徴付けることに用いられる。例えば、第１目標値は１であってもよく、第２目標値は０であってもよい。

具体的に、音声区間検出結果が音声開始端点である場合、抽出対象の音声フレームに対応する音声開始フレーム特徴が第１目標値であることと、抽出対象の音声フレームに対応する非音声フレーム特徴が第２目標値であることとを獲得する。１つの実施例において、音声区間検出結果が音声開始端点である場合、抽出対象の音声フレームに対応する音声開始フレーム特徴が第１目標値であること、又は抽出対象の音声フレームに対応する非音声フレーム特徴が第２目標値であることを獲得する。

ステップ３０８ａ：音声区間検出結果が非音声開始端点である場合、抽出対象の音声フレームに対応する音声開始フレーム特徴が第２目標値であることと、抽出対象の音声フレームに対応する非音声フレーム特徴が第１目標値であることとのうちの少なくとも１つを決定する。

ここで、非音声開始端点とは、抽出対象の音声フレームが音声信号の開始点ではなく、すなわち該抽出対象の音声フレームが音声信号の前のノイズ信号であることを指す。

具体的に、音声区間検出結果が非音声開始端点である場合、直接第２目標値を抽出対象の音声フレームに対応する音声開始フレーム特徴とし、かつ第１目標値を抽出対象の音声フレームに対応する非音声フレーム特徴とする。１つの実施例において、音声区間検出結果が非音声開始端点である場合、直接第２目標値を抽出対象の音声フレームに対応する音声開始フレーム特徴とするか、又は第１目標値を抽出対象の音声フレームに対応する非音声フレーム特徴とする。

上記実施例において、抽出対象の音声フレームに対して音声区間検出を行い、それにより音声開始フレーム特徴と非音声フレーム特徴とを獲得することにより、効率と正確性とが向上する。

１つの実施例において、符号化対象の音声フレーム特徴と後方音声フレーム特徴とはエネルギー変化特徴を含み、図３に示されるように、エネルギー変化特徴の抽出は以下のステップを含む。

ステップ３０２：抽出対象の音声フレームを取得し、抽出対象の音声フレームは符号化対象の音声フレーム又は後方音声フレームである。

ステップ３０４ｂ：抽出対象の音声フレームに対応する前方音声フレームを取得し、抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ前方音声フレームに対応する前方フレームエネルギーを計算する。

ここで、前方音声フレームとは、抽出対象の音声フレームの前の１フレームを指し、抽出対象の音声フレームを取得する前に既に取得された音声フレームである。例えば、抽出対象のフレームは８番目のフレームであり、この場合、前方音声フレームは７番目のフレームであってもよい。フレームエネルギーは、該音声フレーム信号の強さの程度を反映することに用いられる。抽出対象のフレームエネルギーとは、抽出対象の音声フレームに対応するフレームエネルギーを指す。前方フレームエネルギーとは、前方音声フレームに対応するフレームエネルギーを指す。

具体的に、端末は抽出対象の音声フレームを取得する。抽出対象の音声フレームは符号化対象の音声フレーム又は後方音声フレームであり、抽出対象の音声フレームに対応する前方音声フレームを取得し、抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ同時に、前方音声フレームに対応する前方フレームエネルギーを計算する。ここで、抽出対象の音声フレーム又は前方音声フレームにおけるすべてのデジタル信号の二乗和を計算することにより、抽出対象のフレームエネルギー又は前方フレームエネルギーを獲得するようにしてもよい。抽出対象の音声フレーム又は前方音声フレームにおけるすべてのデジタル信号の中からサンプリングし、サンプリングデータの二乗和を計算し、抽出対象のフレームエネルギー又は前方フレームエネルギーを獲得することもよい。

ステップ３０６ｃ：抽出対象のフレームエネルギーと前方フレームエネルギーとの比率を計算し、比率結果に基づいて抽出対象の音声フレームに対応するエネルギー変化特徴を決定する。

具体的に、端末は抽出対象のフレームエネルギーと前方フレームエネルギーとの比率を計算し、比率結果に基づいて抽出対象の音声フレームに対応するエネルギー変化特徴を決定する。ここで、比率結果が予め設定された閾値よりも大きい場合、該抽出対象の音声フレームのフレームエネルギーが前の１フレームのフレームエネルギーと比較して変化が比較的大きいことを示す。この場合、対応するエネルギー変化特徴が１であり、比率結果が予め設定された閾値よりも大きくない場合、該抽出対象の音声フレームが前の１フレームのフレームエネルギーと比較して変化が比較的小さいことを示す。この場合、対応するエネルギー変化特徴が０である。１つの実施例において、比率結果と抽出対象のフレームエネルギーとに基づいて、抽出対象の音声フレームに対応するエネルギー変化特徴を決定することができる。ここで、抽出対象のフレームエネルギーが予め設定されたフレームエネルギーよりも大きく、かつ比率結果が予め設定された閾値よりも大きい場合、該抽出対象の音声フレームはフレームエネルギーが突然増加する音声フレームであることを示す。この場合、対応するエネルギー変化特徴が１であり、抽出対象のフレームエネルギーが予め設定されたフレームエネルギーよりも大きくない、又は比率結果が予め設定された閾値よりも大きくない場合、該抽出対象の音声フレームはフレームエネルギーが突然増加する音声フレームではないことを示す。この場合、対応するエネルギー変化特徴が０である。該予め設定された閾値とは、予め設定された数値を指し、例えば、比率結果が予め設定された倍数よりも高い。予め設定されたフレームエネルギーは予め設定されたフレームエネルギー閾値である。

上記実施例において、抽出対象のフレームエネルギーと前方フレームエネルギーとを計算し、抽出対象のフレームエネルギーと前方フレームエネルギーとに基づいて、抽出対象の音声フレームに対応するエネルギー変化特徴を決定することにより、エネルギー変化特徴を獲得する正確性が向上する。

１つの実施例において、抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算するステップは以下を含む。

抽出対象の音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得する。各サンプルポイントデータ値の二乗和を計算し、かつ二乗和とサンプルポイントの数との比率を計算し、抽出対象のフレームエネルギーを獲得する。

ここで、サンプルポイントデータ値は抽出対象の音声フレームからサンプリングして獲得されるデータである。サンプルポイントの数とは、採用して獲得されたサンプルポイントデータの総数を指す。

具体的に、端末は抽出対象の音声フレームに対してデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得する。各サンプルポイントデータ値の二乗和を計算し、次に、二乗和とサンプルポイントの数との比率を計算し、比率を抽出対象のフレームエネルギーとする。以下の式（１）を使用して抽出対象のフレームエネルギーを計算することができる。

（ここで、ｍはサンプルポイントの数であり、ｘはサンプルポイントデータ値であり、ｉ番目のサンプルポイントデータ値はｘ（ｉ）である。）

１つの具体的な実施例において、２０ｍｓを１フレームとし、サンプリングレートを１６ｋｈｚに設定する。この場合、データサンプリングを行った後、３２０個のサンプルポイントデータ値を獲得することができる。各サンプルポイントデータ値は１６ビットの符号付き数値であり、値の範囲は［－３２７６８，３２７６７］であり、図示のように、ｉ番目のサンプルポイントデータ値がｘ（ｉ）であり、この場合、計算した該フレームのフレームエネルギーは以下の［数２］である。

１つの実施例において、端末は前方音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得し、各サンプルポイントデータ値の二乗和を計算し、かつ二乗和とサンプルポイントの数との比率を計算して、前方フレームエネルギーを獲得する。ここで、端末は、式（１）を使用して前方音声フレームに対応する前方フレームエネルギーを計算することができる。

上記実施例において、音声フレームに対してデータサンプリングを行い、次に、サンプルポイントデータとサンプルポイントの数とに基づいてフレームエネルギーを計算することにより、フレームエネルギーを獲得する効率を向上させることができる。

１つの実施例において、符号化対象の音声フレーム特徴と後方音声フレーム特徴とはピッチ周期突然変化フレーム特徴を含み、図３に述べるように、ピッチ周期突然変化フレーム特徴の抽出は以下のステップを含む。

ステップ３０２：抽出対象の音声フレームを取得して、抽出対象の音声フレームは符号化対象の音声フレーム又は後方音声フレームである。

ステップ３０４ｃ：抽出対象の音声フレームに対応する前方音声フレームを取得し、抽出対象の音声フレームと前方音声フレームとのピッチ周期を検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得する。

ここで、ピッチ周期とは、声帯が一回開閉する時間を指す。抽出対象のピッチ周期とは、抽出対象の音声フレームに対応するピッチ周期を指し、すなわち符号化対象の音声フレームに対応するピッチ周期又は後方音声フレームに対応するピッチ周期である。

具体的に、端末は抽出対象の音声フレームを取得し、該抽出対象の音声フレームは符号化対象の音声フレームであってもよく、又は後方音声フレームであってもよい。次に、抽出対象の音声フレームに対応する前方音声フレームを取得し、ピッチ周期検出アルゴリズムを使用してそれぞれ抽出対象の音声フレームと前方音声フレームに対応するピッチ周期とを検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得する。ここで、ピッチ周期検出アルゴリズムは、非時間ベースのピッチ周期検出方法と時間ベースのピッチ周期検出方法とに分けることができ、非時間ベースのピッチ周期検出方法は、自己相関関数法、平均振幅差関数法及びケプストラム方法等を含み、時間ベースのピッチ周期検出方法は波形推定法、相関処理法及び変換法等を含む。

ステップ３０６ｃ：抽出対象のピッチ周期と前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、ピッチ周期変化程度に基づき抽出対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定する。

ここで、ピッチ周期変化程度は、前方音声フレームと抽出対象の音声フレームとの間のピッチ周期の変化程度を反映することに用いられる。

具体的に、端末は前方ピッチ周期と抽出対象のピッチ周期との間の差分の絶対値を計算し、ピッチ周期変化程度を獲得する。ピッチ周期変化程度が予め設定された周期変化程度の閾値を超える場合、抽出対象の音声フレームがピッチ周期突然変化フレームであることを示す。このときに、獲得されるピッチ周期突然変化フレーム特徴は「１」で表すことができる。ピッチ周期変化程度が予め設定された周期変化程度の閾値を超えていない場合、抽出対象の音声フレームのピッチ周期が前の１フレームと比較して突然変化していないことを示し、このときに、獲得されるピッチ周期突然変化フレーム特徴は「０」で表すことができる。

上記実施例において、検出して前方ピッチ周期と抽出対象のピッチ周期とを獲得し、前方ピッチ周期と抽出対象のピッチ周期とに基づいてピッチ周期突然変化フレーム特徴を獲得することにより、ピッチ周期突然変化フレーム特徴を獲得する正確性が向上する。

１つの実施例において、図４に示されるように、ステップ２０４、すなわち、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップは以下を含む。

ステップ４０２：符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得する。順方向符号化対象の音声フレーム特徴は、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも１つを含む。

ここで、順方向符号化対象の音声フレーム特徴とは、音声フレーム特徴と音声フレームの重要性とが順方向の関係を有する特徴を指し、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも１つを含む。順方向符号化対象の音声フレーム特徴が明らかであるほど、音声フレームの重要性は高くなる。順方向符号化対象の音声フレームの重要性とは、順方向符号化対象の音声フレーム特徴に基づいて獲得される音声フレームの重要性を指す。

具体的に、端末は各符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、予め設定された各順方向符号化対象の音声フレーム特徴に対応する重みを取得し、各順方向符号化対象の音声フレーム特徴に対して加重計算を行う。次に加重計算の結果を統計し、順方向符号化対象の音声フレームの重要性を獲得する。

ステップ４０４：符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定する。逆方向符号化対象の音声フレーム特徴は非音声フレーム特徴を含む。

ここで、逆方向符号化対象の音声フレーム特徴とは、音声フレーム特徴と音声フレームの重要性とが逆方向の関係を有する特徴を指し、非音声フレーム特徴を含む。逆方向符号化対象の音声フレーム特徴が明らかであるほど、音声フレームの重要性は低くなる。逆方向符号化対象の音声フレームの重要性とは、逆方向符号化対象の音声フレーム特徴に基づいて獲得される音声フレームの重要性を指す。

具体的に、端末は符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定する。１つの具体的な実施例において、非音声フレーム特徴が１である場合、該音声フレームがノイズであることを示す。このときに、ノイズの音声フレームの重要性は０である。非音声フレーム特徴が０である場合、該音声フレームが収集された音声であることを示す。このときに、音声の音声フレームの重要性は１である。

ステップ４０６：順方向符号化対象の音声フレームの重要性と予め設定された順方向重みとに基づき順方向重要性を計算して獲得し、逆方向符号化対象の音声フレームの重要性と予め設定された逆方向重みとに基づき逆方向重要性を計算して獲得し、上記順方向重要性と上記逆方向重要性とに基づき、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。

ここで、予め設定された順方向重みとは、予め設定された順方向符号化対象の音声フレームの重要性の重みを指し、予め設定された逆方向重みとは、予め設定された逆方向符号化対象の音声フレームの重要性の重みを指す。

具体的に、端末は順方向符号化対象の音声フレームの重要性と予め設定された順方向重みとの積を計算して順方向重要性を獲得し、逆方向符号化対象の音声フレームの重要性と予め設定された逆方向重みとの積を計算して逆方向重要性を獲得し、順方向重要性と逆方向重要性とを加算して、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。例えば、順方向重要性と逆方向重要性との積を計算して、符号化対象の音声フレームの重要性を獲得することもよい。１つの具体的な実施例において、下式（２）を使用して符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を計算することができる。

ｒ＝ｂ＋（１－ｒ_４）＊（ｗ_１＊ｒ_１＋ｗ_２＊ｒ_２＋ｗ_３＊ｒ_３）式（２）

（ここで、ｒは符号化対象の音声フレームの重要性、ｒ_１は音声開始フレーム特徴、ｒ_２はエネルギー変化特徴、ｒ_３はピッチ周期突然変化フレーム特徴、ｗは予め設定された重み、ｗ_１は音声開始フレーム特徴に対応する重み、ｗ_２はエネルギー変化特徴に対応する重み、ｗ_３はピッチ周期突然変化フレーム特徴に対応する重みである。ｗ_１＊ｒ_１＋ｗ_２＊ｒ_２＋ｗ_３＊ｒ_３は順方向符号化対象の音声フレームの重要性である。ｒ_４は非言語フレーム特徴、（１－ｒ_４）は逆方向符号化対象の音声フレームの重要性である。ｂは定数でかつ正数であり、順方向バイアスである。ここで、ｂは具体的に０．１であってもよく、ｗ_１、ｗ_２及びｗ_３は具体的に全て０．３であってもよい。）

１つの実施例において、式（２）を使用して後方音声フレーム特徴に基づいて、後方音声フレームに対応する後方音声フレームの重要性を計算して獲得することもできる。具体的に言えば、後方音声フレームに対応する音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴に対して加重計算を行い、後方音声フレームに対応する順方向重要性を獲得する。後方音声フレームに対応する非音声フレーム特徴に基づいて、後方音声フレームに対応する逆方向重要性を決定する。順方向重要性と逆方向重要性とに基づき後方音声フレームに対応する後方音声フレームの重要性を計算して獲得する。

上記実施例において、符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴と逆方向符号化対象の音声フレーム特徴とを決定し、次に、それぞれ対応する順方向符号化対象の音声フレームの重要性と逆方向符号化対象の音声フレームの重要性とを計算して獲得し、最終的に、符号化対象の音声フレームの重要性を獲得することにより、符号化対象の音声フレームの重要性を獲得する正確性が向上する。

１つの実施例において、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップは以下を含む。

前方音声フレームの重要性を取得し、前方音声フレームの重要性、符号化対象の音声フレームの重要性及び後方音声フレームの重要性に基づき、目標重要性傾向特徴を取得し、目標重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定する。

ここで、前方音声フレームとは、符号化対象の音声フレームの前の、既に符号化された音声フレームを指す。前方音声フレームの重要性とは、前方音声フレームに対応する音声フレームの重要性を指す。

具体的に、端末は、前方音声フレームの重要性を取得し、前方音声フレームの重要性、符号化対象の音声フレームの重要性及び後方音声フレームの重要性の重要性平均程度を計算し、前方音声フレームの重要性、符号化対象の音声フレームの重要性及び後方音声フレームの重要性の重要性差異程度を計算し、重要性平均程度と重要性差異程度とに基づいて目標重要性傾向特徴を獲得し、目標重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定することができる。ここで、２つの前方音声フレームの前方音声フレームの重要性、符号化対象の音声フレームの重要性及び３つの後方音声フレームの後方音声フレームの重要性の重要性総和を計算し、重要性の和と６つの音声フレームとの比率を計算し、重要性平均程度を獲得する。２つの前方音声フレームの前方音声フレームの重要性と符号化対象の音声フレームの重要性との和を計算し、重要性の部分和を獲得し、かつ重要性の総和と重要性の部分和との差分を計算し、重要性差異程度を獲得し、それにより目標重要性傾向特徴を獲得する。

上記実施例において、前方音声フレームの重要性、符号化対象の音声フレームの重要性及び後方音声フレームの重要性を使用して、目標重要性傾向特徴を取得し、さらに目標重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定することにより、獲得される符号化対象の音声フレームに対応する符号化ビットレートはより正確になる。

１つの実施例において、図５に示されるように、ステップ２０８、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップは以下を含む。

ステップ５０２：符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性差異程度と重要性平均程度とを計算する。

ここで、重要性差異程度は後方音声フレームと符号化対象の音声フレームとの間の重要性の差異を反映することに用いられる。重要性平均程度は符号化対象の音声フレームと後方音声フレームとの重要性の平均値を反映することに用いられる。

具体的に、サーバは、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき統計計算を行い、すなわち符号化対象の音声フレームの重要性と後方音声フレームの重要性との平均重要性を計算し、重要性平均程度を獲得し、かつ符号化対象の音声フレームの重要性と後方音声フレームの重要性との総和と、符号化対象の音声フレームの重要性との差分を計算し、重要性差異程度を獲得する。

ステップ５０４：重要性差異程度と重要性平均程度とに基づいて符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得する。

具体的に、予め設定されたビットレート計算関数を取得し、重要性差異程度と重要性平均程度とに基づいて、ビットレート計算関数を使用して符号化対象の音声フレームに対応する符号化ビットレートを計算する。ここで、ビットレート計算関数は符号化ビットレートを計算することに用いられ、単調増加関数であり、応用シーンの需要に応じてカスタマイズすることができる。重要性差異程度に対応するビットレート計算関数に基づいてビットレートを算出し、同時に、重要性平均程度に対応するビットレート計算関数に基づいてビットレートを算出し、次に、ビットレートの和を計算して符号化対象の音声フレームに対応する符号化ビットレートを獲得することができる。同じビットレート計算関数を使用して、重要性差異程度及び重要性平均程度に対応するビットレートを計算し、次にビットレートの和を計算し符号化対象の音声フレームに対応する符号化ビットレートを獲得することもよい。

上記実施例において、後方音声フレームと符号化対象の音声フレームとの間の重要性差異程度及び重要性平均程度を計算して獲得し、重要性差異程度と重要性平均程度とに基づいて符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得することにより、獲得される符号化ビットレートをより正確にすることができる。

１つの実施例において、図６に示されるように、ステップ５０２、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性差異程度を計算するステップは以下を含む。

ステップ６０２：符号化対象の音声フレームの重要性と予め設定された第１重みとの第１加重値を計算し、かつ後方音声フレームの重要性と予め設定された第２重みとの第２加重値を計算する。

ここで、予め設定された第１重みとは、予め設定された符号化対象の音声フレームの重要性に対応する重みを指す。予め設定された第２重みとは、後方音声フレームの重要性に対応する重みを指し、各後方音声フレームは全て対応する後方音声フレームの重要性を有し、各後方音声フレームの重要性は全て対応する重みを有する。第１加重値は、符号化対象の音声フレームの重要性を加重した後に獲得した値である。第２加重値は、後方音声フレームの重要性を加重した後に獲得した値を指す。

具体的に、端末は、符号化対象の音声フレームの重要性と予め設定された第１重みとの積を計算して、第１加重値を獲得し、かつ後方音声フレームの重要性と予め設定された第２重みとの積を計算して、第２加重値を獲得する。

ステップ６０４：第１加重値と第２加重値とに基づき目標加重値を計算して獲得し、目標加重値と符号化対象の音声フレームの重要性との差分を計算し、重要性差異程度を獲得する。

ここで、目標加重値とは第１加重値と第２加重値との和を指す。

具体的に、端末は、第１加重値と第２加重値との間の和を計算して、目標加重値を獲得し、次に目標加重値と符号化対象の音声フレームの重要性との差分を算出して、該差分を重要性差異程度とする。１つの具体的な実施例において、式（３）を使用して重要性差異程度を計算することができる。

（ここで、ΔＲ（ｉ）とは重要性差異程度を指し、Ｎは符号化対象の音声フレームと後方音声フレームとのフレーム総数である。ｒ（ｉ）は符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を表し、ｒ（ｊ）はｊ番目の後方音声フレームに対応する後方音声フレームの重要性を表す。ａは重みを表し、値の範囲が（０，１）であり、ｊ＝０の場合、ａ_０は予め設定された第１重みであり、ｊが０よりも大きい場合、ａ_ｊは予め設定された第２重みであり、複数の予め設定された第２重みを有してもよく、各後方音声フレームに対応する予め設定された第２重みは同じであってもよく、異なってもよく、ここで、ａ_ｊは、ｊが大きいほど、その値が大きくなるようにしてもよい。

［数４］は目標加重値を表す。１つの具体的な実施例において、後方音声フレームが３フレームを有する場合、Ｎが４であり、ａ_０が０．１であってもよく、ａ_１が０．２であってもよく、ａ_２が０．３であってもよく、ａ_３が０．４であってもよい。）

上記実施例において、目標加重値を計算し、次に目標加重値と符号化対象の音声フレームの重要性とを使用して重要性差異程度を計算して獲得することにより、重要性差異程度を獲得する正確性が向上する。

１つの実施例において、ステップ５０２、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性平均程度を計算するステップは以下を含む。

符号化対象の音声フレームと後方音声フレームとのフレーム数を取得する。符号化対象の音声フレームの重要性と後方音声フレームの重要性とを統計して統合重要性を獲得し、かつ統合重要性とフレーム数との比率を計算し、重要性平均程度を獲得する。

ここで、フレーム数とは、符号化対象の音声フレームと後方音声フレームとのフレーム総数を指し、例えば、後方音声フレームが３フレームを有する場合、獲得されるフレーム総数は４である。

具体的に、端末は符号化対象の音声フレームと後方音声フレームとのフレーム数を取得する。符号化対象の音声フレームの重要性と後方音声フレームの重要性との和を統計し、統合重要性を獲得する。次に、統合重要性とフレーム数との比率を計算し、重要性平均程度を獲得する。１つの具体的な実施例において、式（４）を使用して重要性平均程度を計算することができる。

（ここで、［数６］は重要性平均程度であり、Ｎとは符号化対象の音声フレームと後方音声フレームとのフレーム数を指す。ｒとは音声フレームの重要性を指し、ｒ（ｉ）は符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を表すことに用いられ、ｒ（ｊ）はｊ番目の後方音声フレームに対応する後方音声フレームの重要性を表すことに用いられる。）

上記実施例において、符号化対象の音声フレームと後方音声フレームのフレーム数及び統合重要性により重要性平均程度を計算して獲得することにより、重要性平均程度を獲得する正確性が向上する。

１つの実施例において、図７に示されるように、ステップ５０４、すなわち重要性差異程度と重要性平均程度とに基づいて符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得するステップは以下を含む。

ステップ７０２：第１ビットレート計算関数と第２ビットレート計算関数とを取得する。

ステップ７０４：重要性平均程度と第１ビットレート計算関数とを使用して第１ビットレートを計算して獲得し、かつ重要性差異程度と第２ビットレート計算関数とを使用して第２ビットレートを計算して獲得し、第１ビットレートと第２ビットレートとに基づいて統合ビットレートを決定する。ここで、第１ビットレートは重要性平均程度に比例する関係を有し、第２ビットレートは重要性差異程度に比例する関係を有する。

ここで、第１ビットレート計算関数は、重要性平均程度を使用してビットレートを計算する予め設定された関数であり、第２ビットレート計算関数は、重要性差異程度を使用してビットレートを計算する予め設定された関数である。ここで、第１ビットレート計算関数と第２ビットレート計算関数とは、応用シーンの具体的な需要に応じて設定することができる。第１ビットレートとは、第１ビットレート計算関数を使用して計算して獲得されたビットレートを指す。第２ビットレートとは、第２ビットレート計算関数を使用して計算して獲得されたビットレートを指す。統合ビットレートとは、第１ビットレートと第２ビットレートとを統合した後に獲得されたビットレートを指し、例えば、第１ビットレートと第２ビットレートとの和を計算し、和を統合ビットレートとすることができる。

具体的に、端末は、予め設定された第１ビットレート計算関数と第２ビットレート計算関数とを取得し、次に、重要性平均程度と重要性差異程度とをそれぞれ計算し、第１ビットレートと第２ビットレートとを獲得し、次に、第１ビットレートと第２ビットレートとの和を計算し、和を統合ビットレートとする。

１つの具体的な実施例において、式（５）を使用して統合ビットレートを計算することができる。

（ここで、［数８］は重要性平均程度であり、ΔＲ（ｉ）は重要性差異程度であり、ｆ_１（）は第１ビットレート計算関数であり、ｆ_２（）は第２ビットレート計算関数である。［数９］を使用して第１ビットレートを計算して獲得し、ｆ_２（ΔＲ（ｉ））を使用して第２ビットレートを計算して獲得する。）

１つの具体的な実施例において、式（６）を第１ビットレート計算関数として使用し、式（７）を第２ビットレート計算関数として使用することができる。

（ここで、ｐ_０、ｃ_０、ｂ_０、ｐ_１、ｃ_１及びｂ_１はいずれも定数であり、かつ正数である。）

ステップ７０６：予め設定されたビットレート上限値と予め設定されたビットレート下限値とを取得し、予め設定されたビットレート上限値、予め設定されたビットレート下限値及び統合ビットレートに基づき、符号化ビットレートを決定する。

具体的に、予め設定されたビットレート上限値とは、予め設定された音声フレーム符号化ビットレートの最大値を指し、予め設定されたビットレート下限値とは、予め設定された音声フレーム符号化ビットレートの最小値を指す。端末は予め設定されたビットレート上限値と予め設定されたビットレート下限値とを取得し、予め設定されたビットレート上限値及び予め設定されたビットレート下限値と統合ビットレートとを比較し、比較結果に基づいて最終的な符号化ビットレートを決定する。

上記実施例において、第１ビットレート計算関数と第２ビットレート計算関数とを使用して第１ビットレートと第２ビットレートとを計算して獲得し、次に、第１ビットレートと第２ビットレートとに基づいて統合ビットレートを獲得することにより、統合ビットレートを獲得する正確性が向上し、最終的に、予め設定されたビットレート上限値、予め設定されたビットレート下限値及び統合ビットレートに基づいて、符号化ビットレートを決定し、それにより、獲得される符号化ビットレートはより正確になる。

１つの実施例において、ステップ７０６、すなわち予め設定されたビットレート上限値、予め設定されたビットレート下限値及び統合ビットレートに基づき、符号化ビットレートを決定するステップは以下を含む。

予め設定されたビットレート上限値と統合ビットレートとを比較する。統合ビットレートが予め設定されたビットレート上限値よりも小さい場合、予め設定されたビットレート下限値と統合ビットレートとを比較する。統合ビットレートが予め設定されたビットレート下限値よりも大きい場合、統合ビットレートを符号化ビットレートとする。

具体的に、端末は予め設定されたビットレート上限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート上限値よりも小さい場合、統合ビットレートが予め設定されたビットレート上限値を超えていないことを示す。このときに、予め設定されたビットレート下限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート下限値よりも大きい場合、統合ビットレートが予め設定されたビットレート下限値を超えることを示し、この場合、直接統合ビットレートを符号化ビットレートとする。１つの実施例において、予め設定されたビットレート上限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート上限値よりも大きい場合、統合ビットレートが予め設定されたビットレート上限値を超えることを示す。このときに、直接予め設定されたビットレート上限値を符号化ビットレートとする。１つの実施例において、予め設定されたビットレート下限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート下限値よりも小さい場合、統合ビットレートが予め設定されたビットレート下限値を超えていないことを示す。このときに、予め設定されたビットレート下限値を符号化ビットレートとする。

１つの具体的な実施例において、式（８）を使用して符号化ビットレートを獲得することができる。

（ここで、ｍａｘ＿ｂｉｔｒａｔｅとは、予め設定されたビットレート上限値を指す。ｍｉｎ＿ｂｉｔｒａｔｅとは、予め設定されたビットレート下限値を指す。ｂｉｔｒａｔｅ（ｉ）は符号化対象の音声フレームの符号化ビットレートを表す。）

上記実施例において、予め設定されたビットレート上限値、予め設定されたビットレート下限値及び統合ビットレートにより符号化ビットレートを決定し、それにより音声フレームの符号化ビットレートを予め設定されたビットレート範囲内に収めることを確保し、全体的な音声符号化の品質を確保する。

１つの実施例において、ステップ２１０、すなわち符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップは以下を含む。

符号化ビットレートをインタフェースを介して標準エンコーダに導入し、符号化結果を獲得し、標準エンコーダは符号化ビットレートを使用して符号化対象の音声フレームを符号化することに用いられる。

ここで、標準エンコーダは符号化対象の音声フレームに対して音声符号化を行うことに用いられる。インタフェースは標準エンコーダの外部インタフェースを指し、符号化ビットレートを調整制御することに用いられる。

具体的に、端末は符号化ビットレートをインタフェースを介して標準エンコーダに導入し、標準エンコーダは符号化ビットレートを受信するときに、対応する符号化対象の音声フレームを取得し、符号化ビットレートを使用して符号化対象の音声フレームを符号化し、符号化結果を獲得し、それにより正確で間違いがない標準符号化結果を獲得することを確保する。

１つの具体的な実施例において、音声符号化方法を提供し、具体的に言えば、以下のとおりである。

符号化対象の音声フレーム、及び上記符号化対象の音声フレームに対応する後方音声フレームを取得する。このときに、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性と後方音声フレームに対応する後方音声フレームの重要性とを並行計算する。

ここで、図８に示されるように、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップは以下のステップを含む。

ステップ８０２：符号化対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得し、音声区間検出結果に基づいて、符号化対象の音声フレームに対応する音声開始フレーム特徴と符号化対象の音声フレームに対応する非音声フレーム特徴とを決定する。

ステップ８０４：符号化対象の音声フレームに対応する前方音声フレームを取得し、符号化対象の音声フレームに対応する符号化対象のフレームエネルギーを計算し、かつ前方音声フレームに対応する前方フレームエネルギーを計算し、符号化対象のフレームエネルギーと前方フレームエネルギーとの比率を計算し、比率結果に基づいて、符号化対象の音声フレームに対応するエネルギー変化特徴を決定する。

ステップ８０６：符号化対象の音声フレームと前方音声フレームとのピッチ周期を検出し、符号化対象のピッチ周期と前方ピッチ周期とを獲得し、符号化対象のピッチ周期と前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、ピッチ周期変化程度に基づいて、符号化対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定する。

ステップ８０８：符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得する。

ステップ８１０：符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定する。

ステップ８１２：順方向符号化対象の音声フレームの重要性と逆方向符号化対象の音声フレームの重要性とに基づき、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。

ここで、図９に示されるように、後方音声フレームに対応する後方音声フレームの重要性を獲得するステップは以下のステップを含む。

ステップ９０２：後方音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得し、音声区間検出結果に基づいて、後方音声フレームに対応する音声開始フレーム特徴と後方音声フレームに対応する非音声フレーム特徴とを決定する。

ステップ９０４：後方音声フレームに対応する前方音声フレームを取得し、後方音声フレームに対応する後方フレームエネルギーを計算し、かつ前方音声フレームに対応する前方フレームエネルギーを計算し、後方フレームエネルギーと前方フレームエネルギーとの比率を計算し、比率結果に基づいて後方音声フレームに対応するエネルギー変化特徴を決定する。

ステップ９０６：後方音声フレームと前方音声フレームとのピッチ周期を検出し、後方ピッチ周期と前方ピッチ周期とを獲得し、後方ピッチ周期と前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、ピッチ周期変化程度に基づいて、後方音声フレームに対応するピッチ周期突然変化フレーム特徴を決定する。

ステップ９０８：後方音声フレームに対応する音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴に対して加重計算を行い、後方音声フレームに対応する順方向重要性を獲得する。

ステップ９１０：後方音声フレームに対応する非音声フレーム特徴に基づいて、後方音声フレームに対応する逆方向重要性を決定する。

ステップ９１２：順方向重要性と逆方向重要性とに基づき、後方音声フレームに対応する後方音声フレームの重要性を獲得する。符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性と後方音声フレームに対応する後方音声フレームの重要性とを獲得した場合、図１０に示されるように、符号化対象の音声フレームに対応する符号化ビットレートを計算するステップは以下のステップを含む。

ステップ１００２：符号化対象の音声フレームの重要性と予め設定された第１重みとの第１加重値を計算し、かつ後方音声フレームの重要性と予め設定された第２重みとの第２加重値を計算する。

ステップ１００４：第１加重値と第２加重値に基づき目標加重値を計算して獲得し、目標加重値と符号化対象の音声フレームの重要性との差分を計算し、重要性差異程度を獲得する。

ステップ１００６：符号化対象の音声フレームと後方音声フレームとのフレーム数を取得し、符号化対象の音声フレームの重要性と後方音声フレームの重要性とを統計して統合重要性を獲得し、かつ統合重要性とフレーム数との比率を計算し、重要性平均程度を獲得する。

ステップ１００８：第１ビットレート計算関数と第２ビットレート計算関数とを取得する。

ステップ１０１０：重要性差異程度と第１ビットレート計算関数とを使用して第１ビットレートを計算して獲得し、かつ重要性平均程度と第２ビットレート計算関数とを使用して第２ビットレートを計算して獲得し、第１ビットレートと第２ビットレートとに基づいて統合ビットレートを決定する。

ステップ１０１２：予め設定されたビットレート上限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート上限値よりも小さい場合、予め設定されたビットレート下限値と統合ビットレートとを比較する。

ステップ１０１４：統合ビットレートが予め設定されたビットレート下限値よりも大きい場合、統合ビットレートを符号化ビットレートとする。

ステップ１０１６：符号化ビットレートをインタフェースを介して標準エンコーダに導入し、符号化結果を獲得し、標準エンコーダは符号化ビットレートを使用して符号化対象の音声フレームを符号化することに用いられる。最終的に、獲得された符号化結果を格納する。

本願はさらに一種の応用シーンを提供し、該応用シーンには上記音声符号化方法が応用できる。具体的に、該音声符号化方法の該応用シーンでの応用は以下のとおりである。図１１に示されるように、オーディオ放送を行うプロセス模式図である。このとき、アナウンサーが放送するときに、マイクロホンはアナウンサーが放送するオーディオ信号を収集する。このときに、オーディオ信号におけるマルチフレーム音声信号を読み取り、該マルチフレーム音声信号には現在の符号化対象の音声フレームと３フレームの後方音声フレームとが含まれる。このときに、マルチフレーム音声重要性を分析し、具体的に言えば、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。それぞれ３フレームの後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき１フレームごとの後方音声フレームに対応する後方音声フレームの重要性を獲得する。符号化対象の音声フレームの重要性と１フレームごとの後方音声フレームの重要性とに基づき、重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定する。次に、符号化ビットレートを設定し、すなわち、外部インタフェースを介して、標準エンコーダにおけるビットレートを符号化対象の音声フレームに対応する符号化ビットレートに調節する。このときに、標準エンコーダは、符号化対象の音声フレームに対応する符号化ビットレートを使用して、現在の符号化対象の音声フレームを符号化し、ビットレートデータを獲得し、ビットレートデータを記憶し、かつ再生するときに、ビットレートデータを復号し、オーディオ信号を獲得し、スピーカを介してオーディオ信号を再生し、それにより放送される音をよりクリアにする。

本願はさらに別の応用シーンを提供し、該応用シーンには上記音声符号化方法が応用される。具体的に、該音声符号化方法の該応用シーンでの応用は以下のとおりである。図１２に示されるように、音声交流コミュニケーションのアプリケーションを行う応用シーン図であり、端末１２０２と、サーバ１２０４と、端末１２０６とを含み、端末１２０２はサーバ１２０４とネットワークを介して接続され、サーバ１２０４は端末１２０６とネットワークを介して接続される。ここで、ユーザーＡが端末１２０２における通信アプリケーションを介してユーザーＢの端末１２０６に音声メッセージを送信するときに、端末１２０２はユーザーＡの音声信号を収集し、該音声信号から符号化対象の音声フレームと後方音声フレームとを取得し、次に、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得する。符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定し、符号化ビットレートを使用して符号化対象の音声フレームを符号化してストリームデータを獲得し、ストリームデータをサーバ１２０４を介して端末１２０６に送信する。ユーザーＢが端末１２０６における通信アプリケーションを介してユーザーＡが送信した音声を再生するときに、ビットレートデータを復号し、対応する音声信号を獲得し、音声信号をスピーカを介して再生し、音声符号化の品質が向上するため、ユーザーＢが聞きた音声はよりクリアになり、かつネットワークの帯域幅リソースが節約される。

本願はさらに別の応用シーンを提供し、該応用シーンには上記音声符号化方法が応用される。具体的に、該音声符号化方法の該応用シーンでの応用は以下のとおりである。会議録音を行うときに、マイクロホンを介して会議オーディオ信号を収集し、会議オーディオ信号から符号化対象の音声フレームと５フレームの後方音声フレームとが取得されたと決定する。次に、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。各後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき各後方音声フレームに対応する後方音声フレームの重要性を獲得する。符号化対象の音声フレームの重要性と各後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定し、符号化ビットレートを使用して符号化対象の音声フレームを符号化してストリームデータを獲得し、ビットレートデータを指定されたサーバアドレス内に格納する。符号化ビットレートを調整制御できるため、全体的なビットレートを低減させることができ、それによりサーバの記憶リソースが節約される。後続の会議ユーザーや他のユーザーが会議コンテンツを確認する必要があるときに、サーバアドレスから格納されているストリームデータを取得し、ストリームデータを復号し、会議オーディオ信号を獲得し、会議オーディオ信号を再生することができ、それにより、会議ユーザー又は他のユーザーは会議コンテンツを容易に聞くことができ、使用しやすい。

理解すべきであるように、図２～１０のフローチャートにおける各ステップは矢印で指示される順序に従って順に示されているが、これらのステップは必ずしも矢印で指示される順序に従って順に実行されるとは限らない。本明細書に明確に説明されていない限り、これらのステップの実行は厳密な順序に制限されず、これらのステップは他の順序で実行されてもよい。かつ、図２～１０における少なくとも一部のステップは複数のステップ又は複数の段階を含んでもよく、これらのステップ又は段階は必ずしも同一時点で完了するように実行されるとは限らず、異なる時点で実行されてもよい。これらのステップ又は段階の実行順序も必ずしも順に行われるとは限らず、他のステップ又は他のステップのうちのステップ又は段階の少なくとも一部と交替して又は交互に実行されてもよい。

１つの実施例において、図１３に示されるように、音声符号化装置１３００を提供し、該装置は、ソフトウェアモジュール又はハードウェアモジュール、又はそれらの組み合わせを採用してコンピュータ機器の一部として機能することができ、該装置は、具体的に、音声フレーム取得モジュール１３０２と、第１重要性計算モジュール１３０４と、第２重要性計算モジュール１３０６と、ビットレート計算モジュール１３０８と、符号化モジュール１３１０とを含み、ここで、
音声フレーム取得モジュール１３０２は、符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームとを取得することに用いられる。

第１重要性計算モジュール１３０４は、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得することに用いられる。

第２重要性計算モジュール１３０６は、後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得することに用いられる。

ビットレート計算モジュール１３０８は、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定することに用いられる。

符号化モジュール１３１０は、符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得することに用いられる。

１つの実施例において、上記符号化対象の音声フレーム特徴及び上記後方音声フレーム特徴は音声開始フレーム特徴と非音声フレーム特徴とのうちの少なくとも１つを含む。音声符号化装置１３００はさらに第１特徴抽出モジュールを含み、上記第１特徴抽出モジュールは、抽出対象の音声フレームを取得することに用いられる。上記抽出対象の音声フレームは上記符号化対象の音声フレーム、又は上記後方音声フレームであり、上記抽出対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得する。上記音声区間検出結果が音声開始端点である場合、上記抽出対象の音声フレームに対応する音声開始フレーム特徴が第１目標値であることと、上記抽出対象の音声フレームに対応する非音声フレーム特徴が第２目標値であることとのうちの少なくとも１つを決定し、上記音声区間検出結果が非音声開始端点である場合、上記抽出対象の音声フレームに対応する音声開始フレーム特徴が上記第２目標値であることと、上記抽出対象の音声フレームに対応する非音声フレーム特徴が上記第１目標値であることとのうちの少なくとも１つを決定することに用いられる。

１つの実施例において、上記符号化対象の音声フレーム特徴と上記後方音声フレーム特徴とはエネルギー変化特徴を含む。音声符号化装置１３００はさらに第２特徴抽出モジュールを含み、上記第２特徴抽出モジュールは、抽出対象の音声フレームを取得することに用いられる。上記抽出対象の音声フレームは上記符号化対象の音声フレーム又は上記後方音声フレームであり、上記抽出対象の音声フレームに対応する前方音声フレームを取得し、上記抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ上記前方音声フレームに対応する前方フレームエネルギーを計算し、上記抽出対象のフレームエネルギーと上記前方フレームエネルギーとの比率を計算し、比率結果に基づいて上記抽出対象の音声フレームに対応するエネルギー変化特徴を決定することに用いられる。

１つの実施例において、音声符号化装置１３００はさらにフレームエネルギー計算モジュールを含む。上記フレームエネルギー計算モジュールは、上記抽出対象の音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得し、上記各サンプルポイントデータ値の二乗和を計算し、かつ上記二乗和と上記サンプルポイントの数との比率を計算し、上記抽出対象のフレームエネルギーを獲得することに用いられる。

１つの実施例において、上記符号化対象の音声フレーム特徴と上記後方音声フレーム特徴とはピッチ周期突然変化フレーム特徴を含む。音声符号化装置１３００はさらに第３特徴抽出モジュールを含む。上記第３特徴抽出モジュールは、抽出対象の音声フレームを取得することに用いられる。上記抽出対象の音声フレームは上記符号化対象の音声フレーム又は上記後方音声フレームであり、上記抽出対象の音声フレームに対応する前方音声フレームを取得し、上記抽出対象の音声フレームと上記前方音声フレームとのピッチ周期を検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得し、上記抽出対象のピッチ周期と上記前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、上記ピッチ周期変化程度に基づき上記抽出対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定することに用いられる。

１つの実施例において、第１重要性計算モジュール１３０４は、上記符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、上記順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得することに用いられる順方向計算ユニットであって、上記順方向符号化対象の音声フレーム特徴は、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも１つを含む、順方向計算ユニットと、上記符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、上記逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定することに用いられる逆方向計算ユニットであって、上記逆方向符号化対象の音声フレーム特徴は非音声フレーム特徴を含む、逆方向計算ユニットと、順方向符号化対象の音声フレームの重要性と逆方向符号化対象の音声フレームの重要性とに基づき、上記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得することに用いられる重要性計算ユニットと、を含む。

１つの実施例において、ビットレート計算モジュール１３０８は、上記符号化対象の音声フレームの重要性と上記後方音声フレームの重要性とに基づき重要性差異程度と重要性平均程度とを計算することに用いられる程度計算ユニットと、上記重要性差異程度と上記重要性平均程度とに基づいて上記符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得することに用いられるビットレート獲得ユニットと、を含む。

１つの実施例において、程度計算ユニットはさらに、上記符号化対象の音声フレームの重要性と予め設定された第１重みとの第１加重値を計算し、かつ上記後方音声フレームの重要性と予め設定された第２重みとの第２加重値を計算し、上記第１加重値と上記第２加重値とに基づき目標加重値を計算して獲得し、上記目標加重値と上記符号化対象の音声フレームの重要性との差分を計算し、上記重要性差異程度を獲得することに用いられる。

１つの実施例において、程度計算ユニットはさらに、上記符号化対象の音声フレームと上記後方音声フレームとのフレーム数を取得し、上記符号化対象の音声フレームの重要性と上記後方音声フレームの重要性とを統計して統合重要性を獲得し、かつ上記統合重要性と上記フレーム数との比率を計算し、上記重要性平均程度を獲得することに用いられる。

１つの実施例において、ビットレート獲得ユニットはさらに、第１ビットレート計算関数と第２ビットレート計算関数とを取得し、上記重要性平均程度と上記第１ビットレート計算関数を使用して第１ビットレートを計算して獲得し、かつ上記重要性差異程度と上記第２ビットレート計算関数を使用して第２ビットレートを計算して獲得し、上記第１ビットレートと第２ビットレートに基づいて統合ビットレートを決定することに用いられる。ここで、上記第１ビットレートは上記重要性平均程度に比例する関係を有し、上記第２ビットレートは上記重要性差異程度に比例する関係を有し、予め設定されたビットレート上限値と予め設定されたビットレート下限値とを取得し、上記予め設定されたビットレート上限値、予め設定されたビットレート下限値及び上記統合ビットレートに基づき、上記符号化ビットレートを決定することに用いられる。

１つの実施例において、ビットレート獲得ユニットはさらに、上記予め設定されたビットレート上限値と上記統合ビットレートとを比較し、上記統合ビットレートが上記予め設定されたビットレート上限値よりも小さい場合、上記予め設定されたビットレート下限値と上記統合ビットレートとを比較し、上記統合ビットレートが上記予め設定されたビットレート下限値よりも大きい場合、上記統合ビットレートを上記符号化ビットレートとすることに用いられる。

１つの実施例において、符号化モジュール１３１０はさらに、上記符号化ビットレートをインタフェースを介して標準エンコーダに導入し、符号化結果を獲得することに用いられ、上記標準エンコーダは、上記符号化ビットレートを使用して上記符号化対象の音声フレームを符号化することに用いられる。

音声符号化装置の具体的な限定について、以上の音声符号化方法に対する限定を参照することができ、ここでは詳細な説明は省略する。上記音声符号化装置における各モジュールの全部又は一部は、ソフトウェア、ハードウェア及びその組み合わせによって実現され得る。上記各モジュールはハードウェアの形式でコンピュータ機器におけるプロセッサ内に組み込まれ又は独立してもよく、ソフトウェアの形式でコンピュータ機器におけるメモリ内に記憶されてもよく、それによりプロセッサが以上の各モジュールに対応する操作を呼び出して実行できるようにする。

１つの実施例において、コンピュータ機器を提供し、該コンピュータ機器は端末であってもよく、その内部構造図は図１４に示され得る。該コンピュータ機器は、システムバスを介して接続されたプロセッサと、メモリと、通信インタフェースと、表示画面と、入力装置と、録音装置と、を含む。ここで、該コンピュータ機器のプロセッサは、計算及び制御能力を提供することに用いられる。該コンピュータ機器のメモリは、不揮発性記憶媒体と、内部メモリとを含む。該不揮発性記憶媒体にはオペレーティングシステム及びコンピュータ可読命令が記憶されている。該内部メモリは不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ可読命令の実行に環境を提供する。該コンピュータ機器の通信インタフェースは、外部の端末と有線又は無線方式の通信を行うことに用いられ、無線方式はＷＩＦＩ、オペレータネットワーク、ＮＦＣ（近距離無線通信）又は他の技術によって実現され得る。該コンピュータ可読命令がプロセッサにより実行されるとき音声符号化方法を実現する。該コンピュータ機器の表示画面は液晶表示画面又は電子インク表示画面であってもよく、該コンピュータ機器の入力装置は表示画面上に被覆されているタッチ層であってもよく、コンピュータ機器の筐体に設置されたボタン、トラックボール又はタッチパッドであってもよく、さらに外部のキーボード、タッチパッド又はマウス等であってもよい。該コンピュータ機器の音声収集装置はマイクロホンであってもよい。

当業者が理解できるように、図１４に示される構造は、本願の手段に関連する部分構造のブロック図に過ぎず、本願の手段を応用するコンピュータ機器に対する限定を構成せず、具体的なコンピュータ機器は、図示されているものより多い又はより少ない部材を含むか、又はあるいくつかの部材を組み合わせるか、又は異なる部材配置を有するようにしてもよい。

１つの実施例において、さらに、コンピュータ機器を提供し、メモリと、プロセッサとを含み、メモリにコンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサにより実行されるときに、プロセッサに実行されるときに上記各方法実施例のステップを実現させる。

１つの実施例において、コンピュータ可読命令が記憶されている１つ又は複数の不揮発性記憶媒体を提供し、上記コンピュータ可読命令が１つ又は複数のプロセッサにより実行されるときに、１つ又は複数のプロセッサに実行されるときに上記各方法実施例のステップを実現させる。

１つの実施例において、コンピュータプログラム製品又はコンピュータプログラムを提供し、該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に上記各方法実施例のステップを実行させる。

当業者が理解できるように、上記実施例の方法のプロセスの全部又は一部の実現は、コンピュータプログラムによって関連ハードウェアに命令を出して完成させることができる。上記コンピュータプログラムは１つの不揮発性コンピュータ可読記憶媒体に記憶されてもよく、該コンピュータプログラムが実行されるときに、上記各方法の実施例のプロセスを含んでもよい。ここで、本願に提供される各実施例において使用された、メモリ、記憶、データベース又は他の媒体に対するいかなる引用は、いずれも不揮発性メモリと揮発性メモリのうちの少なくとも１つを含んでもよい。不揮発性メモリは、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、磁気テープ、フロッピーディスク、フラッシュメモリ又は光メモリ等を含んでもよい。揮発性メモリは、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）又は外部キャッシュメモリを含んでもよい。非限定的な説明として、ＲＡＭは複数種の形式であってもよく、例えばスタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＳＲＡＭ）又はダイナミックランダムアクセスメモリ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＲＡＭ）等である。

以上の実施例の各技術的特徴は任意に組み合わせることができ、記述を簡潔にするために、上記実施例における各技術的特徴のあらゆる可能な組み合わせを全ては記述していない。しかしながら、これらの技術的特徴の組み合わせに矛盾がない限り、全て本明細書に記載の範囲であると見なされるべきである。

上記実施例は単に本願のいくつかの実施形態を表すためのものであり、その記述が比較的具体的で詳細であるが、発明特許の範囲に対する制限ではないと理解すべきである。指摘すべき点として、当業者であれば、本願の発想から逸脱することなく、さらにいくつかの変形や改良を行うことができ、これらは全て本願の保護範囲に属する。従って、本願特許の保護範囲は添付の特許請求の範囲を基準とすべきである。

１２０２端末
１２０４サーバ
１２０６端末
１３００音声符号化装置
１３０２音声フレーム取得モジュール
１３０４第１重要性計算モジュール
１３０６第２重要性計算モジュール
１３０８ビットレート計算モジュール
１３１０符号化モジュール

Claims

音声符号化方法であって、コンピュータ機器により実行され、前記方法は、
符号化対象の音声フレーム及び前記符号化対象の音声フレームに対応する後方音声フレームを取得するステップと、
前記符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、前記符号化対象の音声フレーム特徴に基づき前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、
前記後方音声フレームに対応する後方音声フレーム特徴を抽出し、前記後方音声フレーム特徴に基づき前記後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、
前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき重要性傾向特徴を取得し、前記重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定するステップであって、前記重要性傾向特徴により特徴付けられた重要性傾向の強さによって、各符号化対象の音声フレームに対応する符号化ビットレートを適応的に制御する、ステップと、
前記符号化ビットレートに基づいて前記符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を含むことを特徴とする音声符号化方法。
前記符号化対象の音声フレーム特徴及び前記後方音声フレーム特徴は音声開始フレーム特徴と非音声フレーム特徴とのうちの少なくとも１つを含み、前記音声開始フレーム特徴と非音声フレーム特徴との抽出は、
抽出対象の音声フレームを取得するステップであって、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも１つである、ステップと、
前記抽出対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得するステップと、
前記音声区間検出結果が音声開始端点である場合、前記抽出対象の音声フレームに対応する音声開始フレーム特徴が第１目標値であることと、前記抽出対象の音声フレームに対応する非音声フレーム特徴が第２目標値であることとのうちの少なくとも１つを決定するステップと、
前記音声区間検出結果が非音声開始端点である場合、前記抽出対象の音声フレームに対応する音声開始フレーム特徴が前記第２目標値であることと、前記抽出対象の音声フレームに対応する非音声フレーム特徴が前記第１目標値であることとのうちの少なくとも１つを決定するステップと、を含むことを特徴とする請求項１に記載の方法。
前記符号化対象の音声フレーム特徴と前記後方音声フレーム特徴とはエネルギー変化特徴を含み、前記エネルギー変化特徴の抽出は、
抽出対象の音声フレームを取得するステップであって、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも１つである、ステップと、
前記抽出対象の音声フレームに対応する前方音声フレームを取得し、前記抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ前記前方音声フレームに対応する前方フレームエネルギーを計算するステップと、
前記抽出対象のフレームエネルギーと前記前方フレームエネルギーとの比率を計算し、比率結果に基づいて前記抽出対象の音声フレームに対応するエネルギー変化特徴を決定するステップと、を含むことを特徴とする請求項１に記載の方法。
前記した前記抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算するステップは、
前記抽出対象の音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得するステップと、
前記各サンプルポイントデータ値の二乗和を計算し、かつ前記二乗和と前記サンプルポイントの数との比率を計算し、前記抽出対象のフレームエネルギーを獲得するステップと、を含むことを特徴とする請求項３に記載の方法。
前記符号化対象の音声フレーム特徴と前記後方音声フレーム特徴とはピッチ周期突然変化フレーム特徴を含み、前記ピッチ周期突然変化フレーム特徴の抽出は、
抽出対象の音声フレームを取得するステップであって、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも１つである、ステップと、
前記抽出対象の音声フレームに対応する前方音声フレームを取得し、前記抽出対象の音声フレームと前記前方音声フレームとのピッチ周期を検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得するステップと、
前記抽出対象のピッチ周期と前記前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、前記ピッチ周期変化程度に基づき前記抽出対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定するステップと、を含むことを特徴とする請求項１に記載の方法。
前記した前記符号化対象の音声フレーム特徴に基づき前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップは、
前記符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、前記順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得するステップであって、前記順方向符号化対象の音声フレーム特徴は、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも１つを含む、ステップと、
前記符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、前記逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定するステップであって、前記逆方向符号化対象の音声フレーム特徴は非音声フレーム特徴を含む、ステップと、
前記順方向符号化対象の音声フレームの重要性と予め設定された順方向重みとに基づき順方向重要性を計算して獲得し、前記逆方向符号化対象の音声フレームの重要性と予め設定された逆方向重みとに基づき逆方向重要性を計算して獲得し、前記順方向重要性と前記逆方向重要性とに基づき、前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、を含むことを特徴とする請求項１に記載の方法。
前記した前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき重要性傾向特徴を取得し、前記重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定するステップは、
前方音声フレームの重要性を取得し、前記前方音声フレームの重要性、前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき、目標重要性傾向特徴を取得し、前記目標重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定するステップを含む、請求項１に記載の方法。
前記した前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき重要性傾向特徴を取得し、前記重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定するステップは、
前記符号化対象の音声フレームの重要性と前記後方音声フレームの重要性とに基づき重要性差異程度と重要性平均程度とを計算するステップと、
前記重要性差異程度と前記重要性平均程度とに基づいて前記符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得するステップと、を含むことを特徴とする請求項１に記載の方法。
前記符号化対象の音声フレームの重要性と前記後方音声フレームの重要性とに基づき重要性差異程度とを計算するステップは、
前記符号化対象の音声フレームの重要性と予め設定された第１重みとの第１加重値を計算し、かつ前記後方音声フレームの重要性と予め設定された第２重みとの第２加重値を計算するステップと、
前記第１加重値と前記第２加重値とに基づき目標加重値を計算して獲得し、前記目標加重値と前記符号化対象の音声フレームの重要性との差分を計算し、前記重要性差異程度を獲得するステップと、を含むことを特徴とする請求項８に記載の方法。
前記した前記符号化対象の音声フレームの重要性と前記後方音声フレームの重要性とに基づき重要性平均程度とを計算するステップは、
前記符号化対象の音声フレームと前記後方音声フレームとのフレーム数を取得するステップと、
前記符号化対象の音声フレームの重要性と前記後方音声フレームの重要性とを統計して統合重要性を獲得し、かつ前記統合重要性と前記フレーム数との比率を計算し、前記重要性平均程度を獲得するステップと、を含むことを特徴とする請求項８に記載の方法。
前記した前記重要性差異程度と前記重要性平均程度とに基づいて前記符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得するステップは、
第１ビットレート計算関数と第２ビットレート計算関数とを取得するステップと、
前記重要性平均程度と前記第１ビットレート計算関数とを使用して第１ビットレートを計算して獲得し、かつ前記重要性差異程度と前記第２ビットレート計算関数とを使用して第２ビットレートを計算して獲得し、前記第１ビットレートと第２ビットレートとに基づいて統合ビットレートを決定するステップであって、前記第１ビットレートは前記重要性平均程度に比例する関係を有し、前記第２ビットレートは前記重要性差異程度に比例する関係を有する、ステップと、
予め設定されたビットレート上限値と予め設定されたビットレート下限値とを取得し、前記予め設定されたビットレート上限値、予め設定されたビットレート下限値及び前記統合ビットレートに基づき、前記符号化ビットレートを決定するステップと、を含むことを特徴とする請求項８に記載の方法。
前記した前記予め設定されたビットレート上限値、予め設定されたビットレート下限値及び前記統合ビットレートに基づき、前記符号化ビットレートを決定するステップは、
前記予め設定されたビットレート上限値と前記統合ビットレートとを比較するステップと、
前記統合ビットレートが前記予め設定されたビットレート上限値よりも小さい場合、前記予め設定されたビットレート下限値と前記統合ビットレートとを比較するステップと、
前記統合ビットレートが前記予め設定されたビットレート下限値よりも大きい場合、前記統合ビットレートを前記符号化ビットレートとするステップと、を含むことを特徴とする請求項１１に記載の方法。
音声符号化装置であって、前記装置は、
符号化対象の音声フレーム、及び前記符号化対象の音声フレームに対応する後方音声フレームを取得することに用いられる音声フレーム取得モジュールと、
前記符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、前記符号化対象の音声フレーム特徴に基づき前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を計算して獲得することに用いられる第１重要性計算モジュールと、
前記後方音声フレームに対応する後方音声フレーム特徴を抽出し、前記後方音声フレーム特徴に基づき前記後方音声フレームに対応する後方音声フレームの重要性を計算して獲得することに用いられる第２重要性計算モジュールと、
前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき重要性傾向特徴を取得し、前記重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定することに用いられるビットレート計算モジュールであって、前記重要性傾向特徴により特徴付けられた重要性傾向の強さによって、各符号化対象の音声フレームに対応する符号化ビットレートを適応的に制御する、ビットレート計算モジュールと、
前記符号化ビットレートに基づいて前記符号化対象の音声フレームを符号化し、符号化結果を獲得することに用いられる符号化モジュールと、を含むことを特徴とする音声符号化装置。
前記符号化対象の音声フレーム特徴及び前記後方音声フレーム特徴は音声開始フレーム特徴と非音声フレーム特徴とのうちの少なくとも１つを含み、前記装置は、さらに、
抽出対象の音声フレームを取得することに用いられ、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも１つであり、前記抽出対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得し、前記音声区間検出結果が音声開始端点である場合、前記抽出対象の音声フレームに対応する音声開始フレーム特徴が第１目標値であることと、前記抽出対象の音声フレームに対応する非音声フレーム特徴が第２目標値であることとのうちの少なくとも１つを決定し、前記音声区間検出結果が非音声開始端点である場合、前記抽出対象の音声フレームに対応する音声開始フレーム特徴が前記第２目標値であることと、前記抽出対象の音声フレームに対応する非音声フレーム特徴が前記第１目標値であることとのうちの少なくとも１つを決定することに用いられる第１特徴抽出モジュールを含む、ことを特徴とする請求項１３に記載の装置。
前記符号化対象の音声フレーム特徴と前記後方音声フレーム特徴とはエネルギー変化特徴を含み、前記装置は、さらに、
抽出対象の音声フレームを取得することに用いられ、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも１つであり、前記抽出対象の音声フレームに対応する前方音声フレームを取得し、前記抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ前記前方音声フレームに対応する前方フレームエネルギーを計算し、前記抽出対象のフレームエネルギーと前記前方フレームエネルギーとの比率を計算し、比率結果に基づいて前記抽出対象の音声フレームに対応するエネルギー変化特徴を決定することに用いられる第２特徴抽出モジュールを含む、ことを特徴とする請求項１３に記載の装置。
前記装置は、さらに、
前記抽出対象の音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得し、前記各サンプルポイントデータ値の二乗和を計算し、かつ前記二乗和と前記サンプルポイントの数との比率を計算し、前記抽出対象のフレームエネルギーを獲得することに用いられるフレームエネルギー計算モジュールを含む、ことを特徴とする請求項１５に記載の装置。
前記符号化対象の音声フレーム特徴と前記後方音声フレーム特徴とはピッチ周期突然変化フレーム特徴を含み、前記装置は、さらに、
抽出対象の音声フレームを取得することに用いられ、前記抽出対象の音声フレームは前記符号化対象の音声フレーム又は前記後方音声フレームであり、前記抽出対象の音声フレームに対応する前方音声フレームを取得し、前記抽出対象の音声フレームと前記前方音声フレームとのピッチ周期を検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得し、前記抽出対象のピッチ周期と前記前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、前記ピッチ周期変化程度に基づき前記抽出対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定することに用いられる第３特徴抽出モジュールを含む、ことを特徴とする請求項１３に記載の装置。
前記第１重要性計算モジュールは、
前記符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、前記順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得することに用いられる順方向計算ユニットであって、前記順方向符号化対象の音声フレーム特徴は、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも１つを含む、順方向計算ユニットと、
前記符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、前記逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定することに用いられる逆方向計算ユニットであって、前記逆方向符号化対象の音声フレーム特徴は非音声フレーム特徴を含む、逆方向計算ユニットと、
順方向符号化対象の音声フレームの重要性と逆方向符号化対象の音声フレームの重要性とに基づき、前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得することに用いられる重要性計算ユニットと、を含むことを特徴とする請求項１３に記載の装置。
メモリと、プロセッサとを含み、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるときに、前記プロセッサに実行されるときに請求項１～１２のいずれか１項に記載の方法のステップを実現させるコンピュータ機器。
コンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つ又は複数のプロセッサにより実行されるときに、１つ又は複数のプロセッサに実行されるときに請求項１～１２のいずれか１項に記載の方法のステップを実現させる１つ又は複数の不揮発性記憶媒体。