JP2023517973A - 音声符号化方法、装置、コンピュータ機器及びコンピュータプログラム - Google Patents

音声符号化方法、装置、コンピュータ機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2023517973A
JP2023517973A JP2022554706A JP2022554706A JP2023517973A JP 2023517973 A JP2023517973 A JP 2023517973A JP 2022554706 A JP2022554706 A JP 2022554706A JP 2022554706 A JP2022554706 A JP 2022554706A JP 2023517973 A JP2023517973 A JP 2023517973A
Authority
JP
Japan
Prior art keywords
frame
importance
speech
speech frame
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022554706A
Other languages
English (en)
Other versions
JP7471727B2 (ja
Inventor
俊斌 梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023517973A publication Critical patent/JP2023517973A/ja
Application granted granted Critical
Publication of JP7471727B2 publication Critical patent/JP7471727B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本願は音声符号化方法、装置、コンピュータ機器及び記憶媒体に関する。前記方法は、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップと、符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を含む。

Description

本願はインターネットの技術分野に関し、特に音声符号化方法、装置、コンピュータ機器及び記憶媒体に関する。
本願は、2020年6月24日に中国特許庁に提出した、出願番号が第2020105855459号、出願の名称が「音声符号化方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張し、その全内容は引用により本願に組み込まれている。
通信技術の発展に伴って、音声符号化及び復号は現代の通信システムにおいて重要な役割を果たしている。現在、非リアルタイム音声符号化及び復号の応用シーン、例えば会議録音、オーディオ放送等において、通常、音声符号化のビットレートパラメータを予め設定し、符号化するときに、予め設定されたビットレートパラメータを使用して音声を符号化する。しかしながら、現在の予め設定されたビットレートパラメータを使用して音声を符号化する方式は、冗長符号化が存在する可能性があり、符号化品質が低くなるという問題を引き起こす。
本願により提供される各種の実施例によれば、音声符号化方法、装置、コンピュータ機器及び記憶媒体を提供する。
音声符号化方法であって、コンピュータ機器により実行され、前記方法は、
符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するステップと、
符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、
後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、
符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップと、
符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を含む。
1つの実施例において、符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップは、
符号化ビットレートをインタフェースを介して標準エンコーダに導入し、符号化結果を獲得するステップであって、標準エンコーダは符号化ビットレートを使用して符号化対象の音声フレームを符号化することに用いられる、ステップを含む。
音声符号化装置であって、前記装置は、
符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得することに用いられる音声フレーム取得モジュールと、
符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得することに用いられる第1重要性計算モジュールと、
後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得することに用いられる第2重要性計算モジュールと、
符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定することに用いられるビットレート計算モジュールと、
符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得することに用いられる符号化モジュールと、を含む。
コンピュータ機器であって、メモリと、プロセッサとを含み、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるときに、前記プロセッサに、
符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するステップと、
符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、
後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、
符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップと、
符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を実行させる。
コンピュータ可読命令が記憶されている1つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令が1つ又は複数のプロセッサにより実行されるときに、1つ又は複数のプロセッサに実行されるときに、
符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するステップと、
符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、
後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、
符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップと、
符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を実現させる。
本願の1つ又は複数の実施例の細部は以下の図面及び記述において言及されている。本願の他の特徴、目的及び利点は明細書、図面及び特許請求の範囲から明らかになる。
本発明の実施例の技術的手段をより明確に説明するために、以下、実施例の記述に使用する必要がある図面を簡単に紹介する。明らかなように、以下記述される図面は本発明の一部の実施例であり、当業者であれば、創造的な労働をしない前提でさらにこれらの図面に基づいて他の図面を取得することができる。
1つの実施例における音声符号化方法の応用環境図である。 1つの実施例における音声符号化方法のプロセス模式図である。 1つの実施例における特徴抽出のプロセス模式図である。 1つの実施例における符号化対象の音声フレームの重要性計算のプロセス模式図である。 1つの実施例における符号化ビットレート計算のプロセス模式図である。 1つの実施例における重要性差異程度を獲得するプロセス模式図である。 1つの実施例における符号化ビットレート決定のプロセス模式図である。 1つの具体的な実施例における符号化対象の音声フレームの重要性計算のプロセス模式図である。 図8の具体的な実施例における後方音声フレームの重要性計算のプロセス模式図である。 図8の具体的な実施例における符号化結果を獲得するプロセス模式図である。 1つの具体的な実施例におけるオーディオ放送のプロセス模式図である。 1つの具体的な実施例における音声符号化方法の応用環境図である。 1つの実施例における音声符号化装置の構造ブロック図である。 1つの実施例におけるコンピュータ機器の内部構造図である。
本願の目的、技術的手段及び利点をより明確に理解しやすくするために、以下、図面及び実施例を参照しながら、本願をさらに詳細に説明する。理解すべきであるように、ここで記述される具体的な実施例は単に本願を解釈するためのものであり、本願を限定することに用いられるものではない。
音声技術(Speech Technology)の主要な技術は、自動音声認識技術(ASR)、音声合成技術(TTS)及び声紋認識技術を有する。コンピュータが聞いたり、見たり、話したり、感じたりすることを可能にすることは、将来の人間とコンピュータとの相互作用が発展していく方向であり、ここで、音声は将来最も有望な人間とコンピュータの相互作用の方式の1つになると考えられる。
本願の実施例により提供される手段は人工知能の音声技術等の技術に関し、具体的に、以下の実施例により説明される。
本願により提供される音声符号化方法は、図1に示される応用環境に応用できる。ここで、端末102はユーザーが発した音信号を収集する。端末102は符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得し、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出する。端末102は符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。端末102は後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得する。端末102は符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定する。端末102は符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得する。ここで、端末102は、録音機能を有する各種のパーソナルコンピュータ、録音機能を有するノートブックコンピュータ、録音機能を有するスマートフォン、録音機能を有するタブレットコンピュータ及びオーディオ放送であってもよいがこれらに限定されない。理解できる点として、該音声符号化方法はサーバにも応用でき、さらに端末とサーバとを含むシステムにも応用できる。ここで、サーバは、独立した物理サーバであってもよく、複数の物理サーバで構成されるサーバクラスター又は分散型システムであってもよく、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、CDN、及びビッグデータと人工知能プラットフォーム等の基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
1つの実施例において、図2に示されるように、音声符号化方法を提供し、該方法が図1における端末に応用されることを例として説明すると、以下のステップを含む。
ステップ202:符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得する。
ここで、音声フレームは音声に対してフレーム分割を行った後に獲得されるものである。符号化対象の音声フレームとは、現在符号化する必要がある音声フレームを指す。後方音声フレームとは、符号化対象の音声フレームに対応する将来時間の音声フレームを指し、符号化対象の音声フレームの後に収集された音声フレームである。
具体的に、端末は言語収集装置により音声信号を収集することができ、該音声収集装置はマイクロホンであってもよい。端末は、収集された音声信号をデジタル信号に変換し、次にデジタル信号から符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得する。ここで、後方音声フレームは複数有してもよい。例えば、取得された後方音声フレームの数は3フレームである。端末は、内部記憶装置に予め記憶された音声信号を取得し、音声信号をデジタル信号に変換し、次にデジタル信号から符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するようにしてもよい。端末は、さらに、インターネット(internet)から音声信号をダウンロードし、音声信号をデジタル信号に変換し、次にデジタル信号から符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するようにしてもよい。端末は、さらに、他の端末又はサーバが送信した音声信号を取得し、音声信号をデジタル信号に変換し、次にデジタル信号から符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームを取得するようにしてもよい。
ステップ204:符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。
ここで、音声フレーム特徴とは、該音声フレームの音質の高さを測定することに用いられる特徴を指す。音声フレーム特徴は、音声開始フレーム特徴と、エネルギー変化特徴と、ピッチ周期突然変化フレーム特徴と、非音声フレーム特徴とを含むがこれらに限定されない。音声開始フレーム特徴とは、該音声フレームが音声信号が開始する音声フレームであるか否かに対応する特徴を指す。エネルギー変化特徴とは、現在の音声フレームに対応するフレームエネルギーが、前の音声フレームに対応するフレームエネルギーと比較して変化する特徴を指す。ピッチ周期突然変化フレーム特徴とは、該音声フレームに対応するピッチ周期の特徴を指す。非音声フレーム特徴とは、該音声フレームがノイズ音声フレームである場合に対応する特徴を指す。符号化対象の音声フレーム特徴とは、符号化対象の音声フレームに対応する音声フレーム特徴を指す。音声フレームの重要性とは、該音声フレームの音質の高さの、その前後の所定期間内の全体的な音声音質に対する寄与程度を指し、寄与程度が高いほど、対応する音声フレームの重要性が高くなる。符号化対象の音声フレームの重要性とは、符号化対象の音声フレームに対応する音声フレームの重要性を指す。
具体的に、端末は、符号化対象の音声フレームに対応する音声フレームのタイプに基づいて、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出する。音声フレームのタイプは、音声開始フレーム、エネルギー突然増加フレーム、ピッチ周期突然変化フレーム及び非音声フレームのうちの少なくとも1つを含んでもよい。
該符号化対象の音声フレームが音声開始フレームである場合、音声開始フレームに基づいて対応する音声開始フレーム特徴を獲得する。符号化対象の音声フレームがエネルギー突然増加フレームである場合、エネルギー突然増加フレームに基づいて対応するエネルギー変化特徴を獲得する。符号化対象の音声フレームがピッチ周期突然変化フレームである場合、ピッチ周期突然変化フレームに基づいて対応するピッチ周期突然変化フレーム特徴を獲得する。符号化対象の音声フレームが非音声フレームである場合、非音声フレームに基づいて対応する非音声フレーム特徴を獲得する。
次に、抽出された符号化対象の音声フレーム特徴に基づき加重計算を行って符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性獲得する。ここで、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴に対して順方向加重計算を行って順方向の符号化対象の音声フレームの重要性を獲得し、非音声フレーム特徴に対して逆方向加重計算を行って逆方向の符号化対象の音声フレームの重要性を獲得し、順方向の符号化対象の音声フレームの重要性と逆方向の符号化対象の音声フレームの重要性とに基づいて、最終的な符号化対象の音声フレームに対応する音声フレームの重要性を獲得することができる。
ステップ206:後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得する。
ここで、後方音声フレーム特徴とは、後方音声フレームに対応する音声フレーム特徴を指し、各後方音声フレームは全て対応する後方音声フレーム特徴を有する。後方音声フレームの重要性とは、後方音声フレームに対応する音声フレームの重要性を指す。
具体的に、端末は、後方音声フレームの音声フレームのタイプに基づいて後方音声フレームに対応する後方音声フレーム特徴を抽出する。該後方音声フレームが音声開始フレームである場合、音声開始フレームに基づいて対応する音声開始フレーム特徴を獲得する。後方音声フレームがエネルギー突然増加フレームである場合、エネルギー突然増加フレームに基づいて対応するエネルギー変化特徴を獲得する。後方音声フレームがピッチ周期突然変化フレームである場合、ピッチ周期突然変化フレームに基づいて対応するピッチ周期突然変化フレーム特徴を獲得する。後方音声フレームが非音声フレームである場合、非音声フレームに基づいて対応する非音声フレーム特徴を獲得する。
次に、後方音声フレーム特徴に基づき加重計算を行って後方音声フレームに対応する後方音声フレームの重要性を獲得する。ここで、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴に対して順方向加重計算を行って順方向の後方音声フレームの重要性を獲得し、非音声フレーム特徴に対して逆方向加重計算を行って逆方向の後方音声フレームの重要性を獲得し、順方向の後方音声フレームの重要性と逆方向の後方音声フレームの重要性とに基づいて最終的な後方音声フレームに対応する音声フレームの重要性を獲得することができる。
1つの具体的な実施例において、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性と後方音声フレームに対応する後方音声フレームの重要性とを計算するときに、それぞれ符号化対象の音声フレーム特徴と後方音声フレーム特徴とを重要性メトリクスモデルに入力して計算を行い、符号化対象の音声フレームの重要性と後方音声フレームのペアを獲得することができる。ここで、重要性メトリクスモデルは、履歴音声フレーム特徴と履歴音声フレームの重要性に基づいて線形回帰アルゴリズムを使用して作成されたモデルであり、端末内に設けられている。重要性メトリクスモデルを介して音声フレームの重要性を認識することで、正確性と効率とを向上させることができる。
ステップ208:符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定する。
ここで、重要性傾向とは、符号化対象の音声フレームと対応する後方音声フレームの音声フレームの重要性との傾向を指す。例えば、音声フレームの重要性はどんどん高くなり、又は音声フレームの重要性はどんどん低くなり、又は音声フレームの重要性は変化しない。重要性傾向特徴とは、重要性傾向を反映する特徴を指し、統計学的特徴であってもよく、例えば重要性の平均、重要性の差異等である。符号化ビットレートは符号化対象の音声フレームを符号化することに用いられる。
具体的に、端末は、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を獲得する。例えば、符号化対象の音声フレームの重要性と後方音声フレームの重要性との統計学的特徴を計算し、計算して獲得される統計学的特徴を重要性傾向特徴とする。統計学的特徴は、平均音声フレームの重要性特徴、中央値音声フレームの重要性特徴、標準偏差音声フレームの重要性特徴、最頻値音声フレームの重要性特徴、レンジ音声フレームの重要性特徴及び音声フレームの重要性差分特徴のうちの少なくとも1つを含んでもよい。重要性傾向特徴と予め設定されたビットレート計算関数とを使用して符号化対象の音声フレームに対応する符号化ビットレートを計算する。ここで、ビットレート計算関数は単調増加関数であり、ニーズに応じてカスタマイズすることができる。各々の重要性傾向特徴は、対応するビットレート計算関数を有してもよく、同じビットレート計算関数を使用してもよい。
ステップ210:符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得する。
具体的に、符号化ビットレートが獲得された場合、該符号化ビットレートを使用して符号化対象の音声フレームを符号化し、符号化結果を獲得する。該符号化結果とは、符号化対象の音声フレームに対応するストリームデータを指す。端末は、ストリームデータを内部記憶装置に記憶してもよく、ストリームデータをサーバに送信して格納してもよい。ここで、音声エンコーダにより符号化することができる。
1つの実施例において、収集される音声を再生する必要がある場合、格納されているストリームデータを取得し、ビットレートデータを復号し、最終的にスピーカ等の端末の音声再生装置で再生する。
上記音声符号化方法では、符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームとを取得し、それぞれ符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性と後方音声フレームに対応する後方音声フレームの重要性を計算する。次に、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づいて重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定し、それにより、符号化ビットレートを使用して符号化し、符号化結果を獲得する。これにより、音声フレームの重要性傾向特徴に基づいて符号化ビットレートを調整制御し、各符号化対象の音声フレームが全て調整制御された符号化ビットレートを有するようにすることができる。次に、調整制御された符号化ビットレートに基づいて符号化し、それにより、重要性傾向が強くなる場合には、符号化対象の音声フレームに比較的高い符号化ビットレートを割り当てて符号化し、重要性傾向が弱くなる場合には、符号化対象の音声フレームに比較的低い符号化ビットレートを割り当てて符号化することができる。それにより、各符号化対象の音声フレームに対応する符号化ビットレートを適応的に制御し、冗長符号化を回避し、音声符号化の品質を向上させることができる。
1つの実施例において、符号化対象の音声フレーム特徴及び後方音声フレーム特徴は音声開始フレーム特徴と非音声フレーム特徴とのうちの少なくとも1つを含み、図3に示されるように、音声開始フレーム特徴と非音声フレーム特徴との抽出は以下のステップを含む。
ステップ302:抽出対象の音声フレームを取得し、抽出対象の音声フレームは符号化対象の音声フレームと後方音声フレームとのうちの少なくとも1つである。
ステップ304a:抽出対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得する。
ここで、抽出対象の音声フレームとは、音声フレーム特徴を抽出する必要がある音声フレームを指し、符号化対象の音声フレーム又は後方音声フレームであってもよい。音声区間検出とは、音声区間検出(vad、Voice Activity Detection)アルゴリズムを使用して音声信号における音声開始端点、すなわち音声信号の0から1への遷移点を検出することを指す。音声区間検出アルゴリズムは、サブバンド信号対雑音比ベースの判定アルゴリズム、DNN(Deep Neural Networks、ディープニューラルネットワーク)ベースの音声フレーム判定アルゴリズム、短期エネルギーベースの音声区間検出アルゴリズム及び二重閾値ベースの音声区間検出アルゴリズム等であってもよい。音声区間検出結果とは、抽出対象の音声フレームが音声端点であるか否かという検出結果を指し、音声フレームが音声開始端点であることと、音声フレームが非音声開始端点であることとを含む。
具体的に、サーバは、抽出対象の音声フレームに対して音声区間検出アルゴリズムを使用して音声区間検出を行い、音声区間検出結果を獲得する。
ステップ306a:音声区間検出結果が音声開始端点である場合、抽出対象の音声フレームに対応する音声開始フレーム特徴が第1目標値であることと、抽出対象の音声フレームに対応する非音声フレーム特徴が第2目標値であることとのうちの少なくとも1つを決定する。
ここで、音声開始端点とは該抽出対象の音声フレームが音声信号の開始であることを指す。第1目標値は特徴の具体的な値であり、異なる特徴に対応する第1目標値の意味は異なり、音声開始フレーム特徴が第1目標値である場合、第1目標値は抽出対象の音声フレームが音声開始端点の音声フレームであることを特徴付けることに用いられ、非音声フレーム特徴が第1目標値である場合、第1目標値は抽出対象の音声フレームがノイズ音声フレームであることを特徴付けることに用いられる。第2目標値は特徴の具体的な値であり、異なる特徴に対応する第2目標値の意味は異なり、非音声フレーム特徴が第2目標値である場合、第2目標値は抽出対象の音声フレームが非ノイズ音声フレームであることを特徴付けることに用いられ、音声開始フレーム特徴が第2目標値である場合、第2目標値は抽出対象の音声フレームが非音声開始端点の音声フレームであることを特徴付けることに用いられる。例えば、第1目標値は1であってもよく、第2目標値は0であってもよい。
具体的に、音声区間検出結果が音声開始端点である場合、抽出対象の音声フレームに対応する音声開始フレーム特徴が第1目標値であることと、抽出対象の音声フレームに対応する非音声フレーム特徴が第2目標値であることとを獲得する。1つの実施例において、音声区間検出結果が音声開始端点である場合、抽出対象の音声フレームに対応する音声開始フレーム特徴が第1目標値であること、又は抽出対象の音声フレームに対応する非音声フレーム特徴が第2目標値であることを獲得する。
ステップ308a:音声区間検出結果が非音声開始端点である場合、抽出対象の音声フレームに対応する音声開始フレーム特徴が第2目標値であることと、抽出対象の音声フレームに対応する非音声フレーム特徴が第1目標値であることとのうちの少なくとも1つを決定する。
ここで、非音声開始端点とは、抽出対象の音声フレームが音声信号の開始点ではなく、すなわち該抽出対象の音声フレームが音声信号の前のノイズ信号であることを指す。
具体的に、音声区間検出結果が非音声開始端点である場合、直接第2目標値を抽出対象の音声フレームに対応する音声開始フレーム特徴とし、かつ第1目標値を抽出対象の音声フレームに対応する非音声フレーム特徴とする。1つの実施例において、音声区間検出結果が非音声開始端点である場合、直接第2目標値を抽出対象の音声フレームに対応する音声開始フレーム特徴とするか、又は第1目標値を抽出対象の音声フレームに対応する非音声フレーム特徴とする。
上記実施例において、抽出対象の音声フレームに対して音声区間検出を行い、それにより音声開始フレーム特徴と非音声フレーム特徴とを獲得することにより、効率と正確性とが向上する。
1つの実施例において、符号化対象の音声フレーム特徴と後方音声フレーム特徴とはエネルギー変化特徴を含み、図3に示されるように、エネルギー変化特徴の抽出は以下のステップを含む。
ステップ302:抽出対象の音声フレームを取得し、抽出対象の音声フレームは符号化対象の音声フレーム又は後方音声フレームである。
ステップ304b:抽出対象の音声フレームに対応する前方音声フレームを取得し、抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ前方音声フレームに対応する前方フレームエネルギーを計算する。
ここで、前方音声フレームとは、抽出対象の音声フレームの前の1フレームを指し、抽出対象の音声フレームを取得する前に既に取得された音声フレームである。例えば、抽出対象のフレームは8番目のフレームであり、この場合、前方音声フレームは7番目のフレームであってもよい。フレームエネルギーは、該音声フレーム信号の強さの程度を反映することに用いられる。抽出対象のフレームエネルギーとは、抽出対象の音声フレームに対応するフレームエネルギーを指す。前方フレームエネルギーとは、前方音声フレームに対応するフレームエネルギーを指す。
具体的に、端末は抽出対象の音声フレームを取得する。抽出対象の音声フレームは符号化対象の音声フレーム又は後方音声フレームであり、抽出対象の音声フレームに対応する前方音声フレームを取得し、抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ同時に、前方音声フレームに対応する前方フレームエネルギーを計算する。ここで、抽出対象の音声フレーム又は前方音声フレームにおけるすべてのデジタル信号の二乗和を計算することにより、抽出対象のフレームエネルギー又は前方フレームエネルギーを獲得するようにしてもよい。抽出対象の音声フレーム又は前方音声フレームにおけるすべてのデジタル信号の中からサンプリングし、サンプリングデータの二乗和を計算し、抽出対象のフレームエネルギー又は前方フレームエネルギーを獲得することもよい。
ステップ306c:抽出対象のフレームエネルギーと前方フレームエネルギーとの比率を計算し、比率結果に基づいて抽出対象の音声フレームに対応するエネルギー変化特徴を決定する。
具体的に、端末は抽出対象のフレームエネルギーと前方フレームエネルギーとの比率を計算し、比率結果に基づいて抽出対象の音声フレームに対応するエネルギー変化特徴を決定する。ここで、比率結果が予め設定された閾値よりも大きい場合、該抽出対象の音声フレームのフレームエネルギーが前の1フレームのフレームエネルギーと比較して変化が比較的大きいことを示す。この場合、対応するエネルギー変化特徴が1であり、比率結果が予め設定された閾値よりも大きくない場合、該抽出対象の音声フレームが前の1フレームのフレームエネルギーと比較して変化が比較的小さいことを示す。この場合、対応するエネルギー変化特徴が0である。1つの実施例において、比率結果と抽出対象のフレームエネルギーとに基づいて、抽出対象の音声フレームに対応するエネルギー変化特徴を決定することができる。ここで、抽出対象のフレームエネルギーが予め設定されたフレームエネルギーよりも大きく、かつ比率結果が予め設定された閾値よりも大きい場合、該抽出対象の音声フレームはフレームエネルギーが突然増加する音声フレームであることを示す。この場合、対応するエネルギー変化特徴が1であり、抽出対象のフレームエネルギーが予め設定されたフレームエネルギーよりも大きくない、又は比率結果が予め設定された閾値よりも大きくない場合、該抽出対象の音声フレームはフレームエネルギーが突然増加する音声フレームではないことを示す。この場合、対応するエネルギー変化特徴が0である。該予め設定された閾値とは、予め設定された数値を指し、例えば、比率結果が予め設定された倍数よりも高い。予め設定されたフレームエネルギーは予め設定されたフレームエネルギー閾値である。
上記実施例において、抽出対象のフレームエネルギーと前方フレームエネルギーとを計算し、抽出対象のフレームエネルギーと前方フレームエネルギーとに基づいて、抽出対象の音声フレームに対応するエネルギー変化特徴を決定することにより、エネルギー変化特徴を獲得する正確性が向上する。
1つの実施例において、抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算するステップは以下を含む。
抽出対象の音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得する。各サンプルポイントデータ値の二乗和を計算し、かつ二乗和とサンプルポイントの数との比率を計算し、抽出対象のフレームエネルギーを獲得する。
ここで、サンプルポイントデータ値は抽出対象の音声フレームからサンプリングして獲得されるデータである。サンプルポイントの数とは、採用して獲得されたサンプルポイントデータの総数を指す。
具体的に、端末は抽出対象の音声フレームに対してデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得する。各サンプルポイントデータ値の二乗和を計算し、次に、二乗和とサンプルポイントの数との比率を計算し、比率を抽出対象のフレームエネルギーとする。以下の式(1)を使用して抽出対象のフレームエネルギーを計算することができる。
Figure 2023517973000002
(ここで、mはサンプルポイントの数であり、xはサンプルポイントデータ値であり、i番目のサンプルポイントデータ値はx(i)である。)
1つの具体的な実施例において、20msを1フレームとし、サンプリングレートを16khzに設定する。この場合、データサンプリングを行った後、320個のサンプルポイントデータ値を獲得することができる。各サンプルポイントデータ値は16ビットの符号付き数値であり、値の範囲は[-32768,32767]であり、図示のように、i番目のサンプルポイントデータ値がx(i)であり、この場合、計算した該フレームのフレームエネルギーは以下の[数2]である。
Figure 2023517973000003
1つの実施例において、端末は前方音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得し、各サンプルポイントデータ値の二乗和を計算し、かつ二乗和とサンプルポイントの数との比率を計算して、前方フレームエネルギーを獲得する。ここで、端末は、式(1)を使用して前方音声フレームに対応する前方フレームエネルギーを計算することができる。
上記実施例において、音声フレームに対してデータサンプリングを行い、次に、サンプルポイントデータとサンプルポイントの数とに基づいてフレームエネルギーを計算することにより、フレームエネルギーを獲得する効率を向上させることができる。
1つの実施例において、符号化対象の音声フレーム特徴と後方音声フレーム特徴とはピッチ周期突然変化フレーム特徴を含み、図3に述べるように、ピッチ周期突然変化フレーム特徴の抽出は以下のステップを含む。
ステップ302:抽出対象の音声フレームを取得して、抽出対象の音声フレームは符号化対象の音声フレーム又は後方音声フレームである。
ステップ304c:抽出対象の音声フレームに対応する前方音声フレームを取得し、抽出対象の音声フレームと前方音声フレームとのピッチ周期を検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得する。
ここで、ピッチ周期とは、声帯が一回開閉する時間を指す。抽出対象のピッチ周期とは、抽出対象の音声フレームに対応するピッチ周期を指し、すなわち符号化対象の音声フレームに対応するピッチ周期又は後方音声フレームに対応するピッチ周期である。
具体的に、端末は抽出対象の音声フレームを取得し、該抽出対象の音声フレームは符号化対象の音声フレームであってもよく、又は後方音声フレームであってもよい。次に、抽出対象の音声フレームに対応する前方音声フレームを取得し、ピッチ周期検出アルゴリズムを使用してそれぞれ抽出対象の音声フレームと前方音声フレームに対応するピッチ周期とを検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得する。ここで、ピッチ周期検出アルゴリズムは、非時間ベースのピッチ周期検出方法と時間ベースのピッチ周期検出方法とに分けることができ、非時間ベースのピッチ周期検出方法は、自己相関関数法、平均振幅差関数法及びケプストラム方法等を含み、時間ベースのピッチ周期検出方法は波形推定法、相関処理法及び変換法等を含む。
ステップ306c:抽出対象のピッチ周期と前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、ピッチ周期変化程度に基づき抽出対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定する。
ここで、ピッチ周期変化程度は、前方音声フレームと抽出対象の音声フレームとの間のピッチ周期の変化程度を反映することに用いられる。
具体的に、端末は前方ピッチ周期と抽出対象のピッチ周期との間の差分の絶対値を計算し、ピッチ周期変化程度を獲得する。ピッチ周期変化程度が予め設定された周期変化程度の閾値を超える場合、抽出対象の音声フレームがピッチ周期突然変化フレームであることを示す。このときに、獲得されるピッチ周期突然変化フレーム特徴は「1」で表すことができる。ピッチ周期変化程度が予め設定された周期変化程度の閾値を超えていない場合、抽出対象の音声フレームのピッチ周期が前の1フレームと比較して突然変化していないことを示し、このときに、獲得されるピッチ周期突然変化フレーム特徴は「0」で表すことができる。
上記実施例において、検出して前方ピッチ周期と抽出対象のピッチ周期とを獲得し、前方ピッチ周期と抽出対象のピッチ周期とに基づいてピッチ周期突然変化フレーム特徴を獲得することにより、ピッチ周期突然変化フレーム特徴を獲得する正確性が向上する。
1つの実施例において、図4に示されるように、ステップ204、すなわち、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップは以下を含む。
ステップ402:符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得する。順方向符号化対象の音声フレーム特徴は、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも1つを含む。
ここで、順方向符号化対象の音声フレーム特徴とは、音声フレーム特徴と音声フレームの重要性とが順方向の関係を有する特徴を指し、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも1つを含む。順方向符号化対象の音声フレーム特徴が明らかであるほど、音声フレームの重要性は高くなる。順方向符号化対象の音声フレームの重要性とは、順方向符号化対象の音声フレーム特徴に基づいて獲得される音声フレームの重要性を指す。
具体的に、端末は各符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、予め設定された各順方向符号化対象の音声フレーム特徴に対応する重みを取得し、各順方向符号化対象の音声フレーム特徴に対して加重計算を行う。次に加重計算の結果を統計し、順方向符号化対象の音声フレームの重要性を獲得する。
ステップ404:符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定する。逆方向符号化対象の音声フレーム特徴は非音声フレーム特徴を含む。
ここで、逆方向符号化対象の音声フレーム特徴とは、音声フレーム特徴と音声フレームの重要性とが逆方向の関係を有する特徴を指し、非音声フレーム特徴を含む。逆方向符号化対象の音声フレーム特徴が明らかであるほど、音声フレームの重要性は低くなる。逆方向符号化対象の音声フレームの重要性とは、逆方向符号化対象の音声フレーム特徴に基づいて獲得される音声フレームの重要性を指す。
具体的に、端末は符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定する。1つの具体的な実施例において、非音声フレーム特徴が1である場合、該音声フレームがノイズであることを示す。このときに、ノイズの音声フレームの重要性は0である。非音声フレーム特徴が0である場合、該音声フレームが収集された音声であることを示す。このときに、音声の音声フレームの重要性は1である。
ステップ406:順方向符号化対象の音声フレームの重要性と予め設定された順方向重みとに基づき順方向重要性を計算して獲得し、逆方向符号化対象の音声フレームの重要性と予め設定された逆方向重みとに基づき逆方向重要性を計算して獲得し、上記順方向重要性と上記逆方向重要性とに基づき、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。
ここで、予め設定された順方向重みとは、予め設定された順方向符号化対象の音声フレームの重要性の重みを指し、予め設定された逆方向重みとは、予め設定された逆方向符号化対象の音声フレームの重要性の重みを指す。
具体的に、端末は順方向符号化対象の音声フレームの重要性と予め設定された順方向重みとの積を計算して順方向重要性を獲得し、逆方向符号化対象の音声フレームの重要性と予め設定された逆方向重みとの積を計算して逆方向重要性を獲得し、順方向重要性と逆方向重要性とを加算して、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。例えば、順方向重要性と逆方向重要性との積を計算して、符号化対象の音声フレームの重要性を獲得することもよい。1つの具体的な実施例において、下式(2)を使用して符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を計算することができる。
r=b+(1-r)*(w*r+w*r+w*r) 式(2)
(ここで、rは符号化対象の音声フレームの重要性、rは音声開始フレーム特徴、rはエネルギー変化特徴、rはピッチ周期突然変化フレーム特徴、wは予め設定された重み、wは音声開始フレーム特徴に対応する重み、wはエネルギー変化特徴に対応する重み、wはピッチ周期突然変化フレーム特徴に対応する重みである。w*r+w*r+w*rは順方向符号化対象の音声フレームの重要性である。rは非言語フレーム特徴、(1-r)は逆方向符号化対象の音声フレームの重要性である。bは定数でかつ正数であり、順方向バイアスである。ここで、bは具体的に0.1であってもよく、w、w及びwは具体的に全て0.3であってもよい。)
1つの実施例において、式(2)を使用して後方音声フレーム特徴に基づいて、後方音声フレームに対応する後方音声フレームの重要性を計算して獲得することもできる。具体的に言えば、後方音声フレームに対応する音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴に対して加重計算を行い、後方音声フレームに対応する順方向重要性を獲得する。後方音声フレームに対応する非音声フレーム特徴に基づいて、後方音声フレームに対応する逆方向重要性を決定する。順方向重要性と逆方向重要性とに基づき後方音声フレームに対応する後方音声フレームの重要性を計算して獲得する。
上記実施例において、符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴と逆方向符号化対象の音声フレーム特徴とを決定し、次に、それぞれ対応する順方向符号化対象の音声フレームの重要性と逆方向符号化対象の音声フレームの重要性とを計算して獲得し、最終的に、符号化対象の音声フレームの重要性を獲得することにより、符号化対象の音声フレームの重要性を獲得する正確性が向上する。
1つの実施例において、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップは以下を含む。
前方音声フレームの重要性を取得し、前方音声フレームの重要性、符号化対象の音声フレームの重要性及び後方音声フレームの重要性に基づき、目標重要性傾向特徴を取得し、目標重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定する。
ここで、前方音声フレームとは、符号化対象の音声フレームの前の、既に符号化された音声フレームを指す。前方音声フレームの重要性とは、前方音声フレームに対応する音声フレームの重要性を指す。
具体的に、端末は、前方音声フレームの重要性を取得し、前方音声フレームの重要性、符号化対象の音声フレームの重要性及び後方音声フレームの重要性の重要性平均程度を計算し、前方音声フレームの重要性、符号化対象の音声フレームの重要性及び後方音声フレームの重要性の重要性差異程度を計算し、重要性平均程度と重要性差異程度とに基づいて目標重要性傾向特徴を獲得し、目標重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定することができる。ここで、2つの前方音声フレームの前方音声フレームの重要性、符号化対象の音声フレームの重要性及び3つの後方音声フレームの後方音声フレームの重要性の重要性総和を計算し、重要性の和と6つの音声フレームとの比率を計算し、重要性平均程度を獲得する。2つの前方音声フレームの前方音声フレームの重要性と符号化対象の音声フレームの重要性との和を計算し、重要性の部分和を獲得し、かつ重要性の総和と重要性の部分和との差分を計算し、重要性差異程度を獲得し、それにより目標重要性傾向特徴を獲得する。
上記実施例において、前方音声フレームの重要性、符号化対象の音声フレームの重要性及び後方音声フレームの重要性を使用して、目標重要性傾向特徴を取得し、さらに目標重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定することにより、獲得される符号化対象の音声フレームに対応する符号化ビットレートはより正確になる。
1つの実施例において、図5に示されるように、ステップ208、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定するステップは以下を含む。
ステップ502:符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性差異程度と重要性平均程度とを計算する。
ここで、重要性差異程度は後方音声フレームと符号化対象の音声フレームとの間の重要性の差異を反映することに用いられる。重要性平均程度は符号化対象の音声フレームと後方音声フレームとの重要性の平均値を反映することに用いられる。
具体的に、サーバは、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき統計計算を行い、すなわち符号化対象の音声フレームの重要性と後方音声フレームの重要性との平均重要性を計算し、重要性平均程度を獲得し、かつ符号化対象の音声フレームの重要性と後方音声フレームの重要性との総和と、符号化対象の音声フレームの重要性との差分を計算し、重要性差異程度を獲得する。
ステップ504:重要性差異程度と重要性平均程度とに基づいて符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得する。
具体的に、予め設定されたビットレート計算関数を取得し、重要性差異程度と重要性平均程度とに基づいて、ビットレート計算関数を使用して符号化対象の音声フレームに対応する符号化ビットレートを計算する。ここで、ビットレート計算関数は符号化ビットレートを計算することに用いられ、単調増加関数であり、応用シーンの需要に応じてカスタマイズすることができる。重要性差異程度に対応するビットレート計算関数に基づいてビットレートを算出し、同時に、重要性平均程度に対応するビットレート計算関数に基づいてビットレートを算出し、次に、ビットレートの和を計算して符号化対象の音声フレームに対応する符号化ビットレートを獲得することができる。同じビットレート計算関数を使用して、重要性差異程度及び重要性平均程度に対応するビットレートを計算し、次にビットレートの和を計算し符号化対象の音声フレームに対応する符号化ビットレートを獲得することもよい。
上記実施例において、後方音声フレームと符号化対象の音声フレームとの間の重要性差異程度及び重要性平均程度を計算して獲得し、重要性差異程度と重要性平均程度とに基づいて符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得することにより、獲得される符号化ビットレートをより正確にすることができる。
1つの実施例において、図6に示されるように、ステップ502、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性差異程度を計算するステップは以下を含む。
ステップ602:符号化対象の音声フレームの重要性と予め設定された第1重みとの第1加重値を計算し、かつ後方音声フレームの重要性と予め設定された第2重みとの第2加重値を計算する。
ここで、予め設定された第1重みとは、予め設定された符号化対象の音声フレームの重要性に対応する重みを指す。予め設定された第2重みとは、後方音声フレームの重要性に対応する重みを指し、各後方音声フレームは全て対応する後方音声フレームの重要性を有し、各後方音声フレームの重要性は全て対応する重みを有する。第1加重値は、符号化対象の音声フレームの重要性を加重した後に獲得した値である。第2加重値は、後方音声フレームの重要性を加重した後に獲得した値を指す。
具体的に、端末は、符号化対象の音声フレームの重要性と予め設定された第1重みとの積を計算して、第1加重値を獲得し、かつ後方音声フレームの重要性と予め設定された第2重みとの積を計算して、第2加重値を獲得する。
ステップ604:第1加重値と第2加重値とに基づき目標加重値を計算して獲得し、目標加重値と符号化対象の音声フレームの重要性との差分を計算し、重要性差異程度を獲得する。
ここで、目標加重値とは第1加重値と第2加重値との和を指す。
具体的に、端末は、第1加重値と第2加重値との間の和を計算して、目標加重値を獲得し、次に目標加重値と符号化対象の音声フレームの重要性との差分を算出して、該差分を重要性差異程度とする。1つの具体的な実施例において、式(3)を使用して重要性差異程度を計算することができる。
Figure 2023517973000004
(ここで、ΔR(i)とは重要性差異程度を指し、Nは符号化対象の音声フレームと後方音声フレームとのフレーム総数である。r(i)は符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を表し、r(j)はj番目の後方音声フレームに対応する後方音声フレームの重要性を表す。aは重みを表し、値の範囲が(0,1)であり、j=0の場合、aは予め設定された第1重みであり、jが0よりも大きい場合、aは予め設定された第2重みであり、複数の予め設定された第2重みを有してもよく、各後方音声フレームに対応する予め設定された第2重みは同じであってもよく、異なってもよく、ここで、aは、jが大きいほど、その値が大きくなるようにしてもよい。
Figure 2023517973000005
[数4]は目標加重値を表す。1つの具体的な実施例において、後方音声フレームが3フレームを有する場合、Nが4であり、aが0.1であってもよく、aが0.2であってもよく、aが0.3であってもよく、aが0.4であってもよい。)
上記実施例において、目標加重値を計算し、次に目標加重値と符号化対象の音声フレームの重要性とを使用して重要性差異程度を計算して獲得することにより、重要性差異程度を獲得する正確性が向上する。
1つの実施例において、ステップ502、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性平均程度を計算するステップは以下を含む。
符号化対象の音声フレームと後方音声フレームとのフレーム数を取得する。符号化対象の音声フレームの重要性と後方音声フレームの重要性とを統計して統合重要性を獲得し、かつ統合重要性とフレーム数との比率を計算し、重要性平均程度を獲得する。
ここで、フレーム数とは、符号化対象の音声フレームと後方音声フレームとのフレーム総数を指し、例えば、後方音声フレームが3フレームを有する場合、獲得されるフレーム総数は4である。
具体的に、端末は符号化対象の音声フレームと後方音声フレームとのフレーム数を取得する。符号化対象の音声フレームの重要性と後方音声フレームの重要性との和を統計し、統合重要性を獲得する。次に、統合重要性とフレーム数との比率を計算し、重要性平均程度を獲得する。1つの具体的な実施例において、式(4)を使用して重要性平均程度を計算することができる。
Figure 2023517973000006
(ここで、[数6]は重要性平均程度であり、Nとは符号化対象の音声フレームと後方音声フレームとのフレーム数を指す。rとは音声フレームの重要性を指し、r(i)は符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を表すことに用いられ、r(j)はj番目の後方音声フレームに対応する後方音声フレームの重要性を表すことに用いられる。)
Figure 2023517973000007
上記実施例において、符号化対象の音声フレームと後方音声フレームのフレーム数及び統合重要性により重要性平均程度を計算して獲得することにより、重要性平均程度を獲得する正確性が向上する。
1つの実施例において、図7に示されるように、ステップ504、すなわち重要性差異程度と重要性平均程度とに基づいて符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得するステップは以下を含む。
ステップ702:第1ビットレート計算関数と第2ビットレート計算関数とを取得する。
ステップ704:重要性平均程度と第1ビットレート計算関数とを使用して第1ビットレートを計算して獲得し、かつ重要性差異程度と第2ビットレート計算関数とを使用して第2ビットレートを計算して獲得し、第1ビットレートと第2ビットレートとに基づいて統合ビットレートを決定する。ここで、第1ビットレートは重要性平均程度に比例する関係を有し、第2ビットレートは重要性差異程度に比例する関係を有する。
ここで、第1ビットレート計算関数は、重要性平均程度を使用してビットレートを計算する予め設定された関数であり、第2ビットレート計算関数は、重要性差異程度を使用してビットレートを計算する予め設定された関数である。ここで、第1ビットレート計算関数と第2ビットレート計算関数とは、応用シーンの具体的な需要に応じて設定することができる。第1ビットレートとは、第1ビットレート計算関数を使用して計算して獲得されたビットレートを指す。第2ビットレートとは、第2ビットレート計算関数を使用して計算して獲得されたビットレートを指す。統合ビットレートとは、第1ビットレートと第2ビットレートとを統合した後に獲得されたビットレートを指し、例えば、第1ビットレートと第2ビットレートとの和を計算し、和を統合ビットレートとすることができる。
具体的に、端末は、予め設定された第1ビットレート計算関数と第2ビットレート計算関数とを取得し、次に、重要性平均程度と重要性差異程度とをそれぞれ計算し、第1ビットレートと第2ビットレートとを獲得し、次に、第1ビットレートと第2ビットレートとの和を計算し、和を統合ビットレートとする。
1つの具体的な実施例において、式(5)を使用して統合ビットレートを計算することができる。
Figure 2023517973000008
(ここで、[数8]は重要性平均程度であり、ΔR(i)は重要性差異程度であり、f()は第1ビットレート計算関数であり、f()は第2ビットレート計算関数である。[数9]を使用して第1ビットレートを計算して獲得し、f(ΔR(i))を使用して第2ビットレートを計算して獲得する。)
Figure 2023517973000009
Figure 2023517973000010
1つの具体的な実施例において、式(6)を第1ビットレート計算関数として使用し、式(7)を第2ビットレート計算関数として使用することができる。
Figure 2023517973000011
(ここで、p、c、b、p、c及びbはいずれも定数であり、かつ正数である。)
ステップ706:予め設定されたビットレート上限値と予め設定されたビットレート下限値とを取得し、予め設定されたビットレート上限値、予め設定されたビットレート下限値及び統合ビットレートに基づき、符号化ビットレートを決定する。
具体的に、予め設定されたビットレート上限値とは、予め設定された音声フレーム符号化ビットレートの最大値を指し、予め設定されたビットレート下限値とは、予め設定された音声フレーム符号化ビットレートの最小値を指す。端末は予め設定されたビットレート上限値と予め設定されたビットレート下限値とを取得し、予め設定されたビットレート上限値及び予め設定されたビットレート下限値と統合ビットレートとを比較し、比較結果に基づいて最終的な符号化ビットレートを決定する。
上記実施例において、第1ビットレート計算関数と第2ビットレート計算関数とを使用して第1ビットレートと第2ビットレートとを計算して獲得し、次に、第1ビットレートと第2ビットレートとに基づいて統合ビットレートを獲得することにより、統合ビットレートを獲得する正確性が向上し、最終的に、予め設定されたビットレート上限値、予め設定されたビットレート下限値及び統合ビットレートに基づいて、符号化ビットレートを決定し、それにより、獲得される符号化ビットレートはより正確になる。
1つの実施例において、ステップ706、すなわち予め設定されたビットレート上限値、予め設定されたビットレート下限値及び統合ビットレートに基づき、符号化ビットレートを決定するステップは以下を含む。
予め設定されたビットレート上限値と統合ビットレートとを比較する。統合ビットレートが予め設定されたビットレート上限値よりも小さい場合、予め設定されたビットレート下限値と統合ビットレートとを比較する。統合ビットレートが予め設定されたビットレート下限値よりも大きい場合、統合ビットレートを符号化ビットレートとする。
具体的に、端末は予め設定されたビットレート上限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート上限値よりも小さい場合、統合ビットレートが予め設定されたビットレート上限値を超えていないことを示す。このときに、予め設定されたビットレート下限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート下限値よりも大きい場合、統合ビットレートが予め設定されたビットレート下限値を超えることを示し、この場合、直接統合ビットレートを符号化ビットレートとする。1つの実施例において、予め設定されたビットレート上限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート上限値よりも大きい場合、統合ビットレートが予め設定されたビットレート上限値を超えることを示す。このときに、直接予め設定されたビットレート上限値を符号化ビットレートとする。1つの実施例において、予め設定されたビットレート下限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート下限値よりも小さい場合、統合ビットレートが予め設定されたビットレート下限値を超えていないことを示す。このときに、予め設定されたビットレート下限値を符号化ビットレートとする。
1つの具体的な実施例において、式(8)を使用して符号化ビットレートを獲得することができる。
Figure 2023517973000012
(ここで、max_bitrateとは、予め設定されたビットレート上限値を指す。min_bitrateとは、予め設定されたビットレート下限値を指す。bitrate(i)は符号化対象の音声フレームの符号化ビットレートを表す。)
上記実施例において、予め設定されたビットレート上限値、予め設定されたビットレート下限値及び統合ビットレートにより符号化ビットレートを決定し、それにより音声フレームの符号化ビットレートを予め設定されたビットレート範囲内に収めることを確保し、全体的な音声符号化の品質を確保する。
1つの実施例において、ステップ210、すなわち符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得するステップは以下を含む。
符号化ビットレートをインタフェースを介して標準エンコーダに導入し、符号化結果を獲得し、標準エンコーダは符号化ビットレートを使用して符号化対象の音声フレームを符号化することに用いられる。
ここで、標準エンコーダは符号化対象の音声フレームに対して音声符号化を行うことに用いられる。インタフェースは標準エンコーダの外部インタフェースを指し、符号化ビットレートを調整制御することに用いられる。
具体的に、端末は符号化ビットレートをインタフェースを介して標準エンコーダに導入し、標準エンコーダは符号化ビットレートを受信するときに、対応する符号化対象の音声フレームを取得し、符号化ビットレートを使用して符号化対象の音声フレームを符号化し、符号化結果を獲得し、それにより正確で間違いがない標準符号化結果を獲得することを確保する。
1つの具体的な実施例において、音声符号化方法を提供し、具体的に言えば、以下のとおりである。
符号化対象の音声フレーム、及び上記符号化対象の音声フレームに対応する後方音声フレームを取得する。このときに、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性と後方音声フレームに対応する後方音声フレームの重要性とを並行計算する。
ここで、図8に示されるように、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップは以下のステップを含む。
ステップ802:符号化対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得し、音声区間検出結果に基づいて、符号化対象の音声フレームに対応する音声開始フレーム特徴と符号化対象の音声フレームに対応する非音声フレーム特徴とを決定する。
ステップ804:符号化対象の音声フレームに対応する前方音声フレームを取得し、符号化対象の音声フレームに対応する符号化対象のフレームエネルギーを計算し、かつ前方音声フレームに対応する前方フレームエネルギーを計算し、符号化対象のフレームエネルギーと前方フレームエネルギーとの比率を計算し、比率結果に基づいて、符号化対象の音声フレームに対応するエネルギー変化特徴を決定する。
ステップ806:符号化対象の音声フレームと前方音声フレームとのピッチ周期を検出し、符号化対象のピッチ周期と前方ピッチ周期とを獲得し、符号化対象のピッチ周期と前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、ピッチ周期変化程度に基づいて、符号化対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定する。
ステップ808:符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得する。
ステップ810:符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定する。
ステップ812:順方向符号化対象の音声フレームの重要性と逆方向符号化対象の音声フレームの重要性とに基づき、符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。
ここで、図9に示されるように、後方音声フレームに対応する後方音声フレームの重要性を獲得するステップは以下のステップを含む。
ステップ902:後方音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得し、音声区間検出結果に基づいて、後方音声フレームに対応する音声開始フレーム特徴と後方音声フレームに対応する非音声フレーム特徴とを決定する。
ステップ904:後方音声フレームに対応する前方音声フレームを取得し、後方音声フレームに対応する後方フレームエネルギーを計算し、かつ前方音声フレームに対応する前方フレームエネルギーを計算し、後方フレームエネルギーと前方フレームエネルギーとの比率を計算し、比率結果に基づいて後方音声フレームに対応するエネルギー変化特徴を決定する。
ステップ906:後方音声フレームと前方音声フレームとのピッチ周期を検出し、後方ピッチ周期と前方ピッチ周期とを獲得し、後方ピッチ周期と前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、ピッチ周期変化程度に基づいて、後方音声フレームに対応するピッチ周期突然変化フレーム特徴を決定する。
ステップ908:後方音声フレームに対応する音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴に対して加重計算を行い、後方音声フレームに対応する順方向重要性を獲得する。
ステップ910:後方音声フレームに対応する非音声フレーム特徴に基づいて、後方音声フレームに対応する逆方向重要性を決定する。
ステップ912:順方向重要性と逆方向重要性とに基づき、後方音声フレームに対応する後方音声フレームの重要性を獲得する。符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性と後方音声フレームに対応する後方音声フレームの重要性とを獲得した場合、図10に示されるように、符号化対象の音声フレームに対応する符号化ビットレートを計算するステップは以下のステップを含む。
ステップ1002:符号化対象の音声フレームの重要性と予め設定された第1重みとの第1加重値を計算し、かつ後方音声フレームの重要性と予め設定された第2重みとの第2加重値を計算する。
ステップ1004:第1加重値と第2加重値に基づき目標加重値を計算して獲得し、目標加重値と符号化対象の音声フレームの重要性との差分を計算し、重要性差異程度を獲得する。
ステップ1006:符号化対象の音声フレームと後方音声フレームとのフレーム数を取得し、符号化対象の音声フレームの重要性と後方音声フレームの重要性とを統計して統合重要性を獲得し、かつ統合重要性とフレーム数との比率を計算し、重要性平均程度を獲得する。
ステップ1008:第1ビットレート計算関数と第2ビットレート計算関数とを取得する。
ステップ1010:重要性差異程度と第1ビットレート計算関数とを使用して第1ビットレートを計算して獲得し、かつ重要性平均程度と第2ビットレート計算関数とを使用して第2ビットレートを計算して獲得し、第1ビットレートと第2ビットレートとに基づいて統合ビットレートを決定する。
ステップ1012:予め設定されたビットレート上限値と統合ビットレートとを比較し、統合ビットレートが予め設定されたビットレート上限値よりも小さい場合、予め設定されたビットレート下限値と統合ビットレートとを比較する。
ステップ1014:統合ビットレートが予め設定されたビットレート下限値よりも大きい場合、統合ビットレートを符号化ビットレートとする。
ステップ1016:符号化ビットレートをインタフェースを介して標準エンコーダに導入し、符号化結果を獲得し、標準エンコーダは符号化ビットレートを使用して符号化対象の音声フレームを符号化することに用いられる。最終的に、獲得された符号化結果を格納する。
本願はさらに一種の応用シーンを提供し、該応用シーンには上記音声符号化方法が応用できる。具体的に、該音声符号化方法の該応用シーンでの応用は以下のとおりである。図11に示されるように、オーディオ放送を行うプロセス模式図である。このとき、アナウンサーが放送するときに、マイクロホンはアナウンサーが放送するオーディオ信号を収集する。このときに、オーディオ信号におけるマルチフレーム音声信号を読み取り、該マルチフレーム音声信号には現在の符号化対象の音声フレームと3フレームの後方音声フレームとが含まれる。このときに、マルチフレーム音声重要性を分析し、具体的に言えば、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。それぞれ3フレームの後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき1フレームごとの後方音声フレームに対応する後方音声フレームの重要性を獲得する。符号化対象の音声フレームの重要性と1フレームごとの後方音声フレームの重要性とに基づき、重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定する。次に、符号化ビットレートを設定し、すなわち、外部インタフェースを介して、標準エンコーダにおけるビットレートを符号化対象の音声フレームに対応する符号化ビットレートに調節する。このときに、標準エンコーダは、符号化対象の音声フレームに対応する符号化ビットレートを使用して、現在の符号化対象の音声フレームを符号化し、ビットレートデータを獲得し、ビットレートデータを記憶し、かつ再生するときに、ビットレートデータを復号し、オーディオ信号を獲得し、スピーカを介してオーディオ信号を再生し、それにより放送される音をよりクリアにする。
本願はさらに別の応用シーンを提供し、該応用シーンには上記音声符号化方法が応用される。具体的に、該音声符号化方法の該応用シーンでの応用は以下のとおりである。図12に示されるように、音声交流コミュニケーションのアプリケーションを行う応用シーン図であり、端末1202と、サーバ1204と、端末1206とを含み、端末1202はサーバ1204とネットワークを介して接続され、サーバ1204は端末1206とネットワークを介して接続される。ここで、ユーザーAが端末1202における通信アプリケーションを介してユーザーBの端末1206に音声メッセージを送信するときに、端末1202はユーザーAの音声信号を収集し、該音声信号から符号化対象の音声フレームと後方音声フレームとを取得し、次に、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得する。符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定し、符号化ビットレートを使用して符号化対象の音声フレームを符号化してストリームデータを獲得し、ストリームデータをサーバ1204を介して端末1206に送信する。ユーザーBが端末1206における通信アプリケーションを介してユーザーAが送信した音声を再生するときに、ビットレートデータを復号し、対応する音声信号を獲得し、音声信号をスピーカを介して再生し、音声符号化の品質が向上するため、ユーザーBが聞きた音声はよりクリアになり、かつネットワークの帯域幅リソースが節約される。
本願はさらに別の応用シーンを提供し、該応用シーンには上記音声符号化方法が応用される。具体的に、該音声符号化方法の該応用シーンでの応用は以下のとおりである。会議録音を行うときに、マイクロホンを介して会議オーディオ信号を収集し、会議オーディオ信号から符号化対象の音声フレームと5フレームの後方音声フレームとが取得されたと決定する。次に、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得する。各後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき各後方音声フレームに対応する後方音声フレームの重要性を獲得する。符号化対象の音声フレームの重要性と各後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定し、符号化ビットレートを使用して符号化対象の音声フレームを符号化してストリームデータを獲得し、ビットレートデータを指定されたサーバアドレス内に格納する。符号化ビットレートを調整制御できるため、全体的なビットレートを低減させることができ、それによりサーバの記憶リソースが節約される。後続の会議ユーザーや他のユーザーが会議コンテンツを確認する必要があるときに、サーバアドレスから格納されているストリームデータを取得し、ストリームデータを復号し、会議オーディオ信号を獲得し、会議オーディオ信号を再生することができ、それにより、会議ユーザー又は他のユーザーは会議コンテンツを容易に聞くことができ、使用しやすい。
理解すべきであるように、図2~10のフローチャートにおける各ステップは矢印で指示される順序に従って順に示されているが、これらのステップは必ずしも矢印で指示される順序に従って順に実行されるとは限らない。本明細書に明確に説明されていない限り、これらのステップの実行は厳密な順序に制限されず、これらのステップは他の順序で実行されてもよい。かつ、図2~10における少なくとも一部のステップは複数のステップ又は複数の段階を含んでもよく、これらのステップ又は段階は必ずしも同一時点で完了するように実行されるとは限らず、異なる時点で実行されてもよい。これらのステップ又は段階の実行順序も必ずしも順に行われるとは限らず、他のステップ又は他のステップのうちのステップ又は段階の少なくとも一部と交替して又は交互に実行されてもよい。
1つの実施例において、図13に示されるように、音声符号化装置1300を提供し、該装置は、ソフトウェアモジュール又はハードウェアモジュール、又はそれらの組み合わせを採用してコンピュータ機器の一部として機能することができ、該装置は、具体的に、音声フレーム取得モジュール1302と、第1重要性計算モジュール1304と、第2重要性計算モジュール1306と、ビットレート計算モジュール1308と、符号化モジュール1310とを含み、ここで、
音声フレーム取得モジュール1302は、符号化対象の音声フレーム、及び符号化対象の音声フレームと対応する後方音声フレームとを取得することに用いられる。
第1重要性計算モジュール1304は、符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、符号化対象の音声フレーム特徴に基づき符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得することに用いられる。
第2重要性計算モジュール1306は、後方音声フレームに対応する後方音声フレーム特徴を抽出し、後方音声フレーム特徴に基づき後方音声フレームに対応する後方音声フレームの重要性を獲得することに用いられる。
ビットレート計算モジュール1308は、符号化対象の音声フレームの重要性と後方音声フレームの重要性とに基づき重要性傾向特徴を取得し、重要性傾向特徴を使用して符号化対象の音声フレームに対応する符号化ビットレートを決定することに用いられる。
符号化モジュール1310は、符号化ビットレートに基づいて符号化対象の音声フレームを符号化し、符号化結果を獲得することに用いられる。
1つの実施例において、上記符号化対象の音声フレーム特徴及び上記後方音声フレーム特徴は音声開始フレーム特徴と非音声フレーム特徴とのうちの少なくとも1つを含む。音声符号化装置1300はさらに第1特徴抽出モジュールを含み、上記第1特徴抽出モジュールは、抽出対象の音声フレームを取得することに用いられる。上記抽出対象の音声フレームは上記符号化対象の音声フレーム、又は上記後方音声フレームであり、上記抽出対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得する。上記音声区間検出結果が音声開始端点である場合、上記抽出対象の音声フレームに対応する音声開始フレーム特徴が第1目標値であることと、上記抽出対象の音声フレームに対応する非音声フレーム特徴が第2目標値であることとのうちの少なくとも1つを決定し、上記音声区間検出結果が非音声開始端点である場合、上記抽出対象の音声フレームに対応する音声開始フレーム特徴が上記第2目標値であることと、上記抽出対象の音声フレームに対応する非音声フレーム特徴が上記第1目標値であることとのうちの少なくとも1つを決定することに用いられる。
1つの実施例において、上記符号化対象の音声フレーム特徴と上記後方音声フレーム特徴とはエネルギー変化特徴を含む。音声符号化装置1300はさらに第2特徴抽出モジュールを含み、上記第2特徴抽出モジュールは、抽出対象の音声フレームを取得することに用いられる。上記抽出対象の音声フレームは上記符号化対象の音声フレーム又は上記後方音声フレームであり、上記抽出対象の音声フレームに対応する前方音声フレームを取得し、上記抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ上記前方音声フレームに対応する前方フレームエネルギーを計算し、上記抽出対象のフレームエネルギーと上記前方フレームエネルギーとの比率を計算し、比率結果に基づいて上記抽出対象の音声フレームに対応するエネルギー変化特徴を決定することに用いられる。
1つの実施例において、音声符号化装置1300はさらにフレームエネルギー計算モジュールを含む。上記フレームエネルギー計算モジュールは、上記抽出対象の音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得し、上記各サンプルポイントデータ値の二乗和を計算し、かつ上記二乗和と上記サンプルポイントの数との比率を計算し、上記抽出対象のフレームエネルギーを獲得することに用いられる。
1つの実施例において、上記符号化対象の音声フレーム特徴と上記後方音声フレーム特徴とはピッチ周期突然変化フレーム特徴を含む。音声符号化装置1300はさらに第3特徴抽出モジュールを含む。上記第3特徴抽出モジュールは、抽出対象の音声フレームを取得することに用いられる。上記抽出対象の音声フレームは上記符号化対象の音声フレーム又は上記後方音声フレームであり、上記抽出対象の音声フレームに対応する前方音声フレームを取得し、上記抽出対象の音声フレームと上記前方音声フレームとのピッチ周期を検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得し、上記抽出対象のピッチ周期と上記前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、上記ピッチ周期変化程度に基づき上記抽出対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定することに用いられる。
1つの実施例において、第1重要性計算モジュール1304は、上記符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、上記順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得することに用いられる順方向計算ユニットであって、上記順方向符号化対象の音声フレーム特徴は、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも1つを含む、順方向計算ユニットと、上記符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、上記逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定することに用いられる逆方向計算ユニットであって、上記逆方向符号化対象の音声フレーム特徴は非音声フレーム特徴を含む、逆方向計算ユニットと、順方向符号化対象の音声フレームの重要性と逆方向符号化対象の音声フレームの重要性とに基づき、上記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得することに用いられる重要性計算ユニットと、を含む。
1つの実施例において、ビットレート計算モジュール1308は、上記符号化対象の音声フレームの重要性と上記後方音声フレームの重要性とに基づき重要性差異程度と重要性平均程度とを計算することに用いられる程度計算ユニットと、上記重要性差異程度と上記重要性平均程度とに基づいて上記符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得することに用いられるビットレート獲得ユニットと、を含む。
1つの実施例において、程度計算ユニットはさらに、上記符号化対象の音声フレームの重要性と予め設定された第1重みとの第1加重値を計算し、かつ上記後方音声フレームの重要性と予め設定された第2重みとの第2加重値を計算し、上記第1加重値と上記第2加重値とに基づき目標加重値を計算して獲得し、上記目標加重値と上記符号化対象の音声フレームの重要性との差分を計算し、上記重要性差異程度を獲得することに用いられる。
1つの実施例において、程度計算ユニットはさらに、上記符号化対象の音声フレームと上記後方音声フレームとのフレーム数を取得し、上記符号化対象の音声フレームの重要性と上記後方音声フレームの重要性とを統計して統合重要性を獲得し、かつ上記統合重要性と上記フレーム数との比率を計算し、上記重要性平均程度を獲得することに用いられる。
1つの実施例において、ビットレート獲得ユニットはさらに、第1ビットレート計算関数と第2ビットレート計算関数とを取得し、上記重要性平均程度と上記第1ビットレート計算関数を使用して第1ビットレートを計算して獲得し、かつ上記重要性差異程度と上記第2ビットレート計算関数を使用して第2ビットレートを計算して獲得し、上記第1ビットレートと第2ビットレートに基づいて統合ビットレートを決定することに用いられる。ここで、上記第1ビットレートは上記重要性平均程度に比例する関係を有し、上記第2ビットレートは上記重要性差異程度に比例する関係を有し、予め設定されたビットレート上限値と予め設定されたビットレート下限値とを取得し、上記予め設定されたビットレート上限値、予め設定されたビットレート下限値及び上記統合ビットレートに基づき、上記符号化ビットレートを決定することに用いられる。
1つの実施例において、ビットレート獲得ユニットはさらに、上記予め設定されたビットレート上限値と上記統合ビットレートとを比較し、上記統合ビットレートが上記予め設定されたビットレート上限値よりも小さい場合、上記予め設定されたビットレート下限値と上記統合ビットレートとを比較し、上記統合ビットレートが上記予め設定されたビットレート下限値よりも大きい場合、上記統合ビットレートを上記符号化ビットレートとすることに用いられる。
1つの実施例において、符号化モジュール1310はさらに、上記符号化ビットレートをインタフェースを介して標準エンコーダに導入し、符号化結果を獲得することに用いられ、上記標準エンコーダは、上記符号化ビットレートを使用して上記符号化対象の音声フレームを符号化することに用いられる。
音声符号化装置の具体的な限定について、以上の音声符号化方法に対する限定を参照することができ、ここでは詳細な説明は省略する。上記音声符号化装置における各モジュールの全部又は一部は、ソフトウェア、ハードウェア及びその組み合わせによって実現され得る。上記各モジュールはハードウェアの形式でコンピュータ機器におけるプロセッサ内に組み込まれ又は独立してもよく、ソフトウェアの形式でコンピュータ機器におけるメモリ内に記憶されてもよく、それによりプロセッサが以上の各モジュールに対応する操作を呼び出して実行できるようにする。
1つの実施例において、コンピュータ機器を提供し、該コンピュータ機器は端末であってもよく、その内部構造図は図14に示され得る。該コンピュータ機器は、システムバスを介して接続されたプロセッサと、メモリと、通信インタフェースと、表示画面と、入力装置と、録音装置と、を含む。ここで、該コンピュータ機器のプロセッサは、計算及び制御能力を提供することに用いられる。該コンピュータ機器のメモリは、不揮発性記憶媒体と、内部メモリとを含む。該不揮発性記憶媒体にはオペレーティングシステム及びコンピュータ可読命令が記憶されている。該内部メモリは不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ可読命令の実行に環境を提供する。該コンピュータ機器の通信インタフェースは、外部の端末と有線又は無線方式の通信を行うことに用いられ、無線方式はWIFI、オペレータネットワーク、NFC(近距離無線通信)又は他の技術によって実現され得る。該コンピュータ可読命令がプロセッサにより実行されるとき音声符号化方法を実現する。該コンピュータ機器の表示画面は液晶表示画面又は電子インク表示画面であってもよく、該コンピュータ機器の入力装置は表示画面上に被覆されているタッチ層であってもよく、コンピュータ機器の筐体に設置されたボタン、トラックボール又はタッチパッドであってもよく、さらに外部のキーボード、タッチパッド又はマウス等であってもよい。該コンピュータ機器の音声収集装置はマイクロホンであってもよい。
当業者が理解できるように、図14に示される構造は、本願の手段に関連する部分構造のブロック図に過ぎず、本願の手段を応用するコンピュータ機器に対する限定を構成せず、具体的なコンピュータ機器は、図示されているものより多い又はより少ない部材を含むか、又はあるいくつかの部材を組み合わせるか、又は異なる部材配置を有するようにしてもよい。
1つの実施例において、さらに、コンピュータ機器を提供し、メモリと、プロセッサとを含み、メモリにコンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサにより実行されるときに、プロセッサに実行されるときに上記各方法実施例のステップを実現させる。
1つの実施例において、コンピュータ可読命令が記憶されている1つ又は複数の不揮発性記憶媒体を提供し、上記コンピュータ可読命令が1つ又は複数のプロセッサにより実行されるときに、1つ又は複数のプロセッサに実行されるときに上記各方法実施例のステップを実現させる。
1つの実施例において、コンピュータプログラム製品又はコンピュータプログラムを提供し、該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に上記各方法実施例のステップを実行させる。
当業者が理解できるように、上記実施例の方法のプロセスの全部又は一部の実現は、コンピュータプログラムによって関連ハードウェアに命令を出して完成させることができる。上記コンピュータプログラムは1つの不揮発性コンピュータ可読記憶媒体に記憶されてもよく、該コンピュータプログラムが実行されるときに、上記各方法の実施例のプロセスを含んでもよい。ここで、本願に提供される各実施例において使用された、メモリ、記憶、データベース又は他の媒体に対するいかなる引用は、いずれも不揮発性メモリと揮発性メモリのうちの少なくとも1つを含んでもよい。不揮発性メモリは、読み出し専用メモリ(Read-Only Memory、ROM)、磁気テープ、フロッピーディスク、フラッシュメモリ又は光メモリ等を含んでもよい。揮発性メモリは、ランダムアクセスメモリ(Random Access Memory、RAM)又は外部キャッシュメモリを含んでもよい。非限定的な説明として、RAMは複数種の形式であってもよく、例えばスタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)又はダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)等である。
以上の実施例の各技術的特徴は任意に組み合わせることができ、記述を簡潔にするために、上記実施例における各技術的特徴のあらゆる可能な組み合わせを全ては記述していない。しかしながら、これらの技術的特徴の組み合わせに矛盾がない限り、全て本明細書に記載の範囲であると見なされるべきである。
上記実施例は単に本願のいくつかの実施形態を表すためのものであり、その記述が比較的具体的で詳細であるが、発明特許の範囲に対する制限ではないと理解すべきである。指摘すべき点として、当業者であれば、本願の発想から逸脱することなく、さらにいくつかの変形や改良を行うことができ、これらは全て本願の保護範囲に属する。従って、本願特許の保護範囲は添付の特許請求の範囲を基準とすべきである。
1202 端末
1204 サーバ
1206 端末
1300 音声符号化装置
1302 音声フレーム取得モジュール
1304 第1重要性計算モジュール
1306 第2重要性計算モジュール
1308 ビットレート計算モジュール
1310 符号化モジュール

Claims (20)

  1. 音声符号化方法であって、コンピュータ機器により実行され、前記方法は、
    符号化対象の音声フレーム及び前記符号化対象の音声フレームに対応する後方音声フレームを取得するステップと、
    前記符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、前記符号化対象の音声フレーム特徴に基づき前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、
    前記後方音声フレームに対応する後方音声フレーム特徴を抽出し、前記後方音声フレーム特徴に基づき前記後方音声フレームに対応する後方音声フレームの重要性を獲得するステップと、
    前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき重要性傾向特徴を取得し、前記重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定するステップであって、前記重要性傾向特徴により特徴付けられた重要性傾向の強さによって、各符号化対象の音声フレームに対応する符号化ビットレートを適応的に制御する、ステップと、
    前記符号化ビットレートに基づいて前記符号化対象の音声フレームを符号化し、符号化結果を獲得するステップと、を含むことを特徴とする音声符号化方法。
  2. 前記符号化対象の音声フレーム特徴及び前記後方音声フレーム特徴は音声開始フレーム特徴と非音声フレーム特徴とのうちの少なくとも1つを含み、前記音声開始フレーム特徴と非音声フレーム特徴との抽出は、
    抽出対象の音声フレームを取得するステップであって、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも1つである、ステップと、
    前記抽出対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得するステップと、
    前記音声区間検出結果が音声開始端点である場合、前記抽出対象の音声フレームに対応する音声開始フレーム特徴が第1目標値であることと、前記抽出対象の音声フレームに対応する非音声フレーム特徴が第2目標値であることとのうちの少なくとも1つを決定するステップと、
    前記音声区間検出結果が非音声開始端点である場合、前記抽出対象の音声フレームに対応する音声開始フレーム特徴が前記第2目標値であることと、前記抽出対象の音声フレームに対応する非音声フレーム特徴が前記第1目標値であることとのうちの少なくとも1つを決定するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記符号化対象の音声フレーム特徴と前記後方音声フレーム特徴とはエネルギー変化特徴を含み、前記エネルギー変化特徴の抽出は、
    抽出対象の音声フレームを取得するステップであって、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも1つである、ステップと、
    前記抽出対象の音声フレームに対応する前方音声フレームを取得し、前記抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ前記前方音声フレームに対応する前方フレームエネルギーを計算するステップと、
    前記抽出対象のフレームエネルギーと前記前方フレームエネルギーとの比率を計算し、比率結果に基づいて前記抽出対象の音声フレームに対応するエネルギー変化特徴を決定するステップと、を含むことを特徴とする請求項1に記載の方法。
  4. 前記した前記抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算するステップは、
    前記抽出対象の音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得するステップと、
    前記各サンプルポイントデータ値の二乗和を計算し、かつ前記二乗和と前記サンプルポイントの数との比率を計算し、前記抽出対象のフレームエネルギーを獲得するステップと、を含むことを特徴とする請求項3に記載の方法。
  5. 前記符号化対象の音声フレーム特徴と前記後方音声フレーム特徴とはピッチ周期突然変化フレーム特徴を含み、前記ピッチ周期突然変化フレーム特徴の抽出は、
    抽出対象の音声フレームを取得するステップであって、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも1つである、ステップと、
    前記抽出対象の音声フレームに対応する前方音声フレームを取得し、前記抽出対象の音声フレームと前記前方音声フレームとのピッチ周期を検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得するステップと、
    前記抽出対象のピッチ周期と前記前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、前記ピッチ周期変化程度に基づき前記抽出対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定するステップと、を含むことを特徴とする請求項1に記載の方法。
  6. 前記した前記符号化対象の音声フレーム特徴に基づき前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップは、
    前記符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、前記順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得するステップであって、前記順方向符号化対象の音声フレーム特徴は、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも1つを含む、ステップと、
    前記符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、前記逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定するステップであって、前記逆方向符号化対象の音声フレーム特徴は非音声フレーム特徴を含む、ステップと、
    前記順方向符号化対象の音声フレームの重要性と予め設定された順方向重みとに基づき順方向重要性を計算して獲得し、前記逆方向符号化対象の音声フレームの重要性と予め設定された逆方向重みとに基づき逆方向重要性を計算して獲得し、前記順方向重要性と前記逆方向重要性とに基づき、前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得するステップと、を含むことを特徴とする請求項1に記載の方法。
  7. 前記した前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき重要性傾向特徴を取得し、前記重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定するステップは、
    前方音声フレームの重要性を取得し、前記前方音声フレームの重要性、前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき、目標重要性傾向特徴を取得し、前記目標重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定するステップを含む、請求項1に記載の方法。
  8. 前記した前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき重要性傾向特徴を取得し、前記重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定するステップは、
    前記符号化対象の音声フレームの重要性と前記後方音声フレームの重要性とに基づき重要性差異程度と重要性平均程度とを計算するステップと、
    前記重要性差異程度と前記重要性平均程度とに基づいて前記符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得するステップと、を含むことを特徴とする請求項1に記載の方法。
  9. 前記符号化対象の音声フレームの重要性と前記後方音声フレームの重要性とに基づき重要性差異程度とを計算するステップは、
    前記符号化対象の音声フレームの重要性と予め設定された第1重みとの第1加重値を計算し、かつ前記後方音声フレームの重要性と予め設定された第2重みとの第2加重値を計算するステップと、
    前記第1加重値と前記第2加重値とに基づき目標加重値を計算して獲得し、前記目標加重値と前記符号化対象の音声フレームの重要性との差分を計算し、前記重要性差異程度を獲得するステップと、を含むことを特徴とする請求項8に記載の方法。
  10. 前記した前記符号化対象の音声フレームの重要性と前記後方音声フレームの重要性とに基づき重要性平均程度とを計算するステップは、
    前記符号化対象の音声フレームと前記後方音声フレームとのフレーム数を取得するステップと、
    前記符号化対象の音声フレームの重要性と前記後方音声フレームの重要性とを統計して統合重要性を獲得し、かつ前記統合重要性と前記フレーム数との比率を計算し、前記重要性平均程度を獲得するステップと、を含むことを特徴とする請求項8に記載の方法。
  11. 前記した前記重要性差異程度と前記重要性平均程度とに基づいて前記符号化対象の音声フレームに対応する符号化ビットレートを計算して獲得するステップは、
    第1ビットレート計算関数と第2ビットレート計算関数とを取得するステップと、
    前記重要性平均程度と前記第1ビットレート計算関数とを使用して第1ビットレートを計算して獲得し、かつ前記重要性差異程度と前記第2ビットレート計算関数とを使用して第2ビットレートを計算して獲得し、前記第1ビットレートと第2ビットレートとに基づいて統合ビットレートを決定するステップであって、前記第1ビットレートは前記重要性平均程度に比例する関係を有し、前記第2ビットレートは前記重要性差異程度に比例する関係を有する、ステップと、
    予め設定されたビットレート上限値と予め設定されたビットレート下限値とを取得し、前記予め設定されたビットレート上限値、予め設定されたビットレート下限値及び前記統合ビットレートに基づき、前記符号化ビットレートを決定するステップと、を含むことを特徴とする請求項8に記載の方法。
  12. 前記した前記予め設定されたビットレート上限値、予め設定されたビットレート下限値及び前記統合ビットレートに基づき、前記符号化ビットレートを決定するステップは、
    前記予め設定されたビットレート上限値と前記統合ビットレートとを比較するステップと、
    前記統合ビットレートが前記予め設定されたビットレート上限値よりも小さい場合、前記予め設定されたビットレート下限値と前記統合ビットレートとを比較するステップと、
    前記統合ビットレートが前記予め設定されたビットレート下限値よりも大きい場合、前記統合ビットレートを前記符号化ビットレートとするステップと、を含むことを特徴とする請求項11に記載の方法。
  13. 音声符号化装置であって、前記装置は、
    符号化対象の音声フレーム、及び前記符号化対象の音声フレームに対応する後方音声フレームを取得することに用いられる音声フレーム取得モジュールと、
    前記符号化対象の音声フレームに対応する符号化対象の音声フレーム特徴を抽出し、前記符号化対象の音声フレーム特徴に基づき前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を計算して獲得することに用いられる第1重要性計算モジュールと、
    前記後方音声フレームに対応する後方音声フレーム特徴を抽出し、前記後方音声フレーム特徴に基づき前記後方音声フレームに対応する後方音声フレームの重要性を計算して獲得することに用いられる第2重要性計算モジュールと、
    前記符号化対象の音声フレームの重要性及び前記後方音声フレームの重要性に基づき重要性傾向特徴を取得し、前記重要性傾向特徴を使用して前記符号化対象の音声フレームに対応する符号化ビットレートを決定することに用いられるビットレート計算モジュールであって、前記重要性傾向特徴により特徴付けられた重要性傾向の強さによって、各符号化対象の音声フレームに対応する符号化ビットレートを適応的に制御する、ビットレート計算モジュールと、
    前記符号化ビットレートに基づいて前記符号化対象の音声フレームを符号化し、符号化結果を獲得することに用いられる符号化モジュールと、を含むことを特徴とする音声符号化装置。
  14. 前記符号化対象の音声フレーム特徴及び前記後方音声フレーム特徴は音声開始フレーム特徴と非音声フレーム特徴とのうちの少なくとも1つを含み、前記装置は、さらに、
    抽出対象の音声フレームを取得することに用いられ、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも1つであり、前記抽出対象の音声フレームに基づき音声区間検出を行い、音声区間検出結果を獲得し、前記音声区間検出結果が音声開始端点である場合、前記抽出対象の音声フレームに対応する音声開始フレーム特徴が第1目標値であることと、前記抽出対象の音声フレームに対応する非音声フレーム特徴が第2目標値であることとのうちの少なくとも1つを決定し、前記音声区間検出結果が非音声開始端点である場合、前記抽出対象の音声フレームに対応する音声開始フレーム特徴が前記第2目標値であることと、前記抽出対象の音声フレームに対応する非音声フレーム特徴が前記第1目標値であることとのうちの少なくとも1つを決定することに用いられる第1特徴抽出モジュールを含む、ことを特徴とする請求項13に記載の装置。
  15. 前記符号化対象の音声フレーム特徴と前記後方音声フレーム特徴とはエネルギー変化特徴を含み、前記装置は、さらに、
    抽出対象の音声フレームを取得することに用いられ、前記抽出対象の音声フレームは前記符号化対象の音声フレームと前記後方音声フレームとのうちの少なくとも1つであり、前記抽出対象の音声フレームに対応する前方音声フレームを取得し、前記抽出対象の音声フレームに対応する抽出対象のフレームエネルギーを計算し、かつ前記前方音声フレームに対応する前方フレームエネルギーを計算し、前記抽出対象のフレームエネルギーと前記前方フレームエネルギーとの比率を計算し、比率結果に基づいて前記抽出対象の音声フレームに対応するエネルギー変化特徴を決定することに用いられる第2特徴抽出モジュールを含む、ことを特徴とする請求項13に記載の装置。
  16. 前記装置は、さらに、
    前記抽出対象の音声フレームに基づきデータサンプリングを行い、各サンプルポイントデータ値及びサンプルポイントの数を獲得し、前記各サンプルポイントデータ値の二乗和を計算し、かつ前記二乗和と前記サンプルポイントの数との比率を計算し、前記抽出対象のフレームエネルギーを獲得することに用いられるフレームエネルギー計算モジュールを含む、ことを特徴とする請求項15に記載の装置。
  17. 前記符号化対象の音声フレーム特徴と前記後方音声フレーム特徴とはピッチ周期突然変化フレーム特徴を含み、前記装置は、さらに、
    抽出対象の音声フレームを取得することに用いられ、前記抽出対象の音声フレームは前記符号化対象の音声フレーム又は前記後方音声フレームであり、前記抽出対象の音声フレームに対応する前方音声フレームを取得し、前記抽出対象の音声フレームと前記前方音声フレームとのピッチ周期を検出し、抽出対象のピッチ周期と前方ピッチ周期とを獲得し、前記抽出対象のピッチ周期と前記前方ピッチ周期とに基づいてピッチ周期変化程度を計算し、前記ピッチ周期変化程度に基づき前記抽出対象の音声フレームに対応するピッチ周期突然変化フレーム特徴を決定することに用いられる第3特徴抽出モジュールを含む、ことを特徴とする請求項13に記載の装置。
  18. 前記第1重要性計算モジュールは、
    前記符号化対象の音声フレーム特徴から順方向符号化対象の音声フレーム特徴を決定し、前記順方向符号化対象の音声フレーム特徴に対して加重計算を行い、順方向符号化対象の音声フレームの重要性を獲得することに用いられる順方向計算ユニットであって、前記順方向符号化対象の音声フレーム特徴は、音声開始フレーム特徴、エネルギー変化特徴及びピッチ周期突然変化フレーム特徴のうちの少なくとも1つを含む、順方向計算ユニットと、
    前記符号化対象の音声フレーム特徴から逆方向符号化対象の音声フレーム特徴を決定し、前記逆方向符号化対象の音声フレーム特徴に基づいて逆方向符号化対象の音声フレームの重要性を決定することに用いられる逆方向計算ユニットであって、前記逆方向符号化対象の音声フレーム特徴は非音声フレーム特徴を含む、逆方向計算ユニットと、
    順方向符号化対象の音声フレームの重要性と逆方向符号化対象の音声フレームの重要性とに基づき、前記符号化対象の音声フレームに対応する符号化対象の音声フレームの重要性を獲得することに用いられる重要性計算ユニットと、を含むことを特徴とする請求項13に記載の装置。
  19. メモリと、プロセッサとを含み、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるときに、前記プロセッサに実行されるときに請求項1~12のいずれか1項に記載の方法のステップを実現させるコンピュータ機器。
  20. コンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ又は複数のプロセッサにより実行されるときに、1つ又は複数のプロセッサに実行されるときに請求項1~12のいずれか1項に記載の方法のステップを実現させる1つ又は複数の不揮発性記憶媒体。
JP2022554706A 2020-06-24 2021-05-25 音声符号化方法、装置、コンピュータ機器及びコンピュータプログラム Active JP7471727B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010585545.9A CN112767953B (zh) 2020-06-24 2020-06-24 语音编码方法、装置、计算机设备和存储介质
CN202010585545.9 2020-06-24
PCT/CN2021/095714 WO2021258958A1 (zh) 2020-06-24 2021-05-25 语音编码方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
JP2023517973A true JP2023517973A (ja) 2023-04-27
JP7471727B2 JP7471727B2 (ja) 2024-04-22

Family

ID=75693048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022554706A Active JP7471727B2 (ja) 2020-06-24 2021-05-25 音声符号化方法、装置、コンピュータ機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220270622A1 (ja)
EP (1) EP4040436A4 (ja)
JP (1) JP7471727B2 (ja)
CN (1) CN112767953B (ja)
WO (1) WO2021258958A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767953B (zh) * 2020-06-24 2024-01-23 腾讯科技(深圳)有限公司 语音编码方法、装置、计算机设备和存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2568984C (en) * 1991-06-11 2007-07-10 Qualcomm Incorporated Variable rate vocoder
JPH05175941A (ja) * 1991-12-20 1993-07-13 Fujitsu Ltd 符号化率可変伝送方式
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US20070036227A1 (en) * 2005-08-15 2007-02-15 Faisal Ishtiaq Video encoding system and method for providing content adaptive rate control
KR100746013B1 (ko) * 2005-11-15 2007-08-06 삼성전자주식회사 무선 네트워크에서의 데이터 전송 방법 및 장치
JP4548348B2 (ja) * 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8352252B2 (en) * 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
JP5235168B2 (ja) 2009-06-23 2013-07-10 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、符号化プログラム、復号プログラム
KR20140085453A (ko) 2011-10-27 2014-07-07 엘지전자 주식회사 음성 신호 부호화 방법 및 복호화 방법과 이를 이용하는 장치
CN102543090B (zh) * 2011-12-31 2013-12-04 深圳市茂碧信息科技有限公司 一种应用于变速率语音和音频编码的码率自动控制系统
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
CN103841418B (zh) * 2012-11-22 2016-12-21 中国科学院声学研究所 一种3g网络中视频监控器码率控制的优化方法及系统
CN103050122B (zh) * 2012-12-18 2014-10-08 北京航空航天大学 一种基于melp的多帧联合量化低速率语音编解码方法
CN103338375A (zh) * 2013-06-27 2013-10-02 公安部第一研究所 一种宽带集群系统中基于视频数据重要性的动态码率分配方法
CN104517612B (zh) * 2013-09-30 2018-10-12 上海爱聊信息科技有限公司 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法
CN106534862B (zh) * 2016-12-20 2019-12-10 杭州当虹科技股份有限公司 一种视频编码方法
CN109151470B (zh) * 2017-06-28 2021-03-16 腾讯科技(深圳)有限公司 编码分辨率控制方法及终端
CN110166780B (zh) * 2018-06-06 2023-06-30 腾讯科技(深圳)有限公司 视频的码率控制方法、转码处理方法、装置和机器设备
CN110166781B (zh) * 2018-06-22 2022-09-13 腾讯科技(深圳)有限公司 一种视频编码方法、装置、可读介质和电子设备
US10349059B1 (en) * 2018-07-17 2019-07-09 Wowza Media Systems, LLC Adjusting encoding frame size based on available network bandwidth
CN109729353B (zh) * 2019-01-31 2021-01-19 深圳市迅雷网文化有限公司 一种视频编码方法、装置、系统及介质
CN110740334B (zh) * 2019-10-18 2021-08-31 福州大学 一种帧级别的应用层动态fec编码方法
CN110890945B (zh) * 2019-11-20 2022-02-22 腾讯科技(深圳)有限公司 数据传输方法、装置、终端及存储介质
CN112767953B (zh) * 2020-06-24 2024-01-23 腾讯科技(深圳)有限公司 语音编码方法、装置、计算机设备和存储介质
CN112767955B (zh) * 2020-07-22 2024-01-23 腾讯科技(深圳)有限公司 音频编码方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
US20220270622A1 (en) 2022-08-25
EP4040436A1 (en) 2022-08-10
EP4040436A4 (en) 2023-01-18
JP7471727B2 (ja) 2024-04-22
CN112767953A (zh) 2021-05-07
WO2021258958A1 (zh) 2021-12-30
CN112767953B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
Davis et al. Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold
JP2006079079A (ja) 分散音声認識システム及びその方法
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
US9876901B1 (en) Conversational call quality evaluator
CN111540342B (zh) 一种能量阈值调整方法、装置、设备及介质
CN112863489B (zh) 语音识别方法、装置、设备及介质
CN108877779B (zh) 用于检测语音尾点的方法和装置
US8868419B2 (en) Generalizing text content summary from speech content
CN114338623A (zh) 音频的处理方法、装置、设备、介质及计算机程序产品
JP2023517973A (ja) 音声符号化方法、装置、コンピュータ機器及びコンピュータプログラム
CN112767955B (zh) 音频编码方法及装置、存储介质、电子设备
WO2022083039A1 (zh) 语音处理方法、计算机存储介质及电子设备
CN113823303A (zh) 音频降噪方法、装置及计算机可读存储介质
CN115713939B (zh) 语音识别方法、装置及电子设备
US20180082703A1 (en) Suitability score based on attribute scores
CN112509556B (zh) 一种语音唤醒方法及装置
CN114329042A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
Zhu et al. A robust and lightweight voice activity detection algorithm for speech enhancement at low signal-to-noise ratio
CN116741193B (zh) 语音增强网络的训练方法、装置、存储介质及计算机设备
CN117640015B (zh) 一种语音编码、解码方法、装置、电子设备及存储介质
WO2022068675A1 (zh) 发声者语音抽取方法、装置、存储介质及电子设备
CN115641857A (zh) 音频处理方法、装置、电子设备、存储介质及程序产品
CN116895289A (zh) 语音活动检测模型的训练方法、语音活动检测方法及装置
CN117579770A (zh) 用于会议中确定主发言人的方法、装置、电子设备和介质
CN117765932A (zh) 语音识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240404

R150 Certificate of patent or registration of utility model

Ref document number: 7471727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150