JP2023553629A - オーディオ信号強化方法、装置、コンピュータ機器及びコンピュータプログラム - Google Patents

オーディオ信号強化方法、装置、コンピュータ機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2023553629A
JP2023553629A JP2023535590A JP2023535590A JP2023553629A JP 2023553629 A JP2023553629 A JP 2023553629A JP 2023535590 A JP2023535590 A JP 2023535590A JP 2023535590 A JP2023535590 A JP 2023535590A JP 2023553629 A JP2023553629 A JP 2023553629A
Authority
JP
Japan
Prior art keywords
signal
long
excitation signal
filtering
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023535590A
Other languages
English (en)
Inventor
蒙 王
▲慶▼博 黄
▲ウェイ▼ 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023553629A publication Critical patent/JP2023553629A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Figure 2023553629000001
本願はコンピュータ機器が実行するオーディオ信号強化方法に関する。前記方法は、受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングし、オーディオ信号を取得するステップ(S302)と、前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップ(S304)と、前記音声パケットを復号することで得られた線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップ(S306)と、前記特徴パラメータ、前記音声パケットを復号することで得られた長期フィルタリングパラメータ及び線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップ(S308)と、前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップ(S310)と、を含む。

Description

本願は2021年04月30日にて中国特許庁に提出され、出願番号が2021104841966であり、発明名称が「オーディオ信号強化方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照により本願に援用される。
本願はコンピュータ技術分野に関して、特に、オーディオ信号強化方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム製品に関する。
符号化/復号中において、通常、オーディオ信号には量子化雑音が導入されるため、復号及び合成出された音声が歪んでしまう。従来の態様において、一般的にピッチフィルタ(Pitch Filter)又はニューラルネットワーク(Neural Network)による後処理を採用して、オーディオ信号を強化させることで、量子化雑音による音声品質の影響を低減させる。
しかしながら、従来の態様の信号処理の速度が低く、大きな遅延が存在し、達成可能な音声品質の向上効果が限られており、オーディオ信号強化の適時性が悪い。
本願の各種の実施例はオーディオ信号強化方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム製品を提供する。
コンピュータ機器が実行するオーディオ信号強化方法であって、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を含む。
一実施例において、前記線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記強化された音声励起信号を線形合成フィルタリングするステップは、
前記線形フィルタリング係数に基づいて、線形予測フィルタに対してパラメータ構成を行うステップと、
前記音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得するステップと、
前記履歴音声パケットに対応するエネルギーゲイン値及び前記音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定するステップと、
前記エネルギー調整パラメータによって前記履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得するステップと、
前記調整された履歴長期フィルタリング励起信号及び前記強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、前記線形予測フィルタが前記調整された履歴長期フィルタリング励起信号に基づいて、前記強化された音声励起信号を線形合成フィルタリングするステップと、を含む。
オーディオ信号強化装置であって、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得する音声パケット処理モジュールと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出する特徴パラメータ抽出モジュールと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換する信号変換モジュールと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する音声強化モジュールと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する音声合成モジュールと、を含む。
コンピュータプログラムが記憶されたメモリとプロセッサーとを含むコンピュータ機器であって、前記プロセッサーは前記コンピュータプログラムを実行すると、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を実現する。
コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムはプロセッサーによって実行されると、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を実現する。
コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令はコンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ機器のプロセッサーは前記コンピュータ読み取り可能な記憶媒体から前記コンピュータ命令を読み取って、前記コンピュータ命令を実行することで、前記コンピュータ機器に、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を実行させる。
本願の1つ又は複数の実施例の詳細は以下の図面及び記載によって提出される。本願の他の特徴及び利点は明細書、図面及び請求項によって分かりやすくなる。
ここで説明される図面は本願に対するさらなる理解を提供し、本願の一部を構成する。本願の概略的な実施例及びその説明は本願を限定せず、解釈するためのものである。
一実施例に係る励起信号による音声生成モデルの概略図である。 一実施例に係るオーディオ信号強化方法の適用環境図である。 一実施例に係るオーディオ信号強化方法のフロー概略図である。 一実施例に係るオーディオ信号伝送のフロー概略図である。 一実施例に係る長期予測フィルタの振幅周波数応答図である。 一実施例に係る音声パケットの復号及びフィルタリングステップのフロー概略図である。 一実施例に係る長期逆フィルタの振幅周波数応答図である。 一実施例に係る信号強化モデルの概略図である。 別の実施例に係るオーディオ信号強化方法のフロー概略図である。 別の実施例に係るオーディオ信号強化方法のフロー概略図である。 一実施例に係るオーディオ信号強化装置の構造ブロック図である。 別の実施例に係るオーディオ信号強化装置の構造ブロック図である。 一実施例に係るコンピュータ機器の内部構造図である。 別の実施例に係るコンピュータ機器の内部構造図である。
以下、本願の目的、技術案及び利点をより明らかにするために、図面及び実施例を組み合わせて本願をさらに詳しく説明する。なお、ここに記載の具体的な実施例は、単に本願を解釈するためのものとして、本願を限定してはいない。
本願によるオーディオ信号強化方法を説明する前に、まず、音声生成モデルを説明する。図1の励起信号による音声生成モデルを参照すると、励起信号による音声生成モデルの物理理論基礎は人間の声の生成過程であり、当該過程は以下のステップを含む。
(1)気管では、一定のエネルギーを有する雑音類の衝撃信号を生成し、当該衝撃信号は励起信号による音声生成モデルにおける励起信号に対応する。
(2)衝撃信号は人間の声帯を衝撃して、周期的な開閉を生成し、口腔によって拡大された後、声を出し、出された声は励起信号による音声生成モデルにおけるフィルタに対応する。
実際の過程では、声の特点を配慮すると、励起信号による音声生成モデルにおけるフィルタを長期予測(Long Term Prediction、LTP)フィルタ及び線形予測(Linear Predictive Coding、LPC)フィルタに細分化し、LTPフィルタは音声の長期関連性によってオーディオ信号を強化させ、LPCフィルタは音声の短期関連性によってオーディオ信号を強化させる。具体的に、有声音類の周期的な信号に対して、励起信号による音声生成モデルにおいて、励起信号はLTPフィルタ及びLPCフィルタをそれぞれ衝撃し、無声音類非周期的な信号に対して、励起信号はLPCフィルタのみを衝撃する。
本願の実施例による態様は人工知能の機械学習などの技術に関し、具体的に、以下の実施例によって説明する。本願は、コンピュータ機器が実行するオーディオ信号強化方法を提供し、具体的に、図2の適用環境に適用される。端末202はネットワークを介してサーバー204と通信し、サーバー204から送信された音声パケット、又はサーバー204を介して他の機器から転送された音声パケットを受信し、サーバー204は端末から送信された音声パケット、又は他の機器から送信された音声パケットを受信する。上記のオーディオ信号強化方法は端末202又はサーバー204に適用され、端末202が実行することを例として説明すると、端末202は受信した音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングしてオーディオ信号を取得し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出し、線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換し、特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する。
端末202は各種のパーソナルコンピュータ、ノートパソコン、スマートフォン、タブレット及び携帯型ウェアラブル機器であってもよいが、これらに限定されず、サーバー204は独立した物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティーサービス、CDN、及びビッグデータや人工知能プラットフォームなどの基礎クラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。
一実施例において、図3に示すように、オーディオ信号強化方法を提供する。当該方法が図2のコンピュータ機器(端末又はサーバー)に適用されることを例として説明すると、以下のステップS302、S304、S306、S308、S310を含む。
S302において、受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングしてオーディオ信号を取得する。
受信された音声パケットは前方誤り訂正(Feedforward Error Correction、FEC)技術によるパケットロス防止シナリオにおける音声パケットであってもよい。
前方誤り訂正技術はエラー制御方式として、信号が伝送チャネルに送られる前に、予め一定のアルゴリズムに従って符号化処理し、信号自体の特徴を有する冗長コードを追加し、受信側で、該当するアルゴリズムに従って受信した信号を復号することで、伝送過程で生成されたエラーコードを探し出して修正する技術である。
冗長コードは冗長情報とも呼ばれる。本願の実施例において、図4を参照すると、信号送信側は現在の音声フレーム(現在フレームと略称される)のオーディオ信号を符号化する場合、直前の音声フレーム(直前のフレームと略称される)のオーディオ信号情報を冗長情報として現在フレームのオーディオ信号に対応する音声パケットに符号化し、符号化が完了すると、現在フレームのオーディオ信号に対応する音声パケットを受信側に送信し、受信側は当該音声パケットを受信する。これにより、信号伝送過程で異常が生じて、受信側がある音声パケットを受信していないか又はある音声パケットにエラーコードが出現しても、その次の音声フレーム(次のフレームと略称される)のオーディオ信号に対応する音声パケットを復号することで、ロス又はエラーコードの音声パケットに対応するオーディオ信号を取得し、信号伝送の信頼性を向上させる。受信側は図2の端末202であってもよい。
具体的に、端末は、音声パケットを受信した場合、受信した音声パケットをキャッシュに記憶して、再生対象となる音声フレームに対応する音声パケットをキャッシュから取り出し、当該音声パケットに対して復号及びフィルタリングを行って、オーディオ信号を取得し、当該音声パケットが直前のタイミングで復号された履歴音声パケットの隣接パケットであり、且つ直前のタイミングで復号された履歴音声パケットにおいて異常がない場合、取得されたオーディオ信号を直接出力し、又は当該オーディオ信号をオーディオ信号強化処理して、音声強化信号を取得し出力する。当該音声パケットが直前のタイミングで復号された履歴音声パケットの隣接パケットではない場合、又は当該音声パケットが直前のタイミングで復号された履歴音声パケットの隣接パケットであるが、直前のタイミングで復号された履歴音声パケットに異常がある場合、当該オーディオ信号をオーディオ信号強化処理して、音声強化信号を取得し出力する。ここで、当該音声強化信号には、直前のタイミングで復号された履歴音声パケットの隣接パケットに対応するオーディオ信号が含まれる。
復号は具体的に、エントロピー復号であってもよく、エントロピー復号はエントロピー符号化に対応する復号の態様である。具体的に、送信側は、オーディオ信号を符号化する場合、エントロピー符号化の態様によってオーディオ信号を符号化して、音声パケットを取得する。これにより、受信側は音声パケットを受信した場合、エントロピー復号の態様によって受信した音声パケットを復号する。
一実施例において、端末は音声パケットを受信した場合、受信した音声パケットを復号処理して、残差信号及びフィルタパラメータを取得し、フィルタパラメータに基づいて残差信号に対して信号合成フィルタリングを行って、オーディオ信号を取得する。ここで、フィルタパラメータは、長期フィルタリングパラメータ及び線形フィルタリングパラメータを含む。
具体的に、送信側は、現在フレームのオーディオ信号を符号化する場合、直前のフレームのオーディオ信号を分析することで、フィルタパラメータを取得し、取得したフィルタパラメータに基づいてフィルタに対してパラメータ構成を行い、構成済みのフィルタによって現在フレームのオーディオ信号に対して分析フィルタリングを行って、現在フレームのオーディオ信号の残差信号を取得し、残差信号及び分析によるフィルタパラメータによってオーディオ信号を符号化して、音声パケットを取得し、当該音声パケットを受信側に送信する。これにより、受信側は音声パケットを受信すると、受信した音声パケットに対して復号処理を行って、残差信号及びフィルタパラメータを取得し、フィルタパラメータに基づいて残差信号を信号合成フィルタリングして、オーディオ信号を取得する。
一実施例において、フィルタパラメータは線形フィルタリングパラメータ及び長期フィルタリングパラメータを含み、送信側は、現在フレームのオーディオ信号を符号化する場合、直前のフレームのオーディオ信号を分析することで線形フィルタリングパラメータ及び長期フィルタリングパラメータを取得し、線形フィルタリングパラメータに基づいて、現在フレームのオーディオ信号を線形分析フィルタリングして、線形フィルタリング励起信号を取得し、長期フィルタリングパラメータに基づいて、線形フィルタリング励起信号を長期分析フィルタリングして、現在フレームのオーディオ信号に対応する残差信号を取得し、残差信号、分析による線形フィルタリングパラメータ及び長期フィルタリングパラメータによって現在フレームのオーディオ信号を符号化し、音声パケットを取得して受信側に送信する。
具体的に、線形フィルタリングパラメータに基づいて、現在フレームのオーディオ信号を線形分析フィルタリングするステップは、具体的に、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによってオーディオ信号を線形分析フィルタリングして、線形フィルタリング励起信号を取得するステップを含む。ここで、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、線形フィルタリング係数はLPC ARと記され、エネルギーゲイン値はLPC gainと記され、線形予測フィルタの式は以下の通りである。
ただし、e(n)は現在フレームのオーディオ信号に対応する線形フィルタリング励起信号であり、s(n)は現在フレームのオーディオ信号であり、pは各フレームのオーディオ信号に含まれたサンプリング点の数であり、aiは直前のフレームのオーディオ信号を分析することで得られた線形フィルタリング係数であり、sadj(n-i)は現在フレームのオーディオ信号s(n)の直前のフレームのオーディオ信号s(n-i)のエネルギー調整後状態であり、sadj(n-i)は以下の式から取得される。
ただし、s(n-i)は現在フレームのオーディオ信号s(n)の直前のフレームのオーディオ信号であり、gainadjは直前のフレームのオーディオ信号s(n-i)のエネルギー調整パラメータであり、gainadjは以下の式から取得される。
ただし、gain(n)は現在フレームのオーディオ信号に対応するエネルギーゲイン値であり、gain(n-i)は直前のフレームのオーディオ信号に対応するエネルギーゲイン値である。
長期フィルタリングパラメータに基づいて、線形フィルタリング励起信号を長期分析フィルタリングするステップは、具体的に、長期フィルタリングパラメータに基づいて、長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって残差信号を長期分析フィルタリングして、現在フレームのオーディオ信号の対応する残差信号を取得するステップを含む。ここで、長期フィルタリングパラメータはピッチ周期及び対応する振幅ゲイン値を含み、ピッチ周期はLTP pitchと記され、対応する振幅ゲイン値はLTP gainと記され、長期予測フィルタの周波数領域は以下のように示され、周波数領域はZドメインと記される。
上記の式において、p(z)は長期予測フィルタの振幅周波数応答であり、zは周波数領域変換の回転因子であり、γは振幅ゲイン値LTP gainであり、Tはピッチ周期LTP pitchであり、図5は一実施例において、γ=1、T=80の場合、対応する長期予測フィルタの振幅周波数応答図を示す。
長期予測フィルタの時間領域は以下のように示される。
ただし、δ(n)は現在フレームのオーディオ信号に対応する残差信号であり、e(n)は現在フレームのオーディオ信号に対応する線形フィルタリング励起信号であり、γは振幅ゲイン値LTP gainであり、Tはピッチ周期LTP pitchであり、e(n-T)は現在フレームのオーディオ信号の直前のピッチ周期のオーディオ信号に対応する線形フィルタリング励起信号である。
一実施例において、端末が復号を行うことで得られたフィルタパラメータは長期フィルタリングパラメータ及び線形フィルタリングパラメータを含み、信号合成フィルタリングは長期フィルタリングパラメータによる長期合成フィルタリング、及び線形フィルタリングパラメータによる線形合成フィルタリングを含む。端末は、音声パケットを復号して残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得した後、長期フィルタリングパラメータに基づいて、残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得してから、線形フィルタリングパラメータに基づいて、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。
一実施例において、端末は、残差信号を取得すると、取得した残差信号を複数のサブフレームに分けて、複数のサブ残差信号を取得し、各サブ残差信号に対して、それぞれ該当する長期フィルタリングパラメータに基づいて、長期合成フィルタリングを行って、各サブフレームに対応する長期フィルタリング励起信号を取得してから、各サブフレームのシーケンスに従って、各サブフレームに対応する長期フィルタリング励起信号を組み合わせて、対応する長期フィルタリング励起信号を取得する。
例えば、1つの音声パケットは20msのオーディオ信号に対応する場合、即ち、取得された残差信号は20msである場合、当該残差信号を4つのサブフレームに分けて、4つの5msのサブ残差信号を取得し、各5msのサブ残差信号に対して、それぞれ該当する長期フィルタリングパラメータに基づいて、長期合成フィルタリングを行って、4つの5msの長期フィルタリング励起信号を取得してから、各サブフレームのシーケンスに従って、当該4つの5msの長期フィルタリング励起信号を組み合わせて、1つの20msの長期フィルタリング励起信号を取得する。
一実施例において、端末は、長期フィルタリング励起信号を取得すると、取得した長期フィルタリング励起信号を複数のサブフレームに分けて、複数のサブ長期フィルタリング励起信号を取得してから、各サブ長期フィルタリング励起信号に対して、それぞれ該当する線形フィルタリングパラメータに基づいて、線形合成フィルタリングを行って、各サブフレームに対応するサブ線形フィルタリング励起信号を取得してから、各サブフレームのシーケンスに従って、各サブフレームに対応する線形フィルタリング励起信号を組み合わせて、対応する線形フィルタリング励起信号を取得する。
例えば、1つの音声パケットは20msのオーディオ信号に対応する場合、即ち、取得された長期フィルタリング励起信号は20msである場合、当該長期フィルタリング励起信号を2つのサブフレームに分けて、2つの10msのサブ長期フィルタリング励起信号を取得し、各10msのサブ長期フィルタリング励起信号に対して、それぞれ該当する線形フィルタリングパラメータに基づいて、線形合成フィルタリングを行って、2つの10msのサブオーディオ信号を取得してから、各サブフレームのシーケンスに従って、当該2つの10msのサブオーディオ信号を組み合わせて、1つの20msのオーディオ信号を取得する。
S304において、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出する。
オーディオ信号が前方誤り訂正フレーム信号であることは、当該オーディオ信号の履歴隣接フレームのオーディオ信号に異常が存在することを意味し、履歴隣接フレームのオーディオ信号に異常が存在することは、具体的に、履歴隣接フレームのオーディオ信号に対応する音声パケットが受信されていないこと、又は受信された履歴隣接フレームのオーディオ信号に対応する音声パケットは正常に復号されていないことを含む。特徴パラメータはケプストラム特徴パラメータを含む。
一実施例において、端末は、受信した音声パケットに対して復号及びフィルタリングを行ってオーディオ信号を取得した後、当該音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定し、復号された履歴音声パケットにデータ異常がある場合、復号及びフィルタリングされた現在のオーディオ信号が前方誤り訂正フレーム信号であると決定する。
具体的に、端末は、当該音声パケットを復号する直前のタイミングで復号された履歴音声パケットに対応する履歴オーディオ信号が、当該音声パケットを復号することで得られたオーディオ信号の直前のフレームのオーディオ信号であるか否かを決定し、YESであれば、当該履歴音声パケットにデータ異常がないと決定し、NOであれば、当該履歴音声パケットにデータ異常があると決定する。
本実施例において、端末は、現在の音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定することで、復号及びフィルタリングされた現在のオーディオ信号が前方誤り訂正フレーム信号であるか否かを決定し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号を強化処理して、オーディオ信号の品質をさらに向上させる。
一実施例において、復号されたオーディオ信号が前方誤り訂正フレーム信号である場合、復号されたオーディオ信号から特徴パラメータを抽出し、抽出した特徴パラメータは具体的にケプストラム特徴パラメータであってもよい。具体的に、オーディオ信号をフーリエ変換して、フーリエ変換したオーディオ信号を取得するステップと、フーリエ変換したオーディオ信号を対数処理して、対数結果を取得するステップと、取得した対数結果をフーリエ逆変換して、ケプストラム特徴パラメータを取得するステップと、を含む。具体的に、以下の式で、オーディオ信号からケプストラム特徴パラメータを抽出することを実現する。
ただし、C(n)は復号及びフィルタリングされたオーディオ信号S(n)のケプストラム特徴パラメータであり、S(F)はオーディオ信号S(n)をフーリエ変換することで得られたフーリエ変換されたオーディオ信号である。
上記の実施例において、端末は、オーディオ信号からケプストラム特徴パラメータを抽出することで、抽出したケプストラム特徴パラメータに基づいて、オーディオ信号を強化させ、オーディオ信号の品質を向上させる。
一実施例において、オーディオ信号が前方誤り訂正フレーム信号ではない場合、即ち、復号及びフィルタリングされた現在のオーディオ信号の直前のフレームのオーディオ信号に異常がない場合、復号及びフィルタリングされた現在のオーディオ信号から特徴パラメータを抽出して、当該復号及びフィルタリングされた現在のオーディオ信号をオーディオ信号強化処理してもよい。
S306において、線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換する。
具体的に、端末は、音声パケットに対して復号及びフィルタリングを行ってオーディオ信号を取得した後、さらに、音声パケットを復号することで得られた線形フィルタリングパラメータを取得し、線形フィルタリングパラメータに基づいて、取得したオーディオ信号を線形分析フィルタリングしてもよく、これにより、オーディオ信号をフィルタ音声励起信号に変換することを実現する。
一実施例において、S306は具体的に、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによってオーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得するステップを含む。
線形解析フィルタリングは線形分析フィルタリングとも呼ばれる。本願の実施例において、オーディオ信号を線形分析フィルタリングする場合、フレーム全体のオーディオ信号に対してサブフレーム分割処理を行う必要がなくなり、フレーム全体のオーディオ信号に対して線形分析フィルタリングを直接行う。
具体的に、端末は、以下の式によってオーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得する。
ただし、D(n)は音声パケットに対して復号及びフィルタリングを行って取得されたオーディオ信号S(n)に対応するフィルタ音声励起信号であり、S(n)は音声パケットに対して復号及びフィルタリングを行って取得されたオーディオ信号であり、Sadj(n-i)は取得されたオーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であり、pは各フレームのオーディオ信号に含まれたサンプリング点の数であり、Aiは音声パケットを復号することで得られた線形フィルタリング係数である。
上記の実施例において、端末は線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換して、フィルタ音声励起信号を強化させることで、オーディオ信号の強化を実現し、オーディオ信号の品質を向上させる。
S308において、特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する。
長期フィルタリングパラメータはピッチ周期及び振幅ゲイン値を含む。
一実施例において、S308は、ピッチ周期、振幅ゲイン値、線形フィルタリングパラメータ及びケプストラム特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップを含む。
具体的に、オーディオ信号を音声強化処理するステップは、具体的に、事前訓練された信号強化モデルによって実現される。信号強化モデルはニューラルネットワーク(Neural Network、NN)モデルであり、当該ニューラルネットワークモデルは具体的にLSTM及びCNNレベルの構造にしてもよい。
上記の実施例において、端末はピッチ周期、振幅ゲイン値、線形フィルタリングパラメータ及びケプストラム特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号に基づいて、オーディオ信号の強化を実現し、オーディオ信号の品質を向上させる。
一実施例において、端末は、取得した特徴パラメータ、長期フィルタリングパラメータ、線形フィルタリングパラメータ、フィルタ音声励起信号を事前訓練された信号強化モデルに入力し、これにより、信号強化モデルは特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する。
上記の実施例において、端末は、事前訓練された信号強化モデルによって音声励起信号の強化を実現し、強化された音声励起信号に基づいて、オーディオ信号の強化を実現し、オーディオ信号の品質及びオーディオ信号の強化処理の効率を向上させる。
なお、本願の実施例において、事前訓練された信号強化モデルによってフィルタ音声励起信号に対して音声強化処理を行う過程で、フレーム全体のフィルタ音声励起信号に対してサブフレーム分割処理を行う必要がなくなり、フレーム全体のフィルタ音声励起信号に対して音声強化処理を行う。
S310において、強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する。
音声合成は線形フィルタリングパラメータに基づいて行われた線形合成フィルタリングであってよい。
一実施例において、端末は、強化された音声励起信号を取得すると、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得する。
線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、線形フィルタリング係数はLPC ARと記され、エネルギーゲイン値はLPC gainと記され、線形合成フィルタリングは、送信側がオーディオ信号を符号化する時に行われる線形分析フィルタリングの逆過程であるため、線形合成フィルタリングを実行する線形予測フィルタは線形逆フィルタとも呼ばれ、線形予測フィルタの時間領域は以下のように示される。
ただし、Senh(n)は音声強化信号であり、Denh(n)はフィルタ音声励起信号D(n)に対して音声強化処理を行って取得された強化された音声励起信号であり、Sadj(n-i)は取得されたオーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であり、pは各フレームのオーディオ信号に含まれたサンプリング点の数であり、Aiは音声パケットを復号することで得られた線形フィルタリング係数である。
オーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であるSadj(n-i)は以下の式から取得される。
上記の式において、Sadj(n-i)は直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であり、gainadjは直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータである。
本実施例において、端末は、強化された音声励起信号を線形合成フィルタリングすることで、音声強化信号を取得し、即ち、オーディオ信号に対する強化処理を実現し、オーディオ信号の品質を向上させる。
なお、本願の実施例において、音声合成の過程は、フレーム全体の強化された音声励起信号に対してサブフレーム分割処理を行う必要がなくなり、フレーム全体の強化された音声励起信号に対して音声合成を行う。
上記のオーディオ信号強化方法によれば、端末は、音声パケットを受信すると、音声パケットに対して復号及びフィルタリングを順に行って、オーディオ信号を取得し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出し、音声パケットを復号することで得られた線形フィルタリング係数に基づいて、オーディオ信号をフィルタ音声励起信号に変換して、特徴パラメータ及び音声パケットを復号することで得られた長期フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する。これにより、オーディオ信号の強化処理を短時間内で完了し、よい信号強化効果を達成し、オーディオ信号強化の適時性を向上させる。
一実施例において、図6に示すように、S302は具体的に以下のステップS602、S604を含む。
S602において、長期フィルタリングパラメータに基づいて、長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得する。
長期フィルタリングパラメータはピッチ周期及び対応する振幅ゲイン値を含み、ピッチ周期はLTP pitchと記され、LTP pitchはピッチ周期とも呼ばれ、対応する振幅ゲイン値はLTP gainと記され、パラメータ構成済みの長期予測フィルタによって残差信号を長期合成フィルタリングする。長期合成フィルタリングは、送信側がオーディオ信号を符号化する時に行われる長期分析フィルタリングの逆過程であるため、長期合成フィルタリングを実行する長期予測フィルタは長期逆フィルタとも呼ばれ、即ち、長期逆フィルタを採用して残差信号を処理し、式(1)に対応する長期逆フィルタの周波数領域は以下のように示される。
ただし、p-1(z)は長期逆フィルタの振幅周波数応答であり、zは周波数領域変換の回転因子であり、γは振幅ゲイン値LTP gainであり、Tはピッチ周期LTP pitchであり、図7は一実施例において、γ=1、T=80である場合、対応する長期逆予測フィルタの振幅周波数応答図を示す。
式(10)に対応する長期逆フィルタの時間領域は以下のように示される。
上記の式において、E(n)は音声パケットに対応する長期フィルタリング励起信号であり、δ(n)は音声パケットに対応する残差信号であり、γは振幅ゲイン値LTP gainであり、Tはピッチ周期LTP pitchであり、E(n-T)は音声パケットの直前のピッチ周期のオーディオ信号に対応する長期フィルタリング励起信号である。ここで、本実施例において、受信側が長期逆フィルタによって残差信号に対して長期合成フィルタリングを行うことで得られた長期フィルタリング励起信号E(n)と、送信側が符号化を行う際、線形フィルタによってオーディオ信号を線形分析フィルタリングすることで得られた線形フィルタリング励起信号e(n)とは同じである。
S604において、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。
線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、線形フィルタリング係数はLPC ARと記され、エネルギーゲイン値はLPC gainと記され、線形合成フィルタリングは、送信側がオーディオ信号を符号化する時に行われる線形分析フィルタリングの逆過程であるため、線形合成フィルタリングを実行する線形予測フィルタは線形逆フィルタとも呼ばれ、線形予測フィルタの時間領域は以下のように示される。
上記の式において、S(n)は音声パケットに対応するオーディオ信号であり、E(n)は音声パケットに対応する長期フィルタリング励起信号であり、Sadj(n-i)は取得されたオーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であり、pは各フレームのオーディオ信号に含まれたサンプリング点の数であり、Aiは音声パケットを復号することで得られた線形フィルタリング係数である。
オーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であるSadj(n-i)は以下の式から取得される。
ただし、gainadjは直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータであり、gain(n)は音声パケットを復号することで得られたエネルギーゲイン値であり、gain(n-i)は直前のフレームのオーディオ信号に対応するエネルギーゲイン値である。
上記の実施例において、端末は長期フィルタリングパラメータに基づいて、残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得し、復号された線形フィルタリングパラメータに基づいて、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。これにより、オーディオ信号が前方誤り訂正フレーム信号ではない場合、オーディオ信号を直接出力し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号を強化させてから出力し、オーディオ信号出力の適時性を向上させる。
一実施例において、S604は具体的に、長期フィルタリング励起信号を少なくとも2つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得するステップと、復号された線形フィルタリングパラメータをグループに分けて、少なくとも2つの線形フィルタリングパラメータセットを取得するステップと、線形フィルタリングパラメータセットに基づいて、少なくとも2つの線形予測フィルタに対してパラメータ構成をそれぞれ行うステップと、取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得するステップと、各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得するステップと、を含む。
線形フィルタリングパラメータセットは線性フィルタリング係数セット及びエネルギーゲイン値セットという2つのタイプを有する。
具体的に、各サブフレームに対応するサブ長期フィルタリング励起信号に対して、式(12)に対応する線形逆フィルタによって線形合成フィルタリングを行う場合、式(12)におけるS(n)は何れか1つのサブフレームに対応するサブオーディオ信号であり、E(n)は当該サブフレームに対応する長期フィルタリング励起信号であり、Sadj(n-i)は取得されたサブオーディオ信号S(n)の直前のサブフレームのサブオーディオ信号のS(n-i)のエネルギー調整後状態であり、pは各サブフレームのオーディオ信号に含まれたサンプリング点の数であり、Aiは当該サブフレームに対応する線形フィルタリング係数セットであり、式(13)におけるgainadjは当該サブオーディオ信号の直前のサブフレームのサブオーディオ信号のエネルギー調整パラメータであり、gain(n)は当該サブオーディオ信号のエネルギーゲイン値であり、gain(n-i)は当該サブオーディオ信号の直前のサブフレームのサブオーディオ信号のエネルギーゲイン値である。
上記の実施例において、端末は長期フィルタリング励起信号を少なくとも2つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得し、復号された線形フィルタリングパラメータをグループに分けて、少なくとも2つの線形フィルタリングパラメータセットを取得し、線形フィルタリングパラメータセットに基づいて、少なくとも2つの線形予測フィルタに対してパラメータ構成をそれぞれ行い、取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得し、各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得する。これにより、取得されたオーディオ信号は送信側から送信されたオーディオ信号をよく復元できることを確保し、復元されたオーディオ信号の品質を向上させる。
一実施例において、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、S604は、長期フィルタリング励起信号における第1のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、第1のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得するステップと、履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び第1のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定するステップと、エネルギー調整パラメータによって履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行って、エネルギー調整された履歴サブ長期フィルタリング励起信号を取得するステップと、をさらに含む。
履歴長期フィルタリング励起信号は現在フレームの長期フィルタリング励起信号の直前のフレームの長期フィルタリング励起信号であり、履歴長期フィルタリング励起信号における第1のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号は、直前のフレームの長期フィルタリング励起信号の最後のサブフレームに対応するサブ長期フィルタリング励起信号である。
例えば、現在フレームの長期フィルタリング励起信号を2つのサブフレームに分けて、第1のサブフレームに対応するサブ長期フィルタリング励起信号及び第2のサブフレームに対応するサブ長期フィルタリング励起信号を取得すると、直前のフレームの長期フィルタリング励起信号の第2のサブフレームに対応するサブ長期フィルタリング励起信号と、現在フレームの第1のサブフレームに対応するサブ長期フィルタリング励起信号とは隣接しているサブフレームである。
一実施例において、端末はエネルギー調整された履歴サブ長期フィルタリング励起信号を取得した後、取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは線形フィルタリング係数及びエネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、第1のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第1のサブフレームに対応するサブオーディオ信号を取得する。
例えば、1つの音声パケットは20msのオーディオ信号に対応する場合、即ち、取得された長期フィルタリング励起信号は20msである場合、音声パケットを復号することで得られたAR係数は{A1, A2, …, Ap-1, Ap, Ap+1, … A2p-1, A2p}であり、音声パケットを復号することで得られたエネルギーゲイン値は{gain1(n), gain2(n)}であり、長期フィルタリング励起信号を2つのサブフレームに分けて、前の10msに対応する第1のサブフィルタリング励起信号E1(n)及び次の10msに対応する第2のサブフィルタリング励起信号E2(n)を取得し、AR係数をグループに分けて、AR係数セット1{A1, A2, …, Ap-1, Ap}及びAR係数セット2{Ap+1, … A2p-1, A2p}を取得し、エネルギーゲイン値をグループに分けて、エネルギーゲイン値セット1{gain1(n)}及びエネルギーゲイン値セット2{gain2(n)}を取得し、そうすれば、第1のサブフィルタリング励起信号E1(n)の直前のサブフレームのサブフィルタリング励起信号はE2(n-i)であり、第1のサブフィルタリング励起信号E1(n)の直前のサブフレームのエネルギーゲイン値セットは{gain2(n-i)}であり、第2のサブフィルタリング励起信号E2(n)の直前のサブフレームのサブフィルタリング励起信号はE1(n)であり、第2のサブフィルタリング励起信号E2(n)の直前のサブフレームのエネルギーゲイン値セットは{gain1(n)}であり、そうすれば、第1のサブフィルタリング励起信号E1(n)に対応するサブオーディオ信号は、対応するパラメータを式(12)及び式(13)に代入することで求められ、第2のサブフィルタリング励起信号E2(n)に対応するサブオーディオ信号は、対応するパラメータを式(12)及び式(13)に代入することで求められる。
上記の実施例において、端末は長期フィルタリング励起信号における第1のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、第1のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得し、履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び第1のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行い、取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは線形フィルタリング係数及びエネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、第1のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第1のサブフレームに対応するサブオーディオ信号を取得する。これにより、取得された各サブフレームのオーディオ信号は送信側から送信された各サブフレームのオーディオ信号をよく復元できることを確保し、復元されたオーディオ信号の品質を向上させる。
一実施例において、特徴パラメータはケプストラム特徴パラメータを含み、S308は、ケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得するステップと、特徴ベクトル、フィルタ音声励起信号を事前訓練された信号強化モデルに入力するステップと、信号強化モデルによって特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得するステップと、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得するステップと、を含む。
信号強化モデルは多重レベルネットワーク構造であり、具体的に、第1の特徴スティッチング層、第2の特徴スティッチング層、第1のニューラルネットワーク層及び第2のニューラルネットワーク層を含む。ターゲット特徴ベクトルは強化された特徴ベクトルである。
具体的に、端末は信号強化モデルの第1の特徴スティッチング層によってケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得し、取得した特徴ベクトルを信号強化モデルの第1のニューラルネットワーク層に入力し、第1のニューラルネットワーク層によって特徴ベクトルに対して特徴抽出を行って、一次特徴ベクトルを取得し、一次特徴ベクトル、及び線形フィルタリングパラメータにおける線形フィルタリング係数に対してフーリエ変換を行うことで得られた包絡情報を信号強化モデルの第2の特徴スティッチング層に入力して、スティッチングされた一次特徴ベクトルを取得し、スティッチングされた一次特徴ベクトルを信号強化モデルの第2のニューラルネットワーク層に入力し、第2のニューラルネットワーク層によってスティッチングされた一次特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する。
上記の実施例において、端末はケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得し、特徴ベクトル、フィルタ音声励起信号を事前訓練された信号強化モデルに入力し、信号強化モデルによって特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する。これにより、信号強化モデルによってオーディオ信号に対する強化処理を実現し、オーディオ信号の品質及びオーディオ信号の強化処理の効率を向上させる。
一実施例において、端末はターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得するステップは、フィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得するステップと、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させるステップと、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得するステップと、を含む。
具体的に、端末はフィルタ音声励起信号に対してフーリエ変換を行って、周波数領域音声励起信号を取得し、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させた後、未強化の周波数領域音声励起信号の位相特徴を結合して、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得する。
図8に示すように、2つの特徴スティッチング層はそれぞれconcat1及びconcat2であり、2つのニューラルネットワーク層はそれぞれNN part1及びNN part2であり、concat1によって次元が40であるケプストラム特徴パラメータCepstrum、次元が1であるピッチ周期LTP pitch及び次元が1である振幅ゲイン値LTP Gainをスティッチングして、次元が42である特徴ベクトルを形成し、当該次元が42である特徴ベクトルをNN part1に入力し、NN part1は1つの2層の畳み込みニューラルネットワーク及び2層の完全接続ネットワークから構成され、第1の層の畳み込みコアの次元は(1、128、3、1)であり、第2の層の畳み込みコアの次元は(128、128、3、1)であり、完全接続層のノード数は128及び8であり、各層のエンドの活性化関数はTanh関数であり、NN part1によって特徴ベクトルから高層特徴を抽出して、次元が1024である一次特徴ベクトルを取得してから、concat2によって次元が1024である一次特徴ベクトルと、線形フィルタリングパラメータにおける線形フィルタリング係数LPC ARに対してフーリエ変換を行うことで得られた、次元が161である包絡情報Envelopeと、をスティッチングして、次元が1185であるスティッチングされた一次特徴ベクトルを取得し、次元が1185であるスティッチングされた一次特徴ベクトルをNN part2に入力し、NN part2は1つの2層の完全接続ネットワークであり、ノード数はそれぞれ256及び161であり、各層のエンドの活性化関数はTanh関数であり、NN part2によってターゲット特徴ベクトルを取得してから、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号に対してフーリエ変換を行うことで得られた周波数領域音声励起信号の振幅値特徴Excitationを強化させ、振幅値特徴Excitationが強化されたフィルタ音声励起信号をフーリエ逆変換して、強化された音声励起信号Denh(n)を取得する。
上記の実施例において、端末はフィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得し、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させ、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得し、オーディオ信号の位相情報が変わらないことを確保しながら、オーディオ信号の強化処理を実現して、オーディオ信号の品質を向上させる。
一実施例において、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、端末は線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、強化された音声励起信号を線形合成フィルタリングするステップは、線形フィルタリング係数に基づいて線形予測フィルタに対してパラメータ構成を行うステップと、音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得するステップと、履歴音声パケットに対応するエネルギーゲイン値及び音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定するステップと、エネルギー調整パラメータによって履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得するステップと、調整された履歴長期フィルタリング励起信号及び強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは調整された履歴長期フィルタリング励起信号に基づいて、強化された音声励起信号を線形合成フィルタリングするステップと、を含む。
履歴音声パケットに対応する履歴オーディオ信号は現在の音声パケットに対応する現在フレームのオーディオ信号の直前のフレームのオーディオ信号である。履歴音声パケットに対応するエネルギーゲイン値は、履歴音声のフレーム全体のオーディオ信号に対応するエネルギーゲイン値であってもよいし、履歴音声パケットの一部のサブフレームのオーディオ信号に対応するエネルギーゲイン値であってもよい。
具体的に、オーディオ信号が前方誤り訂正フレーム信号ではない場合、即ち、現在フレームのオーディオ信号の直前のフレームのオーディオ信号が端末によって履歴音声パケットを正常に復号することで得られた場合、端末が履歴音声パケットを復号することで得られた履歴音声パケットのエネルギーゲイン値を取得し、履歴音声パケットのエネルギーゲイン値に基づいてエネルギー調整パラメータを決定し、オーディオ信号が前方誤り訂正フレーム信号である場合、即ち、現在フレームのオーディオ信号の直前のフレームのオーディオ信号が端末によって履歴音声パケットを正常に復号することで得られていない場合、所定のエネルギーゲイン補償メカニズムに基づいて、直前のフレームのオーディオ信号に対応する補償エネルギーゲイン値を決定して、当該補償エネルギーゲイン値を履歴音声パケットのエネルギーゲイン値として決定し、履歴音声パケットのエネルギーゲイン値に基づいてエネルギー調整パラメータを決定する。
一実施例において、オーディオ信号が前方誤り訂正フレーム信号ではない場合、直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータgainadjは以下の式によって計算されて取得される。
ただし、gainadjは直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータであり、gain(n-i)は直前のフレームのオーディオ信号S(n-i)のエネルギーゲイン値であり、gain(n)は現在フレームのオーディオ信号のエネルギーゲイン値である。式(14)は、履歴音声のフレーム全体のオーディオ信号に対応するエネルギーゲイン値に基づいてエネルギー調整パラメータを計算する。
一実施例において、オーディオ信号が前方誤り訂正フレーム信号ではない場合、直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータgainadjは以下の式から取得される。
ただし、gainadjは直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータであり、gainm(n-i)は直前のフレームのオーディオ信号S(n-i)の第mのサブフレームのエネルギーゲイン値であり、gainm(n)は現在フレームのオーディオ信号の第mのサブフレームのエネルギーゲイン値であり、mは各オーディオ信号に対応するサブフレーム数であり、{gain1(n)+…+gain(n)}/mは現在フレームのオーディオ信号のエネルギーゲイン値である。式(15)は、履歴音声の一部のサブフレームのオーディオ信号に対応するエネルギーゲイン値に基づいてエネルギー調整パラメータを計算する。
上記の実施例において、端末は線形フィルタリング係数に基づいて線形予測フィルタに対してパラメータ構成を行い、音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得し、履歴音声パケットに対応するエネルギーゲイン値及び音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得し、調整された履歴長期フィルタリング励起信号及び強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは調整された履歴長期フィルタリング励起信号に基づいて、強化された音声励起信号を線形合成フィルタリングして、異なるフレームの間のオーディオ信号を平滑化して、異なるフレームのオーディオ信号から構成された音声の品質を向上させる。
一実施例において、図9に示すように、オーディオ信号強化方法を提供し、当該方法は図2のコンピュータ機器(端末又はサーバー)に適用されることを例として説明すると、
音声パケットを復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得するS902と、
長期フィルタリングパラメータに基づいて、長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得するS904と、
長期フィルタリング励起信号を少なくとも2つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得するS906と、
線形フィルタリングパラメータをグループに分けて、少なくとも2つの線形フィルタリングパラメータセットを取得するS908と、
線形フィルタリングパラメータセットに基づいて、少なくとも2つの線形予測フィルタに対してパラメータ構成をそれぞれ行うS910と、
取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得するS912と、
各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得するS914と、
音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定するS916と、
履歴音声パケットにデータ異常がある場合、復号及びフィルタリングされたオーディオ信号が前方誤り訂正フレーム信号であると決定するS918と、
オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号をフーリエ変換して、フーリエ変換されたオーディオ信号を取得し、フーリエ変換されたオーディオ信号を対数処理して、対数結果を取得し、対数結果をフーリエ逆変換して、ケプストラム特徴パラメータを取得するS920と、
線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによってオーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得するS922と、
特徴パラメータ、長期フィルタリングパラメータ、線形フィルタリングパラメータ、フィルタ音声励起信号を事前訓練された信号強化モデルに入力して、信号強化モデルは特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するS924と、
線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得するS926と、を含む。
本願は、上記のオーディオ信号強化方法が適用される適用シナリオをさらに提供する。具体的に、当該オーディオ信号強化方法の当該適用シナリオにおける適用は以下の通りである。
Fsが16000Hzである広帯域信号を例として説明するが、本願は他のサンプリング率のシナリオにも適用され、例えば、Fsが8000Hz、32000Hz又は48000Hzであってもよい。オーディオ信号のフレーム長さを20msに設定し、Fs=16000Hzの場合、各フレームには320個のサンプル点が含まれることに相当する。図10を参照すると、端末は、1フレームのオーディオ信号に対応する音声パケットを受信すると、当該音声パケットに対してエントロピー復号を行って、δ(n)、LTP pitch、LTP gain、LPC AR及びLPC gainを取得し、LTP pitch及びLTP gainに基づいてδ(n)に対してLTP合成フィルタリングを行ってE(n)を取得し、LPC AR及びLPC gainに基づいてE(n)の各サブフレームに対してLPC合成フィルタリングをそれぞれ行い、LPC合成フィルタリング結果を組み合わせて1のフレームS(n)を取得してから、S(n)に対してケプストラム分析を行って、C(n)を取得し、LPC AR及びLPC gainに基づいてフレーム全体のS(n)に対してLPC解析フィルタリングを行って、フレーム全体のD(n)を取得し、LTP pitch、LTP gain、LPC ARのフーリエ変換された包絡情報、C(n)及びD(n)を事前訓練された信号強化モデルNN postfilterに入力し、NN postfilterによってフレーム全体のD(n)を強化させ、フレーム全体のDenh(n)を取得し、LPC AR及びLPC gainに基づいてフレーム全体のDenh(n)に対してLPC合成フィルタリングを行って、Senh(n)を取得する。
なお、図3、図4、図6、図9及び図10のフローチャートにおける各ステップは矢印の指示に従って順に示されるが、これらのステップは必ずしも矢印が示した順序に従って順に実行されるわけではない。本明細書に明示的に説明されていない限り、これらのステップの実行は厳しい順序制限はなく、これらのステップは他の順序に従って実行されてもよい。そして、図3、図4、図6、図9及び図10における少なくとも一部のステップは複数のステップ又は複数の階段を含んでもよく、これらのステップ又は階段は必ずしも同一時点で実行されて完成されるわけではなく、異なる時点で実行されてもよく、これらのステップ又は階段の実行順序も必ずしも順に行われるわけではなく、他のステップ又は他のステップにおけるステップ又は階段の少なくとも一部と順に又は交互に実行されてもよい。
一実施例において、図11に示すように、オーディオ信号強化装置を提供する。当該装置はソフトウェアモジュール又はハードウェアモジュール、或いはは両者の組合せでコンピュータ機器の一部となり、当該装置は具体的に、
受信された音声パケットを順に復号及びフィルタリングして、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングして、オーディオ信号を取得する音声パケット処理モジュール1102と、
オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出する特徴パラメータ抽出モジュール1104と、
線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換する信号変換モジュール1106と、
特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する音声強化モジュール1108と、
強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する音声合成モジュール1110と、を含む。
上記の実施例において、コンピュータ機器は受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングして、オーディオ信号を取得し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出し、音声パケットを復号することで得られた線形フィルタリング係数に基づいて、オーディオ信号をフィルタ音声励起信号に変換して、特徴パラメータ及び音声パケットを復号することで得られた長期フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する。これにより、オーディオ信号の強化処理を短時間内で完了し、よい信号強化効果を達成し、オーディオ信号強化の適時性を向上させる。
一実施例において、音声パケット処理モジュール1102はさらに、長期フィルタリングパラメータに基づいて、長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得し、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。
上記の実施例において、端末は長期フィルタリングパラメータに基づいて、残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得し、復号された線形フィルタリングパラメータに基づいて、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。これにより、オーディオ信号が前方誤り訂正フレーム信号ではない場合、オーディオ信号を直接出力し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号を強化させてから出力し、オーディオ信号出力の適時性を向上させる。
一実施例において、音声パケット処理モジュール1102はさらに、長期フィルタリング励起信号を少なくとも2つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得し、線形フィルタリングパラメータをグループに分けて、少なくとも2つの線形フィルタリングパラメータセットを取得し、線形フィルタリングパラメータセットに基づいて、少なくとも2つの線形予測フィルタに対してパラメータ構成をそれぞれ行い、取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得し、各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得する。
上記の実施例において、端末は長期フィルタリング励起信号を少なくとも2つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得し、線形フィルタリングパラメータをグループに分けて、少なくとも2つの線形フィルタリングパラメータセットを取得し、線形フィルタリングパラメータセットに基づいて、少なくとも2つの線形予測フィルタに対してパラメータ構成をそれぞれ行い、取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得し、各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得する。これにより、取得されたオーディオ信号は送信側から送信されたオーディオ信号をよく復元できることを確保し、復元されたオーディオ信号の品質を向上させる。
一実施例において、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、音声パケット処理モジュール1102はさらに、長期フィルタリング励起信号における第1のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、第1のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値を取得し、履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び第1のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行い、取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは線形フィルタリング係数及びエネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、第1のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第1のサブフレームに対応するサブオーディオ信号を取得する。
上記の実施例において、端末は長期フィルタリング励起信号における第1のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、第1のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得し、履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び第1のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行い、取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは線形フィルタリング係数及びエネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、第1のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第1のサブフレームに対応するサブオーディオ信号を取得する。これにより、取得された各サブフレームのオーディオ信号は送信側から送信された各サブフレームのオーディオ信号を復元できることを確保し、復元されたオーディオ信号の品質を向上させる。
一実施例において、図12に示すように、装置は、音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定するデータ異常決定モジュール1112と、履歴音声パケットにデータ異常がある場合、復号及びフィルタリングされたオーディオ信号が前方誤り訂正フレーム信号であると決定する前方誤り訂正フレーム信号決定モジュール1114と、をさらに含む。
上記の実施例において、端末は現在の音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定することで、復号及びフィルタリングされた現在のオーディオ信号が前方誤り訂正フレーム信号であるか否かを決定する。これにより、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号の強化処理を行って、オーディオ信号の品質をさらに向上させる。
一実施例において、特徴パラメータはケプストラム特徴パラメータを含み、特徴パラメータ抽出モジュール1104はさらに、オーディオ信号をフーリエ変換して、フーリエ変換されたオーディオ信号を取得し、フーリエ変換されたオーディオ信号を対数処理して、対数結果を取得し、対数結果をフーリエ逆変換して、ケプストラム特徴パラメータを取得する。
上記の実施例において、端末はオーディオ信号からケプストラム特徴パラメータを抽出することで、抽出したケプストラム特徴パラメータに基づいて、オーディオ信号を強化させ、オーディオ信号の品質を向上させる。
一実施例において、長期フィルタリングパラメータはピッチ周期及び振幅ゲイン値を含み、音声強化モジュール1108はさらに、ピッチ周期、振幅ゲイン値、線形フィルタリングパラメータ及びケプストラム特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する。
上記の実施例において、端末はピッチ周期、振幅ゲイン値、線形フィルタリングパラメータ及びケプストラム特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号に基づいて、オーディオ信号の強化を実現し、オーディオ信号の品質を向上させる。
一実施例において、信号変換モジュール1106はさらに線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによってオーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得する。
上記の実施例において、端末は線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換して、フィルタ音声励起信号を強化させることで、オーディオ信号の強化を実現し、オーディオ信号の品質を向上させる。
一実施例において、音声強化モジュール1108はさらに特徴パラメータ、長期フィルタリングパラメータ、線形フィルタリングパラメータ、フィルタ音声励起信号を事前訓練された信号強化モデルに入力して、信号強化モデルは特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する。
上記の実施例において、端末は事前訓練された信号強化モデルによって音声励起信号の強化を実現し、強化された音声励起信号に基づいて、オーディオ信号の強化を実現し、オーディオ信号の品質及びオーディオ信号の強化処理の効率を向上させる。
一実施例において、特徴パラメータはケプストラム特徴パラメータを含み、音声強化モジュール1108はさらに、ケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得し、特徴ベクトル、フィルタ音声励起信号を事前訓練された信号強化モデルに入力し、信号強化モデルによって特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する。
上記の実施例において、端末はケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得し、特徴ベクトル、フィルタ音声励起信号を事前訓練された信号強化モデルに入力し、信号強化モデルによって特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する。これにより、信号強化モデルによってオーディオ信号に対する強化処理を実現し、オーディオ信号の品質及びオーディオ信号の強化処理の効率を向上させる。
一実施例において、音声強化モジュール1108はさらに、フィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得し、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させ、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得する。
上記の実施例において、端末はフィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得し、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させ、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得する。これにより、オーディオ信号の位相情報が変わらないことを確保しながら、オーディオ信号の強化処理を実現して、オーディオ信号の品質を向上させる。
一実施例において、音声合成モジュール1110はさらに、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得する。
本実施例において、端末は強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得し、即ち、オーディオ信号に対する強化処理を実現し、オーディオ信号の品質を向上させる。
一実施例において、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、音声合成モジュール1110はさらに線形フィルタリング係数に基づいて線形予測フィルタに対してパラメータ構成を行い、音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得し、履歴音声パケットに対応するエネルギーゲイン値及び音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得し、調整された履歴長期フィルタリング励起信号及び強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは調整された履歴長期フィルタリング励起信号に基づいて、強化された音声励起信号を線形合成フィルタリングする。
上記の実施例において、端末は線形フィルタリング係数に基づいて線形予測フィルタに対してパラメータ構成を行い、音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得し、履歴音声パケットに対応するエネルギーゲイン値及び音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得し、調整された履歴長期フィルタリング励起信号及び強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは調整された履歴長期フィルタリング励起信号に基づいて、強化された音声励起信号を線形合成フィルタリングして、異なるフレームの間のオーディオ信号を平滑化して、異なるフレームのオーディオ信号から構成された音声の品質を向上させる。
オーディオ信号強化装置の具体的な限定について、これまでのオーディオ信号強化方法の限定を参照すればよいため、ここでは説明を省略する。上記のオーディオ信号強化装置における各モジュールの全て又は一部はソフトウェア、ハードウェア及びその組み合わせで実現されてもよい。上記の各モジュールはハードウェア形態でコンピュータ機器におけるプロセッサーに埋め込まれてもよいし、個別に存在してもよく、さらに、ソフトウェア形態でコンピュータ機器におけるメモリに記憶されることで、プロセッサーが呼び出すように以上の各モジュールに対応する操作を実行する。
一実施例において、コンピュータ機器を提供し、当該コンピュータ機器はサーバーであってもよく、その内部構造図について図13を参照すればよい。当該コンピュータ機器は、システムバスによって接続されたプロセッサー、メモリ及びネットワークインターフェースを含む。当該コンピュータ機器のプロセッサーは計算及び制御機能を提供する。当該コンピュータ機器のメモリは不揮発性記憶媒体、内蔵メモリを含む。当該不揮発性記憶媒体にはオペレーティングシステム、コンピュータプログラム及びデータベースが記憶される。当該内蔵メモリは不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムが実行可能な環境を提供する。当該コンピュータ機器のデータベースは音声パケットデータを記憶する。当該コンピュータ機器のネットワークインターフェースはネットワークを介して外部の端末と接続して通信する。当該コンピュータ読み取り可能な命令はプロセッサーによって実行されると、オーディオ信号強化方法を実現する。
一実施例において、コンピュータ機器を提供し、当該コンピュータ機器は端末であってもよく、その内部構造図について図14を参照すればよい。当該コンピュータ機器はシステムバスによって接続されたプロセッサー、メモリ、通信インターフェース、ディスプレイスクリーン及び入力装置を含む。当該コンピュータ機器のプロセッサーは計算及び制御機能を提供する。当該コンピュータ機器のメモリは不揮発性記憶媒体、内蔵メモリを含む。当該不揮発性記憶媒体にはオペレーティングシステム及びコンピュータプログラムが記憶される。当該内蔵メモリは不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムが実行可能な環境を提供する。当該コンピュータ機器の通信インターフェースは外部の端末と有線又は無線方式の通信を行って、無線方式はWIFI、オペレータネットワーク、NFC(近距離通信)又は他の技術で実現される。当該コンピュータプログラムはプロセッサーによって実行されると、オーディオ信号強化方法を実現する。当該コンピュータ機器のディスプレイスクリーンは液晶ディスプレイスクリーン又は電子インクディスプレイスクリーンであってもよく、当該コンピュータ機器の入力装置はディスプレイスクリーンをカバーしたタッチ層であってもよいし、コンピュータ機器のハウジングに配置されたボタン、トラックボール又はタッチパッドであってもよいし、外付けのキーボード、タッチパッド又はマウスなどであってもよい。
当業者であれば理解できるように、図13又は図14の構造は本願の態様が適用されるコンピュータ機器を限定せず、単に本願の態様に関連する一部の構造のブロック図であり、具体的なコンピュータ機器は、図示より多く又は少ない部材を含み、或いはいくつかの部材を組み合わせ、若しくは異なる部材配置を有する。
一実施例において、コンピュータプログラムが記憶されたメモリ及びプロセッサーを含むコンピュータ機器をさらに提供し、当該プロセッサーはコンピュータプログラムを実行すると、上記の各方法実施例におけるステップを実現する。
一実施例において、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータプログラムはプロセッサーによって実行されると、上記の各方法実施例におけるステップを実現する。
一実施例において、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ命令を含み、当該コンピュータ命令はコンピュータ読み取り可能な記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ読み取り可能な記憶媒体から当該コンピュータ命令を読み取って、実行することで、当該コンピュータ機器に上記の各方法実施例におけるステップを実行させる。
当業者であれば理解できるように、上記の実施例方法における全て又は一部のフローは、コンピュータプログラムが関するハードウェアに命令することで実現されてもよく、前記コンピュータプログラムは不揮発性コンピュータ読み取り可能な取記憶媒体に記憶され、当該コンピュータプログラムが実行される時、上記の各方法の実施例のフローを含んでもよい。本願が提供した各実施例におけるメモリ、ストレージ、データベース又は他の媒体に対する何れかの援用は、何れも不揮発性及び揮発性メモリのうちの少なくとも1つを含む。不揮発性メモリは読み取り専用メモリ(Read-Only Memory、ROM)、磁気テープ、フレキシブルディスク、フラッシュメモリ又は光メモリなどを含む。揮発性メモリはランダムアクセスメモリ(Random Access Memory、RAM)又は外部キャッシュメモリを含む。限定ではなく、説明として、RAMは多種の形態、例えば静的ランダムアクセスメモリ(Static Random Access Memory、SRAM)又は動的ランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)などであってもよい。
以上の実施例の各技術特徴を任意に組み合わせてもよく、記載を簡潔にするために、上記の実施例における各技術特徴の全ての可能な組み合わせを記載してはいないが、これらの技術特徴の組み合わせは矛盾しない限り、何れも本明細書の記載範囲に該当する。
以上の実施例は本願のいくつかの実施形態のみを示し、その記載は具体的且つ詳細であるが、発明特許範囲を限定したりしない。ここで、当業者にとって、本願の構想から逸脱しないことを前提として、いくつかの変更及び改善を行ってもよく、これらは何れも本願の保護範囲に属する。従って、本願特許の保護範囲は添付の請求項を準とする。
102 端末
104 サーバー

Claims (20)

  1. コンピュータ機器が実行するオーディオ信号強化方法であって、
    受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
    前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
    前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
    前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
    前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を含むことを特徴とするオーディオ信号強化方法。
  2. 前記残差信号をフィルタリングして、オーディオ信号を取得する前記ステップは、
    前記長期フィルタリングパラメータに基づいて長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって前記残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得するステップと、
    前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得するステップと、を含むことを特徴とする請求項1に記載のオーディオ信号強化方法。
  3. 前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する前記ステップは、
    前記長期フィルタリング励起信号を少なくとも2つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得するステップと、
    前記線形フィルタリングパラメータをグループに分けて、少なくとも2つの線形フィルタリングパラメータセットを取得するステップと、
    前記線形フィルタリングパラメータセットに基づいて、少なくとも2つの線形予測フィルタに対してパラメータ構成をそれぞれ行うステップと、
    取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、前記線形予測フィルタが前記線形フィルタリングパラメータセットに基づいて、前記サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得するステップと、
    各前記サブフレームのシーケンスに従って、前記サブオーディオ信号を組み合わせて、オーディオ信号を取得するステップと、を含むことを特徴とする請求項2に記載のオーディオ信号強化方法。
  4. 前記線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、
    前記長期フィルタリング励起信号における第1のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、前記第1のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得するステップと、
    前記履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び前記第1のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、前記サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定するステップと、
    前記エネルギー調整パラメータによって前記履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行うステップと、をさらに含み、
    前記取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、前記線形予測フィルタが前記線形フィルタリングパラメータセットに基づいて、前記サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得する前記ステップは、
    取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、前記線形予測フィルタが前記線形フィルタリング係数、及び前記エネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、前記第1のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第1のサブフレームに対応するサブオーディオ信号を取得するステップを含むことを特徴とする請求項3に記載のオーディオ信号強化方法。
  5. 前記音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定するステップと、
    前記履歴音声パケットにデータ異常がある場合、復号及びフィルタリングされた前記オーディオ信号が前方誤り訂正フレーム信号であると決定するステップと、をさらに含むことを特徴とする請求項1に記載のオーディオ信号強化方法。
  6. 前記特徴パラメータはケプストラム特徴パラメータを含み、
    前記オーディオ信号から特徴パラメータを抽出する前記ステップは、
    前記オーディオ信号をフーリエ変換して、フーリエ変換されたオーディオ信号を取得するステップと、
    前記フーリエ変換されたオーディオ信号を対数処理して、対数結果を取得するステップと、
    前記対数結果をフーリエ逆変換して、ケプストラム特徴パラメータを取得するステップと、を含むことを特徴とする請求項1に記載のオーディオ信号強化方法。
  7. 前記長期フィルタリングパラメータはピッチ周期及び振幅ゲイン値を含み、
    前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する前記ステップは、
    前記ピッチ周期、振幅ゲイン値、前記線形フィルタリングパラメータ及び前記ケプストラム特徴パラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップを含むことを特徴とする請求項6に記載のオーディオ信号強化方法。
  8. 前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップは、
    前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、前記オーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得するステップを含むことを特徴とする請求項1に記載のオーディオ信号強化方法。
  9. 前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する前記ステップは、
    前記特徴パラメータ、前記長期フィルタリングパラメータ、前記線形フィルタリングパラメータ、前記フィルタ音声励起信号を事前訓練された信号強化モデルに入力して、前記信号強化モデルが前記特徴パラメータに基づいて前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップを含むことを特徴とする請求項1に記載のオーディオ信号強化方法。
  10. 前記特徴パラメータはケプストラム特徴パラメータを含み、
    前記特徴パラメータ、前記長期フィルタリングパラメータ、前記線形フィルタリングパラメータ、前記フィルタ音声励起信号を事前訓練された信号強化モデルに入力して、前記信号強化モデルが前記特徴パラメータに基づいて前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する前記ステップは、
    前記ケプストラム特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得するステップと、
    前記特徴ベクトル、前記フィルタ音声励起信号を事前訓練された信号強化モデルに入力するステップと、
    前記信号強化モデルによって前記特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得するステップと、
    前記ターゲット特徴ベクトルに基づいて前記フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得するステップと、を含むことを特徴とする請求項9に記載のオーディオ信号強化方法。
  11. 前記ターゲット特徴ベクトルに基づいて前記フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する前記ステップは、
    前記フィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得するステップと、
    前記ターゲット特徴ベクトルに基づいて前記周波数領域音声励起信号の振幅値特徴を強化させるステップと、
    前記振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得するステップと、を含むことを特徴とする請求項10に記載のオーディオ信号強化方法。
  12. 前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する前記ステップは、
    前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得するステップを含むことを特徴とする請求項1に記載のオーディオ信号強化方法。
  13. 前記線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、
    前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記強化された音声励起信号を線形合成フィルタリングする前記ステップは、
    前記線形フィルタリング係数に基づいて、線形予測フィルタに対してパラメータ構成を行うステップと、
    前記音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得するステップと、
    前記履歴音声パケットに対応するエネルギーゲイン値及び前記音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定するステップと、
    前記エネルギー調整パラメータによって前記履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得するステップと、
    前記調整された履歴長期フィルタリング励起信号及び前記強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、前記線形予測フィルタが前記調整された履歴長期フィルタリング励起信号に基づいて、前記強化された音声励起信号を線形合成フィルタリングするステップと、を含むことを特徴とする請求項12に記載のオーディオ信号強化方法。
  14. オーディオ信号強化装置であって、
    受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得する音声パケット処理モジュールと、
    前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出する特徴パラメータ抽出モジュールと、
    前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換する信号変換モジュールと、
    前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する音声強化モジュールと、
    前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する音声合成モジュールと、を含むことを特徴とするオーディオ信号強化装置。
  15. 前記音声パケット処理モジュールはさらに、
    前記長期フィルタリングパラメータに基づいて長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって前記残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得し、
    前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得することを特徴とする請求項14に記載のオーディオ信号強化装置。
  16. 前記音声パケット処理モジュールはさらに、
    前記長期フィルタリング励起信号を少なくとも2つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得し、
    前記線形フィルタリングパラメータをグループに分けて、少なくとも2つの線形フィルタリングパラメータセットを取得し、
    前記線形フィルタリングパラメータセットに基づいて、少なくとも2つの線形予測フィルタに対してパラメータ構成をそれぞれ行い、
    取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、前記線形予測フィルタが前記線形フィルタリングパラメータセットに基づいて、前記サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得し、
    各前記サブフレームのシーケンスに従って、前記サブオーディオ信号を組み合わせて、オーディオ信号を取得することを特徴とする請求項15に記載のオーディオ信号強化装置。
  17. 前記線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、
    前記音声パケット処理モジュールはさらに、
    前記長期フィルタリング励起信号における第1のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、前記第1のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得し、
    前記履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び前記第1のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、前記サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定し、
    前記エネルギー調整パラメータによって前記履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行い、
    取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、前記線形予測フィルタが前記線形フィルタリング係数、及び前記エネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、前記第1のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第1のサブフレームに対応するサブオーディオ信号を取得することを特徴とする請求項16に記載のオーディオ信号強化装置。
  18. コンピュータプログラムが記憶されたメモリとプロセッサーとを含むコンピュータ機器であって、前記プロセッサーは前記コンピュータプログラムを実行すると、請求項1~13の何れか1項に記載のオーディオ信号強化方法のステップを実現することを特徴とするコンピュータ機器。
  19. コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムはプロセッサーによって実行されると、請求項1~13の何れか1項に記載のオーディオ信号強化方法のステップを実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
  20. プロセッサーによって実行されると、請求項1~13の何れか1項に記載のオーディオ信号強化方法のステップを実現するコンピュータプログラムを含むことを特徴とするコンピュータプログラム製品。
JP2023535590A 2021-04-30 2022-04-15 オーディオ信号強化方法、装置、コンピュータ機器及びコンピュータプログラム Pending JP2023553629A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110484196.6 2021-04-30
CN202110484196.6A CN113763973A (zh) 2021-04-30 2021-04-30 音频信号增强方法、装置、计算机设备和存储介质
PCT/CN2022/086960 WO2022228144A1 (zh) 2021-04-30 2022-04-15 音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品

Publications (1)

Publication Number Publication Date
JP2023553629A true JP2023553629A (ja) 2023-12-25

Family

ID=78786944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023535590A Pending JP2023553629A (ja) 2021-04-30 2022-04-15 オーディオ信号強化方法、装置、コンピュータ機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20230099343A1 (ja)
EP (1) EP4297025A1 (ja)
JP (1) JP2023553629A (ja)
CN (1) CN113763973A (ja)
WO (1) WO2022228144A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571079A (zh) * 2021-02-08 2021-10-29 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN113763973A (zh) * 2021-04-30 2021-12-07 腾讯科技(深圳)有限公司 音频信号增强方法、装置、计算机设备和存储介质
CN113938749B (zh) * 2021-11-30 2023-05-05 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备和存储介质
CN116994587B (zh) * 2023-09-26 2023-12-08 成都航空职业技术学院 一种培训监管系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3063760T3 (pl) * 2013-10-31 2018-05-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem ukrywania błędów na bazie sygnału pobudzenia w dziedzinie czasu
CN103714820B (zh) * 2013-12-27 2017-01-11 广州华多网络科技有限公司 参数域的丢包隐藏方法及装置
CN107248411B (zh) * 2016-03-29 2020-08-07 华为技术有限公司 丢帧补偿处理方法和装置
US11437050B2 (en) * 2019-09-09 2022-09-06 Qualcomm Incorporated Artificial intelligence based audio coding
CN111554308A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN112489665B (zh) * 2020-11-11 2024-02-23 北京融讯科创技术有限公司 语音处理方法、装置以及电子设备
CN113763973A (zh) * 2021-04-30 2021-12-07 腾讯科技(深圳)有限公司 音频信号增强方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113763973A (zh) 2021-12-07
WO2022228144A1 (zh) 2022-11-03
US20230099343A1 (en) 2023-03-30
EP4297025A1 (en) 2023-12-27

Similar Documents

Publication Publication Date Title
JP2023553629A (ja) オーディオ信号強化方法、装置、コンピュータ機器及びコンピュータプログラム
CN105637583B (zh) 自适应带宽扩展方法及其装置
US11594236B2 (en) Audio encoding/decoding based on an efficient representation of auto-regressive coefficients
JP6469079B2 (ja) 重み付けされたノイズの注入によるフレーム消失補正
CN104937662B (zh) 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体
JP6545748B2 (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類
JP7490894B2 (ja) 深層生成ネットワークを用いたリアルタイムパケット損失隠蔽
CN111508470A (zh) 一种语音合成模型的训练方法及装置
KR20240022588A (ko) 신경망 및 벡터 양자화기를 사용하여 오디오 파형 압축
Giacobello et al. Stable 1-norm error minimization based linear predictors for speech modeling
KR20220045260A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
CN110164456A (zh) 音频信号处理装置、音频信号处理方法及存储介质
CN107710324A (zh) 音频编码器和用于对音频信号进行编码的方法
CN106463122A (zh) 突发帧错误处理
CN111048065B (zh) 文本纠错数据生成方法及相关装置
CN114203151A (zh) 语音合成模型的训练的相关方法以及相关装置、设备
US20130246068A1 (en) Method and apparatus for decoding an audio signal using an adpative codebook update
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
CN116168703B (zh) 一种语音识别方法、装置、系统、计算机设备及存储介质
Krishnan A framework for low bit-rate speech coding in noisy environment
KR20240068229A (ko) 심층 신경망 기반 오디오 부복호화기를 위한 오디오 신호 처리 장치 및 방법
CN117935840A (zh) 由终端设备执行的方法和设备
KR20220050924A (ko) 오디오 코딩을 위한 다중 래그 형식
CN117672254A (zh) 语音转换方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230609

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240610