JP2022527810A - 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム - Google Patents

周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム Download PDF

Info

Publication number
JP2022527810A
JP2022527810A JP2021558881A JP2021558881A JP2022527810A JP 2022527810 A JP2022527810 A JP 2022527810A JP 2021558881 A JP2021558881 A JP 2021558881A JP 2021558881 A JP2021558881 A JP 2021558881A JP 2022527810 A JP2022527810 A JP 2022527810A
Authority
JP
Japan
Prior art keywords
spectrum
high frequency
low frequency
envelope
amplitude spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021558881A
Other languages
English (en)
Other versions
JP7297367B2 (ja
Inventor
▲ウェイ▼ 肖
孝明 黄
家君 ▲陳▼
燕南 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022527810A publication Critical patent/JP2022527810A/ja
Application granted granted Critical
Publication of JP7297367B2 publication Critical patent/JP7297367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明の実施例は、周波数帯域拡張方法、装置、電子デバイス、およびコンピュータ読み取り可能な記憶媒体を提供し、この方法は、電子デバイスによって実行され、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定するステップと、低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得るステップと、相関性パラメータと低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得るステップと、狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成するステップと、ターゲット高周波数振幅スペクトルと高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得るステップと、低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得るステップと、を含む。

Description

[関連出願への相互参照]
本願は、2019年9月18日に中国特許庁に出願された、出願番号が201910883374.5であり、発明名称が「周波数帯域拡張方法、装置、電子デバイスおよびコンピュータ読み取り可能な記憶媒体」である中国特許出願の優先権を主張し、そのすべての内容が、参照により本願に組み込まれる。
[技術分野]
本願は、オーディオ信号処理の技術分野に関し、具体的には、本願は、周波数帯域拡張方法、装置、電子デバイスおよびコンピュータ読み取り可能な記憶媒体に関する。
周波数帯域拡張は、周波数帯域コピーとも呼ばれることができ、オーディオコーディング分野におけるクラシックな技術である。周波数帯域拡張技術は、パラメータコーディング技術であり、周波数帯域拡張により、受信側で有効帯域幅を拡張してオーディオ信号の品質を向上させることができ、これにより、ユーザは、より明るい音色、より大きな音量、より優れた明瞭度を直観的に感じることができる。
従来の技術において、周波数帯域拡張の1つのクラシックな実現方法は、音声信号における高周波数と低周波数との間の相関性を利用して周波数帯域拡張を実行するものであり、オーディオコーディングシステムにおいて、上記の相関性をサイド情報(side information)として使用し、符号化端では、上記のサイド情報をコードストリームに統合して送信し、復号端では、復号により、低周波数スペクトラムを順次に復元するとともに、周波数帯域拡張動作を実行して高周波数スペクトラムを復元する。しかし、当該方法は、システムが相応的なビットを消費する(例えば、低周波数部分の情報をコーディングする上に、上記のサイド情報をコーディングするために追加の10%のビットがかかる)必要があり、つまり、コーディングのために追加のビットが必要とされ、また、上位互換性(Forwards Compatibility)という問題も存在している。
周波数帯域拡張の別のよく使用されている方法は、データ分析に基づくブランドスキームであり、このスキームは、ニューラルネットワークまたは深層学習に基づくものであり、入力が低周波数係数であり、出力が高周波数係数である。このような係数-係数のマッピング方式は、ネットワークの一般化能力に対する要求がすごく高く、効果を確保するために、ネットワークの深度および体積が大きくなり、複雑度が高くなってしまい、実際のプロセスにおいて、訓練ライブラリに含まれているモードを超えるシーンにおいて、当該方法の性能が、それほど良好といえない。
本願の実施例の主要な目的は、周波数帯域拡張方法、装置、電子デバイスおよびコンピュータ読み取り可能な記憶媒体を提供することで、従来技術に存在している少なくとも1つの技術的欠陥を解決し、実際の適用のニーズをよりよく満たすことである。本願の実施例によって提供される技術案は、以下の通りである。
第1態様において、本発明の実施例は、電子デバイスによって実行される周波数帯域拡張方法を提供し、この方法は、
処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定するステップであって、前記低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれるステップと、
前記低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得るステップであって、前記相関性パラメータが、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、前記相関性パラメータには、高周波数スペクトラムエンベロープが含まれるステップと、
前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得るステップと、
前記狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成するステップと、
前記ターゲット高周波数振幅スペクトルと前記高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得るステップと、
前記低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得るステップと、を含む。
第2態様において、本発明の実施例は、周波数帯域拡張装置を提供し、この装置は、
処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定する低周波数スペクトラムパラメータ決定モジュールであって、前記低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる低周波数スペクトラムパラメータ決定モジュールと、
前記低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得る相関性パラメータ決定モジュールであって、前記相関性パラメータが、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、前記相関性パラメータには、高周波数スペクトラムエンベロープが含まれる相関性パラメータ決定モジュールと、
前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る高周波数振幅スペクトル決定モジュールと、
前記狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する高周波数位相スペクトル生成モジュールと、
前記ターゲット高周波数振幅スペクトルと前記高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得る高周波数スペクトラム決定モジュールと、
前記低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得る広帯域信号決定モジュールと、を含む。
第3態様において、本発明の実施例は、電子デバイスを提供し、前記電子デバイスには、プロセッサとメモリとが含まれ、前記メモリには、読み取り可能な命令が記憶されており、前記読み取り可能な命令が前記プロセッサによってロードされて実行されると、上記の周波数帯域拡張方法が実現される。
第4態様において、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記読み取り可能な命令は、電子デバイスプロセッサによってロードされて実行されると、上記の周波数帯域拡張方法が実現される。
本願の実施例における技術案をより明確に説明するために、以下、本願の実施例の説明において必要とされる図面について簡単に説明する。
本願の実施例において提供される周波数帯域拡張方法のシーン図を示す。 本願の実施例において提供される周波数帯域拡張方法の模式的フローチャートを示す。 本願の実施例において提供されるニューラルネットワークモデルのネットワーク構造の模式図を示す。 本願の実施例において提供される周波数帯域拡張方法の一例の模式的フローチャートを示す。 本願の実施例において提供される周波数帯域拡張装置の構造の模式図を示す。 本願の実施例において提供される電子デバイスの構造の模式図を示す。
本願の目的、特徴、利点をより明らかでかつ理解しやすくするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術案を明確かつ完全に説明し、明らかに、説明する実施例は、本願の実施例の一部に過ぎず、すべての実施例においてない。本願の実施例に基づいて、当業者が創造的な努力をしていない前提で取得する他のすべての実施例は、本願の保護の範囲に属する。
以下、本願の実施例を詳細に説明し、当該実施例の例示的な例は、図面に示されており、この中で最初から最後まで同一または類似の符号は、同一または類似の構成要素、または同一または類似の機能を有する構成要素を示す。以下、図面を参照することで説明する実施例は、例示的なものであり、本願を解釈するためにのみ使用され、本願に対する制限として解釈され得ない。
当業者は、特に明記しない限り、本明細書で使用される単数形「一」、「1つ」、「前記」および「当該」が複数形を含み得る、ということを理解することができる。さらに理解すべきものとして、本願の明細書で使用される用語「含む」は、特徴、整数、ステップ、動作、構成要素および/またはコンポーネントが存在するが、1つまたは複数の其他の特徴、整数、ステップ、動作、構成要素、コンポーネントおよび/またはそれらの組み合わせの存在または追加を除外しない、ということを指す。理解すべきものとして、構成要素が別の構成要素に「接続」または「結合」されていると言うとき、それが、他の構成要素に直接に接続または結合されてもよく、または中間構成要素が存在してもよい。さらに、ここで使用される「接続」または「結合」は、無線接続または無線結合を含むことができる。ここで使用される用語「および/または」は、1つまたは複数の関連付けられたリスト項目のすべて、または任意のユニットおよびすべての組み合わせを含む。
本願の実施例の解決手段をよりよく理解、説明するために、以下、本願の実施例に係る技術的用語のいくつかを簡単に説明する。
周波数帯域拡張(BWE:Band Width Extension)は、オーディオコーディング分野における、狭周波数帯域信号を広帯域信号に拡張する技術である。
スペクトラムは、周波数スペクトル密度の略語であり、周波数の分散曲線である。
スペクトラムエンベロープ(SE:Spectrum Envelope)は、信号に対応する周波数軸において、信号に対応するスペクトル係数のエネルギー表現であり、サブ帯域に対しては、サブ帯域に対応するスペクトル係数のエネルギー表現であり、例えば、サブ帯域に対応するスペクトル係数の平均エネルギーである。
スペクトラム平坦度(SF:Spectrum Flatness)は、測定対象信号の所在するチャネル内の、この測定対象信号のパワーの平坦の度合いを特徴づける。
ニューラルネットワーク(NN:Neural Network)は、動物のニューラルネットワークの行為特徴を模倣して、分散的並列情報処理を行うアルゴリズム数学モデルである。このようなネットワークは、システムの複雑度に依存し、内部の大量のノード間の相互接続の関係を調整することにより、情報処理の目的を達成させる。
深層学習(DL:Deep Learning)は、機械学習の一種であり、深層学習は、下位層の特徴を組み合わせることによって、より抽象的な高位層の表現属性カテゴリまたは特徴を形成し、これにより、データの分散的特徴表示を発見する。
公衆交換電話ネットワーク(PSTN:Public Switched Telephone Network)は、よく使用されている旧式の電話システムであり、つまり、私たちの日常生活でよく使用されている電話網である。
ネットワーク電話(VoIP:Voice over Internet Protocol)は、音声通話技術であり、インターネットプロトコルを介して音声通話およびマルチメディア会議を実現し、つまり、インターネットを介して通信を行うことである。
3GPP EVSについては、3GPP(3rd Generation Partnership Project、第3世代パートナーシッププロジェクト)は、主に、グローバルモバイル通信システムに基づく、無線インターフェースのための第3世代技術仕様を制定し、EVS(Enhance Voice Services、強化型音声サービス)エンコーダは、新世代の音声エンコーダであり、音声や音楽信号の両方に対して、非常に高いオーディオ品質を提供することができるだけでなく、非常に強力なアンチロストフレームおよびアンチディレイジッタの能力をも持っており、ユーザにまったく新たな体験をもたらすことができる。
IEFT OPUSについては、Opusは、インターネットエンジニアリングタスクフォース(IETF:The Internet Engineering Task Force)により開発された損失性音声コーディングフォーマットである。
SILKについては、Silkオーディオエンコーダは、Skypeネットワーク電話で第3方の開発者およびハードウェアメーカーにロイヤリティフリー認証を提供するためのSilk広帯域である。
周波数帯域拡張は、オーディオコーディング分野におけるクラシックな技術であり、以上の説明から分かるように、従来技術において、周波数帯域拡張は、以下の方式によって実現され得る。
第1方式は、低サンプリングレートでの狭周波数帯域信号の場合、狭周波数帯域信号における低周波数部分のスペクトラムを選択して高周波数にコピーし、予め記録されたサイド情報(高周波数と低周波数との間のエネルギー相関性を説明する情報)に従って、狭周波数帯域信号(即ち、狭帯域信号)を広周波数帯域信号(即ち、広帯域信号)に拡張することである。
第2方式は、ブランド周波数帯域拡張であって、その名前の通りに考えているように、追加のビットを必要とせず、直接に周波数帯域拡張を完成し、低サンプリングレートでの狭周波数帯域信号の場合、入力を狭周波数帯域信号の低周波数スペクトラム、出力を高周波数スペクトラムとするニューラルネットワークまたは深層学習などの技術を利用し、高周波数スペクトラムに基づいて、狭周波数帯域信号を広周波数帯域信号に拡張することである。
しかし、第1方式により周波数帯域拡張を行うと、その中のサイド情報が、相応的なビットを消費する必要があり、かつ、上位互換性という問題が存在しており、例えば、1つの典型的なシーンは、PSTN(狭帯域音声)とVoIP(広帯域音声)が互いに通信するシーンである。PSTNからVoIP(PSTN-VoIPと略される)への伝送方向において、伝送プロトコルを修正(対応する周波数帯域拡張コードストリームを追加)しないと、PSTN-VoIPの伝送方向において広帯域音声を出力するという目的を達成することができない。第2方式により周波数帯域拡張を行うと、入力は低周波数スペクトラムであり、出力は高周波数スペクトラムである。このような方式は、追加のビットを消費する必要がないが、ネットワークの一般化能力に対して要求がすごく高くて、ネットワーク出力の正確性を確保するために、ネットワークの深度および体積が大きくなり、複雑度が高くなり、性能が悪くなってしまう。したがって、上記の2種類の周波数帯域拡張方式に基づいて、いずれも実際の周波数帯域拡張の性能要件を満たすことはできない。
従来技術に存在している問題に対して、および、実際の適用のニーズをよりよく満たすために、本願の実施例は、周波数帯域拡張方法を提供し、この方法によれば、追加のビットを必要としないだけでなく、ネットワークの深度および体積を減少し、ネットワークの複雑度を低減させることもできる。
本願の実施例において、PSTNとVoIPが互いに通信する音声シーンを例として本願の解決手段を説明し、即ち、PSTN-VoIPの伝送方向において、狭帯域音声を広帯域音声に拡張する。実際の適用において、本願は、上記の適用シーンに限定されず、他のコーディングシステムに適用されることもでき、このようなコーディングシステムは、3GPP EVS、IEFT OPUS、SILKなどの主流となるオーディオエンコーダを含むが、これらに限定されない。
以下、具体的な実施例を使用して本願の技術案および本願の技術案が上記の技術的課題をどのように解決するかについて詳細に説明する。以下のいくつかの具体的な実施例を互いに組み合わせることができ、同一または類似の概念や過程については、いくつかの実施例において再度言及しない場合がある。以下、図面を参照しながら、本願の実施例を説明する。
説明すべきものとして、以下、PSTNとVoIPが互いに通信する音声シーンを例として本願の解決手段を説明する場合、サンプリングレートは、8000Hzであり、1フレームの音声フレームのフレーム長は、10msである(80個のサンプリング点/フレームに相当する)。実際の適用において、PSTNフレームのフレーム長が20msであることを考慮すると、各PSTNフレームに対して2回の動作を実行するだけで済む。
本願の実施例の説明において、データフレーム長を10msに固定することを例とするが、当業者にとって明らかなものとして、フレーム長が他の値であるシーン、例えば20ms(160個のサンプリング点/フレームに相当)のシーンでも、本願は、依然として適用可能であり、ここでは限定していない。同様に、本願の実施例において、サンプリングレートが8000Hzであることを例とすることは、本願の実施例によって提供される周波数帯域拡張の作用範囲を限定することではない。例えば、本願の主な実施例は、サンプリングレートが8000Hzである信号をサンプリングレートが16000Hzである信号に周波数帯域拡張するが、本願は、他のサンプリングレートのシーン、例えばサンプリングレートが16000Hzである信号をサンプリングレートが32000Hzである信号に拡張したり、サンプリングレートが8000Hzである信号をサンプリングレートが12000Hzである信号に拡張したりするなどのシーンにも適用され得る。本願の実施例の解決手段は、信号の周波数帯域拡張の実行を必要とする任意のシーンに適用され得る。
図1Aは、本願の実施例において提供される周波数帯域拡張方法の適用シーン図を示す。図1Aに示すように、電子デバイスは、携帯電話110またはノートパソコン112を含むことができるが、これに限られない。電子デバイスが携帯電話110であることを例として、残りは類似なものである。携帯電話110は、ネットワーク12を介してサーバデバイス13と通信する。ここで、この例において、サーバデバイス13は、ニューラルネットワークモデルを含む。携帯電話110は、処理対象となる狭帯域信号をサーバデバイス13におけるニューラルネットワークモデルに入力し、図1Bに示す方法により、周波数帯域が拡張された広帯域信号を取得して出力する。
図1Aの例において、ニューラルネットワークモデルは、サーバデバイス13に配置されるが、別の実現形態において、ニューラルネットワークモデルは、電子デバイスに配置されてもよい(図示せず)。
図1Bは、本願によって提供される周波数帯域拡張方法の模式的フローチャートを示し、図に示すように、当該方法は、図5に示す電子デバイスによって実行されてもよく、ステップS110~ステップS160を含み、これらのうち、
ステップS110で、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定し、ここで、低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる。
ここで、処理対象となる狭帯域信号は、周波数帯域拡張を必要とする音声フレーム信号であってもよく、例えば、PSTN-VoIPパスにおいて、PSTN狭帯域音声信号をVoIP広帯域音声信号に拡張する必要がある場合、狭帯域信号は、PSTN狭帯域音声信号であってもよい。狭帯域信号が音声フレームである場合、当該狭帯域信号は、1フレームの音声フレームの全部または一部の音声信号であってもよい。
具体的には、実際の適用シーンにおいて、処理を必要とする信号に対して、当該信号を狭帯域信号として周波数帯域拡張を一度に完成してもよく、当該信号を複数のサブ信号に分割して、複数のサブ信号に対してそれぞれ処理してもよいし、例えば、上記のPSTNフレームのフレーム長が20msである場合、この20msの音声フレームの信号に対して周波数帯域拡張を一度に行ってもよく、この20msの音声フレームを2つの10msの音声フレームに分割して、2つの10msの音声フレームに対して周波数帯域拡張をそれぞれ行ってもよい。
ステップS120で、低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得て、ここで、相関性パラメータは、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、相関性パラメータには、高周波数スペクトラムエンベロープが含まれる。
ここで、ニューラルネットワークモデルは、サンプル信号の低周波数スペクトラムパラメータに基づいて予め訓練して得られたモデルであってもよく、このモデルは、信号の相関性パラメータを予測するために使用される。ターゲット広周波数スペクトラムとは、狭帯域信号を拡張することにより得られようとする広帯域信号(ターゲット広帯域信号)に対応するスペクトラムを指す。ターゲット広周波数スペクトラムは、狭帯域信号の低周波数スペクトラムに基づいて得られたものであってもよく、例えば、ターゲット広周波数スペクトラムは、狭帯域信号の低周波数スペクトラムをコピーして得られたものであってもよい。
ステップS130で、相関性パラメータと低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る。
相関性パラメータがターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけることができるので、この相関性パラメータと低周波数振幅スペクトル(低周波数部分に対応するパラメータ)に基づいて、拡張して得られる必要がある広帯域信号のターゲット高周波数スペクトラムパラメータ(高周波数部分に対応するパラメータ)を予測することができる。
ステップS140で、狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する。
ここで、低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する方式は、本願の実施例に限定されず、以下のいずれか1つを含むことができるが、これらに限定されない。
第1種類は、低周波数位相スペクトルをコピーすることによって、対応する高周波数位相スペクトルを得る方式である。
第2種類は、低周波数位相スペクトルをフリッピングし(折り返し)、フリッピングされた後に低周波数位相スペクトルと同じ位相スペクトルを得て、この2つの低周波数位相スペクトルを対応する高周波数の周波数ポイント(高周波数ポイント)にマッピングして、対応する高周波数位相スペクトルを得る方式である。
ステップS150で、高周波数振幅スペクトルと高周波数位相スペクトルに基づいて、高周波数スペクトラムを得る。
ステップS160:低周波数スペクトラムと高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得る。
高周波数振幅スペクトルと高周波数位相スペクトルに基づいて高周波数スペクトラムを得た後、低周波数スペクトラムと高周波数スペクトラムをマージし、マージされたスペクトラムに対して、時間-周波数逆変換、即ち、周波数-時間変換を行い、新しい広帯域信号を得ることができ、これにより、狭帯域信号の周波数帯域拡張が実現される。
拡張して得られた広帯域信号の帯域幅が狭帯域信号の帯域幅よりも大きいため、当該広帯域信号に基づいて、音色が大きくてよく通る、音量が比較的大きい音声フレームを得ることができ、これにより、ユーザは、より良好な聴覚体験を有することができる。
本願の実施例によって提供される周波数帯域拡張方法は、ニューラルネットワークモデルの出力から上記の相関性パラメータを得て、ニューラルネットワークモデルを使用して予測を行うため、追加のビットをコーディングする必要がなく、これがブランド分析方法であり、良好な上位互換性を有し、かつ、モデルの出力がターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を反映できるパラメータであるため、スペクトラムパラメータから相関性パラメータへのマッピングが実現され、係数から係数への従来のマッピング方式と比べて、より良い一般化能力を持っている。本願の実施例の周波数帯域拡張の解決手段によれば、音色が大きくてよく通る、音量が比較的大きい信号を得ることができ、これにより、ユーザは、より良好な聴覚体験を得ることができる。
本願の解決手段では、ニューラルネットワークモデルは、サンプルデータに基づいて予め訓練して得られたモデルであってもよく、各サンプルデータには、サンプル狭帯域信号と当該サンプル狭帯域信号に対応するサンプル広帯域信号とが含まれ、各サンプルデータに対して、そのサンプル広帯域信号のスペクトラムの高周波数部分と低周波数部分との間の相関性パラメータ(当該パラメータは、サンプルデータのラベル情報、即ちサンプルラベルとして理解されてもよく、ラベル結果と略される)を決定することができ、当該相関性パラメータには、高周波数スペクトラムエンベロープが含まれ、また、サンプル広帯域信号のスペクトラムの高周波数部分と低周波数部分との間の相対平坦度情報がさらに含まれており、サンプルデータに基づいてニューラルネットワークモデルを訓練する際に、初期のニューラルネットワークモデルの入力は、サンプル狭帯域信号の低周波数スペクトラムパラメータであり、出力は、予測された相関性パラメータ(予測結果と略される)であり、各サンプルデータに対応する予測結果とラベル結果との間の類似度に基づいて、モデル訓練が終了したかどうかを判断することができ、例えば、各サンプルデータの予測結果とラベル結果との間の差異の度合いを特徴づけるための、モデルの損失関数が収束したかどうかにより、モデル訓練が終了したかどうかを判断し、訓練が終了した際のモデルを、本願の実施例に適用されるニューラルネットワークモデルとする。
ニューラルネットワークモデルを適用する段階では、上記の狭帯域信号に対して、当該狭帯域信号の低周波数スペクトラムパラメータを訓練済みのニューラルネットワークモデルに入力し、当該狭帯域信号に対応する相関性パラメータを得ることができる。サンプルデータに基づいてモデルを訓練する際に、サンプルデータのサンプルラベルは、サンプル広帯域信号の高周波数部分と低周波数部分との間の相関性パラメータであるため、したがって、当該ニューラルネットワークモデルの出力に基づいて当該狭帯域信号の相関性パラメータを得る場合、当該相関性パラメータは、ターゲット広帯域信号のスペクトラムの高周波数部分と低周波数部分との間の相関性をよく特徴付けることができる。本願の解決手段では、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定することは、
狭帯域信号に対して、サンプリングファクターを第1所定値とするアップサンプリング処理を行い、アップサンプリング信号を得ることと、
アップサンプリング信号に対して時間-周波数変換を行い、低周波数の周波数ドメイン係数を得ることと、
低周波数の周波数ドメイン係数に基づいて、狭帯域信号の低周波数振幅スペクトルを決定することと、を含むことができる。
さらに、狭帯域信号の低周波数振幅スペクトルを決定した後、低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを決定することもできる。
本願の一実施例において、上記の低周波数スペクトラムパラメータには、狭帯域信号の低周波数スペクトラムエンベロープがさらに含まれる。
具体的には、ニューラルネットワークモデルに入力されるデータをより豊富にするために、低周波数部分のスペクトラムに関連するパラメータをニューラルネットワークモデルの入力として選択することもでき、狭帯域信号の低周波数スペクトラムエンベロープが信号のスペクトラムに関連する情報である場合、低周波数スペクトラムエンベロープをニューラルネットワークモデルの入力とすることができ、これにより、低周波数スペクトラムエンベロープと低周波数振幅スペクトルに基づいて、より正確な相関性パラメータを得ることができる。これによって、低周波数スペクトラムエンベロープと低周波数振幅スペクトルをニューラルネットワークモデルに入力し、相関性パラメータを得ることができる。
本願によって提供される解決手段をよりよく説明するために、以下、一例を参照しながら、低周波数スペクトラムパラメータの決定方式をさらに詳細に説明する。この例において、以上で説明した、PSTNとVoIPhが互いに通信する音声シーン、音声信号のサンプリングレートが8000Hzであり、1フレームの音声フレームのフレーム長が10msである場合を例として説明する。
この例において、PSTN信号のサンプリングレートが8000Hzであり、Nyquist(ナイキスト)サンプリング定理に従って、狭帯域信号の有効帯域幅が4000Hzになる。本例の目的は、当該狭帯域信号に対して周波数帯域拡張を行った後、帯域幅が8000Hzである信号を得る、ことであり、即ち、広帯域信号の帯域幅が8000Hzである。実際の音声通信シーンにおいて、有効帯域幅が4000Hzである信号を考慮すると、その有効帯域幅の上限は、一般的に3500Hzになる。従って、本解決手段では、実際に得られた広帯域信号の有効帯域幅は7000Hzになり、このようにして、本例の目的は、帯域幅が3500Hzである信号に対して周波数帯域拡張を行って、帯域幅が7000Hzである広帯域信号を得る、即ち、サンプリングレートが8000Hzである信号に対して周波数帯域拡張を行って、サンプリングレートが16000Hzである信号になる、ことである。
本例において、サンプリングファクターが2であり、狭帯域信号に対して、サンプリングファクターが2であるアップサンプリング処理を行い、サンプリングレートが16000Hzであるアップサンプリング信号を得る。狭帯域信号のサンプリングレートが8000Hzであり、フレーム長が10msであるため、このアップサンプリング信号は、160個のサンプルポイントに対応する。
その後、アップサンプリング信号に対して時間-周波数変換を行い、時間-周波数変換には、短時間フーリエ変換(STFT:Short-Term Fourier Transform)および高速フーリエ変換(FFT: Fast Fourier Transform)が使用されてもよく、具体的な時間-周波数変換プロセスは、以下のとおりであり、即ち、
アップサンプリング信号に対して短時間フーリエ変換を行う場合、フレーム間データの不連続性を解消することを考慮すると、1つ前のフレームの音声フレームに対応する周波数ポイントと、現在の音声フレーム(処理対象となる狭帯域信号)に対応する周波数ポイントとを1つの配列に組み合わせることができ、そして、この配列における周波数ポイントに対してウィンドウイング処理を行って、本実施例において、ハニングウィンドウ(Hanning window)を使用してウィンドウイング処理を行ってもよい。続いて、ウィンドウイング処理後の信号に対して高速フーリエ変換を行い、低周波数の周波数ドメイン係数を得て、高速フーリエ変換の共役対称関係を考慮すると、一番目の係数が直流成分であるため、得られた低周波数の周波数ドメイン係数がM個であれば、(1+M/2)個の低周波数の周波数ドメイン係数を選択して後続の処理を行うことができる。
具体的には、160個のサンプル点を含む上記のアップサンプリング信号に対して、1つ前の音声フレームに対応する160個のサンプル点と、現在の音声フレームに対応する160個のサンプル点とを、320個のサンプル点を含む配列に組み合わせる。続いて、この配列におけるサンプル点に対してウィンドウイング処理を行い(例えば、ハニングウィンドウを使用してウィンドウイング処理を行い)、得られた、ウィンドウイングされてオーバーラップされた信号が、sLow(i,j)になると仮定する。その後、sLow(i,j)に高速フーリエ変換を行い、320個の低周波数の周波数ドメイン係数SLow(i,j)を得て、同様に、iは、音声フレームのフレームインデックスであり、jは、フレーム内サンプルインデックス(j=0、1、…、319)である。FFTの共役対称関係を考慮すると、一番目の係数が直流成分であり、したがって、最初の161個の低周波数の周波数ドメイン係数だけを考慮してもよい。
低周波数の周波数ドメイン係数を得た後、低周波数の周波数ドメイン係数に基づいて、狭帯域信号の低周波数振幅スペクトルを決定することができ、具体的には、以下の式(1)により、低周波数振幅スペクトルを算出することができる。

Figure 2022527810000002
ここで、PLow(i,j)は、低周波数振幅スペクトルを示し、SLow(i,j)は、低周波数の周波数ドメイン係数であり、RealおよびImagは、それぞれ、低周波数の周波数ドメイン係数の実数部および虚数部であり、SQRTは、平方根演算である。狭帯域信号は、サンプリングレートが16000Hzであり、帯域幅が0~3500Hzである信号であれば、狭帯域信号のサンプリングレートとフレーム長とに基づいて、低周波数の周波数ドメイン係数から、70個の低周波数振幅スペクトルのスペクトル係数(低周波数振幅スペクトル係数)PLow(i,j)、j=0、1、…69を決定することができる。実際の適用において、算出された70個の低周波数振幅スペクトル係数を直接に狭帯域信号の低周波数振幅スペクトルとすることができ、さらに、算出を容易にするために、さらに低周波数振幅スペクトルを対数ドメインに変換し、即ち、式(1)により算出された振幅スペクトルに対して対数演算を行い、対数演算後の振幅スペクトルを後続処理時の低周波数振幅スペクトルとすることもできる。
70個の係数を含む低周波数振幅スペクトルを得た後、低周波数振幅スペクトルに基づいて、狭帯域信号の低スペクトラムエンベロープを決定することができる。
本願の解決手段では、この方法は、
低周波数振幅スペクトルを第2数のサブ振幅スペクトルに分割するステップと、
各サブ振幅スペクトルに対応するサブスペクトラムエンベロープをそれぞれ決定するステップであって、低周波数スペクトラムエンベロープには、決定された第2数のサブスペクトラムエンベロープが含まれるステップと、をさらに含むことができる。
具体的には、低周波数振幅スペクトルのスペクトル係数をM個(第2数)のサブ振幅スペクトルに分割する実現可能な形態は、狭帯域信号に対して、バンディング処理を行い、M個のサブ振幅スペクトルを得て、各サブ帯域が、同じまたは異なる数のサブ振幅スペクトルのスペクトル係数に対応することができ、すべてのサブ帯域に対応するスペクトル係数の総数が、低周波数振幅スペクトルのスペクトル係数の個数に等しい、ことである。
M個のサブ振幅スペクトルに分割した後、各サブ振幅スペクトルに基づいて、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定することができ、ここで、1つの実現可能な形態は、各サブ振幅スペクトルに対応する低周波数振幅スペクトルのスペクトル係数に基づいて、各サブ帯域のサブスペクトラムエンベロープ、即ち、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定することができ、M個のサブ振幅スペクトルが、決定されたM個のサブスペクトラムエンベロープに対応することができ、このような場合、低周波数スペクトラムエンベロープが、決定されたM個のサブスペクトラムエンベロープを含む、ことである。
一例として、例えば、上記の70個の低周波数振幅スペクトルのスペクトル係数(式(1)に基づいて算出された係数であってよく、式(1)に基づいて算出してから対数ドメインに変換された係数であってよい)に対して、各サブ帯域には、同じ数、例えば5個のスペクトル係数が含まれる場合、5個のサブ振幅スペクトルごとのスペクトル係数に対応する周波数帯域は、1つのサブ帯域として分割され得て、この場合、合計14(M=14)個のサブ帯域に分割され、各サブ帯域は、5個のスペクトル係数に対応する。このような場合、14個のサブ振幅スペクトルに分割した後、この14個のサブ振幅スペクトルに基づいて、14個のサブスペクトラムエンベロープを決定することができる。
ここで、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定するステップは、
各サブ振幅スペクトルに含まれるスペクトル係数の対数値に基づいて、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得るステップを、含むことができる。
具体的には、各サブ振幅スペクトルのスペクトル係数に基づいて、式(2)により、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定する。
ここで、式(2)は、下記の通りである。

Figure 2022527810000003
ここで、eLow(i,k)は、サブスペクトラムエンベロープを示し、iは、音声フレームのフレームインデックスであり、kは、サブ帯域のインデックス番号を示し、合計M(k=0、1、2……M)個のサブ帯域があり、この場合、低周波数スペクトラムエンベロープには、M個のサブスペクトラムエンベロープが含まれる。
一般的に、サブ帯域のスペクトルエンベロープは、隣接する係数の平均エネルギーとして定義され(または、さらに対数表現に変換され)、しかし、このような方式は、幅値が小さい係数が実質的な役割を果たすことができない、ということをもたらす場合があり、本願の実施例によって提供される下記のような解決手段、即ち、各サブ振幅スペクトルに含まれるスペクトル係数の対数標識に対して平均値を直接に求めて、サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得る解決手段は、既存のよく使用されているエンベロープの決定のための解決手段と比較して、ニューラルネットワークモデルの訓練プロセスの歪み制御において、幅値がより小さい係数をよりよく保護することができ、これにより、より多くの信号パラメータは、周波数帯域拡張において、相応的な役割を果たすことができる。
一例として、例えば、低周波数振幅スペクトルのスペクトル係数が70個であり、各サブ帯域に対応するスペクトル係数の個数が同じであり、合計14個のサブ帯域に分割され、このような場合、サブ振幅スペクトルは、14個であり、各サブ振幅スペクトルは、5個のスペクトル係数が対応し、即ち、隣接する5個のスペクトル係数が1つのサブ帯域として対応され、各サブ帯域は、5個のスペクトル係数に対応し、低周波数スペクトラムエンベロープには、14個のサブスペクトラムエンベロープが含まれている。
これにより、低周波数振幅スペクトルと低周波数スペクトラムエンベロープをニューラルネットワークモデルの入力とし、低周波数振幅スペクトルを70次元のデータ、低周波数スペクトラムエンベロープを14次元のデータとすれば、モデルの入力は、84次元のデータになり、これによって、本解決手段におけるニューラルネットワークモデルは、体積が小さくなり、複雑度が低くなる。
本願の解決手段では、相関性パラメータと低周波数振幅スペクトルに基づいて、ターゲット高周波数振幅スペクトルを得るステップS130は、
低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを得るステップと、
低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成するステップと、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープに基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得るステップと、を含むことができる。
ここで、具体的には、低周波数振幅スペクトルをコピーすることによって初期高周波数振幅スペクトルを得ることができる。理解できるものとして、実際の適用において、低周波数振幅スペクトルをコピーする具体的な方式については、最後に必要とされる広帯域信号の周波数帯域幅、コピーしようとする、選択された低周波数振幅スペクトル部分の周波数帯域幅によって、コピー方式が異なっている。例えば、広帯域信号の周波数帯域幅が狭帯域信号の2倍であり、かつ、狭帯域信号のすべての低周波数振幅スペクトルをコピーするように選択すれば、1回のコピーだけで十分であり、狭帯域信号の一部の低周波数振幅スペクトルをコピーするように選択すれば、選択された部分に対応する周波数帯域幅に従って、対応する回数のコピーを行う必要があり、例えば、狭帯域信号の1/2の低周波数振幅スペクトルをコピーするように選択すれば、2回のコピーが必要となり、狭帯域信号の1/4の低周波数振幅スペクトルをコピーするように選択すれば、4回のコピーが必要となる。
一例として、例えば、拡張後の広帯域信号の帯域幅が7kHzであり、選択された、コピー対象となる低周波数振幅スペクトルに対応する帯域幅が1.75kHzであれば、低周波数振幅スペクトルに対応する帯域幅と拡張後的広帯域信号の帯域幅に基づいて、低周波数振幅スペクトルに対応する帯域幅を3回コピーし、初期高周波数振幅スペクトルに対応する帯域幅(5.25kHz)を得ることができる。選択された、コピー対象となる低周波数振幅スペクトルに対応する帯域幅が3.5kHzであり、拡張後の広帯域信号の帯域幅が7kHzであれば、低周波数振幅スペクトルに対応する帯域幅を1回コピーすると、初期高周波数振幅スペクトルに対応する帯域幅(3.5 kHz)を得ることができる。
本願の実施形態では、低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成する一実現形態は、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーし、初期高周波数振幅スペクトルを得る、ことであることができる。
低周波数振幅スペクトルの低周波数バンド部分には、大量の高調波が含まれてしまい、拡張後の広帯域信号の信号品質に影響を与えるため、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーするように選択して、初期高周波数振幅スペクトルを得ることができる。
一例として、上記のようなシーンを例としてさらに説明し、低周波数振幅スペクトルは、合計70個の周波数ポイントに対応し、低周波数振幅スペクトルに対応する35~69の周波数ポイント(低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトル)をコピー対象となる周波数ポイント、即ち「テンプレート」として選択し、かつ、拡張後の広帯域信号の有効帯域幅が7000Hzであれば、選択された低周波数振幅スペクトルに対応する周波数ポイントをコピーして、70個の周波数ポイントを含む初期高周波数振幅スペクトルを得る必要があり、70個の周波数ポイントを含むこの初期高周波数振幅スペクトルを得るために、低周波数振幅スペクトルに対応する35~69の、つまり合計35個の周波数ポイントを2回コピーして、初期高周波数振幅スペクトルを生成することができる。同様に、低周波数振幅スペクトルに対応する0~69個の周波数ポイントをコピー対象となる周波数ポイントとして選択し、かつ、拡張後の広帯域信号の有効帯域幅が7000Hzであれば、低周波数振幅スペクトルに対応する0~69個の、つまり合計70個の周波数ポイントを1回コピーして、初期高周波数振幅スペクトルを生成することができ、当該初期高周波数振幅スペクトルには、合計70個の周波数ポイントが含まれている。
低周波数振幅スペクトルに対応する信号には大量の高調波が含まれる可能性があるため、コピーにより得られた初期高周波数振幅スペクトルに対応する信号には、同様に大量の高調波が含まれ、このような場合、周波数帯域が拡張された広帯域信号における高調波を減少するために、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差によって、初期高周波数振幅スペクトルを調整し、調整された初期高周波数振幅スペクトルをターゲット高周波数振幅スペクトルとすることができ、これによって、最終的に周波数ポイントが拡張されて得られた広帯域信号における高調波が減少され得る。
本願の解決手段では、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープは、いずれも、対数ドメインのスペクトラムエンベロープであり、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープに基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得るステップは、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定するステップと、
差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得るステップと、を含むことができる。
具体的には、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープを対数ドメインのスペクトラムエンベロープによって表現することができ、このような場合、対数ドメインのスペクトラムエンベロープによって決定された差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得ることができ、計算を容易にするために、対数ドメインのスペクトラムエンベロープによって高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープを表現する。
本願の解決手段では、高周波数スペクトラムエンベロープには、第1数の第1サブスペクトラムエンベロープが含まれ、初期高周波数振幅スペクトルには、第1数のサブ振幅スペクトルが含まれ、ここで、各第1サブスペクトラムエンベロープは、初期高周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されたものである。
さらに、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定し、差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得るステップは、
各第1サブスペクトラムエンベロープと、低周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ(以下、低周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープは、第2サブスペクトラムエンベロープとして説明される)との間の差を決定するステップと、
各第1サブスペクトラムエンベロープに対応する差に基づいて、対応する初期サブ振幅スペクトルを調整し、第1数の調整されたサブ振幅スペクトルを得るステップと、
第1数の調整されたサブ振幅スペクトルに基づいて、ターゲット高周波数振幅スペクトルを得るステップと、を含むことができる。
具体的には、1つの第1サブスペクトラムエンベロープは、対応する初期高周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されてもよく、1つの第2サブスペクトラムエンベロープは、対応する低周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されてもよい。各サブ振幅スペクトルに対応するスペクトル係数の数は、同じであってもよく、異なってもよいし、各サブスペクトラムエンベロープが、対応する振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されたものであれば、各サブスペクトラムエンベロープに対応する振幅スペクトルにおけるサブ振幅スペクトルのスペクトル係数の数も異なってもよい。ここで、第1数と第2数は、同じであってもよく、異なってもよいし、第1数は、通常、第2数以上である。
上記のシーンを例としてさらに説明し、第1数と第2数が同じであり、モデルの出力が14次元の高周波数スペクトラムエンベロープ(第1数が14)であり、モデルの入力が低周波数振幅スペクトルと低周波数スペクトラムエンベロープを含み、ここで、低周波数振幅スペクトルが70次元の低周波数の周波数ドメイン係数を含み、低周波数スペクトラムエンベロープが14次元のサブスペクトラムエンベロープ(第2数が14)を含む場合、モデルの入力は、84次元のデータであり、出力次元は、入力次元よりも遥かに小さくて、これにより、低周波数スペクトラムエンベロープを第3数のサブスペクトラムエンベロープに分割することによって、ニューラルネットワークモデルの体積および深度を減少させ、モデルの複雑度を低下させることができる。
具体的には、ニューラルネットワークモデルによって得られた高周波数スペクトラムエンベロープは、第1数の第1サブスペクトラムエンベロープを含んでもよく、上記から分かるように、この第1数の第1サブスペクトラムエンベロープは、低周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定され、即ち、1つのサブスペクトラムエンベロープは、低周波数振幅スペクトルのうちの対応する1つのサブ振幅スペクトルに基づいて決定される。上記のシーンを例としてさらに説明し、低周波数振幅スペクトルにおけるサブ振幅スペクトルが14個である場合、高周波数スペクトラムエンベロープは、14個のサブスペクトラムエンベロープを含む。
このようにして、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差は、各第1サブスペクトラムエンベロープと、対応する第2サブスペクトラムエンベロープとの間の差であり、差に基づいて高周波数スペクトラムエンベロープを調整することは、各第1サブスペクトラムエンベロープと、対応する第2サブスペクトラムエンベロープとの間の差に基づいて、対応する初期サブ振幅スペクトルを調整することになる。上記のシーンを例としてさらに説明し、第1数と第2数が同じであり、すなわち、高周波数スペクトラムエンベロープが14個の第1サブスペクトラムエンベロープを含み、低周波数スペクトラムエンベロープが14個の第2サブスペクトラムエンベロープを含む場合、決定された14個の第2サブスペクトラムエンベロープと、対応する14個の第1サブスペクトラムエンベロープに基づいて、14個の差を決定し、この14個の差に基づいて、相応的なサブ帯域に対応する初期サブ振幅スペクトルを調整することができる。
本願の解決手段では、相関性パラメータには、相対平坦度情報がさらに含まれており、相対平坦度情報は、前記ターゲット広周波数スペクトラムの高周波数部分のスペクトラム平坦度と低周波数部分のスペクトラム平坦度との間の相関性を特徴づけ、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定するステップは、
相対平坦度情報および低周波数スペクトラムのエネルギー情報に基づいて、高周波数スペクトラムエンベロープのゲイン調整値を決定するステップと、
ゲイン調整値に基づいて、高周波数スペクトラムエンベロープを調整し、調整された高周波数スペクトラムエンベロープを得るステップと、
調整された高周波数スペクトラムエンベロープと、低周波数スペクトラムエンベロープとの間の差を決定するステップと、を含むことができる。
ここで、以上の説明に基づいて、ニューラルネットワークモデルの訓練プロセスにおいて、ラベル結果は、相対平坦度情報を含んでもよく、即ち、サンプルデータのサンプルラベルは、サンプル広帯域信号の高周波数部分と低周波数部分との間の相対平坦度情報を含み、当該相対平坦度情報は、サンプル広帯域信号のスペクトラムの高周波数部分と低周波数部分とに基づいて決定され、従って、ニューラルネットワークモデルを適用する際には、モデルの入力が狭帯域信号の低周波数スペクトラムパラメータである場合、当該ニューラルネットワークモデルの出力に基づいて、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相対平坦度情報を予測することができる。
ここで、相対平坦度情報は、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相対スペクトラム平坦度、即ち、高周波数部分が低周波数部分のスペクトラムに対して平坦であるかどうかを反映することができ、相関性パラメータが相対平坦度情報をさらに含む場合、まず、相対平坦度情報と、低周波数スペクトラムのエネルギー情報とに基づいて、高周波数スペクトラムエンベロープを調整し、次に、調整された高周波数スペクトラムエンベロープと、低周波数スペクトラムエンベロープとの間の差に基づいて、初期高周波数スペクトラムを調整することができ、これにより、最終的に得られた広帯域信号における高調波はより小さくなっている。ここで、低周波数スペクトラムのエネルギー情報は、低周波数振幅スペクトルのスペクトル係数に基づいて決定され得て、低周波数スペクトラムのエネルギー情報は、スペクトラム平坦度を示すことができる。
本願の実施例において、上記の相関性パラメータは、高周波数スペクトラムエンベロープと相対平坦度情報とを含んでもよく、ニューラルネットワークモデルは、少なくとも入力層と出力層を含み、入力層は、低周波数スペクトラムパラメータの特徴ベクトル(当該特徴ベクトルは、70次元の低周波数振幅スペクトルと14次元の低周波数スペクトラムエンベロープを含む)を入力し、出力層は、少なくとも片側長期短期記憶ネットワーク(LSTM:Long Short-Term Memory)層、およびLSTM層にそれぞれ接続されている2つの完全接続ネットワーク層を含み、各完全接続ネットワーク層は、少なくとも1つの完全接続層を含んでもよく、ここで、LSTM層は、入力層で処理された特徴ベクトルを変換し、そのうちの一方の完全接続ネットワーク層は、LSTM層で変換されたベクトル値に基づいて第1分類処理を行って、高周波数スペクトラムエンベロープ(14次元)を出力し、他方の完全接続ネットワーク層は、LSTM層で変換されたベクトル値に基づいて第2分類処理を行って、相対平坦度情報(4次元)を出力する。
一例として、図2は、本願の実施例によって提供されるニューラルネットワークモデルの構造の模式図を示し、図に示すように、当該ニューラルネットワークモデルは、主に、片側LSTM層と2つの完全接続層との2つの部分を含み、即ち、この例において、各完全接続ネットワーク層は、1つの完全接続層を含み、一方の完全接続層の出力は、高周波数スペクトラムエンベロープであり、他方の完全接続層の出力は、相対平坦度情報である。
本願の解決手段では、相対平坦度情報には、高周波数部分の少なくとも2つのサブ帯域領域に対応する相対平坦度情報が含まれており、1つのサブ帯域領域に対応する相対平坦度情報は、高周波数部分の1つのサブ帯域領域のスペクトラム平坦度と、低周波数部分の高周波数の周波数バンド(高周波数バンド)のスペクトラム平坦度との間の相関性を特徴づける。
ここで、相対平坦度情報は、サンプル広帯域信号のスペクトラムの高周波数部分と低周波数部分に基づいて決定され、サンプル狭帯域信号の低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であり、したがって、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択し、この低周波数部分の高周波数の周波数バンドをテンプレートとし、サンプル広帯域信号の高周波数部分を少なくとも2つのサブ帯域領域に分割することができ、各サブ帯域領域の相対平坦度情報は、対応するサブ帯域領域のスペクトラムと、低周波数部分のスペクトラムとに基づいて決定されるものである。
以上の説明に基づいて、ニューラルネットワークモデルの訓練プロセスにおいて、ラベル結果は、各サブ帯域領域の相対平坦度情報を含んでもよく、即ち、サンプルデータのサンプルラベルは、サンプル広帯域信号の高周波数部分の各サブ帯域領域と低周波数部分との間の相対平坦度情報を含んでもよく、当該相対平坦度情報は、サンプル広帯域信号の高周波数部分のサブ帯域領域のスペクトラムと低周波数部分のスペクトラムに基づいて決定され、したがって、ニューラルネットワークモデルを適用する際に、モデルの入力が狭帯域信号の低周波数スペクトラムパラメータである場合、当該ニューラルネットワークモデルの出力に基づいて、ターゲット広周波数スペクトラムの高周波数部分のサブ帯域領域と低周波数部分との間の相対平坦度情報を予測することができる。
ここで、高周波数部分には、少なくとも2つのサブ帯域領域の振幅スペクトルが含まれている場合、この少なくとも2つのサブ帯域領域に対応し、相対平坦度情報にも、少なくとも2つのサブ帯域領域に対応する相対平坦度情報が含まれている。低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であり、したがって、低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択し、当該低周波数部分の高周波数の周波数バンドをテンプレートとし、高周波数部分の少なくとも2つのサブ帯域領域の振幅スペクトルと低周波数部分の振幅スペクトルとに基づいて、相対平坦度情報を決定する。
ここで、周波数帯域拡張の目的を達成させるために、ターゲット広周波数スペクトラムの低周波数部分の振幅スペクトルのスペクトル係数の個数は、高周波数部分の振幅スペクトルのスペクトル係数の個数と同じであってもよく、異なってもよいし、各サブ帯域領域に対応するスペクトル係数の数は、同じであってもよく、異なってもよいし、少なくとも2つのサブ帯域領域に対応するスペクトル係数の総数が、初期高周波数振幅スペクトルに対応するスペクトル係数の数と一致すればよい。
一例として、例えば、上記の少なくとも2つのサブ帯域領域は、それぞれが第1サブ帯域領域と第2サブ帯域領域である2つのサブ帯域領域であり、低周波数部分の高周波数の周波数バンドは、35番目~69番目の周波数ポイントに対応する周波数バンドであり、第1サブ帯域領域に対応するスペクトル係数の数と、第2サブ帯域領域に対応するスペクトル係数の数は同じであり、第1サブ帯域領域および第2サブ帯域領域に対応するスペクトル係数の総数は、低周波数部分に対応するスペクトル係数の数と同じであり、この場合、第1サブ帯域領域に対応する周波数バンドは、70番目~104番目の周波数ポイントに対応する周波数バンドであり、第2サブ帯域領域に対応する周波数バンドは、105番目~139番目の周波数ポイントに対応する周波数バンドであり、各サブ帯域領域の振幅スペクトルのスペクトル係数の個数は35個であり、低周波数部分の高周波数の周波数バンドの振幅スペクトルのスペクトル係数の個数と同じである。選択された低周波数部分の高周波数の周波数バンドが56番目~69番目の周波数ポイントに対応する周波数バンドであれば、高周波数部分を5個のサブ帯域領域に分割することができ、各サブ帯域領域は、14個のスペクトル係数に対応する。
相対平坦度情報と低周波数スペクトラムのエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのゲイン調整値を決定するステップは、
各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定するステップを含むことができ、
ここで、ゲイン調整値に基づいて高周波数スペクトラムエンベロープを調整するステップは、
高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整するステップを含むことができる。
具体的には、高周波数部分に少なくとも2つのサブ帯域領域が含まれている場合、各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、各サブ帯域領域に対応する高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定し、そして、決定されたゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整することができる。
一例として、以上で説明するように、少なくとも2つのサブ帯域領域は、それぞれが第1サブ帯域領域および第2サブ帯域領域である2つのサブ帯域領域であり、第1サブ帯域領域と低周波数部分の高周波数の周波数バンドとの間の相対平坦度情報は第1相対平坦度情報であり、第2サブ帯域領域と低周波数部分の高周波数の周波数バンドとの間の相対平坦度情報は第2相対平坦度情報であれば、第1相対平坦度情報と、第1サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて決定されたゲイン調整値は、第1サブ帯域領域に対応する高周波数スペクトラムエンベロープのエンベロープ部分の調整、第2相対平坦度情報と、第2サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて決定されたゲイン調整値は、第2サブ帯域領域に対応する高周波数スペクトラムエンベロープのエンベロープ部分の調整に使用され得る。
本願の解決手段では、サンプル狭帯域信号の低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であるため、したがって、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択し、当該低周波数部分の高周波数の周波数バンドをテンプレートとし、サンプル広帯域信号の高周波数部分を少なくとも2つのサブ帯域領域に分割し、高周波数部分の各サブ帯域領域のスペクトラムと、低周波数部分のスペクトラムとに基づいて、各サブ帯域領域の相対平坦度情報を決定することができる。
以上の説明に基づいて、ニューラルネットワークモデルの訓練段階では、サンプルデータ(サンプルデータには、サンプル狭帯域信号と、対応するサンプル広帯域信号とが含まれている)に基づいて、分散解析法によって、サンプル広帯域信号のスペクトラムの高周波数部分の各サブ帯域領域の相対平坦度情報を決定することができる。
一例として、サンプル広帯域信号の高周波数部分が、それぞれが第1サブ帯域領域および第2サブ帯域領域である2つのサブ帯域領域に分割された場合、サンプル広帯域信号の高周波数部分と低周波数部分との間の相対平坦度情報は、第1サブ帯域領域とサンプル広帯域信号の低周波数部分の高周波数の周波数バンドとの間の第1相対平坦度情報、および第2サブ帯域領域とサンプル広帯域信号の低周波数部分の高周波数の周波数バンドとの間の第2相対平坦度情報とすることができる。
ここで、第1相対平坦度情報および第2相対平坦度情報への決定方式は、具体的には、以下のとおりであってもよい。
サンプル狭帯域信号の振幅スペクトルPLow,sample(i,j)およびサンプル広帯域信号の高周波数部分の振幅スペクトルPHigh,sample(i,j)に基づいて、式(3)~式(5)により、以下の3つの分散を算出する。

Figure 2022527810000004
ここで、式(3)は、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドの振幅スペクトルの分散であり、式(4)は、第1サブ帯域領域の振幅スペクトルの分散であり、式(5)は、第2サブ帯域領域の振幅スペクトルの分散であり、var()は、分散を求めることを示す。
上記の3つの分散に基づいて、式(6)および式(7)により、各サブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報を決定する。

Figure 2022527810000005
ここで、fc(0)は、第1サブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の第1相対平坦度情報を示し、fc(1)は、第2サブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の第2相対平坦度情報を示す。
ここで、上記の2つの値fc(0)とfc(1)は、0以上であるかどうかによって分類されてもよく(本願の実施例において、1は、0以上であることを示すために使用され、0は、0より小さいことを示すために使用される)、fc(0)およびfc(1)は、1つの二分類配列として定義されてもよく、したがって、この配列には、4種類の順列・組み合わせ、即ち、{0,0}、{0,1}、{1,0}、{1,1}が含まれている。
これにより、モデルによって出力された相対平坦度情報は、4個の確率値であってもよく、この確率値は、相対平坦度情報が上記の4個の配列に属する確率を示すために使用されるものである。
確率最大という原則に従って、4個の配列の順列・組み合わせのうちの1つを、予測された、2つのサブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報とすることができる。具体的には、式(8)によって示され得る。
v(i,k)=0 or 1、k=0、1 (8)
ここで、v(i,k)は、2つのサブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報を示し、kは、異なるサブ帯域領域のインデックスを示し、各サブ帯域領域は、1つの相対平坦度情報に対応してもよく、例えば、k=0である場合、v(i,k)=0は、第1サブ帯域領域が低周波数部分に対してより発振しており、即ち、平坦度が低いことを示し、v(i,k)=1は、第1サブ帯域領域が低周波数部分に対してより平坦であり、即ち平坦度が良好であることを示す。
本願の実施例において、狭帯域信号の低周波数スペクトラムパラメータを訓練済みのニューラルネットワークモデルに入力することで、ニューラルネットワークモデルによってターゲット広周波数スペクトラムの高周波数部分の相対平坦度情報を予測し得ることができる。狭帯域信号の低周波数部分の高周波数の周波数バンドに対応する低周波数スペクトラムパラメータをニューラルネットワークモデルの入力として選択すれば、この訓練済みのニューラルネットワークモデルに基づいて、ターゲット広周波数スペクトラムの高周波数部分の少なくとも2つのサブ帯域領域の相対平坦度情報を予測し得ることができる。本願の解決手段では、高周波数スペクトラムエンベロープには、第1数の第1サブスペクトラムエンベロープが含まれる場合、各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定するステップは、
各第1サブスペクトラムエンベロープについて、低周波数スペクトラムエンベロープにおける、第1サブスペクトラムエンベロープに対応するスペクトラムエンベロープ(以下、低周波数スペクトラムエンベロープにおける、第1サブスペクトラムエンベロープに対応するスペクトラムエンベロープは、第2サブスペクトラムエンベロープとして説明される)が対応するスペクトラムエネルギー情報、第2サブスペクトラムエンベロープに対応するサブ帯域領域が対応する相対平坦度情報、および第2サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報に基づいて、第1サブスペクトラムエンベロープのゲイン調整値を決定するステップを含むことができ、
高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整するステップは、
高周波数スペクトラムエンベロープにおける各第1サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第1サブスペクトラムエンベロープを調整するステップを含むことができる。
具体的には、高周波数スペクトラムエンベロープの各第1サブスペクトラムエンベロープは、1つのゲイン調整値に対応し、当該ゲイン調整値は、第2サブスペクトラムエンベロープに対応するスペクトラムエネルギー情報、第2サブスペクトラムエンベロープに対応するサブ帯域領域が対応する相対平坦度情報、第2サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報に基づいて決定され、かつ、当該第2サブスペクトラムエンベロープは、当該第1サブスペクトラムエンベロープに対応し、高周波数スペクトラムエンベロープには、第1数の第1サブスペクトラムエンベロープが含まれ、この場合、高周波数スペクトラムエンベロープには、対応する第1数のゲイン調整値が含まれる。
理解できるものとして、高周波数部分には少なくとも2つのサブ帯域領域に対応する高周波数スペクトラムエンベロープが含まれていれば、少なくとも2つのサブ帯域領域に対応する高周波数スペクトラムエンベロープについては、各サブ帯域領域に対応する第1サブスペクトラムエンベロープが対応するゲイン調整値に基づいて、対応するサブ帯域領域の第1サブスペクトラムエンベロープを調整することができる。
一例として、以下、第1サブ帯域領域には35個の周波数ポイントが含まれることを例として、第2サブスペクトラムエンベロープに対応するスペクトラムエネルギー情報、第2サブスペクトラムエンベロープに対応するサブ帯域領域が対応する相対平坦度情報、および第2サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報に基づいて、第2サブスペクトラムエンベロープに対応する第1サブスペクトラムエンベロープのゲイン調整値を決定する1つの実現可能な解決手段は、
(1)v(i,k)を解析し、1であれば、高周波数部分が非常に平坦であり、0であれば、高周波数部分が発振していることを示す。
(2)第1サブ帯域領域における35個の周波数ポイントを7個のサブ帯域に分割し、各サブ帯域は、1つの第1サブスペクトラムエンベロープに対応する。各サブ帯域の平均エネルギーpow_env(第2サブスペクトラムエンベロープに対応するスペクトラムエネルギー情報)をそれぞれ算出して、上記の7個のサブ帯域の平均エネルギーの平均値Mpow_env(第2サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報)を算出する。ここで、各サブ帯域の平均エネルギーは、対応する低周波数振幅スペクトルに基づいて決定され、例えば、各低周波数振幅スペクトルのスペクトル係数の絶対値の二乗が、1つの低周波数振幅スペクトルのエネルギーとされ、1つのサブ帯域が5個の低周波数振幅スペクトルのスペクトル係数に対応し、このような場合、1つのサブ帯域に対応する低周波数振幅スペクトルのエネルギーの平均値は、当該サブ帯域の平均エネルギーとされてもよい。
(3)解析された第1サブ帯域領域に対応する相対平坦度情報、平均エネルギーpow_env、および平均値Mpow_envに基づいて、各第1サブスペクトラムエンベロープのゲイン調整値を算出し、具体的には、以下のことを含む。
v(i,k)=1である場合、G(j)=a+b*SQRT(Mpow_env/pow_env(j))、j=0,1,…,6;
v(i,k)=0である場合、G(j)=a+b*SQRT(Mpow_env/pow_env(j))、j=0,1,…,6;
ここで、1つの解決手段として、a=0.875,b=0.125,a=0.925,b=0.075であり、G(j)は、ゲイン調整値である。
ここで、v(i,k)=0である場合について、ゲイン調整値は1になり、即ち、高周波数スペクトラムエンベロープに対して平坦化操作(調整)を行う必要がない。
上記方式に基づいて、高周波数スペクトラムエンベロープのうちの7個の第1サブスペクトラムエンベロープのゲイン調整値を決定し、7個の第1サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第1サブスペクトラムエンベロープを調整することができ、上記の操作は、異なるサブ帯域の平均エネルギーの間の差を縮め、第1サブ帯域領域に対応するスペクトラムに対して、異なる程度の平坦化処理を行うことができる。
理解できるものとして、上記と同じ方式によって、第2サブ帯域領域に対応する高周波数スペクトラムエンベロープを調整することもでき、ここでは、再度言及しない。高周波数スペクトラムエンベロープには、合計14個のサブ周波数帯域が含まれており、このような場合、14個のゲイン調整値を対応的に決定し、この14個のゲイン調整値に基づいて、対応するサブスペクトラムエンベロープを調整することができる。
本願の解決手段では、低周波数の周波数ドメインパラメータには、低周波数の周波数ドメイン係数がさらに含まれており、高周波数振幅スペクトルおよび高周波数位相スペクトルに基づいて、高周波数スペクトラムを得るステップは、
高周波数振幅スペクトルおよび高周波数位相スペクトルに基づいて、高周波数の周波数ドメイン(高周波数ドメイン)係数を生成するステップと、
低周波数の周波数ドメイン係数および高周波数の周波数ドメイン係数に基づいて、高周波数スペクトラムを生成するステップと、を含むことができる。
本願の解決手段では、低周波数スペクトラムと高周波数スペクトラムに基づいて、周波数帯域が拡張された広帯域信号を得るステップS160は、
低周波数スペクトラムと高周波数スペクトラムをマージして、広周波数帯域スペクトラムを得るステップと、
広周波数帯域スペクトラムに対して周波数-時間変換を行い、周波数帯域が拡張された広帯域信号を得るステップと、を含むことができる。
具体的には、広帯域信号には、狭帯域信号における低周波数部分の信号および拡張後の高周波数部分の信号が含まれている場合、低周波数部分に対応する低周波数スペクトラムおよび高周波数部分に対応する高周波数スペクトラムが得られた後、低周波数スペクトラムと高周波数スペクトラムをマージし、広周波数帯域スペクトラムを得て、さらに、広周波数帯域スペクトラムに周波数-時間変換(時間-周波数変換の逆変換であって、周波数ドメイン信号を時間ドメイン信号に変換することである)を実行し、これにより、周波数帯域が拡張されたターゲット音声信号を得ることができる。
本願の解決手段では、狭帯域信号には、少なくとも2つの関連する信号が含まれる場合、この方法は、
少なくとも2つの関連する信号を融合して、狭帯域信号を得るステップ、
または、
少なくとも2つの関連する信号のうちの各信号をそれぞれ狭帯域信号とするステップ、をさらに含むことができる。
具体的には、狭帯域信号は、複数の関連する信号、例えば、隣接する音声フレームであってもよく、このような場合、少なくとも2つの関連する信号を融合して、1つ信号を得て、この1つの信号を狭帯域信号とし、次に、本願における周波数帯域拡張方法によって、当該狭帯域信号を拡張して、広帯域信号を得ることができる。
または、少なくとも2つの関連する信号のうちの各信号を狭帯域信号とし、本願における周波数帯域拡張方法によって、当該狭帯域信号を拡張して、対応する少なくとも2つの広帯域信号を得ることもでき、当該少なくとも2つの広帯域信号は、1つの信号としてマージし出力されてもよく、それぞれ出力されてもよいし、本願において限定されていない。
本願の実施例によって提供される方法をよりよく理解できるために、以下、具体的な適用シーンの例を参照して、本願の実施例の解決手段をさらに詳細に説明する。
一例として、適用シーンは、PSTN(狭帯域音声)とVoIP(広帯域音声)が互いに通信するシーンであり、即ち、PSTN電話機に対応する狭帯域音声を処理対象となる狭帯域信号として、この処理対象となる狭帯域信号に対して周波数帯域拡張を行い、VoIP受信側で受信される音声フレームを広帯域音声とすることによって、受信側での聴覚的体験を向上させる。
本例において、処理対象となる狭帯域信号は、サンプリングレートが8000Hzであり、フレーム長が10msである信号であり、Nyquistサンプリング定理に従って、処理対象となる狭帯域信号の有効帯域幅は、4000Hzになる。実際の音声通信シーンにおいて、有効帯域幅の上限が一般的に3500Hzである。したがって、本例において、拡張後の広帯域信号の有効帯域幅が7000Hzであることを例として説明する。
図3に示すように、本実施例の方法は、図5に示す電子デバイスが実行されてもよく、当該方法は、以下のステップを含むことができる。
ステップS1で、フロントエンド信号を処理する。
処理対象となる狭帯域信号に対して、ファクターを2とするアップサンプリング処理を行い、サンプリングレートが16000Hzであるアップサンプリング信号を出力する。
狭帯域信号のサンプリングレートが8000Hzであり、フレーム長が10msであるため、この場合、アップサンプリング信号は、160個のサンプル点(周波数ポイント)に対応し、アップサンプリング信号に対して短時間フーリエ変換を行い、具体的には、1つ前の音声フレームに対応する160個のサンプル点と、現在の音声フレーム(処理対象となる狭帯域信号)に対応する160個のサンプル点とを、320個のサンプル点を含む1つの配列として組み合わせる。続いて、この配列におけるサンプル点に対してウィンドウイング処理を行い、得られた、ウィンドウイングされてオーバーラップされた信号が、sLow(i,j)になると仮定する。その後、sLow(i,j)に対して高速フーリエ変換を行い、320個の低周波数の周波数ドメイン係数SLow(i,j)を得て、同様に、iは、音声フレームのフレームインデックスであり、jは、フレーム内サンプルインデックス(j=0、1、…、319)である。FFTの共役対称関係を考慮すると、一番目の係数が直流成分であり、したがって、最初の161個の低周波数の周波数ドメイン係数だけを考慮してもよい。
ステップS2で、特徴を抽出する。
a)低周波数の周波数ドメイン係数に基づいて、式(1)により低周波数振幅スペクトルを算出する。

Figure 2022527810000006
ここで、PLow(i,j)は、低周波数振幅スペクトルを示し、SLow(i,j)は、低周波数の周波数ドメイン係数であり、RealおよびImagは、それぞれ、低周波数の周波数ドメイン係数の実数部および虚数部であり、SQRTは、平方根演算である。狭帯域信号は、サンプリングレートが8000Hzであり、有効帯域幅が0~3500Hzである信号であれば、狭帯域信号のサンプリングレートとフレーム長とに基づいて、低周波数の周波数ドメイン係数から、70個の低周波数振幅スペクトルのスペクトル係数(低周波数振幅スペクトル係数)PLow(i,j)、j=0、1、…69を決定することができる。実際の適用において、算出された70個の低周波数振幅スペクトル係数を直接に狭帯域信号の低周波数振幅スペクトルとすることができ、さらに、算出を容易にするために、さらに低周波数振幅スペクトルを対数ドメインに変換することもできる。
70個の係数を含む低周波数振幅スペクトルが得られた後、低周波数振幅スペクトルに基づいて、狭帯域信号の低スペクトラムエンベロープを決定することができる。
b)さらに、以下の方式によって、低周波数振幅スペクトルに基づいて、低周波数スペクトラムエンベロープを決定することもできる。
狭帯域信号をバンディングし、70個の低周波数振幅スペクトルのスペクトル係数に対して、5個ずつの隣接するサブ振幅スペクトルのスペクトル係数に対応する周波数帯域を1つのサブ帯域として分割し、合計14個のサブ帯域に分割することができ、各サブ帯域は、5個のスペクトル係数に対応する。各サブ帯域に対して、当該サブ帯域の低周波数スペクトラムエンベロープは、隣接するスペクトル係数の平均エネルギーとして定義される。具体的には、式(2)により算出され得る。

Figure 2022527810000007
ここで、eLow(i,k)は、サブスペクトラムエンベロープ(各サブ帯域の低周波数スペクトラムエンベロープ)を示し、kは、サブ帯域のインデックス番号を示し、合計14個のサブ帯域、k=0、1、2……13があり、この場合、低周波数スペクトラムエンベロープには、14個のサブスペクトラムエンベロープが含まれる。
一般的に、サブ帯域のスペクトルエンベロープは、隣接する係数の平均エネルギーとして定義され(または、さらに対数表現に変換され)、しかし、このような方式は、幅値が小さい係数が実質的な役割を果たすことができない、ということをもたらす場合があり、本願の実施例によって提供される下記のような解決手段、即ち、各サブ振幅スペクトルに含まれるスペクトル係数の対数標識に対して平均値を直接に求めて、サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得る解決手段は、既存のよく使用されているエンベロープの決定のための解決手段と比較して、ニューラルネットワークモデルの訓練プロセスの歪み制御において、幅値がより小さな係数をよりよく保護することができ、これにより、より多くの信号パラメータは、周波数帯域拡張において、相応的な役割を果たすことができる。
これによって、70次元の低周波数振幅スペクトルおよび14次元の低周波数スペクトラムエンベロープをニューラルネットワークモデルの入力とすることができる。
ステップS3で、ニューラルネットワークモデルに入力する。
入力層で、ニューラルネットワークモデルに上記の84次元の特徴ベクトルを入力し、
出力層で、本実施例において周波数帯域拡張のターゲット広帯域が7000Hzであることを考慮するため、3500~7000Hzの周波数バンドに対する14個のサブ帯域の高周波数スペクトラムエンベロープを予測する必要があり、そうすると、基本的な周波数帯域拡張機能を達成することができる。通常、音声フレームの低周波数部分には、大量の基音や共振ピークなどの高調波のような構造が含まれており、高周波数部分のスペクトラムはより平坦になり、単純に低周波数スペクトラムを高周波数にコピーして初期高周波数振幅スペクトルを取得し、初期高周波数振幅スペクトルに対してサブ帯域に基づくゲイン制御を実行すれば、再構築された高周波数部分は、過剰な高調波のような構造が発生し、歪みを引き起こし、聴感に影響を与えてしまう。したがって、本例において、ニューラルネットワークモデルにより予測された相対平坦度情報に基づいて、低周波数部分と高周波数部分との間の相対平坦度を記述し、初期高周波数振幅スペクトルを調整し、これにより、調整された高周波数部分はより平坦になり、高調波による干渉を減少させる。
本例において、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルを2回コピーすることにより、初期高周波数振幅スペクトルを生成すると共に、高周波数部分の周波数バンドを、それぞれが第1サブ帯域領域と第2サブ帯域領域である2つのサブ帯域領域に等分し、これにより、高周波数部分は、70個のスペクトル係数に対応し、各サブ帯域領域は、35個のスペクトル係数に対応しており、したがって、高周波数部分に対して2回の平坦度分析を実行し、即ち、サブ帯域領域ごとに1回の平坦度分析を実行し、低周波数部分、特に、1000Hz以下に対応する周波数バンドでは、高調波成分がより豊富であるため、本実施例において、35~69の周波数ポイントに対応するスペクトル係数を「テンプレート」として選択し、このようにすれば、第1サブ帯域領域に対応する周波数バンドは、70番目~104番目の周波数ポイントに対応する周波数バンドであり、第2サブ帯域領域に対応する周波数バンドは、105番目~139番目の周波数ポイントに対応する周波数バンドである。
平坦度分析には、クラシックな統計学において定義された分散(Variance)分析方法が使用され得る。分散分析方法によれば、スペクトラムの発振の度合いを記述することができ、値が大きいほど、高調波成分が豊富になるということを示す。
以上の説明に基づいて、サンプル狭帯域信号の低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であるため、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択することができ、即ち、当該低周波数部分の高周波数の周波数バンド(35~69の周波数ポイントに対応する周波数バンド)をテンプレートとし、相応的に、サンプル広帯域信号の高周波数部分を少なくとも2つのサブ帯域領域に分割し、高周波数部分の各サブ帯域領域のスペクトラムおよび低周波数部分のスペクトラムに基づいて、各サブ帯域領域の相対平坦度情報を決定することができる。
ニューラルネットワークモデルの訓練段階では、サンプルデータ(サンプルデータには、サンプル狭帯域信号と、対応するサンプル広帯域信号とが含まれている)に基づいて、分散分析法によって、サンプル広帯域信号のスペクトラムの高周波数部分の各サブ帯域領域の相対平坦度情報を決定することができる。
一例として、サンプル広帯域信号の高周波数部分が、それぞれが第1サブ帯域領域と第2サブ帯域領域である2つのサブ帯域領域に分割された場合、サンプル広帯域信号の高周波数部分と低周波数部分との間の相対平坦度情報は、第1サブ帯域領域とサンプル広帯域信号の低周波数部分の高周波数の周波数バンドとの間の第1相対平坦度情報、および第2サブ帯域領域とサンプル広帯域信号の低周波数部分の高周波数の周波数バンドとの間の第2相対平坦度情報であってもよい。
ここで、第1相対平坦度情報および第2相対平坦度情報の決定方式は、具体的には、以下のとおりであってもよい。
サンプル狭帯域信号の振幅スペクトルPLow,sample(i,j)およびサンプル広帯域信号の高周波数部分の振幅スペクトルPHigh,sample(i,j)に基づいて、式(3)~式(5)によって、以下の3つの分散を算出する。

Figure 2022527810000008
ここで、式(3)は、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドの振幅スペクトルの分散であり、式(4)は、第1サブ帯域領域の振幅スペクトルの分散であり、式(5)は、第2サブ帯域領域の振幅スペクトルの分散であり、var()は、分散を求めることを示す。
上記の3つの分散に基づいて、式(6)および式(7)により、各サブ帯域領域の振幅スペクトルと低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報を決定する。

Figure 2022527810000009
ここで、fc(0)は、第1サブ帯域領域の振幅スペクトルと低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の第1相対平坦度情報を示し、fc(1)は、第2サブ帯域領域の振幅スペクトルと低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の第2相対平坦度情報を示す。
ここで、上記の2つの値fc(0)とfc(1)は、0以上であるかどうかによって分類されてもよく、fc(0)およびfc(1)は、1つの二分類配列として定義されてもよく、したがって、この配列には、4種類の順列・組み合わせ、即ち、{0,0}、{0,1}、{1,0}、{1,1}が含まれている。
これにより、モデルによって出力された相対平坦度情報は、4個の確率値であってもよく、この確率値は、相対平坦度情報が上記の4個の配列に属する確率を示すために使用されるものである。
確率最大という原則に従って、4個の配列の順列・組み合わせのうちの1つを、予測された、2つのサブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報とすることができる。具体的には、式(8)によって示され得る。
v(i,k)=0 or 1、k=0、1 (8)
ここで、v(i,k)は、2つのサブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報を示し、kは、異なるサブ帯域領域のインデックスを示し、例えば、kが0である場合、第1サブ帯域領域が示され、kが1である場合、第2サブ帯域領域が示され、この場合、各サブ帯域領域は、1つの相対平坦度情報に対応することができる。
ステップS4で、高周波数振幅スペクトルを生成する。
上記したとおり、低周波数振幅スペクトル(35~69の、合計35個の周波数ポイント)を2回コピーし、高周波数の振幅スペクトル(合計70個の周波数ポイント)を生成し、狭帯域信号に対応する低周波数スペクトラムパラメータに基づいて、訓練済みのニューラルネットワークモデルによって、予測されたターゲット広周波数スペクトラムの高周波数部分の相対平坦度情報を取得することができる。本例で選択されたのは、35~69に対応する低周波数振幅スペクトルの周波数ドメイン係数であるため、この訓練済みのニューラルネットワークモデルによって、ターゲット広周波数スペクトラムの高周波数部分の少なくとも2つのサブ帯域領域の相対平坦度情報を予測して取得することができ、即ち、ターゲット広広周波数スペクトラムの高周波数部分は、少なくとも2つのサブ帯域領域に分割され、本例において、2個のサブ帯域領域を例として、ニューラルネットワークモデルの出力は、この2個サブ帯域領域に対する相対平坦度情報である。
予測された、2個のサブ帯域領域に対応する相対平坦度情報に基づいて、再構築された高周波数振幅スペクトルに対して、ポストフィルタリングを行う。そのうちの第1サブ帯域領域を例とすると、主なステップは、以下のことを含み、即ち、
(1)v(i,k)を解析し、1であれば、高周波数部分が非常に平坦であり、0であれば、高周波数部分が発振していることを示す。
(2)第1サブ帯域領域における35個の周波数ポイントを7個のサブ帯域に分割し、高周波数スペクトラムエンベロープには、14個の第1サブスペクトラムエンベロープが含まれ、低周波数スペクトラムエンベロープには、14個の第2サブスペクトラムエンベロープが含まれており、このような場合、各サブ帯域は、1つの第1サブスペクトラムエンベロープに対応することができる。各サブ帯域の平均エネルギーpow_env(第2サブスペクトラムエンベロープに対応するスペクトラムエネルギー情報)をそれぞれ算出して、上記の7個の平均エネルギーの平均値Mpow_env(第2サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報)を算出する。ここで、各サブ帯域の平均エネルギーは、対応する低周波数振幅スペクトルに基づいて決定され、例えば、各低周波数振幅スペクトルのスペクトル係数の絶対値の二乗を、1つの低周波数振幅スペクトルのエネルギーとし、1つのサブ帯域が5個の低周波数振幅スペクトルのスペクトル係数に対応させ、このような場合、1つのサブ帯域に対応する低周波数振幅スペクトルのエネルギーの平均値を、このサブ帯域の平均エネルギーとすることができる。
(3)解析された第1サブ帯域領域に対応する相対平坦度情報、平均エネルギーpow_env、および平均値Mpow_envに基づいて、各第1サブスペクトラムエンベロープのゲイン調整値を算出し、具体的には、以下のことを含み、即ち、
v(i,k)=1である場合、G(j)=a+b*SQRT(Mpow_env/pow_env(j))の場合、j=0,1,…,6;
v(i,k)=0である場合、G(j)=a+b*SQRT(Mpow_env/pow_env(j))の場合、j=0,1,…,6;
ここで、本例において、a=0.875,b=0.125,a=0.925,b=0.075であり、G(j)は、ゲイン調整値である。
ここで、v(i,k)=0である場合、ゲイン調整値は1になり、即ち、高周波数スペクトラムエンベロープに対して平坦化操作(調整)を行う必要がない。
4)上記の方式に基づいて、高周波数スペクトラムエンベロープehigh(i,k)における各第1サブスペクトラムエンベロープに対応するゲイン調整値を決定し、各第1サブスペクトラムエンベロープに対応するゲイン調整値に基づいて、対応する第1サブスペクトラムエンベロープを調整することができ、上記の操作は、異なるサブ帯域の平均エネルギーの間の差を縮め、第1サブ帯域領域に対応するスペクトラムに対して、異なる程度の平坦化処理を行うことができる。
理解できるものとして、上記と同じ方式によって、第2サブ帯域領域に対応する高周波数スペクトラムエンベロープを調整することができ、ここで再度言及しない。高周波数スペクトラムエンベロープは、合計14個のサブ周波数帯域を含み、このような場合、14個のゲイン調整値を相応的に決定し、この14個のゲイン調整値に基づいて、対応するサブスペクトラムエンベロープを調整することができる。
さらに、調整後の高周波数スペクトラムエンベロープに基づいて、調整後の高周波数スペクトラムエンベロープと、低周波数スペクトラムエンベロープとの間の差を決定し、差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルPHigh(i,j)を得る。
ステップS5で、高周波数スペクトラムを生成する。
低周波数位相スペクトルPhlow(i,j)に基づいて、対応する高周波数位相スペクトルPhHigh(i,j)を生成するステップは、以下のいずれかを含むことができる。
第1種類は、低周波数位相スペクトルをコピーすることにより、対応する高周波数位相スペクトルを得る方式である。
第2種類は、低周波数位相スペクトルをフリッピングし、フリッピングされた後に低周波数位相スペクトルと同じ位相スペクトルを得て、この2つの低周波数位相スペクトルを対応する高周波数の周波数ポイントにマッピングして、対応する高周波数位相スペクトルを得る方式である。
高周波数振幅スペクトルと高周波数位相スペクトルに従って、高周波数の周波数ドメイン係数SHigh(i,j)を生成し、低周波数の周波数ドメイン係数と高周波ドメイン係数に基づいて、高周波数スペクトラムを生成する。
ステップS6で、周波数-時間変換を行う。
低周波数スペクトラムと高周波数スペクトラムに基づいて、周波数帯域が拡張された広帯域信号を得る。
具体的には、低周波数の周波数ドメイン係数SLow(i,j)と、高周波数の周波数ドメイン係数SHigh(i,j)をマージして、高周波数スペクトラムを生成し、低周波数スペクトラムと高周波数スペクトラムに基づいて、時間-周波数変換の逆変換を行うと、新しい音声フレームsRec(i,j)、即ち広帯域信号を生成することができる。このとき、処理対象となる狭帯域信号の有効スペクトラムは、7000Hzに拡張された。
本解決手段の方法によれば、PSTNとVoIPが互いに通信する音声通信シーンにおいて、VoIP側でPSTNからの狭帯域音声(サンプリングレートが8kHzであり、有効帯域幅が一般的に3.5kHzである)しか受信することができない。ユーザの直感的な感覚は、音色が十分に明るくなく、音量が十分に大きくなく、明瞭度が普通的であるということです。本願で開示された技術案に基づいて周波数帯域拡張を行うと、追加のビットを必要とせずに、VoIP受信側で有効帯域幅を7kHzに拡張することができる。ユーザは、より明るい音色、より大きな音量、およびより良好な明瞭度を直観的に感じることができる。また、本解決手段によれば、上位互換性という問題が存在しないため、プロトコルを変更する必要がなくなり、これにより、PSTNと完全に互換性があることができる。
本願の実施例において、本願の方法が、PSTN-VoIPチャンネルの下り側に適用されてもよく、例えば、会議システムがインストールされているクライアントに、本願の実施例によって提供される解決手段の機能モジュールが集積されると、クライアントで狭周波数帯域信号に対する周波数帯域拡張を実現することができ、これにより、広帯域信号を得ることができる。具体的には、このシーンでの信号処理は、信号後処理技術であり、PSTN(コーディングシステムはITU-T G.711としてもよい)を例として、会議システムのクライアントの内部では、G.711の復号が完了した後、音声フレームが復元される。音声フレームに対して本願実施に係る後処理技術を実行すると、送信側が狭帯域信号であっても、VoIPユーザは、広帯域信号を受信することもできる。
本願の実施例の方法は、PSTN-VoIPチャンネルのミキシングサーバに適用されてもよく、当該ミキシングサーバにより周波数帯域拡張が行われた後、周波数帯域拡張後の広帯域信号がVoIPクライアントに送信され、VoIPクライアントは、広帯域信号に対応するVoIPコードストリームを受信した後、VoIPコードストリームを復号することにより、周波数帯域拡張されて出力された広帯域音声を復元することができる。ミキシングサーバの1つの典型的な機能は、トランスコーディングであり、例えば、PSTNリンクのコードストリームをVoIPでよく使用されているコードストリーム(例えばOPUSまたはSILKなど)にトランスコーディングする(例えば、G.711の符号化を使用する)。ミキシングサーバでは、G.711の復号が実行された後の音声フレームを16000Hzにアップサンプリングし、そして、本願の実施例によって提供される解決手段を使用して、周波数帯域拡張を完成し、その後、VoIPでよく使用されているコードストリームにトランスコーディングすることができる。VoIPクライアントは、1つまたは複数のVoIPコードストリームを受信した後、復号を通じて、周波数帯域拡張されて出力された広帯域音声を復元することができる。
図1Bに示す方法と同じ原理に基づいて、本発明の実施例は、また、周波数帯域拡張装置20を提供し、図4に示すように、この周波数帯域拡張装置10には、低周波数スペクトラムパラメータ決定モジュール210、相関性パラメータ決定モジュール220、高周波数振幅スペクトル決定モジュール230、高周波数位相スペクトル生成モジュール240、高周波数スペクトラム決定モジュール250、および広帯域信号決定モジュール260が含まれており、ここで、
低周波数スペクトラムパラメータ決定モジュール210は、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定し、ここで、低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる。
相関性パラメータ決定モジュール220は、低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得て、ここで、相関性パラメータは、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、相関性パラメータには、高周波数スペクトラムエンベロープが含まれる。
高周波数振幅スペクトル決定モジュール230は、相関性パラメータと低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る。
高周波数位相スペクトル生成モジュール240は、狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する。
高周波数スペクトラム決定モジュール250は、高周波数振幅スペクトルと高周波数位相スペクトルに基づいて、高周波数スペクトラムを得る。
広帯域信号決定モジュール260は、低周波数スペクトラムと高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得る。
本実施例における解決手段により、処理対象となる狭帯域信号の低周波数スペクトラムパラメータに基づいて、ニューラルネットワークモデルの出力から上記の相関性パラメータを得て、ニューラルネットワークモデルを使用して予測を行うため、追加のビットをコーディングする必要がなく、これがブランド分析方法であり、良好な上位互換性を有し、かつ、モデルの出力がターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を反映できるパラメータであるため、スペクトラムパラメータから相関性パラメータへのマッピングが実現され、係数から係数への従来のマッピング方式と比べて、より良い一般化能力を持っている。本願の実施例の周波数帯域拡張の解決手段によれば、音色が大きくてよく通る、音量が比較的大きい信号を得ることができ、これにより、ユーザは、より良好な聴覚体験を得ることができる。
高周波数振幅スペクトル決定モジュール230は、相関性パラメータと低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る場合、具体的には、
低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを得ることと、
低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成することと、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープに基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得ることと、を実行するために使用される。
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープは、いずれも、対数ドメインのスペクトラムエンベロープであり、高周波数振幅スペクトル決定モジュール230は、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープに基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得る場合、具体的には、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定することと、
差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得ることと、を実行するために使用される。
高周波数振幅スペクトル決定モジュール230は、低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成する場合、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーすること、を実行するために使用される。
高周波数スペクトラムエンベロープには、第1数の第1サブスペクトラムエンベロープが含まれ、初期高周波数振幅スペクトルには、第1数のサブ振幅スペクトルが含まれ、ここで、各第1サブスペクトラムエンベロープは、初期高周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されたものである。
高周波数振幅スペクトル決定モジュール230は、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定し、差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得る場合、具体的には、
各第1サブスペクトラムエンベロープと、低周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープとの間の差を決定することと、
各第1サブスペクトラムエンベロープに対応する差に基づいて、対応する初期サブ振幅スペクトルを調整し、第1数の調整されたサブ振幅スペクトルを得ることと、
第1数の調整されたサブ振幅スペクトルに基づいて、ターゲット高周波数振幅スペクトルを得ることと、を実行するために使用される。
相関性パラメータには、相対平坦度情報がさらに含まれており、相対平坦度情報は、ターゲット広周波数スペクトラムの高周波数部分のスペクトラム平坦度と低周波数部分のスペクトラム平坦度との間の相関性を特徴づける。
高周波数振幅スペクトル決定モジュール230は、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定する場合、具体的には、
相対平坦度情報および低周波数スペクトラムのエネルギー情報に基づいて、高周波数スペクトラムエンベロープのゲイン調整値を決定することと、
ゲイン調整値に基づいて、高周波数スペクトラムエンベロープを調整し、調整された高周波数スペクトラムエンベロープを得ることと、
調整された高周波数スペクトラムエンベロープと、低周波数スペクトラムエンベロープとの間の差を決定することと、を実行するために使用される。
相対平坦度情報には、高周波数部分の少なくとも2つのサブ帯域領域に対応する相対平坦度情報が含まれており、1つのサブ帯域領域に対応する相対平坦度情報は、前記高周波数部分の1つのサブ帯域領域のスペクトラム平坦度と、低周波数部分の高周波数の周波数バンドのスペクトラム平坦度との間の相関性を特徴づける。
高周波数振幅スペクトル決定モジュール230は、相対平坦度情報と低周波数スペクトラムのエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのゲイン調整値を決定する場合、具体的には、
各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定すること、を実行するために使用される。
高周波数振幅スペクトル決定モジュール230は、ゲイン調整値に基づいて高周波数スペクトラムエンベロープを調整する場合、具体的には、
高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整すること、を実行するために使用される。
高周波数スペクトラムエンベロープには、第1数の第1サブスペクトラムエンベロープが含まれており、高周波数振幅スペクトル決定モジュールは、各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定する場合、具体的には、
各第1サブスペクトラムエンベロープについて、低周波数スペクトラムエンベロープにおける、第1サブスペクトラムエンベロープに対応するスペクトラムエンベロープが対応するスペクトラムエネルギー情報と、低周波数スペクトラムエンベロープにおける、第1サブスペクトラムエンベロープに対応するスペクトラムエンベロープの対応するサブ帯域領域が対応する相対平坦度情報と、低周波数スペクトラムエンベロープにおける、第1サブスペクトラムエンベロープに対応するスペクトラムエンベロープの対応するサブ帯域領域が対応するスペクトラムエネルギー情報とに基づいて、第1サブスペクトラムエンベロープのゲイン調整値を決定すること、を実行するために使用される。
高周波数振幅スペクトル決定モジュールは、高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整する場合、具体的には、
高周波数スペクトラムエンベロープにおける各第1サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第1サブスペクトラムエンベロープを調整すること、を実行するために使用される。
低周波数スペクトラムパラメータには、狭帯域信号の低周波数スペクトラムエンベロープがさらに含まれる。
この装置は、さらに、
低周波数振幅スペクトルを第2数のサブ振幅スペクトルに分割することと、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープをそれぞれ決定することであって、低周波数スペクトラムエンベロープには、決定された第2数のサブスペクトラムエンベロープが含まれることと、を実行するために使用される低周波数振幅スペクトル処理モジュール、を含む。
低周波数振幅スペクトル処理モジュールは、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定する場合、具体的には、
各サブ振幅スペクトルに含まれるスペクトル係数の対数値に基づいて、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得ること、を実行するために使用される。
狭帯域信号には、少なくとも2つの関連する信号が含まれる場合、この装置は、さらに、
少なくとも2つの関連する信号を融合して、狭帯域信号を得ること、または、少なくとも2つの関連する信号のうちの各信号をそれぞれ狭帯域信号とすること、を実行するために使用される狭帯域信号決定モジュール、を含む。
本願の実施例によって提供される周波数帯域拡張装置は、本願の実施例における周波数帯域拡張方法を実行することができる装置であるため、本願の実施例において提供される周波数帯域拡張方法に基づいて、当業者は、本願の実施例の周波数帯域拡張装置の具体的な実施形態およびその様々な変化形態を理解することができ、したがって、当該装置が本願の実施例における周波数帯域拡張方法をどのように実現するかについては、さらに詳細に説明しない。本願の実施例における周波数帯域拡張方法を当業者が実施するために使用される周波数帯域拡張装置であれば、いずれも、本願の保護範囲に属する。
本願の実施例によって提供される周波数帯域拡張方法および周波数帯域拡張装置と同じ原理に基づいて、本願の実施例は、また、電子デバイスを提供し、当該電子デバイスには、プロセッサとメモリとが含まれてもよい。ここで、メモリには、読み取り可能な命令が記憶されており、読み取り可能な命令は、プロセッサによってロードされて実行されると、本願のいずれかの実施例に示す方法を実現することができる。
一例として、図5は、本願の実施例の解決手段が適用される電子デバイス4000の構造の模式図を示し、図5に示すように、この電子デバイス4000は、プロセッサ4001とメモリ4003とを含んでもよい。ここで、プロセッサ4001とメモリ4003は接続され、例えばバス4002を介して接続されている。電子デバイス4000は、また、トランシーバ4004を含んでもよい。説明すべきものとして、実際の適用において、トランシーバ4004は、1つに限定されず、この電子デバイス4000の構造は、本願の実施例に対する限定を構成するものではない。
プロセッサ4001は、中央処理ユニット(CPU:Central Processing Unit)、汎用プロセッサ、データ信号プロセッサ(DSP:Digital Signal Processor)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)または他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部品、またはそれらの任意の組み合わせであってもよく、本願で開示された内容と組み合わせて説明された各例示的なロジックブロック、モジュールおよび回路を実現または実行することができる。プロセッサ4001は、計算機能を実現するための組み合わせであってもよく、例えば、1つまたは複数のマイクロプロセッサの組み合わせ、DSPとマイクロプロセッサの組み合わせなどを含む。
バス4002は、チャンネルを含んでもよく、上記のコンポーネントの間で情報を伝送する。バス4002は、ペリフェラルコンポーネントインターコネクト(PCI:Peripheral Component Interconnect)バス、または拡張業界標準アーキテクチャ(EISA:Extended Industry Standard Architecture)バスなどであってもよい。バス4002は、アドレスバス、データバス、制御バスなどに分けられることができる。表示を容易にするために、図5には、それを表すために、1本の太線のみが使用されているが、それは、1つのバスまたは1つのタイプのバスしかないことを意味するものではない。
メモリ4003は、読み取り専用メモリ(ROM:Read Only Memory)または静的情報や命令を記憶することができる他のタイプの静的記憶デバイス、ランダムアクセスメモリ(RAM:Random Access Memory)または情報や命令を記憶することができる他のタイプの動的記憶デバイスであってもよく、電気的に消去可能でプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read Only Memory)、コンパクトディスク読み取り専用メモリ(CD-ROM:Compact Disc Read Only Memory)または他の光ディスク記憶、ディスク記憶(コンパクトディスク、レーザーディスク(登録商標)、光ディスク、デジタル汎用ディスク、ブルーレイディスクなどを含む)、磁気ディスク記憶媒体または他の磁気記憶デバイス、または命令またはデータ構造形式を有する所望のプログラムコードを携帯または記憶することができ、かつコンピュータによりアクセス可能な任意の他の媒体であってもよいが、これらに限定されない。
メモリ4003は、本願の解決手段を実行するためのアプリケーションプログラムコードを記憶するために使用され、また実行するためにプロセッサ4001によって制御される。プロセッサ4001は、メモリ4003に記憶されているアプリケーションプログラムコードを実行することにより、上記のいずれかの方法実施例に示す解決手段を実現することに使用される。
本願の実施例は、また、コンピュータプログラム製品またはコンピュータプログラムを提供し、当該コンピュータプログラム製品またはコンピュータプログラムには、コンピュータ命令が含まれ、当該コンピュータ命令は、コンピュータ読み取り可能な記憶媒体に記憶されている。電子デバイスのプロセッサは、コンピュータ読み取り可能な記憶媒体から当該コンピュータ命令を読み取り、プロセッサは、当該コンピュータ命令を実行ことにより、当該電子デバイスに上記周波数帯域拡張方法を実行させる。
本願の実施例によって提供される周波数帯域拡張の解決手段は、処理対象となる狭帯域信号の低周波数スペクトラムパラメータに基づいて、ニューラルネットワークモデルの出力から上記の相関性パラメータを得ることができ、ニューラルネットワークモデルを使用して予測を行うため、追加のビットをコーディングする必要がなく、これがブランド分析方法であり、良好な上位互換性を有し、かつ、モデルの出力がターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を反映できるパラメータであるため、スペクトラムパラメータから相関性パラメータへのマッピングが実現され、係数から係数への従来のマッピング方式と比べて、より良い一般化能力を持っている。本願の実施例の周波数帯域拡張の解決手段によれば、音色が大きくてよく通る、音量が比較的大きい信号を得ることができ、これにより、ユーザは、より良好な聴覚体験を得ることができる。
理解すべきものとして、図面のフローチャートにおける各々のステップは、矢印の指示に従って順次に表示されているが、これらのステップは、必ずしも矢印の順序で順次に実行されるわけではない。本明細書で明確に説明されていない限り、これらのステップの実行は、順序については、厳密な順序制限がなく、他の順序で実行されてもよい。しかも、図面のフローチャートにおける少なくとも一部のステップは、複数のサブステップまたは複数の段階を含んでもよく、これらのサブステップまたは段階は、必ずしも同じ時刻で実行されるわけではなく、異なる時刻で実行されてもよいし、これらの実行順序も必ずしも順次に行うものではなく、他のステップ、または他のステップのサブステップまたは段階の少なくとも一部と順番にまたは交互に実行されてもよい。
以上は、本願の実施形態の一部に過ぎず、指摘すべきものとして、当業者であれば、本願の原理を逸脱しない前提で、いくつかの改良や潤飾を行うこともでき、これらの改良や潤飾も本願の保護範囲とみなすべきである。
20 周波数帯域拡張装置
210 低周波数スペクトラムパラメータ決定モジュール
220 相関性パラメータ決定モジュール
230 高周波数振幅スペクトル決定モジュール
240 高周波数位相スペクトル生成モジュール
250 高周波数スペクトラム決定モジュール
260 広帯域信号決定モジュール
4000 電子デバイス
4001 プロセッサ
4003 メモリ
4004 トランシーバ
本願の実施例において提供される周波数帯域拡張方法の適用シーン図を示す。 本願の実施例において提供される周波数帯域拡張方法の模式的フローチャートを示す。 本願の実施例において提供されるニューラルネットワークモデルのネットワーク構造の模式図を示す。 本願の実施例において提供される周波数帯域拡張方法の一例の模式的フローチャートを示す。 本願の実施例において提供される周波数帯域拡張装置の構造の模式図を示す。 本願の実施例において提供される電子デバイスの構造の模式図を示す。
ここで、処理対象となる狭帯域信号は、周波数帯域拡張を必要とする音声フレーム信号であってもよく、例えば、PSTN-VoIPパスにおいて、PSTN狭帯域音声信号をVoIP広帯域音声信号に拡張する必要がある場合、狭帯域信号は、PSTN狭帯域音声信号であってもよい。狭帯域信号が音声フレームの信号である場合、当該狭帯域信号は、1フレームの音声フレームの全部または一部の音声信号であってもよい。
70個の係数を含む低周波数振幅スペクトルを得た後、低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを決定することができる。
一例として、上記のようなシーンを例としてさらに説明し、低周波数振幅スペクトルは、合計70個の周波数ポイントに対応し、低周波数振幅スペクトルに対応する35~69番目の周波数ポイント(低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトル)をコピー対象となる周波数ポイント、即ち「テンプレート」として選択し、かつ、拡張後の広帯域信号の有効帯域幅が7000Hzであれば、選択された低周波数振幅スペクトルに対応する周波数ポイントをコピーして、70個の周波数ポイントを含む初期高周波数振幅スペクトルを得る必要があり、70個の周波数ポイントを含むこの初期高周波数振幅スペクトルを得るために、低周波数振幅スペクトルに対応する35~69番目の、つまり合計35個の周波数ポイントを2回コピーして、初期高周波数振幅スペクトルを生成することができる。同様に、低周波数振幅スペクトルに対応する0~69個の周波数ポイントをコピー対象となる周波数ポイントとして選択し、かつ、拡張後の広帯域信号の有効帯域幅が7000Hzであれば、低周波数振幅スペクトルに対応する0~69個の、つまり合計70個の周波数ポイントを1回コピーして、初期高周波数振幅スペクトルを生成することができ、当該初期高周波数振幅スペクトルには、合計70個の周波数ポイントが含まれている。
一例として、図2は、本願の実施例によって提供されるニューラルネットワークモデルの構造の模式図を示し、図に示すように、当該ニューラルネットワークモデルは、主に、片側LSTM層と2つの完全接続ネットワーク層との2つの部分を含み、即ち、この例において、各完全接続ネットワーク層は、1つの完全接続層を含み、一方の完全接続ネットワーク層の出力は、高周波数スペクトラムエンベロープであり、他方の完全接続ネットワーク層の出力は、相対平坦度情報である。
70個の係数を含む低周波数振幅スペクトルが得られた後、低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを決定することができる。
入力層で、ニューラルネットワークモデルに上記の84次元の特徴ベクトルを入力し、
出力層で、本実施例において周波数帯域拡張のターゲット帯域幅が7000Hzであることを考慮するため、3500~7000Hzの周波数バンドに対する14個のサブ帯域の高周波数スペクトラムエンベロープを予測する必要があり、そうすると、基本的な周波数帯域拡張機能を達成することができる。通常、音声フレームの低周波数部分には、大量の基音や共振ピークなどの高調波のような構造が含まれており、高周波数部分のスペクトラムはより平坦になり、単純に低周波数スペクトラムを高周波数にコピーして初期高周波数振幅スペクトルを取得し、初期高周波数振幅スペクトルに対してサブ帯域に基づくゲイン制御を実行すれば、再構築された高周波数部分は、過剰な高調波のような構造が発生し、歪みを引き起こし、聴感に影響を与えてしまう。したがって、本例において、ニューラルネットワークモデルにより予測された相対平坦度情報に基づいて、低周波数部分と高周波数部分との間の相対平坦度を記述し、初期高周波数振幅スペクトルを調整し、これにより、調整された高周波数部分はより平坦になり、高調波による干渉を減少させる。
本例において、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルを2回コピーすることにより、初期高周波数振幅スペクトルを生成すると共に、高周波数部分の周波数バンドを、それぞれが第1サブ帯域領域と第2サブ帯域領域である2つのサブ帯域領域に等分し、これにより、高周波数部分は、70個のスペクトル係数に対応し、各サブ帯域領域は、35個のスペクトル係数に対応しており、したがって、高周波数部分に対して2回の平坦度分析を実行し、即ち、サブ帯域領域ごとに1回の平坦度分析を実行し、低周波数部分、特に、1000Hz以下に対応する周波数バンドでは、高調波成分がより豊富であるため、本実施例において、35~69番目の周波数ポイントに対応するスペクトル係数を「テンプレート」として選択し、このようにすれば、第1サブ帯域領域に対応する周波数バンドは、70番目~104番目の周波数ポイントに対応する周波数バンドであり、第2サブ帯域領域に対応する周波数バンドは、105番目~139番目の周波数ポイントに対応する周波数バンドである。
以上の説明に基づいて、サンプル狭帯域信号の低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であるため、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択することができ、即ち、当該低周波数部分の高周波数の周波数バンド(35~69番目の周波数ポイントに対応する周波数バンド)をテンプレートとし、相応的に、サンプル広帯域信号の高周波数部分を少なくとも2つのサブ帯域領域に分割し、高周波数部分の各サブ帯域領域のスペクトラムおよび低周波数部分のスペクトラムに基づいて、各サブ帯域領域の相対平坦度情報を決定することができる。
上記したとおり、低周波数振幅スペクトル(35~69番目の、合計35個の周波数ポイント)を2回コピーし、高周波数の振幅スペクトル(合計70個の周波数ポイント)を生成し、狭帯域信号に対応する低周波数スペクトラムパラメータに基づいて、訓練済みのニューラルネットワークモデルによって、予測されたターゲット広周波数スペクトラムの高周波数部分の相対平坦度情報を取得することができる。本例で選択されたのは、35~69番目の周波数ポイントに対応する低周波数振幅スペクトルの周波数ドメイン係数であるため、この訓練済みのニューラルネットワークモデルによって、ターゲット広周波数スペクトラムの高周波数部分の少なくとも2つのサブ帯域領域の相対平坦度情報を予測して取得することができ、即ち、ターゲット広広周波数スペクトラムの高周波数部分は、少なくとも2つのサブ帯域領域に分割され、本例において、2個のサブ帯域領域を例として、ニューラルネットワークモデルの出力は、この2個サブ帯域領域に対する相対平坦度情報である。
図1Bに示す方法と同じ原理に基づいて、本発明の実施例は、また、周波数帯域拡張装置20を提供し、図4に示すように、この周波数帯域拡張装置20には、低周波数スペクトラムパラメータ決定モジュール210、相関性パラメータ決定モジュール220、高周波数振幅スペクトル決定モジュール230、高周波数位相スペクトル生成モジュール240、高周波数スペクトラム決定モジュール250、および広帯域信号決定モジュール260が含まれており、ここで、
低周波数スペクトラムパラメータ決定モジュール210は、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定し、ここで、低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる。
高周波数スペクトラムエンベロープには、第1数の第1サブスペクトラムエンベロープが含まれており、高周波数振幅スペクトル決定モジュール230は、各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定する場合、具体的には、
各第1サブスペクトラムエンベロープについて、低周波数スペクトラムエンベロープにおける、第1サブスペクトラムエンベロープに対応するスペクトラムエンベロープの、対応するスペクトラムエネルギー情報と、対応するサブ帯域領域が対応する相対平坦度情報と、対応するサブ帯域領域が対応するスペクトラムエネルギー情報とに基づいて、第1サブスペクトラムエンベロープのゲイン調整値を決定すること、を実行するために使用される。
高周波数振幅スペクトル決定モジュール230は、高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整する場合、具体的には、
高周波数スペクトラムエンベロープにおける各第1サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第1サブスペクトラムエンベロープを調整すること、を実行するために使用される。

Claims (20)

  1. 電子デバイスが実行する周波数帯域拡張方法であって、
    処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定するステップであって、前記低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれるステップと、
    前記低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得るステップであって、前記相関性パラメータが、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、前記相関性パラメータには、高周波数スペクトラムエンベロープが含まれるステップと、
    前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得るステップと、
    前記狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成するステップと、
    前記ターゲット高周波数振幅スペクトルと前記高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得るステップと、
    前記低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得るステップと、
    を含むことを特徴とする周波数帯域拡張方法。
  2. 前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得るステップは、
    前記低周波数振幅スペクトルに基づいて、前記狭帯域信号の低周波数スペクトラムエンベロープを得るステップと、
    前記低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成するステップと、
    前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとに基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得るステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープは、いずれも、対数ドメインのスペクトラムエンベロープであり、前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとに基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得るステップは、
    前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定するステップと、
    前記差に基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得るステップと、を含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成するステップは、
    前記低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーするステップ、を含む、
    ことを特徴とする請求項2に記載の方法。
  5. 前記高周波数スペクトラムエンベロープには、第1数の第1サブスペクトラムエンベロープが含まれ、前記初期高周波数振幅スペクトルには、前記第1数のサブ振幅スペクトルが含まれ、各前記第1サブスペクトラムエンベロープは、前記初期高周波数振幅スペクトルにおける対応するサブ振幅スペクトルに基づいて決定され、
    前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定し、前記差に基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得るステップは、
    各第1サブスペクトラムエンベロープと、前記低周波数スペクトラムエンベロープのうち対応するスペクトラムエンベロープとの間の差を決定するステップと、
    各第1サブスペクトラムエンベロープに対応する差に基づいて、対応する初期サブ振幅スペクトルを調整し、前記第1数の調整されたサブ振幅スペクトルを得るステップと、
    前記第1数の調整されたサブ振幅スペクトルに基づいて、前記ターゲット高周波数振幅スペクトルを得るステップと、を含む、
    ことを特徴とする請求項3に記載の方法。
  6. 前記相関性パラメータには、相対平坦度情報がさらに含まれ、前記相対平坦度情報は、前記ターゲット広周波数スペクトラムの高周波数部分のスペクトラム平坦度と低周波数部分のスペクトラム平坦度との間の相関性を特徴づけ、
    前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定する前記ステップは、
    前記相対平坦度情報と、前記低周波数スペクトラムのエネルギー情報とに基づいて、前記高周波数スペクトラムエンベロープのゲイン調整値を決定するステップと、
    前記ゲイン調整値に基づいて、前記高周波数スペクトラムエンベロープを調整し、調整された高周波数スペクトラムエンベロープを得るステップと、
    前記調整された高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定するステップと、を含む、
    ことを特徴とする請求項3~5のいずれか1項に記載の方法。
  7. 前記相対平坦度情報には、前記高周波数部分の少なくとも2つのサブ帯域領域に対応する相対平坦度情報が含まれ、1つのサブ帯域領域に対応する相対平坦度情報は、前記高周波数部分の1つのサブ帯域領域のスペクトラム平坦度と、前記低周波数部分の高周波数の周波数バンドのスペクトラム平坦度との間の相関性を特徴づけ、
    前記相対平坦度情報と、前記低周波数スペクトラムのエネルギー情報とに基づいて、前記高周波数スペクトラムエンベロープのゲイン調整値を決定するステップは、
    各サブ帯域領域に対応する相対平坦度情報と、前記低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、前記高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定するステップ、を含み、
    前記ゲイン調整値に基づいて、前記高周波数スペクトラムエンベロープを調整するステップは、
    前記高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整するステップ、を含む、
    ことを特徴とする請求項6に記載の方法。
  8. 前記高周波数スペクトラムエンベロープが第1数の第1サブスペクトラムエンベロープを含む場合、各サブ帯域領域に対応する相対平坦度情報と、前記低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、前記高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定するステップは、
    各第1サブスペクトラムエンベロープに対して、前記低周波数スペクトラムエンベロープにおける前記第1サブスペクトラムエンベロープに対応するスペクトラムエンベロープの、対応するスペクトラムエネルギー情報と、対応するサブ帯域領域が対応する相対平坦度情報と、対応するサブ帯域領域が対応するスペクトラムエネルギー情報とに基づいて、前記第1サブスペクトラムエンベロープのゲイン調整値を決定するステップ、を含み、
    前記高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整するステップは、
    前記高周波数スペクトラムエンベロープにおける各第1サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第1サブスペクトラムエンベロープを調整するステップ、を含む、
    ことを特徴とする請求項7に記載の方法。
  9. 前記低周波数スペクトラムパラメータには、前記狭帯域信号の低周波数スペクトラムエンベロープがさらに含まれる、
    ことを特徴とする請求項1~5のいずれか1項に記載の方法。
  10. 前記方法は、さらに、
    前記低周波数振幅スペクトルを第2数のサブ振幅スペクトルに分割するステップと、
    各サブ振幅スペクトルに対応するサブスペクトラムエンベロープをそれぞれ決定するステップであって、前記低周波数スペクトラムエンベロープには、決定された前記第2数のサブスペクトラムエンベロープが含まれるステップと、を含む、
    ことを特徴とする請求項9に記載の方法。
  11. 各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定するステップは、
    各サブ振幅スペクトルに含まれるスペクトル係数の対数値に基づいて、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得るステップ、を含む、
    ことを特徴とする請求項10に記載の方法。
  12. 前記狭帯域信号が少なくとも2つの関連する信号を含む場合、前記方法は、さらに、
    前記少なくとも2つの関連する信号を融合して、前記狭帯域信号を得るステップ、を含む、
    ことを特徴とする請求項1~5のいずれか1項に記載の方法。
  13. 前記狭帯域信号が少なくとも2つの関連する信号を含む場合、前記方法は、さらに、
    前記少なくとも2つの関連する信号のうちの各信号をそれぞれ前記狭帯域信号とするステップ、を含む、
    ことを特徴とする請求項1~5のいずれか1項に記載の方法。
  14. 周波数帯域拡張装置であって、
    処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定する低周波数スペクトラムパラメータ決定モジュールであって、前記低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる低周波数スペクトラムパラメータ決定モジュールと、
    前記低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得る相関性パラメータ決定モジュールであって、前記相関性パラメータが、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、前記相関性パラメータには、高周波数スペクトラムエンベロープが含まれる相関性パラメータ決定モジュールと、
    前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る高周波数振幅スペクトル決定モジュールと、
    前記狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する高周波数位相スペクトル生成モジュールと、
    前記ターゲット高周波数振幅スペクトルと前記高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得る高周波数スペクトラム決定モジュールと、
    前記低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得る広帯域信号決定モジュールと、
    を含むことを特徴とする周波数帯域拡張装置。
  15. 前記高周波数振幅スペクトル決定モジュールは、さらに、
    前記低周波数振幅スペクトルに基づいて、前記狭帯域信号の低周波数スペクトラムエンベロープを得ることと、
    前記低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成することと、
    前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとに基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得ること、を実行するために使用される、
    ことを特徴とする請求項14に記載の装置。
  16. 前記高周波数振幅スペクトル決定モジュールは、さらに、
    前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定することと、
    前記差に基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得ることと、を実行するために使用される、
    ことを特徴とする請求項15に記載の装置。
  17. 前記高周波数振幅スペクトル決定モジュールは、さらに、
    前記低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーすること、を実行するために使用される、
    ことを特徴とする請求項15に記載の装置。
  18. 前記高周波数振幅スペクトル決定モジュールは、さらに、
    各第1サブスペクトラムエンベロープと、前記低周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープとの間の差を決定することと、
    各第1サブスペクトラムエンベロープに対応する差に基づいて、対応する初期サブ振幅スペクトルを調整し、前記第1数の調整されたサブ振幅スペクトルを得ることと、
    前記第1数の調整されたサブ振幅スペクトルに基づいて、前記ターゲット高周波数振幅スペクトルを得る、を実行するために使用される、
    ことを特徴とする請求項16に記載の装置。
  19. 電子デバイスであって、
    前記電子デバイスには、プロセッサとメモリとが含まれ、
    前記メモリには、読み取り可能な命令が記憶されており、前記読み取り可能な命令が前記プロセッサによってロードされて実行されると、請求項1~13のいずれか1項に記載の方法が実現される、
    ことを特徴とする電子デバイス。
  20. コンピュータ読み取り可能な記憶媒体であって、
    前記記憶媒体には、読み取り可能な命令が記憶されており、前記読み取り可能な命令は、プロセッサによってロードされて実行されるとき、請求項1~13のいずれか1項に記載の方法が実現される、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2021558881A 2019-09-18 2020-09-14 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム Active JP7297367B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910883374.5A CN110556123B (zh) 2019-09-18 2019-09-18 频带扩展方法、装置、电子设备及计算机可读存储介质
CN201910883374.5 2019-09-18
PCT/CN2020/115010 WO2021052285A1 (zh) 2019-09-18 2020-09-14 频带扩展方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022527810A true JP2022527810A (ja) 2022-06-06
JP7297367B2 JP7297367B2 (ja) 2023-06-26

Family

ID=68740695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021558881A Active JP7297367B2 (ja) 2019-09-18 2020-09-14 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム

Country Status (4)

Country Link
EP (1) EP3923282B1 (ja)
JP (1) JP7297367B2 (ja)
CN (1) CN110556123B (ja)
WO (1) WO2021052285A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556123B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112086102B (zh) * 2020-08-31 2024-04-16 腾讯音乐娱乐科技(深圳)有限公司 扩展音频频带的方法、装置、设备以及存储介质
CN114420140B (zh) * 2022-03-30 2022-06-21 北京百瑞互联技术有限公司 基于生成对抗网络的频带扩展方法、编解码方法及系统
CN115116456A (zh) * 2022-06-15 2022-09-27 腾讯科技(深圳)有限公司 音频处理方法、装置、设备、存储介质及计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278800A (ja) * 1995-04-05 1996-10-22 Fujitsu Ltd 音声通信システム
JP2004521394A (ja) * 2001-06-28 2004-07-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 広帯域信号伝送システム
WO2019081070A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458930B (zh) * 2007-12-12 2011-09-14 华为技术有限公司 带宽扩展中激励信号的生成及信号重建方法和装置
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
CN101727906B (zh) * 2008-10-29 2012-02-01 华为技术有限公司 高频带信号的编解码方法及装置
SG185606A1 (en) * 2010-05-25 2012-12-28 Nokia Corp A bandwidth extender
US10347271B2 (en) * 2015-12-04 2019-07-09 Synaptics Incorporated Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network
CN107705801B (zh) * 2016-08-05 2020-10-02 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法
KR102002681B1 (ko) * 2017-06-27 2019-07-23 한양대학교 산학협력단 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
CN109599123B (zh) * 2017-09-29 2021-02-09 中国科学院声学研究所 基于遗传算法优化模型参数的音频带宽扩展方法及系统
CN107993672B (zh) * 2017-12-12 2020-07-03 腾讯音乐娱乐科技(深圳)有限公司 频带扩展方法及装置
CN108198571B (zh) * 2017-12-21 2021-07-30 中国科学院声学研究所 一种基于自适应带宽判断的带宽扩展方法及系统
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556123B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278800A (ja) * 1995-04-05 1996-10-22 Fujitsu Ltd 音声通信システム
JP2004521394A (ja) * 2001-06-28 2004-07-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 広帯域信号伝送システム
WO2019081070A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KEHUANG LI, CHIN-HUI LEE: "A deep neural network approach to speech bandwidth expansion", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN7022004971, April 2015 (2015-04-01), pages 4395 - 4399, XP033187591, ISSN: 0004902859, DOI: 10.1109/ICASSP.2015.7178801 *

Also Published As

Publication number Publication date
US20220068285A1 (en) 2022-03-03
EP3923282B1 (en) 2023-11-08
CN110556123A (zh) 2019-12-10
JP7297367B2 (ja) 2023-06-26
WO2021052285A1 (zh) 2021-03-25
EP3923282A1 (en) 2021-12-15
EP3923282A4 (en) 2022-06-08
CN110556123B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
JP7297368B2 (ja) 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム
JP2022527810A (ja) 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム
CN103026408B (zh) 音频信号产生装置
CN1215459C (zh) 声信号带宽扩展
RU2501097C2 (ru) Устройство и способ формирования синтезированного аудиосигнала и кодирования аудиосигнала
JP3861770B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
RU2491658C2 (ru) Синтезатор аудиосигнала и кодирующее устройство аудиосигнала
TW201140563A (en) Determining an upperband signal from a narrowband signal
CN110556121B (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
US9280978B2 (en) Packet loss concealment for bandwidth extension of speech signals
EP3992964B1 (en) Voice signal processing method and apparatus, and electronic device and storage medium
US8929568B2 (en) Bandwidth extension of a low band audio signal
EP2559026A1 (en) Audio communication device, method for outputting an audio signal, and communication system
JP2010521012A (ja) 音声符号化システム及び方法
TWI524332B (zh) 用於使用次頻帶時間平滑技術產生頻率增強信號之裝置及方法
WO2011047578A1 (zh) 频带扩展方法及装置
EP1199812A1 (en) Perceptually improved encoding of acoustic signals
WO2016021412A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP6599368B2 (ja) 信号分類方法及びその装置、並びにそれを利用したオーディオ符号化方法及びその装置
CN112530446B (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
US12002479B2 (en) Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium
Choo et al. Blind bandwidth extension system utilizing advanced spectral envelope predictor
CN116110424A (zh) 一种语音带宽扩展方法及相关装置
TW201443888A (zh) 用於使用能量限制操作產生頻率增強信號之裝置及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230608

R150 Certificate of patent or registration of utility model

Ref document number: 7297367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150