JP2022532959A - オーディオ信号内の特定の音声の検出に基づく歯擦音検出の適応 - Google Patents

オーディオ信号内の特定の音声の検出に基づく歯擦音検出の適応 Download PDF

Info

Publication number
JP2022532959A
JP2022532959A JP2022502267A JP2022502267A JP2022532959A JP 2022532959 A JP2022532959 A JP 2022532959A JP 2022502267 A JP2022502267 A JP 2022502267A JP 2022502267 A JP2022502267 A JP 2022502267A JP 2022532959 A JP2022532959 A JP 2022532959A
Authority
JP
Japan
Prior art keywords
sibilant
term
detector
audio signal
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022502267A
Other languages
English (en)
Other versions
JP7350973B2 (ja
Inventor
マー,ユエンシーン
リー,カイ
ファーン,チエンチエン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022532959A publication Critical patent/JP2022532959A/ja
Application granted granted Critical
Publication of JP7350973B2 publication Critical patent/JP7350973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

歯擦音検出器のパラメータを適応する方法が本願明細書に記載される。時間-周波数特徴が受信されるオーディオ信号から抽出される。該時間-周波数特徴に基づき、オーディオ信号が短期特徴又は長期特徴を含むかの決定が行われる。オーディオ信号が短期特徴又は長期特徴を含むことの決定に従い、オーディオ信号内の歯擦音を検出するための歯擦音検出器の1つ以上のパラメータが適応される。オーディオ信号内の歯擦音は、1つ以上の適応されたパラメータを有する歯擦音検出器を用いて検出される。

Description

[関連出願]
本願は、参照により全体がここに組み込まれる、2019年8月8日に出願した米国仮出願番号第62/884,320号及び2019年7月17日に出願した国際出願番号第PCT/CN2019/096399号、の優先権を主張する。
[技術分野]
本開示の実施形態は、概して、オーディオ信号処理に関し、より具体的には、歯擦音検出の適応に関する。
音声学では、歯擦音(sibilance)は、強く強調された摩擦で生じる子音(例えば、s、sh、ch、z、v、及びf)を有する会話を表す。これらの子音は、声道を通じて移動する空気が舌と唇の位置によって制限されるとき、生成される。オーディオ信号内の歯擦音は、通常、話す個人に応じて、4kHz(「キロヘルツ」)~12kHzの周波数範囲にある。歯擦音のエネルギが高い場合、会話は、オーディオ信号の品質を劣化させる、聴者に不快感を引き起こす、不自然な荒さ(harshness)を有する。
開示の実施形態は、オーディオ信号内の短期特徴及び長期特徴を検出し、それらの特徴をオーディオ信号内の余分な歯擦音と間違えることを回避するように歯擦音検出を適応する。開示のシステム及び方法の利点は、オーディオ信号の品質が、音声コンテンツの望ましい部分である可能性がある短期又は長期特徴の抑制によってではなく、保存されることである。開示のシステム及び方法は、特に、高周波数で粗悪なマイクロフォン周波数応答を有する低品質ヘッドセット、又は低品質スピーカを有するモバイル装置のような忠実度の低い装置にとって有用である。
幾つかの態様では、本開示は、歯擦音パラメータを適応し及び歯擦音検出において適応された歯擦音パラメータを使用する方法を記載する。システムは、オーディオ信号(例えば、映画サウンドトラック、音楽、ユーザの生成したオーディオ、又はポッドキャスト)を受信し、オーディオ信号から複数の時間-周波数特徴(例えば、複数の周波数帯のエネルギデータ)を抽出する。時間-周波数特徴は、衝撃音(例えば、銃声)及び/又は平坦摩擦音(例えば、文字「f」の音)のような短期特徴、及び/又は平滑化されたスペクトルバランス特徴のような長期特徴を含む。入力信号が短期特徴及び/又は長期特徴を含むことの決定に従い、システムは、オーディオ信号内の歯擦音を検出するための歯擦音検出器の1つ以上のパラメータを適応する。1つ以上の適応されたパラメータを有する歯擦音検出器を用いて、システムは、オーディオ信号内の歯擦音を検出し、マルチバンドコンプレッサを用いて歯擦音を抑制し、又は任意の他の所望のアプリケーションのために検出した歯擦音を使用することに進む。実施形態では、歯擦音検出器は、1つ以上の短期及び/又は長期特徴を有するオーディオサンプルに基づきトレーニングされた教師有り又は教師無し機械学習に基づく分類器(例えば、ニューラルネットワーク)を用いて実装される。
これら及び他の態様、特徴、及び実施形態は、機能を実行する、方法、機器、システム、コンポーネント、プログラムプロダクト、手段又はステップとして、及び他の方法で表現できる。
これら及び他の態様、特徴、及び実施形態は、請求の範囲を含む以下の説明から明らかになる。
図中、装置、モジュール、命令ブロック、及びデータ要素のような概略的要素の特定の構成又は順序は、説明を簡単にするために示される。しかしながら、当業者により理解されるべきことに、当業者は、図中の概略的要素の特定の順序又は構成が、処理の特定の順序又はシーケンス、又は処理の分離が必要であることを意味しない。更に、図中の概略的要素の包含は、そのような要素が全部の実施形態で必要であること、又はそのような要素により表現された特徴が幾つかの実施形態において他の要素に含まれる又はそれに結合されないことを意味しない。
更に、図中、実線又は破線又は矢印のような接続要素が2つ以上の他の概略的要素の間の又はその中の接続、関係、又は関連付けを説明するために使用される場合、任意のそのような接続要素が存在しないことは、接続、関係、又は関連付けが存在しないことを意味しない。言い換えると、要素間の幾つかの接続、関係、又は関連付けは、本開示を不明瞭にしないように、図中に示されない。更に、説明を容易にするために、単一の接続要素が、要素間の複数の接続、関係、又は関連付けを表すために使用される。例えば、接続要素が信号、データ、又は命令の通信を表す場合、そのような要素が1又は複数の信号パスが必要に応じて通信に影響することが、当業者により理解されるべきである。
本開示の幾つかの実施形態による、歯擦音検出のためのパラメータを適応するシステムのブロック図である。 本開示の幾つかの実施形態による、衝撃音検出器と平坦摩擦音検出器とを含む、歯擦音検出のためのパラメータを適用するシステムのブロック図である。 本開示の幾つかの実施形態による、歯擦音検出で使用されるパラメータを適応する動作を示す。 本開示の幾つかの実施形態による、摩擦音を検出するために歯擦音検出モジュールが実行する動作を示す。 本開示の幾つかの実施形態による、平坦摩擦音を検出するために歯擦音検出モジュールが実行する動作を示す。 本開示の幾つかの実施形態による、歯擦音が存在するかどうかを更に決定する動作を示す。 本開示の幾つかの実施形態による、歯擦音抑制で使用され得る歯擦音抑制曲線を示す。 本開示の幾つかの実施形態による、歯擦音検出を実施するためのブロック図である。
以下の説明では、例示を目的として、本開示の完全な理解を提供するために、多数の特定の詳細が説明される。しかしながら、本発明がこれらの特定の詳細のうちの一部を有しないで実行されてよいことが明らかである。
以下では、実施形態を詳細に参照する。実施形態の例は、添付の図面に示される。以下の詳細な説明では、種々の記載される実施種形態の完全な理解を提供するために、多くの特定の詳細が説明される。しかしながら、種々の記載される実施形態がこれらの特定の詳細を有しないで実施されてよいことが、当業者に明らかである。他の例では、実施形態の態様を不必要に不明瞭にしないように、よく知られた方法、手順、コンポーネント、及び回路は詳細に説明されない。互いに独立に又は他の特徴との任意の組合せにより使用できる幾つかの特徴が以下に説明される。
本願明細書で使用されるとき、用語「含む」及びその変形は、「含む(include)が、それに限定されない」を意味する広義の用語として解釈される。用語「又は」は、文脈上明確に示されない限り、「及び/又は」として解釈される。用語「に基づく」は、「少なくとも部分的に基づく」として解釈される。
図1A及び図1Bは、本開示の幾つかの実施形態による、歯擦音を検出するためのパラメータを適応するシステム100のブロック図である。システム100は、変換モジュール110、帯域モジュール120、歯擦音検出モジュール130、マルチバンドコンプレッサ140、及び逆変換モジュール150を含む。図1Aは、オーディオ信号内の短期特徴を検出するために使用される短期特徴検出器131を含む。幾つかの実施形態では、短期特徴は、打楽器を打つ又は銃声のような瞬間的音声の検出を含む。それらの音声は、通常、短い期間のもの、時には5ミリ秒である。図1Bは、短期特徴検出器の2つの例を含む。衝撃音検出器132は、銃声、シンバルのような打楽器を打つような衝撃音を検出するために使用される。一方で、平坦摩擦音検出器136は、平坦摩擦音(例えば、文字vの音、文字tの音、文字fの音、又は「th」音)を検出するために使用される。幾つかの実施形態では、衝撃音検出器132及び平坦摩擦音検出器136は、単一の検出器モジュールに結合される。
変換モジュール110は、オーディオ信号を受信し、オーディオ信号を所望の変換ドメインへと変換するよう構成される。幾つかの実施形態では、オーディオ信号は、会話及び非会話音声を含む。歯擦音パラメータ適応を実行するために、変換モジュール110は、オーディオ信号のフレームに対して(例えば、フィルタバンクを用いて)変換動作を実行して、オーディオ信号を周波数ドメインの複数の帯域のスペクトル特徴へと変換する。例えば、変換モジュール110は、高速フーリエ変換(Fast Fourier Transform (FFT))、修正離散コサイン変換(Modified Discrete Cosine Transform (MDCT))、直交ミラーフィルタ(Quadrature Mirror Filter (QMF))、又は別の変換アルゴリズムを実行して、オーディオ信号を時間ドメインから周波数ドメイン又は時間-周波数ドメインへと変換してよい。幾つかの実施形態では、変換モジュールは、複数の等間隔の周波数ビンを出力する。
帯域モジュール120は、変換モジュール110の出力(例えば、変換モジュール110により生成された周波数ビン)を複数の周波数帯(例えば、等価矩形帯域幅(Equivalent Rectangular Bandwidth(ERB)帯))へとグループ化又は集約する帯域(banding)動作を実行する。幾つかの実施形態では、帯域モジュールの中で1/3オクターブフィルタバンク(Third Octave Filter Banks)が使用される。周波数帯域は、歯擦音周波数帯域(例えば、約4kHz~約2kHz)及び非歯擦音周波数帯域(例えば、4kHzより下、及び約12kHz~約16kHz)を含む。実施形態では、図1Aに示されるように、歯擦音検出モジュール130は、短期特徴検出器131、短期歯擦音検出器134、及び長期歯擦音検出器136を含む。歯擦音検出モジュール130、及びそのコンポーネントは、本開示において更に詳細に議論される。マルチバンドコンプレッサ140は、歯擦音帯域及び/又は非歯擦音帯域に適用される利得を、歯擦音検出モジュール130の出力に従い変更する。幾つかの実施形態では、特定の帯域の利得は、変換モジュール(110)により出力される周波数ビンのサブセットに適用されるべき利得にマッピングされる。利得が適用された後に、周波数帯域は、逆変換モジュール150へと入力され、そこで、周波数帯域は変換されて時間ドメインに戻される。時間ドメインのオーディオ信号は、次に、1つ以上の出力装置へ(例えば、スピーカシステム、記憶装置へ)送信される。
本開示において実行される動作は、歯擦音検出モジュールにより実行されるとして記載される。留意すべきことに、歯擦音検出モジュールは、ソフトウェア、ハードウェア、又は両者の組合せを含んでよい。システム100を実装するために使用され得るハードウェアの例示的な実施形態は、図7に関連して更に説明される。以下に説明する例示的な実施形態は、それぞれ短期特徴を提供するために衝撃音検出及び平坦摩擦音検出を含むが、実施形態は、任意の短期特徴検出を使用できる。
図1Bは、本開示の幾つかの実施形態による、衝撃音検出器と平坦摩擦音検出器とを含む、歯擦音検出のためのパラメータを適用するシステムのブロック図である。
図2は、歯擦音検出で使用されるパラメータを適用するための動作を示す。202で、歯擦音検出モジュール130は、オーディオ信号を受信する。オーディオ信号は、変換モジュール110及び帯域モジュール120を通じて受信され処理される。上述のように、変換モジュール110は、オーディオ信号を時間ドメインから周波数ドメインへと変換し、帯域モジュール120は、変換モジュール110の出力を、歯擦音周波数帯域及び非歯擦音周波数帯域を含む複数の周波数帯域へとグループ化又は集約する。
204で、歯擦音検出モジュール130は、オーディオ信号から、複数の時間-周波数特徴を抽出する。それらの特徴は、オーディオ信号の特定のフレームについて、歯擦音周波数帯域の中の帯域毎にエネルギレベルを含む。206で、歯擦音検出モジュール130は、複数の時間-周波数特徴を用いて、オーディオ信号が衝撃音又は平坦摩擦音を含むかを決定する。歯擦音検出モジュール130は、モジュールに利用可能なリソースに依存して、並列に又は順次、衝撃音及び平坦摩擦音を検出するよう構成される。
衝撃音検出器132を含む実施形態では、衝撃音検出器132は、オーディオ信号が衝撃音を含むかどうかを決定する。衝撃音検出器132は、ソフトウェア及びハードウェアコンポーネントの両方を含んでよい。幾つかの実施形態では、短期時間-周波数特徴(例えば、~5ミリ秒)は、衝撃音を検出するために使用される。
図3は、衝撃音を検出するために歯擦音検出モジュール130が実行する動作を示す。302で、歯擦音検出モジュール130は、オーディオ信号内の第1時間間隔の間、1つ以上の歯擦音周波数帯域の中の第1合計パワー、及び1つ以上の非歯擦音周波数帯域の中の第2合計パワーを計算する。実施形態では、歯擦音検出モジュール120は、(以下の)式1を使用して、歯擦音周波数帯域について計算を実行する。
Figure 2022532959000002
ここで、bは、歯擦音周波数帯域の数であり、Pbは、歯擦音周波数帯域bの中のパワーであり、nは、第1時間間隔であうる(現在フレーム又は現在時間期間)。実施形態では、歯擦音検出モジュール130は、(以下の)式2を使用して、歯擦音周波数帯域について計算を実行する。
Figure 2022532959000003
ここで、bは、歯擦音周波数帯域の数であり、Pbは、歯擦音周波数帯域bの中のパワーであり、nは、第1時間間隔である(現在フレーム又は現在時間期間)。上述のように、歯擦音周波数帯域は、約4kHz~約12kHzの間の周波数を含み、非歯擦音検出、約4kHzより下、及び12kHzと約16kHzの間の周波数を含む。
304で、歯擦音検出モジュール130は、オーディオ信号内の第2時間間隔(例えば、前の時間間隔)の間、1つ以上の歯擦音周波数帯域の中の第3合計パワー、及び1つ以上の非歯擦音周波数帯域の中の第4合計パワーを計算する。例えば、実施形態では、歯擦音検出モジュール130は、(以下の)式3を用いて、前の時間間隔(例えば、前のフレーム)の間の歯擦音周波数帯域の計算を実行する。
Figure 2022532959000004
ここで、bは、歯擦音周波数帯域の数であり、Pbは、歯擦音周波数帯域bの中のパワーであり、nは、第1時間間隔であり(例えば、現在フレーム又は時間期間)、kは、[n-k]を前の時間間隔(例えば、前のフレーム)にする整数である。幾つかの実施形態では、kは、1と3の範囲にある整数である。
例えば、実施形態では、歯擦音検出モジュール130は、(以下の)式4を用いて、前の時間間隔(例えば、前のフレーム)の間の非歯擦音周波数帯域の計算を実行する。
Figure 2022532959000005
ここで、bは、非歯擦音周波数帯域の数であり、Pbは、非歯擦音周波数帯域の中のパワーであり、nは、第1時間間隔であり(例えば、現在フレーム又は時間期間)、kは、[n-k]を前の時間間隔(例えば、前のフレーム又は時間期間)にする整数である。幾つかの実施形態では、kは、1~3の範囲にある整数である。
306で、歯擦音検出モジュール130は、第1合計パワーと第3合計パワーとの間の差に基づき第1フラックス(flux)値を、及び第2合計パワーと第4合計パワーとの間の差に基づき第2フラックス値を決定する。例えば、実施形態では、歯擦音検出モジュール130は、(以下の)式5を使用して、第1フラックス値を計算する。
Figure 2022532959000006
ここで、Psib_bands[n]は、時間間隔n(例えば、現在時間間隔、又は現在フレーム)の間の歯擦音周波数帯域の合計パワーであり、Psib_bands[n-k]は、前の時間間隔[n-k]の間の歯擦音周波数帯域の合計パワーであり、kは1と3の間の整数であってよい。幾つかの実施形態では、kはより大きな整数であり得る。
実施形態では、歯擦音検出モジュール130は、(以下の)式6を使用して、第2フラックス値を計算する。
Figure 2022532959000007
ここで、Pnon_sib_bands[n]は、時間間隔n(例えば、現在時間間隔、又は現在フレーム)の間の非歯擦音周波数帯域の合計パワーであり、Pnon_sib_bands[n-k]は、前の時間間隔[n-k]の間の非歯擦音周波数帯域の合計パワーであり、kは1と3の間の整数である。幾つかの実施形態では、kはより大きな整数であり得る。
308で、歯擦音検出モジュール130は、第1フラックス値が第1閾値を満たすかどうか、及び第2フラックス値が第2閾値を満たすかどうかを決定する。第1フラックス値及び第2フラックス値の両方がそれらのそれぞれの閾値を満たす場合、処理300は310へ進み、そこで、歯擦音検出モジュール130は衝撃音が存在することを決定する。第1フラックス値又は第2フラックス値のいずれかがそれらのそれぞれの閾値を満たさない場合、処理300は312へ進み、そこで、歯擦音検出モジュール130は衝撃音が存在しないことを決定する。(以下の)式7の論理は、衝撃音が存在するかどうかの決定を例示する。
Figure 2022532959000008
ここで、Ssib_bands[n]は、時間間隔n(例えば、現在フレーム)の間の歯擦音周波数帯域のフラックス値であり、Thsib_bandは、歯擦音周波数帯域の閾値であり、Snon_sib_bands[n]は、非歯擦音周波数帯域のフラックス値であり、Thnon_sib_bandは、非歯擦音周波数帯域の閾値である。幾つかの実施形態では、閾値は10デシベル(「dB」)である。幾つかの実施形態では、I[n]=1ならば、歯擦音検出モジュール130は、衝撃音が存在すると決定する。I[n]=0ならば、歯擦音検出モジュール130は、衝撃音が存在しないと決定する。
幾つかの実施形態では、歯擦音検出モジュール130は、衝撃音が検出されたかどうかの決定を出力する前に、式7により出力された値に平滑化を適用する。(以下の)式8の論理は、平滑化動作を例示する。
Figure 2022532959000009
ここで、αAはアタック時定数であり、幾つかの実施形態では0秒の値を有し、αRはリリース時定数であり、幾つかの実施形態では、1秒の値を有する。従って、Ismooth[n]は、衝撃音検出器132の出力である(つまり、RISD[n]=Ismooth[n])。
幾つかの実施形態では、アタック時定数及びリリース時定数は、衝撃音の種類に基づき適応される。例えば、ある種類の衝撃音は、別の種類の衝撃音より長くてよい。その場合、リリース時定数は増大されてよい。別の例では、ある種類の衝撃音は、音の始めにより低い(例えば、閾値より低い)エネルギを有し、従って、アタック時定数が増大される。
幾つかの実施形態では、歯擦音検出モジュール130は、時間-周波数特徴に基づき、衝撃音の種類を識別する。幾つかの実施形態では、歯擦音検出モジュール120は、知られている衝撃音及び対応するエネルギ及び/又はフラックスレベルへのアクセスを有する。つまり、所与の音声は、歯擦音周波数帯域及び非歯擦音周波数帯域の両方の特定のエネルギ及び/又はフラックスレベルのセットを有してよい。幾つかの実施形態では、それらのエネルギレベル及び/又はフラックスレベルは、格納され、検出した衝撃音のエネルギレベル及び/又はフラックスレベルと比較される。比較は、受信した衝撃音を識別するために、全部の知られている衝撃音について繰り返される。
幾つかの実施形態では、歯擦音検出モジュール130は、歯擦音周波数帯域及び非歯擦音周波数帯域について異なる閾値を用いて、歯擦音周波数帯域及び非歯擦音周波数帯域におけるフラックスに基づき、衝撃音の種類を識別する。例えば、それぞれの知られている衝撃音は、特定の歯擦音閾値及び特定の非歯擦音閾値に関連付けられてよい。従って、衝撃音種類Aは、15dBの歯擦音閾値、及び8dBの非歯擦音閾値を有してよい。衝撃音Bは、20dBの歯擦音周波数帯域、及び15dBの非歯擦音閾値を有してよい。従って、フラックス値が歯擦音周波数帯域及び非歯擦音周波数帯域の両方について計算されると、それらのフラックス値は、それがどの衝撃音であるかを決定するために、それぞれの知られている衝撃音のフラックス値と比較される。例えば、最も近い歯擦音及び非歯擦音閾値の一致は、衝撃音の種類を決定するために使用されてよい。(以下の)式9の論理は、衝撃音検出を例示する。
Figure 2022532959000010
ここで、Ssib_bands[n]は、時間間隔n(例えば、現在フレーム)の間の歯擦音周波数帯域のフラックス値であり、Thsib_bandAは、種類A衝撃音の歯擦音周波数帯域の閾値であり、Snon_sib_bands[n]は、非歯擦音周波数帯域のフラックス値であり、Thnon_sib_bandAは、非歯擦音周波数帯域の閾値である。更に、Thsib_bandBは、種類B衝撃音の歯擦音周波数帯域の閾値であり、Thnon_sib_bandBは、種類B衝撃音の非歯擦音周波数帯域の閾値である。
幾つかの実施形態では、歯擦音検出モジュール130は、カウンタを使用して、衝撃音検出器132からの出力を生成する。(以下の)式10の論理は、カウンタを使用して衝撃音検出器132からの出力を生成することを例示する。
Figure 2022532959000011
ここで、Ncountdownは、プリセットカウントダウン値であり、nは、現在時間期間(例えば、現在フレーム)である。幾つかの実施形態では、値は、サンプルレート及びフレームサイズに依存する。幾つかの実施形態では、カウントダウン期間は1秒に等しい。(以下の)式11の論理は、カウントダウンを用いて衝撃音検出器132からの出力を例示する。
Figure 2022532959000012
ここで、Icount[n]は、式10のカウンタの出力である。
幾つかの実施形態では、歯擦音検出モジュール130は、平坦摩擦音検出器136を使用して、オーディオ信号が平坦摩擦音を含むかどうかを決定する。幾つかの実施形態では、平坦摩擦音検出器136は、ソフトウェア及びハードウェアコンポーネントの両方を含む。幾つかの実施形態では、短期時間-周波数特徴(例えば、~5ミリ秒)は、平坦摩擦音を検出するために使用される。通常、平坦摩擦音/会話は、歯擦音(例えば、過度の又は耳を刺すような歯擦音のスペクトル)に比べて平坦なスペクトルを有する。幾つかの実施形態では、歯擦音スペクトルの平坦度は、パワースペクトルの幾何平均をパワースペクトルの算術平均で除算することにより計算される。従って、平坦摩擦音は、歯擦音スペクトル平坦度指標(sibilance spectral flatness measure (“SSFM”))に基づき検出できる。幾つかの実施形態では、歯擦音検出モジュール130は、(以下の)式12を使用して、SSFMを計算する。
Figure 2022532959000013
ここで、X(k)は、帯域インデックスkの歯擦音周波数帯域スペクトルであり、Kは周波数帯域の数である。幾つかの実施形態では、歯擦音検出モジュール120は、隣接歯擦音周波数帯域内のパワーの分散及び/又は標準偏差を用いて、平坦摩擦音が存在するかどうかを決定する。幾つかの実施形態では、歯擦音検出モジュール120は、歯擦音周波数帯域内のパワーのピーク対平均比又はピーク対中央値比を用いて、平坦摩擦音が存在するかどうかを決定する。更に幾つかの実施形態では、歯擦音検出モジュール120は、隣接歯擦音周波数帯域内のパワーのスペクトルエントロピーを用いて、平坦摩擦音が存在するかどうかを決定する。(以下の)式13の論理は、平坦摩擦音検出器136の出力を説明する。
Figure 2022532959000014
ここで、ThSSFMは検出のための閾値である。従って、SSFMの出力が閾値より大きい場合、歯擦音検出モジュール130は、平坦摩擦音が存在すると決定する。
図4は、平坦摩擦音を検出するために歯擦音検出モジュール130が実行する動作を示す。402で、歯擦音検出モジュール130は、歯擦音周波数帯域スペクトル及び周波数帯域の数に基づき、歯擦音スペクトル平坦度指標を計算する。幾つかの実施形態では、歯擦音検出モジュール130は、式12を使用して計算を実行する。404で、歯擦音検出モジュール130は、(例えば、図7に関連して議論されるようなメモリから)歯擦音スペクトル平坦度閾値を読み出す。406で、歯擦音検出モジュール130は、歯擦音スペクトル平坦度指標を、歯擦音スペクトル平坦度閾値と比較する。408で、歯擦音検出モジュール130は、歯擦音スペクトル平坦度指標が歯擦音スペクトル平坦度閾値を満たすかどうかを決定する。歯擦音スペクトル平坦度指標が歯擦音スペクトル平坦度閾値を満たす場合、処理400は410へ進み、そこで、歯擦音検出モジュール130は、平坦摩擦音が存在すると決定する。歯擦音スペクトル平坦度指標が歯擦音スペクトル平坦度閾値を満たさない場合、処理400は412へ進み、そこで、歯擦音検出モジュール130は、平坦摩擦音が存在しないと決定する。
図2の処理200に戻り、208で、入力信号が衝撃音又は平坦摩擦音を含むという決定に従い、歯擦音検出モジュール130は、オーディオ信号内の歯擦音を検出するために歯擦音検出の1つ以上のパラメータを適応する。幾つかの実施形態では、208で、歯擦音検出モジュールは、短期特徴検出器131からの出力に基づき、オーディオ信号内の歯擦音を検出するための歯擦音検出の1つ以上のパラメータを適応する。例えば、短期特徴検出器は、1つ以上の検出器(例えば、衝撃音検出器、平坦摩擦音検出器、他の適切な検出器)を含むことができる。短期特徴検出器131の出力は、短期歯擦音検出器134へと入力される。幾つかの実施形態では、歯擦音検出モジュール130は、衝撃音が検出されたかどうかの決定から生じる出力値、及び平坦摩擦音が検出されたかどうかの決定から生じる出力値に基づき、歯擦音検出閾値を適応する。更に幾つかの実施形態では、歯擦音検出モジュール130は、短期特徴検出器131の任意の適切な特徴の出力に基づき、歯擦音検出閾値を適応する。歯擦音検出モジュール130は、短期歯擦音検出動作において、歯擦音検出閾値を使用する。従って、210で、歯擦音検出モジュール130は、1つ以上の適応されたパラメータによる歯擦音検出を用いて、オーディオ信号内の歯擦音を検出する。
上述のように、歯擦音検出モジュールは、短期歯擦音検出器134を含む。幾つかの実施形態では、上述の動作は、短期歯擦音検出器134により実行される。それらの実施形態では、短期歯擦音検出器134は、衝撃音検出器132、平坦摩擦音検出器136、及び/又は短期特徴検出器131の任意の他のコンポーネントからの出力を用いて、抑制される必要のある種類の歯擦音が存在するかどうかを決定する。短期歯擦音検出器134は、ソフトウェア、ハードウェア、又はソフトウェア及びハードウェアの組合せであってよい。幾つかの実施形態では、歯擦音検出モジュール130は、(例えば、短期歯擦音検出器134を用いて)スペクトルバランス特徴を計算し、該スペクトルバランス特徴を閾値(例えば、衝撃音検出器132、平坦摩擦音検出器136、及び/又は任意の他の適切な検出器を含む短期特徴検出器の出力に基づく閾値)と比較して、オーディオ信号内に歯擦音が存在するかどうかを決定する。
ここで、用語「スペクトルバランス」は、音声周波数帯域に渡る信号エネルギのバランス特性を表す。幾つかの例では、スペクトルバランスは、音声周波数帯域全体に渡る信号エネルギのバランスの程度を特徴付ける。本願明細書で使用される用語「音声周波数帯域」は、音声信号が位置する周波数帯域を意し味、例えば、約0kHz~約16kHzの範囲に渡る。歯擦音は特別なスペクトル分布特徴を有するので(つまり、歯擦音は、通常、中心周波数帯域に集中している)、スペクトルバランス特徴は、非歯擦音と歯擦音との間を区別するのに有用である。
幾つかの実施形態では、スペクトルバランス特徴は、歯擦音周波数帯域内の信号エネルギ及び音声周波数帯域全体の中の信号エネルギに基づき取得される。特に、スペクトルバランス特徴は、歯擦音周波数帯域内の信号エネルギの、音声周波数帯域全体の中の信号エネルギに対する比として計算できる。つまり、スペクトルバランス特徴は、全部の歯擦音周波数帯域の信号エネルギの和と、音声周波数帯域全体の中の信号エネルギの和との比として表現できる。
幾つかの実施形態では、スペクトルバランス特徴は、歯擦音周波数帯域内の信号エネルギ及び非音声周波数帯域内の信号エネルギに基づき計算される。この場合には、音声周波数帯域は、2つの部分、つまり歯擦音周波数帯域及び非歯擦音周波数帯域に分割される。つまり、帯域は2つの帯域グループに分割され、一方は歯擦音の信号エネルギを含む可能性があり、他方は歯擦音の信号エネルギを含まない又は殆ど含まない。従って、スペクトルバランス特徴は、2つの周波数帯域における信号エネルギの比として計算される。
本開示の幾つかの実施形態では、スペクトルバランス特徴は、歯擦音周波数帯域及び非音声周波数帯域内の信号対雑音比(signal-to-noise ratios (SNR))に基づき決定される。特に、スペクトルバランス特徴は、2つのSNRの比として決定される。
幾つかの実施形態では、歯擦音検出モジュール130は、短期検出器131(例えば、衝撃音検出器132及び/又は平坦摩擦音検出器136)の出力を使用して、スペクトルバランス特徴と比較するための閾値を計算する。幾つかの実施形態では、歯擦音検出モジュール130は、衝撃音検出器132の出力及び平坦摩擦音検出器136の出力のうち、高い方の値を使用する。例えば、衝撃音が検出され、衝撃音検出器132からの出力が1であるが、平坦摩擦音が検出されず、平坦摩擦音検出器からの出力が0である場合、歯擦音検出モジュール130は、短期歯擦音検出器134への入力として値1を使用する。従って、実施形態では、歯擦音検出モジュール130は、(以下の)式14を使用して、閾値を決定する。
Figure 2022532959000015
ここで、Thnormalは、衝撃音も平坦摩擦音も検出されないときに使用される通常閾値である。幾つかの実施形態では、閾値は-5dBである。Thdeltaは、通常閾値Thnormalと厳格閾値Thtightとの間の差であり、Thtightは-1dBの値を有してよい。更に、f(RFFVD[n],RISD[n])は、max(RFFVD[n],RISD[n])であってよい。ここで、RFFVD[n]は、平坦摩擦音検出器136からの出力値を示し、RISD[n]は、衝撃音検出器132からの出力値を示す。つまり、max関数は、より高い方の値を選択するために使用される。式14は衝撃音検出器132及び平坦摩擦音検出器136の出力のうちの最大値を決定するが、幾つかの実施形態では、歯擦音検出モジュールは、任意の短期特徴検出の出力の最大値を決定する。
幾つかの実施形態では、関数は、より複雑である。例えば、(例えば、平坦摩擦音検出器136及び衝撃音検出器132の代替として又はそれに追加して)短期検出器131のそれぞれの出力からのものに重みを与えることができる。短期特徴検出器131の特定の出力が音声に関連し、音声が処理中のオーディオ信号の部分の中で検出された場合、より大きな重みがその出力に与えられる。短期特徴検出器131の特定の出力が非音声に関連し、音声が処理中のオーディオ信号の部分の中で検出された場合、より小さな重みがその出力に与えられる。幾つかの実施形態では、f(RFFVD[n],RISD[n])はより複雑である。例えば、オーディオ種類が会話である場合、より大きな重みが平坦摩擦音検出器136に与えられ、内容が非会話(例えば、音楽、音響効果、又は別の適切な音声)である場合、より大きな重みが衝撃音検出器132に与えられる。実施形態では、歯擦音検出モジュール130は、(以下の)式15を使用して、式14に追加すべき値を決定する。
Figure 2022532959000016
ここで、wFFVD[n]及びwISD[n]は、それぞれ、平坦摩擦音検出器136の出力及び衝撃音検出器132の出力に対応する重みである。幾つかの実施形態では、重みは、内容種類分類器(例えば、ニューラルネットワーク)からの出力に基づき決定される。式15は衝撃音検出器132及び平坦摩擦音検出器136の出力の重みを使用するが、幾つかの実施形態では、歯擦音検出モジュールは、任意の短期特徴検出の出力の重みを割り当て/使用できる。従って、幾つかの実施形態では、式15は、関連付けられた重みを有する他の短期特徴検出器からの結果を含み得る。
幾つかの実施形態では、閾値が決定されると、歯擦音検出モジュール130は、閾値を使用して、歯擦音が存在するかどうかを決定する。実施形態では、歯擦音検出モジュール130は、(以下の)式16の論理を使用して決定を行う。
Figure 2022532959000017
ここで、SPD[n]は、スペクトルバランス特徴であり、ThSTSD[n]は、例えば式14により決定される閾値である。
幾つかの実施形態では、歯擦音検出モジュール130は、短期特徴検出器134の結果を、マルチバンドコンプレッサ140へと転送する。幾つかの実施形態では、歯擦音検出モジュール130は、短期歯擦音検出器134の結果を使用して、(例えば、長期歯擦音検出器138を使用することにより)長期歯擦音検出を実行する。幾つかの実施形態では、長期歯擦音検出は、音声信号のより長い部分(例えば、約200ミリ秒)に対して実行される。幾つかの実施形態では、歯擦音検出モジュール130は、図5を参照して説明した動作を使用して、歯擦音が存在するか否かを更に決定する。これらの動作は、長期歯擦音検出の単なる例を示す。幾つかの実施形態では、長期歯擦音検出は、分類器(例えば、ニューラルネットワーク)を用いて実行される。例えば、任意の検出された短期特徴及び適切な音声信号部分は、分類器への入力として使用でき(例えば、分類器は、短期特徴及びオーディオ信号の部分を取り入れるよう構成され得る)、分類器の出力は、歯擦音が存在するかどうかの決定である。
502で、歯擦音検出モジュール130は、短期歯擦音検出器134の出力にアクセスする。例えば、短期歯擦音検出器134は、歯擦音が検出されたかどうかの値(例えば、1又は0)を出力機能であってよく、更に上述のスペクトルバランス特徴を出力してよい。504で、歯擦音検出モジュール130は、短期歯擦音検出器134が歯擦音を検出したかどうかに基づき、時定数を選択する。幾つかの実施形態では、定数は、短期歯擦音検出器134において歯擦音が検出された場合に、0.2秒であり、短期歯擦音検出器134において歯擦音が検出されなかった場合に、1秒である。
504で、歯擦音検出モジュール130は、選択された時定数を用いてスペクトルバランス特徴の平滑化バージョンを計算する。実施形態では、歯擦音検出モジュール130は、式17の論理を使用して計算を行う。
Figure 2022532959000018
ここで、αsは、短期歯擦音検出器134により歯擦音が検出されたときに使用される時定数であり、つまりRSTSD[n]=1であり、αnsは、歯擦音が検出されないときに使用される時定数である。
幾つかの実施形態では、非歯擦音平滑化スペクトルバランス特徴の結果は、(以下の)式18により与えられる。
Figure 2022532959000019
ここで、f(・)は、閾値との比較である。実施形態では、歯擦音検出モジュール130は、計算のために(以下の)式19の論理を使用する。
Figure 2022532959000020
ここで、ThNSSSPDは検出のための閾値(例えば、-12dB)である。
幾つかの実施形態では、f(・)は、(以下の)式20により示されるような、より複雑な関数である。
Figure 2022532959000021
ここで、ThNSSSPD1及びThNSSSPD2は、(それぞれ、-15dB及び-12dBの値を有する)閾値であり、SPDsmooth[n]は、スペクトルバランス特徴の平滑化バージョンである。
図5の処理500を続けると、歯擦音検出モジュール130は、スペクトルバランス特徴の平滑化バージョンが閾値を満たすかどうかを決定する。幾つかの実施形態では、式20に関連して説明したように、歯擦音検出モジュール130は、スペクトルバランス特徴が複数の閾値を満たすかどうかを決定する。スペクトルバランス特徴の平滑化バージョンが閾値を満たす場合、処理500は510へ進み、そこで、歯擦音検出モジュール130は、歯擦音が存在すると決定する。スペクトルバランス特徴の平滑化バージョンが閾値を満たさない場合、処理500は512へ進み、そこで、歯擦音検出モジュール130は歯擦音が存在しないことを決定する。
幾つかの実施形態では、長期歯擦音検出器138の出力は、短期歯擦音検出及び長期歯擦音検出の両方の結果を含む。幾つかの実施形態では、歯擦音検出モジュール130は、長期歯擦音検出器138の出力を決定するための関数を使用する。実施形態では、出力は、式21により示される通りである。
Figure 2022532959000022
ここで、RSTSD[n]及びRNSSSPD[n]は、それぞれ、短期歯擦音検出器134及び長期歯擦音検出器138からの出力である。式21で、f(・)は、例えばRSTSD[n]及びRNSSSPD[n]の積である。
幾つかの実施形態では、短期、長期、又は短期及び長期検出の両方の出力が、歯擦音抑制のために使用される。しかしながら、当業者は、歯擦音抑制が、検出された歯擦音の利用の単なる例であることを理解するだろう。例えば、歯擦音検出モジュール130は、マルチバンドコンプレッサ140を制御するために、出力を使用してよい。従って、マルチバンドコンプレッサ140の閾値は、オーディオ信号内の歯擦音を抑制するよう動的に調整される。幾つかの実施形態では、(以下の)式21は、歯擦音抑制において使用される。
Figure 2022532959000023
ここで、kはマルチバンドコンプレッサ140の歯擦音周波数帯域(例えば、4kHz~10kHz)内にあり、Th_statickは帯域kの静的閾値であり、akは帯域kの動的調整値である。幾つかの実施形態では、動的調整は、全部の歯擦音周波数帯域に渡り同じである。幾つかの実施形態では、動的調整は、一部の歯擦音周波数帯域について異なる。動的調整は、プリセット値、調整可能パラメータ、又は別の適切な動的調整を含む。調整可能パラメータは、装置(例えば、モバイル装置)の種々の特性に対応するために使用されてよい。
幾つかの実施形態では、歯擦音検出モジュール130は、短期及び長期特徴の組合せに基づき、歯擦音検出器の1つ以上のパラメータを適応する。歯擦音検出モジュール130は、1つ以上の短期特徴(例えば、衝撃音、平坦摩擦音、又は別の適切な特徴)を決定する。歯擦音検出モジュール130は、1つ以上の短期特徴に基づき、1つ以上の長期特徴を決定する。例えば、歯擦音検出モジュール130は、短期特徴検出器の出力を取り入れ、上述のように、該出力を長期特徴検出器への入力として使用する。歯擦音検出モジュールは、次に、短期及び長期特徴の組合せに基づき、1つ以上の歯擦音パラメータを適応する。例えば、歯擦音検出モジュール130は、上述のように、短期歯擦音特徴の出力を用いて又は変換モジュール110及び/又は帯域モジュール120の出力を用いて決定された長期歯擦音特徴に基づき、歯擦音閾値を変更する。
幾つかの実施形態では、歯擦音検出モジュールは、機械学習に基づく分類器(例えば、ニューラルネットワーク)を使用して、歯擦音の存在を決定する。これらの実施形態では、歯擦音検出モジュール130は、短期特徴検出器131(衝撃音検出器132、平坦摩擦音検出器136、及び/又は任意の他の短期特徴検出器を含む)、短期歯擦音検出器134、及び長期歯擦音検出器138の出力のうちのいずれかの組合せを、機械学習に基づく分類器への入力として使用する。機械学習に基づく分類器は、その情報に基づき、歯擦音が存在するかどうかの決定を出力するようトレーニングされ得る。
図6は、歯擦音抑制で使用され得る歯擦音抑制曲線を示す。歯擦音抑制曲線は、3つの部分C1、C2、及びC3を含む。部分C1では、歯擦音のレベルは低閾値TH_lowより低く、従って、歯擦音抑制のための減衰利得は0dBになる。これは、非歯擦音及び非歯擦音を抑制するために処理が行われないことを意味する。部分C2では、歯擦音のレベルは、TH_LowとTH_highとの間に含まれ、従って、線形抑制がトリガされてよい。部分C3では、歯擦音のレベルは、高閾値TH_highより高く、歯擦音抑制のための減衰利得はG1として設定される。これは、システムの最大歯擦音抑制深さである。
図7は、本開示の例示的な実施形態を実施するために適する例示的なシステム700のブロック図を示す。図示のように、システム700は、例えば読み出し専用メモリ(readonly memory (ROM))702に格納されたプログラム又は例えば記憶ユニット708からランダムアクセスメモリ(random access memory (RAM))へとロードされたプログラムに従い種々の処理を実行できる中央処理ユニット(CPU)701を含む。RAM703には、必要に応じて、CPU701が種々の処理を実行するときに必要なデータも格納される。CPU701、ROM702、及びRAM703は、バス704を介して互いに接続される。入力/出力(I/O)インタフェース705は、バス704にも接続される。
以下のコンポーネントは、I/Oインタフェース705に接続される。つまり、キーボード、マウス、等を含み得る入力ユニット706、液晶ディスプレイ(LCD)のようなディスプレイ及び1つ以上のスピーカを含み得る出力ユニット707、ハードディスク又は別の適切な記憶装置を含む記憶ユニット708、及びネットワークカード(例えば、有線又は無線)のようなネットワークインタフェースカードを含む通信ユニット709である。通信ユニット709は、他の装置と(例えば、ネットワークを介して)通信するよう構成される。ドライブ710も、必要に応じて、I/Oインタフェース705に接続される。磁気ディスク、光ディスク、磁気-光ディスク、フラッシュドライブ、又は別の適切な取り外し可能媒体のような取り外し可能媒体711は、ドライブ710に取り付けられ、その結果、それから読み出されたコンピュータプログラムは、必要に応じて、記憶ユニット708にインストールされる。当業者は、システム700が上述のコンポーネントを含むとして記載されるが、実際の適用では、これらのコンポーネントのうちの一部を追加し、除去し、及び/又は置換することが可能であること、及び全部のこれらの変更又は変形が全て本開示の範囲に包含されることを理解するだろう。
本開示の例示的な実施形態によると、上述の処理は、コンピュータソフトウェアプログラムとして実装されてよい。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラムプロダクトを含む。該コンピュータプログラムは、方法を実行するためのプログラムコードを含む。そのような実施形態では、コンピュータプログラムは、ネットワークから通信ユニット709を介してダウンロードされ実装され、及び/又は取り外し可能媒体711からインストールされてよい。
通常、本開示の種々の例示的な実施形態は、ハードウェア又は専用回路(例えば、制御回路)、ソフトウェア、ロジック、又はそれらの任意の組合せで実装されてよい。例えば、歯擦音検出モジュール130は、制御回路(例えば、図7の他のコンポーネントと組み合わせたCPU)により実行されてよい。従って、制御回路は、本開示で説明した動作を実行する。幾つかの態様は、ハードウェアで実装されてよいが、他の態様は、制御部、マイクロプロセッサ、又は他のコンピューティング装置()例えば、制御回路)により実行されてよいファームウェア又はソフトウェア実装されてよい。本開示の例示的な実施形態の種々の態様は、ブロック図、フローチャート、又は幾つかの他の図式表現を用いて図示され説明されたが、本願明細書に記載されるブロック、機器、システム、技術、又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路又はロジック、汎用ハードウェア又は制御部又は他のコンピューティング装置、又はそれらの何らかの組合せで実装されてよいことが理解される。
更に、フローチャートに示される種々のブロックは、方法のステップとして、及び/又はコンピュータプログラムコードの演算から生じる演算として、及び/又は関連する機能を実行するよう構成される複数の結合された論理回路素子として、考えられてよい。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラムプロダクトを含む。該コンピュータプログラムは、上述のような方法を実行するよう構成されるプログラムコードを含む。
本開示の文脈では、機械可読媒体は、命令実行システム、機器、又は装置により又はそれと関連して使用するためのプログラムを含む又は格納し得る任意の有形媒体であってよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってよい。機械可読媒体は、非有形であってよく、限定ではないが、電子、磁気、光、電磁気、赤外線、又は半導体システム、機器、又は装置、又はそれらの任意の適切な組合せを含んでよい。機械可読記憶媒体のより具体的な例は、1つ以上のワイヤ、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含んでよい。
本開示の方法を実行するコンピュータプログラムコードは、1つ以上のプログラミング言語の任意の組合せで記述されてよい。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ、又は制御回路を有する他のプログラム可能なデータ処理機器のプロセッサに提供されてよい。その結果、該プログラムコードは、コンピュータ又は他のプログラム可能なデータ処理機器のプロセッサにより実行されると、フローチャート及び/又はブロック図の中で指定された機能/動作を実施させる。プログラムコードは、全体がコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上で及び部分的にリモートコンピュータ上で若しくは全体的にリモートコンピュータ若しくはサーバで、又は1つ以上のリモートコンピュータ及び/又はサーバに渡り分散されて実行されてよい。

Claims (21)

  1. 方法であって、
    オーディオ信号を受信するステップと、
    前記オーディオ信号から、複数の時間-周波数特徴を抽出するステップであって、前記複数の時間-周波数特徴は、1つ以上の短期又は長期特徴を含む、ステップと、
    抽出した短期又は長期特徴に従い、前記オーディオ信号内の歯擦音を検出する歯擦音検出器の1つ以上のパラメータを適応するステップと、
    前記1つ以上の適応されたパラメータを有する前記歯擦音検出器を用いて、前記オーディオ信号内の歯擦音を検出するステップと、
    を含む方法。
  2. 前記短期特徴は衝撃音を含む、請求項1に記載の方法。
  3. 前記短期特徴は平坦摩擦音を含む、請求項1に記載の方法。
  4. 前記長期特徴は平滑化されたオーディオスペクトルバランス特徴を含む、請求項1に記載の方法。
  5. 歯擦音検出器の前記1つ以上のパラメータを適応するステップは、
    短期特徴検出から生じる値を含む制御信号を生成するステップを含む、請求項1に記載の方法。
  6. 歯擦音検出器の前記1つ以上のパラメータを適応するステップは、
    前記1つ以上の短期特徴を決定するステップと、
    前記1つ以上の長期特徴を決定するステップと、
    前記1つ以上の短期特徴及び前記1つ以上の長期特徴の組合せに基づき、前記1つ以上の歯擦音パラメータを適応するステップと、
    を含む、請求項1に記載の方法。
  7. 前記複数の時間-周波数特徴を用いて、前記オーディオ信号が前記衝撃音を含むかどうかを決定するステップは、
    前記オーディオ信号内の第1時間間隔について、1つ以上の歯擦音周波数帯における第1合計パワーと、1つ以上の非歯擦音周波数帯における第2合計パワーと、を計算するステップと、
    前記オーディオ信号内の第2時間間隔について、1つ以上の歯擦音周波数帯における第3合計パワーと、1つ以上の非歯擦音周波数帯における第4合計パワーと、を計算するステップと、
    前記第1合計パワーと前記第3合計パワーとの間の差に基づき第1フラックス値を、及び前記第2合計パワーと前記第4合計パワーとの間の差に基づき第2フラックス値を、決定するステップと、
    前記第1フラックス値が第1閾値を満たすか及び前記第2フラックス値が第2閾値を満たすかどうかに基づき、前記衝撃音が存在するかどうかを決定するステップと、
    を含む、請求項1又は2に記載の方法。
  8. 前記衝撃音が存在すると決定することに応答して、
    出力値を生成するステップと、
    前記出力値に平滑化アルゴリズムを適用するステップと、
    を更に含む請求項1~3のいずれかに記載の方法。
  9. 前記出力値に前記平滑化アルゴリズムを適用するステップは、アタック時定数及びリリース時定数を用いるステップを含む、請求項4に記載の方法。
  10. 前記衝撃音の種類に基づき、前記アタック時定数又は前記リリース時定数を適応するステップを更に含む、請求項5に記載の方法。
  11. 前記複数の時間-周波数特徴に基づき、前記衝撃音の種類を決定するステップ、を更に含む請求項1~6のいずれかに記載の方法。
  12. 衝撃音の種類を決定するステップは、
    前記歯擦音周波数帯及び非歯擦音周波数帯の各々のデータを、複数の知られている衝撃音の対応する周波数帯データと比較するステップと、
    前記比較に基づき、前記衝撃音を識別するステップと、
    を含む、請求項7に記載の方法。
  13. 前記複数の時間-周波数特徴を用いて、前記オーディオ信号が前記平坦摩擦音を含むかどうかを決定するステップは、
    歯擦音周波数帯スペクトル及び周波数帯の数に基づき、歯擦音スペクトル平坦度指標を計算するステップを含む、請求項1~12のいずれかに記載の方法。
  14. 前記複数の時間-周波数特徴を用いて、前記オーディオ信号が前記平坦摩擦音を含むかどうかを決定するステップは、
    隣接する歯擦音周波数帯のパワーの分散を計算するステップを含む、請求項1~12のいずれかに記載の方法。
  15. 前記複数の時間-周波数特徴を用いて、前記オーディオ信号が前記平坦摩擦音を含むかどうかを決定するステップは、
    歯擦音周波数帯のパワーのピーク対平均比、又はピーク対中央値比を計算するステップを含む、請求項1~12のいずれかに記載の方法。
  16. 前記複数の時間-周波数特徴を用いて、前記オーディオ信号が前記平坦摩擦音を含むかどうかを決定するステップは、
    歯擦音周波数帯におけるスペクトルエントロピー指標を計算するステップを含む、請求項1~12のいずれかに記載の方法。
  17. 前記オーディオ信号内の歯擦音を検出する歯擦音検出器の1つ以上のパラメータを適応するステップは、前記衝撃音が検出されたかどうかの決定から生じる出力値、及び前記平坦摩擦音が検出されたかどうかの決定から生じる出力値に基づき、歯擦音検出閾値を適応するステップを含む、請求項1~16のいずれかに記載の方法。
  18. 前記歯擦音検出器の1つ以上のパラメータを適応するステップは、
    前記オーディオ信号の現在部分が会話を含むかどうかを決定するステップと、
    前記オーディオ信号の前記現在部分が会話を含むという決定に応答して、前記衝撃音が検出されたかどうかの決定から生じる前記出力値に第1重みを加え、前記平坦摩擦音が検出されたかどうかの決定から生じる前記出力値に、前記第1重みより高い第2重みを加えるステップと、
    前記オーディオ信号の前記現在部分が非会話を含むという決定に応答して、前記衝撃音が検出されたかどうかの決定から生じる前記出力値に第1重みを加え、前記平坦摩擦音が検出されたかどうかの決定から生じる前記出力値に、前記第1重みより低い第2重みを加えるステップと、
    を含む、請求項16に記載の方法。
  19. 前記歯擦音検出器の出力及びスペクトルバランス値にアクセスするステップと、
    前記歯擦音検出器が歯擦音を検出したかどうかに基づき、時定数を選択するステップと、
    前記選択した時定数を用いて、前記スペクトルバランス値の平滑化バージョンを計算するステップと、
    前記スペクトルバランスの前記平滑化バージョンを閾値と比較するステップと、
    前記スペクトルバランスの前記平滑化バージョンを閾値と比較することに基づき、歯擦音が存在するかどうかを決定するステップと、
    を更に含む請求項1~17のいずれかに記載の方法。
  20. 短期特徴検出器、短期歯擦音検出器、及び長期歯擦音検出器の出力のうちの1つ以上を、機械学習に基づく分類器に入力するステップと、
    前記機械学習に基づく分類器から、歯擦音が存在するかどうかの決定を受信するステップと、
    を更に含む請求項1~18のいずれかに記載の方法。
  21. システムであって、
    1つ以上のコンピュータプロセッサと、
    命令を格納する1つ以上の非一時的記憶媒体と、
    を含み、前記命令は、前記1つ以上のコンピュータプロセッサにより実行されると、請求項1~20のいずれかに記載の方法の実行を生じる、システム。
JP2022502267A 2019-07-17 2020-07-16 オーディオ信号内の特定の音声の検出に基づく歯擦音検出の適応 Active JP7350973B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN2019096399 2019-07-17
CNPCT/CN2019/096399 2019-07-17
US201962884320P 2019-08-08 2019-08-08
US62/884,320 2019-08-08
PCT/US2020/042400 WO2021011814A2 (en) 2019-07-17 2020-07-16 Adapting sibilance detection based on detecting specific sounds in an audio signal

Publications (2)

Publication Number Publication Date
JP2022532959A true JP2022532959A (ja) 2022-07-20
JP7350973B2 JP7350973B2 (ja) 2023-09-26

Family

ID=71944414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022502267A Active JP7350973B2 (ja) 2019-07-17 2020-07-16 オーディオ信号内の特定の音声の検出に基づく歯擦音検出の適応

Country Status (5)

Country Link
US (1) US20220383889A1 (ja)
EP (1) EP4000064B1 (ja)
JP (1) JP7350973B2 (ja)
CN (1) CN114127848A (ja)
WO (1) WO2021011814A2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114171053B (zh) * 2021-12-20 2024-04-05 Oppo广东移动通信有限公司 一种神经网络的训练方法、音频分离方法、装置及设备
CN117079659A (zh) * 2023-03-28 2023-11-17 荣耀终端有限公司 音频处理方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109661A1 (ja) * 2003-06-05 2004-12-16 Matsushita Electric Industrial Co., Ltd. 音質調整装置および音質調整方法
US20100114583A1 (en) * 2008-09-25 2010-05-06 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US20170372719A1 (en) * 2016-06-22 2017-12-28 Dolby Laboratories Licensing Corporation Sibilance Detection and Mitigation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109661A1 (ja) * 2003-06-05 2004-12-16 Matsushita Electric Industrial Co., Ltd. 音質調整装置および音質調整方法
US20100114583A1 (en) * 2008-09-25 2010-05-06 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US20170372719A1 (en) * 2016-06-22 2017-12-28 Dolby Laboratories Licensing Corporation Sibilance Detection and Mitigation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ABDELATTY ALI AHMED M ET AL: ""Acoustic-phonetic features for the automatic classification of fricatives"", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 109, no. 5, JPN7022003376, 1 May 2001 (2001-05-01), pages 2217 - 2235, XP012002284, ISSN: 0005008628, DOI: 10.1121/1.1357814 *

Also Published As

Publication number Publication date
CN114127848A (zh) 2022-03-01
JP7350973B2 (ja) 2023-09-26
EP4000064A2 (en) 2022-05-25
WO2021011814A2 (en) 2021-01-21
EP4000064B1 (en) 2024-04-10
WO2021011814A3 (en) 2021-03-18
US20220383889A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
EP2979359B1 (en) Equalizer controller and controlling method
EP3757993A1 (en) Pre-processing for automatic speech recognition
JP7350973B2 (ja) オーディオ信号内の特定の音声の検出に基づく歯擦音検出の適応
WO2022034139A1 (en) Automatic detection and attenuation of speech-articulation noise events

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20220113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220113

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230913

R150 Certificate of patent or registration of utility model

Ref document number: 7350973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150