JP2022532959A

JP2022532959A - オーディオ信号内の特定の音声の検出に基づく歯擦音検出の適応

Info

Publication number: JP2022532959A
Application number: JP2022502267A
Authority: JP
Inventors: マー，ユエンシーン; リー，カイ; ファーン，チエンチエン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-07-17
Filing date: 2020-07-16
Publication date: 2022-07-20
Anticipated expiration: 2040-07-16
Also published as: CN114127848A; JP7350973B2; EP4000064A2; WO2021011814A2; EP4000064B1; WO2021011814A3; US20220383889A1

Abstract

歯擦音検出器のパラメータを適応する方法が本願明細書に記載される。時間－周波数特徴が受信されるオーディオ信号から抽出される。該時間－周波数特徴に基づき、オーディオ信号が短期特徴又は長期特徴を含むかの決定が行われる。オーディオ信号が短期特徴又は長期特徴を含むことの決定に従い、オーディオ信号内の歯擦音を検出するための歯擦音検出器の１つ以上のパラメータが適応される。オーディオ信号内の歯擦音は、１つ以上の適応されたパラメータを有する歯擦音検出器を用いて検出される。

Description

［関連出願］
本願は、参照により全体がここに組み込まれる、２０１９年８月８日に出願した米国仮出願番号第６２/８８４,３２０号及び２０１９年７月１７日に出願した国際出願番号第PCT/CN２０１９/０９６３９９号、の優先権を主張する。

［技術分野］
本開示の実施形態は、概して、オーディオ信号処理に関し、より具体的には、歯擦音検出の適応に関する。

音声学では、歯擦音（sibilance）は、強く強調された摩擦で生じる子音（例えば、s、sh、ch、z、v、及びf）を有する会話を表す。これらの子音は、声道を通じて移動する空気が舌と唇の位置によって制限されるとき、生成される。オーディオ信号内の歯擦音は、通常、話す個人に応じて、４kHz（「キロヘルツ」）～１２kHzの周波数範囲にある。歯擦音のエネルギが高い場合、会話は、オーディオ信号の品質を劣化させる、聴者に不快感を引き起こす、不自然な荒さ（harshness）を有する。

開示の実施形態は、オーディオ信号内の短期特徴及び長期特徴を検出し、それらの特徴をオーディオ信号内の余分な歯擦音と間違えることを回避するように歯擦音検出を適応する。開示のシステム及び方法の利点は、オーディオ信号の品質が、音声コンテンツの望ましい部分である可能性がある短期又は長期特徴の抑制によってではなく、保存されることである。開示のシステム及び方法は、特に、高周波数で粗悪なマイクロフォン周波数応答を有する低品質ヘッドセット、又は低品質スピーカを有するモバイル装置のような忠実度の低い装置にとって有用である。

幾つかの態様では、本開示は、歯擦音パラメータを適応し及び歯擦音検出において適応された歯擦音パラメータを使用する方法を記載する。システムは、オーディオ信号（例えば、映画サウンドトラック、音楽、ユーザの生成したオーディオ、又はポッドキャスト）を受信し、オーディオ信号から複数の時間－周波数特徴（例えば、複数の周波数帯のエネルギデータ）を抽出する。時間－周波数特徴は、衝撃音（例えば、銃声）及び／又は平坦摩擦音（例えば、文字「f」の音）のような短期特徴、及び／又は平滑化されたスペクトルバランス特徴のような長期特徴を含む。入力信号が短期特徴及び／又は長期特徴を含むことの決定に従い、システムは、オーディオ信号内の歯擦音を検出するための歯擦音検出器の１つ以上のパラメータを適応する。１つ以上の適応されたパラメータを有する歯擦音検出器を用いて、システムは、オーディオ信号内の歯擦音を検出し、マルチバンドコンプレッサを用いて歯擦音を抑制し、又は任意の他の所望のアプリケーションのために検出した歯擦音を使用することに進む。実施形態では、歯擦音検出器は、１つ以上の短期及び／又は長期特徴を有するオーディオサンプルに基づきトレーニングされた教師有り又は教師無し機械学習に基づく分類器（例えば、ニューラルネットワーク）を用いて実装される。

これら及び他の態様、特徴、及び実施形態は、機能を実行する、方法、機器、システム、コンポーネント、プログラムプロダクト、手段又はステップとして、及び他の方法で表現できる。

これら及び他の態様、特徴、及び実施形態は、請求の範囲を含む以下の説明から明らかになる。

図中、装置、モジュール、命令ブロック、及びデータ要素のような概略的要素の特定の構成又は順序は、説明を簡単にするために示される。しかしながら、当業者により理解されるべきことに、当業者は、図中の概略的要素の特定の順序又は構成が、処理の特定の順序又はシーケンス、又は処理の分離が必要であることを意味しない。更に、図中の概略的要素の包含は、そのような要素が全部の実施形態で必要であること、又はそのような要素により表現された特徴が幾つかの実施形態において他の要素に含まれる又はそれに結合されないことを意味しない。

更に、図中、実線又は破線又は矢印のような接続要素が２つ以上の他の概略的要素の間の又はその中の接続、関係、又は関連付けを説明するために使用される場合、任意のそのような接続要素が存在しないことは、接続、関係、又は関連付けが存在しないことを意味しない。言い換えると、要素間の幾つかの接続、関係、又は関連付けは、本開示を不明瞭にしないように、図中に示されない。更に、説明を容易にするために、単一の接続要素が、要素間の複数の接続、関係、又は関連付けを表すために使用される。例えば、接続要素が信号、データ、又は命令の通信を表す場合、そのような要素が１又は複数の信号パスが必要に応じて通信に影響することが、当業者により理解されるべきである。

本開示の幾つかの実施形態による、歯擦音検出のためのパラメータを適応するシステムのブロック図である。本開示の幾つかの実施形態による、衝撃音検出器と平坦摩擦音検出器とを含む、歯擦音検出のためのパラメータを適用するシステムのブロック図である。本開示の幾つかの実施形態による、歯擦音検出で使用されるパラメータを適応する動作を示す。本開示の幾つかの実施形態による、摩擦音を検出するために歯擦音検出モジュールが実行する動作を示す。本開示の幾つかの実施形態による、平坦摩擦音を検出するために歯擦音検出モジュールが実行する動作を示す。本開示の幾つかの実施形態による、歯擦音が存在するかどうかを更に決定する動作を示す。本開示の幾つかの実施形態による、歯擦音抑制で使用され得る歯擦音抑制曲線を示す。本開示の幾つかの実施形態による、歯擦音検出を実施するためのブロック図である。

以下の説明では、例示を目的として、本開示の完全な理解を提供するために、多数の特定の詳細が説明される。しかしながら、本発明がこれらの特定の詳細のうちの一部を有しないで実行されてよいことが明らかである。

以下では、実施形態を詳細に参照する。実施形態の例は、添付の図面に示される。以下の詳細な説明では、種々の記載される実施種形態の完全な理解を提供するために、多くの特定の詳細が説明される。しかしながら、種々の記載される実施形態がこれらの特定の詳細を有しないで実施されてよいことが、当業者に明らかである。他の例では、実施形態の態様を不必要に不明瞭にしないように、よく知られた方法、手順、コンポーネント、及び回路は詳細に説明されない。互いに独立に又は他の特徴との任意の組合せにより使用できる幾つかの特徴が以下に説明される。

本願明細書で使用されるとき、用語「含む」及びその変形は、「含む（include）が、それに限定されない」を意味する広義の用語として解釈される。用語「又は」は、文脈上明確に示されない限り、「及び／又は」として解釈される。用語「に基づく」は、「少なくとも部分的に基づく」として解釈される。

図１A及び図１Bは、本開示の幾つかの実施形態による、歯擦音を検出するためのパラメータを適応するシステム１００のブロック図である。システム１００は、変換モジュール１１０、帯域モジュール１２０、歯擦音検出モジュール１３０、マルチバンドコンプレッサ１４０、及び逆変換モジュール１５０を含む。図１Aは、オーディオ信号内の短期特徴を検出するために使用される短期特徴検出器１３１を含む。幾つかの実施形態では、短期特徴は、打楽器を打つ又は銃声のような瞬間的音声の検出を含む。それらの音声は、通常、短い期間のもの、時には５ミリ秒である。図１Bは、短期特徴検出器の２つの例を含む。衝撃音検出器１３２は、銃声、シンバルのような打楽器を打つような衝撃音を検出するために使用される。一方で、平坦摩擦音検出器１３６は、平坦摩擦音（例えば、文字vの音、文字tの音、文字fの音、又は「th」音）を検出するために使用される。幾つかの実施形態では、衝撃音検出器１３２及び平坦摩擦音検出器１３６は、単一の検出器モジュールに結合される。

変換モジュール１１０は、オーディオ信号を受信し、オーディオ信号を所望の変換ドメインへと変換するよう構成される。幾つかの実施形態では、オーディオ信号は、会話及び非会話音声を含む。歯擦音パラメータ適応を実行するために、変換モジュール１１０は、オーディオ信号のフレームに対して（例えば、フィルタバンクを用いて）変換動作を実行して、オーディオ信号を周波数ドメインの複数の帯域のスペクトル特徴へと変換する。例えば、変換モジュール１１０は、高速フーリエ変換（Fast Fourier Transform (FFT)）、修正離散コサイン変換（Modified Discrete Cosine Transform (MDCT)）、直交ミラーフィルタ（Quadrature Mirror Filter (QMF)）、又は別の変換アルゴリズムを実行して、オーディオ信号を時間ドメインから周波数ドメイン又は時間－周波数ドメインへと変換してよい。幾つかの実施形態では、変換モジュールは、複数の等間隔の周波数ビンを出力する。

帯域モジュール１２０は、変換モジュール１１０の出力（例えば、変換モジュール１１０により生成された周波数ビン）を複数の周波数帯（例えば、等価矩形帯域幅（Equivalent Rectangular Bandwidth（ERB）帯））へとグループ化又は集約する帯域（banding）動作を実行する。幾つかの実施形態では、帯域モジュールの中で１／３オクターブフィルタバンク（Third Octave Filter Banks）が使用される。周波数帯域は、歯擦音周波数帯域（例えば、約４kHz～約２kHz）及び非歯擦音周波数帯域（例えば、４kHzより下、及び約１２kHz～約１６kHz）を含む。実施形態では、図１Aに示されるように、歯擦音検出モジュール１３０は、短期特徴検出器１３１、短期歯擦音検出器１３４、及び長期歯擦音検出器１３６を含む。歯擦音検出モジュール１３０、及びそのコンポーネントは、本開示において更に詳細に議論される。マルチバンドコンプレッサ１４０は、歯擦音帯域及び／又は非歯擦音帯域に適用される利得を、歯擦音検出モジュール１３０の出力に従い変更する。幾つかの実施形態では、特定の帯域の利得は、変換モジュール（１１０）により出力される周波数ビンのサブセットに適用されるべき利得にマッピングされる。利得が適用された後に、周波数帯域は、逆変換モジュール１５０へと入力され、そこで、周波数帯域は変換されて時間ドメインに戻される。時間ドメインのオーディオ信号は、次に、１つ以上の出力装置へ（例えば、スピーカシステム、記憶装置へ）送信される。

本開示において実行される動作は、歯擦音検出モジュールにより実行されるとして記載される。留意すべきことに、歯擦音検出モジュールは、ソフトウェア、ハードウェア、又は両者の組合せを含んでよい。システム１００を実装するために使用され得るハードウェアの例示的な実施形態は、図７に関連して更に説明される。以下に説明する例示的な実施形態は、それぞれ短期特徴を提供するために衝撃音検出及び平坦摩擦音検出を含むが、実施形態は、任意の短期特徴検出を使用できる。

図１Bは、本開示の幾つかの実施形態による、衝撃音検出器と平坦摩擦音検出器とを含む、歯擦音検出のためのパラメータを適用するシステムのブロック図である。

図２は、歯擦音検出で使用されるパラメータを適用するための動作を示す。２０２で、歯擦音検出モジュール１３０は、オーディオ信号を受信する。オーディオ信号は、変換モジュール１１０及び帯域モジュール１２０を通じて受信され処理される。上述のように、変換モジュール１１０は、オーディオ信号を時間ドメインから周波数ドメインへと変換し、帯域モジュール１２０は、変換モジュール１１０の出力を、歯擦音周波数帯域及び非歯擦音周波数帯域を含む複数の周波数帯域へとグループ化又は集約する。

２０４で、歯擦音検出モジュール１３０は、オーディオ信号から、複数の時間－周波数特徴を抽出する。それらの特徴は、オーディオ信号の特定のフレームについて、歯擦音周波数帯域の中の帯域毎にエネルギレベルを含む。２０６で、歯擦音検出モジュール１３０は、複数の時間－周波数特徴を用いて、オーディオ信号が衝撃音又は平坦摩擦音を含むかを決定する。歯擦音検出モジュール１３０は、モジュールに利用可能なリソースに依存して、並列に又は順次、衝撃音及び平坦摩擦音を検出するよう構成される。

衝撃音検出器１３２を含む実施形態では、衝撃音検出器１３２は、オーディオ信号が衝撃音を含むかどうかを決定する。衝撃音検出器１３２は、ソフトウェア及びハードウェアコンポーネントの両方を含んでよい。幾つかの実施形態では、短期時間－周波数特徴（例えば、～５ミリ秒）は、衝撃音を検出するために使用される。

図３は、衝撃音を検出するために歯擦音検出モジュール１３０が実行する動作を示す。３０２で、歯擦音検出モジュール１３０は、オーディオ信号内の第１時間間隔の間、１つ以上の歯擦音周波数帯域の中の第１合計パワー、及び１つ以上の非歯擦音周波数帯域の中の第２合計パワーを計算する。実施形態では、歯擦音検出モジュール１２０は、（以下の）式１を使用して、歯擦音周波数帯域について計算を実行する。

ここで、bは、歯擦音周波数帯域の数であり、P_bは、歯擦音周波数帯域bの中のパワーであり、nは、第１時間間隔であうる（現在フレーム又は現在時間期間）。実施形態では、歯擦音検出モジュール１３０は、（以下の）式２を使用して、歯擦音周波数帯域について計算を実行する。

ここで、bは、歯擦音周波数帯域の数であり、P_bは、歯擦音周波数帯域bの中のパワーであり、nは、第１時間間隔である（現在フレーム又は現在時間期間）。上述のように、歯擦音周波数帯域は、約４kHz～約１２kHzの間の周波数を含み、非歯擦音検出、約４ｋHzより下、及び１２ｋHzと約１６ｋHzの間の周波数を含む。

３０４で、歯擦音検出モジュール１３０は、オーディオ信号内の第２時間間隔（例えば、前の時間間隔）の間、１つ以上の歯擦音周波数帯域の中の第３合計パワー、及び１つ以上の非歯擦音周波数帯域の中の第４合計パワーを計算する。例えば、実施形態では、歯擦音検出モジュール１３０は、（以下の）式３を用いて、前の時間間隔（例えば、前のフレーム）の間の歯擦音周波数帯域の計算を実行する。

ここで、bは、歯擦音周波数帯域の数であり、P_bは、歯擦音周波数帯域bの中のパワーであり、nは、第１時間間隔であり（例えば、現在フレーム又は時間期間）、kは、[n-k]を前の時間間隔（例えば、前のフレーム）にする整数である。幾つかの実施形態では、kは、１と３の範囲にある整数である。

例えば、実施形態では、歯擦音検出モジュール１３０は、（以下の）式４を用いて、前の時間間隔（例えば、前のフレーム）の間の非歯擦音周波数帯域の計算を実行する。

ここで、bは、非歯擦音周波数帯域の数であり、P_bは、非歯擦音周波数帯域の中のパワーであり、nは、第１時間間隔であり（例えば、現在フレーム又は時間期間）、kは、[n-k]を前の時間間隔（例えば、前のフレーム又は時間期間）にする整数である。幾つかの実施形態では、kは、１～３の範囲にある整数である。

３０６で、歯擦音検出モジュール１３０は、第１合計パワーと第３合計パワーとの間の差に基づき第１フラックス（flux）値を、及び第２合計パワーと第４合計パワーとの間の差に基づき第２フラックス値を決定する。例えば、実施形態では、歯擦音検出モジュール１３０は、（以下の）式５を使用して、第１フラックス値を計算する。

ここで、P_{sib_bands}[n]は、時間間隔n（例えば、現在時間間隔、又は現在フレーム）の間の歯擦音周波数帯域の合計パワーであり、P_{sib_bands}[n-k]は、前の時間間隔[n-k]の間の歯擦音周波数帯域の合計パワーであり、kは１と３の間の整数であってよい。幾つかの実施形態では、kはより大きな整数であり得る。

実施形態では、歯擦音検出モジュール１３０は、（以下の）式６を使用して、第２フラックス値を計算する。

ここで、P_{non_sib_bands}[n]は、時間間隔n（例えば、現在時間間隔、又は現在フレーム）の間の非歯擦音周波数帯域の合計パワーであり、P_{non_sib_bands}[n-k]は、前の時間間隔[n-k]の間の非歯擦音周波数帯域の合計パワーであり、kは１と３の間の整数である。幾つかの実施形態では、kはより大きな整数であり得る。

３０８で、歯擦音検出モジュール１３０は、第１フラックス値が第１閾値を満たすかどうか、及び第２フラックス値が第２閾値を満たすかどうかを決定する。第１フラックス値及び第２フラックス値の両方がそれらのそれぞれの閾値を満たす場合、処理３００は３１０へ進み、そこで、歯擦音検出モジュール１３０は衝撃音が存在することを決定する。第１フラックス値又は第２フラックス値のいずれかがそれらのそれぞれの閾値を満たさない場合、処理３００は３１２へ進み、そこで、歯擦音検出モジュール１３０は衝撃音が存在しないことを決定する。（以下の）式７の論理は、衝撃音が存在するかどうかの決定を例示する。

ここで、S_{sib_bands}[n]は、時間間隔n（例えば、現在フレーム）の間の歯擦音周波数帯域のフラックス値であり、Th_{sib_band}は、歯擦音周波数帯域の閾値であり、S_{non_sib_bands}[n]は、非歯擦音周波数帯域のフラックス値であり、Th_{non_sib_band}は、非歯擦音周波数帯域の閾値である。幾つかの実施形態では、閾値は１０デシベル（「dB」）である。幾つかの実施形態では、I[n]=１ならば、歯擦音検出モジュール１３０は、衝撃音が存在すると決定する。I[n]=０ならば、歯擦音検出モジュール１３０は、衝撃音が存在しないと決定する。

幾つかの実施形態では、歯擦音検出モジュール１３０は、衝撃音が検出されたかどうかの決定を出力する前に、式７により出力された値に平滑化を適用する。（以下の）式８の論理は、平滑化動作を例示する。

ここで、α_Aはアタック時定数であり、幾つかの実施形態では０秒の値を有し、α_Rはリリース時定数であり、幾つかの実施形態では、１秒の値を有する。従って、I_smooth[n]は、衝撃音検出器１３２の出力である（つまり、R_ISD[n]=I_smooth[n]）。

幾つかの実施形態では、アタック時定数及びリリース時定数は、衝撃音の種類に基づき適応される。例えば、ある種類の衝撃音は、別の種類の衝撃音より長くてよい。その場合、リリース時定数は増大されてよい。別の例では、ある種類の衝撃音は、音の始めにより低い（例えば、閾値より低い）エネルギを有し、従って、アタック時定数が増大される。

幾つかの実施形態では、歯擦音検出モジュール１３０は、時間－周波数特徴に基づき、衝撃音の種類を識別する。幾つかの実施形態では、歯擦音検出モジュール１２０は、知られている衝撃音及び対応するエネルギ及び／又はフラックスレベルへのアクセスを有する。つまり、所与の音声は、歯擦音周波数帯域及び非歯擦音周波数帯域の両方の特定のエネルギ及び／又はフラックスレベルのセットを有してよい。幾つかの実施形態では、それらのエネルギレベル及び／又はフラックスレベルは、格納され、検出した衝撃音のエネルギレベル及び／又はフラックスレベルと比較される。比較は、受信した衝撃音を識別するために、全部の知られている衝撃音について繰り返される。

幾つかの実施形態では、歯擦音検出モジュール１３０は、歯擦音周波数帯域及び非歯擦音周波数帯域について異なる閾値を用いて、歯擦音周波数帯域及び非歯擦音周波数帯域におけるフラックスに基づき、衝撃音の種類を識別する。例えば、それぞれの知られている衝撃音は、特定の歯擦音閾値及び特定の非歯擦音閾値に関連付けられてよい。従って、衝撃音種類Aは、１５dBの歯擦音閾値、及び８dBの非歯擦音閾値を有してよい。衝撃音Bは、２０dBの歯擦音周波数帯域、及び１５dBの非歯擦音閾値を有してよい。従って、フラックス値が歯擦音周波数帯域及び非歯擦音周波数帯域の両方について計算されると、それらのフラックス値は、それがどの衝撃音であるかを決定するために、それぞれの知られている衝撃音のフラックス値と比較される。例えば、最も近い歯擦音及び非歯擦音閾値の一致は、衝撃音の種類を決定するために使用されてよい。（以下の）式９の論理は、衝撃音検出を例示する。

ここで、S_{sib_bands}[n]は、時間間隔n（例えば、現在フレーム）の間の歯擦音周波数帯域のフラックス値であり、Th_{sib_bandA}は、種類A衝撃音の歯擦音周波数帯域の閾値であり、S_{non_sib_bands}[n]は、非歯擦音周波数帯域のフラックス値であり、Th_{non_sib_bandA}は、非歯擦音周波数帯域の閾値である。更に、Th_{sib_bandB}は、種類B衝撃音の歯擦音周波数帯域の閾値であり、Th_{non_sib_bandB}は、種類B衝撃音の非歯擦音周波数帯域の閾値である。

幾つかの実施形態では、歯擦音検出モジュール１３０は、カウンタを使用して、衝撃音検出器１３２からの出力を生成する。（以下の）式１０の論理は、カウンタを使用して衝撃音検出器１３２からの出力を生成することを例示する。

ここで、N_countdownは、プリセットカウントダウン値であり、nは、現在時間期間（例えば、現在フレーム）である。幾つかの実施形態では、値は、サンプルレート及びフレームサイズに依存する。幾つかの実施形態では、カウントダウン期間は１秒に等しい。（以下の）式１１の論理は、カウントダウンを用いて衝撃音検出器１３２からの出力を例示する。

ここで、I_count[n]は、式１０のカウンタの出力である。

幾つかの実施形態では、歯擦音検出モジュール１３０は、平坦摩擦音検出器１３６を使用して、オーディオ信号が平坦摩擦音を含むかどうかを決定する。幾つかの実施形態では、平坦摩擦音検出器１３６は、ソフトウェア及びハードウェアコンポーネントの両方を含む。幾つかの実施形態では、短期時間－周波数特徴（例えば、～５ミリ秒）は、平坦摩擦音を検出するために使用される。通常、平坦摩擦音／会話は、歯擦音（例えば、過度の又は耳を刺すような歯擦音のスペクトル）に比べて平坦なスペクトルを有する。幾つかの実施形態では、歯擦音スペクトルの平坦度は、パワースペクトルの幾何平均をパワースペクトルの算術平均で除算することにより計算される。従って、平坦摩擦音は、歯擦音スペクトル平坦度指標（sibilance spectral flatness measure (“SSFM”)）に基づき検出できる。幾つかの実施形態では、歯擦音検出モジュール１３０は、（以下の）式１２を使用して、SSFMを計算する。

ここで、X(k)は、帯域インデックスkの歯擦音周波数帯域スペクトルであり、Kは周波数帯域の数である。幾つかの実施形態では、歯擦音検出モジュール１２０は、隣接歯擦音周波数帯域内のパワーの分散及び／又は標準偏差を用いて、平坦摩擦音が存在するかどうかを決定する。幾つかの実施形態では、歯擦音検出モジュール１２０は、歯擦音周波数帯域内のパワーのピーク対平均比又はピーク対中央値比を用いて、平坦摩擦音が存在するかどうかを決定する。更に幾つかの実施形態では、歯擦音検出モジュール１２０は、隣接歯擦音周波数帯域内のパワーのスペクトルエントロピーを用いて、平坦摩擦音が存在するかどうかを決定する。（以下の）式１３の論理は、平坦摩擦音検出器１３６の出力を説明する。

ここで、Th_SSFMは検出のための閾値である。従って、SSFMの出力が閾値より大きい場合、歯擦音検出モジュール１３０は、平坦摩擦音が存在すると決定する。

図４は、平坦摩擦音を検出するために歯擦音検出モジュール１３０が実行する動作を示す。４０２で、歯擦音検出モジュール１３０は、歯擦音周波数帯域スペクトル及び周波数帯域の数に基づき、歯擦音スペクトル平坦度指標を計算する。幾つかの実施形態では、歯擦音検出モジュール１３０は、式１２を使用して計算を実行する。４０４で、歯擦音検出モジュール１３０は、（例えば、図７に関連して議論されるようなメモリから）歯擦音スペクトル平坦度閾値を読み出す。４０６で、歯擦音検出モジュール１３０は、歯擦音スペクトル平坦度指標を、歯擦音スペクトル平坦度閾値と比較する。４０８で、歯擦音検出モジュール１３０は、歯擦音スペクトル平坦度指標が歯擦音スペクトル平坦度閾値を満たすかどうかを決定する。歯擦音スペクトル平坦度指標が歯擦音スペクトル平坦度閾値を満たす場合、処理４００は４１０へ進み、そこで、歯擦音検出モジュール１３０は、平坦摩擦音が存在すると決定する。歯擦音スペクトル平坦度指標が歯擦音スペクトル平坦度閾値を満たさない場合、処理４００は４１２へ進み、そこで、歯擦音検出モジュール１３０は、平坦摩擦音が存在しないと決定する。

図２の処理２００に戻り、２０８で、入力信号が衝撃音又は平坦摩擦音を含むという決定に従い、歯擦音検出モジュール１３０は、オーディオ信号内の歯擦音を検出するために歯擦音検出の１つ以上のパラメータを適応する。幾つかの実施形態では、２０８で、歯擦音検出モジュールは、短期特徴検出器１３１からの出力に基づき、オーディオ信号内の歯擦音を検出するための歯擦音検出の１つ以上のパラメータを適応する。例えば、短期特徴検出器は、１つ以上の検出器（例えば、衝撃音検出器、平坦摩擦音検出器、他の適切な検出器）を含むことができる。短期特徴検出器１３１の出力は、短期歯擦音検出器１３４へと入力される。幾つかの実施形態では、歯擦音検出モジュール１３０は、衝撃音が検出されたかどうかの決定から生じる出力値、及び平坦摩擦音が検出されたかどうかの決定から生じる出力値に基づき、歯擦音検出閾値を適応する。更に幾つかの実施形態では、歯擦音検出モジュール１３０は、短期特徴検出器１３１の任意の適切な特徴の出力に基づき、歯擦音検出閾値を適応する。歯擦音検出モジュール１３０は、短期歯擦音検出動作において、歯擦音検出閾値を使用する。従って、２１０で、歯擦音検出モジュール１３０は、１つ以上の適応されたパラメータによる歯擦音検出を用いて、オーディオ信号内の歯擦音を検出する。

上述のように、歯擦音検出モジュールは、短期歯擦音検出器１３４を含む。幾つかの実施形態では、上述の動作は、短期歯擦音検出器１３４により実行される。それらの実施形態では、短期歯擦音検出器１３４は、衝撃音検出器１３２、平坦摩擦音検出器１３６、及び／又は短期特徴検出器１３１の任意の他のコンポーネントからの出力を用いて、抑制される必要のある種類の歯擦音が存在するかどうかを決定する。短期歯擦音検出器１３４は、ソフトウェア、ハードウェア、又はソフトウェア及びハードウェアの組合せであってよい。幾つかの実施形態では、歯擦音検出モジュール１３０は、（例えば、短期歯擦音検出器１３４を用いて）スペクトルバランス特徴を計算し、該スペクトルバランス特徴を閾値（例えば、衝撃音検出器１３２、平坦摩擦音検出器１３６、及び／又は任意の他の適切な検出器を含む短期特徴検出器の出力に基づく閾値）と比較して、オーディオ信号内に歯擦音が存在するかどうかを決定する。

ここで、用語「スペクトルバランス」は、音声周波数帯域に渡る信号エネルギのバランス特性を表す。幾つかの例では、スペクトルバランスは、音声周波数帯域全体に渡る信号エネルギのバランスの程度を特徴付ける。本願明細書で使用される用語「音声周波数帯域」は、音声信号が位置する周波数帯域を意し味、例えば、約０kHz～約１６kHzの範囲に渡る。歯擦音は特別なスペクトル分布特徴を有するので（つまり、歯擦音は、通常、中心周波数帯域に集中している）、スペクトルバランス特徴は、非歯擦音と歯擦音との間を区別するのに有用である。

幾つかの実施形態では、スペクトルバランス特徴は、歯擦音周波数帯域内の信号エネルギ及び音声周波数帯域全体の中の信号エネルギに基づき取得される。特に、スペクトルバランス特徴は、歯擦音周波数帯域内の信号エネルギの、音声周波数帯域全体の中の信号エネルギに対する比として計算できる。つまり、スペクトルバランス特徴は、全部の歯擦音周波数帯域の信号エネルギの和と、音声周波数帯域全体の中の信号エネルギの和との比として表現できる。

幾つかの実施形態では、スペクトルバランス特徴は、歯擦音周波数帯域内の信号エネルギ及び非音声周波数帯域内の信号エネルギに基づき計算される。この場合には、音声周波数帯域は、２つの部分、つまり歯擦音周波数帯域及び非歯擦音周波数帯域に分割される。つまり、帯域は２つの帯域グループに分割され、一方は歯擦音の信号エネルギを含む可能性があり、他方は歯擦音の信号エネルギを含まない又は殆ど含まない。従って、スペクトルバランス特徴は、２つの周波数帯域における信号エネルギの比として計算される。

本開示の幾つかの実施形態では、スペクトルバランス特徴は、歯擦音周波数帯域及び非音声周波数帯域内の信号対雑音比（signal-to-noise ratios (SNR)）に基づき決定される。特に、スペクトルバランス特徴は、２つのSNRの比として決定される。

幾つかの実施形態では、歯擦音検出モジュール１３０は、短期検出器１３１（例えば、衝撃音検出器１３２及び／又は平坦摩擦音検出器１３６）の出力を使用して、スペクトルバランス特徴と比較するための閾値を計算する。幾つかの実施形態では、歯擦音検出モジュール１３０は、衝撃音検出器１３２の出力及び平坦摩擦音検出器１３６の出力のうち、高い方の値を使用する。例えば、衝撃音が検出され、衝撃音検出器１３２からの出力が１であるが、平坦摩擦音が検出されず、平坦摩擦音検出器からの出力が０である場合、歯擦音検出モジュール１３０は、短期歯擦音検出器１３４への入力として値１を使用する。従って、実施形態では、歯擦音検出モジュール１３０は、（以下の）式１４を使用して、閾値を決定する。

ここで、Th_normalは、衝撃音も平坦摩擦音も検出されないときに使用される通常閾値である。幾つかの実施形態では、閾値は-５dBである。Th_deltaは、通常閾値Th_normalと厳格閾値Th_tightとの間の差であり、Th_tightは-１dBの値を有してよい。更に、f(R_FFVD[n],R_ISD[n])は、max(R_FFVD[n],R_ISD[n])であってよい。ここで、R_FFVD[n]は、平坦摩擦音検出器１３６からの出力値を示し、R_ISD[n]は、衝撃音検出器１３２からの出力値を示す。つまり、max関数は、より高い方の値を選択するために使用される。式１４は衝撃音検出器１３２及び平坦摩擦音検出器１３６の出力のうちの最大値を決定するが、幾つかの実施形態では、歯擦音検出モジュールは、任意の短期特徴検出の出力の最大値を決定する。

幾つかの実施形態では、関数は、より複雑である。例えば、（例えば、平坦摩擦音検出器１３６及び衝撃音検出器１３２の代替として又はそれに追加して）短期検出器１３１のそれぞれの出力からのものに重みを与えることができる。短期特徴検出器１３１の特定の出力が音声に関連し、音声が処理中のオーディオ信号の部分の中で検出された場合、より大きな重みがその出力に与えられる。短期特徴検出器１３１の特定の出力が非音声に関連し、音声が処理中のオーディオ信号の部分の中で検出された場合、より小さな重みがその出力に与えられる。幾つかの実施形態では、f(R_FFVD[n],R_ISD[n])はより複雑である。例えば、オーディオ種類が会話である場合、より大きな重みが平坦摩擦音検出器１３６に与えられ、内容が非会話（例えば、音楽、音響効果、又は別の適切な音声）である場合、より大きな重みが衝撃音検出器１３２に与えられる。実施形態では、歯擦音検出モジュール１３０は、（以下の）式１５を使用して、式１４に追加すべき値を決定する。

ここで、w_FFVD[n]及びw_ISD[n]は、それぞれ、平坦摩擦音検出器１３６の出力及び衝撃音検出器１３２の出力に対応する重みである。幾つかの実施形態では、重みは、内容種類分類器（例えば、ニューラルネットワーク）からの出力に基づき決定される。式１５は衝撃音検出器１３２及び平坦摩擦音検出器１３６の出力の重みを使用するが、幾つかの実施形態では、歯擦音検出モジュールは、任意の短期特徴検出の出力の重みを割り当て／使用できる。従って、幾つかの実施形態では、式１５は、関連付けられた重みを有する他の短期特徴検出器からの結果を含み得る。

幾つかの実施形態では、閾値が決定されると、歯擦音検出モジュール１３０は、閾値を使用して、歯擦音が存在するかどうかを決定する。実施形態では、歯擦音検出モジュール１３０は、（以下の）式１６の論理を使用して決定を行う。

ここで、SPD[n]は、スペクトルバランス特徴であり、Th_STSD[n]は、例えば式１４により決定される閾値である。

幾つかの実施形態では、歯擦音検出モジュール１３０は、短期特徴検出器１３４の結果を、マルチバンドコンプレッサ１４０へと転送する。幾つかの実施形態では、歯擦音検出モジュール１３０は、短期歯擦音検出器１３４の結果を使用して、（例えば、長期歯擦音検出器１３８を使用することにより）長期歯擦音検出を実行する。幾つかの実施形態では、長期歯擦音検出は、音声信号のより長い部分（例えば、約２００ミリ秒）に対して実行される。幾つかの実施形態では、歯擦音検出モジュール１３０は、図５を参照して説明した動作を使用して、歯擦音が存在するか否かを更に決定する。これらの動作は、長期歯擦音検出の単なる例を示す。幾つかの実施形態では、長期歯擦音検出は、分類器（例えば、ニューラルネットワーク）を用いて実行される。例えば、任意の検出された短期特徴及び適切な音声信号部分は、分類器への入力として使用でき（例えば、分類器は、短期特徴及びオーディオ信号の部分を取り入れるよう構成され得る）、分類器の出力は、歯擦音が存在するかどうかの決定である。

５０２で、歯擦音検出モジュール１３０は、短期歯擦音検出器１３４の出力にアクセスする。例えば、短期歯擦音検出器１３４は、歯擦音が検出されたかどうかの値（例えば、１又は０）を出力機能であってよく、更に上述のスペクトルバランス特徴を出力してよい。５０４で、歯擦音検出モジュール１３０は、短期歯擦音検出器１３４が歯擦音を検出したかどうかに基づき、時定数を選択する。幾つかの実施形態では、定数は、短期歯擦音検出器１３４において歯擦音が検出された場合に、０．２秒であり、短期歯擦音検出器１３４において歯擦音が検出されなかった場合に、１秒である。

５０４で、歯擦音検出モジュール１３０は、選択された時定数を用いてスペクトルバランス特徴の平滑化バージョンを計算する。実施形態では、歯擦音検出モジュール１３０は、式１７の論理を使用して計算を行う。

ここで、α_sは、短期歯擦音検出器１３４により歯擦音が検出されたときに使用される時定数であり、つまりR_STSD[n]=１であり、α_nsは、歯擦音が検出されないときに使用される時定数である。

幾つかの実施形態では、非歯擦音平滑化スペクトルバランス特徴の結果は、（以下の）式１８により与えられる。

ここで、f(・)は、閾値との比較である。実施形態では、歯擦音検出モジュール１３０は、計算のために（以下の）式１９の論理を使用する。

ここで、Th_NSSSPDは検出のための閾値（例えば、-１２dB)である。

幾つかの実施形態では、f(・)は、（以下の）式２０により示されるような、より複雑な関数である。

ここで、Th_NSSSPD１及びTh_NSSSPD２は、（それぞれ、-１５dB及び-１２dBの値を有する）閾値であり、SPD_smooth[n]は、スペクトルバランス特徴の平滑化バージョンである。

図５の処理５００を続けると、歯擦音検出モジュール１３０は、スペクトルバランス特徴の平滑化バージョンが閾値を満たすかどうかを決定する。幾つかの実施形態では、式２０に関連して説明したように、歯擦音検出モジュール１３０は、スペクトルバランス特徴が複数の閾値を満たすかどうかを決定する。スペクトルバランス特徴の平滑化バージョンが閾値を満たす場合、処理５００は５１０へ進み、そこで、歯擦音検出モジュール１３０は、歯擦音が存在すると決定する。スペクトルバランス特徴の平滑化バージョンが閾値を満たさない場合、処理５００は５１２へ進み、そこで、歯擦音検出モジュール１３０は歯擦音が存在しないことを決定する。

幾つかの実施形態では、長期歯擦音検出器１３８の出力は、短期歯擦音検出及び長期歯擦音検出の両方の結果を含む。幾つかの実施形態では、歯擦音検出モジュール１３０は、長期歯擦音検出器１３８の出力を決定するための関数を使用する。実施形態では、出力は、式２１により示される通りである。

ここで、R_STSD[n]及びR_NSSSPD[n]は、それぞれ、短期歯擦音検出器１３４及び長期歯擦音検出器１３８からの出力である。式２１で、f(・)は、例えばR_STSD[n]及びR_NSSSPD[n]の積である。

幾つかの実施形態では、短期、長期、又は短期及び長期検出の両方の出力が、歯擦音抑制のために使用される。しかしながら、当業者は、歯擦音抑制が、検出された歯擦音の利用の単なる例であることを理解するだろう。例えば、歯擦音検出モジュール１３０は、マルチバンドコンプレッサ１４０を制御するために、出力を使用してよい。従って、マルチバンドコンプレッサ１４０の閾値は、オーディオ信号内の歯擦音を抑制するよう動的に調整される。幾つかの実施形態では、（以下の）式２１は、歯擦音抑制において使用される。

ここで、kはマルチバンドコンプレッサ１４０の歯擦音周波数帯域（例えば、４kHz～１０kHz）内にあり、Th_static_kは帯域kの静的閾値であり、a_kは帯域kの動的調整値である。幾つかの実施形態では、動的調整は、全部の歯擦音周波数帯域に渡り同じである。幾つかの実施形態では、動的調整は、一部の歯擦音周波数帯域について異なる。動的調整は、プリセット値、調整可能パラメータ、又は別の適切な動的調整を含む。調整可能パラメータは、装置（例えば、モバイル装置）の種々の特性に対応するために使用されてよい。

幾つかの実施形態では、歯擦音検出モジュール１３０は、短期及び長期特徴の組合せに基づき、歯擦音検出器の１つ以上のパラメータを適応する。歯擦音検出モジュール１３０は、１つ以上の短期特徴（例えば、衝撃音、平坦摩擦音、又は別の適切な特徴）を決定する。歯擦音検出モジュール１３０は、１つ以上の短期特徴に基づき、１つ以上の長期特徴を決定する。例えば、歯擦音検出モジュール１３０は、短期特徴検出器の出力を取り入れ、上述のように、該出力を長期特徴検出器への入力として使用する。歯擦音検出モジュールは、次に、短期及び長期特徴の組合せに基づき、１つ以上の歯擦音パラメータを適応する。例えば、歯擦音検出モジュール１３０は、上述のように、短期歯擦音特徴の出力を用いて又は変換モジュール１１０及び／又は帯域モジュール１２０の出力を用いて決定された長期歯擦音特徴に基づき、歯擦音閾値を変更する。

幾つかの実施形態では、歯擦音検出モジュールは、機械学習に基づく分類器（例えば、ニューラルネットワーク）を使用して、歯擦音の存在を決定する。これらの実施形態では、歯擦音検出モジュール１３０は、短期特徴検出器１３１（衝撃音検出器１３２、平坦摩擦音検出器１３６、及び／又は任意の他の短期特徴検出器を含む）、短期歯擦音検出器１３４、及び長期歯擦音検出器１３８の出力のうちのいずれかの組合せを、機械学習に基づく分類器への入力として使用する。機械学習に基づく分類器は、その情報に基づき、歯擦音が存在するかどうかの決定を出力するようトレーニングされ得る。

図６は、歯擦音抑制で使用され得る歯擦音抑制曲線を示す。歯擦音抑制曲線は、３つの部分C１、C２、及びC３を含む。部分C１では、歯擦音のレベルは低閾値TH_lowより低く、従って、歯擦音抑制のための減衰利得は０dBになる。これは、非歯擦音及び非歯擦音を抑制するために処理が行われないことを意味する。部分C２では、歯擦音のレベルは、TH_LowとTH_highとの間に含まれ、従って、線形抑制がトリガされてよい。部分C３では、歯擦音のレベルは、高閾値TH_highより高く、歯擦音抑制のための減衰利得はG１として設定される。これは、システムの最大歯擦音抑制深さである。

図７は、本開示の例示的な実施形態を実施するために適する例示的なシステム７００のブロック図を示す。図示のように、システム７００は、例えば読み出し専用メモリ（readonly memory (ROM)）７０２に格納されたプログラム又は例えば記憶ユニット７０８からランダムアクセスメモリ（random access memory (RAM)）へとロードされたプログラムに従い種々の処理を実行できる中央処理ユニット（CPU）７０１を含む。RAM７０３には、必要に応じて、CPU７０１が種々の処理を実行するときに必要なデータも格納される。CPU７０１、ROM７０２、及びRAM７０３は、バス７０４を介して互いに接続される。入力／出力（I/O）インタフェース７０５は、バス７０４にも接続される。

以下のコンポーネントは、I/Oインタフェース７０５に接続される。つまり、キーボード、マウス、等を含み得る入力ユニット７０６、液晶ディスプレイ（LCD）のようなディスプレイ及び１つ以上のスピーカを含み得る出力ユニット７０７、ハードディスク又は別の適切な記憶装置を含む記憶ユニット７０８、及びネットワークカード（例えば、有線又は無線）のようなネットワークインタフェースカードを含む通信ユニット７０９である。通信ユニット７０９は、他の装置と（例えば、ネットワークを介して）通信するよう構成される。ドライブ７１０も、必要に応じて、I/Oインタフェース７０５に接続される。磁気ディスク、光ディスク、磁気－光ディスク、フラッシュドライブ、又は別の適切な取り外し可能媒体のような取り外し可能媒体７１１は、ドライブ７１０に取り付けられ、その結果、それから読み出されたコンピュータプログラムは、必要に応じて、記憶ユニット７０８にインストールされる。当業者は、システム７００が上述のコンポーネントを含むとして記載されるが、実際の適用では、これらのコンポーネントのうちの一部を追加し、除去し、及び／又は置換することが可能であること、及び全部のこれらの変更又は変形が全て本開示の範囲に包含されることを理解するだろう。

本開示の例示的な実施形態によると、上述の処理は、コンピュータソフトウェアプログラムとして実装されてよい。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラムプロダクトを含む。該コンピュータプログラムは、方法を実行するためのプログラムコードを含む。そのような実施形態では、コンピュータプログラムは、ネットワークから通信ユニット７０９を介してダウンロードされ実装され、及び／又は取り外し可能媒体７１１からインストールされてよい。

通常、本開示の種々の例示的な実施形態は、ハードウェア又は専用回路（例えば、制御回路）、ソフトウェア、ロジック、又はそれらの任意の組合せで実装されてよい。例えば、歯擦音検出モジュール１３０は、制御回路（例えば、図７の他のコンポーネントと組み合わせたCPU）により実行されてよい。従って、制御回路は、本開示で説明した動作を実行する。幾つかの態様は、ハードウェアで実装されてよいが、他の態様は、制御部、マイクロプロセッサ、又は他のコンピューティング装置（）例えば、制御回路）により実行されてよいファームウェア又はソフトウェア実装されてよい。本開示の例示的な実施形態の種々の態様は、ブロック図、フローチャート、又は幾つかの他の図式表現を用いて図示され説明されたが、本願明細書に記載されるブロック、機器、システム、技術、又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路又はロジック、汎用ハードウェア又は制御部又は他のコンピューティング装置、又はそれらの何らかの組合せで実装されてよいことが理解される。

更に、フローチャートに示される種々のブロックは、方法のステップとして、及び／又はコンピュータプログラムコードの演算から生じる演算として、及び／又は関連する機能を実行するよう構成される複数の結合された論理回路素子として、考えられてよい。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラムプロダクトを含む。該コンピュータプログラムは、上述のような方法を実行するよう構成されるプログラムコードを含む。

本開示の文脈では、機械可読媒体は、命令実行システム、機器、又は装置により又はそれと関連して使用するためのプログラムを含む又は格納し得る任意の有形媒体であってよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってよい。機械可読媒体は、非有形であってよく、限定ではないが、電子、磁気、光、電磁気、赤外線、又は半導体システム、機器、又は装置、又はそれらの任意の適切な組合せを含んでよい。機械可読記憶媒体のより具体的な例は、１つ以上のワイヤ、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、消去可能なプログラマブル読み出し専用メモリ（EPROM又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（CD-ROM）、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含んでよい。

本開示の方法を実行するコンピュータプログラムコードは、１つ以上のプログラミング言語の任意の組合せで記述されてよい。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ、又は制御回路を有する他のプログラム可能なデータ処理機器のプロセッサに提供されてよい。その結果、該プログラムコードは、コンピュータ又は他のプログラム可能なデータ処理機器のプロセッサにより実行されると、フローチャート及び／又はブロック図の中で指定された機能／動作を実施させる。プログラムコードは、全体がコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上で及び部分的にリモートコンピュータ上で若しくは全体的にリモートコンピュータ若しくはサーバで、又は１つ以上のリモートコンピュータ及び／又はサーバに渡り分散されて実行されてよい。

Claims

方法であって、
オーディオ信号を受信するステップと、
前記オーディオ信号から、複数の時間－周波数特徴を抽出するステップであって、前記複数の時間－周波数特徴は、１つ以上の短期又は長期特徴を含む、ステップと、
抽出した短期又は長期特徴に従い、前記オーディオ信号内の歯擦音を検出する歯擦音検出器の１つ以上のパラメータを適応するステップと、
前記１つ以上の適応されたパラメータを有する前記歯擦音検出器を用いて、前記オーディオ信号内の歯擦音を検出するステップと、
を含む方法。
前記短期特徴は衝撃音を含む、請求項１に記載の方法。
前記短期特徴は平坦摩擦音を含む、請求項１に記載の方法。
前記長期特徴は平滑化されたオーディオスペクトルバランス特徴を含む、請求項１に記載の方法。
歯擦音検出器の前記１つ以上のパラメータを適応するステップは、
短期特徴検出から生じる値を含む制御信号を生成するステップを含む、請求項１に記載の方法。
歯擦音検出器の前記１つ以上のパラメータを適応するステップは、
前記１つ以上の短期特徴を決定するステップと、
前記１つ以上の長期特徴を決定するステップと、
前記１つ以上の短期特徴及び前記１つ以上の長期特徴の組合せに基づき、前記１つ以上の歯擦音パラメータを適応するステップと、
を含む、請求項１に記載の方法。
前記複数の時間－周波数特徴を用いて、前記オーディオ信号が前記衝撃音を含むかどうかを決定するステップは、
前記オーディオ信号内の第１時間間隔について、１つ以上の歯擦音周波数帯における第１合計パワーと、１つ以上の非歯擦音周波数帯における第２合計パワーと、を計算するステップと、
前記オーディオ信号内の第２時間間隔について、１つ以上の歯擦音周波数帯における第３合計パワーと、１つ以上の非歯擦音周波数帯における第４合計パワーと、を計算するステップと、
前記第１合計パワーと前記第３合計パワーとの間の差に基づき第１フラックス値を、及び前記第２合計パワーと前記第４合計パワーとの間の差に基づき第２フラックス値を、決定するステップと、
前記第１フラックス値が第１閾値を満たすか及び前記第２フラックス値が第２閾値を満たすかどうかに基づき、前記衝撃音が存在するかどうかを決定するステップと、
を含む、請求項１又は２に記載の方法。
前記衝撃音が存在すると決定することに応答して、
出力値を生成するステップと、
前記出力値に平滑化アルゴリズムを適用するステップと、
を更に含む請求項１～３のいずれかに記載の方法。
前記出力値に前記平滑化アルゴリズムを適用するステップは、アタック時定数及びリリース時定数を用いるステップを含む、請求項４に記載の方法。
前記衝撃音の種類に基づき、前記アタック時定数又は前記リリース時定数を適応するステップを更に含む、請求項５に記載の方法。
前記複数の時間－周波数特徴に基づき、前記衝撃音の種類を決定するステップ、を更に含む請求項１～６のいずれかに記載の方法。
衝撃音の種類を決定するステップは、
前記歯擦音周波数帯及び非歯擦音周波数帯の各々のデータを、複数の知られている衝撃音の対応する周波数帯データと比較するステップと、
前記比較に基づき、前記衝撃音を識別するステップと、
を含む、請求項７に記載の方法。
前記複数の時間－周波数特徴を用いて、前記オーディオ信号が前記平坦摩擦音を含むかどうかを決定するステップは、
歯擦音周波数帯スペクトル及び周波数帯の数に基づき、歯擦音スペクトル平坦度指標を計算するステップを含む、請求項１～１２のいずれかに記載の方法。
前記複数の時間－周波数特徴を用いて、前記オーディオ信号が前記平坦摩擦音を含むかどうかを決定するステップは、
隣接する歯擦音周波数帯のパワーの分散を計算するステップを含む、請求項１～１２のいずれかに記載の方法。
前記複数の時間－周波数特徴を用いて、前記オーディオ信号が前記平坦摩擦音を含むかどうかを決定するステップは、
歯擦音周波数帯のパワーのピーク対平均比、又はピーク対中央値比を計算するステップを含む、請求項１～１２のいずれかに記載の方法。
前記複数の時間－周波数特徴を用いて、前記オーディオ信号が前記平坦摩擦音を含むかどうかを決定するステップは、
歯擦音周波数帯におけるスペクトルエントロピー指標を計算するステップを含む、請求項１～１２のいずれかに記載の方法。
前記オーディオ信号内の歯擦音を検出する歯擦音検出器の１つ以上のパラメータを適応するステップは、前記衝撃音が検出されたかどうかの決定から生じる出力値、及び前記平坦摩擦音が検出されたかどうかの決定から生じる出力値に基づき、歯擦音検出閾値を適応するステップを含む、請求項１～１６のいずれかに記載の方法。
前記歯擦音検出器の１つ以上のパラメータを適応するステップは、
前記オーディオ信号の現在部分が会話を含むかどうかを決定するステップと、
前記オーディオ信号の前記現在部分が会話を含むという決定に応答して、前記衝撃音が検出されたかどうかの決定から生じる前記出力値に第１重みを加え、前記平坦摩擦音が検出されたかどうかの決定から生じる前記出力値に、前記第１重みより高い第２重みを加えるステップと、
前記オーディオ信号の前記現在部分が非会話を含むという決定に応答して、前記衝撃音が検出されたかどうかの決定から生じる前記出力値に第１重みを加え、前記平坦摩擦音が検出されたかどうかの決定から生じる前記出力値に、前記第１重みより低い第２重みを加えるステップと、
を含む、請求項１６に記載の方法。
前記歯擦音検出器の出力及びスペクトルバランス値にアクセスするステップと、
前記歯擦音検出器が歯擦音を検出したかどうかに基づき、時定数を選択するステップと、
前記選択した時定数を用いて、前記スペクトルバランス値の平滑化バージョンを計算するステップと、
前記スペクトルバランスの前記平滑化バージョンを閾値と比較するステップと、
前記スペクトルバランスの前記平滑化バージョンを閾値と比較することに基づき、歯擦音が存在するかどうかを決定するステップと、
を更に含む請求項１～１７のいずれかに記載の方法。
短期特徴検出器、短期歯擦音検出器、及び長期歯擦音検出器の出力のうちの１つ以上を、機械学習に基づく分類器に入力するステップと、
前記機械学習に基づく分類器から、歯擦音が存在するかどうかの決定を受信するステップと、
を更に含む請求項１～１８のいずれかに記載の方法。
システムであって、
１つ以上のコンピュータプロセッサと、
命令を格納する１つ以上の非一時的記憶媒体と、
を含み、前記命令は、前記１つ以上のコンピュータプロセッサにより実行されると、請求項１～２０のいずれかに記載の方法の実行を生じる、システム。