JP6635440B2 - 音声区間補正フレーム数の取得方法、音声区間検出方法及び装置 - Google Patents

音声区間補正フレーム数の取得方法、音声区間検出方法及び装置 Download PDF

Info

Publication number
JP6635440B2
JP6635440B2 JP2017566850A JP2017566850A JP6635440B2 JP 6635440 B2 JP6635440 B2 JP 6635440B2 JP 2017566850 A JP2017566850 A JP 2017566850A JP 2017566850 A JP2017566850 A JP 2017566850A JP 6635440 B2 JP6635440 B2 JP 6635440B2
Authority
JP
Japan
Prior art keywords
voice section
characteristic parameter
frame
background noise
determination result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017566850A
Other languages
English (en)
Other versions
JP2018523155A (ja
Inventor
ジュー,チャンバオ
ユエン,ハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2018523155A publication Critical patent/JP2018523155A/ja
Application granted granted Critical
Publication of JP6635440B2 publication Critical patent/JP6635440B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Description

本願は通信分野に関するが、通信分野に制限されない。
正常な音声通話において、ユーザは時には話し、時には聴き、この場合に、通話過程において非音声区間段階は発生することになり、正常な場合に通話の両方の全体の非音声区間段階は通話の両方の全体の音声符号化時間の50%を超える必要がある。非音声区間段階において、背景雑音だけがあり、背景雑音の中で一般的にいかなる有用な情報がない。この事実を利用して、音声周波数信号処理過程において、音声区間検出(Voice Activity Detection、VADと略称)アルゴリズムによって音声区間及び非音声区間を検出して、異なる方法によってそれぞれ処理する。数多くの音声コーディング規約、例えば適応マルチレート(Adaptive Multi-Rate、AMR)、適応マルチレート広帯域(Adaptive Multi-Rate Wideband、AMR-WBと略称)はいずれもVAD機能をサポートする。効率上で、これらのエンコーダのVADはすべての典型背景雑音でいずれも良い性能を達することができない。特に非安定の雑音で、これらのエンコーダのVAD効率はいずれも低い。音楽信号に対して、これらのVADは誤検出が発生し、対応する処理アルゴリズムに顕著な品質低下が発生することがある。
以下は、本文で詳細的に説明した主題の概要である。本概要は請求項の保護範囲を制限するためのものではない。
本発明の実施例は音声区間検出(VAD)の正確率が低い問題を解決するために、音声区間補正フレーム数の取得方法、音声区間検出方法及び装置を提供する。
本発明の実施例は音声区間補正フレーム数の取得方法を提供し、前記方法は、
オーディオ符号化に用いられる、音声区間補正フレーム数の取得方法であって、現在のフレームの音声区間検出判定結果を取得することと、
音声区間保持フレーム数を取得することと、
背景雑音更新回数を取得することと、
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得することと、を含み、
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するのは、
前記現在のフレームの音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい場合、前記音声区間補正フレーム数は1つの定数及び前記音声区間保持フレーム数の中の最大値である
選択的に、前記現在のフレームの音声区間検出判定結果を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき前記現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ及び時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記現在のフレームの前の1つのフレームを利用して取得した背景雑音エネルギー、前記フレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき前記現在のフレームの信号対雑音比パラメータを計算して取得することと、
前記フレームエネルギーパラメータ、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータに基づき、前記現在のフレームの調性マークを計算して取得することと、
前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記音声区間検出判定結果を計算して取得することと、を含む。
選択的に、
前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、或いは前記比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータは振幅重ね合わせ値の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度特性パラメータはプリセットの複数の平滑なスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものであり、
調性特性パラメータは前後の2つのフレーム信号のイントラスペクトル差分係数の相関値を計算することによって取得され、又は続いて該相関値を平滑化フィルタリングして取得される。
選択的に、前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき前記音声区間検出判定結果を計算して取得するのは、
前記現在のフレームの前の1つのフレームによって計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、長時間信号対雑音比を計算して取得することと、
前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、平均全帯域信号対雑音比を取得することと、
前記スペクトル重心特性パラメータ、前記長時間信号対雑音比、連続音声区間フレーム個数及び連続雑音フレーム個数に基づき、音声区間検出判定の判定信号対雑音比閾値を取得することと、
前記音声区間検出の判定閾値及び前記信号対雑音比パラメータに基づき、初期の音声区間検出判定結果を計算して取得することと、
前記調性マーク、前記平均全帯域信号対雑音比、前記スペクトル重心特性パラメータ及び前記長時間信号対雑音比に基づき、前記初期の音声区間検出判定結果を修正して、前記音声区間検出判定結果を取得することと、を含む。
選択的に、前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき音声区間補正フレーム数を取得するのは、
前記現在のフレームの音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい際に、前記音声区間補正フレーム数は1つの定数及び前記音声区間保持フレーム数の中の最大値であることを含む。
選択的に、前記音声区間保持フレーム数を取得するのは、
前記音声区間保持フレーム数の初期値を設定することを含む。
選択的に、前記音声区間保持フレーム数を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得し、前記現在のフレームの前の複数のフレームの音声区間検出の判定結果、長時間信号対雑音比、平均全帯域信号対雑音比、前記現在のフレームの音声区間検出判定結果に基づき、現在音声区間保持フレーム数を修正して前記音声区間保持フレーム数を取得することと、を含む。
選択的に、前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を取得するのは、
前記現在のフレームの前の1つのフレームを利用して計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、前記長時間信号対雑音比を計算して取得し、前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、前記平均全帯域信号対雑音比を取得することを含む。
選択的に、前記現在音声区間保持フレーム数を修正する前提条件は、音声区間マークが、前記現在のフレームが音声区間フレームであることを指示することである。
選択的に、前記現在音声区間保持フレーム数を修正して前記音声区間保持フレーム数を取得するのは、
前記音声区間保持フレーム数を取得する際に、前記連続音声フレーム数がある設定された第1閾値より小さく、且つ前記長時間信号対雑音比がある設定された閾値より小さいと、前記音声区間保持フレーム数は最小の連続音声区間フレーム数から前記連続音声フレーム数を引くものに等しく、前記平均全帯域信号対雑音比がある設定された閾値より大きく、且つ前記連続音声フレーム数がある設定された第2閾値より大きいと、前記長時間信号対雑音比の大きさに基づき前記音声区間保持フレーム数の値を設定することを含む。
選択的に、前記背景雑音更新回数を取得するのは、
背景雑音更新識別子を取得することと、
前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算することと、を含む。
選択的に、前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算するのは、
前記背景雑音更新回数初期値を設定することを含む。
選択的に、前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算するのは、
前記背景雑音更新識別子は前記現在のフレームが背景雑音であることを指示し、且つ前記背景雑音更新回数が設定された閾値より小さい際に、前記背景雑音更新回数に1を足すことを含む。
選択的に、前記背景雑音更新識別子を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき、フレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づき、スペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得することと、を含む。
選択的に、
前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、或いは前記比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータはフレームエネルギー振幅の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度パラメータはプリセットの複数のスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものである。
選択的に、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得するのは、
前記背景雑音更新識別子を第1予め設定された値として設定することと、
前記時間領域安定性特性パラメータがある設定された閾値より大きいという条件、
前記スペクトル重心特性パラメータ値の平滑化フィルタリング値がある設定された閾値より大きく、且つ前記時間領域安定性特性パラメータ値もある設定された閾値より大きいという条件、
前記調性特性パラメータ又は前記調性特性パラメータを平滑化フィルタリングした値がある設定された閾値より大きく、且つ時間領域安定性特性パラメータ値が設定された閾値より大きいという条件、
各サブバンドのスペクトルの平坦度特性パラメータ又は前記各サブバンドのスペクトルの平坦度特性パラメータをそれぞれ平滑化フィルタリングした値がそれぞれに対応する設定された閾値より小さいという条件、
又は、前記フレームエネルギーパラメータの値が設定された閾値より大きいという条件、のうちのいずれかの条件が成立すると、前記現在のフレームが雑音信号ではないことを判断し、且つ前記背景雑音更新識別子を第2予め設定された値として設定することと、を含む。
本発明の実施例は音声区間検出方法を提供し、前記方法は、
オーディオ符号化に用いられる、音声区間検出方法であって、
第1音声区間検出判定結果を取得することと、
音声区間保持フレーム数を取得することと、
背景雑音更新回数を取得することと、
前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算することと、
第2音声区間検出判定結果を取得することと、
前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算することと、を含み、
前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するのは、
前記第1音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい場合、前記音声区間補正フレーム数は1つの定数と前記音声区間保持フレーム数の中の最大値である
選択的に、前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算するのは、
前記第2音声区間検出判定結果は前記現在のフレームが非音声区間フレームであること
を指示し、且つ前記音声区間補正フレーム数は0より大きい際に、前記音声区間検出判定結果を音声区間フレームとして設定し、且つ前記音声区間補正フレーム数から1を引くことを含む。
選択的に、前記第1音声区間検出判定結果を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき、前記現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ及び時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記現在のフレームの前の1つのフレームを利用して取得した背景雑音エネルギー、前記フレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき、前記現在のフレームの信号対雑音比パラメータを計算して取得することと、
前記フレームエネルギーパラメータ、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータに基づき、前記現在のフレームの調性マークを計算して取得することと、
前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記第1音声区間検出判定結果を計算して取得することと、を含む。
選択的に、前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、或いは前記比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータは振幅重ね合わせ値の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度特性パラメータはプリセットの複数のスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものであり、
調性特性パラメータは前後の2つのフレーム信号のイントラスペクトル差分係数の相関値を計算することによって取得され、又は続いて該相関値を平滑化フィルタリングして取得される。
選択的に、前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記第1音声区間検出判定結果を計算して取得するのは、
前記現在のフレームの前の1つのフレームによって計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、長時間信号対雑音比を計算して取得することと、
前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、平均全帯域信号対雑音比を取得することと、
前記スペクトル重心特性パラメータ、前記長時間信号対雑音比、連続音声区間フレーム個数及び連続雑音フレーム個数に基づき、音声区間検出の判定閾値を取得することと、
前記音声区間検出の判定閾値及び前記信号対雑音比パラメータに基づき、初期の音声区間検出判定結果を計算して取得することと、
前記調性マーク、前記平均全帯域信号対雑音比、前記スペクトル重心特性パラメータ及び前記長時間信号対雑音比に基づき、前記初期の音声区間検出判定結果を修正して、前記第1音声区間検出判定結果を取得することと、を含む。
選択的に、前記音声区間保持フレーム数を取得するのは、
前記音声区間保持フレーム数の初期値を設定することを含む。
選択的に、前記音声区間保持フレーム数を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得し、前記現在のフレームの前の複数のフレームの音声区間検出の判定結果、前記長時間信号対雑音比、前記平均全帯域信号対雑音比、前記第1音声区間検出判定結果に基づき、現在音声区間保持フレーム数を修正することと、を含む。
選択的に、前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得するのは、
前記現在のフレームの前の1つのフレームを利用して計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、前記長時間信号対雑音比を計算して取得し、前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、前記平均全帯域信号対雑音比を取得することを含む。
選択的に、前記現在音声区間保持フレーム数を修正する前提条件は、音声区間マークが、前記現在のフレームが音声区間フレームであることを指示することである。
選択的に、前記現在音声区間保持フレーム数を修正するのは、
連続音声フレーム数がある設定された第1閾値より小さく、且つ前記長時間信号対雑音比がある設定された閾値より小さいと、前記音声区間保持フレーム数は最小の連続音声区間フレーム数から前記連続音声フレーム数を引くものに等しく、前記平均全帯域信号対雑音比がある設定された第2閾値より大きく、且つ前記連続音声フレーム数がある設定された閾値より大きいと、前記長時間信号対雑音比の大きさに基づき前記音声区間保持フレーム数の値を設定することを含む。
選択的に、前記背景雑音更新回数を取得するのは、
背景雑音更新識別子を取得することと、
前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算することと、を含む。
選択的に、前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算するのは、
前記背景雑音更新回数初期値を設定することを含む。
選択的に、前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算するのは、
前記背景雑音更新識別子は前記現在のフレームが背景雑音であることを指示し、且つ前記背景雑音更新回数が設定された閾値より小さい際に、前記背景雑音更新回数に1を足すことを含む。
選択的に、前記背景雑音更新識別子を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき、フレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータの値を計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータの値を計算して取得することと、
前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得することと、を含む。
選択的に、前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、又は前記比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータはフレームエネルギー振幅の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度パラメータはプリセットの複数のスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものである。
選択的に、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得するのは、
前記背景雑音更新識別子を第1予め設定された値として設定することと、
前記時間領域安定性特性パラメータがある設定された閾値より大きいという条件、
前記スペクトル重心特性パラメータ値の平滑化フィルタリング値がある設定された閾値より大きく、且つ前記時間領域安定性特性パラメータ値もある設定された閾値より大きいという条件、
前記調性特性パラメータ又は前記調性特性パラメータを平滑化フィルタリングした値がある設定された閾値より大きく、且つ前記時間領域安定性特性パラメータ値が設定された閾値より大きいという条件、
各サブバンドのスペクトルの平坦度特性パラメータ又は前記各サブバンドのスペクトルの平坦度特性パラメータをそれぞれ平滑化フィルタリングした値がそれぞれに対応する設定された閾値より小さいという条件、
又は、前記フレームエネルギーパラメータの値が設定された閾値より大きいという条件、のうちのいずれかの条件が成立すると、前記現在のフレームが雑音信号ではないことを判断し、且つ前記背景雑音更新識別子を第2予め設定された値として設定することと、を含む。
選択的に、前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき音声区間補正フレーム数を計算するのは、
前記第1音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい際に、前記音声区間補正フレーム数は1つの定数と前記音声区間保持フレーム数の中の最大値であることを含む。
本発明の実施例は音声区間補正フレーム数の取得装置を提供し、前記装置は、
現在のフレームの音声区間検出判定結果を取得するように設定される第1取得ユニット、
音声区間保持フレーム数を取得するように設定される第2取得ユニット、
背景雑音更新回数を取得するように設定される第3取得ユニット、及び
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するように設定される第4取得ユニットを備える。
本発明の実施例は音声区間検出装置を提供し、前記装置は、
第1音声区間検出判定結果を取得するように設定される第5取得ユニット、
音声区間保持フレーム数を取得するように設定される第6取得ユニット、
背景雑音更新回数を取得するように設定される第7取得ユニット、
前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するように設定される第1計算ユニット、
第2音声区間検出判定結果を取得するように設定される第8取得ユニット、及び
前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算するように設定される第2計算ユニットを備える。
コンピュータ可読記憶媒体であって、コンピュータ実行可能な命令が記憶され、前記コンピュータ実行可能な命令は上記のいずれか1項の方法を実行することに用いられる。
本発明の実施例は音声区間補正フレーム数の取得方法、音声区間検出方法及び装置を提供し、まず、第1音声区間検出判定結果を取得し、音声区間保持フレーム数を取得し、背景雑音更新回数を取得し、再び前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算して、第2音声区間検出判定結果を取得し、最後に前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、前記音声区間検出判定結果を計算することによって、VAD検出の正確率を向上させることができる。
図面と詳細的な説明を読んで理解した後に、その他の方面を分かることができる。
図1は本発明の実施例1による音声区間検出方法のフローチャートである。 図2は本発明の実施例1におけるVAD判定結果を取得する過程模式図である。 図3は本発明の実施例2による背景雑音検出方法のフローチャートである。 図4は本発明の実施例3によるVAD判定における現在音声区間保持フレーム数の修正方法のフローチャートである。 図5は本発明の実施例4による音声区間補正フレーム数の取得方法のフローチャートである。 図6は本発明の実施例4による音声区間補正フレーム数の取得装置の構造模式図である。 図7は本発明の実施例5による音声区間検出方法のフローチャートである。 図8は本発明の実施例5による音声区間検出装置の構造模式図である。
以下、図面を参照して本発明の実施形態を詳細的に説明する。なお、衝突しない場合に、本願における実施例及び実施例における特徴を互いに組み合わせることができる。
図面のフローチャートで示したステップは、例えば1群のコンピュータ実行可能な命令のコンピューターシステムに実行されることができる。且つ、フローチャートで論理的順序を示したが、ある場合に、ここでの順序と異なる順序で示し又は説明したステップを実行することができる。
実施例1
本発明の実施例は音声区間検出方法を提供し、図1に示すように、該方法は下記ステップ101〜105を含む。
ステップ101、現在のフレームのサブバンド信号及びスペクトル振幅を取得する。
本実施例において、フレーム長が20msで、サンプリングレートが32kHzであるオーディオストリームを例として説明する。その他のフレーム長及びサンプリングレートの条件で、本文の方法も同様に適用する。
フィルタ群サブバンド信号に対して時間周波数変換を行い、且つスペクトル振幅を計算して取得する。
ステップ102、サブバンド信号に基づき現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータの値を計算して取得し、スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータの値を計算して取得する。
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比であり、
各フィルタ群サブバンドのエネルギーに基づきスペクトル重心特性パラメータを計算して取得し、スペクトル重心特性パラメータは、フィルタ群サブバンドエネルギー加重を加算する和とサブバンドエネルギーを直接に加算する和との比を求めること、又はその他のスペクトル重心特性パラメータ値を平滑化フィルタリングすることにより取得するものである。
スペクトル重心特性パラメータは下記サブステップa〜cによって実現することができる。
前記スペクトルの平坦度特性パラメータはプリセットの複数の平滑なスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものである。
なお、本発明の実施例において、前記プリセットの複数のスペクトルは技術者の経験に基づき選択された一部のスペクトルであってもよく、実際の状況に応じて選択された一部のスペクトルであってもよい。
本実施例はスペクトル振幅を3つの周波数帯域に分割して、これらの3つの周波数帯域のスペクトルの平坦度特性を計算し、その分割方式は下記の表の通りである。
調性特性パラメータは前後の2フレーム信号のイントラスペクトル差分係数の相関値を計算することによって取得され、又は続いて該相関値を平滑化フィルタリングして取得される。
前後の2フレーム信号のイントラスペクトル差分係数の相関値の計算方法は、
スペクトル振幅に基づき調性特性パラメータを計算して取得し、調性特性パラメータは全部のスペクトル振幅又は一部のスペクトル振幅に基づき計算して得られることができる。
ステップ103、現在のフレームの前の1つのフレームから取得した背景雑音エネルギー、現在のフレームのフレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき、現在のフレームの信号対雑音比パラメータを計算して取得する。
現在のフレームの前の1つのフレームの背景雑音エネルギーは既存の方法によって取得されてもよい。
現在のフレームは開始フレームである場合に、信号対雑音比サブバンド背景雑音エネルギーの値はデフォルトの初期値を使用する。現在のフレームの前の1つのフレーム信号対雑音比サブバンド背景雑音エネルギーの推定は、現在のフレームの信号対雑音比サブバンド背景エネルギーの推定の原理と同様であり、現在のフレームの信号対雑音比サブバンド背景エネルギーの推定については、本実施例のステップ107を参照する。現在のフレームの信号対雑音比パラメータは既存の信号対雑音比の計算方法によって実現することができる。選択的に、以下の方法を採用する。
ステップ104、現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータ、スペクトルの平坦度特性パラメータ、調性特性パラメータに基づき、現在のフレームの調性マークを計算して取得する。
ステップ105、調性マーク、信号対雑音比パラメータ、スペクトル重心特性パラメータ、フレームエネルギーパラメータに基づき、VAD判定結果を計算して取得し、図2に示すように、ステップは以下のステップ105a〜105gである。
現在のフレームの最終のVAD判定結果を取得する。
なお、実施例1は以下のステップ106〜107を更に含んでもよい。
ステップ106、現在のフレームのVAD判定結果、調性特性パラメータ、信号対雑音比パラメータ、調性マーク、時間領域安定性特性パラメータに基づき、背景雑音更新識別子を計算し、計算方法については後述の実施例2を参照することができる。
ステップ107、背景雑音更新識別子及び現在のフレームのフレームエネルギーパラメータ、現在のフレームの前の1つのフレームの全帯域背景雑音エネルギーに基づき、現在のフレームの背景雑音エネルギーを取得し、前記現在のフレームの背景雑音エネルギーは次のフレーム信号対雑音比パラメータの計算に用いられる。
背景雑音更新識別子に基づき背景雑音更新を行うか否かを判断し、背景雑音更新識別子が1であると、全帯域背景雑音エネルギー推定値と現在のフレーム信号のエネルギーに基づき背景雑音更新を行う。背景雑音エネルギー推定はサブバンド背景雑音エネルギー推定及び全帯域背景雑音エネルギー推定を含む。
実施例2
本発明の実施例は背景雑音検出方法の実施例を更に提供し、図3に示すように、該方法は以下のステップ201〜203を含む。
ステップ201、現在のフレームのサブバンド信号及びスペクトル振幅を取得する。
ステップ202、サブバンド信号に基づきフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータの値を計算して取得し、スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータの値を計算して取得し、
前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、又は該比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータはエネルギー振幅重ね合わせ値の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度パラメータはプリセットの複数の平滑なスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものである。
ステップ201及びステップ202は以上で同様である方法を採用することができ、ここで繰り返して説明しない。
ステップ203、スペクトル重心特性パラメータ、時間領域安定性特性パラメータ、スペクトルの平坦度特性パラメータ、調性特性パラメータ、現在のフレームエネルギーパラメータに基づき背景雑音検出を行い、現在のフレームが背景雑音であるか否かを判断する。
仮に現在のフレームが背景雑音である。
本実施例は背景雑音更新識別子background_flagによって現在のフレームが背景雑音であるか否かを指示し、且つ現在のフレームが背景雑音であることを判断すると、背景雑音更新識別子background_flagを1として設定し(第1予め設定された値)、そうでないと背景雑音更新識別子background_flagを0として設定する(第2予め設定された値)ことを約束する。
時間領域安定性特性パラメータ、スペクトル重心特性パラメータ、スペクトルの平坦度特性パラメータ、調性特性パラメータ、現在のフレームエネルギーパラメータに基づき、現在のフレームが雑音信号であるか否かを検出する。雑音信号ではないと、背景雑音更新識別子background_flagを0とする。
実施例3
本発明の実施例はVAD判定における音声区間保持フレーム数の修正方法を更に提供し、図4に示すように、該方法は以下のステップ301〜303を含む。
理解できるように、現在音声区間保持フレーム数を修正する前提条件は、音声区間マークが、現在のフレームが音声区間フレームであることを指示することである。
実施例4
本発明の実施例は音声区間補正フレーム数の取得方法を提供し、図5に示すように、ステップは以下の401〜404である。
401、本発明の実施例1の方法によって現在のフレーム音声区間検出判定結果を取得する。
402、本発明による実施例3によって音声区間保持フレーム数を取得する。
403、背景雑音更新回数update_countを取得する。ステップは以下の403a〜403bである。
403a、本発明による実施例2によって背景雑音更新識別子background_flagを計算する。
403b、背景雑音更新識別子は背景雑音であることを指示し、且つ背景雑音更新回数が1000より小さいと、背景雑音更新回数に1を足す。背景雑音更新回数の初期値を0として設定する。
404、現在のフレームの音声区間検出判定結果、背景雑音更新回数及び音声区間保持フレーム数に基づき、音声区間補正フレーム数warm_hang_numを取得する。
現在のフレーム音声区間検出判定結果は音声区間フレームであり、且つ背景雑音更新回数は予め設定された閾値、例えば12より小さいと、音声区間補正フレーム数は定数、例えば20及び音声区間保持フレーム数の中の最大値として選択する。
また、405を更に含んでもよく、VAD判定結果に基づき、音声区間補正フレーム数はVAD判定結果を修正し、
VAD判定結果は現在のフレームが非音声区間フレームであることを指示し、且つ音声区間補正フレーム数が0より大きいと、現在のフレームを音声区間フレームとして設定し、同時に音声区間補正フレーム数から1を引く。
前述の音声区間補正フレーム数の取得方法に対応して、本発明の実施例は音声区間補正フレーム数の取得装置60を更に提供し、図6に示すように、該取得装置60は、
現在のフレームの音声区間検出判定結果を取得するように設定される第1取得ユニット61、
音声区間保持フレーム数を取得するように設定される第2取得ユニット62、
背景雑音更新回数を取得するように設定される第3取得ユニット63、及び
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するように設定される第4取得ユニット64を備える。
本実施例における音声区間補正フレーム数の取得装置の各ユニットの動作フロー及び動作原理については、上記の方法実施例における説明を参照し、ここで繰り返して説明しない。
実施例5
本発明の実施例は音声区間検出方法を提供し、図7に示すように、ステップは以下の501〜505である。
501、本発明の実施例1の方法によって第1音声区間検出判定結果vada_flagを取得し、第2音声区間検出判定結果vadb_flagを取得する。
なお、第2音声区間検出判定結果vadb_flagは既存のいずれかの音声区間検出判定手段によって取得され、既存の音声区間検出判定手段に対して、本文ではここで詳細的に説明しない。
502、本発明による実施例3によって音声区間保持フレーム数を取得する。
503、背景雑音更新回数update_countを取得する。ステップは以下の503a〜503bである。
503a、本発明による実施例2によって背景雑音更新識別子background_flagを計算する。
503b、背景雑音更新識別子は背景雑音であることを指示し、且つ背景雑音更新回数が1000より小さいと、背景雑音更新回数に1を足す。背景雑音更新回数の初期値を0として設定する。
504、vada_flag、背景雑音更新回数及び音声区間保持フレーム数に基づき、音声区間補正フレーム数warm_hang_numを計算し、
vada_flagは音声区間フレームであることを指示し、且つ背景雑音更新回数が12より小さいと、音声区間補正フレーム数は20及び音声区間保持フレーム数の中の最大値として選択する。
505、vadb_flag、音声区間補正フレーム数に基づきVAD判定結果を計算し、
vadb_flagは現在のフレームが非音声区間フレームであることを指示し、且つ音声区間補正フレーム数が0より大きいと、現在のフレームを音声区間フレームとして設定し、同時に音声区間補正フレーム数から1を引く。
前述の音声区間検出方法に対応して、本発明の実施例は音声区間検出装置を更に提供し、図8に示すように、該検出装置80は、
第1音声区間検出判定結果を取得するように設定される第5取得ユニット81、
音声区間保持フレーム数を取得するように設定される第6取得ユニット82、
背景雑音更新回数を取得するように設定される第7取得ユニット83、
前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するように設定される第1計算ユニット84、
第2音声区間検出判定結果を取得するように設定される第8取得ユニット85、及び
前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、前記音声区間検出判定結果を計算するように設定される第2計算ユニット86を備える。
本実施例における音声区間検出装置の各ユニットの動作フロー及び動作原理については、上記の方法実施例における説明を参照し、ここで繰り返して説明しない。
現代の数多くの音声符号化標準、例えばAMR、AMR-WBはいずれもVAD機能をサポートする。効率上で、これらのエンコーダのVADは全部の典型背景雑音で良い性能を達成することができない。特に非安定雑音、例えばオフィス雑音で、これらのエンコーダのVAD効率はいずれも低い。音楽信号に対して、これらのVADには誤検出が発生して、対応する処理アルゴリズムに顕著な品質低下があることがある。
本発明の実施例による技術的解決手段は、既存のVADアルゴリズムの欠点を克服し、VADが不安定雑音に対する検出効率を向上させると同時に音楽検出の正確率も向上させる。これにより、本発明の実施例による技術的解決手段を採用した音声周波数信号処理アルゴリズムはより良い性能を達成することができる。
また、本発明の実施例による背景雑音検出方法によれば、背景雑音の推定はより正確で安定であり、VAD検出の正確率の向上に有利である。本発明の実施例が同時に提供した調性信号検出方法は、調性音楽検出の正確率を向上させる。本発明の実施例が同時に提供した音声区間保持フレーム数の修正方法によれば、異なる雑音及び信号対雑音比で、VADアルゴリズムは性能や効率においてより良いバランスを取ることができる。本発明の実施例が同時に提供したVAD判定における信号対雑音比閾値判定の調整方法によれば、VAD判定アルゴリズムは異なる信号対雑音比でいずれも良い正確率を達成し、品質を確保する場合に、効率を更に向上させることができる。
当業者は、上記実施例の全部又は一部のステップがコンピュータプログラムプロセスで実現することができ、前記コンピュータプログラムがコンピュータ読み取り可能な記憶媒体に記憶されることができ、前記コンピュータプログラムが対応のハードウェアプラットフォーム(例えばシステム、デバイス、装置、機器等)で実行し、実行する際、方法の実施例のステップの1つ又はその組み合わせを含むことを理解することができる。
選択的に、上記実施例の全部又は一部のステップは集積回路を使用して実現することもでき、これらのステップはそれぞれ各集積回路モジュールに製造されるか、又はそれらの中の複数のモジュール又はステップを単一の集積回路モジュールに製造して実現することができる。
上記実施例における装置/機能モジュール/機能ユニットは汎用の計算装置を採用して実現することができ、それらは単一の計算装置に集積されてもよく、複数の計算装置からなるネットワークに分布されてもよい。
上記実施例における装置/機能モジュール/機能ユニットはソフトウェア機能モジュールで実現するとともに独立な製品として販売又は使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶することができる。上記コンピュータ読み取り可能な記憶媒体は読み取り専用メモリ、磁気ディスク又はCD等であってもよい。
本発明の実施例による技術的解決手段は、既存のVADアルゴリズムの欠点を克服し、VADが不安定雑音に対する検出効率を向上させると同時に音楽検出の正確率も向上させる。これにより、本発明の実施例による技術的解決手段を採用した音声周波数信号処理アルゴリズムはより良い性能を達成することができる。また、本発明の実施例による背景雑音検出方法によれば、背景雑音の推定はより正確で安定であり、VAD検出の正確率の向上に有利である。本発明の実施例が同時に提供した調性信号検出方法は、調性音楽検出の正確率を向上させる。本発明の実施例が同時に提供した音声区間保持フレーム数の修正方法によれば、異なる雑音及び信号対雑音比で、VADアルゴリズムは性能や効率においてより良いバランスを取ることができる。本発明の実施例が同時に提供したVAD判定における信号対雑音比閾値判定の調整方法によれば、VAD判定アルゴリズムは異なる信号対雑音比でいずれも良い正確率を達成し、品質を確保する場合に、効率を更に向上させることができる。

Claims (16)

  1. オーディオ符号化に用いられる、音声区間補正フレーム数の取得方法であって、現在のフレームの音声区間検出判定結果を取得することと、
    音声区間保持フレーム数を取得することと、
    背景雑音更新回数を取得することと、
    前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得することと、を含み、
    前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するのは、
    前記現在のフレームの音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい場合、前記音声区間補正フレーム数は1つの定数及び前記音声区間保持フレーム数の中の最大値である音声区間補正フレーム数の取得方法。
  2. 前記現在のフレームの音声区間検出判定結果を取得するのは、
    前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
    前記サブバンド信号に基づき前記現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ及び時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
    前記現在のフレームの前の1つのフレームを利用して取得した背景雑音エネルギー、前記フレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき、前記現在のフレームの信号対雑音比パラメータを計算して取得することと、
    前記フレームエネルギーパラメータ、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータに基づき、前記現在のフレームの調性マークを計算して取得することと、
    前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記音声区間検出判定結果を計算して取得することと、を含む請求項1に記載の方法。
  3. 前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記音声区間検出判定結果を計算して取得するのは、
    前記現在のフレームの前の1つのフレームによって計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、長時間信号対雑音比を計算して取得することと、
    前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、平均全帯域信号対雑音比を取得することと、
    前記スペクトル重心特性パラメータ、前記長時間信号対雑音比、連続音声区間フレーム個数及び連続雑音フレーム個数に基づき、音声区間検出判定の判定信号対雑音比閾値を取得することと、
    前記音声区間検出の判定閾値及び前記信号対雑音比パラメータに基づき、初期の音声区間検出判定結果を計算して取得することと、
    前記調性マーク、前記平均全帯域信号対雑音比、前記スペクトル重心特性パラメータ及び前記長時間信号対雑音比に基づき、前記初期の音声区間検出判定結果を修正して、前記音声区間検出判定結果を取得することと、を含む請求項2に記載の方法。
  4. 前記音声区間保持フレーム数を取得するのは、
    前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
    前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得し、前記現在のフレームの前の複数のフレームの音声区間検出の判定結果、長時間信号対雑音比、平均全帯域信号対雑音比、前記現在のフレームの音声区間検出判定結果に基づき、現在音声区間保持フレーム数を修正して前記音声区間保持フレーム数を取得することと、を含む請求項1に記載の方法。
  5. 前記背景雑音更新回数を取得するのは、
    背景雑音更新識別子を取得することと、
    前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算することと、を含む請求項1に記載の方法。
  6. 前記背景雑音更新識別子を取得するのは、
    前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
    前記サブバンド信号に基づきフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
    前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得することと、を含む請求項に記載の方法。
  7. オーディオ符号化に用いられる、音声区間検出方法であって、
    第1音声区間検出判定結果を取得することと、
    音声区間保持フレーム数を取得することと、
    背景雑音更新回数を取得することと、
    前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算することと、
    第2音声区間検出判定結果を取得することと、
    前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算することと、を含み、
    前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するのは、
    前記第1音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい場合、前記音声区間補正フレーム数は1つの定数と前記音声区間保持フレーム数の中の最大値である音声区間検出方法。
  8. 前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算するのは、
    前記第2音声区間検出判定結果は前記現在のフレームが非音声区間フレームであること
    を指示し、且つ前記音声区間補正フレーム数は0より大きい際に、前記音声区間検出判定結果を音声区間フレームとして設定し、且つ前記音声区間補正フレーム数から1を引くことを含む請求項に記載の方法。
  9. 前記第1音声区間検出判定結果を取得するのは、
    現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
    前記サブバンド信号に基づき前記現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ及び時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
    前記現在のフレームの前の1つのフレームを利用して取得した背景雑音エネルギー、前記フレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき、前記現在のフレームの信号対雑音比パラメータを計算して取得することと、
    前記フレームエネルギーパラメータ、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータに基づき、前記現在のフレームの調性マークを計算して取得することと、
    前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記第1音声区間検出判定結果を計算して取得することと、を含む請求項に記載の方法。
  10. 前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記第1音声区間検出判定結果を計算して取得するのは、
    前記現在のフレームの前の1つのフレームによって計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、長時間信号対雑音比を計算して取得することと、
    前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、平均全帯域信号対雑音比を取得することと、
    前記スペクトル重心特性パラメータ、前記長時間信号対雑音比、連続音声区間フレーム個数及び連続雑音フレーム個数に基づき、音声区間検出の判定閾値を取得することと、
    前記音声区間検出の判定閾値及び前記信号対雑音比パラメータに基づき、初期の音声区間検出判定結果を計算して取得することと、
    前記調性マーク、前記平均全帯域信号対雑音比、前記スペクトル重心特性パラメータ及び前記長時間信号対雑音比に基づき、前記初期の音声区間検出判定結果を修正して、前記第1音声区間検出判定結果を取得することと、を含む請求項に記載の方法。
  11. 前記音声区間保持フレーム数を取得するのは、
    現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
    前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得し、前記現在のフレームの前の複数のフレームの音声区間検出の判定結果、長時間信号対雑音比、平均全帯域信号対雑音比、前記第1音声区間検出判定結果に基づき、現在音声区間保持フレーム数を修正することと、を含む請求項に記載の方法。
  12. 前記背景雑音更新回数を取得するのは、
    背景雑音更新識別子を取得することと、
    前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算することと、を含む請求項に記載の方法。
  13. 前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算するのは、
    前記背景雑音更新識別子は前記現在のフレームが背景雑音であることを指示し、且つ前記背景雑音更新回数は設定された閾値より小さい際に、前記背景雑音更新回数に1を足すことを含む請求項12に記載の方法。
  14. 前記背景雑音更新識別子を取得するのは、
    現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
    前記サブバンド信号に基づきフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータの値を計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータの値を計算して取得することと、
    前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得することと、を含む請求項12に記載の方法。
  15. 現在のフレームの音声区間検出判定結果を取得するように設定される第1取得ユニット、
    音声区間保持フレーム数を取得するように設定される第2取得ユニット、
    背景雑音更新回数を取得するように設定される第3取得ユニット、及び
    前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するように設定される第4取得ユニットを備える音声区間補正フレーム数の取得装置。
  16. 第1音声区間検出判定結果を取得するように設定される第5取得ユニット、
    音声区間保持フレーム数を取得するように設定される第6取得ユニット、
    背景雑音更新回数を取得するように設定される第7取得ユニット、
    前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するように設定される第1計算ユニット、
    第2音声区間検出判定結果を取得するように設定される第8取得ユニット、及び
    前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算するように設定される第2計算ユニットを備える音声区間検出装置。
JP2017566850A 2015-06-26 2015-11-05 音声区間補正フレーム数の取得方法、音声区間検出方法及び装置 Active JP6635440B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510364255.0A CN106328169B (zh) 2015-06-26 2015-06-26 一种激活音修正帧数的获取方法、激活音检测方法和装置
CN201510364255.0 2015-06-26
PCT/CN2015/093889 WO2016206273A1 (zh) 2015-06-26 2015-11-05 一种激活音修正帧数的获取方法、激活音检测方法和装置

Publications (2)

Publication Number Publication Date
JP2018523155A JP2018523155A (ja) 2018-08-16
JP6635440B2 true JP6635440B2 (ja) 2020-01-22

Family

ID=57584376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017566850A Active JP6635440B2 (ja) 2015-06-26 2015-11-05 音声区間補正フレーム数の取得方法、音声区間検出方法及び装置

Country Status (8)

Country Link
US (1) US10522170B2 (ja)
EP (1) EP3316256A4 (ja)
JP (1) JP6635440B2 (ja)
KR (1) KR102042117B1 (ja)
CN (1) CN106328169B (ja)
CA (1) CA2990328C (ja)
RU (1) RU2684194C1 (ja)
WO (1) WO2016206273A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN106328169B (zh) 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
JP6759898B2 (ja) * 2016-09-08 2020-09-23 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN108962284B (zh) * 2018-07-04 2021-06-08 科大讯飞股份有限公司 一种语音录制方法及装置
CN111599345B (zh) * 2020-04-03 2023-02-10 厦门快商通科技股份有限公司 语音识别算法评估方法、系统、移动终端及存储介质
US20210350819A1 (en) * 2020-05-07 2021-11-11 Netflix, Inc. Techniques for training a multitask learning model to assess perceived audio quality
CN112420079B (zh) * 2020-11-18 2022-12-06 青岛海尔科技有限公司 语音端点检测方法和装置、存储介质及电子设备
CN112908352B (zh) * 2021-03-01 2024-04-16 百果园技术(新加坡)有限公司 一种音频去噪方法、装置、电子设备及存储介质
US20230046530A1 (en) * 2021-08-03 2023-02-16 Bard College Enhanced bird feeders and baths

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
KR100711280B1 (ko) * 2002-10-11 2007-04-25 노키아 코포레이션 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
US7567900B2 (en) 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
JP4729927B2 (ja) 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
WO2007064256A2 (en) * 2005-11-30 2007-06-07 Telefonaktiebolaget Lm Ericsson (Publ) Efficient speech stream conversion
ES2525427T3 (es) 2006-02-10 2014-12-22 Telefonaktiebolaget L M Ericsson (Publ) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
US20120095760A1 (en) * 2008-12-19 2012-04-19 Ojala Pasi S Apparatus, a method and a computer program for coding
CN101841587B (zh) * 2009-03-20 2013-01-09 联芯科技有限公司 信号音检测方法和装置以及移动终端噪声抑制方法
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102693720A (zh) * 2009-10-15 2012-09-26 华为技术有限公司 一种音频信号检测方法和装置
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
EP2816560A1 (en) * 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
CN102741918B (zh) * 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
EP2702585B1 (en) * 2011-04-28 2014-12-31 Telefonaktiebolaget LM Ericsson (PUBL) Frame based audio signal classification
JP5936377B2 (ja) * 2012-02-06 2016-06-22 三菱電機株式会社 音声区間検出装置
CN109119096B (zh) * 2012-12-25 2021-01-22 中兴通讯股份有限公司 一种vad判决中当前激活音保持帧数的修正方法及装置
RU2536343C2 (ru) * 2013-04-15 2014-12-20 Открытое акционерное общество "Концерн "Созвездие" Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US10276178B2 (en) * 2013-08-30 2019-04-30 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
FI125723B (en) * 2014-07-11 2016-01-29 Suunto Oy Portable activity tracking device and associated method
CN106328169B (zh) 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置

Also Published As

Publication number Publication date
WO2016206273A1 (zh) 2016-12-29
JP2018523155A (ja) 2018-08-16
RU2684194C1 (ru) 2019-04-04
US10522170B2 (en) 2019-12-31
KR20180008647A (ko) 2018-01-24
CN106328169A (zh) 2017-01-11
US20180158470A1 (en) 2018-06-07
EP3316256A4 (en) 2018-08-22
CA2990328C (en) 2021-09-21
EP3316256A1 (en) 2018-05-02
CA2990328A1 (en) 2016-12-29
CN106328169B (zh) 2018-12-11
KR102042117B1 (ko) 2019-11-08

Similar Documents

Publication Publication Date Title
JP6635440B2 (ja) 音声区間補正フレーム数の取得方法、音声区間検出方法及び装置
JP6412132B2 (ja) 音声活動検出方法及び装置
Moattar et al. A simple but efficient real-time voice activity detection algorithm
JP6606167B2 (ja) 音声区間検出方法及び装置
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP5834088B2 (ja) 動的マイクロフォン信号ミキサ
KR101895391B1 (ko) 오디오 신호의 배경 잡음 추정
CN109119096B (zh) 一种vad判决中当前激活音保持帧数的修正方法及装置
US9374651B2 (en) Sensitivity calibration method and audio device
CN104867499A (zh) 一种用于助听器的分频段维纳滤波去噪方法和系统
CN110265058A (zh) 估计音频信号中的背景噪声
CN103813251A (zh) 一种可调节去噪程度的助听器去噪装置和方法
US9373341B2 (en) Method and system for bias corrected speech level determination
May et al. Assessment of broadband SNR estimation for hearing aid applications
US9349383B2 (en) Audio bandwidth dependent noise suppression
KR20160000680A (ko) 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
WO2023172609A1 (en) Method and audio processing system for wind noise suppression
EP2760022B1 (en) Audio bandwidth dependent noise suppression

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190521

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190919

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191203

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191210

R150 Certificate of patent or registration of utility model

Ref document number: 6635440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250