JP6606167B2 - 音声区間検出方法及び装置 - Google Patents

音声区間検出方法及び装置 Download PDF

Info

Publication number
JP6606167B2
JP6606167B2 JP2017502979A JP2017502979A JP6606167B2 JP 6606167 B2 JP6606167 B2 JP 6606167B2 JP 2017502979 A JP2017502979 A JP 2017502979A JP 2017502979 A JP2017502979 A JP 2017502979A JP 6606167 B2 JP6606167 B2 JP 6606167B2
Authority
JP
Japan
Prior art keywords
vad
noise
determination result
noise ratio
flag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017502979A
Other languages
English (en)
Other versions
JP2017521720A (ja
Inventor
ジュー,チャンバオ
ユアン,ハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2017521720A publication Critical patent/JP2017521720A/ja
Application granted granted Critical
Publication of JP6606167B2 publication Critical patent/JP6606167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、通信分野に関し、特に、音声区間検出(Voice Activity Detection、VADと略称)方法及び装置に関する。
正常な音声通話中に、ユーザは話したり聞いたりしていて、このような場合、通話中に非音声区間段階が存在し、正常な場合、通話中の両方の非音声区間段階の合計が通話両方の総音声符号化時間の50%を超える。非音声区間段階において、背景雑音のみが存在し、背景雑音の場合、通常何の有用な情報もない。当該事実を利用して、音声周波数信号の処理において、VADアルゴリズムによって音声区間と非音声区間を検出し、異なる方法でそれぞれ処理する。例えば、適応多重レートAMR(Adaptive Multiple Rate)、適応多重レート広帯域AMR−WB(Adaptive Multiple Rate−WideBand)等の現代の多くの音声符号化標準はVAD機能を支援している。効率方面から見ると、このような符号器のVADが全ての典型的な背景雑音で良好の性能を実現できるのではない。特に、非安定的な雑音ではこのような符号器のVAD効率はいずれも低い。一方、音楽信号に対して、このようなVADは誤った検出を行うこともあって、対応する処理アルゴリズムの品質を顕著に低下させてしまう。そして、既存のVAD技術には判定ミスが発生する場合もあって、例えば、一部のVAD技術が音声セグメント(voice segment)の前の幾つかのフレームでの検出が正確でないことがあれば、VADが音声セグメントの後ろの幾つかのフレームでの検出が正確でないこともある。
既存技術における上記問題について、未だに有効な解決案が提示されていない。
既存技術において既存のVAD方案の検出が正確でない等の技術課題に対し、本発明は、少なくとも上記技術課題を解決できる音声区間検出方法及び装置を提供する。
本発明の一実施例によると、第1特徴組(first feature category)中の少なくとも一つの第1種類の特徴パラメータ(first class feature)と、第2特徴組(second feature category)中の少なくとも一つの第2種類の特徴パラメータ(second class feature)と、少なくとも二つの現存のVAD判定結果(VAD judgment results)と、を取得することと、ここで、前記第1種類の特徴パラメータと前記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータであって、前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果とに基づいて、音声区間検出を行って、連合VAD判定結果を得ることと、を含むVAD方法を提供する。
前記第1種類の特徴パラメータが、連続音声区間フレームの数量(the number of continuous active frames)、全帯域平均信号対雑音比(the average total signal-to-noise ratio (SNR) of all sub-bands)、調性信号フラグ(the tonality signal flag)の中の少なくも一つを含み、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、前記第2種類の特徴パラメータは、雑音タイプフラグ(the flag of noise type)、平滑長時間平均周波数領域信号対雑音比(the smoothed average long-time frequency domain SNR)、連続雑音フレームの数量(the number of continuous noise frames)、周波数領域信号対雑音比(the frequency domain SNR)の中の少なくとも一つを含むことが好ましい。
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行うことが、a)前記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値(the initial value of combined VAD)として選択することと、b)前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップc)を実行することと、ここで、前記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、c)前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とすることと、d)予め設定された条件を満たす場合、前記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を前記連合VAD判定結果とし、そうでないと、ステップe)を実行することと、e)前記雑音タイプフラグが静音を指示すると、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果(the combined VAD judgment result)とすることと、を含むことが好ましい。
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行うことが、a)前記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択することと、b)前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップc)を実行することと、ここで、前記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、c)前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とすることと、d)予め設定された条件を満たす場合、前記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を前記連合VAD判定結果とし、そうでないと、ステップe)を実行することと、e)前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択することと、を含むことが好ましい。
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行うことが、a)前記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択することと、b)前記雑音タイプフラグが静音を指示する場合、前記平滑長時間平均周波数領域信号対雑音比が閾値を越えていて、且つ前記調性信号フラグが非調性信号を指示する場合、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択することを含み、ここで、前記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであることが好ましい。
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行うことが、a)前記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択することと、b)前記雑音タイプフラグが非静音を指示し、且つ予め設定された条件を満たす場合、前記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を前記連合VAD判定結果とすることと、を含むことが好ましい。
前記予め設定された条件が、条件1:前記全帯域平均信号対雑音比が第1の閾値を越えていること、条件2:前記全帯域平均信号対雑音比が第2の閾値を越えていて、且つ連続音声区間フレームの数量が予め設定された閾値を越えていること、条件3:前記調性信号フラグが調性信号を指示することの中の少なくとも一つを含むことが好ましい。
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行うことが、前記連続雑音フレームの数量が第1の指定閾値を越えていて、且つ前記全帯域平均信号対雑音比が第2の指定閾値未満であると、前記少なくとも二つの現存のVAD判定結果に論理AND演算を行って、演算結果を前記連合VAD検出結果とし、そうでないと、前記少なくとも二つの現存のVAD判定結果から任意の一つの現存のVAD判定結果を前記連合VAD検出結果として選択することと、を含むことが好ましい。
前記平滑長時間平均周波数領域信号対雑音比と前記雑音タイプフラグを、
現在フレームの一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は前記一つ前のフレームの連合VAD判定結果中の任意の一つのVAD判定結果、前記一つ前のフレームの第1の予め設定された時間区間での平均長時間音声区間フレームエネルギー(average energy of long-time active frames)と一つ前のフレームの長時間平均背景雑音エネルギー(average energy of long-time background noise)から、現在フレームの平均長時間音声区間フレームエネルギーと前記現在フレームの長時間平均背景雑音エネルギーを計算し、
前記現在フレームの第2の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、前記現在フレームの前記第2の時間区間での長時間信号対雑音比(the long-time SNR)を計算し、
前記一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は前記現在フレームの前記連合VAD判定結果中の任意の一つのVAD判定結果、前記一つ前のフレームの平均周波数領域信号対雑音比から、前記現在フレームの第3の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する方式で確定することが好ましい。
前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定することが、
雑音タイプを非静音に設定し、前記長時間信号対雑音比が第1の予め設定された閾値を越えていて、且つ前記平滑長時間平均周波数領域信号対雑音比が第2の予め設定された閾値を越えている場合、前記雑音タイプフラグを静音に設定することを含むことが好ましい。
本発明の他の一実施例によると、第1特徴組中の少なくとも一つの第1種類の特徴パラメータと、第2特徴組中の少なくとも一つの第2種類の特徴パラメータと、少なくとも二つの現存のVAD判定結果とを取得するように構成される取得手段と、ここで、前記第1種類の特徴パラメータと前記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータであって、前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果に基づいて、音声区間検出を行って、連合VAD判定結果を得るように構成される検出手段と、を含む音声区間検出VAD装置を提供する。
前記取得手段が、連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つの前記第1種類の特徴パラメータを取得するように構成される第1の取得ユニットと、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つの前記第2種類の特徴パラメータを取得するように構成される第2の取得ユニットと、を含むことが好ましい。
本発明によると、第1特徴組中の第1種類の特徴パラメータ、第2特徴組中の第2種類の特徴パラメータ及び少なくとも二つの現存のVAD判定結果に基づいて連合検出を行う技術手段を用いて、既存技術においてVAD方案の検出が正確でない等の技術課題を解決し、VADの正確性を向上させ、ユーザ体験を高めることができる。
ここで説明する図面は本発明を一層理解させるためのもので、本願の一部を構成し、本発明に示す実施例及びその説明は本発明を解釈するもので、本発明を限定するものではない。
本発明の実施例に係るVAD方法を示すフローチャートである。 本発明の実施例に係るVAD装置の構造を示すブロック図である。 本発明の実施例に係るVAD装置の他の構造を示すブロック図である。 本発明の実施例1に係るVAD方法を示すフローチャートである。
以下、図面を参照しつつ実施例を結合して、本発明を詳しく説明する。尚、矛盾しない限り、本願の実施例及び実施例中の特徴は互いに組合せられる。
VAD検出が正確でない問題を解決するため、以下の実施例で対応する解決案を提示し、以下詳しく説明する。
図1は本発明の実施例に係るVAD方法を示すフローチャートである。図1に示すように、該方法はステップS102〜S104を含む。
第1特徴組(first feature category)(特徴群(feature category)1とも呼ばれる)中の少なくとも一つの第1種類の特徴パラメータと、第2特徴組(second feature category)(特徴群(feature category)2とも呼ばれる)中の少なくとも一つの第2種類の特徴パラメータと、少なくとも二つの現存のVAD判定結果と、を取得し(ステップS102)、ここで、上記第1種類の特徴パラメータと上記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータである。
第1種類の特徴パラメータと、第2種類の特徴パラメータと、上記少なくとも二つの現存の音声区間検出判定結果に基づいて、音声区間検出を行って、連合VAD判定結果を得る(ステップS104)。
上記各処理ステップによると、第1特徴組と第2特徴組中の少なくとも一つのパラメータと少なくとも二つの現存のVAD判定結果に基づいてVADの連合検出を行うことができるので、VADの正確性を向上させることができる。
本実施例において、第1種類の特徴パラメータは、連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つを含み、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値である。
第2種類の特徴パラメータは、雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つを含む。ここで、平滑長時間平均周波数領域信号対雑音比は、所定の時間内(長時間)の複数の周波数領域信号対雑音比の平均値をとって、且つ平滑化処理を行った後に得た周波数領域信号対雑音比と理解することができる。
ステップS104の実現方式はさまざまであって、例えば以下の方式で実現することができる:
以下の幾つかの実現方式に記載の判定終了は、ある一つの実現方式のプロセスを終了したことを指し、そのプロセスを終了した後は連合VAD判定結果を修正しないことを指すのではない。
第1種類の実現方式:以下のステップで実行する:
a)上記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択し、
b)上記雑音タイプフラグが静音を指示し、且つ上記周波数領域信号対雑音比が予め設定された閾値を越えていて、上記初期値が非音声区間フレームである場合、上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択し、そうでないと、ステップc)を実行し、ここで、上記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示し、
c)上記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とし、
d)予め設定された条件を満たす場合、上記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を上記連合VAD判定結果とし、そうでないと、ステップe)を実行し、
e)上記雑音タイプフラグが静音を指示する場合、上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択する。
第2種類の実現方式
a)上記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択し、
b)上記雑音タイプフラグが静音を指示し、且つ上記周波数領域信号対雑音比が予め設定された閾値を越えていて、上記初期値が非音声区間フレームである場合、上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択し、そうでないと、ステップc)を実行し、ここで、上記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示し、
c)上記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した上記VAD判定結果を上記連合VAD判定結果とし、
d)予め設定された条件を満たす場合、上記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を上記連合VAD判定結果とし、そうでないと、ステップe)を実行し、
e)上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択する。
第3種類の実現方式
上記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択し、
上記雑音タイプフラグが静音を指示する場合、上記平滑長時間平均周波数領域信号対雑音比が閾値を越えていて、且つ上記調性信号フラグが非調性信号を指示すると、上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択し、ここで、上記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示する。
第4種類の実現方式
a)上記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択し、
b)上記雑音タイプフラグが非静音を指示し、且つ予め設定された条件を満たす場合、上記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を上記連合VAD判定結果とする。
尚、第1種類の実現方式、第2種類の実現方式、第種類の実現方式に記載の予め設定された条件は、以下の中の少なくとも一つを含む:
条件1:上記全帯域平均信号対雑音比が第1の閾値を越えること、
条件2:上記全帯域平均信号対雑音比が第2の閾値を越えていて、且つ連続音声区間フレームの数量が予め設定された閾値を越えていること、
条件3:上記調性信号フラグが調性信号を指示すること。
尚、第3種類の実現方式と第4種類の実現方式とを結合することができる。
第5種類の実現方式
上記連続雑音フレームの数量が第1の指定閾値を越えていて、且つ上記全帯域平均信号対雑音比が第2の指定閾値未満であると、上記少なくとも二つの現存のVAD判定結果に論理AND演算を行って、演算結果を上記連合VAD検出結果とし、そうでないと、上記少なくとも二つの現存のVAD判定結果から任意の一つの現存のVAD判定結果を上記連合VAD検出結果として選択する。
尚、第5種類の実現方式と前の四つの実現方式とを結合することができる。
本実施例の一好適な実施例において、上記平滑長時間平均周波数領域信号対雑音比と上記雑音タイプフラグは以下の方式で確定される:
現在フレームの一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は上記一つ前のフレームの連合VAD判定結果中の任意の一つのVAD判定結果、上記一つ前のフレームの第1の予め設定された時間区間での平均長時間音声区間フレームエネルギーと一つ前のフレームの長時間平均背景雑音エネルギーから、現在フレームの長時間平均音声区間フレームエネルギーと上記現在フレームの長時間平均背景雑音エネルギーを計算し、
上記現在フレームの第2の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、上記現在フレームの上記第2の時間区間での長時間信号対雑音比を計算し、
上記一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は上記現在フレームの上記連合VAD判定結果中の任意の一つのVAD判定結果、上記一つ前のフレームの平均周波数領域信号対雑音比から、上記現在フレームの第3の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
上記長時間信号対雑音比と上記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する。尚、平滑長時間平均周波数領域信号対雑音比は、予め設定された時間区間での平均周波数領域信号対雑音比に平滑化処理を行って得たものである。
雑音タイプフラグの判定について、一好適な実施形態において以下のような形態であることができるが、これに限定されることはない:
雑音タイプを非静音に設定し、上記長時間信号対雑音比が第1の予め設定された閾値を越えていて、且つ上記平滑長時間平均周波数領域信号対雑音比が第2の予め設定された閾値を越えている場合、上記雑音タイプフラグを静音に設定する。
一好適な実施形態において、上記連続音声区間フレームの数量と上記連続雑音フレームの数量を以下の方式で確定することができる:
上記現在フレームが非初期化フレームである場合、上記現在フレームの一つ前のフレームの連合VAD判定結果から、上記現在フレームの連続音声区間フレームの数量と連続雑音フレームの数量を計算し、又は、
上記現在フレームが非初期化フレームである場合、上記一つ前のフレームの少なくとも二つの現存のVAD判定結果と上記一つ前のフレームの連合VAD判定結果から一つのVAD判定結果を選択し、現在選択された上記VAD判定結果から、上記現在フレームの連続音声区間フレームの数量と連続雑音フレームの数量を計算する。
本実施例の一好適な実施形態において、上記連続音声区間フレームの数量と連続雑音フレームの数量を以下の方式で確定する:
上記一つ前のフレームの連合VAD判定結果を指示する又は現在選択された上記VAD判定結果を指示するVADフラグが音声区間フレームを指示する場合、連続音声区間フレームの数量を1加算し、そうでないと、連続音声区間フレームの数量を0に設定し、上記一つ前のフレームの連合VAD判定結果を指示する又は現在選択された上記VAD判定結果を指示するVADフラグが非音声区間フレームを指示する場合、連続雑音フレームの数量を1加算し、そうでないと、連続雑音フレームの数量を0に設定する。
本実施例において、さらにVAD装置を提供し、図2に示すように、該装置は、
第1特徴組中の少なくとも一つの第1種類の特徴パラメータと、第2特徴組中の少なくとも一つの第2種類の特徴パラメータと、少なくとも二つの現存のVAD判定結果とを取得する取得手段20と、ここで、上記第1種類の特徴パラメータと上記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータであって、
取得手段20に接続されて、上記第1種類の特徴パラメータと、上記第2種類の特徴パラメータと、上記少なくとも二つの現存の音声区間検出判定結果とに基づいて、音声区間検出を行って、連合VAD判定結果を得る検出手段22と、を含む。
一好適な実施例において、図3に示すように、取得手段20はさらに、
連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つの第1種類の特徴パラメータを取得するように構成される第1の取得ユニット200と、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つの第2種類の特徴パラメータを取得するように構成される第2の取得ユニット202と、を含む。
尚、本実施例に記載の上記各手段をソフトウェア又はハードウェアで実現することができ、ハードウェアで実現する場合、一好適な実施形態において、取得手段20が第1のプロセッサに位置し、検出手段22が第2のプロセッサ中に位置する方式、又は上記二つの手段を同一のプロセッサに設ける方式で実現することができるが、これに限定されることはない。
上記実施例を一層理解するように、以下、好適な実施例を結合して詳しく説明する。
以下の実施例に記載のOR演算とAND演算は以下のように定義する:
二つのVAD中の任意の一つのVAD出力フラグが音声区間フレームであると、二つのVADのOR演算ORの結果は音声区間フレームであって、二つが共に非音声区間フレームである場合、OR演算ORの結果は非音声区間フレームであって、
二つのVAD中の任意の一つのVAD出力フラグが非音声区間フレームであると、二つのVADのAND演算ANDの結果は非音声区間フレームであって、二つが共に音声区間フレームである場合、AND演算ANDの結果は音声区間フレームであって、
ここで、以下の実施例に記載のVADがどのVADであると明記されていないと、二つの現存のVAD、又は連合VAD、又は対応する機能を実現可能な他のVADであることを表す。
以下の幾つかの実現方式に記載の判定終了は、ある一つの実現方式のプロセスを終了したことを指し、そのプロセスを終了した後は連合VAD判定結果を修正しないことを指すのではない。
実施例1
本実施例においてVAD方法を提供し、図4に示すように、該方法は以下のステップを含む:
現存の二つのVADの出力結果を取得する(ステップS402)。
現在フレームのサブバンド信号及びスペクトル振幅値を取得する(ステップS404)。
本発明の実施例において、フレームの長さが20msで、サンプリング率が32kHzであるオーディオストリームを例に具体的に説明する。その他のフレーム長さとサンプリング率の条件でも本発明の実施例で提供する音声区間連合検出方法を応用できる。
現在フレームの時間領域信号をフィルタ組ユニットに入力して、サブバンドフィルタ計算を行って、フィルタ組サブバンド信号を得る。
本実施例において、40通路のフィルタ組を利用するが、本発明の実施例で提供する技術案は他の通路数のフィルタ組にも適用する。
現在フレームの時間領域信号を40通路のフィルタ組に入力し、サブバンドフィルタ計算を行って、16個の時間サンプル点上の40個のサブバンドのフィルタ組サブバンド信号X[k、l]を得て、0≦k<40、0≦l<16であって、ここでkはフィルタ組サブバンドのインテックスで、その値は係数に対応するサブバンドを表し、lは各サブバンドの時間サンプル点のインテックスであって、以下のステップによって実現する:
1:最近の640個のオーディオ信号サンプル値をデータバッファに記憶する。
2:データバッファ中のデータを40個ビット遷移し、最初の40個のサンプル値をデータバッファから除去し、40個の新しいサンプル点を0から39の位置に記憶する。
バッファ中のデータxにウィンドウ係数(Window Coefficient)を掛け算して、数値組zを得て、計算式は、
z[n]=x[n]・Wqmf[n];0≦n<640であって、
ここで、Wqmf はフィルタ組ウィンドウ係数である。
以下の擬似コードを用いて計算して一つの80点のデータuを得る。
for(n=0;n<80;n++)
{ u[n]=0;
for(j=0;j<8;j++)
{
u[n]+=z[n+j・80];
}
}
以下の方程式で計算して数値組rとiを得る:
Figure 0006606167
以下の方程式で計算して一番目の時間サンプル点上の40個の複素数のサブバンドサンプル値を得て、X[k、l]=R(k)+iI(k),0≦k<40、ここで、R(k)とI(k)はそれぞれ、フィルタ組サブバンド信号Xの第l個の時間サンプル点上の係数の実数部と虚数部であって、その計算式は、
Figure 0006606167
である。
3:本フレームの全てのデータをフィルタ組によってフィルタ処理するまで、2の計算プロセスを重複して、最後の出力結果がフィルタ組サブバンド信号X[k、l]である。
4:上記計算プロセスを完成した後、40個のサブバンドの16個の時間サンプル点のフィルタ組サブバンド信号X[k、l]を得て、ここで0≦k<40、0≦l<16、である。
その後、フィルタ組サブバンド信号に時間周波数変換を行って、計算してスペクトル振幅値を得る。
ここで、フィルタ組サブバンドの全部又はフィルタ組サブバンドの一部に時間周波数変換を行ってスペクトル振幅値を計算すると、いずれも本発明の実施例を実現することができる。本発明の実施例に記載の時間周波数変換方法は、離散フーリエ変換DFT(Discrete Fourier Transform)、高速フーリエ変換FFT(Fast Fourier Transformation)、離散コサイン変換DCT(Discrete Cosine Transform)又は離散サイン変換DST(Discrete Sine Transform)であることができる。本発明の実施例においてはDFTを例にしてその実現方法を具体的に説明する。計算プロセスは以下のとおりである:
インテックスが0から9である各フィルタ組サブバンド上の16個の時間サンプル点データに16点のDFT変換を行って、スペクトルの解像度を一層向上させ、また、各周波数点の振幅値を計算して、スペクトル振幅値XDEF_AMPを得る。
時間周波数変換計算式は、
Figure 0006606167
である。
各周波数点の振幅値は以下のように計算する:
まず、数値組XDFT [k,j]の各点上のエネルギーを計算し、計算式は、
Figure 0006606167
であって、ここで、Re(XDFT[k,j])、Im(XDFT[k,j])、はそれぞれ、スペクトル係数XDFT[k,j]の実数部と虚数部を表す。
kが偶数であると、以下の方程式で各周波数点上のスペクトル振幅値を計算する:
Figure 0006606167
kが奇数であると、以下の方程式で各周波数点上のスペクトル振幅値を計算する:
Figure 0006606167
DFT_AMPは時間周波数変換後のスペクトル振幅値である。
フレームエネルギーパラメータは、各サブバンド信号エネルギーを重み付けして積算した値又は直接に積算した値である(ステップS406)。
サブバンド信号から計算して現在フレームのフレームエネルギーパラメータを得て、具体的には、
sb_power[k]=
Figure 0006606167
0<=k<band_numである。
一定のサブバンド内でエネルギーsb_powerを積算すると、フレームエネルギー2を得ることができる:
Frame_energy2=
Figure 0006606167
フレームエネルギー1はframe_energy=frame_energy2+fac*sb_power[0]である。
サブバンドを区画すると、信号対雑音比サブバンドを得ることができ、各サブバンド内のエネルギーを積算すると、現在フレームの信号対雑音比サブバンドエネルギーframe_sb_energyを得ることができる:
frame_sb_energy[i]=
Figure 0006606167
背景雑音フラグの修正値と現在フレームのフレームエネルギーパラメータ、一つ前のフレームの全帯域背景雑音エネルギーから、サブバンド背景雑音エネルギーと全帯域背景雑音エネルギーを含む現在フレームの背景雑音エネルギーを推定する。背景雑音フラグの計算についてはステップS430を参照できる。
スペクトル重心特徴パラメータは、全部又は一部のサブバンド信号エネルギーの重み付けして積算した値と重み付けせずに積算した値の比であって、又はその比を平滑化フィルタ処理して得た値である(ステップS408)。スペクトル重心特徴パラメータは以下のステップで実現できる:
スペクトル重心特徴パラメータの計算に用いられるサブバンド区間を以下のように区画する:
Figure 0006606167
aのスペクトル重心特徴パラメータ計算区間区画方式と以下の式を用いて、計算して、二つのスペクトル重心特徴パラメータ値を得て、それぞれ、第1の区間スペクトル重心特徴パラメータと第2の区間スペクトル重心特徴パラメータである。
Figure 0006606167
第2の区間スペクトル重心特徴パラメータsp_center[2]に平滑化フィルタ演算を行って、平滑スペクトル重心特徴パラメータ値である第2の区間スペクトル重心特徴パラメータ値の平滑化フィルタ値:sp_center[0]=fac*sp_center[0]+(1−fac)*sp_center[2]を得た。
時間領域安定性特徴パラメータは、振幅値積算値の分散と振幅値積算値平方と所望の比であって、又はその比に一つの係数を掛け算したものである。最も新しいNフレーム信号のフレームエネルギーパラメータから、時間領域安定性特徴パラメータを計算する(ステップS410)。第nフレームのフレームエネルギーframe_energyがframe_energy[n]であるとすると、その振幅値は
Figure 0006606167
であって、ここで、e_offsetは一つのオフセット値であって、その範囲は[0,0.1]である。
現在フレームから前の第Nフレームまでの隣接する二つのフレームのエネルギー振幅値を加算し、N/2個の振幅値積算値を得る:
Ampt2(n)=Ampt1(−2n)+Ampt1(−2n−1);0≦n<20;
ここで、n=0である場合、Ampt1[n]は、現在フレームのエネルギー振幅値を示し、n<0である場合、Ampt1[n]は現在フレームから前のnフレームのエネルギー振幅値を示す。
最も接近するN/2個の振幅値積算値の分散と平均エネルギーの比を計算して、時間領域安定性特徴パラメータltd_stable_rateを得る。その計算方程式は、
Figure 0006606167
である。
Nが異なる値であると、異なる時間領域の安定性を計算することができる。
調性特徴パラメータは、前後の二つのフレーム信号のフレーム内のスペクトル差分係数の関連値を計算して得られるものであって、又は継続して該関連値に平滑化フィルタ処理を行って得られるものである。調性特徴パラメータをスペクトル振幅値を利用して計算する(ステップS412)。その計算ステップは以下のようである:
a)隣接するスペクトル振幅値に差分演算を行って、差分結果が0未満である値を0にセットして、1組の負ではないスペクトル差分係数spec_low_dif[]を得る。
b)ステップaで算出した現在フレームの負ではないスペクトル差分係数と一つ前のフレームの負ではないスペクトル差分係数の関連係数を求めて、第1の調性特徴パラメータ値を得る。その計算方程式は、
Figure 0006606167
である。
ここで、pre_spec_low_difは、一つ前のフレームのスペクトル差分係数である。以下の式で各種類の調性特徴パラメータを計算することができる:
f_tonality_rate[0]=f_tonality_rate;
f_tonality_rate[1]=pre_f_tonality_rate[1]*0.96f+f_tonality_rate*0.04f;
f_tonality_rate[2]=pre_f_tonality_rate[2]*0.90f+f_tonality_rate*0.1f;
ここで、pre_f_tonality_rateは、一つ前のフレームの調性特徴パラメータである。
スペクトル平坦度特徴パラメータは、一部のスペクトル振幅値の幾何平均数と算術平均数の比であって、又はその比に一つの係数を掛け算したものである。スペクトル振幅値spec_amp[]に平滑化処理を行って、平滑化後の振幅スペクトル:smooth_spec_amp[i]=smooth_spec_amp[i]*fac+spec_amp[i]*(1−fac)を得て、ここで、0<=i<SPEC_AMP_NUMであって、平滑化した振幅スペクトルを三つのバンドに区画し、当該三つのバンドのスペクトル平坦度特徴を計算する(ステップS414)。表にスペクトル平坦度バンド区画を示す。
Figure 0006606167
スペクトル平坦度は、スペクトル振幅又は平滑スペクトル振幅の幾何平均数geo_mean[k]と算数平均数ari_mean[k]の比である。N[k]=spec_amp_end[k]−spec_amp_start[k]+1が、スペクトル平坦度SFF[k]を計算する振幅スペクトルの数量であるとする。
Figure 0006606167
Figure 0006606167
SFF[k]=geo_mean[k]/ari_mean[k]
現在フレームのスペクトル平坦度にさらに平滑化処理を行って、平滑化後のスペクトル平坦度sSFM[k]=fac*sSFM[k]+(1−fac)SFF[k]を得る。
一つ前のフレームの推定した背景雑音エネルギー、現在フレームのフレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーから、現在フレームの信号対雑音比パラメータを計算する(ステップS416)。周波数領域信号対雑音比の計算ステップは以下のようである:
一つ前のフレームの背景雑音フラグが1である場合、サブバンド背景雑音エネルギーを更新し、更新用の擬似コードは、
sb_bg_energy[i]=sb_bg_energy[i]*0.90f+frame_sb_energy[i]*0.1fである。
現在フレームのサブバンドエネルギーと一つ前のフレームの推定したサブバンド背景雑音エネルギーから、各サブバンドの信号対雑音比を計算し、各サブバンドの信号対雑音比が一定の閾値未満であると0にセットし、具体的には、
snr_sub[i]=log2((frame_sb_energy[i]+0.0001f)/(sb_bg_energy[i]+0.0001f))で、snr_sub[i]が−0.1未満であると、0にセットする。
全てのサブバンドの信号対雑音比の平均値が周波数領域信号対雑音比snrである。具体的には、
Figure 0006606167
である。
長時間平滑周波数領域信号対雑音比と長時間信号対雑音比lt_snr_orgに基づいて、雑音タイプフラグを取得する(ステップS418)。
長時間信号対雑音比は、平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーの比率である。一つ前のフレームのVADフラグに基づいて、平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーを更新し、VADフラグが非音声区間フレームである場合、長時間平均背景雑音エネルギーを更新し、VADフラグが音声区間フレームである場合、平均長時間音声区間フレームエネルギーを更新し、具体的には、
平均長時間音声区間フレームエネルギー:lt_active_eng=fg_energy/fg_energy_countで、
長時間平均背景雑音エネルギー:lt_inactive_eng=bg_energy/bg_energy_countであって、
ここで、
Figure 0006606167
で、iは音声区間フレームインテックス値である。
Figure 0006606167
で、jは非音声区間フレームインテックス値である。
長時間信号対雑音比:lt_snr_org=log10(lt_active_eng/lt_inactive_eng)で、
雑音タイプの初期値を非静音に設定し、lf_snr_smoothが設定された閾値THR1を越えていて、且つlt_snr_orgが設定された閾値THR2を越えている場合、雑音タイプを静音に設定する。
ここで、lf_snr_smoothの計算プロセスはステップS420を参照できる。
ステップS418に記載のVADの選択は二つのVAD中の一つのVADを選択することであるが、二つのVAD中の一つのVADを選択することに限定されず、連合VADを選択することもできる。
以下の方法で平滑長時間平均周波数領域信号対雑音比lf_snr_smoothを計算する(ステップS420)。
lf_snr_smooth=lf_snr_smooth*fac+(1−fac)*l_snr;
ここで、l_snr=l_speech_snr/l_speech_snr_count−l_silence_snr/l_silence_snr_countで、
ここで、l_speech_snrとl_speech_snr_countは、音声区間フレーム周波数領域信号対雑音比のアキュムレータとカウンターで、l_silence_snrとl_silence_snr_countは、非音声区間フレーム周波数領域信号対雑音比のアキュムレータとカウンターである。現在フレームが初期フレームである場合、初期化を行う:
l_silence_snr=0.5f;
l_speech_snr=5.0f;
l_silence_snr_count=1;
l_speech_snr_count=1;
現在フレームが初期フレームではない場合、あるVAD判定フラグに基づいて、以上の四つのパラメータを更新する。VADフラグが現在が非音声区間フレームであることを指示する場合、以下の方式で更新する:
l_silence_snr=l_silence_snr+snr;
l_silence_snr_count=l_silence_snr_count+1。
VADフラグが現在フレームが音声区間フレームであることを指示する場合、
l_speech_snr=l_speech_snr+snr;
l_speech_snr_count=l_speech_snr_count+1である。
ステップS420に記載のVADの選択は二つのVAD中の一つのVADを選択することであるが、二つのVAD中の一つのVADを選択することに限定されず、連合VADを選択することもできる。
第1フレームである場合、連続雑音フレームの数量を一つの初期値に設定し、本実施例においては0に設定する。第2フレーム及びその以降のフレームである場合、VADによって非音声区間フレームであると判定された場合、連続雑音フレームの数量を1加算し、そうでないと、連続雑音フレームの数量を0に設定する(ステップS422)。
ステップS422に記載のVADの選択は二つのVAD中の一つのVADを選択することであるが、二つのVAD中の一つのVADを選択することに限定されず、連合VADを選択することもできる。
現在フレームのフレームエネルギーパラメータ、調性特徴パラメータf_tonality_rate、時間領域安定性特徴パラメータltd_stable_rate、スペクトル平坦度特徴パラメータsSFM、スペクトル重心特徴パラメータsp_centerから、現在フレームの調性フラグを計算し、現在フレームが調性信号であるか否かを判定する。調性信号であると判定された場合、音楽フレームであると認める(ステップS424)。以下の操作を実行する:
a)現在フレームの信号が非調性信号であって、一つの調性フレームフラグmusic_background_frameで現在フレームが調性フレームであるか否かを指示すると仮説する。music_background_frameの値が1であると、現在フレームが調性フレームであることを示す、0であると、現在フレームが非調性フレームであることを示し、
b)調性特徴パラメータf_tonality_rate[0]又はその平滑化フィルタ後f_tonality_rate[1]の値が対応する設定された閾値を越えるか否かを判定し、上記条件中の少なくとも一つが成立すると、ステップc)を実行し、そうでないと、ステップd)を実行し、
c)時間領域安定性特徴パラメータ値ltd_stable_rate[5]が設定された閾値未満であって、スペクトル重心特徴パラメータ値sp_center[0]が設定された閾値を超えていて、且つ三つのスペクトル平坦度中の一つが対応する閾値未満であると、現在フレームが調性フレームであると判定し、調性フレームフラグmusic_background_frameの値を1に設定し、継続してステップd)を実行し、
d)調性フレームフラグmusic_background_frameに基づいて、調性程度特徴パラメータmusic_background_rateを更新し、ここで、調性程度パラメータmusic_background_rateの初期値は音声区間検出装置が動作を開始する際に設定され、その範囲は[0,1]であって、
現在の調性フレームフラグが、現在フレームが調性フレームであることを指示すると、以下の方程式で調性程度特徴パラメータmusic_background_rateを更新する:
music_background_rate=music_background_rate*fac+(1−fac)。
現在フレームが調性フレームではないと、以下の式でmusic_background_rateを更新する:
music_background_rate=music_background_rate*fac。
e)更新後の調性程度特徴パラメータmusic_background_rateに基づいて、現在フレームが調性信号であるか否かを判定し、調性フラグmusic_backgound_fの値を設定し、
調性程度特徴パラメータmusic_background_rateがある設定された閾値を越えていると、現在フレームが調性信号であると判定し、そうでないと、現在フレームが非調性信号であると判定する。
全帯域平均信号対雑音比は、幾つかのフレームの全帯域信号対雑音比の平均値である。以下の方法で計算する(ステップS426)。
一つ前のフレームの背景雑音フラグが1である場合、現在フレームのエネルギーを全帯域背景雑音エネルギーのアキュムレータt_bg_energy_sumに積算し、全帯域背景雑音エネルギーのカウンターtbg_energy_countの値に1を加算する;
全帯域背景雑音エネルギーt_bg_energy=t_bg_energy_sum/tbg_energy_countである。
現在フレームのフレームエネルギーから、現在フレームの全帯域信号対雑音比を計算する:
tsnr=log2(frame_energy+0.0001f)/(t_bg_energy+0.0001f);
幾つかのフレームの全帯域信号対雑音比の平均をとって、全帯域平均信号対雑音比を得る。
Figure 0006606167
ここで、Nは最も接近するNフレームで、tsnr[i]は第iフレームのtsnrを示す。
連続音声区間フレームの数量は、第1フレームの場合に初期値に設定する。本実施例において0に設定する。現在フレームが第2フレーム及び第2フレーム以降の音声フレームである場合、VAD判定結果から、現在の連続音声区間フレームの数量を計算し(ステップS428)、具体的には、
VADフラグが1である場合、連続音声区間フレームの数量に1を加算し、そうでないと、連続音声区間フレームの数量を0に設定する。
ステップS428に記載のVADの選択は二つのVAD中の一つのVADを選択することであるが、二つのVAD中の一つのVADを選択することに限定されず、連合VADを選択することもできる。
現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータから、現在フレームの初期背景雑音フラグを計算し、現在フレームのVAD判定結果、調性特徴パラメータ、信号対雑音比パラメータ、調性フラグ、時間領域安定性特徴パラメータに基づいて、初期背景雑音フラグを修正して、最終的な背景雑音フラグを得て、背景雑音フラグに基づいて背景雑音検出を行う(ステップS430)。
背景雑音フラグは、背景雑音エネルギーの更新を行うか否かを指示するもので、その値は1又は0であって、1である場合、背景雑音エネルギーの更新を行い、0である場合は背景雑音エネルギーの更新を行わない。
まず、現在フレームが背景雑音フレームであるとすると、以下のいずれかの条件が成立する場合、現在フレームが雑音信号ではないと判定する:
a)、時間領域安定性パラメータltd_stable_rate[5]が設定された閾値を越えていて、その閾値範囲は0.05〜0.30である。
b)、スペクトル重心sp_center[0]と時間領域安定性ltd_stable_rate[5]がそれぞれ対応する閾値を越えていて、sp_center[0]とltd_stable_rate[5]の閾値範囲はそれぞれ、2〜6、0.001〜0.1である。
c)、調性特徴パラメータf_tonality_rate[1]と時間領域安定性ltd_stable_rate[5]がそれぞれ対応する閾値を越えていて、f_tonality_rate[1]とltd_stable_rate[5]の閾値範囲はそれぞれ0.4〜0.6、0.05〜0.15である。
d)、各サブバンドのスペクトル平坦度特徴パラメータ又はそれぞれの平滑化フィルタ後の値がいずれもそれぞれに対応する設定された閾値未満であって、その閾値範囲は0.70〜0.92である。
e)、現在フレームのエネルギーframe_energyが設定された閾値を越えていて、その閾値範囲は50〜500であって、又は長時間平均エネルギーによって動的閾値を設定する。
f)、調性特徴パラメータf_tonality_rateが対応する閾値を越えている。
g)、a)〜f)ステップによって、初期背景雑音フラグを得て、その後、初期背景雑音フラグを修正し、信号対雑音比パラメータ、調性特徴パラメータ、時間領域安定性特徴パラメータが対応する閾値未満であって、同時にvad_flagとmusic_backgound_fが0に設定されると、背景雑音フラグを1に更新する。
ステップS430に記載のVADの選択は二つのVAD中の一つのVADを選択することであるが、二つのVAD中の一つのVADを選択することに限定されず、連合VADを選択することもできる。
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る(ステップS432)。
現存の二つのVADがVAD_AとVAD_Bであって、出力フラグがvada_flagとvadb_flagであって、連合VADの出力フラグがvad_flagで、VADフラグが0であると非音声区間フレームを示し、1であると音声区間フレームを示すと仮設する。具体的に以下のように判定する:
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であって、且つ周波数領域信号対雑音比が設定された閾値である例えば0.2を超えていて、且つ連合VADの初期値vad_flagが0であると、vada_flagを連合VADの出力として選択し、判定を終了し、そうでないと、ステップc)を実行する。
平滑長時間平均周波数領域信号対雑音比が設定された閾値である例えば10.5未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択したvad_flag初期値を連合VAD判定結果とし、
以下の条件の中のいずれかを満たす場合、二つのVADの論理OR演算結果を連合VADの出力として選択し、判定を終了し、そうでないと、ステップe)を実行し、
条件1:全帯域平均信号対雑音比が閾値1、例えば2.2を超えている;
条件2:全帯域平均信号対雑音比が閾値2、例えば1.5を超えていて、且つ連続音声区間フレームの数量が閾値、例えば40を越えている;
条件3:調性信号フラグが1である;
雑音タイプが静音であると、vada_flagを連合VADの出力として選択し、判定を終了する。
実施例2:
実施例1のステップS432において、以下の方式で実施することもできる:
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る。
現存の二つのVADがVAD_AとVAD_Bであって、出力フラグがvada_flagとvadb_flagであって、連合VADの出力フラグがvad_flagで、VADフラグが0であると非音声区間フレームを示し、1であると音声区間フレームを示すと仮設する。具体的に以下のように判定する:
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であって、且つ周波数領域信号対雑音比が設定された閾値である例えば0.2を超えていて、且つ連合VADの初期値vad_flagが0であると、vada_flagを連合VADの出力として選択し、判定を終了し、そうでないと、ステップc)を実行し、
平滑長時間平均周波数領域信号対雑音比が設定された閾値未満である例えば10.5未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)中のvad_flag初期値を連合VAD判定結果とし、
以下の条件の中のいずれかを満たす場合、二つのVADの論理OR演算結果を連合VADの出力として選択し、判定を終了し、そうでないと、ステップe)を実行し、
条件1:全帯域平均信号対雑音比が閾値1、例えば2.0を超えている;
条件2:全帯域平均信号対雑音比が閾値2、例えば1.5を超えていて、且つ連続音声区間フレームの数量が閾値、例えば30を越えている;
条件3:調性信号フラグが1である;
vada_flagを連合VADの出力として選択し、判定を終了する。
実施例3:
実施例1ステップS432において、以下の方式で実施することもできる:
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る。
現存の二つのVADがVAD_AとVAD_Bであって、出力フラグがvada_flagとvadb_flagであって、連合VADの出力フラグがvad_flagで、VADフラグが0であると非音声区間フレームを示し、1であると音声区間フレームを示すと仮設する。具体的に以下のように判定する:
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であると、ステップc)を実行し、そうでないと、ステップd)を実行し、
平滑長時間周波数領域信号対雑音比が12.5を超えていて、且つmusic_backgound_fが0であると、vad_flagをvada_flagに設定し、そうでないと、ステップa)にて選択したvad_flag初期値を連合VAD判定結果とし、
全帯域平均信号対雑音比が2.0を超えていると、又は全帯域平均信号対雑音比が1.5を超えていて、且つ連続音声区間フレームの数量が30を超えていると、又は調性信号フラグが1であると、二つのVADの論理OR演算OR(vada_flag, vadb_flag)を連合VADの出力として選択し、そうでないと、ステップa)にて選択したvad_flag初期値を連合VAD判定結果とする。
実施例4:
実施例1のステップS432において、以下の方式で実施することもできる:
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る。
現存の二つのVADがVAD_AとVAD_Bであって、出力フラグがvada_flagとvadb_flagであって、連合VADの出力フラグがvad_flagで、VADフラグが0であると非音声区間フレームを示し、1であると音声区間フレームを示すと仮設する。具体的に以下のように判定する:
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であると、ステップc)を実行し、そうでないと、ステップd)を実行し、
平滑長時間平均周波数領域信号対雑音比が12.5を超えていて、且つmusic_backgound_fが0であると、vad_flagをvada_flagに設定し、そうでないと、ステップe)を実行し、
全帯域平均信号対雑音比が1.5を超えていると、又は全帯域平均信号対雑音比が1.0を超えていて、且つ連続音声区間フレームの数量が30を超えていると、又は調性信号フラグが1であると、二つのVADの論理OR演算OR(vada_flag,vadb_flag)を連合VADの出力として選択し、そうでないと、ステップe)を実行し、
連続雑音フレームの数量が10を超えていて、且つ全帯域平均信号対雑音比が0.1未満であると、二つの現存のVAD出力フラグのAND演算AND(vada_flag,vadb_flag)を連合VADの出力として選択し、そうでないと、vadb_flagを連合VADの出力として選択する。
実施例5:
実施例1のステップS432において、以下の方式で実施することもできる:
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る。
現存の二つのVADがVAD_AとVAD_Bであって、出力フラグがvada_flagとvadb_flagであって、連合VADの出力フラグがvad_flagで、VADフラグが0であると非音声区間フレームを示し、1であると音声区間フレームを示すと仮設する。具体的に以下のように判定する:
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であると、ステップc)を実行し、そうでないと、ステップd)を実行し、
music_backgound_fが0であると、二つのVADの論理OR演算OR(vada_flag,vadb_flag)を連合VADの出力として選択し、そうでないと、vada_flagを連合VADの出力として選択し、
全帯域平均信号対雑音比が2.0を超えていると、又は全帯域平均信号対雑音比が1.5を超えていて、且つ連続音声区間フレームの数量が30を超えていると、又は調性信号フラグが1であると、二つのVADの論理OR演算OR(vada_flag,vadb_flag)を連合VADの出力として選択し、そうでないと、ステップa)にて選択したvad_flag初期値を連合VAD判定結果とする。
他の実施例において、上記実施例及び好適な実施形態に記載の技術案を実行するためのソフトウェアをさらに提供する。
他の実施例において、上記ソフトウェアが記憶される記憶媒体をさらに提供し、該記憶媒体は、光ディスク、フロッピー(登録商標)ディスク、ハードディスク、書き込み・消去可能なメモリ等を含むが、これらに限定されることはない。
上記した本発明の各手段又は各ステップを共通の計算装置によって実現することができ、単独の計算装置に集中させることができれば、複数の計算装置から構成されるネットワークに分布させることもでき、さらに計算装置が実行可能なプログラムコードによって実現することもできるので、それらを記憶装置に記憶させて計算装置によって実行することができ、場合によっては、他の順で図に示す又は説明したステップを実行することができ、又はそれぞれ集積回路手段に製作し、又はそれらの中の複数の手段又はステップを単一の集積回路手段に製作して実現できることは当業者にとって明らかなことである。このように、本発明は如何なる特定のハードウェアとソフトウェアの結合にも限定されない。
以上は、本発明の好適な実施例に過ぎず、本発明を限定するものではない。当業者であれば本発明にさまざまな修正や変形が可能である。本発明の精神や原則内での全ての修正、置換、改良などは本発明の保護範囲内に含まれる。
本発明の実施例で提供する上記技術案によると、第1特徴組中の第1種類の特徴パラメータと、第2特徴組中の第2種類の特徴パラメータと、少なくとも二つの現存のVAD判定結果とに基づいて連合検出を行う技術手段を用いることで、既存技術においてVAD方案の検出が正確でない等の技術課題を解決し、VADの正確性を向上させ、ユーザ体験を高めることができる。

Claims (5)

  1. 第1特徴組中の少なくとも一つの第1種類の特徴パラメータと、第2特徴組中の少なくとも一つの第2種類の特徴パラメータと、少なくとも二つの現存の音声区間検出VAD判定結果と、を取得することと、ここで、前記第1種類の特徴パラメータと前記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータであって、
    前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果とに基づいて、音声区間検出を行って、連合VAD判定結果を得ることと、を含み、
    前記第1種類の特徴パラメータが、連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくも一つを含み、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
    前記第2種類の特徴パラメータは、雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つを含み、
    前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行うことが、
    a)前記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択することと、
    b)前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップc)を実行することと、ここで、前記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、
    c)前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とすることと、
    d)予め設定された条件を満たす場合、前記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を前記連合VAD判定結果とし、そうでないと、ステップe)を実行することと、
    e)前記雑音タイプフラグが静音を指示すると、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とすることと、を含む音声区間検出VAD方法。
  2. 前記予め設定された条件が、
    条件1:前記全帯域平均信号対雑音比が第1の閾値を越えていること、
    条件2:前記全帯域平均信号対雑音比が第2の閾値を越えていて、且つ連続音声区間フレームの数量が予め設定された閾値を越えていること、
    条件3:前記調性信号フラグが調性信号を指示することの中の少なくとも一つを含む請求項に記載の方法。
  3. 前記平滑長時間平均周波数領域信号対雑音比と前記雑音タイプフラグを、
    現在フレームの一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は前記一つ前のフレームの連合VAD判定結果中の任意の一つのVAD判定結果、前記一つ前のフレームの第1の予め設定された時間区間での平均長時間音声区間フレームエネルギーと一つ前のフレームの長時間平均背景雑音エネルギーから、現在フレームの平均長時間音声区間フレームエネルギーと前記現在フレームの長時間平均背景雑音エネルギーを計算し、
    前記現在フレームの第2の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、前記現在フレームの前記第2の予め設定された時間区間での長時間信号対雑音比を計算し、
    前記一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は前記現在フレームの前記連合VAD判定結果中の任意の一つのVAD判定結果、前記一つ前のフレームの平均周波数領域信号対雑音比から、前記現在フレームの第3の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
    前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する方式で確定する請求項1に記載の方法。
  4. 前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定することが、
    雑音タイプを非静音に設定し、前記長時間信号対雑音比が第1の予め設定された閾値を越えていて、且つ前記平滑長時間平均周波数領域信号対雑音比が第2の予め設定された閾値を越えている場合、前記雑音タイプフラグを静音に設定することを含む請求項に記載の方法。
  5. 第1特徴組中の少なくとも一つの第1種類の特徴パラメータと、第2特徴組中の少なくとも一つの第2種類の特徴パラメータと、少なくとも二つの現存の音声区間検出VAD判定結果とを取得するように構成される取得手段と、ここで、前記第1種類の特徴パラメータと前記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータであって、
    前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果に基づいて、音声区間検出を行って、連合VAD判定結果を得るように構成される検出手段と、を含み、
    前記取得手段が、
    連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つの前記第1種類の特徴パラメータを取得するように構成される第1の取得ユニットと、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
    雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つの前記第2種類の特徴パラメータを取得するように構成される第2の取得ユニットと、を含み、
    前記検出手段は、
    a)前記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択するステップと、
    b)前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップc)を実行するステップと、ここで、前記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、
    c)前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とするステップと、
    d)予め設定された条件を満たす場合、前記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を前記連合VAD判定結果とし、そうでないと、ステップe)を実行するステップと、
    e)前記雑音タイプフラグが静音を指示すると、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とするステップとにより、
    前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行う音声区間検出VAD装置。
JP2017502979A 2014-07-18 2014-10-24 音声区間検出方法及び装置 Active JP6606167B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410345942.3A CN105261375B (zh) 2014-07-18 2014-07-18 激活音检测的方法及装置
CN201410345942.3 2014-07-18
PCT/CN2014/089490 WO2015117410A1 (zh) 2014-07-18 2014-10-24 激活音检测的方法及装置

Publications (2)

Publication Number Publication Date
JP2017521720A JP2017521720A (ja) 2017-08-03
JP6606167B2 true JP6606167B2 (ja) 2019-11-13

Family

ID=53777227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017502979A Active JP6606167B2 (ja) 2014-07-18 2014-10-24 音声区間検出方法及び装置

Country Status (9)

Country Link
US (1) US10339961B2 (ja)
EP (2) EP4273861A3 (ja)
JP (1) JP6606167B2 (ja)
KR (1) KR102390784B1 (ja)
CN (1) CN105261375B (ja)
CA (1) CA2955652C (ja)
ES (1) ES2959448T3 (ja)
RU (1) RU2680351C2 (ja)
WO (1) WO2015117410A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
CN107767860B (zh) * 2016-08-15 2023-01-13 中兴通讯股份有限公司 一种语音信息处理方法和装置
CN107331386B (zh) * 2017-06-26 2020-07-21 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
CN107393558B (zh) * 2017-07-14 2020-09-11 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN108665889B (zh) * 2018-04-20 2021-09-28 百度在线网络技术(北京)有限公司 语音信号端点检测方法、装置、设备及存储介质
CN108806707B (zh) 2018-06-11 2020-05-12 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质
CN108962284B (zh) * 2018-07-04 2021-06-08 科大讯飞股份有限公司 一种语音录制方法及装置
CN108848435B (zh) * 2018-09-28 2021-03-09 广州方硅信息技术有限公司 一种音频信号的处理方法和相关装置
EP3800640A4 (en) * 2019-06-21 2021-09-29 Shenzhen Goodix Technology Co., Ltd. VOICE DETECTION METHOD, VOICE DETECTION DEVICE, VOICE PROCESSING CHIP AND ELECTRONIC DEVICE
US11830519B2 (en) 2019-07-30 2023-11-28 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Multi-channel acoustic event detection and classification method
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant
CN115116441A (zh) * 2022-06-27 2022-09-27 南京大鱼半导体有限公司 一种语音识别功能的唤醒方法、装置及设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
US8756063B2 (en) 2006-11-20 2014-06-17 Samuel A. McDonald Handheld voice activated spelling device
WO2008108721A1 (en) 2007-03-05 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
US8503686B2 (en) 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044242B (zh) * 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
EP2491549A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY
CN102804261B (zh) * 2009-10-19 2015-02-18 瑞典爱立信有限公司 用于语音编码器的方法和语音活动检测器
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
EP2561508A1 (en) 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
EP3252771B1 (en) * 2010-12-24 2019-05-01 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
WO2012127278A1 (en) * 2011-03-18 2012-09-27 Nokia Corporation Apparatus for audio signal processing
EP3537436B1 (en) * 2011-10-24 2023-12-20 ZTE Corporation Frame loss compensation method and apparatus for voice frame signal
CN104424956B9 (zh) 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN106575511B (zh) * 2014-07-29 2021-02-23 瑞典爱立信有限公司 用于估计背景噪声的方法和背景噪声估计器
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof

Also Published As

Publication number Publication date
EP3171363B1 (en) 2023-08-09
CN105261375A (zh) 2016-01-20
CA2955652C (en) 2022-04-05
RU2017103938A (ru) 2018-08-20
CN105261375B (zh) 2018-08-31
KR20170035986A (ko) 2017-03-31
WO2015117410A1 (zh) 2015-08-13
ES2959448T3 (es) 2024-02-26
CA2955652A1 (en) 2015-08-13
EP4273861A3 (en) 2023-12-20
EP3171363A4 (en) 2017-07-26
US20170206916A1 (en) 2017-07-20
RU2680351C2 (ru) 2019-02-19
RU2017103938A3 (ja) 2018-08-31
JP2017521720A (ja) 2017-08-03
KR102390784B1 (ko) 2022-04-25
EP4273861A2 (en) 2023-11-08
EP3171363A1 (en) 2017-05-24
US10339961B2 (en) 2019-07-02

Similar Documents

Publication Publication Date Title
JP6606167B2 (ja) 音声区間検出方法及び装置
CN104424956B9 (zh) 激活音检测方法和装置
RU2684194C1 (ru) Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности
US9672841B2 (en) Voice activity detection method and method used for voice activity detection and apparatus thereof
CN109119096B (zh) 一种vad判决中当前激活音保持帧数的修正方法及装置
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
US20230007394A1 (en) A method for audio rendering by an apparatus
CN112530450A (zh) 频域中的样本精度延迟识别
CN116741201A (zh) 音频接收端的啸叫检测方法、系统、解码方法及解码器
CN116524950A (zh) 一种音频信号处理方法、装置、设备及介质
KR20090082699A (ko) 노이지 음성 신호의 처리 방법 및 이를 위한 컴퓨터 판독가능한 기록매체

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190823

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191017

R150 Certificate of patent or registration of utility model

Ref document number: 6606167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250