JP2017511901A - 音声信号を検出するための方法および装置 - Google Patents

音声信号を検出するための方法および装置 Download PDF

Info

Publication number
JP2017511901A
JP2017511901A JP2016556770A JP2016556770A JP2017511901A JP 2017511901 A JP2017511901 A JP 2017511901A JP 2016556770 A JP2016556770 A JP 2016556770A JP 2016556770 A JP2016556770 A JP 2016556770A JP 2017511901 A JP2017511901 A JP 2017511901A
Authority
JP
Japan
Prior art keywords
audio signal
subband
ssnr
signal
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016556770A
Other languages
English (en)
Other versions
JP6493889B2 (ja
Inventor
▲ジー▼ 王
▲ジー▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017511901A publication Critical patent/JP2017511901A/ja
Application granted granted Critical
Publication of JP6493889B2 publication Critical patent/JP6493889B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本発明の実施形態は音声信号を検出するための方法および装置を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の強化された分節信号対雑音比SSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。本発明の実施形態で提供される方法および装置によると、アクティブ音声と非アクティブ音声とが正確に区別されることができる。

Description

本願は、2014年3月12日に中国特許庁に出願された、“METHOD FOR DETECTING AUDIO SIGNAL AND APPARATUS”と題する中国特許出願番号201410090386.Xに対して優先権を主張し、その全体が参照によって本明細書に組み込まれる。
本発明の実施形態は信号処理技術の分野に関し、より具体的には、音声信号を検出するための方法および装置に関する。
音声区間検出(Voice Activity Detection, VAD)は、音声通信およびマンマシンインタラクション等の分野において広く使用されている重要な技術である。VADはまた、音区間検出(Sound Activity Detection, SAD)とも呼ばれることができる。VADは、入力音声信号内にアクティブ信号があるかどうかを検出するために使用され、ここで、アクティブ信号は、非アクティブ信号と相対する(環境背景雑音とミュート音声等)。典型的なアクティブ信号は、音声、音楽等を含む。VADの原理は、1つ以上の特徴パラメータが入力音声信号から抽出され、1つ以上の特徴値が1つ以上の特徴パラメータに従って決定され、そして1つ以上の特徴値が1つ以上の閾値と比較されることである。
従来技術では、分節信号対雑音比(Segmental Signal-to-Noise Ratio, SSNR)に基づくアクティブ信号検出方法は、入力音声信号を周波数帯上の複数のサブバンド信号に分割し、各サブバンド上の音声信号のエネルギーを計算し、各サブバンド上の音声信号の信号対雑音比(Signal-to-Noise Ratio, SNR)を取得するために、各サブバンド上の音声信号のエネルギーを、各サブバンド上の背景雑音信号の推定されたエネルギーと比較するステップと、そしてその後、各サブバンドのサブバンドSNRに従って、SSNRを決定し、SSNRを事前に設定されたVAD決定閾値と比較するステップと含み、ここで、SSNRがVAD決定閾値を超えた場合、音声信号はアクティブ信号であり、または、SSNRがVAD決定閾値を超えない場合、音声信号は非アクティブ信号である。
SSNRを計算するための典型的な方法は、音声信号の全てのサブバンドSNRを合計することであり、得られた結果がSSNRである。例えば、SSNRは、式1.1:
Figure 2017511901
を使用することによって決定されてよく、ここで、kはk番目のサブバンドを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、Nは音声信号がそれらに分割されるサブバンドの合計サブバンド数を示す。
SSNRを計算するための前述の方法がアクティブ音声を検出するために使用されるとき、アクティブ音声の誤検出が生じ得る。
本発明の実施形態は、音声信号を検出するための方法および装置を提供し、これらは、アクティブ音声と非アクティブ音声とを正確に区別することができる。
第1の態様によると、本発明の実施形態は、音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の強化された分節信号対雑音比SSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。
第1の態様を参照すると、第1の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様の第1の可能な実施方式を参照すると、第1の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様の第1の可能な実施方式を参照すると、第1の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様の第1の可能な実施方式を参照すると、第1の態様の第4の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様を参照すると、第1の態様の第5の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様の第2の可能な実施方式または第3の可能な実施方式を参照すると、第1の態様の第6の可能な実施方式では、音声信号の強化された分節信号対雑音比SSNRを決定するステップは、音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するステップとを含む。
第1の態様または第1の態様の第1の可能な実施方式乃至第1の態様の第5の可能な実施方式のうちの任意の可能な実施方式を参照すると、第1の態様の第7の可能な実施方式では、音声信号の強化された分節信号対雑音比SSNRを決定するステップは、音声信号の基準SSNRを決定するステップと、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップとを含む。
第1の態様の第7の可能な実施方式を参照すると、第1の態様の第8の可能な実施方式では、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップは、以下の式:
SSNR’=x*SSNR+y
を使用することによって強化されたSSNRを決定するステップであって、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す、ステップを含む。
第1の態様の第7の可能な実施方式を参照すると、第1の態様の第9の可能な実施方式では、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップは、以下の式:
SSNR’=f(x)*SSNR+h(y)
を使用することによって強化されたSSNRを決定するステップであって、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す、ステップを含む。
第1の態様または第1の態様の前述の可能な実施方式のうちのいずれか1つを参照すると、第1の態様の第10の可能な実施方式では、強化されたSSNRを音声区間検出VAD決定閾値と比較するステップの前に、方法は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するステップをさらに含み、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップを含む。
第2の態様によると、本発明の実施形態は音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化された分節信号対雑音比SSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。
第2の態様を参照すると、第2の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
第2の態様の第1の可能な実施方式を参照すると、第2の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第2の態様の第1の可能な実施方式を参照すると、第2の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様によると、本発明の実施形態は音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の基準分節信号対雑音比SSNRを取得するステップと、低減された音声区間検出VAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するステップと、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。
第3の態様を参照すると、第3の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様の第1の可能な実施方式を参照すると、第3の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様の第1の可能な実施方式を参照すると、第3の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様の第1の可能な実施方式を参照すると、第3の態様の第4の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様を参照すると、第3の態様の第5の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第4の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号の強化された分節信号対雑音比SSNRを決定するように構成される第2決定ユニットであって、ここで、強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットとを含む。
第4の態様を参照すると、第4の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様の第1の可能な実施方式を参照すると、第4の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様の第1の可能な実施方式を参照すると、第4の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様の第1の可能な実施方式を参照すると、第4の態様の第4の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様を参照すると、第4の態様の第5の可能な実施方式では、第1決定ユニットは、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様の第2の可能な実施方式または第4の態様の第3の可能な実施方式を参照すると、第4の態様の第6の可能な実施方式では、第2決定ユニットは、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。
第4の態様または第4の態様の第1の可能な実施方式乃至第4の態様の第5の可能な実施方式のうちの任意の可能な実施方式を参照すると、第4の態様の第7の可能な実施方式では、第2決定ユニットは、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。
第4の態様の第7の可能な実施方式を参照すると、第4の態様の第8の可能な実施方式では、第2決定ユニットは、具体的には、以下の式:
SSNR’=x*SSNR+y
を使用することによって強化されたSSNRを決定するように構成され、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。
第4の態様の第7の可能な実施方式を参照すると、第4の態様の第9の可能な実施方式では、第2決定ユニットは、具体的には、以下の式:
SSNR’=f(x)*SSNR+h(y)
を使用することによって強化されたSSNRを決定するように構成され、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。
第4の態様または第4の態様の前述の可能な実施方式のうちのいずれか1つを参照すると、第4の態様の第10の可能な実施方式では、装置は第4決定ユニットをさらに含み、ここで、第4決定ユニットは、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するように構成され、第3決定ユニットは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
第5の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化された分節信号対雑音比SSNRを決定するように構成される第2決定ユニットであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットとを含む。
第5の態様を参照すると、第5の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
第5の態様の第1の可能な実施方式を参照すると、第5の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第5の態様の第1の可能な実施方式を参照すると、第5の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号の基準分節信号対雑音比SSNRを取得するように構成される第2決定ユニットと、低減された音声区間検出VAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される第3決定ユニットと、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第4決定ユニットとを含む。
第6の態様を参照すると、第6の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様の第1の可能な実施方式を参照すると、第6の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様の第1の可能な実施方式を参照すると、第6の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様の第1の可能な実施方式を参照すると、第6の態様の第4の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様を参照すると、第6の態様の第5の可能な実施方式では、第1決定ユニットは、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。
本発明の実施形態で提供される方法によると、音声信号の特徴が決定されることができ、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較され、その結果、アクティブ信号の誤検出の割合は低減されることができる。
本発明の実施形態における技術的解決手段をより明確に説明するために、以下では、本発明の実施形態を説明するために必要とされる添付図面を簡潔に説明する。明らかに、以下の説明における添付図面は単に、本発明のいくつかの実施形態を示し、且つ、当業者は、創造的努力なしにこれらの添付図面から他の図面をさらに導出することができる。
図1は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。 図2は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。 図3は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。 図4は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。 図5は、本発明の実施形態に係る装置の構成ブロック図である。 図6は、本発明の実施形態に係る別の装置の構成ブロック図である。 図7は、本発明の実施形態に係る装置の構成ブロック図である。 図8は、本発明の実施形態に係る別の装置の構成ブロック図である。 図9は、本発明の実施形態に係る別の装置の構成ブロック図である。 図10は、本発明の実施形態に係る別の装置の構成ブロック図である。
以下では、本発明の実施形態における添付図面を参照して、本発明の実施形態における技術的解決手段を明確且つ完全に説明する。明らかに、説明される実施形態は、本発明の実施形態の単に一部であって全てではない。創造的努力なしに本発明の実施形態に基づいて当業者によって得られる全ての他の実施形態は、本発明の保護範囲に包含されるべきである。
図1は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
101. 入力音声信号を決定されるべき音声信号として決定する。
102. 音声信号の強化されたSSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい。
103. 強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。
本発明の本実施形態では、強化されたSSNRがVAD決定閾値と比較されるとき、基準VAD決定閾値が使用されてよく、または、基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減された後に得られる低減されたVAD決定閾値が使用されてよい。基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。
従来のSSNR計算方法がいくつかの音声信号のSSNRを計算するために使用されるとき、これらの音声信号のSSNRは、事前に設定されたVAD決定閾値よりも低くてよい。しかしながら、実際には、これらの音声信号はアクティブな音声信号である。このことは、これらの音声信号の特徴によって引き起こされる。例えば、環境SNRが比較的低い場合、高周波部分のサブバンドSNRは大幅に低減される。加えて、心理音響理論は一般に、サブバンド分割を実行するために使用されるため、高周波部分のサブバンドSNRは、SSNRに対して比較的低い貢献を有する。この場合、無声信号等、そのエネルギーが比較的高い周波部分に主に集中化されるいくつかの信号については、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよく、このことは、アクティブ信号の誤検出を引き起こす。別の例では、いくつかの音声信号については、これらの音声信号のエネルギーの分布は、スペクトル上で比較的平坦であるが、これらの音声信号の全体的なエネルギーは比較的低い。従って、環境SNRが比較的低い場合、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよい。図1に示される方法では、SSNRを適切に増加させる方式が使用され、その結果、SSNRはVAD決定閾値よりも大きくてよい。従って、アクティブ信号の誤検出の割合が効果的に低減されることができる。
図2は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
201. 入力音声信号のサブバンドSNRを決定する。
入力音声信号のスペクトルは、N個のサブバンドに分割され、ここで、Nは1よりも大きい正の整数である。具体的には、心理音響理論は音声信号のスペクトルを分割するために使用されてよい。心理音響理論が音声信号のスペクトルを分割するために使用される場合、低周波により近いサブバンドの幅はより狭く、且つ、高周波により近いサブバンドの幅はより広い。確かに、音声信号のスペクトルはまた、別の方式、例えば、音声信号のスペクトルをN個のサブバンドに均等に分割する方式で分割されてもよい。入力音声信号の各サブバンドのサブバンドSNRが計算され、ここで、サブバンドSNRはサブバンドのエネルギーとサブバンド上の背景雑音のエネルギーとの比である。サブバンド上の背景雑音のエネルギーは一般に背景雑音推定器による推定によって得られる推定値である。背景雑音推定器を使用して各サブバンドに対応する背景雑音エネルギーを推定する方法は、この分野の周知技術である。従って、詳細はここでは説明される必要はない。当業者は、サブバンドSNRは直接エネルギー比であってよく、または、対数サブバンドSNR等の直接エネルギー比の別の表現方式であってよいことを理解することができる。加えて、当業者は、サブバンドSNRもまた、直接サブバンドSNRに対して線形または非線形処理が実行された後に得られるサブバンドSNRであってもよく、またはサブバンドSNRの別の変換であってよいことをさらに理解することができる。サブバンドSNRの直接エネルギー比は、以下の式で示される:
snr(k)=E(k)/En(k) 式 1.2
ここで、snr(k)はk番目のサブバンドのサブバンドSNRを示し、E(k)およびEn(k)はそれぞれ、k番目のサブバンドのエネルギーとk番目のサブバンド上の背景雑音のエネルギーとを示す。対数サブバンドSNRは
snrlog(k)=10×log10snr(k)
として示されてよく、ここで、snrlog(k)はk番目のサブバンドの対数サブバンドSNRを示し、snr(k)はk番目のサブバンドの、式1.2を使用することによる計算を介して得られたサブバンドSNRを示す。当業者は、サブバンドSNRを計算するために使用されるサブバンドエネルギーはサブバンド上の入力音声信号のエネルギーであってよく、または、サブバンド上の背景雑音のエネルギーがサブバンド上の入力音声信号のエネルギーから差し引かれた後に得られるエネルギーであってよいことをさらに理解することができる。SNRの計算は、SNRの意味から逸脱しない限り適切である。
202. 入力音声信号を決定されるべき音声信号として決定する。
任意で、実施形態では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号の、ステップ201で決定されるサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含んでよい。
任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。本発明の本実施形態では、音声信号の1つのフレームの高周波端と低周波端とは相対しており、すなわち、比較的高い周波数を有する部分は高周波端であり、且つ、比較的低い周波数を有する部分は低周波端である。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、大量の雑音信号フレーム内で、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの雑音サンプルフレームのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数は第4の数よりも大きい。
任意で、別の実施形態では、入力音声信号が無声信号であるかどうかを決定することによって、入力音声信号が決定されるべき音声信号であるかどうかが決定されてよい。この場合、音声信号のサブバンドSNRは、音声信号が決定されるべき音声信号であるかどうかが決定されているときに決定される必要はない。換言すると、ステップ201は、音声信号が決定されるべき音声信号であるかどうかが決定されているときに実行される必要はない。具体的には、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定される場合に、音声信号を決定されるべき音声信号として決定するステップを含む。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
203. 音声信号の強化されたSSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい。
基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、任意のサブバンドのサブバンドSNRに対して重み付け処理は実行されない、すなわち、基準SSNRが計算されているとき全てのサブバンドのサブバンドSNRの重みが等しいことは式1.1からわかる。
任意で、実施形態では、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合、または、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合、音声信号の強化されたSSNRを決定するステップは、音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するステップとを含む。
例えば、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、且つ、サブバンド18およびサブバンド19の両方が第1の事前に設定された値T1よりも大きい場合、4つのサブバンド、すなわち、サブバンド20からサブバンド23が追加されてよい。具体的には、その信号対雑音比がT1よりも大きいサブバンド18およびサブバンド19はそれぞれ、サブバンド18a、サブバンド18bおよびサブバンド18cと、サブバンド19a、サブバンド19bおよびサブバンド19cとに分割されてよい。この場合、サブバンド18は、サブバンド18a、サブバンド18bおよびサブバンド18cの母サブバンドとみなされてよく、且つ、サブバンド19は、サブバンド19a、サブバンド19bおよびサブバンド19cの母サブバンドとみなされてよい。サブバンド18a、サブバンド18bおよびサブバンド18cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じであり、且つ、サブバンド19a、サブバンド19bおよびサブバンド19cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じである。このようにして、分割を介して本来得られた20個のサブバンドは24個のサブバンドに再分割される。アクティブ信号検出の間、VADは未だ20個のサブバンドに従って設計されるため、24個のサブバンドは、強化されたSSNRを決定するために、20個のサブバンドに再びマッピングされる必要がある。結論として、強化されたSSNRが、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数を増加させることによって決定されるとき、以下の式を使用することによって計算が実行されてよい:
Figure 2017511901
ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示す。
式1.1を使用することによる計算を介して得られるSSNRが基準SSNRである場合、計算を介して得られる基準SSNRは
Figure 2017511901
である。明らかに、第1のタイプの音声信号について、式1.3を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。
別の例では、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、snr(18)およびsnr(19)の両方が第1の事前に設定された値T1よりも大きく、snr(0)からsnr(17)は全て第2の事前に設定された閾値T2よりも小さい場合、強化されたSSNRは、以下を使用することによって決定されてよい:
Figure 2017511901
ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、a1およびa2はパラメータを増加させる重みであり、a1およびa2の値はa1×snr(18)+a2×snr(19)をsnr(18)+snr(19)よりも大きくさせる。明らかに、式1.4を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。
任意で、別の実施形態では、音声信号の強化されたSSNRを決定するステップは、音声信号の基準SSNRを決定するステップと、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップとを含む。
任意で、強化されたSSNRは以下の式を使用することによって決定されてよい:
SSNR’=x*SSNR+y 式1.5
ここで、SSNRは音声信号の基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.05であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。
任意で、強化されたSSNRは以下の式を使用することによって決定されてよい:
SSNR’=f(x)*SSNR+h(y) 式1.6
ここで、SSNRは音声信号の元のSSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号の長期信号対雑音比(Long-term SNR, LSNR)に関連する関数であってよく、ここで、音声信号の長期信号対雑音比は比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく15よりも大きいとき、f(lsnr)は1.05と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが15よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。
204. 強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。
具体的には、強化されたSSNRがVAD決定閾値と比較されるとき、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも大きくない場合、音声信号は非アクティブ信号であると決定される。
任意で、別の実施形態では、強化されたSSNRをVAD決定閾値と比較するステップの前に、方法は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するステップをさらに含んでよい。この場合、強化されたSSNRをVAD決定閾値と比較するステップは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップを含む。基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。
図2に示される方法によると、音声信号の特徴が決定され、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較される。このようにして、アクティブ信号の誤検出の割合は低減されることができる。
図3は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
301. 入力音声信号を決定されるべき音声信号として決定する。
302. 音声信号における各サブバンドのサブバンドSNRの重みを決定し、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。
303. 音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定し、ここで、強化されたSSNRは基準SSNRよりも大きい。
基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、任意のサブバンドのサブバンドSNRに対して重み付け処理は実行されない、すなわち、基準SSNRが計算されているとき全てのサブバンドのサブバンドSNRの重みが等しいことは式1.1からわかる。
例えば、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、且つ、サブバンド18およびサブバンド19の両方が第1の事前に設定された値T1よりも大きい場合、4つのサブバンド、すなわち、サブバンド20からサブバンド23が追加されてよい。具体的には、その信号対雑音比がT1よりも大きいサブバンド18およびサブバンド19はそれぞれ、サブバンド18a、サブバンド18bおよびサブバンド18cと、サブバンド19a、サブバンド19bおよびサブバンド19cとに分割されてよい。この場合、サブバンド18は、サブバンド18a、サブバンド18bおよびサブバンド18cの母サブバンドとみなされてよく、且つ、サブバンド19は、サブバンド19a、サブバンド19bおよびサブバンド19cの母サブバンドとみなされてよい。サブバンド18a、サブバンド18bおよびサブバンド18cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じであり、且つ、サブバンド19a、サブバンド19bおよびサブバンド19cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じである。このようにして、分割を介して本来得られた20個のサブバンドは24個のサブバンドに再分割される。アクティブ信号検出の間、VADは未だ20個のサブバンドに従って設計されるため、24個のサブバンドは、強化されたSSNRを決定するために、20個のサブバンドに再びマッピングされる必要がある。結論として、強化されたSSNRが、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数を増加させることによって決定されるとき、以下の式を使用することによって計算が実行されてよい:
Figure 2017511901
ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示す。
式1.1を使用することによる計算を介して得られるSSNRが基準SSNRである場合、計算を介して得られる基準SSNRは
Figure 2017511901
である。明らかに、第1のタイプの音声信号について、式1.3を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。
別の例では、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、snr(18)およびsnr(19)の両方が第1の事前に設定された値T1よりも大きく、snr(0)からsnr(17)は全て第2の事前に設定された閾値T2よりも小さい場合、強化されたSSNRは、以下の式を使用することによって決定されてよい:
Figure 2017511901
ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、a1およびa2はパラメータを増加させる重みであり、a1およびa2の値はa1×snr(18)+a2×snr(19)をsnr(18)+snr(19)よりも大きくさせる。明らかに、式1.4を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。
304. 強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。
具体的には、強化されたSSNRがVAD決定閾値と比較されるとき、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも大きくない場合、音声信号は非アクティブ信号であると決定される。
図3に示される方法によると、音声信号の特徴が決定されてよく、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較される。従って、アクティブ信号の誤検出の割合は低減されることができる。
さらに、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。
図1乃至図3の実施形態では、入力音声信号がアクティブ信号であるかどうかが、強化されたSSNRを使用する方式で決定される。図4に示される方法では、入力音声信号がアクティブ信号であるかどうかが、VAD決定閾値を低減する方式で決定される。
図4は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
401. 入力音声信号を決定されるべき音声信号として決定する。
任意で、実施形態では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号の、ステップ201で決定されるサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、大量の雑音信号フレーム内で、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの雑音サンプルフレームのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数は第4の数よりも大きい。
任意で、別の実施形態では、入力音声信号が無声信号であるかどうかを決定することによって、入力音声信号が決定されるべき音声信号であるかどうかが決定されてよい。この場合、音声信号のサブバンドSNRは、音声信号が決定されるべき音声信号であるかどうかが決定されているときに決定される必要はない。換言すると、ステップ201は、音声信号が決定されるべき音声信号であるかどうかが決定されているときに実行される必要はない。具体的には、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定される場合に、音声信号を決定されるべき音声信号として決定するステップを含む。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
402. 音声信号の基準SSNRを取得する。
具体的には、基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。
403. 低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減する。
具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。
404. 基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。
従来のSSNR計算方法がいくつかの音声信号のSSNRを計算するために使用されるとき、これらの音声信号のSSNRは、事前に設定されたVAD決定閾値よりも低くてよい。しかしながら、実際には、これらの音声信号はアクティブな音声信号である。このことは、これらの音声信号の特徴によって引き起こされる。例えば、環境SNRが比較的低い場合、高周波部分のサブバンドSNRは大幅に低減される。加えて、心理音響理論は一般に、サブバンド分割を実行するために使用されるため、高周波部分のサブバンドSNRは、SSNRに対して比較的低い貢献を有する。この場合、無声信号等、そのエネルギーが比較的高い周波部分に主に集中化されるいくつかの信号については、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよく、このことは、アクティブ信号の誤検出を引き起こす。別の例では、いくつかの音声信号については、これらの音声信号のエネルギーの分布は、スペクトル上で比較的平坦であるが、これらの音声信号の全体的なエネルギーは比較的低い。従って、環境SNRが比較的低い場合、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよい。図4に示される方法では、VAD決定閾値を低減する方式が使用され、その結果、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRはVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合が効果的に低減されることができる。
図5は、本発明の実施形態に係る装置の構成ブロック図である。図5に示される装置は、図1または図2に示される全てのステップを実行することができる。図5に示されるように、装置500は、第1決定ユニット501、第2決定ユニット502および第3決定ユニット503を含む。
第1決定ユニット501は、入力音声信号を決定されるべき音声信号として決定するように構成される。
第2決定ユニット502は、音声信号の強化された分節信号対雑音比SSNRを決定するように構成され、ここで、強化されたSSNRは基準SSNRよりも大きい。
第3決定ユニット503は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図5に示される装置500は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
任意で、実施形態では、第1決定ユニット501は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、第1決定ユニット501は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。
さらに、第2決定ユニット502は、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。
任意で、実施形態では、第2決定ユニット502は、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。
基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、全てのサブバンドの、SSNRに含まれるサブバンドSNRの重みはSSNRにおいて同じである。
任意で、別の実施形態では、第2決定ユニット502は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=x*SSNR+y 式1.7
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.05であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。
任意で、別の実施形態では、第2決定ユニット502は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=f(x)*SSNR+h(y) 式1.8
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号の長期信号対雑音比(Long-term SNR, LSNR)に関連する関数であってよく、ここで、音声信号の長期信号対雑音比は比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく15よりも大きいとき、f(lsnr)は1.05と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが15よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。
第3決定ユニット503は、具体的には、強化されたSSNRを音声区間検出VAD決定閾値と比較して、比較の結果に従って、音声信号がアクティブ信号であるかどうかを決定するように構成される。具体的には、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも小さい場合、音声信号は非アクティブ信号であると決定される。
任意で、別の実施形態では、事前に設定されたアルゴリズムがまた、基準VAD決定閾値を低減するために使用されて、低減されたVAD決定閾値を得てもよく、且つ、低減されたVAD決定閾値は、音声信号がアクティブ信号であるかどうかを決定するために使用される。この場合、装置500は第4決定ユニット504をさらに含んでよく、ここで、第4決定ユニット504は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するように構成される。この場合、第3決定ユニット503は、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図6は、本発明の実施形態に係る別の装置の構成ブロック図である。図6に示される装置は、図3に示される全てのステップを実行することができる。図6に示されるように、装置600は、第1決定ユニット601、第2決定ユニット602および第3決定ユニット603を含む。
第1決定ユニット601は、入力音声信号を決定されるべき音声信号として決定するように構成される。
第2決定ユニット602は、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化された分節信号対雑音比SSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい。
第3決定ユニット603は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図6に示される装置600は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
さらに、第1決定ユニット601は、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット601は、具体的には、音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、第1決定ユニット601は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。
図7は、本発明の実施形態に係る装置の構成ブロック図である。図7に示される装置は、図1または図2に示される全てのステップを実行することができる。図7に示されるように、装置700はプロセッサ701とメモリ702とを含む。プロセッサ701は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific Integrated Circuit, ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array, FPGA)または別のプログラマブルロジックコンポーネント、ディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ、読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ702内に配置される。プロセッサ701はメモリ702から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。
プロセッサ701は、入力音声信号を決定されるべき音声信号として決定するように構成される。
プロセッサ701は、音声信号の強化された分節信号対雑音比SSNRを決定するように構成され、ここで、強化されたSSNRは基準SSNRよりも大きい。
プロセッサ701は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図7に示される装置700は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
任意で、実施形態では、プロセッサ701は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、プロセッサ701は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。
さらに、プロセッサ701は、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。
任意で、実施形態では、プロセッサ701は、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。
基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、全てのサブバンドの、SSNRに含まれるサブバンドSNRの重みはSSNRにおいて同じである。
任意で、別の実施形態では、プロセッサ701は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=x*SSNR+y 式1.7
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.07であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。
任意で、別の実施形態では、プロセッサ701は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=f(x)*SSNR+h(y) 式1.8
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号の長期信号対雑音比(Long-term SNR, LSNR)に関連する関数であってよく、ここで、音声信号の長期信号対雑音比は比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく17よりも大きいとき、f(lsnr)は1.07と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが17よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。
プロセッサ701は、具体的には、強化されたSSNRを音声区間検出VAD決定閾値と比較して、比較の結果に従って、音声信号がアクティブ信号であるかどうかを決定するように構成される。具体的には、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも小さい場合、音声信号は非アクティブ信号であると決定される。
任意で、別の実施形態では、事前に設定されたアルゴリズムがまた、基準VAD決定閾値を低減するために使用されて、低減されたVAD決定閾値を得てもよく、且つ、低減されたVAD決定閾値は、音声信号がアクティブ信号であるかどうかを決定するために使用される。この場合、プロセッサ701は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するようにさらに構成されてよい。この場合、プロセッサ701は、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図8は、本発明の実施形態に係る別の装置の構成ブロック図である。図8に示される装置は、図3に示される全てのステップを実行することができる。図8に示されるように、装置800はプロセッサ801とメモリ802とを含む。プロセッサ801は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific Integrated Circuit, ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array, FPGA)または別のプログラマブルロジックコンポーネント、ディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ、読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ802内に配置される。プロセッサ801はメモリ802から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。
プロセッサ801は、入力音声信号を決定されるべき音声信号として決定するように構成される。
プロセッサ801は、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化された分節信号対雑音比SSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい。
プロセッサ801は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図8に示される装置800は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
さらに、プロセッサ801は、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ801は、具体的には、音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、プロセッサ801は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。
図9は、本発明の実施形態に係る別の装置の構成ブロック図である。図9に示される装置900は、図4に示される全てのステップを実行することができる。図9に示されるように、装置900は、第1決定ユニット901、第2決定ユニット902、第3決定ユニット903および第4決定ユニット904を含む。
第1決定ユニット901は、入力音声信号を決定されるべき音声信号として決定するように構成される。
第2決定ユニット902は、音声信号の基準SSNRを取得するように構成される。
具体的には、基準SSNRは、式1.1を使用することによる計算を介して得られるSSNRであってよい。
第3決定ユニット903は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される。
具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。
第4決定ユニット904は、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
任意で、実施形態では、第1決定ユニット901は、具体的には、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット901が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット901が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット901が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット901は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。
図9に示される装置900は、入力音声信号の特徴を決定し、音声信号の特徴に従って、基準VAD決定閾値を低減し、SSNRを低減されたVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
図10は、本発明の実施形態に係る別の装置の構成ブロック図である。図10に示される装置1000は、図4に示される全てのステップを実行することができる。図10に示されるように、装置1000はプロセッサ1001とメモリ1002とを含む。プロセッサ1001は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific Integrated Circuit, ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array, FPGA)または別のプログラマブルロジックコンポーネント、ディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ、読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ1002内に配置される。プロセッサ1001はメモリ1002から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。
プロセッサ1001は、入力音声信号を決定されるべき音声信号として決定するように構成される。
プロセッサ1001は、音声信号の基準SSNRを取得するように構成される。
具体的には、基準SSNRは、式1.1を使用することによる計算を介して得られるSSNRであってよい。
プロセッサ1001は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される。
具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。
プロセッサ1001は、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
任意で、実施形態では、プロセッサ1001は、具体的には、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ1001が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ1001が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ1001が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ1001は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。
図10に示される装置1000は、入力音声信号の特徴を決定し、音声信号の特徴に従って、基準VAD決定閾値を低減し、SSNRを低減されたVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
本明細書において開示される実施形態で説明される例と組み合わせて、ユニットおよびアルゴリズムステップは、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施されてよいことを当業者は認識することができる。機能がハードウェアによって実行されるかソフトウェアによって実行されるかは、技術的解決手段の特定のアプリケーションおよび設計制約条件に依存する。当業者は、各特定のアプリケーションのために説明される機能を実施する異なる方法を使用してよいが、実施は本発明の範囲を越えると考えられるべきではない。
便利且つ簡潔な説明のために、前述のシステム、装置およびユニットの詳細な動作プロセスについて、前述の方法の実施形態における対応するプロセスに対して参照が行われてよく、詳細はここでは再び説明されないことは、当業者によって明確に理解されることができる。
本願で提供されるいくつかの実施形態では、開示されるシステム、装置および方法は他の方式で実施されてよいことは理解されるべきである。例えば、説明される装置の実施形態は単に例示的なものである。例えば、ユニットの分割は単に論理的な機能の分割であるとともに、実際の実施において他の分割であってよい。例えば、複数のユニットまたはコンポーネントは、別のシステムに結合または統合されてよく、またはいくつかの特徴は無視されるか実行されなくてよい。加えて、表示または議論される相互結合または直接結合または通信接続は、いくつかのインタフェースを使用することによって実施されてよい。装置またはユニット間の間接結合または通信接続は、電子的、機械的または他の形態で実施されてよい。
分離した部分として説明されるユニットは、物理的に分離していてもしていなくてもよく、且つ、ユニットとして表示される部分は、物理的なユニットであってもなくてもよく、1つの位置に配置されてよく、または、複数のネットワークユニットに分配されてよい。ユニットのいくつかまたは全ては、実施形態の解決手段の目的を達成するための実際のニーズに従って選択されてよい。
加えて、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合されてよく、または、それぞれのユニットは物理的に孤立して存在してよく、または2つ以上のユニットは1つのユニットに統合される。
機能がソフトウェア機能ユニットの形態で実施されるとともに、独立した製品として販売または使用されるとき、機能は、コンピュータ可読記憶媒体内に記憶されてよい。このような理解に基づいて、本発明の技術的解決手段は本質的に、または従来技術に貢献する部分は、または技術的解決手段の一部は、ソフトウェア製品の形態で実施されてよい。ソフトウェア製品は、記憶媒体内に記憶されるとともに、コンピュータデバイス(パーソナルコンピュータ、サーバまたはネットワークデバイスであってよい)またはプロセッサ(processor)に、本発明の実施形態で説明される方法のステップの全てまたは一部を実行するように命令するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読出し専用メモリ(ROM, Read-Only Memory)、ランダムアクセスメモリ(RAM, Random Access Memory)、磁気ディスクまたは光ディスク等の、プログラムコードを記憶することができる任意の媒体を含む。
前述の説明は単に、本発明の特定の実施形態であるが、本発明の保護範囲を限定することを意図されない。本発明で開示される技術的範囲内で当業者によって容易に理解されるいかなる変更または置換も、本発明の保護範囲に包含するべきである。従って、本発明の保護範囲は、請求項の保護範囲に従うべきである。
500 装置
501 第1決定ユニット
502 第2決定ユニット
503 第3決定ユニット
504 第4決定ユニット
600 装置
601 第1決定ユニット
602 第2決定ユニット
603 第3決定ユニット
700 装置
701 プロセッサ
702 メモリ
800 装置
801 プロセッサ
802 メモリ
900 装置
901 第1決定ユニット
902 第2決定ユニット
903 第3決定ユニット
904 第4決定ユニット
1000 装置
1001 プロセッサ
1002 メモリ
本願は、2014年3月12日に中国特許庁に出願された、“METHOD FOR DETECTING AUDIO SIGNAL AND APPARATUS”と題する中国特許出願番号201410090386.Xに対して優先権を主張し、その全体が参照によって本明細書に組み込まれる。
本発明の実施形態は信号処理技術の分野に関し、より具体的には、音声信号を検出するための方法および装置に関する。
音声区間検出(Voice Activity Detection, VAD)は、音声通信およびマンマシンインタラクション等の分野において広く使用されている重要な技術である。VADはまた、音区間検出(Sound Activity Detection, SAD)とも呼ばれることができる。VADは、入力音声信号内にアクティブ信号があるかどうかを検出するために使用され、ここで、アクティブ信号は、非アクティブ信号と相対する(環境背景雑音とミュート音声等)。典型的なアクティブ信号は、音声、音楽等を含む。VADの原理は、1つ以上の特徴パラメータが入力音声信号から抽出され、1つ以上の特徴値が1つ以上の特徴パラメータに従って決定され、そして1つ以上の特徴値が1つ以上の閾値と比較されることである。
従来技術では、分節信号対雑音比(Segmental Signal-to-Noise Ratio, SSNR)に基づくアクティブ信号検出方法は、入力音声信号を周波数帯上の複数のサブバンド信号に分割し、各サブバンド上の音声信号のエネルギーを計算し、各サブバンド上の音声信号の信号対雑音比(Signal-to-Noise Ratio, SNR)を取得するために、各サブバンド上の音声信号のエネルギーを、各サブバンド上の背景雑音信号の推定されたエネルギーと比較するステップと、そしてその後、各サブバンドのサブバンドSNRに従って、SSNRを決定し、SSNRを事前に設定されたVAD決定閾値と比較するステップと含み、ここで、SSNRがVAD決定閾値を超えた場合、音声信号はアクティブ信号であり、または、SSNRがVAD決定閾値を超えない場合、音声信号は非アクティブ信号である。
SSNRを計算するための典型的な方法は、音声信号の全てのサブバンドSNRを合計することであり、得られた結果がSSNRである。例えば、SSNRは、式1.1:
Figure 2017511901
を使用することによって決定されてよく、ここで、kはk番目のサブバンドを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、Nは音声信号がそれらに分割されるサブバンドの合計数を示す。
SSNRを計算するための前述の方法がアクティブ音声を検出するために使用されるとき、アクティブ音声の誤検出が生じ得る。
本発明の実施形態は、音声信号を検出するための方法および装置を提供し、これらは、アクティブ音声と非アクティブ音声とを正確に区別することができる。
第1の態様によると、本発明の実施形態は、音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の強化された分節信号対雑音比SSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。
第1の態様を参照すると、第1の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様の第1の可能な実施方式を参照すると、第1の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様の第1の可能な実施方式を参照すると、第1の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様の第1の可能な実施方式を参照すると、第1の態様の第4の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様を参照すると、第1の態様の第5の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の態様の第2の可能な実施方式または第3の可能な実施方式を参照すると、第1の態様の第6の可能な実施方式では、音声信号の強化されたSSNRを決定するステップは、音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するステップとを含む。
第1の態様または第1の態様の第1の可能な実施方式乃至第1の態様の第5の可能な実施方式のうちの任意の可能な実施方式を参照すると、第1の態様の第7の可能な実施方式では、音声信号の強化されたSSNRを決定するステップは、音声信号の基準SSNRを決定するステップと、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップとを含む。
第1の態様の第7の可能な実施方式を参照すると、第1の態様の第8の可能な実施方式では、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップは、以下の式:
SSNR’=x*SSNR+y
を使用することによって強化されたSSNRを決定するステップであって、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す、ステップを含む。
第1の態様の第7の可能な実施方式を参照すると、第1の態様の第9の可能な実施方式では、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップは、以下の式:
SSNR’=f(x)*SSNR+h(y)
を使用することによって強化されたSSNRを決定するステップであって、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す、ステップを含む。
第1の態様または第1の態様の前述の可能な実施方式のうちのいずれか1つを参照すると、第1の態様の第10の可能な実施方式では、強化されたSSNRをVAD決定閾値と比較するステップの前に、方法は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するステップをさらに含み、強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップを含む。
第2の態様によると、本発明の実施形態は音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。
第2の態様を参照すると、第2の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
第2の態様の第1の可能な実施方式を参照すると、第2の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第2の態様の第1の可能な実施方式を参照すると、第2の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様によると、本発明の実施形態は音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の基準SSNRを取得するステップと、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するステップと、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。
第3の態様を参照すると、第3の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様の第1の可能な実施方式を参照すると、第3の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様の第1の可能な実施方式を参照すると、第3の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様の第1の可能な実施方式を参照すると、第3の態様の第4の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第3の態様を参照すると、第3の態様の第5の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第4の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号の強化されたSSNRを決定するように構成される第2決定ユニットであって、ここで、強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットとを含む。
第4の態様を参照すると、第4の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様の第1の可能な実施方式を参照すると、第4の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様の第1の可能な実施方式を参照すると、第4の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様の第1の可能な実施方式を参照すると、第4の態様の第4の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様を参照すると、第4の態様の第5の可能な実施方式では、第1決定ユニットは、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第4の態様の第2の可能な実施方式または第4の態様の第3の可能な実施方式を参照すると、第4の態様の第6の可能な実施方式では、第2決定ユニットは、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。
第4の態様または第4の態様の第1の可能な実施方式乃至第4の態様の第5の可能な実施方式のうちの任意の可能な実施方式を参照すると、第4の態様の第7の可能な実施方式では、第2決定ユニットは、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。
第4の態様の第7の可能な実施方式を参照すると、第4の態様の第8の可能な実施方式では、第2決定ユニットは、具体的には、以下の式:
SSNR’=x*SSNR+y
を使用することによって強化されたSSNRを決定するように構成され、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。
第4の態様の第7の可能な実施方式を参照すると、第4の態様の第9の可能な実施方式では、第2決定ユニットは、具体的には、以下の式:
SSNR’=f(x)*SSNR+h(y)
を使用することによって強化されたSSNRを決定するように構成され、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。
第4の態様または第4の態様の前述の可能な実施方式のうちのいずれか1つを参照すると、第4の態様の第10の可能な実施方式では、装置は第4決定ユニットをさらに含み、ここで、第4決定ユニットは、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するように構成され、第3決定ユニットは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
第5の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成される第2決定ユニットであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットとを含む。
第5の態様を参照すると、第5の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
第5の態様の第1の可能な実施方式を参照すると、第5の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第5の態様の第1の可能な実施方式を参照すると、第5の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号の基準SSNRを取得するように構成される第2決定ユニットと、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される第3決定ユニットと、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第4決定ユニットとを含む。
第6の態様を参照すると、第6の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様の第1の可能な実施方式を参照すると、第6の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様の第1の可能な実施方式を参照すると、第6の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様の第1の可能な実施方式を参照すると、第6の態様の第4の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第6の態様を参照すると、第6の態様の第5の可能な実施方式では、第1決定ユニットは、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。
本発明の実施形態で提供される方法によると、音声信号の特徴が決定されることができ、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較され、その結果、アクティブ信号の誤検出の割合は低減されることができる。
本発明の実施形態における技術的解決手段をより明確に説明するために、以下では、本発明の実施形態を説明するために必要とされる添付図面を簡潔に説明する。明らかに、以下の説明における添付図面は単に、本発明のいくつかの実施形態を示し、且つ、当業者は、創造的努力なしにこれらの添付図面から他の図面をさらに導出することができる。
図1は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。 図2は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。 図3は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。 図4は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。 図5は、本発明の実施形態に係る装置の構成ブロック図である。 図6は、本発明の実施形態に係る別の装置の構成ブロック図である。 図7は、本発明の実施形態に係る装置の構成ブロック図である。 図8は、本発明の実施形態に係る別の装置の構成ブロック図である。 図9は、本発明の実施形態に係る別の装置の構成ブロック図である。 図10は、本発明の実施形態に係る別の装置の構成ブロック図である。
以下では、本発明の実施形態における添付図面を参照して、本発明の実施形態における技術的解決手段を明確且つ完全に説明する。明らかに、説明される実施形態は、本発明の実施形態の単に一部であって全てではない。創造的努力なしに本発明の実施形態に基づいて当業者によって得られる全ての他の実施形態は、本発明の保護範囲に包含されるべきである。
図1は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
101. 入力音声信号を決定されるべき音声信号として決定する。
102. 音声信号の強化されたSSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい。
103. 強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。
本発明の本実施形態では、強化されたSSNRがVAD決定閾値と比較されるとき、基準VAD決定閾値が使用されてよく、または、基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減された後に得られる低減されたVAD決定閾値が使用されてよい。基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。
従来のSSNR計算方法がいくつかの音声信号のSSNRを計算するために使用されるとき、これらの音声信号のSSNRは、事前に設定されたVAD決定閾値よりも低くてよい。しかしながら、実際には、これらの音声信号はアクティブな音声信号である。このことは、これらの音声信号の特徴によって引き起こされる。例えば、環境SNRが比較的低い場合、高周波部分のサブバンドSNRは大幅に低減される。加えて、心理音響理論は一般に、サブバンド分割を実行するために使用されるため、高周波部分のサブバンドSNRは、SSNRに対して比較的低い貢献を有する。この場合、無声信号等、そのエネルギーが比較的高い周波部分に主に集中化されるいくつかの信号については、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよく、このことは、アクティブ信号の誤検出を引き起こす。別の例では、いくつかの音声信号については、これらの音声信号のエネルギーの分布は、スペクトル上で比較的平坦であるが、これらの音声信号の全体的なエネルギーは比較的低い。従って、環境SNRが比較的低い場合、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよい。図1に示される方法では、SSNRを適切に増加させる方式が使用され、その結果、SSNRはVAD決定閾値よりも大きくてよい。従って、アクティブ信号の誤検出の割合が効果的に低減されることができる。
図2は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
201. 入力音声信号のサブバンドSNRを決定する。
入力音声信号のスペクトルは、N個のサブバンドに分割され、ここで、Nは1よりも大きい正の整数である。具体的には、心理音響理論は音声信号のスペクトルを分割するために使用されてよい。心理音響理論が音声信号のスペクトルを分割するために使用される場合、低周波により近いサブバンドの幅はより狭く、且つ、高周波により近いサブバンドの幅はより広い。確かに、音声信号のスペクトルはまた、別の方式、例えば、音声信号のスペクトルをN個のサブバンドに均等に分割する方式で分割されてもよい。入力音声信号の各サブバンドのサブバンドSNRが計算され、ここで、サブバンドSNRはサブバンドのエネルギーとサブバンド上の背景雑音のエネルギーとの比である。サブバンド上の背景雑音のエネルギーは一般に背景雑音推定器による推定によって得られる推定値である。背景雑音推定器を使用して各サブバンドに対応する背景雑音エネルギーを推定する方法は、この分野の周知技術である。従って、詳細はここでは説明される必要はない。当業者は、サブバンドSNRは直接エネルギー比であってよく、または、対数サブバンドSNR等の直接エネルギー比の別の表現方式であってよいことを理解することができる。加えて、当業者は、サブバンドSNRもまた、直接サブバンドSNRに対して線形または非線形処理が実行された後に得られるサブバンドSNRであってもよく、またはサブバンドSNRの別の変換であってよいことをさらに理解することができる。サブバンドSNRの直接エネルギー比は、以下の式で示される:
snr(k)=E(k)/En(k) 式 1.2
ここで、snr(k)はk番目のサブバンドのサブバンドSNRを示し、E(k)およびEn(k)はそれぞれ、k番目のサブバンドのエネルギーとk番目のサブバンド上の背景雑音のエネルギーとを示す。対数サブバンドSNRは
snrlog(k)=10×log10snr(k)
として示されてよく、ここで、snrlog(k)はk番目のサブバンドの対数サブバンドSNRを示し、snr(k)はk番目のサブバンドの、式1.2を使用することによる計算を介して得られたサブバンドSNRを示す。当業者は、サブバンドSNRを計算するために使用されるサブバンドエネルギーはサブバンド上の入力音声信号のエネルギーであってよく、または、サブバンド上の背景雑音のエネルギーがサブバンド上の入力音声信号のエネルギーから差し引かれた後に得られるエネルギーであってよいことをさらに理解することができる。SNRの計算は、SNRの意味から逸脱しない限り適切である。
202. 入力音声信号を決定されるべき音声信号として決定する。
任意で、実施形態では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号の、ステップ201で決定されるサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含んでよい。
任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。本発明の本実施形態では、音声信号の1つのフレームの高周波端と低周波端とは相対しており、すなわち、比較的高い周波数を有する部分は高周波端であり、且つ、比較的低い周波数を有する部分は低周波端である。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、大量の雑音信号フレーム内で、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの雑音サンプルフレームのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数は第4の数よりも大きい。
任意で、別の実施形態では、入力音声信号が無声信号であるかどうかを決定することによって、入力音声信号が決定されるべき音声信号であるかどうかが決定されてよい。この場合、音声信号のサブバンドSNRは、音声信号が決定されるべき音声信号であるかどうかが決定されているときに決定される必要はない。換言すると、ステップ201は、音声信号が決定されるべき音声信号であるかどうかが決定されているときに実行される必要はない。具体的には、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定される場合に、音声信号を決定されるべき音声信号として決定するステップを含む。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
203. 音声信号の強化されたSSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい。
基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、任意のサブバンドのサブバンドSNRに対して重み付け処理は実行されない、すなわち、基準SSNRが計算されているとき全てのサブバンドのサブバンドSNRの重みが等しいことは式1.1からわかる。
任意で、実施形態では、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合、または、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合、音声信号の強化されたSSNRを決定するステップは、音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するステップとを含む。
例えば、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、且つ、サブバンド18およびサブバンド19の信号対雑音比の両方が第1の事前に設定された値T1よりも大きい場合、4つのサブバンド、すなわち、サブバンド20からサブバンド23が追加されてよい。具体的には、その信号対雑音比がT1よりも大きいサブバンド18およびサブバンド19はそれぞれ、サブバンド18a、サブバンド18bおよびサブバンド18cと、サブバンド19a、サブバンド19bおよびサブバンド19cとに分割されてよい。この場合、サブバンド18は、サブバンド18a、サブバンド18bおよびサブバンド18cの母サブバンドとみなされてよく、且つ、サブバンド19は、サブバンド19a、サブバンド19bおよびサブバンド19cの母サブバンドとみなされてよい。サブバンド18a、サブバンド18bおよびサブバンド18cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じであり、且つ、サブバンド19a、サブバンド19bおよびサブバンド19cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じである。このようにして、分割を介して本来得られた20個のサブバンドは24個のサブバンドに再分割される。アクティブ信号検出の間、VADは未だ20個のサブバンドに従って設計されるため、24個のサブバンドは、強化されたSSNRを決定するために、20個のサブバンドに再びマッピングされる必要がある。結論として、強化されたSSNRが、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数を増加させることによって決定されるとき、以下の式を使用することによって計算が実行されてよい:
Figure 2017511901
ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示す。
式1.1を使用することによる計算を介して得られるSSNRが基準SSNRである場合、計算を介して得られる基準SSNRは
Figure 2017511901
である。明らかに、第1のタイプの音声信号について、式1.3を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。
別の例では、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、snr(18)およびsnr(19)の両方が第1の事前に設定された値T1よりも大きく、snr(0)からsnr(17)は全て第2の事前に設定された閾値T2よりも小さい場合、強化されたSSNRは、以下を使用することによって決定されてよい:
Figure 2017511901
ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、a1およびa2はパラメータを増加させる重みであり、a1およびa2の値はa1×snr(18)+a2×snr(19)をsnr(18)+snr(19)よりも大きくさせる。明らかに、式1.4を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。
任意で、別の実施形態では、音声信号の強化されたSSNRを決定するステップは、音声信号の基準SSNRを決定するステップと、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップとを含む。
任意で、強化されたSSNRは以下の式を使用することによって決定されてよい:
SSNR’=x*SSNR+y 式1.5
ここで、SSNRは音声信号の基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.05であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。
任意で、強化されたSSNRは以下の式を使用することによって決定されてよい:
SSNR’=f(x)*SSNR+h(y) 式1.6
ここで、SSNRは音声信号の元のSSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号の長期信号対雑音比(Long-term SNR, LSNR)に関連する関数であってよく、ここで、音声信号のLSNRは比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく15よりも大きいとき、f(lsnr)は1.05と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが15よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。
204. 強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。
具体的には、強化されたSSNRがVAD決定閾値と比較されるとき、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも大きくない場合、音声信号は非アクティブ信号であると決定される。
任意で、別の実施形態では、強化されたSSNRをVAD決定閾値と比較するステップの前に、方法は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するステップをさらに含んでよい。この場合、強化されたSSNRをVAD決定閾値と比較するステップは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップを含む。基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。
図2に示される方法によると、音声信号の特徴が決定され、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較される。このようにして、アクティブ信号の誤検出の割合は低減されることができる。
図3は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
301. 入力音声信号を決定されるべき音声信号として決定する。
302. 音声信号における各サブバンドのサブバンドSNRの重みを決定し、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。
303. 音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定し、ここで、強化されたSSNRは基準SSNRよりも大きい。
基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、任意のサブバンドのサブバンドSNRに対して重み付け処理は実行されない、すなわち、基準SSNRが計算されているとき全てのサブバンドのサブバンドSNRの重みが等しいことは式1.1からわかる。
例えば、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、且つ、サブバンド18およびサブバンド19の信号対雑音比の両方が第1の事前に設定された値T1よりも大きい場合、4つのサブバンド、すなわち、サブバンド20からサブバンド23が追加されてよい。具体的には、その信号対雑音比がT1よりも大きいサブバンド18およびサブバンド19はそれぞれ、サブバンド18a、サブバンド18bおよびサブバンド18cと、サブバンド19a、サブバンド19bおよびサブバンド19cとに分割されてよい。この場合、サブバンド18は、サブバンド18a、サブバンド18bおよびサブバンド18cの母サブバンドとみなされてよく、且つ、サブバンド19は、サブバンド19a、サブバンド19bおよびサブバンド19cの母サブバンドとみなされてよい。サブバンド18a、サブバンド18bおよびサブバンド18cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じであり、且つ、サブバンド19a、サブバンド19bおよびサブバンド19cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じである。このようにして、分割を介して本来得られた20個のサブバンドは24個のサブバンドに再分割される。アクティブ信号検出の間、VADは未だ20個のサブバンドに従って設計されるため、24個のサブバンドは、強化されたSSNRを決定するために、20個のサブバンドに再びマッピングされる必要がある。結論として、強化されたSSNRが、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数を増加させることによって決定されるとき、以下の式を使用することによって計算が実行されてよい:
Figure 2017511901
ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示す。
式1.1を使用することによる計算を介して得られるSSNRが基準SSNRである場合、計算を介して得られる基準SSNRは
Figure 2017511901
である。明らかに、第1のタイプの音声信号について、式1.3を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。
別の例では、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、snr(18)およびsnr(19)の両方が第1の事前に設定された値T1よりも大きく、snr(0)からsnr(17)は全て第2の事前に設定された閾値T2よりも小さい場合、強化されたSSNRは、以下の式を使用することによって決定されてよい:
Figure 2017511901
ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、a1およびa2はパラメータを増加させる重みであり、a1およびa2の値はa1×snr(18)+a2×snr(19)をsnr(18)+snr(19)よりも大きくさせる。明らかに、式1.4を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。
304. 強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。
具体的には、強化されたSSNRがVAD決定閾値と比較されるとき、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも大きくない場合、音声信号は非アクティブ信号であると決定される。
図3に示される方法によると、音声信号の特徴が決定されてよく、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較される。従って、アクティブ信号の誤検出の割合は低減されることができる。
さらに、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。
図1乃至図3の実施形態では、入力音声信号がアクティブ信号であるかどうかが、強化されたSSNRを使用する方式で決定される。図4に示される方法では、入力音声信号がアクティブ信号であるかどうかが、VAD決定閾値を低減する方式で決定される。
図4は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
401. 入力音声信号を決定されるべき音声信号として決定する。
任意で、実施形態では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号の、ステップ201で決定されるサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、大量の雑音信号フレーム内で、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの雑音サンプルフレームのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数は第4の数よりも大きい。
任意で、別の実施形態では、入力音声信号が無声信号であるかどうかを決定することによって、入力音声信号が決定されるべき音声信号であるかどうかが決定されてよい。この場合、音声信号のサブバンドSNRは、音声信号が決定されるべき音声信号であるかどうかが決定されているときに決定される必要はない。換言すると、ステップ201は、音声信号が決定されるべき音声信号であるかどうかが決定されているときに実行される必要はない。具体的には、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定される場合に、音声信号を決定されるべき音声信号として決定するステップを含む。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
402. 音声信号の基準SSNRを取得する。
具体的には、基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。
403. 低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減する。
具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。
404. 基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。
従来のSSNR計算方法がいくつかの音声信号のSSNRを計算するために使用されるとき、これらの音声信号のSSNRは、事前に設定されたVAD決定閾値よりも低くてよい。しかしながら、実際には、これらの音声信号はアクティブな音声信号である。このことは、これらの音声信号の特徴によって引き起こされる。例えば、環境SNRが比較的低い場合、高周波部分のサブバンドSNRは大幅に低減される。加えて、心理音響理論は一般に、サブバンド分割を実行するために使用されるため、高周波部分のサブバンドSNRは、SSNRに対して比較的低い貢献を有する。この場合、無声信号等、そのエネルギーが比較的高い周波部分に主に集中化されるいくつかの信号については、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよく、このことは、アクティブ信号の誤検出を引き起こす。別の例では、いくつかの音声信号については、これらの音声信号のエネルギーの分布は、スペクトル上で比較的平坦であるが、これらの音声信号の全体的なエネルギーは比較的低い。従って、環境SNRが比較的低い場合、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよい。図4に示される方法では、VAD決定閾値を低減する方式が使用され、その結果、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRはVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合が効果的に低減されることができる。
図5は、本発明の実施形態に係る装置の構成ブロック図である。図5に示される装置は、図1または図2に示される全てのステップを実行することができる。図5に示されるように、装置500は、第1決定ユニット501、第2決定ユニット502および第3決定ユニット503を含む。
第1決定ユニット501は、入力音声信号を決定されるべき音声信号として決定するように構成される。
第2決定ユニット502は、音声信号の強化された分節信号対雑音比SSNRを決定するように構成され、ここで、強化されたSSNRは基準SSNRよりも大きい。
第3決定ユニット503は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図5に示される装置500は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
任意で、実施形態では、第1決定ユニット501は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、第1決定ユニット501は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。
さらに、第2決定ユニット502は、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。
任意で、実施形態では、第2決定ユニット502は、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。
基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、全てのサブバンドの、SSNRに含まれるサブバンドSNRの重みはSSNRにおいて同じである。
任意で、別の実施形態では、第2決定ユニット502は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=x*SSNR+y 式1.7
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.05であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。
任意で、別の実施形態では、第2決定ユニット502は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=f(x)*SSNR+h(y) 式1.8
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号のLSNRに関連する関数であってよく、ここで、音声信号のLSNRは比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく15よりも大きいとき、f(lsnr)は1.05と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが15よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。
第3決定ユニット503は、具体的には、強化されたSSNRをVAD決定閾値と比較して、比較の結果に従って、音声信号がアクティブ信号であるかどうかを決定するように構成される。具体的には、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも小さい場合、音声信号は非アクティブ信号であると決定される。
任意で、別の実施形態では、事前に設定されたアルゴリズムがまた、基準VAD決定閾値を低減するために使用されて、低減されたVAD決定閾値を得てもよく、且つ、低減されたVAD決定閾値は、音声信号がアクティブ信号であるかどうかを決定するために使用される。この場合、装置500は第4決定ユニット504をさらに含んでよく、ここで、第4決定ユニット504は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するように構成される。この場合、第3決定ユニット503は、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図6は、本発明の実施形態に係る別の装置の構成ブロック図である。図6に示される装置は、図3に示される全てのステップを実行することができる。図6に示されるように、装置600は、第1決定ユニット601、第2決定ユニット602および第3決定ユニット603を含む。
第1決定ユニット601は、入力音声信号を決定されるべき音声信号として決定するように構成される。
第2決定ユニット602は、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい。
第3決定ユニット603は、強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図6に示される装置600は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
さらに、第1決定ユニット601は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット601は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、第1決定ユニット601は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。
図7は、本発明の実施形態に係る装置の構成ブロック図である。図7に示される装置は、図1または図2に示される全てのステップを実行することができる。図7に示されるように、装置700はプロセッサ701とメモリ702とを含む。プロセッサ701は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific Integrated Circuit, ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array, FPGA)または別のプログラマブルロジックコンポーネント、ディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ、読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ702内に配置される。プロセッサ701はメモリ702から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。
プロセッサ701は、入力音声信号を決定されるべき音声信号として決定するように構成される。
プロセッサ701は、音声信号の強化されたSSNRを決定するように構成され、ここで、強化されたSSNRは基準SSNRよりも大きい。
プロセッサ701は、強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図7に示される装置700は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
任意で、実施形態では、プロセッサ701は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、プロセッサ701は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。
さらに、プロセッサ701は、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。
任意で、実施形態では、プロセッサ701は、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。
基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、全てのサブバンドの、SSNRに含まれるサブバンドSNRの重みはSSNRにおいて同じである。
任意で、別の実施形態では、プロセッサ701は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=x*SSNR+y 式1.7
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.07であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。
任意で、別の実施形態では、プロセッサ701は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=f(x)*SSNR+h(y) 式1.8
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号のLSNRに関連する関数であってよく、ここで、音声信号のLSNRは比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく17よりも大きいとき、f(lsnr)は1.07と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが17よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。
プロセッサ701は、具体的には、強化されたSSNRをVAD決定閾値と比較して、比較の結果に従って、音声信号がアクティブ信号であるかどうかを決定するように構成される。具体的には、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも小さい場合、音声信号は非アクティブ信号であると決定される。
任意で、別の実施形態では、事前に設定されたアルゴリズムがまた、基準VAD決定閾値を低減するために使用されて、低減されたVAD決定閾値を得てもよく、且つ、低減されたVAD決定閾値は、音声信号がアクティブ信号であるかどうかを決定するために使用される。この場合、プロセッサ701は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するようにさらに構成されてよい。この場合、プロセッサ701は、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図8は、本発明の実施形態に係る別の装置の構成ブロック図である。図8に示される装置は、図3に示される全てのステップを実行することができる。図8に示されるように、装置800はプロセッサ801とメモリ802とを含む。プロセッサ801は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific Integrated Circuit, ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array, FPGA)または別のプログラマブルロジックコンポーネント、ディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ、読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ802内に配置される。プロセッサ801はメモリ802から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。
プロセッサ801は、入力音声信号を決定されるべき音声信号として決定するように構成される。
プロセッサ801は、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい。
プロセッサ801は、強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
図8に示される装置800は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
さらに、プロセッサ801は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ801は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、別の実施形態では、プロセッサ801は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。
図9は、本発明の実施形態に係る別の装置の構成ブロック図である。図9に示される装置900は、図4に示される全てのステップを実行することができる。図9に示されるように、装置900は、第1決定ユニット901、第2決定ユニット902、第3決定ユニット903および第4決定ユニット904を含む。
第1決定ユニット901は、入力音声信号を決定されるべき音声信号として決定するように構成される。
第2決定ユニット902は、音声信号の基準SSNRを取得するように構成される。
具体的には、基準SSNRは、式1.1を使用することによる計算を介して得られるSSNRであってよい。
第3決定ユニット903は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される。
具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。
第4決定ユニット904は、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
任意で、実施形態では、第1決定ユニット901は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット901が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット901が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット901が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、第1決定ユニット901は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。
図9に示される装置900は、入力音声信号の特徴を決定し、音声信号の特徴に従って、基準VAD決定閾値を低減し、強化されたSSNRを低減されたVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
図10は、本発明の実施形態に係る別の装置の構成ブロック図である。図10に示される装置1000は、図4に示される全てのステップを実行することができる。図10に示されるように、装置1000はプロセッサ1001とメモリ1002とを含む。プロセッサ1001は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific Integrated Circuit, ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array, FPGA)または別のプログラマブルロジックコンポーネント、ディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ、読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ1002内に配置される。プロセッサ1001はメモリ1002から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。
プロセッサ1001は、入力音声信号を決定されるべき音声信号として決定するように構成される。
プロセッサ1001は、音声信号の基準SSNRを取得するように構成される。
具体的には、基準SSNRは、式1.1を使用することによる計算を介して得られるSSNRであってよい。
プロセッサ1001は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される。
具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。
プロセッサ1001は、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。
任意で、実施形態では、プロセッサ1001は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ1001が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ1001が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ1001が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。
任意で、実施形態では、プロセッサ1001は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。
第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。
第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。
第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。
図10に示される装置1000は、入力音声信号の特徴を決定し、音声信号の特徴に従って、基準VAD決定閾値を低減し、強化されたSSNRを低減されたVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。
本明細書において開示される実施形態で説明される例と組み合わせて、ユニットおよびアルゴリズムステップは、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施されてよいことを当業者は認識することができる。機能がハードウェアによって実行されるかソフトウェアによって実行されるかは、技術的解決手段の特定のアプリケーションおよび設計制約条件に依存する。当業者は、各特定のアプリケーションのために説明される機能を実施する異なる方法を使用してよいが、実施は本発明の範囲を越えると考えられるべきではない。
便利且つ簡潔な説明のために、前述のシステム、装置およびユニットの詳細な動作プロセスについて、前述の方法の実施形態における対応するプロセスに対して参照が行われてよく、詳細はここでは再び説明されないことは、当業者によって明確に理解されることができる。
本願で提供されるいくつかの実施形態では、開示されるシステム、装置および方法は他の方式で実施されてよいことは理解されるべきである。例えば、説明される装置の実施形態は単に例示的なものである。例えば、ユニットの分割は単に論理的な機能の分割であるとともに、実際の実施において他の分割であってよい。例えば、複数のユニットまたはコンポーネントは、別のシステムに結合または統合されてよく、またはいくつかの特徴は無視されるか実行されなくてよい。加えて、表示または議論される相互結合または直接結合または通信接続は、いくつかのインタフェースを使用することによって実施されてよい。装置またはユニット間の間接結合または通信接続は、電子的、機械的または他の形態で実施されてよい。
分離した部分として説明されるユニットは、物理的に分離していてもしていなくてもよく、且つ、ユニットとして表示される部分は、物理的なユニットであってもなくてもよく、1つの位置に配置されてよく、または、複数のネットワークユニットに分配されてよい。ユニットのいくつかまたは全ては、実施形態の解決手段の目的を達成するための実際のニーズに従って選択されてよい。
加えて、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合されてよく、または、それぞれのユニットは物理的に孤立して存在してよく、または2つ以上のユニットは1つのユニットに統合される。
機能がソフトウェア機能ユニットの形態で実施されるとともに、独立した製品として販売または使用されるとき、機能は、コンピュータ可読記憶媒体内に記憶されてよい。このような理解に基づいて、本発明の技術的解決手段は本質的に、または従来技術に貢献する部分は、または技術的解決手段の一部は、ソフトウェア製品の形態で実施されてよい。ソフトウェア製品は、記憶媒体内に記憶されるとともに、コンピュータデバイス(パーソナルコンピュータ、サーバまたはネットワークデバイスであってよい)またはプロセッサ(processor)に、本発明の実施形態で説明される方法のステップの全てまたは一部を実行するように命令するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読出し専用メモリ(ROM, Read-Only Memory)、ランダムアクセスメモリ(RAM, Random Access Memory)、磁気ディスクまたは光ディスク等の、プログラムコードを記憶することができる任意の媒体を含む。
前述の説明は単に、本発明の特定の実施形態であるが、本発明の保護範囲を限定することを意図されない。本発明で開示される技術的範囲内で当業者によって容易に理解されるいかなる変更または置換も、本発明の保護範囲に包含するべきである。従って、本発明の保護範囲は、請求項の保護範囲に従うべきである。
500 装置
501 第1決定ユニット
502 第2決定ユニット
503 第3決定ユニット
504 第4決定ユニット
600 装置
601 第1決定ユニット
602 第2決定ユニット
603 第3決定ユニット
700 装置
701 プロセッサ
702 メモリ
800 装置
801 プロセッサ
802 メモリ
900 装置
901 第1決定ユニット
902 第2決定ユニット
903 第3決定ユニット
904 第4決定ユニット
1000 装置
1001 プロセッサ
1002 メモリ

Claims (42)

  1. 音声信号を検出するための方法であって、前記方法は、
    入力音声信号を決定されるべき音声信号として決定するステップと、
    前記音声信号の強化された分節信号対雑音比SSNRを決定するステップであって、前記強化されたSSNRは基準SSNRよりも大きい、ステップと、
    前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するステップと
    を含む、方法。
  2. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項1に記載の方法。
  3. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項2に記載の方法。
  4. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項2に記載の方法。
  5. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項2に記載の方法。
  6. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号が無声信号であると決定された場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項1に記載の方法。
  7. 前記音声信号の強化された分節信号対雑音比SSNRを決定する前記ステップは、
    前記音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、そのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、
    前記音声信号内の各サブバンドの前記サブバンドSNRおよび各サブバンドの前記サブバンドSNRの前記重みに従って、前記強化されたSSNRを決定するステップと
    を含む、請求項3または4に記載の方法。
  8. 前記音声信号の強化された分節信号対雑音比SSNRを決定する前記ステップは、
    前記音声信号の基準SSNRを決定するステップと、
    前記音声信号の前記基準SSNRに従って、前記強化されたSSNRを決定するステップと
    を含む、請求項1乃至6のいずれか1項に記載の方法。
  9. 前記音声信号の前記基準SSNRに従って、前記強化されたSSNRを決定する前記ステップは、
    以下の式:
    SSNR’=x*SSNR+y
    を使用することによって前記強化されたSSNRを決定するステップであって、SSNRは前記基準SSNRを示し、SSNR’は前記強化されたSSNRを示し、xおよびyは強化パラメータを示す、ステップ
    を含む、請求項8に記載の方法。
  10. 前記音声信号の前記基準SSNRに従って、前記強化されたSSNRを決定する前記ステップは、
    以下の式:
    SSNR’=f(x)*SSNR+h(y)
    を使用することによって前記強化されたSSNRを決定するステップであって、SSNRは前記基準SSNRを示し、SSNR’は前記強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す、ステップ
    を含む、請求項8に記載の方法。
  11. 前記強化されたSSNRを音声区間検出VAD決定閾値と比較する前記ステップの前に、前記方法は、
    低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して前記VAD決定閾値を低減するステップをさらに含み、
    前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定する前記ステップは、具体的には、
    前記強化されたSSNRを前記低減されたVAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するステップ
    を含む、請求項1乃至10のいずれか1項に記載の方法。
  12. 音声信号を検出するための方法であって、前記方法は、
    入力音声信号を決定されるべき音声信号として決定するステップと、
    前記音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定するステップであって、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、
    前記音声信号内の各サブバンドの前記サブバンドSNRおよび各サブバンドの前記サブバンドSNRの前記重みに従って、強化された分節信号対雑音比SSNRを決定するステップであって、前記強化されたSSNRは基準SSNRよりも大きい、ステップと、
    前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するステップと
    を含む、方法。
  13. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号のサブバンドSNRに従って、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項12に記載の方法。
  14. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号内にあるとともにそのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項13に記載の方法。
  15. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号内にあるとともにそのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項13に記載の方法。
  16. 音声信号を検出するための方法であって、前記方法は、
    入力音声信号を決定されるべき音声信号として決定するステップと、
    前記音声信号の基準分節信号対雑音比SSNRを取得するステップと、
    低減された音声区間検出VAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するステップと、
    前記基準SSNRを前記低減されたVAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するステップと
    を含む、方法。
  17. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項16に記載の方法。
  18. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項17に記載の方法。
  19. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項17に記載の方法。
  20. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項17に記載の方法。
  21. 入力音声信号を決定されるべき音声信号として決定する前記ステップは、
    前記音声信号が無声信号であると決定された場合に、前記音声信号を決定されるべき音声信号として決定するステップ
    を含む、請求項16に記載の方法。
  22. 装置であって、前記装置は、
    入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、
    前記音声信号の強化された分節信号対雑音比SSNRを決定するように構成される第2決定ユニットであって、前記強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、
    前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットと
    を含む、装置。
  23. 前記第1決定ユニットは、具体的には、前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項22に記載の装置。
  24. 前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項23に記載の装置。
  25. 前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項23に記載の装置。
  26. 前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項23に記載の装置。
  27. 前記第1決定ユニットは、具体的には、前記音声信号が無声信号であると決定された場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項22に記載の装置。
  28. 前記第2決定ユニットは、具体的には、前記音声信号における各サブバンドのサブバンドSNRの重みを決定し、前記音声信号内の各サブバンドの前記サブバンドSNRおよび各サブバンドの前記サブバンドSNRの前記重みに従って、前記強化されたSSNRを決定するように構成され、そのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、請求項24または25に記載の装置。
  29. 前記第2決定ユニットは、具体的には、前記音声信号の基準SSNRを決定し、前記音声信号の前記基準SSNRに従って、前記強化されたSSNRを決定するように構成される、請求項22乃至27のいずれか1項に記載の装置。
  30. 前記第2決定ユニットは、具体的には、
    以下の式:
    SSNR’=x*SSNR+y
    を使用することによって前記強化されたSSNRを決定するように構成され、SSNRは前記基準SSNRを示し、SSNR’は前記強化されたSSNRを示し、xおよびyは強化パラメータを示す、請求項29に記載の装置。
  31. 前記第2決定ユニットは、具体的には、
    以下の式:
    SSNR’=f(x)*SSNR+h(y)
    を使用することによって前記強化されたSSNRを決定するように構成され、SSNRは前記基準SSNRを示し、SSNR’は前記強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す、請求項29に記載の装置。
  32. 前記装置は第4決定ユニットをさらに含み、
    前記第4決定ユニットは、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して前記VAD決定閾値を低減するように構成され、
    前記第3決定ユニットは、具体的には、前記強化されたSSNRを前記低減されたVAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するように構成される、請求項22乃至31のいずれか1項に記載の装置。
  33. 装置であって、前記装置は、
    入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、
    前記音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、前記音声信号内の各サブバンドの前記サブバンドSNRおよび各サブバンドの前記サブバンドSNRの前記重みに従って、強化された分節信号対雑音比SSNRを決定するように構成される第2決定ユニットであって、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、前記強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、
    前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットと
    を含む、装置。
  34. 前記第1決定ユニットは、具体的には、前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項33に記載の装置。
  35. 前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンド信号対雑音比SNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項34に記載の装置。
  36. 前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項34に記載の装置。
  37. 装置であって、前記装置は、
    入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、
    前記音声信号の基準分節信号対雑音比SSNRを取得するように構成される第2決定ユニットと、
    低減された音声区間検出VAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される第3決定ユニットと、
    前記基準SSNRを前記低減されたVAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するように構成される第4決定ユニットと
    を含む、装置。
  38. 前記第1決定ユニットは、具体的には、前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項37に記載の装置。
  39. 前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項38に記載の装置。
  40. 前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項38に記載の装置。
  41. 前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項38に記載の装置。
  42. 前記第1決定ユニットは、具体的には、前記音声信号が無声信号であると決定された場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項37に記載の装置。
JP2016556770A 2014-03-12 2014-12-01 音声信号を検出するための方法および装置 Active JP6493889B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410090386.XA CN104916292B (zh) 2014-03-12 2014-03-12 检测音频信号的方法和装置
CN201410090386.X 2014-03-12
PCT/CN2014/092694 WO2015135344A1 (zh) 2014-03-12 2014-12-01 检测音频信号的方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018225323A Division JP6793706B2 (ja) 2014-03-12 2018-11-30 音声信号を検出するための方法および装置

Publications (2)

Publication Number Publication Date
JP2017511901A true JP2017511901A (ja) 2017-04-27
JP6493889B2 JP6493889B2 (ja) 2019-04-03

Family

ID=54070889

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016556770A Active JP6493889B2 (ja) 2014-03-12 2014-12-01 音声信号を検出するための方法および装置
JP2018225323A Active JP6793706B2 (ja) 2014-03-12 2018-11-30 音声信号を検出するための方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018225323A Active JP6793706B2 (ja) 2014-03-12 2018-11-30 音声信号を検出するための方法および装置

Country Status (14)

Country Link
US (3) US10304478B2 (ja)
EP (2) EP3660845B1 (ja)
JP (2) JP6493889B2 (ja)
KR (2) KR102005009B1 (ja)
CN (3) CN104916292B (ja)
AU (1) AU2014386442B9 (ja)
CA (1) CA2940487C (ja)
ES (2) ES2926360T3 (ja)
MX (1) MX355828B (ja)
MY (1) MY193521A (ja)
PT (2) PT3660845T (ja)
RU (1) RU2666337C2 (ja)
SG (1) SG11201607052SA (ja)
WO (1) WO2015135344A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104916292B (zh) 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
AU2016402256B2 (en) * 2016-04-29 2019-04-18 Honor Device Co., Ltd. Voice input exception determining method, apparatus, terminal, and storage medium
CN107040359B (zh) * 2017-05-08 2021-01-19 海能达通信股份有限公司 一种语音呼叫过程中携带随路信令的方法、装置及设备
CN107393553B (zh) * 2017-07-14 2020-12-22 深圳永顺智信息科技有限公司 用于语音活动检测的听觉特征提取方法
CN107393558B (zh) * 2017-07-14 2020-09-11 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN107393550B (zh) * 2017-07-14 2021-03-19 深圳永顺智信息科技有限公司 语音处理方法及装置
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59182498A (ja) * 1983-04-01 1984-10-17 日本電気株式会社 音声検出回路
JPH09204196A (ja) * 1995-12-12 1997-08-05 Nokia Mobile Phones Ltd 雑音抑圧器及び移動局並びに雑音抑圧方法
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
US20130191117A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Voice activity detection in presence of background noise
US20130304464A1 (en) * 2010-12-24 2013-11-14 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63259596A (ja) 1987-04-16 1988-10-26 株式会社日立製作所 音声区間検出方式
PL174216B1 (pl) * 1993-11-30 1998-06-30 At And T Corp Sposób redukcji w czasie rzeczywistym szumu transmisji mowy
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6466906B2 (en) * 1999-01-06 2002-10-15 Dspc Technologies Ltd. Noise padding and normalization in dynamic time warping
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
EP2239733B1 (en) * 2001-03-28 2019-08-21 Mitsubishi Denki Kabushiki Kaisha Noise suppression method
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
JP4281349B2 (ja) 2001-12-25 2009-06-17 パナソニック株式会社 電話装置
US7024353B2 (en) * 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
US7146315B2 (en) 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7162420B2 (en) * 2002-12-10 2007-01-09 Liberato Technologies, Llc System and method for noise reduction having first and second adaptive filters
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US8340309B2 (en) * 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
CN100369113C (zh) * 2004-12-31 2008-02-13 中国科学院自动化研究所 利用增益自适应提高语音识别率的方法
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
CN101379548B (zh) * 2006-02-10 2012-07-04 艾利森电话股份有限公司 语音检测器和用于其中抑制子频带的方法
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8311814B2 (en) 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
US8326620B2 (en) * 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US7769585B2 (en) * 2007-04-05 2010-08-03 Avidyne Corporation System and method of voice activity detection in noisy environments
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
KR101335417B1 (ko) 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
WO2010091339A1 (en) 2009-02-06 2010-08-12 University Of Ottawa Method and system for noise reduction for speech enhancement in hearing aid
JP5337530B2 (ja) * 2009-02-25 2013-11-06 京セラ株式会社 無線基地局および無線通信方法
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
CN102044242B (zh) 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
EP2491548A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER
CN104485118A (zh) * 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
EP2656341B1 (en) * 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Apparatus for performing a voice activity detection
JP5875609B2 (ja) 2012-02-10 2016-03-02 三菱電機株式会社 雑音抑圧装置
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59182498A (ja) * 1983-04-01 1984-10-17 日本電気株式会社 音声検出回路
JPH09204196A (ja) * 1995-12-12 1997-08-05 Nokia Mobile Phones Ltd 雑音抑圧器及び移動局並びに雑音抑圧方法
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
US20130304464A1 (en) * 2010-12-24 2013-11-14 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
US20130191117A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Voice activity detection in presence of background noise

Also Published As

Publication number Publication date
MX2016011750A (es) 2016-12-12
US20190279657A1 (en) 2019-09-12
ES2926360T3 (es) 2022-10-25
AU2014386442B9 (en) 2017-11-23
CA2940487C (en) 2020-10-27
KR20180088503A (ko) 2018-08-03
CN107086043B (zh) 2020-09-08
US10304478B2 (en) 2019-05-28
CN107293287A (zh) 2017-10-24
CA2940487A1 (en) 2015-09-17
US20160379670A1 (en) 2016-12-29
MY193521A (en) 2022-10-17
AU2014386442B2 (en) 2017-11-02
KR102005009B1 (ko) 2019-07-29
KR20160120764A (ko) 2016-10-18
EP3118852A1 (en) 2017-01-18
PT3660845T (pt) 2022-08-01
RU2666337C2 (ru) 2018-09-06
ES2787894T3 (es) 2020-10-19
PT3118852T (pt) 2020-03-06
JP6793706B2 (ja) 2020-12-02
EP3118852A4 (en) 2017-03-29
US11417353B2 (en) 2022-08-16
RU2016139717A (ru) 2018-04-12
MX355828B (es) 2018-05-02
CN104916292A (zh) 2015-09-16
WO2015135344A1 (zh) 2015-09-17
CN107086043A (zh) 2017-08-22
KR101884220B1 (ko) 2018-08-01
CN107293287B (zh) 2021-10-26
AU2014386442A1 (en) 2016-09-08
SG11201607052SA (en) 2016-10-28
JP6493889B2 (ja) 2019-04-03
EP3660845A1 (en) 2020-06-03
US10818313B2 (en) 2020-10-27
EP3118852B1 (en) 2020-02-12
EP3660845B1 (en) 2022-06-08
ES2787894T9 (es) 2021-12-28
CN104916292B (zh) 2017-05-24
US20200312353A1 (en) 2020-10-01
JP2019053321A (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
JP6493889B2 (ja) 音声信号を検出するための方法および装置
KR102410392B1 (ko) 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출
US8891786B1 (en) Selective notch filtering for howling suppression
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
EP3689002A2 (en) Howl detection in conference systems
EP3413310B1 (en) Acoustic meaningful signal detection in wind noise
RU2662693C2 (ru) Устройство декодирования, устройство кодирования, способ декодирования и способ кодирования
US11610601B2 (en) Method and apparatus for determining speech presence probability and electronic device
JP2015119404A (ja) マルチパス判定装置
WO2023172609A1 (en) Method and audio processing system for wind noise suppression
Nyshadham et al. Enhancing the performance of parallel network consisting of noise reduction and echo cancellation algorithms
Alam et al. Speech enhancement based on a hybrid a priori signal-to-noise ratio (SNR) estimator and a self-adaptive Lagrange multiplier

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181130

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20181211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190226

R150 Certificate of patent or registration of utility model

Ref document number: 6493889

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250