CN1204766A - 检测话音启动的方法和装置 - Google Patents

检测话音启动的方法和装置 Download PDF

Info

Publication number
CN1204766A
CN1204766A CN98109762A CN98109762A CN1204766A CN 1204766 A CN1204766 A CN 1204766A CN 98109762 A CN98109762 A CN 98109762A CN 98109762 A CN98109762 A CN 98109762A CN 1204766 A CN1204766 A CN 1204766A
Authority
CN
China
Prior art keywords
signal
noise
threshold value
voice
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN98109762A
Other languages
English (en)
Other versions
CN1146865C (zh
Inventor
E·索尼克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1204766A publication Critical patent/CN1204766A/zh
Application granted granted Critical
Publication of CN1146865C publication Critical patent/CN1146865C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及在来自各种声源的串行帧中检测语音周期和噪声周期的装置,所述串行帧中包含与噪声混合的声信号。通过计算每一帧的能量和中心噪声信号的零交叉率和通过将这些值与自适应阈值进行比较,而测得装置的真实状态,从而可以进行适合每种状态的具体控制。

Description

检测话音启动的方法和装置
本发明涉及一种用于检测在包含语音信号、噪声信号和静音期的输入信号中话音启动的检测方法。本发明还涉及一种用于实施这种方法的检测话音启动的检测装置。
本发明可以在出现语音信号(和不纯粹是音频信号)以及需要在具有语音、背景噪音及静音期的声音环境和仅包含噪音及静音期的声音环境之间进行鉴别的任何场合下使用。本发明尤其可以形成一个对识别短语或孤立词有用的预处理模式。
本发明的第一个目的是在传输网络通常转输不仅仅包含语音的数据的情况下相对于其它类型的信号优化专用于语音信号的通带(必须测定语音是否占据整个通带,也就是说,语音和其它数据实际上可以同时通过),或者还可以说,本发明的目的是例如优化数字电话应答机中存储的信息在存储器中所占空间。
为此,本发明涉及一种如说明书开始时定义的方法,其进一步的特征在于包括计算中心噪声信号的能量和零交叉率的第一步骤和对这些输入信号进行分类和处理的第二步骤,按语音或噪声对所说输入信号进行分类和处理的步骤与白适应阈值B相应的所说输入信号的能量值和算出的零交叉率有关。
本发明的另一个目的是提供一种可简单地使用本方法检测话音启动的装置。
为此,本发明涉及一种检测包含语音信号、噪声信号和静音期的输入信号中的声音活态的检测装置,其特征在于所说输入信号是以预定宽度的连续数字帧形式产生的,所说装置包括以三个分级自动控制形式实现的串行布置的变量初始化级、每帧能量和中心噪声信号零交叉率的计算级以及处理和测定级,这三个分级是:
-在第一N-INIT帧期间,为调节所说变量而设定的第一初始化状态,而且在此期间总是假设输入信号为语音信号;
-在假定输入信号中分别具有“语音+噪声+静音”信号和“噪声+静音”信号的第二和第三状态期间,在N-INIT第一帧之后,所说装置总是处于第二和第三状态中的一种状态。
在推荐的实施例中,这种分类方式将导致出现三种可能的状态,它们分称为初始状态,存在语音状态和存在噪声状态。
通过对下述实施例的阐述将有助于对本发明的这些和其它方面的理解。
图1表示本发明所述方法实施例的常规工作模式;
图2是更详细地说明该工作模式和概述由可确保这种工作模式的检测装置设定的三种状态的视图;
图3-5解释当所述装置处于三种状态中的任一种状态时执行的处理过程。
在描述本发明之前,首先要详细说明使用推荐方法的几个条件,也就是说,首先,来自信号输入源的输入信号应为由人发出的并与极不相同的背景噪声(饭店、办公室、通过的车辆等的背景噪声)相混合的声音信号(或语音信号)。而且根据本发明,应在对这些信号进行处理之前先将其数字化而且这种处理意在使人可以使用这些数字化输入信号的足够范围(或帧),例如,约5-20ms的连续帧。最后应指出的是在此已经用在8KHz下采样和滤波的数字信号对与后序语音处理无关的所述方法进行了检验,从而使之仅处于电话频带(300-3400Hz)内。
图1示出了本发明方法所述工作模式的原理。在完成了工艺过程中使用的变量初始化级10的初始化步骤之后,在计算级11中对输入端E上接收的输入信号的每个当前帧执行计算该帧能量En和该帧中心噪声信号零交叉率的第一计算步骤(在说明书的以下部分中将更详细地说明被称为ZCR,或ZC的变量的含义)。在检验和处理级12中将进行把具有自适应阈值的能量与具有固定阈值的ZCR进行比较以确定输入信号中出现的是“语音+噪声+静音”信号还是仅仅是“噪音+静音”信号。第二步骤是在后面称之为三态自动控制的过程中进行的,三态控制的工作情况示于图2中。这三种状态也示于图1中。
第一种状态START-VAD是图1中所示的开始状态。随着本发明所述处理过程的每一次起动,系统便进入这种总是将输入信号假定为语音信号(虽然也检测噪声)的状态。显然,这种初始化状态可以调整内部变量并将其保持所需的时间(对各种串行帧来说,显然这些用N-INIT表示的帧是可调的)。
第二种状态SPEECH-VAD与假定输入信号是“语音+噪声+静音”信号的情况相对应。第三种状态NOISE-VAD与假定输入信号只是“噪声+静音”信号的情况相对应(在此应注意术语“第一”和“第二”状态并不指示重要的程度,只是用于区分各种状态)。在N-INIT第一帧之后,系统总是处于该第二或第三状态。下面将解释从一种状态到另一状态的转换。
初始化之后,级11中的第一计算步骤包括两个分步骤,即在计算电路111中进行的计算当前帧能量的步骤和在计算电路112中进行的计算与该帧有关的ZCR的步骤。
通常,语音信号(也就是说,“语音+噪声+静音”信号)比只有“噪声+静音”的信号的能量大。因此背景噪声必然很强,以致于无法检测噪声(即,“噪声+静音”信号),而测出的往往是语音信号。由此,用于计算能量的电路111根据后面的测定所需的值设置了与能量有关的可变阈值,该阈值可用下述方式得到:
(a)如果当前帧的能量En低于特定的阈值B(En<阈值B),则将当前帧划归为NOISE(噪声);
(b)另一方面,如果能量En大于或等于阈值B(En>=阈值B),则将当前帧划归到SPEECH(语音)。
事实上,选择的自适应阈值B应是背景噪声的函数,也就是说,例如应将自适应阈值调整得使之成为“噪声+静音”信号平均能量E的函数。而且允许这种“噪声+静音”信号的电平出现波动。适应的判断标准如下:
(i)如果(En<阈值B),则用阈值B-α.E来代替阈值B,其中α是通过实验确定的常数,但在该情况下该常数在0和1之间;
(ii)如果(阈值B<En<阈值B+Δ),那么用阈值B+α.E(Δ=互补阈值)。
在这两种状态(i)和(ii)中,假定信号是“噪声+静音”并对平均值E进行修正。否则,如果En≥阈值B+Δ,则假定信号是语音信号并使平均E保持不变。为了避免阈值B不增大或减小得太多,而不得不使其值保持在由实验确定的两个阈值THRESHOLD B-MIN和THRESHOLD B-MAX之间。另一方面,Δ本身的值随输入信号(在任何情况下都是:单纯的语音、噪声+静音、或两者的混合)的大小而变大或变小。例如,用标号En-1表示输入信号前一帧TRn-1(存储的)的能量,将作出下列类型的判断:
(i)如果|En-En-1|<阈值,Δ=DELTA1;
(ii)如果不是,则Δ=DELTA2,
再用实验确定Δ的两个可能值。
当电路111完成了能量计算时,便开始在电路112中进行当前帧ZCR的计算。级11中的计算完成后紧接着执行判断在已启动的各步骤之后装置所处状态的操作。更详细地说,在级12中执行的判断方法包括两个实际的测定121和122,下面将依次解释这两个测定过程。
可以看出,在N-INIT串行帧期间,按照本发明所述在每次处理开始时,其启动步骤都是A=START-VAD。装置状态的第一次测定121与施加到装置输入端的帧的数量有关,虽然所加帧的数量小于N-INIT,但测定结果为状态是和继续是START-VAD(在测定过程121之后响应Y)。图3中示出了在这种情况下称之为START-VAD-P的和在程序块141中执行的最终处理,这一处理将在下文中描述。然而,从现在起可以看出,如果需要的话,在START-VAD-P处理期间,所看到的状态将不再是开始状态START-VAD而是另一种状态NOISE-VAD或SPEECH-VAD中的一种,这两种状态之间的区分将在测定过程122中进行。
的确,如果在第一测定过程121之后,得到的响应结果是N(即:“不,该状态不再是START-VAD”),那么第二测定过程122将确定所看到的状态是否是B=NOISE-VAD,并如前面一样采用“是”或“不是”的响应方式。如果响应结果是“是”(122之后的响应是Y),则在程序块142中执行称之为NOISE-VAD-P的最后处理,该处理示于图4中。如果响应结果是“不是”(122之后的响应是N),则在程序块143中执行的最终处理是SPEECH-VAD-P,而且这一处理示于图5中(就START-VAD-P而言,下面将根据图4和5对其进行说明)。无论在测定过程121和122之后进行三个处理中的哪一个处理,其后都是通过将程序块141和143的输出送到电路11输入端上的连接线15循回到装置的输入端。这样便可以进行下一帧的确定处理。
在主要方面已由图2概括的图3和图4中详细描述了处理过程START-VAD-P,NOISE-VAD-P和SPEECH-VAD-P的工作情况。在这些图中使用的变量是下面各类中解释的变量:
(1)能量:En表示当前帧的能量,En-1是存储的前一帧的能量,E是背景噪声的平均能量;
(2)计数器:
(a)计数器fr-ctr计下的数是从所用方法开始至当前得到的帧的数量(该计数器只在START-VAD状态下使用,而且其所达到的值最多等于N-INIT);
(b)计数器fr-ctr-noise计下的数是从所用方法开始至当前测到的作为噪声的帧的数量(为了避免过大的计算量,只在达到的值小于特定值时使用该计数器,超过特定值时就不再使用该计数器);
(c)用于平滑语音/噪声转换的计数器transit-ctr可避免截断端部短语或在有条件地延迟从状态SPEECH-VAD到状态NOISE-VAD的转换时不检测作为背景噪声的字节间的间隙:
-如果处于语音状态而且当检测到噪声时,该计数器transit-ctr的计数将变大;
-如果再次检测到语音,该计数器将置零,如果没测到语音,则计数器transit-ctr的计数将继续增大直到达到阈值N-TRANSM:在证实输入信号的确是背景噪声的情况下便可以将状态转到NOISE-VAD并使计数器transit-ctr置零;
(3)阈值:阈值B表示区分语音和低电平背景噪声时使用的阈值(THRESHOLD B-MIN和THRESHOLD B-MAX是允许的最大和最小值),α是阈值B的修正系数值,Δ是从很强的背景噪声中区分语音时用的互补阈值(它的两个可能值是用DELTA确定的DELTA1和DELTA2,而DELTA是用|En-n-1|得到的阈值而且从修正Δ的角度看,可以知道输入信号是否有很大波动);
(4)当前帧的ZCR:这种中心噪声信号的零交叉率明显地发生波动:一某些类型的噪声很易随时间而变,而且噪声信号(中心信号,即信号的平均值已迁移)经常出现零交叉,因此其具有很高的ZCR(这是一种特别的高斯型背景噪声情况);
-当背景噪声是转换的嗡嗡声(饭店、办公室、邻居的谈话声…)时,背景噪声的特性特征接近于语音信号而且ZCR的值较低;
-某些类型的语音声被称为清音语音并具有一定的周期性:这是相应于较大能量和较低ZCR的元音的情况;
-另一方面,被称为浊音语音的其它类型的语音与清音相比具有较低的能量和较高的ZCR:这明显是摩擦音与爆破音的谐振音的情况(当其ZCR超过给定的阈值ZCGAUSS时,如果用一种能量不能完成这一测定,那么该信号将被归为噪声:如果这些信号的能量保持在(阈值B+DELTA2)之下,则只能将这些信号认定为噪声,反之,则将其划归为语音信号);
-最后,还考虑了ZCR为零(ZC为零)的特殊情况:这对应于与“噪声+静音”相同的平缓输入信号(所有采样值都相同)。
(5)输出信号INFO-VAD:在每次处理(在程序块141-143的一个中)开始时,对当前帧作出判断,随后确切地报出是语音信号(INFO-VAD=SPEECH),还是背景信号+静音(INFO-VAD=NOISE)。
如上所述,在程序块141-143中的这些处理包括测定菱形帧中显现的能量和ZCR的能量(除了测定计数器fr-ctr值的第一处理START-VAD-P中的第一次测定之外,还用于检验帧的数量是否仍然低于N-INIT值和装置是否仍处于初始化阶段),或受这些测定结果控制(可能出现的阈值变化、平均能量的计算、装置状态的确定、计数的增大或置零、转向下一帧)和用矩形帧表示的工作。
由此形成的方法和装置最终提供了一种非常合适的能以极简单方式实时再现输入信号的体系。还可以看到,与此相应的是在存储方面没有什么不便。当然,只要不超出本发明的范围,还可以提出本发明的各种变型例。具体地说,可以改变测定程序122的内容和在测定过程121得到否定结果后,根据上述肯定或否定(Y或N)的响应结果,确定所看到的新状态是否是SPEECH-VAD(和不再是NOISE-VAD)。如果122之后的响应结果是“是”,最终的处理将是SPEECH-VAD-P(在程序块142中执行),如果响应结果是“否,”该处理将是NOICE-VAD-P(在程序块143中执行)。

Claims (9)

1.一种用于检测包含语音信号、噪声信号和静音期的输入信号中话音启动的检测方法,其特征在于包括针对这些输入信号计算中心噪声信号的能量和零交叉率的第一步骤和对所述输入信号进行分类的第二步骤,其中按语音或噪声对所说输入信号进行分类和处理的步骤是根据与自适应阈值B相应的所说输入信号的能量值和算出的零交叉率进行的。
2.根据权利要求1所述方法,其特征在于得到的输入信号为预定宽度的连续数字帧形式,而且对当前帧进行第一计算步骤和第二分类及处理步骤,所述作按照噪声或语音对每个当前帧的分类和处理步骤是根据与和所述阈值相应的当前帧的能量值以及计算出的零交叉率进行的。
3.根据权利要求2所述方法,其特征在于所述阈值B随“噪声+静音”信号的平均能量而波动。
4.根据权利要求3所述方法,其特征在于所述阈值B还随与其阈值相应的当前帧的能量值而波动。
5.根据权利要求4所述方法,其特征在于将所述阈值B随与阈值相应的当前帧的能量值而产生的波动限制在高于上述阈值的最大值Δ。
6.根据权利要求5所述方法,其特征在于,在与前一帧的值En-1相应的当前帧能量值En的影响下,所述最大值Δ具有不同值。
7.根据权利要求2-6之一所述方法,其特征在于将所述阈值B的波动限制在预定范围(THRESHOLD B-MIN,THRESHOLD-MAX)。
8.根据权利要求5-7所述方法,其特征在于把最初因高零交叉率而划为噪声的帧的平均能量En与阈值(B+Δ)相比较。
9.一种用于检测在包含语音信号、噪声信号和静音期的输入信号中声音活性的检测装置,其特征在于所说输入信号是以预定宽度的连续数字帧形式产生的所说装置包括以三个分级自动控制形式实现的串行布置的变量初始化级、每帧能量和中心噪声信号零交叉率的计算级以及处理和测定级,这三个分级是:
-在第一N-INIT帧期间,为调节所说变量而设定的第一初始化状态,而且在此期间总是假设输入的任何信号都是语音信号;
-在假定输入的任何信号中分别具有“语音+噪声+静音”信号和“噪声+静音”信号的第二和第三状态期间,在N-INIT第一帧之后,所说装置总是处于第二和第三状态中的一种状态。
CNB981097626A 1997-03-25 1998-03-25 检测话音启动的方法和装置 Expired - Fee Related CN1146865C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9703616 1997-03-25
FR03616/97 1997-03-25
FR03616/1997 1997-03-25

Publications (2)

Publication Number Publication Date
CN1204766A true CN1204766A (zh) 1999-01-13
CN1146865C CN1146865C (zh) 2004-04-21

Family

ID=9505152

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB981097626A Expired - Fee Related CN1146865C (zh) 1997-03-25 1998-03-25 检测话音启动的方法和装置

Country Status (6)

Country Link
US (1) US6154721A (zh)
EP (1) EP0867856B1 (zh)
JP (1) JP4236726B2 (zh)
KR (1) KR100569612B1 (zh)
CN (1) CN1146865C (zh)
DE (1) DE69831991T2 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100380441C (zh) * 2001-05-11 2008-04-09 皇家菲利浦电子有限公司 检测给定类型节目的方法和设备、无声检测器和接收器
WO2008067719A1 (fr) * 2006-12-07 2008-06-12 Huawei Technologies Co., Ltd. Procédé de détection d'activité sonore et dispositif de détection d'activité sonore
CN100399419C (zh) * 2004-12-07 2008-07-02 腾讯科技(深圳)有限公司 一种检测静音帧的方法
WO2008106852A1 (fr) * 2007-03-02 2008-09-12 Huawei Technologies Co., Ltd. Méthode et dispositif de classification d'un signal audio sans bruit
CN100573663C (zh) * 2006-04-20 2009-12-23 南京大学 基于语音特征判别的静音检测方法
WO2011044842A1 (zh) * 2009-10-15 2011-04-21 华为技术有限公司 语音激活检测方法与装置、编码器
CN102314877A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 字符内容提示的声纹识别方法
CN102158676B (zh) * 2003-11-27 2012-12-19 佳能株式会社 电子设备和摄像机装置以及它们的控制方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN105261368A (zh) * 2015-08-31 2016-01-20 华为技术有限公司 一种语音唤醒方法及装置
CN111261143A (zh) * 2018-12-03 2020-06-09 杭州嘉楠耘智信息科技有限公司 一种语音唤醒方法、装置及计算机可读存储介质

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
EP1141937B1 (en) * 1998-12-22 2003-08-27 Ericsson Inc. Method and apparatus for decreasing storage requirements for a voice recording system
US6621834B1 (en) * 1999-11-05 2003-09-16 Raindance Communications, Inc. System and method for voice transmission over network protocols
WO2001039175A1 (fr) * 1999-11-24 2001-05-31 Fujitsu Limited Procede et appareil de detection vocale
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
CA2446085C (en) * 2001-04-30 2010-04-27 Octave Communications, Inc. Audio conference platform with dynamic speech detection threshold
US7146314B2 (en) * 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation
US7187656B2 (en) 2002-05-02 2007-03-06 General Instrument Corporation Method and system for processing tones to reduce false detection of fax and modem communications
US20030214972A1 (en) * 2002-05-15 2003-11-20 Pollak Benny J. Method for detecting frame type in home networking
KR100491753B1 (ko) * 2002-10-10 2005-05-27 서울통신기술 주식회사 음성처리보드의 음성신호 검출 방법
US20050091066A1 (en) * 2003-10-28 2005-04-28 Manoj Singhal Classification of speech and music using zero crossing
US20050117594A1 (en) * 2003-12-01 2005-06-02 Mindspeed Technologies, Inc. Modem pass-through panacea for voice gateways
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
JP4667082B2 (ja) 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP4809454B2 (ja) * 2009-05-17 2011-11-09 株式会社半導体理工学研究センター 発話推定による回路起動方法及び回路起動装置
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044242B (zh) 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
JP5874344B2 (ja) * 2010-11-24 2016-03-02 株式会社Jvcケンウッド 音声判定装置、音声判定方法、および音声判定プログラム
SI3493205T1 (sl) * 2010-12-24 2021-03-31 Huawei Technologies Co., Ltd. Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu
WO2012105941A1 (en) * 2011-01-31 2012-08-09 Empire Technology Development Llc Measuring quality of experience in telecommunication system
US8924206B2 (en) * 2011-11-04 2014-12-30 Htc Corporation Electrical apparatus and voice signals receiving method thereof
US9467785B2 (en) 2013-03-28 2016-10-11 Knowles Electronics, Llc MEMS apparatus with increased back volume
US9503814B2 (en) 2013-04-10 2016-11-22 Knowles Electronics, Llc Differential outputs in multiple motor MEMS devices
KR20160010606A (ko) 2013-05-23 2016-01-27 노우레스 일렉트로닉스, 엘엘시 Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US10028054B2 (en) 2013-10-21 2018-07-17 Knowles Electronics, Llc Apparatus and method for frequency detection
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US9633655B1 (en) 2013-05-23 2017-04-25 Knowles Electronics, Llc Voice sensing and keyword analysis
US9386370B2 (en) 2013-09-04 2016-07-05 Knowles Electronics, Llc Slew rate control apparatus for digital microphones
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US9831844B2 (en) 2014-09-19 2017-11-28 Knowles Electronics, Llc Digital microphone with adjustable gain control
US9712915B2 (en) 2014-11-25 2017-07-18 Knowles Electronics, Llc Reference microphone for non-linear and time variant echo cancellation
US10045140B2 (en) 2015-01-07 2018-08-07 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
TW201640322A (zh) 2015-01-21 2016-11-16 諾爾斯電子公司 用於聲音設備之低功率語音觸發及方法
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US9866938B2 (en) 2015-02-19 2018-01-09 Knowles Electronics, Llc Interface for microphone-to-microphone communications
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
US10291973B2 (en) 2015-05-14 2019-05-14 Knowles Electronics, Llc Sensor device with ingress protection
WO2016183494A1 (en) 2015-05-14 2016-11-17 Knowles Electronics, Llc Microphone with coined area
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10045104B2 (en) 2015-08-24 2018-08-07 Knowles Electronics, Llc Audio calibration using a microphone
US9894437B2 (en) 2016-02-09 2018-02-13 Knowles Electronics, Llc Microphone assembly with pulse density modulated signal
US10499150B2 (en) 2016-07-05 2019-12-03 Knowles Electronics, Llc Microphone assembly with digital feedback loop
US10257616B2 (en) 2016-07-22 2019-04-09 Knowles Electronics, Llc Digital microphone assembly with improved frequency response and noise characteristics
CN110024281B (zh) 2016-10-28 2024-05-07 三星电子株式会社 换能器组件和方法
CN110100259A (zh) 2016-12-30 2019-08-06 美商楼氏电子有限公司 具有认证的麦克风组件
US10237654B1 (en) 2017-02-09 2019-03-19 Hm Electronics, Inc. Spatial low-crosstalk headset
WO2019051218A1 (en) 2017-09-08 2019-03-14 Knowles Electronics, Llc CLOCK SYNCHRONIZATION IN A MASTER-ASSERTED COMMUNICATION SYSTEM
WO2019067334A1 (en) 2017-09-29 2019-04-04 Knowles Electronics, Llc MULTICORDER AUDIO PROCESSOR WITH FLEXIBLE MEMORY ALLOCATION
JP6560321B2 (ja) * 2017-11-15 2019-08-14 ヤフー株式会社 判定プログラム、判定装置及び判定方法
WO2020055923A1 (en) 2018-09-11 2020-03-19 Knowles Electronics, Llc Digital microphone with reduced processing noise
US10908880B2 (en) 2018-10-19 2021-02-02 Knowles Electronics, Llc Audio signal circuit with in-place bit-reversal

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JP2539027B2 (ja) * 1989-02-21 1996-10-02 沖電気工業株式会社 音声検出方式
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
JPH07113840B2 (ja) * 1989-06-29 1995-12-06 三菱電機株式会社 音声検出器
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
JPH05165496A (ja) * 1991-12-16 1993-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5533133A (en) * 1993-03-26 1996-07-02 Hughes Aircraft Company Noise suppression in digital voice communications systems
JP2835483B2 (ja) * 1993-06-23 1998-12-14 松下電器産業株式会社 音声判別装置と音響再生装置
TW271524B (zh) * 1994-08-05 1996-03-01 Qualcomm Inc
US5675639A (en) * 1994-10-12 1997-10-07 Intervoice Limited Partnership Voice/noise discriminator
KR970067095A (ko) * 1996-03-23 1997-10-13 김광호 음성신호의 무성파열음 구간검출방법 및 장치
US5838269A (en) * 1996-09-12 1998-11-17 Advanced Micro Devices, Inc. System and method for performing automatic gain control with gain scheduling and adjustment at zero crossings for reducing distortion
US5737695A (en) * 1996-12-21 1998-04-07 Telefonaktiebolaget Lm Ericsson Method and apparatus for controlling the use of discontinuous transmission in a cellular telephone

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100380441C (zh) * 2001-05-11 2008-04-09 皇家菲利浦电子有限公司 检测给定类型节目的方法和设备、无声检测器和接收器
CN102158676B (zh) * 2003-11-27 2012-12-19 佳能株式会社 电子设备和摄像机装置以及它们的控制方法
CN100399419C (zh) * 2004-12-07 2008-07-02 腾讯科技(深圳)有限公司 一种检测静音帧的方法
CN100573663C (zh) * 2006-04-20 2009-12-23 南京大学 基于语音特征判别的静音检测方法
WO2008067719A1 (fr) * 2006-12-07 2008-06-12 Huawei Technologies Co., Ltd. Procédé de détection d'activité sonore et dispositif de détection d'activité sonore
WO2008106852A1 (fr) * 2007-03-02 2008-09-12 Huawei Technologies Co., Ltd. Méthode et dispositif de classification d'un signal audio sans bruit
US7996215B1 (en) 2009-10-15 2011-08-09 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection, and encoder
WO2011044842A1 (zh) * 2009-10-15 2011-04-21 华为技术有限公司 语音激活检测方法与装置、编码器
CN102314877A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 字符内容提示的声纹识别方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN105261368A (zh) * 2015-08-31 2016-01-20 华为技术有限公司 一种语音唤醒方法及装置
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
CN111261143A (zh) * 2018-12-03 2020-06-09 杭州嘉楠耘智信息科技有限公司 一种语音唤醒方法、装置及计算机可读存储介质
CN111261143B (zh) * 2018-12-03 2024-03-22 嘉楠明芯(北京)科技有限公司 一种语音唤醒方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
KR100569612B1 (ko) 2006-10-11
KR19980080615A (ko) 1998-11-25
JPH10274991A (ja) 1998-10-13
DE69831991T2 (de) 2006-07-27
DE69831991D1 (de) 2005-12-01
CN1146865C (zh) 2004-04-21
JP4236726B2 (ja) 2009-03-11
US6154721A (en) 2000-11-28
EP0867856B1 (fr) 2005-10-26
EP0867856A1 (fr) 1998-09-30

Similar Documents

Publication Publication Date Title
CN1146865C (zh) 检测话音启动的方法和装置
KR950000842B1 (ko) 피치 검출기
JP3197155B2 (ja) ディジタル音声コーダにおける音声信号ピッチ周期の推定および分類のための方法および装置
CN1125430C (zh) 基于波形的周期性检测器
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
US5579435A (en) Discriminating between stationary and non-stationary signals
WO2006019556A2 (en) Low-complexity music detection algorithm and system
JPH09502814A (ja) 音声活動検出装置
WO1996034382A1 (en) Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
US4589131A (en) Voiced/unvoiced decision using sequential decisions
WO2006019555A2 (en) Music detection with low-complexity pitch correlation algorithm
EP0392412B1 (en) Voice detection apparatus
JP3105465B2 (ja) 音声区間検出方法
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
US6757651B2 (en) Speech detection system and method
US20010014854A1 (en) Voice activity detection method and device
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
Ney An optimization algorithm for determining the endpoints of isolated utterances
JP3418005B2 (ja) 音声ピッチ検出装置
JP3109978B2 (ja) 音声区間検出装置
JP2002258881A (ja) 音声検出装置及び音声検出プログラム
JP2656069B2 (ja) 音声検出装置
CN1427395A (zh) 基于子带能量和特征检测技术的语音信号端点检测方法
US6157906A (en) Method for detecting speech in a vocoded signal
CN1064159C (zh) 语音检测装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040421

Termination date: 20170325