CN1174623A - 声音活动检测 - Google Patents
声音活动检测 Download PDFInfo
- Publication number
- CN1174623A CN1174623A CN96191952A CN96191952A CN1174623A CN 1174623 A CN1174623 A CN 1174623A CN 96191952 A CN96191952 A CN 96191952A CN 96191952 A CN96191952 A CN 96191952A CN 1174623 A CN1174623 A CN 1174623A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- echo
- frame
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 40
- 238000001514 detection method Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims description 10
- 238000013179 statistical model Methods 0.000 claims description 9
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Abstract
一种声音活动检测器(26),该检测器包括一个用于接收从语音系统(2)传送到用户的流出语音信号的输入和一个用于接收来自用户的流入信号的输入。流出和流入信号两者都被划分成时间有限的帧。装置(263)被提供用来根据流入信号的每一帧来计算一个特征值,并产生一个关于计算所得特征值和一个阈值的函数。基于该函数,(可)判定流入信号是否包括语音。装置被提供用来判定在交互式语音系统流出语音信号期间的回声回输损失,并依赖于测量到的回声回输损失来控制阈值。
Description
该发明涉及声音活动检测。
有许多依赖于语音检测来运行的自动化系统。例如,自动语音系统和蜂窝无线编码系统。这些系统为了检测到语音发生而监听始于用户设备的传输路线,并且在语音发生时采取适当的行动。不幸的是,传输路线极少没有噪声。如果路线上有噪声存在,被安排在路线上仅用来检测声音活动的系统可能会因此不正确地采取行动。
通常出现的噪声是线路噪声(即,出现的噪声与是否有信号正在被传输无关)和电话对话中的背景噪声,例如狗叫声,电视的声音,汽车发动机噪声等等。
在通信系统中的另一噪声源是回声。例如,在公共交换电话网(PSTN)中的回声基本上由电和/或声耦合造成,例如,在传统的交换盒的四线到两线的接口处;或在电话听筒中,从耳朵部位到麦克风的声偶。在一次呼叫过程中,由于空气路径的变化,声学回声是时变的。也就是说,说话者变换他们的头在麦克风和扬声器之间的位置。同样的,在电话亭里,电话亭内部具有一种有限的阻尼特性并且是回响的,这造成共振效果。另外,如果说话者在电话亭周围移动或者确实有任何空气运动,这又会造成声学回声路径变化。由于免提电话的增加使用,声学回声这时成为一个更重要的问题。总的回声或反射路径的影响是衰减、延迟和滤波信号。
回声路径依赖于线路、交换路由和电话类型。这意味着,正象于不同的开关设备将被选取用来建立连接一样,由于线路、交换路由和电话听筒中的任何一个会在一次呼叫和另一次呼叫间改变,因而反射路径的传递函数会在呼叫间变化。
已知有多种用来在人-人语音通信系统中改进回声控制的技术。其中有三种主要的技术。第一,插入损耗可被加入到说话者的传输路线以降低输出信号的电平。然而,插入损耗会造成接收到的信号对于听者来说,变得无法容忍地低。另一种方法是基于这样一种原理运行的回声抑制器,这种原理是在发送和接收路线上检测信号电平,然后比较电平来决定怎样操作可变换的插入损耗器。当在接收路线上检测到语音时,在发送路线上加上一个高的衰减。回声抑制器通常用于长延迟连接,例如,国际电话连接,其中适当的、固定的插入损耗是不够的。
回声消除器是声音操作的设备,它利用自适应信号处理,通过估计一个回声路径的传递函数来减小或消除回声。输出信号被送入该设备,产生的输出信号被从接收到的信号中减去。如果模型代表了真实的回声路径,理论上,回声应该被消除。然而,回声消除器在稳定性问题上有缺点,而且需要大量的计算。在训练过程中,回声消除器对噪声冲击也非常敏感。
自动语音系统的一个例子是电话应答机,它记录呼叫者留下的信息。通常,当用户呼叫自动语音系统时,用户会被给予提示,该提示通常要求回答。因此,来自语音系统的流出信号被沿着传输线传送到用户电话的扬声器。于是用户对提示作出响应,该响应被传送到语音系统,语音系统于是采取适当的行动。
允许自动语音系统的呼叫者打断来自该系统的流出提示对于那些熟悉该系统对话的呼叫者会大大增强系统的可用性这一点已经被提议。这种便利通常被称做“闯入”或“可超速指引”。
如果用户在提示期间说话,说出的字可能会被流出提示的回声居前或破坏。来自用户的本来孤立的、无噪声的词汇发音被转换成为嵌入词汇的发音(其中,该词汇字掺有附加的声音)。在涉及自动语音识别的自动语音系统中,由于现有语音识别技术的限制,这造成了识别性能的减弱。
如果一个用户从来没有使用过自动语音系统提供的服务,该用户将需要听语音生成器提供的全部的提示。然而,一旦用户已经熟悉了该服务和每一阶段要求的信息,用户会希望在提示完成之前给出所需的响应。如果语音识别器或录音装置在提示完成之前一直关闭,(系统)不会作出任何尝试来识别用户的提早响应。如果,另一方面,语音识别器和录音装置一直打开,输入信号将既包括流出提示的回声又包括用户给出的响应两者。这样的信号将不可能被语音识别器识别。声音活动检测器(VADS)因此被开发来在线路上检测声音活动。
已知的声音活动检测器依赖于产生流入信号中噪声的估计值,并将流入信号与在非语音期间固定不变或变化的估计值相比较。这样一种声音激励系统的例子在美国专利No5155760和美国专利No4410763中被描述。
声音活动检测器被用来检测流入信号中的语音并当该语音被检测到时,用来打断流出提示和打开识别器。用户将听到一个省略的提示。如果用户强行加入,这是令人满意的。然而如果声音活动检测器不正确地检测到语音,用户将听到一个省略的提示,并且没有怎样继续系统的指令,显然,这是不希望的。
该发明提供了一种与语音系统一起使用的声音活动检测器,该声音活动检测器包括一个用于接收从一个语音系统传送到用户的流出语音信号的输入端和一个用于接收来自用户的流入信号的输入端,流出和流入信号两者都被划分成时间有限的帧;用于根据流入信号的每一帧计算一个特征值的装置;用于生成一个关于计算所得的特征值和一个阈值的函数,并基于该函数,判定流入信号是否包括语音的装置。其特征在于该装置被提供用来判定在交互式语音系统流出语音信号期间的回声回输损失,并用于控制依赖于测量到的回声回输损失的阈值。
回声回输损失由流出信号的电平和声音活动检测器接收到的流出信号的回声电平的差值得出。回声回输损失是传输路径对流出提示衰减的一个测量值。
在测量到的回声回输损失基础上控制阈值不仅降低了由于回声造成的声音活动检测器的错误触发的次数,而且可以减少当用户通过具有大量回声的线路作出响应时,声音活动检测器触发的次数。尽管这可能显得令人讨厌,但是应该理解的是,对于声音活动检测器,当用户闯入时不触发优于当用户不闯入时触发,不闯入时触发将给用户一个省略的提示并不再有另外的帮助。
阈值可能是回声回输损失和流出信号最大可能功率的函数,两者都是线路的长时特性(尽管回声回输损失可以时常加以测量)。阈值最好是最大功率和回声回输损失之间的差值。可能更好的是,阈值是回声回输损失和根据流出语音信号的每一帧计算得到的特征值的函数(即,阈值表示流出信号每一帧的衰减)。
计算得到的特征值最好是每一帧信号的平均功率,尽管其他特征值,例如帧能量可能被使用。不只一个流入信号的特征值可被计算出,并可生成各种函数。
声音活动检测器可以进一步包括涉及统计模型的数据,该统计模型表示至少一个包括基本无噪声语音和噪声信号的信号的计算所得特征值,计算所得特征值和阈值的函数被拿来与该统计模型比较。噪声信号统计模型可以表示线路噪声和/或典型背景噪声和/或输出信号的回声。
依照该发明,这里也提供了一种声音活动检测的方法,该方法包括接收从一个语音系统传送到用户的流出语音信号和接收来自用户的流入信号,流出和流入信号两者都被划分成时间有限的帧,根据流入信号的每一帧来计算一个特征值,生成一个关于计算所得特征值和一个阈值的函数,基于该函数,判定流入信号是否包括语音,其特征在于测量在语音系统流出语音信号期间的回声回输损失,并控制依赖于测量到的回声回输损失的阈值。
阈值最好是回声回输损失和流出信号最大可能功率的函数。如同上面提到的,阈值可以是回声回输损失和根据一帧流出语音信号计算所得的相同特征值的函数。计算所得的特征值可以是信号每一帧的平均功率。
通过例子并参考附图,该发明将被进一步描述,在附图中:
图1表示一个包括根据该发明的声音活动检测器的自动语音系统,
图2表示根据该发明一个声音活动检测器的组成部件。
图1给出了一个自动语音系统2,它包括一个根据该发明的声音活动检测器,该检测器通过公共交换电话网连到一个通常是电话4的用户终端。自动语音系统最好位于网络中的交换处。自动语音系统通过流出线8和流入线10被连到一个混合变换器,用户电话通过双向线12连到混合变换器处。
PSTN中的回声主要由电和/或声耦合造成,例如,在混合变换器6处的四线到两线接口(由箭头7表示)。电话4的电话听筒中从耳朵部位到麦克风的声耦合造成回声(由箭头9表示)。
自动语音系统2包括一个语音生成器22,一个语音识别器24和一个声音活动检测器(VAD)26。语音生成器22和语音识别器24的类型将不被进一步讨论,因为这并不构成该发明的一部分。该领域内的技术人员都清楚,任何适当的语音生成器,例如那些使用文本到语音技术或预录音信息的生成器都可以被使用。此外,任何适当类型的识别器24都可以被使用。
在使用中,当用户呼叫自动语音系统时,语音生成器22产生给用户一个提示,该提示通常要求回答。这样,语音系统的流出语音信号被沿着传输线8传送到混合变换器6,该变换器将信号切换到用户电话4的扬声器。在提示结束时,用户给出一个响应,该响应通过混合变换器6和流入线10被传送到语音识别器24。语音识别器则尝试识别该响应并相应于识别结果采取适当的行动。
如果用户从来没有使用过自动语音系统提供的服务,用户将需要听到语音生成器22提供的提示的全部。然而,一旦用户已经熟悉了该服务及每一阶段所要求的信息,用户将希望在提示结束之前给出所需的响应。如果语音识别器24在提示结束之前一直关闭,(系统)将不会作出任何尝试来识别用户的过早响应。如果,另一方面,语音识别器24一直打开,语音识别器的输入将包括流出提示的回声和用户给出的响应两者。这样的信号将不可能被语音识别器的识别。
声音活动检测器26被提供来检测流入信号中的直接语音(即,来自用户的语音〕。语音识别器24在语音被声音活动检测器26检测到之前一直保持不活动的模式。声音活动检测器26的输出信号传送到语音生成器22,该生成器于是被中断(因此缩减提示),相应地,语音识别器的24被激活。
图2更详细的表示了该发明的声音活动检测器26。声音活动检测器26包括一个输入端260用来接收来自语音生成器22的流出提示信号和一个输入端261用来接收通过流入线10接收到的信号。对于每一个信号,声音活动检测器包括一个帧顺序器,它将流入信号划分为包含256个连续样本的数据帧。由于语音能量在15毫秒之内相对不变,在相邻帧之间,32毫秒的帧最好有16毫秒的重叠。这使得VAD抗脉冲噪声性能增强。
之后,数据帧被传送到特征生成器263,该生成器计算每一帧的平均功率。信号帧的平均功率由下面公式确定。对数平均帧功率
其中,N是一帧中的样本数,这种情况下是256。
回声回输损失是衰减的一个测量,即,流出和反射的信号之间的差值(分贝)。回声回输损失(ERL)是为流出提示计算的特征值和返回回声之间的差值,即
其中N是在其上计算平均功率Pi的样本的数目。N应该与实际可行的N一样大。
如同能从图2中看到的一样,回声回输损失通过从流入回声的一帧的平均功率中减去流出提示的一帧的平均功率来确定。这是通过用来自系统的提示,例如一个欢迎提示,激励传输路径8,10来完成的。然后,流出提示和返回回声的信号电平象上面描述的那样被帧顺序器262和特征生成器263计算。产生的信号电平被减法器264减去以形成回声回输损失。
然后减法器265为传输路径从最大可能功率中将回声回输损失减去。即,减法器265计算阈值信号:
阈值=最大可能功率-回声回输损失
尽管范围大约是在6-30db,典型的回声回输损失近似是12db。对于一个A-律信号,电话线上的最大可能功率是72db左右。
尽管更多或更少的帧可以被使用,ERL由流出提示的大约前50的帧来计算。
一旦ERL已经被计算出,转换器267被切换到将涉及流入线的数据传送到减法器266。之后,在呼叫的剩余时间里,减法器266将阈值信号从每一帧流入信号的平均功率中减去。这样,减法器266的输出是
Pav|流入信号-(最大可能功率-ERL)
减法器266的输出被传送到比较器268,该比较器将此结果与一个阈值比较。如果该结果大于阈值,流入信号被认为包含来自用户的直接语音,并从声音活动检测器输出一个信号来使语音生成器22无效和激活语音识别器的24。如果结果小于阈值,声音活动检测器不输出信号,语音识别器保持为不活动状态。
在该发明的另一个实施例中,减法器266的输出被传送到一个分类器(没有画出〕,该分类器将流入信号分成语音或非语音。这可以通过将减法器266的输出与表示典型语音和非语音的相同特征的统计模型相比较来完成。
在另一个实施例中,阈值信号根据下面公式形成:
(Pav|流出提示-ERL)
产生的阈值信号被输入到减法器266来形成结果:
Pav|流入信号-(Pav|流出提示-ERL)
回声回输损失至少在语音系统的第一个提示的开始被计算。如果需要,回声回输损失可以从单个帧中计算出,因为回声回输损失是逐帧计算的。因此,即使用户几乎立即说话,回声回输损失仍然可能被计算出。
帧顺序器262和特征生成器263已经被描述为声音活动检测器的一个组成部分,该领域的技术人员会很清楚这不是该发明的根本特征,它们中的一个或两个是分离的部件。同样地,没有必要为每一个信号提供一个单独帧顺序器和特征生成器。单个的帧顺序器和特征生成器可能足以由每一个信号生成一个特征值。
Claims (10)
1一种与语音系统一起使用的声音活动检测器,该声音活动检测器包括一个用于接收从语音系统传送到用户的流出语音信号的输入端和一个用于接收来自用户的流入信号的输入端,流出和流入信号两者都被划分成时间有限的帧;用来根据流入信号的每一帧计算一个特征值的装置;用于产生关于计算所得特征值和一个阈值的函数,并基于该函数,判定流入信号是否包括语音的装置,
其特征在于,这些装置被提供用来判定在语音系统流出语音信号期间的回声回输损失,并依赖于测量到的回声回输损失来控制阈值。
2根据权利要求1的声音活动检测器,其特征在于阈值是回声回输损失和流出信号最大可能功率的函数。
3根据权利要求1的声音活动检测器,其特征在于阈值是回声回输损失和根据一帧流出语音信号计算所得特征值的函数。
4根据权利要求1,2,3中任何一个的声音活动检测器,其中计算所得的特征值是每一帧信号的平均功率。
5根据任何一个前面的权利要求的声音活动检测器,进一步包括涉及统计模型的数据,这些统计模型表示至少一个包含基本无噪声语音和噪声信号的信号的计算所得特征值,计算所得特征值和阈值的函数被用来与统计模型比较。
6根据权利要求5的声音活动检测器,其中噪声信号统计模型表示线路噪声,典型背景噪声和/或流出信号的回声。
7一种声音活动检测的方法,该方法包括接收从一个语音系统传送到用户的流出信号和接收来自用户的流入信号,流出和流入信号两者都被划分成时间有限的帧;根据流入信号的每一帧来计算一个特征值;生成一个关于计算所得特征值和一个阈值的函数,并且基于该函数,判定流入信号是否包括语音,
其特征在于测量在语音系统流出语音信号期间的回声回输损失,并依赖于测量到的回声回输损失来控制阈值。
8根据权利要求7的方法,其特征在于阈值是回声回输损失和流出信号最大可能功率的函数。
9根据权利要求7的方法,其特征在于阈值是回声回输损失和根据一帧流出语音信号计算所得的相同特征值的函数。
10根据权利要求7-9中任何一个的方法,其中计算所得的特征值是每一帧信号的平均功率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP95300975.0 | 1995-02-15 | ||
EP95300975 | 1995-02-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1174623A true CN1174623A (zh) | 1998-02-25 |
Family
ID=8221085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN96191952A Pending CN1174623A (zh) | 1995-02-15 | 1996-02-15 | 声音活动检测 |
Country Status (14)
Country | Link |
---|---|
US (1) | US5978763A (zh) |
EP (1) | EP0809841B1 (zh) |
JP (1) | JPH11500277A (zh) |
KR (1) | KR19980701943A (zh) |
CN (1) | CN1174623A (zh) |
AU (1) | AU707896B2 (zh) |
CA (1) | CA2212658C (zh) |
DE (1) | DE69612480T2 (zh) |
ES (1) | ES2157420T3 (zh) |
FI (1) | FI973329A0 (zh) |
HK (1) | HK1005520A1 (zh) |
NO (1) | NO973756L (zh) |
NZ (1) | NZ301329A (zh) |
WO (1) | WO1996025733A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107251134A (zh) * | 2014-12-28 | 2017-10-13 | 静公司 | 在噪声受控体积内控制噪声的装置、系统和方法 |
CN109831733A (zh) * | 2019-02-26 | 2019-05-31 | 北京百度网讯科技有限公司 | 音频播放性能的测试方法、装置、设备和存储介质 |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
IL129893A0 (en) * | 1996-11-28 | 2000-02-29 | British Telecomm | Interactive apparatus |
DE29622029U1 (de) * | 1996-12-18 | 1998-04-16 | Patra Patent Treuhand | Elektrische Lampe |
DE19702117C1 (de) * | 1997-01-22 | 1997-11-20 | Siemens Ag | Echosperre für ein Spracheingabe Dialogsystem |
GB2325112B (en) | 1997-05-06 | 2002-07-31 | Ibm | Voice processing system |
GB2325110B (en) * | 1997-05-06 | 2002-10-16 | Ibm | Voice processing system |
US6574601B1 (en) * | 1999-01-13 | 2003-06-03 | Lucent Technologies Inc. | Acoustic speech recognizer system and method |
GB2348035B (en) | 1999-03-19 | 2003-05-28 | Ibm | Speech recognition system |
US7423983B1 (en) * | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
GB2352948B (en) * | 1999-07-13 | 2004-03-31 | Racal Recorders Ltd | Voice activity monitoring apparatus and methods |
GB2353887B (en) | 1999-09-04 | 2003-09-24 | Ibm | Speech recognition system |
GB9929284D0 (en) | 1999-12-11 | 2000-02-02 | Ibm | Voice processing apparatus |
GB9930731D0 (en) | 1999-12-22 | 2000-02-16 | Ibm | Voice processing apparatus |
US6744885B1 (en) * | 2000-02-24 | 2004-06-01 | Lucent Technologies Inc. | ASR talkoff suppressor |
US6606595B1 (en) * | 2000-08-31 | 2003-08-12 | Lucent Technologies Inc. | HMM-based echo model for noise cancellation avoiding the problem of false triggers |
US6725193B1 (en) * | 2000-09-13 | 2004-04-20 | Telefonaktiebolaget Lm Ericsson | Cancellation of loudspeaker words in speech recognition |
US20030091162A1 (en) * | 2001-11-14 | 2003-05-15 | Christopher Haun | Telephone data switching method and system |
US6952472B2 (en) * | 2001-12-31 | 2005-10-04 | Texas Instruments Incorporated | Dynamically estimating echo return loss in a communication link |
US7746797B2 (en) * | 2002-10-09 | 2010-06-29 | Nortel Networks Limited | Non-intrusive monitoring of quality levels for voice communications over a packet-based network |
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
US7392188B2 (en) * | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
WO2006104555A2 (en) * | 2005-03-24 | 2006-10-05 | Mindspeed Technologies, Inc. | Adaptive noise state update for a voice activity detector |
US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
US8411847B2 (en) * | 2008-06-10 | 2013-04-02 | Conexant Systems, Inc. | Acoustic echo canceller |
EP2148325B1 (en) * | 2008-07-22 | 2014-10-01 | Nuance Communications, Inc. | Method for determining the presence of a wanted signal component |
JP5156043B2 (ja) * | 2010-03-26 | 2013-03-06 | 株式会社東芝 | 音声判別装置 |
US9042535B2 (en) * | 2010-09-29 | 2015-05-26 | Cisco Technology, Inc. | Echo control optimization |
JP2013019958A (ja) * | 2011-07-07 | 2013-01-31 | Denso Corp | 音声認識装置 |
EP2850611B1 (en) | 2012-06-10 | 2019-08-21 | Nuance Communications, Inc. | Noise dependent signal processing for in-car communication systems with multiple acoustic zones |
CN104704560B (zh) | 2012-09-04 | 2018-06-05 | 纽昂斯通讯公司 | 共振峰依赖的语音信号增强 |
US9613633B2 (en) | 2012-10-30 | 2017-04-04 | Nuance Communications, Inc. | Speech enhancement |
GB2521881B (en) | 2014-04-02 | 2016-02-10 | Imagination Tech Ltd | Auto-tuning of non-linear processor threshold |
GB2519392B (en) | 2014-04-02 | 2016-02-24 | Imagination Tech Ltd | Auto-tuning of an acoustic echo canceller |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
KR20210114480A (ko) * | 2019-05-06 | 2021-09-23 | 구글 엘엘씨 | 자동 통화 시스템 |
US11521643B2 (en) * | 2020-05-08 | 2022-12-06 | Bose Corporation | Wearable audio device with user own-voice recording |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4192979A (en) * | 1978-06-27 | 1980-03-11 | Communications Satellite Corporation | Apparatus for controlling echo in communication systems utilizing a voice-activated switch |
US4410763A (en) * | 1981-06-09 | 1983-10-18 | Northern Telecom Limited | Speech detector |
SE8205840L (sv) * | 1981-10-23 | 1983-04-24 | Western Electric Co | Ekoeliminator |
US4914692A (en) * | 1987-12-29 | 1990-04-03 | At&T Bell Laboratories | Automatic speech recognition using echo cancellation |
JPH01183232A (ja) * | 1988-01-18 | 1989-07-21 | Oki Electric Ind Co Ltd | 有音検出装置 |
US4897832A (en) * | 1988-01-18 | 1990-01-30 | Oki Electric Industry Co., Ltd. | Digital speech interpolation system and speech detector |
US5125024A (en) * | 1990-03-28 | 1992-06-23 | At&T Bell Laboratories | Voice response unit |
US5155760A (en) * | 1991-06-26 | 1992-10-13 | At&T Bell Laboratories | Voice messaging system with voice activated prompt interrupt |
GB2268669B (en) * | 1992-07-06 | 1996-04-03 | Kokusai Electric Co Ltd | Voice activity detector |
JPH07123236B2 (ja) * | 1992-12-18 | 1995-12-25 | 日本電気株式会社 | 双方向通話状態検出回路 |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
GB2281680B (en) * | 1993-08-27 | 1998-08-26 | Motorola Inc | A voice activity detector for an echo suppressor and an echo suppressor |
US5577097A (en) * | 1994-04-14 | 1996-11-19 | Northern Telecom Limited | Determining echo return loss in echo cancelling arrangements |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
-
1996
- 1996-02-15 DE DE69612480T patent/DE69612480T2/de not_active Expired - Lifetime
- 1996-02-15 EP EP96902383A patent/EP0809841B1/en not_active Expired - Lifetime
- 1996-02-15 CN CN96191952A patent/CN1174623A/zh active Pending
- 1996-02-15 KR KR1019970705340A patent/KR19980701943A/ko not_active Application Discontinuation
- 1996-02-15 ES ES96902383T patent/ES2157420T3/es not_active Expired - Lifetime
- 1996-02-15 US US08/894,080 patent/US5978763A/en not_active Expired - Lifetime
- 1996-02-15 JP JP8524768A patent/JPH11500277A/ja active Pending
- 1996-02-15 AU AU46721/96A patent/AU707896B2/en not_active Ceased
- 1996-02-15 CA CA002212658A patent/CA2212658C/en not_active Expired - Fee Related
- 1996-02-15 WO PCT/GB1996/000344 patent/WO1996025733A1/en not_active Application Discontinuation
- 1996-02-15 NZ NZ301329A patent/NZ301329A/en unknown
-
1997
- 1997-08-14 NO NO973756A patent/NO973756L/no unknown
- 1997-08-14 FI FI973329A patent/FI973329A0/fi unknown
-
1998
- 1998-06-02 HK HK98104769A patent/HK1005520A1/xx not_active IP Right Cessation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107251134A (zh) * | 2014-12-28 | 2017-10-13 | 静公司 | 在噪声受控体积内控制噪声的装置、系统和方法 |
CN107251134B (zh) * | 2014-12-28 | 2021-12-03 | 静公司 | 在噪声受控体积内控制噪声的装置、系统和方法 |
CN109831733A (zh) * | 2019-02-26 | 2019-05-31 | 北京百度网讯科技有限公司 | 音频播放性能的测试方法、装置、设备和存储介质 |
CN109831733B (zh) * | 2019-02-26 | 2020-11-24 | 北京百度网讯科技有限公司 | 音频播放性能的测试方法、装置、设备和存储介质 |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
Also Published As
Publication number | Publication date |
---|---|
DE69612480D1 (de) | 2001-05-17 |
MX9706033A (es) | 1997-11-29 |
KR19980701943A (ko) | 1998-06-25 |
US5978763A (en) | 1999-11-02 |
AU4672196A (en) | 1996-09-04 |
CA2212658C (en) | 2002-01-22 |
AU707896B2 (en) | 1999-07-22 |
CA2212658A1 (en) | 1996-08-22 |
WO1996025733A1 (en) | 1996-08-22 |
JPH11500277A (ja) | 1999-01-06 |
EP0809841B1 (en) | 2001-04-11 |
HK1005520A1 (en) | 1999-01-15 |
FI973329A (fi) | 1997-08-14 |
NO973756L (no) | 1997-10-15 |
ES2157420T3 (es) | 2001-08-16 |
EP0809841A1 (en) | 1997-12-03 |
NZ301329A (en) | 1998-02-26 |
NO973756D0 (no) | 1997-08-14 |
FI973329A0 (fi) | 1997-08-14 |
DE69612480T2 (de) | 2001-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1174623A (zh) | 声音活动检测 | |
US7392188B2 (en) | System and method enabling acoustic barge-in | |
CN1220176C (zh) | 用于一种语音识别设备的训练或适配方法 | |
JP4098842B2 (ja) | 音声作動プロンプト・インタラプト機能を備えたプロンプト・インタラプト・システム及び調整可能にエコーを打ち消す方法 | |
CN1097360C (zh) | 数字移动通信系统中的回声消除 | |
KR100711869B1 (ko) | 반향 제거 장치를 구현하는 시스템 및 방법 | |
US5390244A (en) | Method and apparatus for periodic signal detection | |
US20030133565A1 (en) | Echo cancellation system method and apparatus | |
CN101179635B (zh) | 对免提电话进行回声控制的装置、方法和系统 | |
EP0765066A3 (en) | Efficient speakerphone anti-howling system | |
EP1494208A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP3009647B2 (ja) | 音響反響制御システム、音響反響制御システムの同時通話検出器及び音響反響制御システムの同時通話制御方法 | |
JPH096388A (ja) | 音声認識装置 | |
US6606595B1 (en) | HMM-based echo model for noise cancellation avoiding the problem of false triggers | |
KR100526216B1 (ko) | 대화형 장치 | |
CN1505870A (zh) | 用于消除由于回声所造成的错误判决的在便携式通信设备中判决免提通话操作的方法 | |
CN1736091A (zh) | 用于抑制尤其在电话中的回声的装置和方法 | |
CA2416003C (en) | Method and apparatus of controlling noise level calculations in a conferencing system | |
JPH11298382A (ja) | ハンズフリー装置 | |
MXPA97006033A (en) | Detection of activity of | |
Kaspar et al. | Barge-in revised. | |
JPH07264103A (ja) | 音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置 | |
JP2529361B2 (ja) | 音声スイッチ | |
JP2001249688A (ja) | 電話自動受付装置 | |
KANG et al. | A new post-filtering algorithm for residual acoustic echo cancellation in hands-free mobile application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |