CN116935900A - 语音检测方法 - Google Patents
语音检测方法 Download PDFInfo
- Publication number
- CN116935900A CN116935900A CN202210319615.5A CN202210319615A CN116935900A CN 116935900 A CN116935900 A CN 116935900A CN 202210319615 A CN202210319615 A CN 202210319615A CN 116935900 A CN116935900 A CN 116935900A
- Authority
- CN
- China
- Prior art keywords
- value
- count
- threshold
- threshold condition
- spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title description 41
- 230000003595 spectral effect Effects 0.000 claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000008859 change Effects 0.000 claims abstract description 54
- 230000004907 flux Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 18
- 239000000654 additive Substances 0.000 claims description 15
- 230000000996 additive effect Effects 0.000 claims description 15
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 210000002388 eustachian tube Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
Abstract
本公开提供一种使用入耳音频传感器检测语音的方法,包括对入耳音频传感器采集的输入信号的每一帧执行以下处理:基于当前帧的输入信号的至少一个特征,来计算计数改变值,其中所述至少一个特征包括估计信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个;将计算的计数改变值与前一帧的先前计数值相加,获得当前计数值;将获得的当前计数值与计数阈值进行比较;并且基于比较结果和特征属性来判断所述当前帧的输入信号的类别,其中所述类别包括噪声、浊音或清音。
Description
技术领域
本公开总体涉及语音检测方法,尤其涉及一种使用入耳音频传感器检测佩戴者语音的方法。
背景技术
语音检测(或通常称为语音活动检测(VAD))用于指示一段声音是否包含人类语音。它被广泛使用并可以在诸如耳机、助听器等语音处理系统和设备中发挥重要作用。从发音原理上讲,语音和噪声是可区分的,因为产生语音的过程使人的声音,尤其是浊音音素与大多数噪声不同。另外,噪声环境中的语音的强度通常高于纯噪声,因为带噪语音是互不相关的人类语音和噪声的和。然而,准确地区分语音信号和噪声是一个行业难题。其原因在于:部分语音信号强度较弱;噪声类型多变的,而且并不总是稳定;更难的是,在人类语音中超过20%的清音音素不具有谐波结构,相对强度弱,并且本身频谱结构类似于一些噪声。因此,在嘈杂环境中的准确地语音检测始终是一项挑战性很强的工作。
此外,清音检测仍然是一个困难且未解决的问题。现有的技术中缺乏针对语音检测中的清音、浊音和多种噪声场景进行分类的一种兼备低漏检率和低误报率的检测机制。
发明内容
本公开的一方面的一个或多个实施例提供了一种使用入耳音频传感器检测语音的方法。该方法包括对入耳音频传感器采集的输入信号的每一帧执行以下处理:基于当前帧的输入信号的至少一个特征,来计算计数改变值,其中所述至少一个特征包括信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个;将计算的计数改变值与前一帧的先前计数值相加,获得当前计数值;将获得的当前计数值与计数阈值进行比较;并且基于比较结果来判断所述当前帧的输入信号的类别,其中所述类别包括噪声、浊音、清音。
附图说明
通过参考附图阅读对非限制性实施方案的以下描述,可更好地理解本公开,其中:
图1示意性示出了耳机中的入耳麦克风位置的示意图;
图2举例示出了由入耳麦克风测得一段语音信号;
图3示出了根据本公开的一个或多个实施例的基于入耳音频传感器的语音检测方法的流程图;
图4示出了根据本公开的一个或多个实施例的基于入耳音频传感器的语音检测方法的一个示例;
图5示出了根据本公开的一个或多个实施例的基于入耳音频传感器的语音检测方法的一个检测结果的仿真图;
图6示出了根据本公开的一个或多个实施例的基于入耳音频传感器的语音检测方法的另一个检测结果的仿真图。
具体实施方式
应当理解,给出实施例的以下描述仅仅是为了说明的目的,而不是限制性的。
单数术语(例如但不限于“一”)的使用并不旨在限制项目的数量。关系术语的使用,例如但不限于“顶部”、“底部”、“左”、“右”、“上部”、“下部”、“向下”、“向上”、“侧”、“第一”,“第二”(“第三”等),“入口”,“出口”等用于书面说明是为了在具体参考附图时清楚,而非意图限制本公开或随附的权利要求书的范围,除非另外指出。术语“包括”和“诸如”是说明性的而非限制性的,除非另有说明,词语“可以”的意思是“可以,但不必须”。尽管在本公开中使用任何其他语言,但是在附图中示出的实施例是为了说明和解释的目的给出的示例,而不是本文的主题的唯一实施例。
本公开主要专注于用于耳机设备的语音检测。该耳机设备包含至少一个入耳音频传感器。该入耳音频传感器例如可以是入耳麦克风。通常,耳机中的入耳麦克风可以被作为反馈(FB)麦克风而广泛用于主动降噪(ANC)功能。图1示出了耳机中的入耳麦克风的位置的一个示例。
本公开的检测语音的方法仅使用由入耳音频传感器接收到的信号,基于关键的声学特征,尤其是基于与关键的声学特征相关联的阈值条件的组合,通过投票机制来对输入信号进行检测,从而能够高精度地检测出浊音、清音和噪声。
发明人对入耳麦克风所捕获的信号进行了研究。在入耳麦克风被正确佩戴的情况下,即入耳麦克风插入人耳并与环境物理上隔离的情况下,接收到的环境噪声得以极大的衰减。同样,通过空气传播的人声也被一定程度地隔绝。然而,人类的语音信号也可以经由骨骼和组织传导,还可以通过咽鼓管。咽鼓管是连接喉咙和中耳的小通道。与空气传导的语音信号相比,入耳麦克风接收到的语音信号在极低频带(例如,200Hz以下)显示出了较强的强度。然而在200~2500Hz的频带中,信号的强度逐渐降低,并且在更高频率范围信号几乎消失。有趣的是,发明人发现清音信号可以通过狭窄的咽鼓管传播,尽管它们的强度非常微弱,即使在6000Hz以上的高频带也是如此。图2示出了一个简短的由入耳麦克风接收到的语音信号的示例。在该示例中,语音信号包含浊音和清音部分。可以看出,浊音主要集中在低频带。图中的椭圆圈示例性标记了两个清音例子,矩形框示例性标记了两个浊音例子。与目前大多数只能捕获1000Hz以下的浊音信号而错过清音的骨导传感器相比,入耳音频传感器,例如麦克风仍然可以捕获更丰富的声学信息。
发明人进一步基于由入耳音频传感器,例如入耳麦克风接收到的声音信号进行的全面分析,总结了浊音、清音的特征,并与各种类型的噪声进行比较。具体来说,在入耳通道中,清音、浊音信号和噪声是不同的,总结如下。
·浊音:
1)在入耳通道中强度大/信噪比(SNR)高;
2)在每句的开头和结尾处,SNR低,但谱平坦度低;
3)有基频(F0)信号,同时频谱中有与之相对应的谐波结构;由于传播介质原因,能量集中在中低频(2500Hz以下);
4)谱质心低,但不会低于或接近基频;
5)谱通量高;
6)声音开头的谱通量变化是正数;
7)能量衰减在2500Hz以下随频率增加而增多,但在2500Hz以上有显著损失;
8)在全频带上谱平坦度低;
9)包含大部分能量的频率子带上的谱平坦度低;
10)谱延展度(频谱二阶中心矩)低;
11)大部分分布在较宽的频带中,除了句子开头或结尾的低频;
12)通常与几个相邻的帧有很好的相关性。
·清音:
1)在入耳通道中强度相对较弱/SNR低;
2)谱质心中/高;
3)某些具有宽频带、谱平坦度高并且遍布于全频带,例如摩擦音/s/、/∫/;
4)某些在高频带有更多的能量分布,例如超过5000Hz或更高;
5)某些仅在高频带具有高谱平坦度;
6)某些在中频到高频带(例如3000-7000Hz)具有高谱平坦度;
7)某些在中频带(例如3000-5000Hz)具有显著的能量分布,在该频带中的谱平坦度也很高;
8)出现在词的开头的谱通量差值为正;
9)出现在单词的开头和结尾;
10)持续时间短暂;
11)可以在低频带和中频带,如爆破音和塞音,但没有F0,没有谐波,低频带中能量不像浊音音素那么占主导地位;
12)如果不是爆破音素,中频带的能量不应该显著大于高频带的能量;
13)帧之间的相关性较弱;
14)没有尖锐的谱峰。
·噪声:不属于耳机佩戴者的讲话的任何声音
1)大多数是稳定的并且在低频带;
2)如果入耳式音频传感器插入良好,在入耳通道中,强度相对较弱;
3)一些强噪声仍然会泄漏到耳道,例如日常生活中地铁站、马路上的强噪声;
4)谱质心可能是非常高的;
5)可能集中于非常低的频率,谱质心低,例如汽车噪声;
6)可以是中/高窄带噪声,如地铁刹车时与铁轨摩擦产生的尖锐中的噪声,频谱平坦度和频谱延展度小;
7)可能在全频带具有相对比较高的谱平坦度,但不是非常高;
8)可能具有极高的谱平坦度,例如一些冲击/敲击脉冲噪声,可能会被错估计为具有高信噪比但具有低谱峰;
9)通常谱通量低;
10)一些噪声与清音音素非常相似,但持续时间更长,并且在帧之间具有很强的相关性;
11)一些噪声在极低频带(低于400Hz)中能量强,但谱平坦度高,这与浊音音素不同;
12)一些噪声在以隔直(DC-block)为目标的高通滤波后能量有显著的损失;
13)一些噪声在中频带(3000-5000Hz)有显著的能量分布,但在高频带没有显著的能量分布;
14)一些噪声有尖锐的谱峰,但没有谐波。
·干扰:外部,非佩戴者的说话声,或者其他设备播放的人声,假如泄露并被入耳式音频传感器接受,此处视为噪声。
1)相对佩戴者语音较弱;
2)相对频率更快的能量衰减;但是有高频谐波部分,与佩戴者的声音的能量分布不同。
值得注意的是,浊音和清音可能会与噪声叠加而污染,所以需要一些降噪的预处理。
本公开提供了一种仅使用入耳麦克风的因果语音检测方法。该方法从至少一个声学特征出发,通过开发一种组合阈值方法来实现对语音中的浊音、清音和噪声的检测。其中,所有阈值都基于不同类别的声学特征,用以构成用于语音检测的组合阈值条件。例如,声学特征包括但不限于信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间频谱相关性。以下仅给出其中几个特征的公式,以便于理解。
估计信噪比:
谱质心:
谱平坦度:
谱通量:
谱通量差值:flux_diff(k)=SFlat(k)-SFlat(k-1) (5)
频带之间的谱能量比:
其中,k表示帧的索引。fn表示频谱中第n个频率窗口(frequency bin)的中心频率。x(k),和Xr(fn,k)分别表示在第k帧的时间信号,本底噪声(noise floor)的估计值和接收到信号在fn处的频谱值。f(|(x(k)|)表示第k帧的总能量或幅值峰值。并且,其中nis和nie分别表示第i个频带的开始和结束的频率窗口(frequency bin)的索引。
图3示例性示出了根据本公开的一个或多个实施例的使用入耳传感器的语音检测方法流程图。该语音检测方法包括针对耳机中的入耳传感器所采集的输入信号的每一帧执行的处理。信号帧的长度可以根据系统实际要求来设定。该语音检测方法是因果检测方法,即只使用当前帧和之前帧的数据的方法。
如图3所示,在S302,基于当前帧的至少一个特征,来计算计数改变值。特征可以包括但不限于SNR、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个。在一些实施例中,每个特征可以关联一个或多个阈值条件。阈值条件是用于判断特征是否满足一个或多个阈值的条件。在一些实施例中,不同特征的不同阈值条件可以被单独或组合地使用,以用于对语音可能性的投票进行相应增加、减少或保持。综合这些对语音可能性的投票进行的增加、减少或保持,可以得出计数改变值(投票票数改变值)。在一些实施例中,基于当前帧的至少一个特征,来计算计数改变值可以包括:将例如SNR、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个特征的至少一个阈值条件进行组合,从而获得多个组合阈值条件。组合阈值条件可以包括加分组合阈值条件和减分组合阈值条件。根据加分组合阈值条件或减分组合阈值条件,可以相应地获得加分值或减分值。该加分值和减分值指示对语音可能性的投票的改变。可以理解的是,如果加分值和减分值为0,则意味着保持目前的语音可能性的投票。基于所述加分值和减分值,可以计算出计数改变值。该计数改变值表示针对当前帧信号的语音可能性投票票数的改变值。
在一些实施例中,为了提高分类判断的准确性,该方法还将结合前一帧的先前计数值来确定当前帧计数值。前一帧的先前计数值代表对前一帧信号的语音可能性投票的投票值。当前计数值代表对当前信号的语音可能性投票的投票值。例如,在S304,将计算的当前帧的计数改变值与前一帧的先前计数值相加,获得当前计数值。
接下来,在S306,将在S304处获得的当前计数值与计数阈值进行比较。并且在S308,根据比较的结果,可以检测出输入信号的当前帧的类别。即,可以确定当前帧是浊音、清音还是噪声。
图3所示的方法仅基于由入耳麦克风接收的信号帧的一个或多个声学特征,采用对语音可能性进行投票的机制,即可以准确地识别出包含语音的情况或者不包含语音(例如,安静或存在噪声)的情况,并且进一步检测出噪声、浊音和清音,而无需预先对多个不同型号的耳机设备的数据进行做统计分析和机器学习。
图4示出了根据本发明的一个或多个实施例的语音检测方法的一个示例。
在S402处,可以对通过入耳麦克风接收到声音信号进行预处理。在一些实施例中,可以先对接收的信号执行高通滤波,以滤除直流分量和低频底噪。在一些实施例中,还可以对信号执行轻度的降噪处理(例如采用最小跟踪法),以消除部分泄露到入耳音频传感器的外部噪声。例如,为了减少主要出现在低频带的平稳噪声,可以执行多频带谱减法的降噪。需要注意的是,由于噪声和清音都比较弱,因此噪声估计应该避免过估计,以防止弱清音被严重损坏。在该S402处的预处理可以是对当前帧的预处理。
在S404处,将当前帧的估计SNR与SNR阈值进行比较,并且将谱平坦度与相应谱平坦度阈值进行比较。如果当前帧的估计SNR大于等于SNR阈值,并且谱平坦度小于等于相应谱平坦度阈值,则前进至S406,执行第一计数改变值的计算。如果当前帧的估计SNR小于SNR阈值或者谱平坦度大于相应谱平坦度阈值,则前进至S408,执行第二计数改变值的计算。
在一些实施例中,在S406处,第一计数改变值的计算可以包括基于组合阈值条件的加分值计算S4062和减分值计算S4064。基于计算出的加分值和减分值,可以获得当前帧的第一计数改变值。
在一个示例中,与加分值有关的组合阈值条件可以包括与SNR和谱平坦度相关联的组合阈值条件。例如,该组合阈值条件可以是SNR大于最小SNR并且谱平坦度小于某一阈值。如果满足该组合阈值条件,则基于SNR的值,计算加分值。例如,在满足该组合阈值的情况下,根据SNR的值的不同,得出的加分值不同。
在另一个示例中,与减分值有关的组合阈值条件可以包括与能量分布、谱平坦度、谱质心中的至少一个关联的多个组合阈值条件。例如,与能量分布和谱平坦度相关联的减分组合阈值条件可以限定以下的条件:90%以上的信号能量分布于1250Hz以下,并且在各个频带,例如100-1250Hz,1250-2500Hz,2500-5000Hz,5000-7500Hz都有很高的谱平坦度。例如,与能量分布与谱平坦度相关联的减分组合阈值条件还可以限定以下的条件:95%以上的信号能量分布于300Hz-1250Hz,而且300Hz以下频段谱平坦度很高。例如,与能量分布与谱质心相关联的组合阈值条件可以限定以下的条件:能量分布在高频部分,诸如谱质心高于4000HZ。值得注意的是,本公开仅仅是通过举例的方式来对组合阈值条件进行原理性说明,而并非对组合阈值条件进行穷举或具体限制。本领域的技术人员可以通过本公开披露的组合阈值条件的原理认识到,可以根据本文前述列出的特征,例如可以基于SNR、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个来构成减分组合阈值条件。基于上述至少一个减分组合阈值条件,可以计算出减分值。
由此,在S406处,基于在S4062计算出的加分值和在S4064计算出的减分值,获得第一计数改变值。
接下来,在S410处,计算当前计数值。例如,将S406处计算出的第一计数改变值与前一帧的先前计数值相加,以获得当前计数值。
接下来,在S412处,判断当前计数值是否大于计数阈值。如果当前计数值大于计数阈值,则该方法前进至S414,将当前帧的输入信号判断为浊音。如果当前计数值不大于计数阈值,则该方法前进至S416,将当前帧的输入信号判断为噪声。计数阈值可以预先设定,例如可以设定为0。
此外,在一些实施例中,还可以将当前计数值的大小(即,投票值的大小)分别对应于不同概率值,以用于包含语音的概率判断。
另外,在一些实施例中,例如在S418处,判断在S4064处计算得出的减分值是否大于计数阈值。如果减分值大于计数阈值,则将当前帧的输入信号判断为语音延续(hangover)。语音延续是指语音因素或者音节之间的短暂停顿。如果将当前帧的输入信号判断为语音延续,则意味着当前帧的语音可能性的判断结果将延用上一帧的语音判断结果(例如,判断为清音或浊音)。本公开引入了这种语音延续的判断机制,对语音检测中的情况做出了更细化的分类,进而在提高检测的精细度的同时提高了语音检测的效率,同时可避免一些把音节之间极短暂的停顿作为噪声而带来的不必要操作。
在另一些实施例中,在S408处,第二计数改变值的计算可以包括浊音加分值计算S4082,清音加分值计算S4084,和减分值计算S4086。基于在S4082计算出的浊音加分值、在S4084计算出的清音加分值和在S4086计算出的减分值,可以获得当前帧的第二计数改变值。
在一个示例中,浊音加分值计算S4082可以包括:基于浊音组合阈值条件,来计算浊音加分值。浊音组合阈值条件可以包括与能量分布、谱平坦度、谱质心、谱通量中至少一个相关联的多个组合阈值条件。例如,与能量和谱平坦度相关联的浊音组合阈值条件可以限定以下的条件:能量强,谱平坦度低(具有谐波结构)。例如,与能量分布相关联的组合条件可以限定以下的条件:能量随频率增加而衰减,且在2500Hz以上基本消失。值得注意的是,本公开仅仅是通过举例的方式来对浊音组合阈值条件进行原理性说明,而并非对浊音组合阈值条件进行穷举或具体限制。通过本公开披露的浊音组合阈值条件的原理,本领域的技术人员可以认识到,可以根据本文前述列出的浊音的特征,例如可以基于SNR、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个来构成浊音组合阈值条件。
在一个示例中,清音加分值的计算S4084可以包括:基于清音组合阈值条件,来计算清音加分值。清音组合阈值条件可以包括与能量分布、谱平坦度、谱质心、谱通量中至少一个相关联的多个组合阈值条件。例如,与能量分布和谱平坦度相关联的清音组合阈值条件可以限定以下的条件:宽带信号,在各个频带能量分布均匀,总谱平坦度大,而且在各个频带谱平坦度也高。与能量分布、谱通量和谱平坦度相关联的清音组合阈值条件还可以限定以下的条件:在语音开端,能量集中于2500-7500HZ频带的,在2500-5000Hz以及5000-7500HZ都有比较高谱平坦度,而且能量较前一帧增加(即,谱通量差值为正)。可以理解的是,本公开此处仅仅是通过举例的方式来对清音组合阈值条件进行原理性说明,而并非对清音组合阈值条件进行穷举或具体限制。通过本公开披露的清音组合阈值条件的原理,本领域的技术人员可以认识到,可以根据本文前述列出的清音的特征,例如基于SNR、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间频谱相关性中的至少一个来构成清音组合阈值条件。
在另一个示例中,减分值计算S4086可以包括:基于至少一个减分组合阈值条件,来计算减分值。在S4086处的减分值计算的具体过程可以与S4064中的减分值计算相类似,细节在此省略。
由此,在S408处,基于在S4082计算出的浊音加分值、在S4084计算出的清音加分值和在S4086计算出的减分值,获得第二计数改变值。
接下来,在S422处,计算当前计数值。例如,将S408处计算出的第二计数改变值与前一帧的先前计数值相加,以获得当前计数值。
接下来,在S424处,判断当前计数值是否大于计数阈值。其中,计数阈值可以预先设定,例如可以设定为0。如果当前计数值不大于计数阈值,则该方法前进至S426,将当前帧的输入信号判断为噪声。如果当前计数值大于计数阈值,则该方法前进至S428。在S428处,进一步判断在S4082计算出的清音加分值是否大于计数阈值。如果清音加分值大于计数阈值,则该方法前进至S430,将当前帧的输入信号判断为清音。如果清音加分值不大于计数阈值,则该方法前进至S432,将当前帧的输入信号判断为浊音。
在一些实施例中,还可以将当前计数值的大小(即,投票值的大小)和/或浊音加分值的大小对应于不同概率值,以用于语音概率判断。
此外,在一些实施例中,在S434处,判断在S4086处计算得出的减分值是否大于计数阈值。如果减分值大于计数阈值,则该方法前进至S436,将当前帧的输入信号判断为语音延续。
图4所示的方法可以仅基于由入耳音频传感器,例如麦克风接收的信号,根据是否满足与至少一个声学特征相关联的组合阈值条件,来对语音可能性进行投票,从而可以全面、准确地检测出噪声、浊音和清音。与现有的依赖于对耳机设备采集的大量数据进行预先学习并根据学习来建模的基于数据学习或机器学习的方法相比,本公开的方法和系统从声学特征出发能够对语音进行全面的检测,同时避免了由于耳机设备的型号不同、使用场景不同而产生的偏差。
进一步,在图4的方法中,还可以按照阈值条件和/或组合阈值条件对投票结果的影响度的大小,来为阈值条件和/或组合阈值条件设置不同的权重值。在计算当前计数值时,对各个加分值或减分值的计算可以进一步包括结合权重值的计算。例如,为限定谱质心高于7kHz的阈值条件设置高权重值,当满足该阈值条件时,则可以直接将当前帧的信号检测为噪声。通过该方法,使得特殊情况也能被考虑到,既能保证检测的准确性也能提高检测的效率。
在另一些实施例中,本公开的语音检测方法还包括对检测结果进一步修正的方法,例如,利用时域特征修正噪声误判的方法。在一个示例中,如果满足至少一个第二组合阈值条件,则将当前帧的信号的判断结果修正为噪声,其中,所述至少一个第二组合阈值条件包括与信号能量分布和邻帧之间频谱相关性相关联的组合阈值条件。例如,如果出现信号的高频部分与前一帧出现很高邻帧之间频谱相关性的情况下,则可以将对信号的判断结果修正为噪声。在另一个示例中,如果连续多帧被判断为清音信号,则可以将该信号的判断结果修改为噪声。通过对语音检测结果的进一步修正,可以进一步提高本公开的语音检测方法和系统的准确性和鲁棒性。
图5和图6给出了利用本公开的语音检测方法在两种不同情况下的语音检测结果的示意图。其中,图5示出了一个通过降噪后,高信噪比语音检测的例子(例如,在汽车内的场景下),由图中可以看出采用本公开的语音检测方法的系统可以准确地检测到清音、浊音、音节之间的短暂停顿。此外,语音投票可用作语音概率判断。图6示出了一个低信噪比语音检测的例子(例如,在地铁站大厅一个嘈杂的场景下,包含被视为噪声的非佩戴者发出的广播人声),由图中可以看出采用本公开的语音检测方法的系统可以准确地检测到语音,而噪声被准确地剔除,基本不会造成误判,即使出现偶尔的短暂误检,也会迅速得到纠正。
条款1.在一些实施例中,一种使用入耳音频传感器检测语音的方法,包括:
对入耳音频传感器采集的输入信号的每一帧执行以下处理:
基于当前帧的输入信号的至少一个特征,来计算计数改变值,其中所述至少一个特征包括信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个;
将计算的计数改变值与前一帧的先前计数值相加,获得当前计数值;
将获得的当前计数值与计数阈值进行比较;并且
基于比较结果来判断所述当前帧的输入信号的类别,其中,所述类别包括噪声、浊音、清音。
条款2.根据前述任一项条款所述的方法,其中每个特征具有与其相关联的一个或多个阈值条件,并且其中,所述基于当前帧的输入信号的至少一个特征,来计算计数改变值包括:
通过组合至少一个特征的至少一个阈值条件,获得至少一个组合阈值条件,所述至少一个组合阈值条件包括至少一个加分组合阈值条件和至少一个减分组合阈值条件;
基于所述至少一个加分组合阈值条件,获得加分值;
基于所述至少一个减分组合阈值条件,获得减分值;以及
基于所述加分值和减分值,计算出所述计数改变值。
条款3.根据前述任一项条款所述的方法,还包括:
判断当前帧的估计信噪比是否大于等于信噪比阈值并且所述谱谱平坦度小于等于谱平坦度阈值;并且
响应于所述当前帧的估计信噪比大于等于所述信噪比阈值并且谱平坦度小于等于所述谱平坦度阈值,执行第一计数改变值的计算;或者
响应于所述当前帧的所述估计信噪比小于所述信噪比阈值或所述谱平坦度大于所述谱平坦度阈值,执行第二计数改变值的计算。
条款4.根据前述任一项条款所述的方法,其中,所述执行第一计数改变值的计算包括:
判断是否满足至少一个加分组合阈值条件中的第一加分组合阈值条件,所述第一加分组合阈值条件包括与信噪比和谱平坦度相关联的组合阈值条件;
响应于满足所述第一加分组合阈值条件,基于所述信噪比的值,计算加分值;
基于所述至少一个减分组合阈值条件,计算减分值;并且
基于计算出的加分值和减分值获得第一计数改变值。
条款5.根据前述任一项条款所述的方法,其中,所述执行第二计数改变值的计算包括:
基于所述至少一个加分组合阈值条件中的浊音组合阈值条件,计算浊音加分值;
基于所述至少一个加分组合阈值条件中的清音组合阈值条件,计算清音加分值;
基于所述至少一个减分组合阈值条件,计算减分值;并且
基于所述浊音加分值、清音加分值和减分值,获得第二计数改变值。
条款6.根据前述任一项条款所述的方法,还包括:
将所述第一计数改变值设置为计数改变值,并将所述计数改变值与前一帧的先前计数值相加,获得当前计数值。
条款7.根据前述任一项条款所述的方法,还包括:
将所述第二计数改变值设置为计数改变值,并将所述计数改变值与前一帧的先前计数值相加,获得当前计数值。
条款8.根据前述任一项条款所述的方法,还包括:
判断所述当前计数值是否大于所述计数阈值;并且
响应于所述当前计数值大于所述计数阈值,将所述当前帧的输入信号判断为浊音;或者
响应于所述当前计数值不大于所述计数阈值,将所述当前帧的输入信号判断为噪声。
条款9.根据前述任一项条款所述的方法,还包括:
判断所述当前计数值是否大于所述计数阈值;并且
响应于所述当前计数值不大于所述计数阈值,将所述当前帧的输入信号判断为噪声;或者
响应于所述当前计数值大于所述计数阈值,判断清音加分值是否大于所述计数阈值:
响应于所述清音加分值大于所述计数阈值,将所述当前帧的输入信号判断为清音;或
响应于所述清音加分值不大于所述计数阈值,将所述当前帧的输入信号判断为浊音。
条款10.根据前述任一项条款所述的方法,还包括:
判断所述减分值是否大于所述计数阈值;并且
响应于所述减分值大于计数阈值,将所述当前帧的输入信号判断为语音延续。
条款11.根据前述任一项条款所述的方法,还包括:如果满足至少一个第二组合阈值条件,则将当前帧的信号的判断结果修正为噪声,其中,所述至少一个第二组合阈值条件包括与信号能量分布与邻帧之间频谱相关性相关联的组合阈值条件。
条款12.根据前述任一项条款所述的方法,还包括:如果连续多帧的输入信号被判断为清音,则可以将所述连续多帧的输入信号的判断结果修改为噪声。
条款13.在一些实施例中,一种计算机可读介质,其上存储有计算机可读指令,该计算机可读指令在被计算机执行时,实现如权利要求1-12所述的方法中的任一项。
条款14.在一些实施例中,一种系统,包括存储器和处理器,所述存储器存储有计算机可读指令,该计算机可读指令在被所述处理器执行时,实现如权利要求1-12所述的方法中的任一项。
本文描述的处理器、存储器或系统中的任何一个或多个包括计算机可执行指令,所述计算机可执行指令可以从使用各种编程语言和/或技术创建的计算机程序中编译或解释。一般来说,处理器(诸如微处理器)例如从存储器、计算机可读介质等接收指令并执行指令。处理器包括能够执行软件程序的指令的非暂态计算机可读存储介质。计算机可读介质可以是但不限于电子存储装置、磁性存储装置、光学存储装置、电磁存储装置、半导体存储装置或其任何合适的组合。
已经出于说明和描述的目的而呈现了对实施方案的描述。可以鉴于以上描述执行或可以通过实践方法获得实施方案的合适的修改和变化。例如,除非另外指出,否则所描述的一种或多种方法可以由合适的装置和/或系统的组合来执行。所述方法可以通过以下方式来执行:利用一个或多个逻辑装置(例如,处理器)结合一个或多个另外的硬件元件(诸如存储装置、存储器、电路、硬件网络接口等)来执行存储的指令。所述方法和相关联动作还可以按除了本公开中所述的顺序之外的各种顺序并行和/或同时执行。所述系统本质上是示例性的,并且可包括另外的元件和/或省略元件。本公开的主题包括所公开的各种方法和系统配置以及其他特征、功能和/或性质的全部新颖的且非显而易见的组合。
已经出于说明和描述的目的而呈现了对实施方案的描述。可鉴于以上描述来执行对实施方案的合适的修改和改变,或者可通过实践方法来获取所述合适的修改和改变。还可按照除了在本申请中描述的次序之外的各种次序、并行地和/或同时地执行所描述的方法和相关联的动作。所描述的系统在本质上是示例性的,并且可包括其他的元件和/或省略元件。本公开的主题包括所公开的各种系统和配置与其他特征、功能和/或性质的所有新颖和非明显的组合。
如本申请中所使用的,以单数形式列举并且前面带有词语“一/一个”的元件或步骤应当被理解为并不排除多个所述元件或步骤,除非指出这种排除情况。此外,对本公开的“一个实施方案”或“一个示例”的参考并非意图解释为排除也并入所列举特征的另外实施方案的存在。上文已参考特定实施方案描述了本发明。然而,本领域的一般技术人员将理解,可在不脱离如所附权利要求书中陈述的本发明的较广精神和范围的情况下对其作出各种修改和改变。
Claims (10)
1.一种使用入耳音频传感器检测语音的方法,包括:
对所述入耳音频传感器采集的输入信号的每一帧执行以下处理:
基于当前帧的输入信号的至少一个特征,来计算计数改变值,其中所述至少一个特征包括估计信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个;
将计算的计数改变值与前一帧的先前计数值相加,获得当前计数值;
将获得的当前计数值与计数阈值进行比较;并且
基于比较结果来判断所述当前帧的输入信号的类别,其中,所述类别包括噪声、浊音、清音。
2.根据权利要求1所述的方法,其中每个特征具有与其相关联的一个或多个阈值条件,并且其中,所述基于当前帧的输入信号的至少一个特征,来计算计数改变值包括:
通过组合至少一个特征的至少一个阈值条件,获得至少一个组合阈值条件,所述至少一个组合阈值条件包括至少一个加分组合阈值条件和至少一个减分组合阈值条件;
基于所述至少一个加分组合阈值条件,获得加分值;
基于所述至少一个减分组合阈值条件,获得减分值;以及
基于所述加分值和减分值,计算出所述计数改变值。
3.根据权利要求1或2所述的方法,还包括:
判断当前帧的估计信噪比是否大于等于信噪比阈值并且所述谱平坦度小于等于谱平坦度阈值;并且
响应于所述当前帧的估计信噪比大于等于所述信噪比阈值并且所述谱平坦度小于等于所述谱平坦度阈值,执行第一计数改变值的计算;或者
响应于所述当前帧的估计信噪比小于所述信噪比阈值或谱平坦度大于所述谱平坦度阈值,执行第二计数改变值的计算。
4.根据权利要求3所述的方法,其中,所述执行第一计数改变值的计算包括:
判断是否满足至少一个加分组合阈值条件中的第一加分组合阈值条件,所述第一加分组合阈值条件包括与估计信噪比和谱平坦度相关联的组合阈值条件;
响应于满足所述第一加分组合阈值条件,基于所述信噪比的值,计算加分值;
基于所述至少一个减分组合阈值条件,计算减分值;并且
基于计算出的加分值和减分值获得第一计数改变值。
5.根据权利要求3所述的方法,其中,所述执行第二计数改变值的计算包括:
基于所述至少一个加分组合阈值条件中的浊音组合阈值条件,计算浊音加分值;
基于所述至少一个加分组合阈值条件中的清音组合阈值条件,计算清音加分值;
基于所述至少一个减分组合阈值条件,计算减分值;并且
基于所述浊音加分值、清音加分值和减分值,获得第二计数改变值。
6.根据权利要求4所述的方法,还包括:
将所述第一计数改变值设置为所述计数改变值,并将所述计数改变值与所述前一帧的先前计数值相加,获得所述当前计数值。
7.根据权利要求5所述的方法,还包括:
将所述第二计数改变值设置为所述计数改变值,并将所述计数改变值与所述前一帧的先前计数值相加,获得所述当前计数值。
8.根据权利要求6所述的方法,还包括:
判断所述当前计数值是否大于所述计数阈值;并且
响应于所述当前计数值大于所述计数阈值,将所述当前帧的输入信号判断为浊音;或者
响应于所述当前计数值不大于所述计数阈值,将所述当前帧的输入信号判断为噪声。
9.根据权利要求7所述的方法,还包括:
判断所述当前计数值是否大于所述计数阈值;并且
响应于所述当前计数值不大于所述计数阈值,将所述当前帧的输入信号判断为噪声;或者
响应于所述当前计数值大于所述计数阈值,判断清音加分值是否大于所述计数阈值:
响应于所述清音加分值大于所述计数阈值,将所述当前帧的输入信号判断为清音;或
响应于所述清音加分值不大于所述计数阈值,将所述当前帧的输入信号判断为浊音。
10.根据权利要求4或5所述的方法,还包括:
判断所述减分值是否大于所述计数阈值;并且
响应于所述减分值大于计数阈值,将所述当前帧的输入信号判断为语音延续。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319615.5A CN116935900A (zh) | 2022-03-29 | 2022-03-29 | 语音检测方法 |
EP23161727.5A EP4254409A1 (en) | 2022-03-29 | 2023-03-14 | Voice detection method |
US18/127,131 US20230317100A1 (en) | 2022-03-29 | 2023-03-28 | Method of Detecting Speech Using an in Ear Audio Sensor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319615.5A CN116935900A (zh) | 2022-03-29 | 2022-03-29 | 语音检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935900A true CN116935900A (zh) | 2023-10-24 |
Family
ID=85641008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210319615.5A Pending CN116935900A (zh) | 2022-03-29 | 2022-03-29 | 语音检测方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230317100A1 (zh) |
EP (1) | EP4254409A1 (zh) |
CN (1) | CN116935900A (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
CA2690433C (en) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
-
2022
- 2022-03-29 CN CN202210319615.5A patent/CN116935900A/zh active Pending
-
2023
- 2023-03-14 EP EP23161727.5A patent/EP4254409A1/en active Pending
- 2023-03-28 US US18/127,131 patent/US20230317100A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4254409A1 (en) | 2023-10-04 |
US20230317100A1 (en) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10628484B2 (en) | Vibrational devices as sound sensors | |
US11587579B2 (en) | Vowel sensing voice activity detector | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US10867620B2 (en) | Sibilance detection and mitigation | |
US9560456B2 (en) | Hearing aid and method of detecting vibration | |
US10074384B2 (en) | State estimating apparatus, state estimating method, and state estimating computer program | |
EP1973104A2 (en) | Method and apparatus for estimating noise by using harmonics of a voice signal | |
Niyogi et al. | Detecting stop consonants in continuous speech | |
US9384759B2 (en) | Voice activity detection and pitch estimation | |
Dekens et al. | Improved speech recognition in noisy environments by using a throat microphone for accurate voicing detection | |
Vijayan et al. | Throat microphone speech recognition using mfcc | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
Sztahó et al. | Automatic classification of emotions in spontaneous speech | |
Rahman et al. | Pitch characteristics of bone conducted speech | |
CN116935900A (zh) | 语音检测方法 | |
JP3649032B2 (ja) | 音声認識方法 | |
US11942107B2 (en) | Voice activity detection with low-power accelerometer | |
Lee et al. | Bone-conduction sensor assisted noise estimation for improved speech enhancement | |
Paul et al. | Speech recognition of throat microphone using MFCC approach | |
Kim et al. | Single-channel particular voice activity detection for monitoring the violence situations | |
US20240331714A1 (en) | Method for detecting distortions of speech signals and inpainting the distorted speech signals | |
Radha et al. | A Study on Alternative Speech Sensor | |
Sangwan et al. | Improved voice activity detection via contextual information and noise suppression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |