CN116564357A - 基于多标记的语音活动检测 - Google Patents

基于多标记的语音活动检测 Download PDF

Info

Publication number
CN116564357A
CN116564357A CN202310052966.9A CN202310052966A CN116564357A CN 116564357 A CN116564357 A CN 116564357A CN 202310052966 A CN202310052966 A CN 202310052966A CN 116564357 A CN116564357 A CN 116564357A
Authority
CN
China
Prior art keywords
speech
indicator
stage
audio signal
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310052966.9A
Other languages
English (en)
Inventor
S·巴布
D·拉霍特姆
N·拉克
D·鲁维什
S·苏布拉马尼亚姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Analog Devices International ULC
Original Assignee
Analog Devices International ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US18/158,358 external-priority patent/US20230253010A1/en
Application filed by Analog Devices International ULC filed Critical Analog Devices International ULC
Publication of CN116564357A publication Critical patent/CN116564357A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本公开涉及基于多标记的语音活动检测。在一个示例中,用于检测语音活动的机器实现的方法可以包括接收音频信号的数字表示。该方法还可以包括应用第一级,可以包括从音频信号的数字表示确定第一频域指示符以识别候选讲话持续时间。该方法还可以包括应用第二级,可以包括从音频信号的数字表示确定mel频率倒谱(MFC)指示符或音调指示符中的至少一个,以评估所识别的候选讲话持续时间是否包含讲话。

Description

基于多标记的语音活动检测
要求优先权
本专利申请要求Babu等人于2022年2月4日提交的题为“基于多标记的语音活动检测(VAD)”(代理人案卷No.3867.896PRV)的美国临时专利申请序列号63/306,790和Babu等人于2022年8月29日提交的题为“基于多标记的语音活动检测(VAD)”,(代理人案卷No.3867.896PV2)的美国临时专利申请序列号63/373,804的优先权权益,其全部内容通过引用并入本文。
技术领域
本文件大体上(但不限于)涉及人类声音活动的自动检测,并且更具体地涉及使用多标记来提供语音活动的指示。
背景技术
新兴的人机界面越来越多地支持使用语音命令,或者更一般地支持监控语音活动,例如用于情境识别遇险、检测明确请求或用于安全应用,作为示例。语音活动检测(VAD)通常指在不需要特定语言上下文或“唤醒”字或补充使用唤醒字进行上下文识别的系统的情况下检测人类发声。语音活动的检测可以在存在其他声源的情况下执行,这些声源包括背景噪声(例如,车辆噪声)或诸如多径效应(例如,回声)的不利声学伪影。
发明内容
VAD可以与自动化系统或能够执行自动化活动的系统(例如,移动电话或其他设备,例如使用网络通信地耦合到另一系统)一起使用。例如,本主题可用于将音频数据标记为包含人类讲话持续时间的可能开始和/或可能结束,或以其他方式指示存在或不存在人类讲话存在的特定可能性的持续时间。系统可以使用指示这种分类的数据,例如:(1)知道何时发出命令,或(2)在未发出命令时促进较低的处理器负载“休息”状态,这可以节省功率、带宽、内存或其他资源中的一个或多个。除了检测指定的“唤醒”字(或多个字)之外,本发明人已经认识到,可希望以讲话不可知的方式检测讲话的存在或不存在,例如可以允许VAD系统在不需要区域化或语言特定训练的情况下为各种用户和区域工作。
在汽车环境中,移动电话或其他移动通信设备可以与车辆电子设备配对(例如,通过无线网络协议或其他无线接口协议)。车辆电子设备或另一设备可以被配置为根据本主题执行VAD,例如基于如本文所述的VAD技术提供的一个或多个标记来允许或抑制向移动电话或其他设备传输流音频。以这种方式,移动设备不需要连续监视音频流以获得唤醒字或语音活动的其他标记,从而节省功率或网络带宽。包括作为车辆电子系统的一部分的音频组件,例如麦克风、放大器和滤波器,可以被配置为在具有与其他环境不同的背景噪声或声学伪影的环境中操作。
本文描述的技术还可以支持与向另一设备提供音频流相关的可变延迟。例如,在标记了语音活动之后,可以减少与音频传输相关的延迟,使得自动化系统可以更迅速地进一步处理标记的语音活动。可能希望减少讲话开始时与记录讲话的数字表示被传递到自动系统之间的等待时间。最大延迟可以由自动化系统制造商(例如,移动电话制造商)指定。通过一种或多种更精确的处理、更快的处理、更选择性的度量或更好的VAD方法,可以帮助减少延迟。
本发明人已经认识到,语音活动的检测可能带来各种挑战,特别是在嘈杂环境中。在一种方法中,时域技术可用于数字地执行语音活动检测(例如,标记、识别或分类时间持续时间,例如声学“帧”为讲话或非讲话)。例如,可以使用基于包络的方法。这种方法可能存在各种缺点,例如将具有足够能量的非讲话声音误分类为讲话以触发分类器。VAD的标准已经建立,如ITU-T建议G.729(06/12)和ETSI AMR-2(ETSI TS 126 094V4.00(2001-03)“Universal Mobile Telecommunication Systems(UMTS);Mandatory Speech Codecspeech processing functions,AMR speech codec;Voice Activity Detector(VAD)(3GPP TS 26.094version 4.0.0Release 4)”中所述,但此类标准在噪声环境中仍可能表现不佳。在另一种方法中,可以使用机器学习技术,例如在WebRTC开源项目中实现(https://webrtc.org/)然而,WebRTC实现版本1.0也可能无法满足某些语音检测特定阈值,并且可能不支持内部检测参数的调整(例如,仅提供“黑盒”检测模块)。在又一种方法中,频谱熵(SE)确定可用于分类,然而,当受到具有跨越宽频谱的能量范围的脉冲噪声时,这种方法可能容易受到错误触发。
鉴于上述挑战,本发明人认识到,除其他外,VAD可以使用多个标记来执行,例如使用从频域、mel频率倒谱域或倒谱域中的一个或多个导出的数据。多级方法可以与各自的标记一起使用:(1)将指定的持续时间标记为可能包含讲话的候选讲话区间,或(2)将先前识别的候选讲话间隔的一个或多个部分标记为可能含有讲话。可以输出被标记为可能包含讲话的候选讲话间隔的部分。这样的输出可以由系统的其他元件使用,例如触发进一步的处理以检测唤醒字、或口头请求或命令,或者开始其他活动,例如记录检测到活动的持续时间或触发记录音频流,作为说明性示例。
在一个示例中,用于检测语音活动的机器实现的方法可以包括接收音频信号的数字表示。该方法还可以包括应用第一级,可以包括从音频信号的数字表示确定第一频域指示符以识别候选讲话持续时间。该方法还可以包括应用第二级,可以包括从音频信号的数字表示确定mel频率倒谱(MFC)指示符或音调指示符中的至少一个,以评估所识别的候选讲话持续时间是否包含讲话。
在一个示例中,一种用于检测语音活动的机器实现的方法可以包括接收音频信号的数字表示。该方法还包括在所述音频信号的数字表示内建立定义指定持续时间的各个帧。该方法还包括应用第一级,包括从音频信号的数字表示的各个帧中的至少一个确定第一频域指示符以识别候选讲话持续时间。该方法还包括应用第二级,包括从所述音频信号的数字表示的各个帧中的至少一个确定mel频率倒谱(MFC)指示符,以评估所识别的候选讲话持续时间是否包含讲话。
在一个示例中,一种语音活动检测(VAD)系统可以包括接收器电路,被配置为接收音频信号的数字表示。该系统还可以包括与存储器电路耦合的处理器电路,所述存储器电路包含指令,当所述处理器电路执行所述指令时,所述指令使所述处理器电路:应用第一级,包括从所述音频信号的数字表示确定第一频域指示符以识别候选讲话持续时间;和应用第二级,包括从所述音频信号的数字表示中确定mel频率倒谱(MFC)指示符或音调指示符中的至少一个,以评估所识别的候选讲话持续时间是否包含讲话。
本概述旨在提供本专利申请的主题的概述。其不旨在提供对本发明的排他性或详尽的解释。包括详细描述以提供关于本专利申请的进一步信息。
附图说明
在可能未按比例绘制的附图中,相同的数字可以在一个或多个视图中描述基本上相似的部件。具有不同字母后缀的相同数字可以表示基本上相似的部件的不同实例。附图通过示例而非限制的方式概括地示出。
图1是语音活动检测系统的一部分的示例的框图。
图2A和图2B是诸如对应于图1所示系统的语音活动检测技术的一部分的示例的框图。
图3A、图3B和图3C是大体上示出包括建立用于执行语音活动检测的指示符的示例的曲线图。
图4A、图4B和图4C是大体上示出包括建立用于执行语音活动检测的又一指示符的示例的曲线图。
图5A和图5B是大体上示出包括建立用于执行语音活动检测的又一指示符的示例的图。
图6A示出了用于建立阈值和比较值的技术,并且图6B示出了使用来自图6A的阈值和比较数值应用指示符的分类器的输出。
图7A和图7B示出了与来自语音活动检测系统的一部分的指示符相对应的输出的说明性示例。
图8示出了与来自语音活动检测系统的一部分的指示符相对应的输出的说明性示例。
图9A、图9B和图9C示出了与来自语音活动检测系统的一部分的指示符相对应的输出的说明性示例。
图10是示出用于操作语音活动检测系统的部分的方法的示例的流程图。
图11是示出可以在其上实现一个或多个方法的机器的示例的框图。
具体实施方式
图1是语音活动检测(VAD)系统100的一部分的示例的框图。图1示出了传入数字音频信号节点110、语音活动检测块120、门块160和传出门控数字音频信号节点170。在传入数字音频信号节点110处提供的数据可以在被传递到语音活动检测块120之前被预处理。语音活动检测块120可以包括第一级130、第二级140和第三级150。来自传入数字音频信号节点110的音频信号可以顺序地、串行地、部分地同时地或并行地通过语音活动检测块120的一个或多个组件。门块160可以接收传入数字音频信号节点110上的输入数据和语音活动检测模块120的输出。门块160可以在传入数字音频信号节点110上产生语音活动检测块120标记为可能包含讲话的音频信号的一个或多个部分作为输出到传出门控数字音频信号节点170。
第一级130可以是语音活动检测块120的第一部分,以对来自传入数字音频信号节点110的音频信号的数字表示进行操作,并且可以识别或标记可能包含讲话的候选讲话间隔或候选讲话持续时间。第一级130可以被配置为具有指定的延迟,或者具有小于或等于指定的延迟的延迟。第一级130可以被配置为将具有指定的一组特征的任何间隔标记为候选讲话间隔,即使指定的特征可能不是讲话的决定性(例如,在识别候选间隔包含讲话的可能性方面,可以强调敏感性而不是特性)。在一个示例中,第一级130可以被配置为具有指定的延迟,例如可以导致指定的精度水平。
第二级140可以对来自传入数字音频信号节点110的所有数字音频信号进行操作,或者它可以仅对第一级130标记为候选讲话间隔的部分进行操作(例如,以级联方式)。第二级140可以应用一个或多个附加处理步骤以帮助确定间隔是否可能包含讲话。
第三级150可以对来自传入数字音频信号节点110的数字音频信号的所有传入各个帧或其他部分进行操作,或者它可以仅对第二级140标记为可能包含讲话的部分进行操作(例如,以级联方式)。第三级150可以应用一个或多个附加处理步骤以帮助确定间隔是否可能包含讲话。可以使用其他拓扑,其中三个级的示例是说明性的。
一旦语音活动检测系统100将间隔标记为可能包含讲话,则可以将其作为数字音频信号传递到传出门控数字音频信号节点170上的另一系统。当分析间隔或间隔的一部分以确定其是否可能包含讲话时,来自传入数字音频信号节点110的数字音频信号可以存储在语音活动检测系统100内的存储器(例如,缓冲)中,使得语音活动检测系统100可以在做出确定之后(例如,当间隔被标记为可能包含讲话时)将数字音频信号传递给其他系统而不丢失数据。如果存在与语音活动检测系统100的检测等待时间相比较长的讲话间隔,则将音频信号的一个或多个部分传递到另一个系统可以至少部分地与在传入数字音频信号节点110上接收的音频信号的一个或者多个部分同时发生。在一个示例中,一旦间隔被标记为可能包含讲话,则可以以指定的突发速度将间隔的存储部分发送到其他系统,并且可以实时或接近实时地发送间隔的剩余部分,例如可以包括而不由语音活动检测系统100单独缓冲。当语音活动检测块120确定讲话间隔的可能结束时,可以结束突发或流传输模式,或者可以由从语音活动检测系统100接收音频数据的设备终止这种突发或流传送。语音活动检测的操作可导致初始延迟,例如可在语音活动检测块120关于间隔是否可能包含讲话的初始确定期间。可以通过转换到突发或流模式来减少延迟,例如一旦间隔被标记为可能包含讲话。通常,可以强调对讲话启动的检测。一旦讲话结束,系统100就不需要停止捕获。例如,在声明或以其他方式标记可能缺少讲话之前,可以实时发送没有检测到讲话的时间期间。
图2A和图2B是诸如对应于图1所示的系统100的语音活动检测技术200的一部分的示例的框图。图2B是在连接点A、B、C和D处连接的图2A的延续。图2A和图2B的语音活动检测技术可以被配置为使用多标记来执行语音活动检测。图2A中所示的指示符可以是敏感的,但对讲话是选择性的,而不需要特定的语言上下文。图2A和图2B中所示的方法可以减少或抑制在例如汽车环境中发现的噪声的错误触发,例如发动机/道路噪声、当车辆越过减速器或穿过不平坦的表面时产生的砰砰声、当车窗摇下时由风引起的噪声、风扇(例如,气候控制风扇)引起的噪声或其他车辆引起的噪声,作为说明性示例。
图2A和图2B中所示的技术200可以全部或部分地使用数字信号处理器(DSP)或其他平台来实现,例如提供实时或接近实时的处理(例如,当提供音频流时,在逐帧的基础上)。通常,图2A和图2B中所示的方法组合来自频谱(例如,频域表示)和倒谱(例如,时域表示的对数缩放表示的逆变换)两者的信息。图2A和图2B中所示的方法可以应用于单个音频帧或多个音频帧,例如可以帮助相对于其他音频源实现对讲话的高灵敏度和特异性。通常,图2A和图2B所示的方法可以提供三个或更多个不同指示符的确定。三个或更多个不同的指示符可以是具有讲话或无讲话指示的二进制指示符,或者是分数值,例如可以包括整数或浮点值。可以用数字逻辑、分数加权或机器学习中的一个或多个来完成三个或更多个不同指示符的组合。在一个示例中,一个或多个指示符的输出可以是对讲话的处置。在一个示例中,可以组合一个或多个指示符的输出以确定是否存在讲话。在一个示例中,然后可以将三个或更多个不同的指示符提供给决策过程,以聚合来自各个指示符的各个分数,以提供总体语音活动检测确定。
在图2A和图2B的示例中,语音活动检测技术200可以包括传入数字音频节点210、预处理级220、第一级130、门块160和传出门控数字音频信号节点170。语音活动检测块120可以包括第一级130、第二级140和第三级150。
预处理级220可以包括一个或多个数字信号处理步骤,例如可以包括预加重、加窗或快速傅里叶变换(FFT)中的一个或更多个。预加重步骤可以尝试使信号更容易处理、尝试使能量分布在整个频谱上更均匀、或尝试校正信号链中的非线性(例如可能由于麦克风的非线性)中的一个或多个。在一个示例中,预加重可以强调指定的频率范围,例如可以包括音频信号的上范围中的频率。这可能是由于一些讲话信号在频谱的较低部分具有较高的能量。加窗步骤可以将在传入数字音频节点210上接收的音频信号划分为各个帧。在传入数字音频节点210上接收的数字音频信号可以是连续(例如,流式)信号或离散音频帧中的一个或多个。在一个示例中,信号可以是帧流,每个帧对应于指定的持续时间,例如可以对应于数字采样频率。加窗步骤可以通过简单地分组数字值将输入音频信号划分为帧来建立相应的帧,或者加窗步骤可尝试使用诸如Kaiser加窗的方法来平滑或锥形窗口的边缘。加窗可以通过提供代表FFT操作的指定时间间隔的离散值集来帮助FFT步骤。加窗可以帮助减少频谱泄漏,这可能是将信号分解为较小部分并确定较小部分的FFT而不是确定整个信号的FFT的伪影。在没有加窗的情况下,或者在大帧的情况下FFT可能会引入不期望的延迟或者产生不太有意义的输出中的一个或多个。加窗步骤可以产生具有定义的持续时间的帧。加窗步骤可以产生具有定义数量的数字数据点的帧。加窗步骤可以通过基于在传入数字音频节点210处接收的音频信号的流式表示来分配或接收各个帧来建立各个帧。
FFT步骤可以对输入进行快速傅里叶变换,例如可以包括预加重和加窗步骤的输出,并生成指示频谱的输出。输出可以包括在各种频率下的分析帧的幅度。第一级130可以被配置为分析帧以识别可能包含讲话的候选讲话窗口。第一级130可以接收预处理级220的输出作为输入,并且可以包括带限滤波器、标准偏差块、自适应阈值块和评分块中的一个或多个。
频带限制滤波器可以去除或减少频谱中通常在讲话中产生的频率之外的频带的幅度,例如可以包括低于300Hz或高于4kHz中的一个或多个。标准偏差块可计算频谱的标准偏差,例如可导致频谱上能量的分散或扩展的测量。从频谱提取的标准偏差值可以与阈值进行比较,例如可以包括指定的固定阈值或可变(例如自适应)阈值中的一个或多个。阈值比较块可以生成二进制或序数分数以发送给分数块。
第一级130还可以包括帧间变化块和平均能量块,该帧间变化模块用于测量帧之间确定的频谱标准偏差的变化,平均能量块用于测量带限光谱的平均能量。来自帧间变化块和平均能量块的输出还可以向得分块发送二进制或序数得分。第一级130可以一次在单个帧上操作,或者一次在多于一个帧上操作。第一级130可包含存储器,其可允许对多个帧的结果进行比较和平均。各种二进制和序数分数和度量可以是加权、平均、使用数字逻辑组合或以其他方式处理以导致标记候选讲话间隔的一个或多个。
自适应阈值的使用(下面参照图6A和图6B更详细地讨论)可以帮助语音活动检测系统100在变化的条件范围内更准确,例如可以包括变化的速度、路面或影响环境噪声水平的其他条件。例如,阈值可能随着汽车加速而增加,并且车厢变得更嘈杂,这可能导致频谱的一个或多个更高的平均能量或更高的标准偏差,即使当不存在讲话时也是如此。
在包含讲话的音频数据中,与不存在讲话的FFT输出相比,FFT的输出可以显示更大的平均幅度或更大的频率变化或两者中的一个或多个。在公共噪声源的音频数据中,FFT的输出可以显示较低的平均幅度或较小的频率变化中的一个或多个。这可以允许第一级130通过计算和使用音频输入信号的标准偏差和平均能量中的一个或多个来识别候选讲话间隔。此外,与讲话相关联的能量的频率分布可以比普通环境噪声源随时间变化更多,这可以允许使用帧之间的变化(例如,随时间变化)来帮助确定候选讲话间隔。
第二级140可以接收预处理级220的输出作为输入,并且可以包括mel频率倒谱系数(MFCC)指示符242、音调指示符244和讲话确定块中的一个或多个。MFCC指示符可以包括mel滤波器、Log_10块、离散余弦变换(DCT)块、delta-delta块、标准偏差块、高阈值和低阈值中的一个或多个。
MFCC指示符可以确定从音频输入的数字表示中提取的数字数据的持续时间的MFC系数。例如,mel频率滤波器可以将来自预处理级220的频谱输出映射到mel标度上以生成mel频谱。mel频谱可以是根据经验确定的频谱,旨在提供来自传入信号的能量到mel频率仓的感知均匀(或接近感知均匀)分配。例如,频率的相等增量可能不会被人耳感知为相等增量。使用mel频率表示会创建等间距但在mel尺度而非线性频率尺度上的区间。从mel频率滤波器输出的mel频谱可以通过Log_10块以计算mel频谱中mel频率值的以10为底的对数。Log_10块的输出可以通过DCT块以产生MFCC频谱。例如,在通过Log_10块之后,mel频谱可以像时间序列一样被DCT变换,其中每个mel频率区间值的以10为底的对数作为输入序列提供给DCT块,以提供MFCC频谱作为DCT块的所得变换输出。
MFCC频谱可以被分成多个区间,例如可以包括10个区间、15个区间、20个区间、30个区间或40个区间,作为示例性示例。delta delta块可以计算给定帧的相邻区间之间的差以产生中间组delta值,然后可以计算帧之间(例如,跨时间)的中间组dela值之间的差,以确定最终delta-delta值。标准偏差块可将delta-delta输出分成两半,每一半包含MFCC区间的一半,并计算每一半的标准偏差,然后对两半的标准偏差求和。然后可以将标准偏差的总和与高阈值和低阈值进行比较。如果标准偏差的总和始终高于高阈值,则候选讲话间隔可以被标记为可能包含讲话。如果标准偏差的总和始终低于高阈值或低阈值中的一个或多个,则候选讲话间隔可能不会被标记为可能包含讲话。MFCC指示符242可以帮助检测讲话,因为人类讲话具有比许多常见环境噪声更宽的mel频谱或跨区间更快速的变化中的一个或多个,并且这种mel频谱随时间变化。
MFCC指示符242还可以包括中值能量块和阈值块。中值能量块可以计算MFCC频谱的中值或平均能量。如果中值低于阈值,则即使标准偏差之和高于高阈值,MFCC指示符242也可以不将候选讲话间隔标记为可能包含讲话。这可以帮助语音活动检测系统100在由于噪声或其他现象导致的标准偏差之和高时正确地识别可能的讲话缺失,但是信号的总能量低,这可以指示不存在讲话。
音调指示符244可以包括自然对数块、快速傅里叶逆变换(IFFT)块、时间限制块、线性加权块、最大值块和阈值块中的一个或多个。音调指示符244可以连接到预处理级220的输出,并且可以计算传入数字音频节点210上的输入数字音频信号的倒谱。自然对数块可以计算由预处理级220输出的频谱的自然对数。IFFT块可以计算自然对数块的输出的实IFFT,以生成实倒谱。时间限制块可以去除倒谱的某些部分,例如可以包括不是讲话的良好指示符的部分。在一个示例中,时间限制块可以产生倒谱的上部区域,例如可以包括3.3-10毫秒。线性加权块可以加权和平均倒谱的各个区域或加权和平均多个帧中的一个或多个。最大值块可以计算最后三帧的最大加权值。阈值块可以将最大值块的输出与阈值进行比较,例如可以包括固定阈值。如果中心趋势的平均值或其他度量高于阈值,则候选讲话间隔可以被确定为讲话。如果平均值低于阈值,则可以确定候选讲话间隔不是讲话。
讲话可以包括可以在倒谱的上部区域中检测到的某些音调特征,这可以使音调指示符244成为语音的有用指示符。然而,在一个或多个声音、字的某些部分、字或短语中,音调可能不存在。这可以使得具有其他讲话指示符是有帮助的,例如可以包括第一级130、MFCC指示符242和第三级150。
讲话确定块可以组合来自MFCC指示符242和音调指示符244的一个或多个输出,以确定第二级140候选讲话间隔是否可能包含讲话。讲话确定块还可以修改候选讲话间隔以添加或移除帧。讲话确定块可以使用二进制逻辑或序数值的加权中的一个或多个。
第三级150可以包括定时检查块。定时检查块可以确定由第一级130和第二级140标记为可能包含讲话的间隔的时间长度。如果间隔小于指定持续时间,则定时检查块可以确定由第二级140确定为可能包含讲话的间隔不可能包含讲话。这可能有助于减少被错误标记为可能包含讲话的非讲话事件的数量。这种非讲话事件可以包括具有比实际讲话的典型持续时间更短的脉冲或其他环境噪声。
门块160可以包括用于修改否则被第一级130标记为候选讲话间隔的间隔的块,以及否则被第一级130标记为候选讲话间隔的块到门间隔。第二级140可以指示修改块通过应用来自第二级的指示来调整候选讲话间隔,例如修改候选讲话间隔的边界。第二级140可以指示门块允许或抑制候选讲话间隔,例如向门块指示允许或抑制修改的或未修改的候选讲话间隔。第三级150可以指示门块允许或抑制候选讲话间隔。在一个示例中,来自第三级150的抑制信号可以覆盖来自第二级140的允许信号。门块160可以包括逻辑、存储器、处理器或其他硬件,以在确定在传出门控数字音频信号节点170上允许或抑制什么音频数据时考虑来自语音活动检测块120的一个或多个输入。
图3A、图3B和图3C是大体上示出包括建立用于执行语音活动检测的指示符的示例的曲线图。在图3A中,示出了实验获得的音频流,该音频流在驾驶期间从汽车获得,其中有人在说话。在图3B中,形成一系列频域表示以向频谱图提供表示时间的横轴和表示频率的纵轴。在图3C中,对一帧或一系列音频帧中的至少一个进行色散确定(例如,语音频率(300Hz-4kHz)中频谱的标准偏差)。由于与发动机噪声相比,讲话可能在更宽的频率范围内具有能量,因此包含讲话的区域中的频谱标准偏差可能是一个或多个显著或显著不同的。然而,当车辆经过不平坦的路面时产生的冲击声(如砰砰声)也可能具有较大的光谱标准偏差。此外,从统计角度来看,讲话是非平稳的,因此标准差在整个音素的持续时间内通常是非恒定的。例如,持续时间310内的高亮区域示出了在图3C的标准偏差图中登记尖峰的非讲话噪声。因此,单独地,图3C中的尖峰可以用于指示讲话,但是这样的指示符在单独使用时可能没有足够的选择性。
图3A可以表示传入数字音频节点210上的输入音频信号。图3B可以表示传入数字音频信号节点110上的预处理级220的输出。图3C可以表示第一级130中的标准偏差块的输出。图3C中的尖峰可以表示讲话事件。然而,如上所述,由持续时间310限定的持续时间中的尖峰不是讲话事件,而是汽车撞上减速器的结果。第一级130可以使用图3C中的信息来标记可能包含讲话的候选讲话间隔,然后依赖于第二级140和第三级150来移除不可能包含讲话间隔的一部分或多部分,或者移除不可能含有讲话的完整间隔。例如,第一级130可以具有期望的假阴性率,这意味着它很少错过讲话事件,但是可以具有不期望的假阳性率,这就意味着它错误地将许多事件识别为实际上不包含讲话的讲话。图3A、图3B和图3C还示出了由于汽车加速导致的环境噪声的增加,这可以看作是图3A所示的平均噪声幅度的增加,以及图3C所示的标准偏差的增加。
图4A、图4B和图4C是大体上示出包括建立用于执行语音活动检测的又一指示符的示例的曲线图。图4A对应于图3A中使用的相同数据。在图4A中,通过确定频域表示中的幅度的对数并执行逆变换来进行一系列倒谱确定,如上面图2A所示。在图4A和图4B中所示的细节中,横轴表示时间,并且纵轴表示倒谱区间指数(例如,与倒谱表示中的时间指数相对应的区间数),图4A和4B中的图的上部显示了较低的区间数,而图4A和4B中的图下部显示了较高的区间数。通常,如图4C所示,可以为各个音频帧的一系列倒谱确定确定峰值,其中倒谱的上部区域捕获讲话中的音调信息(例如,从大约3.3毫秒到大约10毫秒,或者对应于24千赫采样率的区间80-240)。然而,并非所有与讲话相关的声音都携带音调信息。音调通常是讲话的一个明确指示符,但它只存在于某些讲话区域。此外,在存在驾驶噪音时,音调可能会被掩盖。单独依靠音调指示器会再次导致较低的灵敏度。
图4A可以表示音调指示符244中的IFFT块的输出。图4B是方框410中所示的图4A的倒谱区域的放大视图。图4B中的线420表示在音调指示器244中对倒谱施加的时间限制。线上方的值表示可丢弃的较低值,橙色线下方的值表示可以进一步分析的较高值。图4C可以是音调指示器244中的最大值块的输出。图4C示出了在持续时间310中通过减速器产生的音频信号没有在音调指示器244上产生表示语音的响应。这可以允许音调指示器244确定速度断路器可能不是讲话,并且可以帮助防止门块160允许对应于传出门控数字音频信号节点170上的速度断路器的非讲话数据。在一个示例中,如果图4C中所示的倒谱指示符中存在高于指定阈值的单个峰值,则语音活动检测系统100可以确定候选讲话间隔可能包含讲话。
图5A和图5B是大体上示出包括建立用于执行语音活动检测的又一指示符的示例的图。图5A对应于图3A和图4A中使用的相同数据。在图5A中,mel频率倒谱系数的delta-delta值是通过确定帧内各个区间之间的中间差,然后确定帧之间的中间差值来确定的,如上面图2A所示。在图5A和图5B中,横轴表示时间。在图5A中,纵轴表示MFCC delta-delta区间索引,图5A中的图的下部示出了较低的区间数,并且图5A的图的上部示出了较高的区间数。在图5A中,mel倒谱被分成20个区间。图5A可以表示MFCC指示符242中的增量-增量块的输出。图5B示出了上部10个区间的标准偏差和下部10个区间标准偏差的总和。通常,图5B中的大值对应于讲话事件。然而,持续时间310中所示的速度断路器现象也可以记录在图5B中。给定速度断路器现象的短长度,第三级150中的定时检查可以帮助确定这些可能不是讲话。在一个示例中,如说明性示例,如果间隔小于100毫秒、200毫秒、300毫秒、400毫秒或500毫秒,则第三级150可以将该间隔标记为可能不是讲话。
在图5A中,讲话可以显示为在帧内在正和负之间交替的帧,显示为从暗到亮的交替。该指示可以使MFCC有助于检测讲话。在图5A和图5B中,当汽车加速时,噪声本底也升高,但是由讲话引起的峰值仍然高于噪声。在某些操作条件(例如巡航速度)下,噪声本底可能淹没讲话指示。这可以通过使MFCC指示符242中的高阈值和低阈值自适应或以其他方式可变来帮助。在一个示例中,高阈值或低阈值中的一个或多个是固定的。在一个示例中,高阈值或低阈值中的一个或多个是自适应的。此外,环境噪声表现为MFCC delta-delta下半部分的几个区间之间的变化,而不是MFCC delta-delt区间范围内的变化。该差异可以用作讲话的另一个指示符,例如可以包括在平均值中更重地加权上10个区间的标准偏差。
图6A示出了用于建立阈值和比较值的技术,并且图6B示出了使用图6A的阈值和比较数值应用指示符的分类器的输出。图6A示出了如何调整第一级130中的自适应阈值的示例。作为说明性示例,第一级130可以确定指定时间段内的光谱指示符的平均值,例如可以包括100毫秒或200毫秒。该平均值可以存储为噪声平均值。然后,第一级130可以计算所确定的噪声均值周围的光谱指示符的标准偏差,以获得参考值(例如,区域610的面积)。第一级130然后可以确定超过噪声平均值的频谱指示符的和(例如,如区域620中所示的积分)另一指定时间期间,例如可以近似匹配第一期间的期间。如果区域620的面积超过区域610的面积指定值,例如可以包括指定的整数倍或浮点值,则第二时间期间可以被标记为候选讲话间隔。如果一个时间讲话被标记为候选讲话间隔,则它可以不用于调整噪声均值。如果时间期间未被标记为候选讲话间隔,则可以使用该时间期间来调整未来时间期间的噪声均值,这可以帮助第一级130适应变化的环境噪声水平。
图6B示出了第一级130频谱指示符的一部分的示例,包括指示符值、未检测到讲话的区域的指示符的平均值、信噪比的对数以及第一级130的输出(例如候选讲话间隔确定)。图6B示出了除了检测到讲话的区域之外,噪声均值跟踪频谱指示符,在这种情况下,噪声均值保持恒定。信噪比的对数可以用作区域610和620的区域中的差异的调谐指示符。当对数超过指定值时,第一级130标记候选讲话间隔。
图7A和图7B示出了与来自语音活动检测系统100的一部分的指示符相对应的输出的说明性示例。图7A示出了MFCC delta-delta值的半标准偏差之和,例如可以离开MFCC指示符242的标准偏差块。图7B示出,如果图7A的线在2个或更多帧的高阈值之上、在低阈值之上,或者MFCC的中值能量在阈值之上,则各个指示符变高。图7B中所示的三个指示符可以以各种方式组合以确定MFCC指示符242的输出。例如,MFCC指示符242的输出可以指示在任何时间超过高阈值时可能存在讲话。在一个示例中,如果平均能量不高于阈值,则MFCC指示符242的输出可能不指示讲话可能存在,而与delta-delta指示符无关。在一个示例中,高阈值、低阈值或中值能量阈值中的一个或多个可用于修剪候选讲话间隔的开始或候选讲话间隔结束中的一者或多者。
图8示出了与来自语音活动检测系统100的一部分的指示符相对应的输出的说明性示例。图8示出了音调指示符的输出,例如可以包括音调指示器244中的时间限制块的输出,以及音调是否存在的确定,例如可以包含音调指示符244的输出。图8示出了音调可能仅存在于讲话的短部分,而可能不存在于所有讲话。然而,音调在语音活动检测系统100中仍然是有用的,例如用于交叉检查讲话是否可能存在。在一个示例中,如果候选讲话间隔的任何部分存在音调,则可以将其标记为可能包含讲话。这可以帮助提高语音活动检测系统100的特异性。此外,所描述的技术仍然可以在没有音调信息的情况下使用,但可能具有更高的讲话错误检测频率。
图9A、图9B和图9C示出了与来自语音活动检测系统100的一部分的指示符相对应的输出的说明性示例。图9A示出了由第一级130标记的候选讲话间隔,以及在传出门控数字音频信号节点170上输出的语音活动检测系统100的最终输出讲话间隔。图9B示出了由语音活动检测系统100的MFCC指示符242生成的MFCC指示符。图9C示出了由语音活动检测系统100的音调指示符244生成的音调指示符。图9A、图9B和图9C示出了从图9A中的第一级130开始的间隔最初是宽的,并且由第二级140细化。图9A所示的最终间隔都包括来自图9C所示音调指示符244的至少一个正指示,以及超过高指示符的MFCC delta-delta的至少一部分。当在指定的间隔持续时间(例如可以包括200毫秒)中超过低阈值、中值能量阈值或高阈值中的两个或更多个时,间隔可以开始。当在指定的间隔持续时间(例如可以包括200毫秒)中未超过低阈值、中值能量阈值或高阈值中的一个或多个时,间隔可以结束,例如可以包括始终未超过。在一个示例中,在传出门控数字音频信号节点170上接收音频信号的设备可以被配置为确定讲话间隔的结束。在一个示例中,语音活动检测系统100可以等待一段非活动时间以结束讲话间隔,例如可以包括400毫秒的非活动时间作为示例。
图10是示出用于操作语音活动检测系统100的部分的方法的示例的流程图1000。在1002处,可以接收音频信号的数字表示。在1004处,可以应用第一级来从音频信号的数字表示中确定第一频域指示符,以识别候选讲话持续时间。在1006处,可以应用第二级来确定音频信号的数字表示的mel频率倒谱(MFC)指示符或音调指示符中的至少一个,以评估所识别的候选讲话持续时间是否包含讲话。所示的步骤顺序不旨在限制步骤的执行顺序。在一个示例中,可以同时或至少部分同时执行两个或多个步骤。图10所示的步骤可以在诸如语音活动检测系统100的系统上执行。
在一个示例中,该方法可以包括第三级。第三级可应用于按持续时间选通候选讲话间隔,以确定候选讲话间隔是否可能包含讲话。第三级可以在第二级之后应用,或者第三级可与一个或多个其他级并行应用。
作为示例,可以在变换到频域之后实现噪声降低,其中信号由不同频率的幅度或能量值表示。对于频谱子带,可以建立频率特定衰减因子,并将其应用于子带中分量的振幅或能量值。以此方式,噪声在相应的子频带中被衰减。可以使用频率特定的最小值来计算一些或所有频率的衰减因子,并且可以针对正在处理的每个相应信号帧或者根据另一方案来更新衰减因子。最小值可以被确定为前一时间间隔中对应频率的最低幅度的时间平均值,其中可以根据与信号帧相关联的估计讲话概率来建立平均的速率或持续时间。在一种方法中,对于每个频率,衰减因子被计算为一减去相应频率处的最小值和电流幅度的商,例如具有可调谐的较低阈值,超过该阈值信号幅度将不会进一步减小。这样的阈值可以设置噪声降低的选定强度或程度。在与相应频率的幅度相乘之前,可以平滑衰减因子,例如在时间和频率上进行平均。
图11示出了示例机器1100的框图,在此讨论的技术(例如,方法)中的任何一个或多个可以在其上执行。如本文所述,示例可包括机器1100中的逻辑或多个组件或机构,或可由其操作。电路(例如,处理电路)是在机器1100的有形实体中实现的电路的集合,包括硬件(例如,简单电路、门、逻辑等)。随着时间的推移,电路成员可能是灵活的。电路包括在操作时可以单独或组合执行指定操作的成员。在一个示例中,电路的硬件可以不受限制地设计为执行特定操作(例如,硬连线)。在一个示例中,电路的硬件可以包括可变连接的物理组件(例如,执行单元、晶体管、简单电路等),包括物理修改的机器可读介质(例如,磁性的、电的、不变聚集粒子的可移动放置等),以编码特定操作的指令。在连接物理组件时,硬件组件的基本电气性能会发生变化,例如,从绝缘体到导体或反之亦然。指令使得嵌入式硬件(例如,执行单元或加载机制)能够经由可变连接在硬件中创建电路的成员,以在操作时执行特定操作的部分。因此,在一个示例中,当设备运行时,机器可读介质元件是电路的一部分或通信地耦合到电路的其他组件。在一个示例中,任何物理组件都可以用于多于一个电路的多于一个成员中。例如,在操作下,执行单元可以在一个时间点被用在第一电路的第一电路中,并且被第一电路中的第二电路重用,或者被第二电路中的第一电路在不同的时间重用。以下是关于机器1100的这些部件的附加示例。
在替代实施例中,机器1100可以作为独立设备操作,或者可以连接(例如,联网)到其他机器。在联网部署中,机器1100可以在服务器-客户端网络环境中以服务器机器、客户端机器或两者的能力操作。在一个示例中,机器1100可以充当对等(P2P)(或其他分布式)网络环境中的对等机器。机器1100可以是个人计算机(PC)、平板电脑、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络设备、网络路由器、交换机或网桥,或者能够执行指定该机器要采取的动作的指令(顺序或其他)的任何机器。此外,虽然仅示出了一台机器,但术语“机器”也应包括单独或联合执行一组(或多组)指令以执行本文讨论的任何一种或多种方法的任何机器集合,例如云计算、软件即服务(SaaS)、其他计算机集群配置。
机器(例如,计算机系统)1100可以包括硬件处理器1102(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核心或其任何组合)、主存储器1104、静态存储器(例如,用于固件、微代码、基本输入输出(BIOS)、统一可扩展固件接口(UEFI)等的存储器或存储器)1106、以及大容量存储器1108(例如,硬盘驱动器、磁带驱动器、闪存或其他块设备),其中一些或全部可以经由互连(例如,总线)1130彼此通信。机器1100还可以包括显示单元1110、字母数字输入设备1112(例如,键盘)和用户界面(UI)导航设备1114(例如,鼠标)。在示例中,显示单元1110、输入设备1112和UI导航设备1114可以是触摸屏显示器。机器1100还可以包括存储设备(例如,驱动单元)1108、信号生成设备1118(例如,扬声器)、网络接口设备1120和一个或多个传感器1116,例如全球定位系统(GPS)传感器、罗盘、加速计或其他传感器。机器1100可以包括输出控制器1128,例如串行(例如,通用串行总线(USB)、并行或其他有线或无线(例如,红外(IR)、近场通信(NFC)等)连接,以通信或控制一个或多个外围设备(例如,打印机、读卡器等)。
处理器1102、主存储器1104、静态存储器1106或大容量存储器1108的寄存器可以是或包括机器可读介质1122,在机器可读介质上存储体现或由本文所描述的技术或功能中的任何一个或多个使用的一组或多组数据结构或指令1124(例如,软件)。在机器1100执行指令1124期间,指令1124还可以完全或至少部分地驻留在处理器1102、主存储器1104、静态存储器1106或大容量存储器1108的任何寄存器内。在一个示例中,硬件处理器1102、主存储器1104、静态存储器1106或大容量存储器1108中的一个或任意组合可以构成机器可读介质1122。虽然机器可读介质1122被示为单个介质,但是术语“机器可读介质”可以包括被配置为存储一个或多个指令1124的单个介质或多个介质(例如,集中式或分布式数据库,和/或相关联的高速缓存和服务器)。
术语“机器可读介质”可以包括能够存储、编码或携带由机器1100执行的指令并且使得机器1100执行本公开的任何一个或多个技术的任何介质,或者能够存储、解码或携带由这些指令使用或与这些指令相关联的数据结构的任何介质。非限制性机器可读介质示例可以包括固态存储器、光学介质、磁性介质和信号(例如,射频信号、其他基于光子的信号、声音信号等)。在一个示例中,非暂时性机器可读介质包括具有多个具有不变(例如静止)质量的粒子的机器可读介质,因此是物质的组成。因此,非瞬时机器可读介质是不包括瞬时传播信号的机器可读介质。非暂时性机器可读介质的具体示例可以包括:非易失性存储器,例如半导体存储器设备(例如,电可编程只读存储器(EPROM)、电可擦除可编程只读存储(EEPROM))和闪存设备;磁盘,例如内部硬盘和可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。
在一个示例中,存储或以其他方式提供在机器可读介质1122上的信息可以表示指令1124,例如指令1124本身或可以从其导出指令1124的格式。可以从中导出指令1124的这种格式可以包括源代码、编码指令(例如,以压缩或加密形式)、打包指令(例如分成多个包)等。机器可读介质1122中表示指令1124的信息可以由处理电路处理成指令,以实现本文所讨论的任何操作。例如,从信息导出指令1124(例如,由处理电路进行的处理)可以包括:编译(例如,从源代码、目标代码等)、解释、加载、组织(例如,动态或静态链接)、编码、解码、加密、解密、打包、解包或以其他方式将信息操纵到指令1124中。
在一个示例中,指令1124的推导可以包括信息的汇编、编译或解释(例如,由处理电路),以从机器可读介质1122提供的某种中间或预处理格式创建指令1124。当以多个部分提供时,信息可以被组合、解压缩和修改以创建指令1124。例如,信息可以在一个或多个远程服务器上的多个压缩源代码包(或目标代码,或二进制可执行代码等)中。源代码包可以在通过网络传输时被加密,并在本地机器处被解密、解压缩、组装(例如,链接)(如果需要)和编译或解释(例如,编译成库、独立可执行文件等),并由本地机器执行。
指令1124可以通过使用多种传输协议(例如,帧中继、因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等)中的任何一种的网络接口设备1120,使用传输介质在通信网络1126上进一步发送或接收。示例通信网络可以包括局域网(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、LoRa/LoRaWAN或卫星通信网络、移动电话网络(例如蜂窝网络,诸如符合3G、4G LTE/LTE-A或5G标准的蜂窝网络)、普通老式电话(POTS)网络以及无线数据网络(例如,电气和电子工程师协会(IEEE)802.11标准系列(称为)、IEEE 802.15.4标准系列、对等(P2P)网络等。在一个示例中,网络接口设备1120可以包括一个或多个物理插口(例如,以太网、同轴或电话插口)或一个或更多个天线以连接到通信网络1126。在一个示例中,网络接口设备1120可以包括多个天线,以使用单输入多输出(SIMO)、多输入多输出输出(MIMO)或多输入单输出(MISO)技术中的至少一种进行无线通信。术语“传输介质”应包括能够存储、编码或携带机器1100执行的指令的任何无形介质,并包括数字或模拟通信信号或其他无形介质,以便于此类软件的通信。传输介质是机器可读介质。
其他注释和示例
示例1是一种用于检测语音活动的机器实现的方法,所述方法包括:接收音频信号的数字表示;应用第一级,所述第一级包括从所述音频信号的数字表示确定第一频域指示符以识别候选讲话持续时间;和应用第二级,包括从所述音频信号的数字表示中确定mel频率倒谱(MFC)指示符或音调指示符中的至少一个,以评估所识别的候选讲话持续时间是否包含讲话。
在示例2,示例1的主旨任选地包括:在所述音频信号的数字表示内建立定义指定持续时间的各个帧,其中所述第一级或所述第二级中的至少一个对所述各个帧中的至少之一进行操作。
在示例3,示例2的主旨任选地包括:其中接收音频信号的数字表示包括接收流式表示;和其中所述建立各个帧包括基于所述流式表示来分配或接收所述各个帧。
在示例4,示例2-3中任一项或多项的主旨任选地包括:其中所述第一频域指示符包括确定所述音频信号的数字表示的频谱分量的频散的表示,所述频散由对应于一帧的频域变换确定。
在示例5,示例4的主旨任选地包括:将所确定的色散表示与第一阈值进行比较,并响应于所述比较的结果来声明候选讲话持续时间.
在示例6,示例5的主旨任选地包括:基于使用多个帧确定的所述第一频域指示符的中心趋势来调整所述第一阈值。
在示例7,示例6的主旨任选地包括:其中基于被确定为不包含讲话的帧来调整所述第一阈值.
在示例8,示例2-7中任一项或多项的主旨任选地包括:其中所述第二级包括音调指示符,所述音调指示符包括以下逆频域变换:所述各个帧中的帧的相应一个的时域表示的频域变换的对数。
在示例9,示例8的主旨任选地包括:其中所述音调指示符包括确定所述逆频域变换内的指定范围的区间的幅度的中心趋势。
在示例10,示例9的主旨任选地包括:将所确定的中心趋势与阈值进行比较,并且如果超过所述阈值,则将候选讲话持续时间声明为讲话。
在示例11,示例1-10中任一项或多项的主旨任选地包括:其中所述第二级包括MFC指示符。
在示例12,示例11的主旨任选地包括:其中所述MFC指示符包括确定所述音频信号的数字表示的所述MFC的分散的表示,所述分散由对应于至少两个帧的MFC变换确定。
在示例13,示例12的主旨任选地包括:将所确定的MFC的分散表示与至少一个阈值进行比较,以及响应于所述比较的结果调整候选讲话持续时间或声明候选讲话持续时间为讲话中的至少一个。
在示例14,示例1-13中任一项或多项的主旨任选地包括:其中所述第二级包括MFC指示符和音调指示符。
在示例15,示例1-14中任一项或多项的主旨任选地包括:向另一系统发送确定为包含讲话的持续时间。
在示例16,示例15的主旨任选地包括:其中向另一系统发送确定为包含讲话的持续时间至少部分地与接收对应于所述持续时间的数字音频信号同时发生。
在示例17,示例1-16中任一项或多项的主旨任选地包括:应用包括至少一个时间指示符的第三级来评估所识别的候选讲话持续时间是否包含讲话。
在示例18,示例17的主旨任选地包括:其中如果所述持续时间的时间长度小于指定值,则确定所述候选讲话持续时间不包含讲话。
示例19是一种用于检测语音活动的机器实现的方法,所述方法包括:接收音频信号的数字表示;在所述音频信号的数字表示内建立定义指定持续时间的各个帧;应用第一级,包括从音频信号的数字表示的各个帧中的至少一个确定第一频域指示符以识别候选讲话持续时间;和应用第二级,包括从所述音频信号的数字表示的各个帧中的至少一个确定mel频率倒谱(MFC)指示符,以评估所识别的候选讲话持续时间是否包含讲话。
示例20是一种语音活动检测(VAD)系统,所述系统包括:接收器电路,被配置为接收音频信号的数字表示;和与存储器电路耦合的处理器电路,所述存储器电路包含指令,当所述处理器电路执行所述指令时,所述指令使所述处理器电路:应用第一级,包括从所述音频信号的数字表示确定第一频域指示符以识别候选讲话持续时间;和应用第二级,包括从所述音频信号的数字表示中确定mel频率倒谱(MFC)指示符或音调指示符中的至少一个,以评估所识别的候选讲话持续时间是否包含讲话。
示例21是包括指令的至少一种机器可读介质,当由处理电路执行时,该指令使处理电路执行操作以实现示例1-20中的任何一个。
实施例22是一种包括实施例1-20中任一项的装置。
实施例23是实施例1-20中任一项的系统。
实施例24是实施例1-20中任一项的方法。
上述非限制性方面中的每一个可以独立存在,或者可以以各种排列或组合的方式与本文档中描述的一个或多个其他方面或其他主题组合。
上述详细描述包括对附图的引用,附图构成详细描述的一部分。附图通过说明的方式示出了可以实践本发明的具体实施例。这些实施例通常也被称为“示例”。这些示例可以包括除所示或描述的元素之外的元素。然而,本发明人还设想了仅提供所示或描述的那些元件的示例。此外,本发明人还考虑使用所示或描述的那些元素(或其一个或多个方面)的任何组合或排列的示例,或者关于特定示例(或其个或多方面),或者关于本文所示或所描述的其他示例(或其中一个或更多方面)。
如果本文件与通过引用合并的任何文件之间的用法不一致,则以本文件中的用法为准。
在本文件中,术语“一个”或“一种”在专利文件中常见,包括一个或多个,独立于“至少一个”或“一个或更多个”的任何其他实例或用法,除非另有说明,否则“A或B”包括“A但不包括B”、“B但不包括A”和“A和B”。在本文件中,术语“包括”和“其中”被用作各自术语“包含”和“包括”的纯英语等价物。此外,在以下权利要求中,术语“包括”和“包含”是开放式的,即系统、装置、物品、组合物、制剂、,包括除权利要求中该术语之后列出的元素之外的元素的方法仍被视为落入该权利要求的范围内。此外,在以下权利要求中,术语“第一”、“第二”和“第三”等仅用作标签,并不旨在对其对象施加数字要求。
本文描述的方法示例可以是至少部分地由机器或计算机实现的。一些示例可以包括编码有指令的计算机可读介质或机器可读介质,所述指令可用于配置电子设备以执行上述示例中描述的方法。这种方法的实现可以包括代码,例如微码、汇编语言代码、高级语言代码等。这种代码可以包括用于执行各种方法的计算机可读指令。代码可以构成计算机程序产品的一部分。这样的指令可以由一个或多个处理器读取和执行,以实现例如包括方法的操作的执行。指令是任何合适的形式,例如但不限于源代码、编译代码、解释代码、可执行代码、静态代码、动态代码等。
此外,在一个示例中,代码可以有形地存储在一个或多个易失性、非暂时性或非易失性有形计算机可读介质上,例如在执行期间或在其他时间。这些有形计算机可读介质的示例可以包括但不限于硬盘、可移动磁盘、可移动光盘(例如,压缩盘和数字视频盘)、盒式磁带、存储卡或棒、随机存取存储器(RAM)、只读存储器(ROM)等。
以上描述旨在说明性而非限制性。例如,上述示例(或其一个或多个方面)可以彼此组合使用。可以使用其他实施例,例如由本领域普通技术人员在回顾上述描述后使用。提供摘要以允许读者快速确定技术公开的性质。提交本文件时,应理解其不会用于解释或限制权利要求的范围或含义。此外,在上述详细描述中,可以将各种特征分组在一起以简化本公开。这不应被解释为意味着无人认领的公开特征对任何权利要求至关重要。相反,本发明的主题可能存在于特定公开实施例的少于所有特征中。因此,以下权利要求在此作为示例或实施例并入详细描述中,其中每个权利要求独立地作为单独的实施例,并且预期这些实施例可以以各种组合或排列方式彼此组合。本发明的范围应当参考所附权利要求以及这些权利要求所享有的等同物的全部范围来确定。

Claims (20)

1.一种用于检测语音活动的机器实现的方法,所述方法包括:
接收音频信号的数字表示;
应用第一级,所述第一级包括从所述音频信号的数字表示确定第一频域指示符以识别候选讲话持续时间;和
应用第二级,包括从所述音频信号的数字表示中确定mel频率倒谱(MFC)指示符或音调指示符中的至少一个,以评估所识别的候选讲话持续时间是否包含讲话。
2.根据权利要求1所述的方法,包括在所述音频信号的数字表示内建立定义指定持续时间的各个帧,其中所述第一级或所述第二级中的至少一个对所述各个帧中的至少之一进行操作。
3.根据权利要求2所述的方法,其中接收音频信号的数字表示包括接收流式表示;和
其中所述建立各个帧包括基于所述流式表示来分配或接收所述各个帧。
4.根据权利要求2所述的方法,其中所述第一频域指示符包括确定所述音频信号的数字表示的频谱分量的频散的表示,所述频散由对应于一帧的频域变换确定。
5.如权利要求4所述的方法,包括将所确定的色散表示与第一阈值进行比较,并响应于所述比较的结果来声明候选讲话持续时间。
6.根据权利要求5所述的方法,还包括基于使用多个帧确定的所述第一频域指示符的中心趋势来调整所述第一阈值。
7.根据权利要求6所述的方法,其中基于被确定为不包含讲话的帧来调整所述第一阈值。
8.根据权利要求2至7中任一项所述的方法,其中所述第二级包括音调指示符,所述音调指示符包括以下逆频域变换:
所述各个帧中的帧的相应一个的时域表示的频域变换的对数。
9.根据权利要求8所述的方法,其中所述音调指示符包括确定所述逆频域变换内的指定范围的区间的幅度的中心趋势。
10.根据权利要求9所述的方法,包括将所确定的中心趋势与阈值进行比较,并且如果超过所述阈值,则将候选讲话持续时间声明为讲话。
11.根据权利要求1至7中任一项所述的方法,其中所述第二级包括MFC指示符。
12.根据权利要求11所述的方法,其中所述MFC指示符包括确定所述音频信号的数字表示的所述MFC的分散的表示,所述分散由对应于至少两个帧的MFC变换确定。
13.根据权利要求12所述的方法,包括将所确定的MFC的分散表示与至少一个阈值进行比较,以及响应于所述比较的结果调整候选讲话持续时间或声明候选讲话持续时间为讲话中的至少一个。
14.根据权利要求1至7中任一项所述的方法,其中所述第二级包括MFC指示符和音调指示符。
15.根据权利要求1至7中任一项所述的方法,包括向另一系统发送确定为包含讲话的持续时间。
16.根据权利要求15所述的方法,其中向另一系统发送确定为包含讲话的持续时间至少部分地与接收对应于所述持续时间的数字音频信号同时发生。
17.根据权利要求1至7中任一项所述的方法,包括应用包括至少一个时间指示符的第三级来评估所识别的候选讲话持续时间是否包含讲话。
18.根据权利要求17所述的方法,其中如果所述持续时间的时间长度小于指定值,则确定所述候选讲话持续时间不包含讲话。
19.一种用于检测语音活动的机器实现的方法,所述方法包括:
接收音频信号的数字表示;
在所述音频信号的数字表示内建立定义指定持续时间的各个帧;
应用第一级,包括从音频信号的数字表示的各个帧中的至少一个确定第一频域指示符以识别候选讲话持续时间;和
应用第二级,包括从所述音频信号的数字表示的各个帧中的至少一个确定mel频率倒谱(MFC)指示符,以评估所识别的候选讲话持续时间是否包含讲话。
20.一种语音活动检测(VAD)系统,所述系统包括:
接收器电路,被配置为接收音频信号的数字表示;和
与存储器电路耦合的处理器电路,所述存储器电路包含指令,当所述处理器电路执行所述指令时,所述指令使所述处理器电路:
应用第一级,包括从所述音频信号的数字表示确定第一频域指示符以识别候选讲话持续时间;和
应用第二级,包括从所述音频信号的数字表示中确定mel频率倒谱(MFC)指示符或音调指示符中的至少一个,以评估所识别的候选讲话持续时间是否包含讲话。
CN202310052966.9A 2022-02-04 2023-02-03 基于多标记的语音活动检测 Pending CN116564357A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/306,790 2022-02-04
US63/373,804 2022-08-29
US18/158,358 US20230253010A1 (en) 2022-02-04 2023-01-23 Voice activity detection (vad) based on multiple indicia
US18/158,358 2023-01-23

Publications (1)

Publication Number Publication Date
CN116564357A true CN116564357A (zh) 2023-08-08

Family

ID=87493565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310052966.9A Pending CN116564357A (zh) 2022-02-04 2023-02-03 基于多标记的语音活动检测

Country Status (1)

Country Link
CN (1) CN116564357A (zh)

Similar Documents

Publication Publication Date Title
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US8571231B2 (en) Suppressing noise in an audio signal
US9099098B2 (en) Voice activity detection in presence of background noise
US20190172480A1 (en) Voice activity detection systems and methods
JP3878482B2 (ja) 音声検出装置および音声検出方法
US8520861B2 (en) Signal processing system for tonal noise robustness
KR20060022156A (ko) 분산 음성 인식 시스템 및 그 방법
JP2006157920A (ja) 残響評価および抑制システム
CN103632666A (zh) 语音识别方法、语音识别设备和电子设备
CN112951259B (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
EP3807878B1 (en) Deep neural network based speech enhancement
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
CN112102851B (zh) 语音端点检测方法、装置、设备及计算机可读存储介质
CN109313893A (zh) 表征、选择以及调整用于自动语音识别系统的音频和声学训练数据
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR20190111134A (ko) 잡음 환경의 통화 품질을 개선하는 방법 및 장치
CN111883182A (zh) 人声检测方法、装置、设备及存储介质
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
EP2743923B1 (en) Voice processing device, voice processing method
US20230253010A1 (en) Voice activity detection (vad) based on multiple indicia
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
CN116564357A (zh) 基于多标记的语音活动检测
US9875755B2 (en) Voice enhancement device and voice enhancement method
US20060041426A1 (en) Noise detection for audio encoding
CN111782860A (zh) 一种音频检测方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination