CN110335593A - 语音端点检测方法、装置、设备及存储介质 - Google Patents

语音端点检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110335593A
CN110335593A CN201910521084.6A CN201910521084A CN110335593A CN 110335593 A CN110335593 A CN 110335593A CN 201910521084 A CN201910521084 A CN 201910521084A CN 110335593 A CN110335593 A CN 110335593A
Authority
CN
China
Prior art keywords
frame
speech
voice
speech frame
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910521084.6A
Other languages
English (en)
Inventor
魏韬
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910521084.6A priority Critical patent/CN110335593A/zh
Publication of CN110335593A publication Critical patent/CN110335593A/zh
Priority to PCT/CN2019/118699 priority patent/WO2020253073A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本发明涉及人工智能技术领域,公开了一种语音端点检测方法,包括以下步骤:获取待检测的输入语音以及预置语音帧检测模型;对所述输入语音进行分帧处理,得到多个带时序的语音帧;依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果;依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果;基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别;基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。本发明还公开了一种语音端点检测装置、设备及计算机可读存储介质。本发明提升了语音端点检测的准确率。

Description

语音端点检测方法、装置、设备及存储介质
技术领域
本发明涉人工智能技术领域,尤其涉及一种语音端点检测方法、装置、设备及存储介质。
背景技术
现有语音识别技术中经常需要语音端点检测,也即检测语音的起始位置和结束位置,目前语音端点检测算法通常仅适用于相对安静场景下的语音和别,此种方法对于较稳定的噪声(如白噪声,汽笛声等)效果较好,但对于嘈杂环境(如较多人说话的公共场合)效果较差,其原因在于此类情景下的噪声也具备语音的特性,因而很难准确将噪声与语音区分开来,进而导致语音识别率不高。
发明内容
本发明的主要目的在于提供一种语音端点检测方法、装置、设备及存储介质,旨在解决现有语音端点检测效果差而导致语音识别准确率不高的技术问题。
为实现上述目的,本发明提供一种语音端点检测方法,所述语音端点检测方法包括以下步骤:
获取待检测的输入语音以及预置语音帧检测模型;
对所述输入语音进行分帧处理,得到多个带时序的语音帧;
依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果;
依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果;
基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别,所述帧类别包括有效语音帧、噪声帧;
基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。
可选地,所述语音帧检测模型包括:语音模型和噪声模型;在所述获取待检测的输入语音以及预置语音帧检测模型的步骤之前,还包括:
以正常语音数据为训练样本,采用预设第一机器学习算法进行训练,构建语音模型,以供用于检测有效语音帧;
以真实环境噪声为训练样本,采用预设第二机器学习算法进行训练,构建噪声模型,以供用于检测噪声帧。
可选地,所述依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果包括:
依次将所述输入语音的各语音帧输入所述语音模型进行检测,输出每一语音帧为有效语音帧的第一概率值;
依次将所述输入语音的各语音帧输入所述噪声模型进行检测,输出每一语音帧为噪声帧的第二概率值;
基于所述第一概率值与所述第二概率值,输出各语音帧对应的第一检测结果,其中,若语音帧为有效语音帧的第一概率值大于为噪声帧的第二概率值,则判定语音帧为有效语音帧,否则为噪声帧。
可选地,所述依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果包括:
依次提取所述输入语音的第i帧语音帧在时域上的短时语音能量;
判断第i帧语音帧对应的短时语音能量是否大于预置短时语音能量;
若是,则判定第i帧语音帧为有效语音帧,否则为噪声帧。
可选地,所述短时语音能量的计算公式如下:
其中,M(i)表示第i帧语音帧的短时语音能量;x(n)表示语音波形时域信号;w(n)表示窗函数;yi(n)表示经过w(n)分帧处理后得到的第i帧语音信号;b表示帧移长度;n=1,2,…L;i=1,2,…fn;L表示帧长,fn表示分帧后的总帧数。
可选地,所述基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别包括:
若所述第一检测结果为语音帧为有效语音帧、所述第二检测结果为语音帧为有效语音帧,则判定语音帧对应的帧类别为有效语音帧;
若所述第一检测结果为语音帧为有效语音帧、所述第二检测结果为语音帧为噪声帧,则判定语音帧对应的帧类别为噪声帧;
若所述第一检测结果为语音帧为噪声帧、所述第二检测结果为语音帧为有效语音帧,则判定语音帧对应的帧类别为噪声帧;
若所述第一检测结果为语音帧为噪声帧、所述第二检测结果为语音帧为噪声帧,则判定语音帧对应的帧类别为噪声帧。
可选地,所述基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点包括:
在预设检测窗口内,判断所述检测窗口内各语音帧对应的帧类别是否满足预设的语音端点判定条件;
若满足,则判定所述输入语音的语音开始端点或语音结束端点位于当前检测窗口内;
其中,所述语音端点判定条件包括:若当前检测窗口内有效语音帧的比例超过预设第一比例,则判定当前检测窗口内存在所述输入语音的语音开始端点;若当前检测窗口内有效语音帧的比例低于预设第二比例,则判定当前检测窗口内存在所述输入语音的语音结束端点。
进一步地,为实现上述目的,本发明还提供一种语音端点检测装置,所述语音端点检测装置包括:
获取模块,用于获取待检测的输入语音以及预置语音帧检测模型;
分帧模块,用于对所述输入语音进行分帧处理,得到多个带时序的语音帧;
第一检测模块,用于依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果;
第二检测模块,用于依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果;
帧类别确定模块,用于基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别,所述帧类别包括有效语音帧、噪声帧;
语音端点确定模块,用于基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。
可选地,所述语音端点检测装置还包括:
语音模型训练模块,用于以正常语音数据为训练样本,采用预设第一机器学习算法进行训练,构建语音模型,以供用于检测有效语音帧;
噪声模型训练模块,用于以真实环境噪声为训练样本,采用预设第二机器学习算法进行训练,构建噪声模型,以供用于检测噪声帧。
可选地,所述第一检测模块具体用于:
依次将所述输入语音的各语音帧输入所述语音模型进行检测,输出每一语音帧为有效语音帧的第一概率值;
依次将所述输入语音的各语音帧输入所述噪声模型进行检测,输出每一语音帧为噪声帧的第二概率值;
基于所述第一概率值与所述第二概率值,输出各语音帧对应的第一检测结果,其中,若语音帧为有效语音帧的第一概率值大于为噪声帧的第二概率值,则判定语音帧为有效语音帧,否则为噪声帧。
可选地,所述第二检测模块具体用于:
依次提取所述输入语音的第i帧语音帧在时域上的短时语音能量;
判断第i帧语音帧对应的短时语音能量是否大于预置短时语音能量;
若是,则判定第i帧语音帧为有效语音帧,否则为噪声帧。
可选地,所述短时语音能量的计算公式如下:
其中,M(i)表示第i帧语音帧的短时语音能量;x(n)表示语音波形时域信号;w(n)表示窗函数;yi(n)表示经过w(n)分帧处理后得到的第i帧语音信号;b表示帧移长度;n=1,2,…L;i=1,2,…fn;L表示帧长,fn表示分帧后的总帧数。
可选地,所述帧类别确定模块具体用于:
若所述第一检测结果为语音帧为有效语音帧、所述第二检测结果为语音帧为有效语音帧,则判定语音帧对应的帧类别为有效语音帧;
若所述第一检测结果为语音帧为有效语音帧、所述第二检测结果为语音帧为噪声帧,则判定语音帧对应的帧类别为噪声帧;
若所述第一检测结果为语音帧为噪声帧、所述第二检测结果为语音帧为有效语音帧,则判定语音帧对应的帧类别为噪声帧;
若所述第一检测结果为语音帧为噪声帧、所述第二检测结果为语音帧为噪声帧,则判定语音帧对应的帧类别为噪声帧。
可选地,所述语音端点确定模块具体用于:
在预设检测窗口内,判断所述检测窗口内各语音帧对应的帧类别是否满足预设的语音端点判定条件;
若满足,则判定所述输入语音的语音开始端点或语音结束端点位于当前检测窗口内;
其中,所述语音端点判定条件包括:若当前检测窗口内有效语音帧的比例超过预设第一比例,则判定当前检测窗口内存在所述输入语音的语音开始端点;若当前检测窗口内有效语音帧的比例低于预设第二比例,则判定当前检测窗口内存在所述输入语音的语音结束端点。
进一步地,为实现上述目的,本发明还提供一种语音端点检测设备,所述语音端点检测设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音端点检测程序,所述语音端点检测程序被所述处理器执行时实现如上述任一项所述的语音端点检测方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音端点检测程序,所述语音端点检测程序被处理器执行时实现如上述任一项所述的语音端点检测方法的步骤。
本发明使用预置语音帧检测模型和谐波能量检测方式分别对输入语音的各语音帧进行检测,然后再综合两次检测结果,确定各语音帧是属于有效语音帧还是属于噪声帧;最后再基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。本发明综合了多种检测算法,因而可在一定程度上提升语音端点检测的准确性,并且本发明时根据各语音帧对应的帧类别来确定语音端点,因而能够适应各种语音识别场景,提升语音识别准确率。
附图说明
图1为本发明实施例方案涉及的语音端点检测设备运行环境的结构示意图;
图2为本发明语音端点检测方法一实施例的流程示意图;
图3为图2中步骤S30一实施例的细化流程示意图;
图4为图2中步骤S40一实施例的细化流程示意图;
图5为图2中步骤S60一实施例的细化流程示意图;
图6为本发明语音端点检测一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种语音端点检测设备。
参照图1,图1为本发明实施例方案涉及的语音端点检测设备运行环境的结构示意图。
如图1所示,该语音端点检测设备包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的语音端点检测设备的硬件结构并不构成对语音端点检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音端点检测程序。其中,操作系统是管理和控制语音端点检测设备和软件资源的程序,支持语音端点检测程序以及其它软件和/或程序的运行。
在图1所示的语音端点检测设备的硬件结构中,网络接口1004主要用于接入网络;用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的语音端点检测程序,并执行以下语音端点检测方法的各实施例的操作。
基于上述语音端点检测设备硬件结构,提出本发明语音端点检测方法的各个实施例。
参照图2,图2为本发明语音端点检测方法一实施例的流程示意图。本实施例中,所述语音端点检测方法包括以下步骤:
步骤S10,获取待检测的输入语音以及预置语音帧检测模型;
本实施例对于输入语音不限,既可以是安静环境下的语音,也可以是各种嘈杂环境下的语音。同时,为提升语音端点检测的准确度,本实施例预先训练了语音帧检测模型,通过语音帧检测模型对输入语音进行检测。
步骤S20,对所述输入语音进行分帧处理,得到多个带时序的语音帧;
语音信号通常在宏观上是不平稳的,而在微观上是平稳的,具有短时平稳性(10-30ms内可以认为语音信号近似不变),因此在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,因而需要对语音信号进行分帧处理。也即把语音信号分为一些短段来进行处理,每一个短段称为一帧。
步骤S30,依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果;
本实施例中,考虑到现有语音端点检测很难准确地区分复杂场景下的正常语音与噪音,究其原因主要表现在以下两方面:一方面是由于现有的语音端点检测算法适用的场景比较单一,比如对于较稳定的噪声(如白噪声、汽笛声等)检测效果较好,但对于嘈杂环境(如较多人说话的公共场合)则检测效果较差;另一方面,现有语音端点检测算法通常只能从单个维度来进行检测,因而容易产生误判。
因此,本实施例优选采用多种方式对输入语音进行端点检测,由于采用多种检测方式从而多个维度进行检测,因而可以结合多种检测算法的优势,使检测结果更加精确。
本实施例使用预先训练的语音帧检测模型对输入语音的各语音帧分别进行检测,输出各语音帧对应的第一检测结果,比如某一个语音帧为有效语音帧(也即人的说话语音)的概率,某一个语音帧为噪声帧的概率。
步骤S40,依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果;
本实施例中除基于模型维度进行检测外,还基于谐波能量维度对输入语音的各语音帧进行检测。语音信号是一种谐波信号,具有能量特征,谐波能量可通过谐波振幅大小进行衡量。若谐波能量高,则谐波振幅较大,而若谐波能量低,则谐波振幅较小。
因此,本实施中通过检测各语音帧的谐波能量以区分有效语音帧与噪声帧。谐波能量检测能够在安静环境下快速区分语音与噪音,然而对于嘈杂环境,则由于噪声干扰而降低了检测的准确度。
步骤S50,基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别,所述帧类别包括有效语音帧、噪声帧;
本实施例中,由于采用的是多个检测算法,因此对于输入语音的每一语音帧的检测结果都会存在多种结果,比如当前检测的语音帧为有效语音帧或者为噪音帧。同一语音帧的不同检测结果,可以是全部相同,也可以是全部不同,还可以是部分相同、部分不相同。本实施例结合模型维度的第一检测结果以及谐波能量维度的第二检测结果进行综合分析,进而确定各语音帧最终对应的帧类别。本实施例中的语音帧不仅具备语音特征,而且还具备语音能力特征,因而基于多维度检测而得到的综合判断结果是可信的。
可选的,在一实施例中,具体采用以下规则确定语音帧对应的帧类别:
A、若所述第一检测结果为语音帧为有效语音帧、所述第二检测结果为语音帧为有效语音帧,则判定语音帧对应的帧类别为有效语音帧;
B、若所述第一检测结果为语音帧为有效语音帧、所述第二检测结果为语音帧为噪声帧,则判定语音帧对应的帧类别为噪声帧;
C、若所述第一检测结果为语音帧为噪声帧、所述第二检测结果为语音帧为有效语音帧,则判定语音帧对应的帧类别为噪声帧;
D、若所述第一检测结果为语音帧为噪声帧、所述第二检测结果为语音帧为噪声帧,则判定语音帧对应的帧类别为噪声帧。
本可选实施例中,当采用多个检测模型、检测算法进行语音帧检测时,当且仅当各检测结果一致且都为有效语音帧时,才判定语音帧对应的帧类别为有效语音帧,否则判定语音帧对应的帧类别为噪音帧。
步骤S60,基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。
通常,在一般较为安静环境下的语音开始端点对应的是有效语音帧,而语音结束端点对应的是噪声帧(或者静音),然而在嘈杂环境下,由于外部环境噪音的干扰,因而并不能使用现有方式进行语音端点的判定。本实施例具体基于各语音帧对应的帧类别来确定输入语音的语音开始端点与语音结束端点。比如连续多个语音帧为有效语音帧,则确定当前存在语音开始端点,而若连续多个语音帧为噪声帧,则确定当前存在语音结束端点。
本实施例中使用预置语音帧检测模型和谐波能量检测方式分别对输入语音的各语音帧进行检测,然后再综合两次检测结果,确定各语音帧是属于有效语音帧还是属于噪声帧;最后再基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。本实施例综合了多种检测算法,因而可在一定程度上提升语音端点检测的准确性,并且本发明时根据各语音帧对应的帧类别来确定语音端点,因而能够适应各种语音识别场景,提升语音识别准确率。
进一步地,在本发明语音端点检测方法一实施例中,使用多个语音帧检测模型进行模型维度的语音帧检测,具体包括:
(1)语音模型
本实施例中,在进行语音端点检测之前,构建语音模型。具体以正常语音数据为训练样本,采用预设第一机器学习算法进行训练,构建语音模型,以供用于检测有效语音帧。
本实施例中,根据预先采集的正常语音数据,通过预设的机器学习算法进行训练,构建语音模型,比如采用深度学习算法、长短期记忆网络模型等机器学习算法构建模型,提取正常语音数据的语音特征并输入模型进行训练,进而构建可检测有效语音帧的语音模型。
(2)噪声模型
本实施例中,在进行语音端点检测之前,构建噪声模型。具体以真实环境噪声为训练样本,采用预设第二机器学习算法进行训练,构建噪声模型,以供用于检测噪声帧。
本实施例中,根据预先采集的稳定噪音数据和不稳定噪音数据,通过预设的机器学习算法进行训练,构建噪声模型,比如采用深度学习算法、长短期记忆网络模型等机器学习算法构建模型,提取噪音数据的语音特征并输入模型进行训练,进而构建可检测噪声帧的噪声模型。
参照图3,图3为图2中步骤S30一实施例的细化流程示意图。基于上述实施例,本实施例中,上述步骤S30进一步包括:
步骤S301,依次将所述输入语音的各语音帧输入所述语音模型进行检测,输出每一语音帧为有效语音帧的第一概率值;
本实施例中,基于输入语音中各语音帧的时序,依次将各语音帧输入训练好的语音模型进行检测,输出每一语音帧为有效语音帧的概率值。
步骤S302,依次将所述输入语音的各语音帧输入所述噪声模型进行检测,输出每一语音帧为噪声帧的第二概率值;
本实施例中,基于输入语音中各语音帧的时序,依次将各语音帧输入训练好的噪声模型进行检测,输出每一语音帧为噪声帧的概率值。
步骤S303,基于所述第一概率值与所述第二概率值,输出各语音帧对应的第一检测结果,其中,若语音帧为有效语音帧的第一概率值大于为噪声帧的第二概率值,则判定语音帧为有效语音帧,否则为噪声帧。
本实施例中,将相同的语音帧分别输入两个不同的模型进行语音帧识别,从而获得该语音帧为有效语音帧的概率值以及该语音帧为噪声帧的概率值,若语音帧为有效语音帧的概率值大于为噪声帧的概率值,则判定该语音帧为有效语音帧,而若语音帧为噪声帧的概率值大于为有效语音帧的概率值,则判定该语音帧为噪声帧。
例如,输入语音帧中有a、b、c三帧语音帧,分别输入语音模型和噪声模型进行检测,语音模型输出的概率值依次为70%、50%、80%,噪声模型输出的概率值依次为45%、80%、25%,则最终判定语音帧a为有效语音帧、语音帧b为噪声帧、语音帧c为有效语音帧。
参照图4,图4为图2中步骤S40一实施例的细化流程示意图。基于上述实施例,本实施例中,上述步骤S40进一步包括:
步骤S401,依次提取所述输入语音的第i帧语音帧在时域上的短时语音能量;
步骤S402,判断第i帧语音帧对应的短时语音能量是否大于预置短时语音能量;
步骤S403,若是,则判定第i帧语音帧为有效语音帧,否则为噪声帧。
短时语音能量指音频信号在较短时间内的语音能量。这里的较短时间,通常指的是一帧语音帧,也即将一帧时间内的语音能量称作短时能量。由于在同一语音中,通常语音帧的能量要远高于噪声的语音能量,因此,可通过短时语音能量用于区分有效语音帧与噪声帧。本实施例对于计算短时语音能量的计算方式不限。
可选的,在一实施例中,所述短时语音能量的计算公式如下:
其中,M(i)表示第i帧语音帧的短时语音能量;x(n)表示语音波形时域信号;w(n)表示窗函数;yi(n)表示经过w(n)分帧处理后得到的第i帧语音信号;b表示帧移长度;n=1,2,…L;i=1,2,…fn;L表示帧长,fn表示分帧后的总帧数。
本实施例中,在计算出一帧语音帧的短时语音能量后,先判断该帧语音帧的短时语音能量是否超过预设的短时语音能量阈值,若是,则判定该帧语音帧为有效语音帧,否则判定为噪声帧。
本实施例从语音帧的短时语音能量角度来对输入语音信号进行检测,从而确定输入语音的每一帧语音帧对应的帧类别,由于短时语音能量检测方式便捷、识别准确率也较高,因而能够大幅提升对输入语音进行语音端点检测的效率。
参照图5,图5为图2中步骤S60一实施例的细化流程示意图。基于上述实施例,本实施例中,上述步骤S60进一步包括:
步骤S601,在预设检测窗口内,判断所述检测窗口内各语音帧对应的帧类别是否满足预设的语音端点判定条件;
步骤S602,若满足,则判定所述输入语音的语音开始端点或语音结束端点位于当前检测窗口内。
考虑到单独以某个语音帧是否为有效语音帧或噪声帧来判断语音端点的方式容易存在误判的情形,因此,本实施例中采用检测窗口与占比相结合的方式,进行语音端点的判断。
本实施例中,检测窗口具体包括:语音开始端点检测窗口和语音结束端点检测窗口。其中,语音开始端点判断所使用的检测窗口大小与语音结束端点判断所使用的不同,通常语音开始端点所使用的检测窗口小于语音结束端点所使用的检测窗口。具体可根据实际需要进行设置与调整。
本实施例中,语音端点判定条件具体包括:
A、语音开始端点判定条件:若当前检测窗口内有效语音帧的比例超过预设第一比例,则判定当前检测窗口内存在所述输入语音的语音开始端点;
B、语音结束端点判定条件:若当前检测窗口内有效语音帧的比例低于预设第二比例,则判定当前检测窗口内存在所述输入语音的语音结束端点。
例如,在进行语音开始端点检测时,预先设置一个语音开始端点检测窗口,比如该窗口的大小为20帧,然后统计该检测窗口内帧类别为有效语音帧的数量,最后再判断该监测窗口内有效语音帧与窗口内总帧数之间的比例值是否超过预设的比例值(比如60%),若是,则判定当前检测窗口内存在语音开始端点。
在进行语音结束端点检测时,预先设置一个语音结束端点检测窗口,比如该窗口的大小为50帧,然后统计该检测窗口内帧类别为噪声帧的数量,最后再判断该监测窗口内噪声帧与窗口内总帧数之间的比例值是否低于预设的比例值(比如10%),若是,则判定当前检测窗口内存在语音结束端点。
本发明还提供一种语音端点检测装置。
参照图6,图6为本发明语音端点检测一实施例的功能模块示意图。本实施例中,所述语音端点检测装置包括:
获取模块10,用于获取待检测的输入语音以及预置语音帧检测模型;
分帧模块20,用于对所述输入语音进行分帧处理,得到多个带时序的语音帧;
第一检测模块30,用于依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果;
第二检测模块40,用于依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果;
帧类别确定模块50,用于基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别,所述帧类别包括有效语音帧、噪声帧;
语音端点确定模块60,用于基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。
基于与上述本发明语音端点检测方法相同的实施例说明内容,因此本实施例对语音端点检测装置的实施例内容不做过多赘述。
本实施例中使用预置语音帧检测模型和谐波能量检测方式分别对输入语音的各语音帧进行检测,然后再综合两次检测结果,确定各语音帧是属于有效语音帧还是属于噪声帧;最后再基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。本实施例综合了多种检测算法,因而可在一定程度上提升语音端点检测的准确性,并且本发明时根据各语音帧对应的帧类别来确定语音端点,因而能够适应各种语音识别场景,提升语音识别准确率。
本发明还提供一种计算机可读存储介质。
本实施例中,所述计算机可读存储介质上存储有语音端点检测程序,所述语音端点检测程序被处理器执行时实现如上述任一项实施例中所述的语音端点检测方法的步骤。其中,语音端点检测程序被处理器执行时所实现的方法可参照本发明语音端点检测方法的各个实施例,因此不再过多赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (10)

1.一种语音端点检测方法,其特征在于,所述语音端点检测方法包括以下步骤:
获取待检测的输入语音以及预置语音帧检测模型;
对所述输入语音进行分帧处理,得到多个带时序的语音帧;
依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果;
依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果;
基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别,所述帧类别包括有效语音帧、噪声帧;
基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。
2.如权利要求1所述的语音端点检测方法,其特征在于,所述语音帧检测模型包括:语音模型和噪声模型;在所述获取待检测的输入语音以及预置语音帧检测模型的步骤之前,还包括:
以正常语音数据为训练样本,采用预设第一机器学习算法进行训练,构建语音模型,以供用于检测有效语音帧;
以真实环境噪声为训练样本,采用预设第二机器学习算法进行训练,构建噪声模型,以供用于检测噪声帧。
3.如权利要求2所述的语音端点检测方法,其特征在于,所述依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果包括:
依次将所述输入语音的各语音帧输入所述语音模型进行检测,输出每一语音帧为有效语音帧的第一概率值;
依次将所述输入语音的各语音帧输入所述噪声模型进行检测,输出每一语音帧为噪声帧的第二概率值;
基于所述第一概率值与所述第二概率值,输出各语音帧对应的第一检测结果,其中,若语音帧为有效语音帧的第一概率值大于为噪声帧的第二概率值,则判定语音帧为有效语音帧,否则为噪声帧。
4.如权利要求1所述的语音端点检测方法,其特征在于,所述依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果包括:
依次提取所述输入语音的第i帧语音帧在时域上的短时语音能量;
判断第i帧语音帧对应的短时语音能量是否大于预置短时语音能量;
若是,则判定第i帧语音帧为有效语音帧,否则为噪声帧。
5.如权利要求4所述的语音端点检测方法,其特征在于,所述短时语音能量的计算公式如下:
其中,M(i)表示第i帧语音帧的短时语音能量;x(n)表示语音波形时域信号;w(n)表示窗函数;yi(n)表示经过w(n)分帧处理后得到的第i帧语音信号;b表示帧移长度;n=1,2,…L;i=1,2,…fn;L表示帧长,fn表示分帧后的总帧数。
6.如权利要求3所述的语音端点检测方法,其特征在于,所述基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别包括:
若所述第一检测结果为语音帧为有效语音帧、所述第二检测结果为语音帧为有效语音帧,则判定语音帧对应的帧类别为有效语音帧;
若所述第一检测结果为语音帧为有效语音帧、所述第二检测结果为语音帧为噪声帧,则判定语音帧对应的帧类别为噪声帧;
若所述第一检测结果为语音帧为噪声帧、所述第二检测结果为语音帧为有效语音帧,则判定语音帧对应的帧类别为噪声帧;
若所述第一检测结果为语音帧为噪声帧、所述第二检测结果为语音帧为噪声帧,则判定语音帧对应的帧类别为噪声帧。
7.如权利要求1所述的语音端点检测方法,其特征在于,所述基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点包括:
在预设检测窗口内,判断所述检测窗口内各语音帧对应的帧类别是否满足预设的语音端点判定条件;
若满足,则判定所述输入语音的语音开始端点或语音结束端点位于当前检测窗口内;
其中,所述语音端点判定条件包括:若当前检测窗口内有效语音帧的比例超过预设第一比例,则判定当前检测窗口内存在所述输入语音的语音开始端点;若当前检测窗口内有效语音帧的比例低于预设第二比例,则判定当前检测窗口内存在所述输入语音的语音结束端点。
8.一种语音端点检测装置,其特征在于,所述语音端点检测装置包括:
获取模块,用于获取待检测的输入语音以及预置语音帧检测模型;
分帧模块,用于对所述输入语音进行分帧处理,得到多个带时序的语音帧;
第一检测模块,用于依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果;
第二检测模块,用于依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果;
帧类别确定模块,用于基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别,所述帧类别包括有效语音帧、噪声帧;
语音端点确定模块,用于基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。
9.一种语音端点检测设备,其特征在于,所述语音端点检测设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音端点检测程序,所述语音端点检测程序被所述处理器执行时实现如权利要求1-7中任一项所述的语音端点检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音端点检测程序,所述语音端点检测程序被处理器执行时实现如权利要求1-7中任一项所述的语音端点检测方法的步骤。
CN201910521084.6A 2019-06-17 2019-06-17 语音端点检测方法、装置、设备及存储介质 Pending CN110335593A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910521084.6A CN110335593A (zh) 2019-06-17 2019-06-17 语音端点检测方法、装置、设备及存储介质
PCT/CN2019/118699 WO2020253073A1 (zh) 2019-06-17 2019-11-15 语音端点检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910521084.6A CN110335593A (zh) 2019-06-17 2019-06-17 语音端点检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110335593A true CN110335593A (zh) 2019-10-15

Family

ID=68141111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910521084.6A Pending CN110335593A (zh) 2019-06-17 2019-06-17 语音端点检测方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110335593A (zh)
WO (1) WO2020253073A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600010A (zh) * 2019-09-20 2019-12-20 上海优扬新媒信息技术有限公司 一种语料提取方法及装置
CN110970051A (zh) * 2019-12-06 2020-04-07 广州国音智能科技有限公司 语音数据采集方法、终端及可读存储介质
CN110967685A (zh) * 2019-12-09 2020-04-07 Oppo广东移动通信有限公司 评价干扰信号的方法及系统、电子装置和存储介质
CN111312256A (zh) * 2019-10-31 2020-06-19 平安科技(深圳)有限公司 语音身份识别的方法、装置及计算机设备
CN111862951A (zh) * 2020-07-23 2020-10-30 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备
WO2020253073A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
CN108346425A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种语音活动检测的方法和装置、语音识别的方法和装置
CN108877776A (zh) * 2018-06-06 2018-11-23 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN109036471A (zh) * 2018-08-20 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN109801646A (zh) * 2019-01-31 2019-05-24 北京嘉楠捷思信息技术有限公司 一种基于融合特征的语音端点检测方法和装置
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9467569B2 (en) * 2015-03-05 2016-10-11 Raytheon Company Methods and apparatus for reducing audio conference noise using voice quality measures
CN105513614B (zh) * 2015-12-03 2019-05-03 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
CN106356076B (zh) * 2016-09-09 2019-11-05 北京百度网讯科技有限公司 基于人工智能的语音活动性检测方法和装置
CN110335593A (zh) * 2019-06-17 2019-10-15 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
CN108346425A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种语音活动检测的方法和装置、语音识别的方法和装置
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN108877776A (zh) * 2018-06-06 2018-11-23 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN109036471A (zh) * 2018-08-20 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN109801646A (zh) * 2019-01-31 2019-05-24 北京嘉楠捷思信息技术有限公司 一种基于融合特征的语音端点检测方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253073A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质
CN110600010A (zh) * 2019-09-20 2019-12-20 上海优扬新媒信息技术有限公司 一种语料提取方法及装置
CN110600010B (zh) * 2019-09-20 2022-05-17 度小满科技(北京)有限公司 一种语料提取方法及装置
CN111312256A (zh) * 2019-10-31 2020-06-19 平安科技(深圳)有限公司 语音身份识别的方法、装置及计算机设备
CN110970051A (zh) * 2019-12-06 2020-04-07 广州国音智能科技有限公司 语音数据采集方法、终端及可读存储介质
CN110967685A (zh) * 2019-12-09 2020-04-07 Oppo广东移动通信有限公司 评价干扰信号的方法及系统、电子装置和存储介质
CN110967685B (zh) * 2019-12-09 2022-03-22 Oppo广东移动通信有限公司 评价干扰信号的方法及系统、电子装置和存储介质
CN111862951A (zh) * 2020-07-23 2020-10-30 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备
CN111862951B (zh) * 2020-07-23 2024-01-26 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
WO2020253073A1 (zh) 2020-12-24

Similar Documents

Publication Publication Date Title
CN110335593A (zh) 语音端点检测方法、装置、设备及存储介质
CN103632666B (zh) 语音识别方法、语音识别设备和电子设备
US6321197B1 (en) Communication device and method for endpointing speech utterances
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
CN109087669B (zh) 音频相似度检测方法、装置、存储介质及计算机设备
US9026443B2 (en) Context based voice activity detection sensitivity
CN110473539B (zh) 提升语音唤醒性能的方法和装置
CN108172242B (zh) 一种改进的蓝牙智能云音箱语音交互端点检测方法
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
US9589560B1 (en) Estimating false rejection rate in a detection system
CN110517670A (zh) 提升唤醒性能的方法和装置
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN105118522B (zh) 噪声检测方法及装置
US20060100866A1 (en) Influencing automatic speech recognition signal-to-noise levels
KR101559364B1 (ko) 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
CN107580155B (zh) 网络电话质量确定方法、装置、计算机设备和存储介质
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
CN106847305A (zh) 一种处理客服电话的录音数据的方法及装置
US20210118464A1 (en) Method and apparatus for emotion recognition from speech
CN111124108A (zh) 模型训练方法、手势控制方法、装置、介质及电子设备
CN109994126A (zh) 音频消息分段方法、装置、存储介质和电子设备
CN111161746B (zh) 声纹注册方法及系统
CN107977187B (zh) 一种混响调节方法及电子设备
CN110895930B (zh) 语音识别方法及装置
CN106340310A (zh) 语音检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination