CN104409080A - 语音端点检测方法和装置 - Google Patents

语音端点检测方法和装置 Download PDF

Info

Publication number
CN104409080A
CN104409080A CN201410779544.2A CN201410779544A CN104409080A CN 104409080 A CN104409080 A CN 104409080A CN 201410779544 A CN201410779544 A CN 201410779544A CN 104409080 A CN104409080 A CN 104409080A
Authority
CN
China
Prior art keywords
mark
audio
voice
section
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410779544.2A
Other languages
English (en)
Other versions
CN104409080B (zh
Inventor
刘粉香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410779544.2A priority Critical patent/CN104409080B/zh
Publication of CN104409080A publication Critical patent/CN104409080A/zh
Application granted granted Critical
Publication of CN104409080B publication Critical patent/CN104409080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种语音端点检测方法和装置。其中,语音端点检测方法包括:获取目标环境下的待测音频;利用预先生成的语音训练模型对待测音频中的音频片段进行标记,将待测音频中的语音片段标记为第一预设标识,其中,语音训练模型为对目标环境的语音数据进行训练得到的模型;以及从标记的待测音频中查找具有第一预设标识的整段音频,其中,整段音频为一整段标记有第一预设标识的语音;将具有第一预设标识的整段音频的作为一段语音,具有第一预设标识的整段音频的起始点和结束点作为一段语音的端点。通过本发明,解决了现有技术中在噪音大的情况下语音端点检测的准确性较低的问题,达到了提高语音端点检测的准确性。

Description

语音端点检测方法和装置
技术领域
本发明涉及语音检测领域,具体而言,涉及一种语音端点检测方法和装置。
背景技术
目前,对于语音识别大都利用音频频率例如倒频谱系数特征来对来实现端点检测,这样的检测方式通常在背景噪音较小时,效果比较好。然而,当语音背景的噪音很大时(比如信噪比为0分贝),其端点检测效果明显降低,语音端点检测的准确性较低。
针对现有技术中语音端点检测的准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种语音端点检测方法和装置,以解决现有技术中语音端点检测的准确性较低的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种语音端点检测方法。根据本发明的语音端点检测方法包括:获取目标环境下的待测音频;利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的语音片段标记为第一预设标识,其中,所述语音训练模型为对所述目标环境的语音数据进行训练得到的模型;以及从标记的待测音频中查找具有所述第一预设标识的整段音频,其中,所述整段音频为一整段标记有所述第一预设标识的语音;将所述具有所述第一预设标识的整段音频的作为一段语音,所述具有所述第一预设标识的整段音频的起始点和结束点作为所述一段语音的端点。
进一步地,在获取目标环境下的待测音频之前,所述语音端点检测方法还包括:采集所述目标环境的语音数据,将所述语音数据作为语音训练集数据;以预设单位时间对所述语音数据进行划分,得到多个音频段;依次判断所述多个音频段中是否包含有语音;将包含有语音的音频段标记为所述第一预设标记,并将不包含有语音的音频段标记为第二预设标记;以及从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型。
进一步地,从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型包括:从标记有所述第一预设标记的音频段中提取多个预设时间长度的音频段,作为正样本;从标记有所述第二预设标记的音频段中提取多个所述预设时间长度的音频段,作为负样本;使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型。
进一步地,使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型包括:使用所述支持向量机,添加高斯核函数和松弛因子对所述正样本和所述负样本进行训练,得到所述语音训练模型。
进一步地,利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记包括:按照所述预设单位时间对所述待测音频进行划分,得到多个待测音频段;利用所述语音训练模型对所述多个待测音频段进行标记,将包含有语音的待测音频段标记为所述第一预设标识,将不包含有语音的待测音频段标记为所述第二预设标识。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种语音端点检测装置。根据本发明的语音端点检测装置包括:获取单元,用于获取目标环境下的待测音频;第一标记单元,用于利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的语音片段标记为第一预设标识,其中,所述语音训练模型为对所述目标环境的语音数据进行训练得到的模型;以及查找单元,用于从标记的待测音频中查找具有所述第一预设标识的整段音频,其中,所述整段音频为一整段标记有所述第一预设标识的语音;确定单元,用于将所述具有所述第一预设标识的整段音频的作为一段语音,所述具有所述第一预设标识的整段音频的起始点和结束点作为所述一段语音的端点。
进一步地,所述语音端点检测装置还包括:采集单元,用于在获取目标环境下的待测音频之前,采集所述目标环境的语音数据,将所述语音数据作为语音训练集数据;划分单元,用于以预设单位时间对所述语音数据进行划分,得到多个音频段;判断单元,用于依次判断所述多个音频段中是否包含有语音;第二标记单元,用于将包含有语音的音频段标记为所述第一预设标记,并将不包含有语音的音频段标记为第二预设标记;以及训练单元,用于从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型。
进一步地,所述训练单元包括:第一提取模块,用于从标记有所述第一预设标记的音频段中提取多个预设时间长度的音频段,作为正样本;第二提取模块,用于从标记有所述第二预设标记的音频段中提取多个所述预设时间长度的音频段,作为负样本;训练模块,用于使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型。
进一步地,所述训练模块包括:训练子模块,用于使用所述支持向量机,添加高斯核函数和松弛因子对所述正样本和所述负样本进行训练,得到所述语音训练模型。
进一步地,所述第一标记单元包括:划分模块,用于按照所述预设单位时间对所述待测音频进行划分,得到多个待测音频段;标记模块,用于利用所述语音训练模型对所述多个待测音频段进行标记,将包含有语音的待测音频段标记为所述第一预设标识,将不包含有语音的待测音频段标记为所述第二预设标识。
根据本发明实施例,通过利用对各种环境下的语音数据进行训练得到语音训练集来检测待测音频中的语音,从而确定出语音端点。由于语音训练模型为对各种环境下的语音数据进行训练得到的,无论在具有多大噪音的环境下的待测音频,该模型均能够识别并标记出语音片段,解决了现有技术中在噪音大的情况下语音端点检测的准确性较低的问题,达到了提高语音端点检测的准确性。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的语音端点检测方法的流程图;以及
图2是根据本发明实施例的语音端点检测装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种语音端点检测方法。
图1是根据本发明实施例的语音端点检测方法的流程图。如图1所示,该语音端点检测方法包括步骤如下:
步骤S102,获取目标环境下的待测音频。
待测音频可以是任意背景复杂或者不复杂的目标环境下的音频段,该音频段可以包含有人的语音。获取该待测音频,以便于从待测音频中检测出语音音频。
步骤S104,利用预先生成的语音训练模型对待测音频中的音频片段进行标记,将待测音频中的语音片段标记为第一预设标识。该语音训练模型为对目标环境的语音数据进行训练得到的模型。
语音训练模型的建立可以是基于各种目标环境下的包含有语音的音频数据进行训练得到的训练模型,具体地,可以是先采集大量的包含有语音的音频数据,然后对采集的音频数据按照固定的时间长度t1进行切分,切分为多个音频段,并进行人工标记,将音频数据中所有包含有语音的每个音频段标记为第一预设标识,所有不包含语音的每个音频段标记为第二预设标识;最后,利用随机算法抽取只包含第一预设标识的若干固定单位时间t2长度的连续音频段和只包含第二预设标识的若干固定单位时间长度的连续音频段,其中t2包含多个t1,作为语音训练集数据,进行训练,得到语音训练模型,从而可以利用该语音训练模型来识别待测音频中的语音片段。
步骤S106,从标记的待测音频中查找具有第一预设标识的整段音频。其中,整段音频为一整段标记有第一预设标识的语音。
具体地,向语音训练模型输入待测语音,利用语音训练模型标记待测音频中若干具有第一预设标识的长度为t2的音频段。整段音频为具有多个连续第一预设标识的语音段。
步骤S108,将具有第一预设标识的整段音频的作为一段语音,具有第一预设标识的整段音频的起始点和结束点作为一段语音的端点。
具体地,第一个具有第一预设标识的音频的起点作为整段音频的起始点,将最后一个具有第一预设标识音频的终点作为音频的结束点,所有起始点和结束点为这一段语音的端点。
由于语音训练模型标记和输出的是语音片段,其中,连续的两段或者多段标记有第一预设标识的语音片段属于同一段语音即上述定义的整段音频,将连续的标记有第一预设标识的音频段做一段语音,将音频段语音的起始点和结束点作为语音的端点。
根据本发明实施例,通过利用对各种环境下的语音数据进行训练得到语音训练集来检测待测音频中的语音,从而确定出语音端点。由于语音训练模型为对各种环境下的语音数据进行训练得到的,无论在具有多大噪音的环境下的待测音频,该模型均能够识别并标记出语音片段,解决了现有技术中在噪音大的情况下语音端点检测的准确性较低的问题,达到了提高语音端点检测的准确性。
优选地。在获取目标环境下的待测音频之前,语音端点检测方法还包括:采集目标环境的语音数据,将语音数据作为语音训练集数据;以预设单位时间对语音数据进行划分,得到多个音频段;依次判断多个音频段中是否包含有语音;将包含有语音的音频段标记为第一预设标记,并将不包含有语音的音频段标记为第二预设标记;以及从标记有第一预设标记和第二预设标记的音频段中提取样本,利用提取的样本训练得到语音训练模型。
目标环境可以是任意具有复杂或者不复杂背景的环境,获取语音数据作为语音训练集数据,用以训练的到语音训练模型。
具体地,在获取到语音数据之后,首先按照预设单位时间对语音数据划分成多个音频段,其中,预设单位时间可以是微秒,即上述中所提到的t1。然后,按照预先设置的标记对划分的音频段进行标记,将语音的音频段标记为第一预设标识(如“1”),反之,则标记为第二预设标识(如“-1”)。然后从标记好的音频段中提取用于训练的样本,训练样本是多个固定单位时间t(如1毫秒)音频段,且训练样本为利用随机算法抽取的只包含第一预设标识的若干t长度的连续音频段的正样本,和只包含第二预设标识的若干t长度的连续音频段的负样本,以训练出语音训练模型。
通过训练之后,该语音训练模型即可利用训练得到的参数来对待测音频进行标记,将待测音频中语音片段标记为第一预设标识,非语音片段标记为第二预设标识。这样,可以将通过语音训练模型输出的音频中具有第一预设标识的音频片段与具有第二预设标识的音频片段的交界点作为语音端点,从而快速地检测出语音端点。
进一步地,从标记有第一预设标记和第二预设标记的音频段中提取样本,利用提取的样本训练得到语音训练模型包括:从标记有第一预设标记的音频段中提取多个预设时间长度的音频段,作为正样本;从标记有第二预设标记的音频段中提取多个预设时间长度的音频段,作为负样本;使用支持向量机对正样本和负样本进行训练,得到语音训练模型。
在对多个音频段进行标记之后,根据需要设定一个预设时间长度即上述所提到的t2(如1秒),然后从标记有第一预设标识的音频段中提取多个预设时间长度的音频段,将其作为正样本,其中,一个预设时间长度的音频段中包括多个标记有第一预设标识的音频段;从标记有第二预设标识的音频段中提取多个预设时间长度的音频段,将其作为负样本,其中,该一个预设时间长度的音频段中包括多个标记有第二预设标识的音频段。最后,使用支持向量机(SVM)训练得到语音训练模型。
上述训练得到的语音训练模型对待测音频片段进行检测标记时,可以以预设单位时间来对待测音频中的音频段进行标记。输出的时候则可以以待测音频中标记的预设时间长度的音频段输出。
进一步地,使用支持向量机对正样本和负样本进行训练,得到语音训练模型包括:使用支持向量机,添加高斯核函数和松弛因子对正样本和负样本进行训练,得到语音训练模型。
本发明实施例中,为了使语音训练模型具有语音抗噪功能,减少由于语音不连续性对语音训练模型的参数的影响,并使得语音训练模型快速稳定,在使用支持向量机训练模型时,向模型中加入高斯函数和松弛因子,从而进一步提高语音端点检测的准确性。
具体地,本发明实施例的一种语音训练模型的建立过程如下:
步骤S1,采集语音训练集数据;
步骤S2,导入原始训练语音数据,以毫秒为单位标注语段时间段(含有人语段的时间点上标注为1,否则标注为-1);
步骤S3,设定合理时间长度t,随机从所有标注为1的语段内,抽取若干长度t的语音片段作为正样本;从标注为-1的音频内,抽取若干长度t的语音片段作为负样本;
步骤S4,使用SVM(支持向量机)训练模型,并采用高斯核,加入松弛因子,使模型具有语音抗噪功能;
步骤S5,对标注后的训练集进行训练,得到训练后的模型;
当获取到待测音频之后,用训练好的模型计算待测音频每个长度为t的音频片段的分类(1或-1),统计分析,机器去除异常干扰,整体连续标注为1的时间点上都是人语音。
优选地,利用预先生成的语音训练模型对待测音频中的音频片段进行标记包括:按照预设单位时间对待测音频进行划分,得到多个待测音频段;利用语音训练模型对多个待测音频段进行标记,将包含有语音的待测音频段标记为第一预设标识,将不包含有语音的待测音频段标记为第二预设标识。
本发明实施例中,将在利用语音训练模型对待测音频进行标记时,先按照之前训练得到语音训练模型时的规则对待测音频进行划分,即按照上述中预设单位时间来对待测音频进行划分,得到多个待测音频段。然后,利用语音训练模型训练得到的参数来确定划分得到的多个待测音频段中每个音频段标记的标识,即第一预设标识和第二预设标识,实现对待测音频的标记。
本发明实施例还提供了一种语音端点检测装置。需要说明的是,本发明实施例的语音端点检测装置可以用于执行本发明实施例所提供的语音端点检测方法,本发明实施例的语音端点检测方法也可以通过本发明实施例所提供的语音端点检测装置来执行。
图2是根据本发明实施例的语音端点检测装置的示意图。如图2所示,该语音端点检测装置包括:获取单元10、第一标记单元20、查找单元30和确定单元40。
获取单元10用于获取目标环境下的待测音频。
待测音频可以是任意背景复杂或者不复杂的目标环境下的音频段,该音频段可以包含有人体语音。获取该待测音频,以便于从待测音频中检测出语音音频。
第一标记单元20用于利用预先生成的语音训练模型对待测音频中的音频片段进行标记,将待测音频中的语音片段标记为第一预设标识,其中,语音训练模型为对目标环境的语音数据进行训练得到的模型。
语音训练模型的建立可以是基于各种目标环境下的包含有语音的音频数据进行训练得到的训练模型,具体地,可以是先采集大量的包含有语音的音频数据,然后对采集的音频数据按照固定的时间长度t1进行切分,切分为多个音频段,并进行人工标记,将音频数据中所有包含有语音的每个音频段标记为第一预设标识,所有不包含语音的每个音频段标记为第二预设标识;最后,利用随机算法抽取只包含第一预设标识的若干固定单位时间t2长度的连续音频段和只包含第二预设标识的若干固定单位时间长度的连续音频段,其中t2包含多个t1,作为语音训练集数据,进行训练,得到语音训练模型,从而可以利用该语音训练模型来识别待测音频中的语音片段。
查找单元30用于从标记的待测音频中查找具有第一预设标识的整段音频,其中,整段音频为一整段标记有第一预设标识的语音。
具体地,向语音训练模型输入待测语音,利用语音训练模型标记待测音频中若干具有第一预设标识的长度为t2的音频段。整段音频为具有多个连续第一预设标识的语音段。
确定单元40用于将具有第一预设标识的整段音频的作为一段语音,具有第一预设标识的整段音频的起始点和结束点作为一段语音的端点。
具体地,第一个具有第一预设标识的音频的起点作为整段音频的起始点,将最后一个具有第一预设标识音频的终点作为音频的结束点,所有起始点和结束点为这一段语音的端点。
由于语音训练模型标记和输出的是语音片段,其中,连续的两段或者多段标记有第一预设标识的语音片段属于同一段语音即上述定义的整段音频,将连续的标记有第一预设标识的音频段做一段语音,将音频段语音的起始点和结束点作为语音的端点。
根据本发明实施例,通过利用对各种环境下的语音数据进行训练得到语音训练集来检测待测音频中的语音,从而确定出语音端点。由于语音训练模型为对各种环境下的语音数据进行训练得到的,无论在具有多大噪音的环境下的待测音频,该模型均能够识别并标记出语音片段,解决了现有技术中在噪音大的情况下语音端点检测的准确性较低的问题,达到了提高语音端点检测的准确性。
优选地,语音端点检测装置还包括:采集单元,用于在获取目标环境下的待测音频之前,采集目标环境的语音数据,将语音数据作为语音训练集数据;划分单元,用于以预设单位时间对语音数据进行划分,得到多个音频段;判断单元,用于依次判断多个音频段中是否包含有语音;第二标记单元,用于将包含有语音的音频段标记为第一预设标记,并将不包含有语音的音频段标记为第二预设标记;以及训练单元,用于从标记有第一预设标记和第二预设标记的音频段中提取样本,利用提取的样本训练得到语音训练模型。
目标环境可以是任意具有复杂或者不复杂背景的环境,获取语音数据作为语音训练集数据,用以训练的到语音训练模型。
具体地,在获取到语音数据之后,首先按照预设单位时间对语音数据划分成多个音频段,其中,预设单位时间可以是微秒,即上述中所提到的t1。然后,按照预先设置的标记对划分的音频段进行标记,将语音的音频段标记为第一预设标识(如“1”),反之,则标记为第二预设标识(如“-1”)。然后从标记好的音频段中提取用于训练的样本,训练样本是多个固定单位时间t(如1毫秒)音频段,且训练样本为利用随机算法抽取的只包含第一预设标识的若干t长度的连续音频段的正样本,和只包含第二预设标识的若干t长度的连续音频段的负样本,以训练出语音训练模型。
通过训练之后,该语音训练模型即可利用训练得到的参数来对待测音频进行标记,将待测音频中语音片段标记为第一预设标识,非语音片段标记为第二预设标识。这样,可以将通过语音训练模型输出的音频中具有第一预设标识的音频片段与具有第二预设标识的音频片段的交界点作为语音端点,从而快速地检测出语音端点。
进一步地,训练单元包括:第一提取模块,用于从标记有第一预设标记的音频段中提取多个预设时间长度的音频段,作为正样本;第二提取模块,用于从标记有第二预设标记的音频段中提取多个预设时间长度的音频段,作为负样本;训练模块,用于使用支持向量机对正样本和负样本进行训练,得到语音训练模型。
在对多个音频段进行标记之后,根据需要设定一个预设时间长度(如1秒),然后从标记有第一预设标识的音频段中提取多个预设时间长度的音频段,将其作为正样本,其中,一个预设时间长度的音频段中包括多个标记有第一预设标识的音频段;从标记有第二预设标识的音频段中提取多个预设时间长度的音频段,将其作为负样本,其中,该一个预设时间长度的音频段中包括多个标记有第二预设标识的音频段。最后,使用支持向量机(SVM)训练得到语音训练模型。
上述训练得到的语音训练模型对待测音频片段进行检测标记时,可以以预设单位时间来对待测音频中的音频段进行标记。输出的时候则可以以待测音频中标记的预设时间长度的音频段输出。
进一步地,训练模块包括:训练子模块,用于使用支持向量机,添加高斯核函数和松弛因子对正样本和负样本进行训练,得到语音训练模型。
本发明实施例中,为了使语音训练模型具有语音抗噪功能,减少由于语音不连续性对语音训练模型的参数的影响,并使得语音训练模型快速稳定,在使用支持向量机训练模型时,向模型中加入高斯函数和松弛因子,从而进一步提高语音端点检测的准确性。
优选地,第一标记单元包括:划分模块,用于按照预设单位时间对待测音频进行划分,得到多个待测音频段;标记模块,用于利用语音训练模型对多个待测音频段进行标记,将包含有语音的待测音频段标记为第一预设标识,将不包含有语音的待测音频段标记为第二预设标识。
本发明实施例中,将在利用语音训练模型对待测音频进行标记时,先按照之前训练得到语音训练模型时规则对待测音频进行划分,即按照上述中预设单位时间来对待测音频进行划分,得到多个待测音频段。然后,利用语音训练模型训练得到的参数来确定划分得到的多个待测音频段中每个音频段标记的标识,即第一预设标识和第二预设标识,实现对待测音频的标记。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音端点检测方法,其特征在于,包括:
获取目标环境下的待测音频;
利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的语音片段标记为第一预设标识,其中,所述语音训练模型为对所述目标环境的语音数据进行训练得到的模型;以及
从标记的待测音频中查找具有所述第一预设标识的整段音频,其中,所述整段音频为一整段标记有所述第一预设标识的语音;
将所述具有所述第一预设标识的整段音频的作为一段语音,所述具有所述第一预设标识的整段音频的起始点和结束点作为所述一段语音的端点。
2.根据权利要求1所述的语音端点检测方法,其特征在于,在获取目标环境下的待测音频之前,所述语音端点检测方法还包括:
采集所述目标环境的语音数据,将所述语音数据作为语音训练集数据;
以预设单位时间对所述语音数据进行划分,得到多个音频段;
依次判断所述多个音频段中是否包含有语音;
将包含有语音的音频段标记为所述第一预设标记,并将不包含有语音的音频段标记为第二预设标记;以及
从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型。
3.根据权利要求2所述的语音端点检测方法,其特征在于,从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型包括:
从标记有所述第一预设标记的音频段中提取多个预设时间长度的音频段,作为正样本;
从标记有所述第二预设标记的音频段中提取多个所述预设时间长度的音频段,作为负样本;
使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型。
4.根据权利要求3所述的语音端点检测方法,其特征在于,使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型包括:
使用所述支持向量机并添加高斯核函数和松弛因子对所述正样本和所述负样本进行训练,得到所述语音训练模型。
5.根据权利要求2所述的语音端点检测方法,其特征在于,利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记包括:
按照所述预设单位时间对所述待测音频进行划分,得到多个待测音频段;
利用所述语音训练模型对所述多个待测音频段进行标记,将包含有语音的待测音频段标记为所述第一预设标识,将不包含有语音的待测音频段标记为所述第二预设标识。
6.一种语音端点检测装置,其特征在于,包括:
获取单元,用于获取目标环境下的待测音频;
第一标记单元,用于利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的语音片段标记为第一预设标识,其中,所述语音训练模型为对所述目标环境的语音数据进行训练得到的模型;以及
查找单元,用于从标记的待测音频中查找具有所述第一预设标识的整段音频,其中,所述整段音频为一整段标记有所述第一预设标识的语音;
确定单元,用于将所述具有所述第一预设标识的整段音频的作为一段语音,所述具有所述第一预设标识的整段音频的起始点和结束点作为所述一段语音的端点。
7.根据权利要求6所述的语音端点检测装置,其特征在于,所述语音端点检测装置还包括:
采集单元,用于在获取目标环境下的待测音频之前,采集所述目标环境的语音数据,将所述语音数据作为语音训练集数据;
划分单元,用于以预设单位时间对所述语音数据进行划分,得到多个音频段;
判断单元,用于依次判断所述多个音频段中是否包含有语音;
第二标记单元,用于将包含有语音的音频段标记为所述第一预设标记,并将不包含有语音的音频段标记为第二预设标记;以及
训练单元,用于从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型。
8.根据权利要求7所述的语音端点检测装置,其特征在于,所述训练单元包括:
第一提取模块,用于从标记有所述第一预设标记的音频段中提取多个预设时间长度的音频段,作为正样本;
第二提取模块,用于从标记有所述第二预设标记的音频段中提取多个所述预设时间长度的音频段,作为负样本;
训练模块,用于使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型。
9.根据权利要求8所述的语音端点检测装置,其特征在于,所述训练模块包括:
训练子模块,用于使用所述支持向量机,添加高斯核函数和松弛因子对所述正样本和所述负样本进行训练,得到所述语音训练模型。
10.根据权利要求7所述的语音端点检测装置,其特征在于,所述第一标记单元包括:
划分模块,用于按照所述预设单位时间对所述待测音频进行划分,得到多个待测音频段;
标记模块,用于利用所述语音训练模型对所述多个待测音频段进行标记,将包含有语音的待测音频段标记为所述第一预设标识,将不包含有语音的待测音频段标记为所述第二预设标识。
CN201410779544.2A 2014-12-15 2014-12-15 语音端点检测方法和装置 Active CN104409080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410779544.2A CN104409080B (zh) 2014-12-15 2014-12-15 语音端点检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410779544.2A CN104409080B (zh) 2014-12-15 2014-12-15 语音端点检测方法和装置

Publications (2)

Publication Number Publication Date
CN104409080A true CN104409080A (zh) 2015-03-11
CN104409080B CN104409080B (zh) 2018-09-18

Family

ID=52646703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410779544.2A Active CN104409080B (zh) 2014-12-15 2014-12-15 语音端点检测方法和装置

Country Status (1)

Country Link
CN (1) CN104409080B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118502A (zh) * 2015-07-14 2015-12-02 百度在线网络技术(北京)有限公司 语音识别系统的端点检测方法及系统
CN106558313A (zh) * 2016-11-16 2017-04-05 北京云知声信息技术有限公司 语音识别方法及装置
CN107564545A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN108766418A (zh) * 2018-05-24 2018-11-06 百度在线网络技术(北京)有限公司 语音端点识别方法、装置及设备
CN108877778A (zh) * 2018-06-13 2018-11-23 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN109378016A (zh) * 2018-10-10 2019-02-22 四川长虹电器股份有限公司 一种基于vad的关键词识别标注方法
CN109616097A (zh) * 2019-01-04 2019-04-12 平安科技(深圳)有限公司 语音数据处理方法、装置、设备及存储介质
TWI659409B (zh) * 2017-02-13 2019-05-11 大陸商芋頭科技(杭州)有限公司 一種語音端點檢測方法及語音辨識方法
CN109817240A (zh) * 2019-03-21 2019-05-28 北京儒博科技有限公司 信号分离方法、装置、设备及存储介质
CN110034976A (zh) * 2019-04-08 2019-07-19 Oppo广东移动通信有限公司 一种数据识别的方法及装置
CN110473528A (zh) * 2019-08-22 2019-11-19 北京明略软件系统有限公司 语音识别方法和装置、存储介质及电子装置
CN110808073A (zh) * 2019-11-13 2020-02-18 苏州思必驰信息科技有限公司 语音活动检测方法、语音识别方法及系统
CN111159464A (zh) * 2019-12-26 2020-05-15 腾讯科技(深圳)有限公司 一种音频片段的检测方法及相关设备
CN112669822A (zh) * 2020-12-16 2021-04-16 爱驰汽车有限公司 音频处理方法、装置、电子设备和存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US5611019A (en) * 1993-05-19 1997-03-11 Matsushita Electric Industrial Co., Ltd. Method and an apparatus for speech detection for determining whether an input signal is speech or nonspeech
US6208967B1 (en) * 1996-02-27 2001-03-27 U.S. Philips Corporation Method and apparatus for automatic speech segmentation into phoneme-like units for use in speech processing applications, and based on segmentation into broad phonetic classes, sequence-constrained vector quantization and hidden-markov-models
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US20040199384A1 (en) * 2003-04-04 2004-10-07 Wei-Tyng Hong Speech model training technique for speech recognition
CN101171624A (zh) * 2005-03-11 2008-04-30 株式会社建伍 语音合成装置,语音合成方法,以及程序
CN101197130A (zh) * 2006-12-07 2008-06-11 华为技术有限公司 声音活动检测方法和声音活动检测器
US20090076814A1 (en) * 2007-09-19 2009-03-19 Electronics And Telecommunications Research Institute Apparatus and method for determining speech signal
CN101656070A (zh) * 2008-08-22 2010-02-24 展讯通信(上海)有限公司 一种语音检测方法
US20100232619A1 (en) * 2007-10-12 2010-09-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for generating a multi-channel signal including speech signal processing
CN102170528A (zh) * 2011-03-25 2011-08-31 天脉聚源(北京)传媒科技有限公司 一种新闻节目的分段方法
CN102945670A (zh) * 2012-11-26 2013-02-27 河海大学 一种用于语音识别系统的多环境特征补偿方法
CN103440862A (zh) * 2013-08-16 2013-12-11 北京奇艺世纪科技有限公司 一种语音与音乐合成的方法、装置以及设备
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN103824555A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
CN103824557A (zh) * 2014-02-19 2014-05-28 清华大学 一种具有自定义功能的音频检测分类方法
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN103871417A (zh) * 2014-03-25 2014-06-18 北京工业大学 一种移动手机特定连续语音过滤方法及过滤装置
CN104103280A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 基于动态时间归整算法的离线语音端点检测的方法和装置

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US5611019A (en) * 1993-05-19 1997-03-11 Matsushita Electric Industrial Co., Ltd. Method and an apparatus for speech detection for determining whether an input signal is speech or nonspeech
US6208967B1 (en) * 1996-02-27 2001-03-27 U.S. Philips Corporation Method and apparatus for automatic speech segmentation into phoneme-like units for use in speech processing applications, and based on segmentation into broad phonetic classes, sequence-constrained vector quantization and hidden-markov-models
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US20040199384A1 (en) * 2003-04-04 2004-10-07 Wei-Tyng Hong Speech model training technique for speech recognition
TW200421262A (en) * 2003-04-04 2004-10-16 Penpower Technology Ltd Speech model training method applied in speech recognition
CN101171624A (zh) * 2005-03-11 2008-04-30 株式会社建伍 语音合成装置,语音合成方法,以及程序
CN101197130A (zh) * 2006-12-07 2008-06-11 华为技术有限公司 声音活动检测方法和声音活动检测器
US20090076814A1 (en) * 2007-09-19 2009-03-19 Electronics And Telecommunications Research Institute Apparatus and method for determining speech signal
US20100232619A1 (en) * 2007-10-12 2010-09-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for generating a multi-channel signal including speech signal processing
CN101656070A (zh) * 2008-08-22 2010-02-24 展讯通信(上海)有限公司 一种语音检测方法
CN102170528A (zh) * 2011-03-25 2011-08-31 天脉聚源(北京)传媒科技有限公司 一种新闻节目的分段方法
CN103824555A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
CN102945670A (zh) * 2012-11-26 2013-02-27 河海大学 一种用于语音识别系统的多环境特征补偿方法
CN103440862A (zh) * 2013-08-16 2013-12-11 北京奇艺世纪科技有限公司 一种语音与音乐合成的方法、装置以及设备
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN103824557A (zh) * 2014-02-19 2014-05-28 清华大学 一种具有自定义功能的音频检测分类方法
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN103871417A (zh) * 2014-03-25 2014-06-18 北京工业大学 一种移动手机特定连续语音过滤方法及过滤装置
CN104103280A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 基于动态时间归整算法的离线语音端点检测的方法和装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118502B (zh) * 2015-07-14 2017-05-10 百度在线网络技术(北京)有限公司 语音识别系统的端点检测方法及系统
CN105118502A (zh) * 2015-07-14 2015-12-02 百度在线网络技术(北京)有限公司 语音识别系统的端点检测方法及系统
CN107564545A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN106558313A (zh) * 2016-11-16 2017-04-05 北京云知声信息技术有限公司 语音识别方法及装置
TWI659409B (zh) * 2017-02-13 2019-05-11 大陸商芋頭科技(杭州)有限公司 一種語音端點檢測方法及語音辨識方法
CN108766418A (zh) * 2018-05-24 2018-11-06 百度在线网络技术(北京)有限公司 语音端点识别方法、装置及设备
US10847179B2 (en) 2018-05-24 2020-11-24 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for recognizing voice endpoints
CN108877778A (zh) * 2018-06-13 2018-11-23 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN108877778B (zh) * 2018-06-13 2019-09-17 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
US10937448B2 (en) 2018-06-13 2021-03-02 Baidu Online Network Technology (Beijing) Co., Ltd. Voice activity detection method and apparatus
CN109378016A (zh) * 2018-10-10 2019-02-22 四川长虹电器股份有限公司 一种基于vad的关键词识别标注方法
CN109616097A (zh) * 2019-01-04 2019-04-12 平安科技(深圳)有限公司 语音数据处理方法、装置、设备及存储介质
CN109817240A (zh) * 2019-03-21 2019-05-28 北京儒博科技有限公司 信号分离方法、装置、设备及存储介质
CN110034976A (zh) * 2019-04-08 2019-07-19 Oppo广东移动通信有限公司 一种数据识别的方法及装置
CN110473528B (zh) * 2019-08-22 2022-01-28 北京明略软件系统有限公司 语音识别方法和装置、存储介质及电子装置
CN110473528A (zh) * 2019-08-22 2019-11-19 北京明略软件系统有限公司 语音识别方法和装置、存储介质及电子装置
CN110808073A (zh) * 2019-11-13 2020-02-18 苏州思必驰信息科技有限公司 语音活动检测方法、语音识别方法及系统
CN111159464A (zh) * 2019-12-26 2020-05-15 腾讯科技(深圳)有限公司 一种音频片段的检测方法及相关设备
CN111159464B (zh) * 2019-12-26 2023-12-15 腾讯科技(深圳)有限公司 一种音频片段的检测方法及相关设备
CN112669822A (zh) * 2020-12-16 2021-04-16 爱驰汽车有限公司 音频处理方法、装置、电子设备和存储介质
CN112669822B (zh) * 2020-12-16 2022-11-25 爱驰汽车有限公司 音频处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN104409080B (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN104409080A (zh) 语音端点检测方法和装置
CN104505090A (zh) 敏感词的语音识别方法和装置
CN107293307B (zh) 音频检测方法及装置
CN111477250B (zh) 音频场景识别方法、音频场景识别模型的训练方法和装置
CN102779510B (zh) 基于特征空间自适应投影的语音情感识别方法
CN106899968A (zh) 一种基于WiFi信道状态信息的主动非接触身份认证方法
CN110108992B (zh) 基于改进随机森林算法的电缆局放故障识别方法、系统
CN101894548A (zh) 一种用于语种识别的建模方法及装置
CN106528655A (zh) 文本主题识别方法和装置
CN107180223A (zh) 基于wifi无线信号的动作识别方法和系统
CN110751960B (zh) 噪声数据的确定方法及装置
CN110853648A (zh) 一种不良语音检测方法、装置、电子设备及存储介质
Ntalampiras et al. Acoustic detection of human activities in natural environments
CN104572717A (zh) 信息搜索方法和装置
CN106303370A (zh) 确定目标对象位置的方法、装置及系统
CN105718543A (zh) 语句的展示方法和装置
CN103778916A (zh) 监控环境声音的方法及系统
CN108614987A (zh) 数据处理的方法、装置和机器人
CN104103280A (zh) 基于动态时间归整算法的离线语音端点检测的方法和装置
CN112331188A (zh) 一种语音数据处理方法、系统及终端设备
CN106531195A (zh) 一种对话冲突检测方法及装置
CN113283331A (zh) 用于无人值守传感器系统的多类别目标识别方法及系统
CN106650610A (zh) 一种人脸表情数据收集方法及装置
CN116524939A (zh) 一种基于ecapa-tdnn的鸟鸣物种自动识别方法
CN115394318A (zh) 一种音频检测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Voice end node detection method and device

Effective date of registration: 20190531

Granted publication date: 20180918

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.

CP02 Change in the address of a patent holder