CN103165127B - 声音分段设备和方法以及声音检测系统 - Google Patents

声音分段设备和方法以及声音检测系统 Download PDF

Info

Publication number
CN103165127B
CN103165127B CN201110418846.3A CN201110418846A CN103165127B CN 103165127 B CN103165127 B CN 103165127B CN 201110418846 A CN201110418846 A CN 201110418846A CN 103165127 B CN103165127 B CN 103165127B
Authority
CN
China
Prior art keywords
point
process window
sound
cut
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110418846.3A
Other languages
English (en)
Other versions
CN103165127A (zh
Inventor
穆向禹
刘贺飞
郭莉莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201110418846.3A priority Critical patent/CN103165127B/zh
Publication of CN103165127A publication Critical patent/CN103165127A/zh
Application granted granted Critical
Publication of CN103165127B publication Critical patent/CN103165127B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提供一种声音分段设备和方法以及声音检测系统。所述声音分段方法包括:非静音检测步骤,从声音序列中检测非静音声音段;特征提取步骤,从所述非静音声音段中提取特征序列;第一检测步骤,如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测步骤,在所述候选区域内检测分割点;以及第一处理窗调整步骤,如果在所述第一检测步骤中所述处理窗中的点集不满足所述规定条件或者如果在所述第二检测步骤中没有检测到分割点,则调整所述处理窗,其中,对于在第一处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤和第二检测步骤。得益于本发明,可以获得好的性能而无需大的计算量。

Description

声音分段设备和方法以及声音检测系统
技术领域
本发明涉及声音分段设备和声音分段方法,以及声音检测系统。
背景技术
声音检测方法通常涉及作为第一步骤的声音分段处理和作为第二步骤的声音分类处理。
在声音分段处理中,输入声音序列(音频序列)被分段为多个声音段,每个声音段被认为具有相同属性。然后,在声音分类处理中,这些声音段被输入到声音分类器,并且输出声音段的声音类别。
声音分段处理常常在声音检测方法中起到重要的作用,这是因为声音分段处理的性能直接影响声音分类处理的结果,因此直接影响声音检测方法的性能。
已提出了被称为“基于尺度度量的方法(metric based methods)”的声音分段方法。在基于尺度度量的方法中,两个连续声音段之间的点被作为候选分割点。计算这两个连续声音段之间的某些种类的距离度量,并且,将这些距离度量与预定阈值进行比较,用以做出关于该候选分割点是否是该声音段的分割点的判决。在如上所述的基于距离度量的方法中,常常难以从候选分割点确定分割点,这是因为这些方法要求适当的阈值,而所述阈值常常需要对于不同的训练数据而被调整,并且无法对所有种类的声音数据保证稳定性和稳健性。
还存在被称为“基于模型选择的方法(model selection basedmethod)”的声音分段方法。这种方法的一个例子是Delta贝叶斯信息准则(Delta Bayesian Information Criterion,ΔBIC)方法。ΔBIC方法不需要任何对模型的事先训练。
在ΔBIC方法中,通常对声音序列应用处理窗。在常规ΔBIC方法中,处理窗的尺寸(长度)是固定的,并且在该处理窗中的点被处理之后简单地偏移处理窗,直到输入声音序列中的所有点都已被处理为止。处理窗中的点(更特别地,对应于这些点的声音特征)被用来计算ΔBIC值。然后,计算出的ΔBIC值被用于判断是否在当前处理窗中出现分割点。如果在当前处理窗中出现分割点,则偏移处理窗以使得该分割点成为经偏移的处理窗的起点,并且,在经偏移的处理窗中继续检测下一个分割点。如果在当前处理窗中未出现分割点,则处理窗被偏移固定尺寸,并且,在经偏移的处理窗中继续检测分割点。
在美国专利No.6421645、6424946和6748356中,提出了使用可变尺寸的处理窗的ΔBIC方法。在该方法中,通过使用可变尺寸的处理窗而非使用固定尺寸的处理窗来计算ΔBIC值(其构成ΔBIC序列)。
图1示出美国专利No.6421645、6424946和6748356中公开的声音分段方法的示意性流程图。
根据图1所示的方法,处理窗被应用于从声音序列中提取的声音特征序列,并且,对于加窗的声音特征序列计算ΔBIC序列,其中,ΔBIC序列中的每个值指示当声音序列中的相应点被作为分割点时所获得的信息熵。如果确定ΔBIC序列中的最小值小于零,则对应于该最小值的点被作为当前窗中的分割点。如果确定ΔBIC序列中的最小值不小于零,则处理窗的尺寸和/或位置被调整,并且以类似的方式处理经调整的窗。
发明内容
在计算各ΔBIC值时,需要对三个不同的高斯模型估计均值(或均值向量)和方差(或者协方差矩阵)两者,因此ΔBIC方法的计算量非常大。此外,在美国专利No.6421645、6424946和6748356中,必须对于处理窗两端以外的所有点计算ΔBIC值。也就是说,即使在一些处理窗中可能实际上不存在分割点,也需要对处理窗中的几乎每个点执行ΔBIC值的计算。
本发明的发明人发现,美国专利No.6421645、6424946和6748356中公开的方法的计算复杂度非常大。
因此,需要一种新的声音分段方法,该新的声音分段方法能够执行声音分段而无需大的计算量。
为了解决以上技术问题,本发明提供一种声音分段方法,包括:非静音检测步骤,从声音序列中检测非静音声音段;特征提取步骤,从所述非静音声音段中提取特征序列;第一检测步骤,如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测步骤,在所述候选区域内检测分割点;以及第一处理窗调整步骤,如果在所述第一检测步骤中所述处理窗中的点集不满足所述规定条件或者如果在所述第二检测步骤中没有检测到分割点,则调整所述处理窗,其中,对于在第一处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤和第二检测步骤。
此外,为了解决以上技术问题,本发明提供一种声音分段设备,包括:非静音检测单元,被配置为用于从声音序列中检测非静音声音段;特征提取单元,被配置为用于从所述非静音声音段中提取特征序列;第一检测单元,被配置为如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测单元,被配置为用于在所述候选区域内检测分割点;以及第一处理窗调整单元,被配置为如果在所述第一检测单元中所述处理窗中的点集不满足所述规定条件或者如果所述第二检测单元没有检测到分割点,则调整所述处理窗,其中,对于由第一处理窗调整单元调整的处理窗,所述第一检测单元和第二检测单元再次执行操作。
此外,本发明提供一种声音检测系统,包括:存储单元,被配置为用于存储多个声音模型,每个声音模型对应于一个声音类别;如前文所述的声音分段设备,被配置为用于将声音序列分段为多个声音段;以及声音分类器,被配置为用于通过利用所述声音模型,将从所述声音分段设备输出的声音段进行分类。
得益于根据本发明的声音分段设备和声音分段方法,由于仅在候选区域中而非在所有处理窗中执行对分割点的检测,因此声音分段中的计算量可大大降低。
在本发明的一些实施方式中,通过使用具有较低精度和较低复杂度的第一检测来确定候选区域,而通过使用具有较高精度和较高复杂度的第二检测来检测分割点,从而在总体性能方面能够实现低计算量和高精度两者。
在本发明的一些其它实施方式中,通过使用具有中等精度和中等复杂度的第一检测来确定候选区域,通过使用具有较低精度和较低复杂度的第二检测来检测分割点,而通过使用具有较高精度和较高复杂度的第三检测来核实分割点,从而在总体性能方面能够实现低计算量和高精度两者。
从参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。
附图说明
并入说明书中并且构成说明书的一部分的附图图示本发明的实施例,并且与描述一起用于说明本发明的原理。
图1示出现有技术中的声音分段方法的示意性流程图。
图2是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。
图3示出根据本发明的声音分段设备的示意性功能框图。
图4示出根据本发明的声音分段方法的流程图。
图5示出根据本发明的第一实施例的声音分段设备的示意性功能框图。
图6示出根据本发明的第一实施例的声音分段方法的流程图。
图7A和7B是用于图示第一处理窗调整步骤和第二处理窗调整步骤中的处理的示意图。
图8示出根据本发明第二实施例的声音分段设备的示意性功能框图。
图9示出根据本发明的第二实施例的声音分段方法的流程图。
图10A到10D示出根据本发明的第二实施例的声音分段的说明性例子。
图11示出用于声音检测系统的示意性功能框图。
具体实施方式
以下将参照附图详细描述本发明的实施例。
请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。
首先,将说明本公开的上下文中的一些术语的含义。
在本公开中,“分割点”是两个声音段之间的边界,即,从一个声音段到另一声音段的变化点。从声音序列检测出的分割点等同于从该声音序列提取的声音特征序列的分割点。一旦对于声音序列确定分割点,可相应地确定作为声音分段的结果的各个声音段。
如果包含在序列中的某个邻域内的点在该邻域内具有最小值,且该点不位于该邻域的任何端点处,则该最小值被称为该序列的“局部最小值”,并且该点被称作“具有局部最小值的点”或“对应于局部最小值的点”。一个序列可具有一个或更多个局部最小值,也可不具有局部最小值。
如果包含在序列中的某个邻域内的点在该邻域内具有最大值,且该点不位于该邻域的任何端点处,则该最大值被称为该序列的“局部最大值”,并且该点被称作“具有局部最大值的点”或“对应于局部最大值的点”。一个序列可具有一个或更多个局部最大值,也可不具有局部最大值。
例如,当序列具有单调增大或减小的值的点时,该序列既不具有局部最大值也不具有局部最小值。
根据本公开中的定义,点的ΔBIC值表示整体声音段的信息熵与通过将该点作为该整体声音段的分割点而获得的两个声音段的信息熵之间的差。也就是说,本发明中的ΔBIC值涉及与美国专利No.6421645、6424946和6748356中的ΔBIC值基本上具有相反符号的值,在美国专利No.6421645、6424946和6748356中,点的ΔBIC值指示通过将该点作为整体声音段的分割点而获得的两个声音段的信息熵与该整体声音段的信息熵之间的差。
图2是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
如图2中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图2所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
图3示出根据本发明的声音分段设备的示意性功能框图。
如图3所示,根据本发明的声音分段设备3000包括:非静音检测单元3100,被配置为用于从声音序列中检测非静音声音段;特征提取单元3200,被配置为用于从所述非静音声音段中提取特征序列;第一检测单元3300,被配置为如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测单元3400,被配置为用于在所述候选区域内检测分割点;以及第一处理窗调整单元3500,被配置为如果在所述第一检测单元3300中所述处理窗中的点集不满足所述规定条件或者如果所述第二检测单元3400没有检测到分割点,则调整所述处理窗。对于由第一处理窗调整单元3500调整的处理窗,所述第一检测单元3300和第二检测单元3400再次执行各自的操作。
图4示出根据本发明的声音分段方法的流程图。该声音分段方法可由图3中所示的声音分段设备3000来实施。
如图4所示,所述声音分段方法包括:非静音检测步骤S410,从声音序列中检测非静音声音段;特征提取步骤S420,从所述非静音声音段中提取特征序列;第一检测步骤S430,如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测步骤S440,在所述候选区域内检测分割点;以及第一处理窗调整步骤S450,如果在所述第一检测步骤S430中所述处理窗中的点集不满足所述规定条件或者如果在所述第二检测步骤S440中没有检测到分割点,则调整所述处理窗。对于在第一处理窗调整步骤S450中经调整的处理窗,再次执行所述第一检测步骤S430和第二检测步骤S440。
所述点集可以仅包含一个点,也可以包含多个点。所述规定条件可以是用于判断在处理窗中是否可能出现分割点的任何适当条件。
在本发明的一种示例性实施方式中,所述点集至少包括处理窗的中点的邻域内的一个点。上述的邻域可以由距处理窗的中点的距离不大于处理窗的尺寸(长度)的五分之一的点构成。
现在将参照图5描述第一实施例。图5示出根据本发明的第一实施例的声音分段设备的示意性功能框图。
根据第一实施例,声音分段设备3000包括如前面所描述的非静音检测单元3100、特征提取单元3200、第一检测单元3300、第二检测单元3400和第一处理窗调整单元3500。
根据本发明的一种示例性实施方式,第一处理窗调整单元3500可以包括:增大单元3510,被配置为用于以预定增大值增大所述处理窗的尺寸(即,以预定增大值偏移处理窗的终点而不偏移处理窗的起点);确定单元3520,被配置为用于确定从所述增大单元3510中输出的处理窗的尺寸是否大于上限尺寸;以及窗偏移单元3530,被配置为如果从所述增大单元3510输出的处理窗的尺寸大于所述上限尺寸,则以预定偏移值偏移所述处理窗的起点并且将经偏移的处理窗的尺寸重新设置为下限尺寸。对于经第一处理窗调整单元3500调整的处理窗,所述第一检测单元3300和第二检测单元3400再次执行各自的操作。
图6示出根据本发明的第一实施例的声音分段方法的流程图。图6中所示的声音分段方法可由图5中所示的声音分段设备3000来实施。
在非静音检测步骤S410中,从声音序列中检测非静音声音段。
任何非静音声音段检测方法可被用于步骤S410。例如,在郑展恒等人的“一种语音端点检测方法的研究”(桂林电子科技大学学报,Vo l.28,No.1,2008年2月)中提出的方法可在此被用于步骤S410。然而,用于非静音声音段检测的方法不限于任何特定方法,诸如使用时域信息(短时能量(short-term energy)或过零率(zero-crossing rate)等)的方法、使用频域信息(线性预测参数(linear predictionparameters)或Mel傅立叶倒谱系数(Mel Fourier CepstralCoefficients,MFCC)等)的方法以及使用时域信息和频域信息两者的方法之类的各种公知的声音活动性检测方法也可被用于步骤S410。
然后,在特征提取步骤S420中,从非静音声音段中检测特征序列。
在步骤S420中可采用各种声音特征。例如,所述声音特征可以是诸如短时能量(Short-Time Energy,STE)、低短时能量比(Low ShortTime Energy Ratio,LSTER)、子带能量(sub-band energies)、过零率(Zero-Crossing Rate,ZCR)、高过零率比(High Zero-CrossingRate Ratio,HZCRR)、谱质心(spectral centroid)、谱带宽(spectralbandwidth)或基频(fundamental frequency)等的感知特征(perceptual feature)。所述声音特征也可以是诸如Mel傅立叶倒谱系数(MFCC)、线性预测倒谱系数(Linear Predictive CepstralCoefficients,LPCC)或感知线性预测(Perceptual Linear Prediction,PLP)等的倒谱系数。所述声音特征还可以是基于频率滤波器的谱参数,诸如基于对数滤波带能量(Log Filtered Bank Energy)或频率滤波带能量(Frequency Filtered Bank Energy,FFBE)的频率序列的滤波的参数等。
以上例示了许多声音特征。然而应该注意,可以取决于具体应用或具体声音类别来选择不同的声音特征。也可组合不同的声音特征及其一阶/二阶导数以构建特征向量。类似地,可取决于具体应用或具体声音类别而采用不同声音特征的不同组合来构建特征向量。声音特征序列中的每个元素可以是这样的特征向量。
然后,在第一检测步骤S430中,确定当前处理窗中的点集是否满足规定条件。如果所述点集满足所述规定条件,则确定为特征序列的当前处理窗是候选区域(步骤S430中为“是”),并且流程去往步骤S440。如果所述点集不满足所述规定条件,则确定为特征序列的当前处理窗不是候选区域(步骤S430中为“否”),并且流程去往步骤S450。
在初次执行步骤S430时,初始的处理窗可具有下限尺寸。处理窗的该下限尺寸可以根据声音序列中所包含的可能的声音类别、允许的处理时间或要求的精度等而被预先确定。也就是说,本领域技术人员可根据具体应用来预先确定处理窗的下限尺寸。例如,如果要被检测的声音段的尺寸预期是大的(长的),则下限尺寸可被设为较大,而如果要被检测的声音段的尺寸预期是小的(短的),则下限尺寸可被设为较小。作为替换方案,如果要求高的精度,则可将下限尺寸设为较小,而如果不要求高的精度,则可将下限尺寸设为较大。
如前面所述,所述点集可以仅包含一个点,也可以包含多个点。所述规定条件可以是用于判断在当前处理窗中是否有可能出现分割点的任何适当条件。
可根据允许的处理时间或要求的精度等来确定点集中的点的数量和/或位置。点集中的点的数量可以充分小于当前处理窗中的所有点的数量。
在本实施例的一种示例性实施方式中,所述点集至少包含当前处理窗的中点的邻域内的一个点。上述的邻域可以由距当前处理窗的中点的距离不大于当前处理窗的尺寸的五分之一的点构成。
在点集包含多于一个的点的情况下,点集中的点可具有预定的间隔。例如,点集中的点可以基本上等分当前处理窗。
例如,点集可仅包含一个点,该一个点将当前处理窗X分割为第一段X1和第二段X2。在这种情况下,所述规定条件可以是:所述第一段的基于第一高斯分布的概率与所述第二段的基于第二高斯分布的概率的和大于整个当前处理窗的基于第三高斯分布的概率(即,所述一个点是将在后面描述的第一类的点)。
作为替换方案,所述点集也可包含多个点,所述多个点中的每一个将当前处理窗分割为相应的第一段和相应的第二段。在这种情况下,所述规定条件可以是:第一类的点的数量大于第二类的点的数量。第一类和第二类可被如下定义。对于第一类的点,第一段的基于第一高斯分布的概率与第二段的基于第二高斯分布的概率的和大于整个当前处理窗的基于第三高斯分布的概率。对于第二类的点,第一段的基于第一高斯分布的概率与第二段的基于第二高斯分布的概率的和小于或等于整个当前处理窗的基于第三高斯分布的概率。
以上,第一高斯分布可以具有从所述第一段计算出的均值(均值向量)μ1和方差(协方差矩阵)∑1,第二高斯分布可以具有从所述第二段计算出的均值(均值向量)μ2和方差(协方差矩阵)∑2,而第三高斯分布可以具有从整个当前处理窗(第一段和第二段的级联)计算出的均值(均值向量)μ和方差(协方差矩阵)∑。
在第二检测步骤S440中,在候选区域中检测分割点的出现情况。
根据第一实施例的一种示例性实施方式,在第二检测步骤S440中,可在候选区域的概率距离序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点,作为分割点。在此,概率距离序列中的每个值可指示通过将对应于该值的点作为候选区域的分割点而获得的两个声音段之间的概率距离。
作为替换方案,在第二检测步骤S440中,可在候选区域的Delta贝叶斯信息准则(ΔBIC)序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点,作为分割点。在此,ΔBIC序列中的每个值对应于整个声音段的信息熵与通过将相应点作为整个声音段的分割点而获得的两个声音段的信息熵之间的差。
在此,“邻域”可以是点周围的适当区域,而且可以取决于所要求的精度而被确定。
如果在第二检测步骤S440中检测到分割点(步骤S440中为“是”),则该分割点可以被输出作为当前声音段的终点。
如果在第二检测步骤S440中没有检测到分割点(步骤S440中为“否”,例如,在候选区域的概率距离序列不具有局部最大值的情况下或者在候选区域的ΔBIC序列不具有局部最大值的情况下),流程去往步骤S450。
如上所述,在第一检测步骤S430中处理窗中的点集不满足规定条件的情况下或者在第二检测步骤S440中没有检测到分割点的情况下,流程来到步骤S450。在第一处理窗调整步骤S450中,处理窗被调整。在步骤S450中调整处理窗之后,流程再次去往步骤S430,在步骤S430,由经调整的处理窗加窗的特征序列经受第一检测步骤S430以及可能的情况下第二检测步骤S440中的处理,如图6所示。
在本实施例的一种示例性实施方式中,第一处理窗调整步骤S450可以包含:增大步骤S451,以预定增大值增大所述处理窗的尺寸(即,以预定增大值偏移处理窗的终点,但不偏移处理窗的起点);确定步骤S452,确定从所述增大步骤S451中输出的处理窗的尺寸是否大于上限尺寸;以及窗偏移步骤S453,如果从所述增大步骤S451输出的处理窗的尺寸大于所述上限尺寸(步骤S452中为“是”),则以预定偏移值偏移所述处理窗的起点并且将经偏移的处理窗的尺寸重新设置为下限尺寸。在步骤S453中偏移且重新设置的处理窗从步骤S450中输出。如果从增大步骤S451输出的处理窗的尺寸等于或小于所述上限尺寸(步骤S452中为“否”),则在增大步骤S451中经调整尺寸的处理窗从步骤S450中输出。
在此,处理窗的增大值和偏移值中的每一个可以根据声音序列中包含的可能的声音类别、允许的处理时间或要求的精度等而被预先确定。例如,如果要被检测的声音段的尺寸预期是大的(长的),则增大值和偏移值中的每一个可被设为较大,而如果要被检测的声音段的尺寸预期是小的(短的),则增大值和偏移值中的每一个可被设为较小。作为替换方案,如果允许长的处理时间,则可将增大值和偏移值中的每一个设为较小,而如果要求短的处理时间,则可将增大值和偏移值中的每一个设为较大。
与下限尺寸类似,处理窗的上限尺寸可根据声音序列中包含的可能的声音类别、要求的精度或允许的处理时间等而被预先确定。
虽然图6中没有示出,但是声音分段方法可进一步包括第二处理窗调整步骤。在第二检测步骤S440中检测到(从第二检测步骤S440输出)分割点时(步骤S440中为“是”),执行第二处理窗调整步骤。在第二处理窗调整步骤中,处理窗被偏移并且经偏移的处理窗的尺寸被重新设置。更具体地,在步骤S440中检测到的分割点被作为处理窗的起点,经偏移的处理窗的尺寸被重新设置为下限尺寸。对于在第二处理窗调整步骤中调整的处理窗,再次执行第一检测步骤和第二检测步骤。在第二处理窗调整步骤中调整处理窗之后,流程再次去往步骤S430,在步骤S430,由经调整的处理窗加窗的特征序列经受第一检测步骤S430以及在可能的情况下第二检测步骤S440中的处理。
在这种情况下,声音分段设备3000可进一步包括相应的第二处理窗调整单元(未示出),该第二处理窗调整单元被配置为用于执行上述的第二处理窗调整步骤中的处理。
图7A和7B示出用于图示第一处理窗调整步骤和第二处理窗调整步骤中的处理的示意图。在图7A和7B中,“Nmin”表示下限尺寸,“Nmax”表示上限尺寸,“Nshift”表示偏移值,“Ninc”表示增大值。
如图7A所示,处理窗的初始尺寸为Nmin,处理窗的尺寸每次增大Ninc。在处理窗的尺寸达到Nmax之后,处理窗的尺寸不再增大,而是处理窗的起点偏移Nshift并且处理窗的尺寸被重新设置为初始尺寸Nmin(第一处理窗调整步骤)。
如图7B所示,一旦发现或者核实了分割点,处理窗的起点就被偏移到该分割点并且处理窗的尺寸被重新设置为初始尺寸Nmin(第二处理窗调整步骤)。
在第一实施例中,第二检测单元的性能可优于第一检测单元的性能。此外,第二检测单元的计算复杂度可大于第一检测单元的计算复杂度。
根据第一实施例,代替处理每个处理窗中的每个点以检测分割点,对于分割点将仅仅检测满足规定条件的处理窗。因此,即使当使用可变尺寸的窗时,计算量也不变大。
现在将参照图8描述第二实施例。图8示出根据本发明的第二实施例的声音分段设备的示意性功能框图。
根据第二实施例,声音分段设备3000包括:非静音检测单元3100、特征提取单元3200、第一检测单元3300、第二检测单元3400和第一处理窗调整单元3500,这些单元可与对于第一实施例描述的各单元相同或类似。
此外,声音分段设备3000还包括第三检测单元3600,所述第三检测单元3600被配置为用于核实由第二检测单元3400检测出的分割点是否是有效的。根据第二实施例,如果第二检测单元3400检测出的分割点是无效的,则第一处理窗调整单元3500也调整处理窗。也就是说,如果在第一检测单元3300中处理窗中的点集不满足规定条件,如果第二检测单元3400没有检测到分割点,或者如果在第三检测单元3600中第二检测单元3400检测到的分割点是无效的,则第一处理窗调整单元3500调整处理窗。对于由第一处理窗调整单元3500调整的处理窗,第一检测单元3300、第二检测单元3400和第三处理单元3600再次执行相应操作。
图9示出根据本发明的第二实施例的声音分段方法的流程图。图9中所示的声音分段方法可由图8中所示的声音分段设备3000实施。
在非静音检测步骤S410中,从声音序列中检测非静音声音段。
然后,在特征提取步骤S420中,从非静音声音段中检测特征序列。
然后,在第一检测步骤S430中,确定当前处理窗中的点集是否满足规定条件。如果所述点集满足所述规定条件,则确定为特征序列的当前处理窗是候选区域(步骤S430中为“是”)并且流程去往步骤S440。如果所述点集不满足所述规定条件,则确定为特征序列的当前处理窗不是候选区域(步骤S430中为“否”)并且流程去往步骤S450。
第二实施例中的非静音检测步骤S410、特征提取步骤S420和第一检测步骤S430以及其中涉及的值和条件可与第一实施例中的相同,并且将省略重复描述。
在第二检测步骤S440中,在候选区域中检测分割点的出现情况。
根据第二实施例的一种示例性实施方式,在第二检测步骤S440中,可在候选区域的概率距离序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点,作为分割点。在此,概率距离序列中的每个值可指示通过将对应于该值的点作为候选区域的分割点而获得的两个声音段之间的概率距离。
在此,“邻域”可以是点周围的适当区域,而且可以取决于所要求的精度而被确定。
如果在第二检测步骤S440中检测到分割点(步骤S440中为“是”),则流程去往第三检测步骤S460。
如果在第二检测步骤S440中未检测到分割点(步骤S440中为“否”,例如在候选区域的概率距离序列不具有局部最大值的情况下),则流程去往步骤S450。
在第三检测步骤S460中,核实在第二检测步骤S440中检测到的分割点是否有效。如果核实为在第二检测步骤S440中检测到的分割点是有效的,则该有效分割点被输出作为当前声音段的终点。如果确定为在第二检测步骤S440中检测到的分割点是无效的,则流程去往步骤S450。第三检测步骤S460可由第三检测单元3600来实施。
在第二实施例的一种示例性实施方式中,在第三检测步骤S460中,通过判断分割点的Delta贝叶斯信息准则(ΔBIC)值是否大于零来核实在第二检测步骤S440中检测到的分割点是否有效。在此,ΔBIC值对应于整个声音段的信息熵与通过将相应点作为整个声音段的分割点而获得的两个声音段的信息熵之间的差。
如上所述,在第一检测步骤S430中处理窗中的点集不满足所述规定条件的情况下,在第二检测步骤S440中未检测到分割点的情况下,或者在第三检测步骤S460中分割点被确定为无效的情况下,流程来到步骤S450。在第一处理窗调整步骤S450中,调整处理窗。在步骤S450中调整处理窗之后,流程再次去往步骤S430,在步骤S430,由经调整的处理窗加窗的特征序列经受第一检测步骤S430以及在可能的情况下第二和第三检测步骤S440和S460中的处理,如图9所示。
第二实施例中的第一处理窗调整步骤S450可与第一实施例中描述的第一处理窗调整步骤S450相同,因而将省略重复描述。
虽然在图9中没有示出,但是声音分段方法还可以包括第二处理窗调整步骤。当在第三检测步骤S460中将分割点核实为有效时(步骤S460中为“是”),执行第二处理窗调整步骤。第二实施例中的第二处理窗调整步骤也可与第一实施例中描述的第二处理窗调整步骤相同,因而将省略重复描述。
对于在第二处理窗调整步骤中调整的处理窗,再次执行第一检测步骤、第二检测步骤和第三检测步骤。在第二处理窗调整步骤中调整处理窗之后,流程再次去往步骤S430,在步骤S430,由经调整的处理窗加窗的特征序列经受第一检测步骤S430以及在可能的情况下第二和第三检测步骤S440和S460中的处理。
在这种情况下,声音分段设备3000可进一步包括相应的第二处理窗调整单元(未示出),该第二处理窗调整单元被配置为用于执行上述的第二处理窗调整步骤中的处理。
在第二实施例中,第三检测单元的性能可优于第一检测单元的性能,第一检测单元的性能可优于第二检测单元的性能。此外,第三检测单元的计算复杂度可大于第一检测单元的计算复杂度,第一检测单元的计算复杂度可大于第二检测单元的计算复杂度。
根据第二实施例,代替处理每个处理窗中的每个点以检测分割点,对于分割点将仅仅检测满足规定条件的处理窗。因此,即使当使用可变尺寸的窗时,计算量也不变大。
此外,由于还执行第三检测步骤以核实第二检测步骤中检测出的分割点是否有效,可进一步提高声音分段的精度。同时,由于仅对于由第二检测步骤检测出的个别分割点执行具有更高性能和更大的计算复杂度的第三检测步骤,整个声音分段方法的计算量不变大。
现在,将参照图10A到10D描述根据本发明的第二实施例的声音分段的说明性例子。
图10A示出从声音序列中提取的特征序列的例子。图10B示出在第一检测步骤中(或者由第一检测单元)检测的候选区域(由图10B中的矩形框表示)。可以看出,在本例子中仅检测到五个候选区域,并且,仅需要对这些候选区域而非所有处理窗执行第二检测步骤。图10C示出在第二检测步骤中(或者由第二检测单元)在这些候选区域中检测到的分割点(由图10C中的实垂直线表示)。如图10D所示,仅对第二检测步骤中(或者由第二检测单元)检测出的五个分割点执行第三检测步骤,并且,这五个分割点中的三个被核实为有效的(由图10D中的实垂直线表示)并且被输出作为分段结果。如图10D中所示,声音序列被分段为四个声音段,三个分割点作为其间的边界。
以上描述的单元和以下要描述的单元是用于实施本公开中描述的处理的示例性和/或优选的模块。这些模块可以是硬件单元(诸如场可编程门阵列、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的模块。然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。
此外,由各种单元构成的上述设备可以作为功能模块被并入到诸如计算机之类的硬件装置中。除了这些功能模块之外,计算机当然可以具有其他硬件或者软件部件。
以下将描述可用于本发明的检测方法的一些例子。应注意,以下的检测方法仅是示例性和说明性的例子,本发明决不限于这些示例性例子。
在第一实施例和第二实施例二者中,可根据被称为“改进的广义似然比(Modified Generalized Likelihood Ratio,MGLR)方法”的概率距离方法来执行第一检测单元3300进行的关于点落入第一类还是第二类的确定。
对于样本序列(在本发明中为处理窗中的特征序列)X={xi},i=1,2,...n1,n1+1,...,n1+n2,并且每个xi是维度为d的实向量,一个可能的分割点可将样本序列分成两个连续段 X 2 = { x n 1 + 1 , x n 1 + 2 , . . . , x n 1 + n 2 } .
在此,关于声音分段的问题可被转换为关于假设测试的问题。令假设H0表示不存在可将样本序列X分为两个段X1和X2的分割点,并且样本序列X服从参数为θ的高斯分布。可如下式(1)那样计算基于假设H0的样本序列X的对数概率。
L 0 = log p ( X | H 0 ) = log p ( X 1 | θ ) + log p ( X 2 | θ ) = Σ i = 1 n 1 log p ( x i | θ ) + Σ j = n 1 + 1 n 1 + n 2 log p ( x j | θ ) - - - ( 1 )
在此,参数θ表示从样本序列X计算的高斯分布的参数。参数θ可以包括从样本序列X计算的均值(均值向量)μ和方差(协方差矩阵)∑。
另一方面,令另一个假设H1表示存在可将样本序列X分为分别服从具有参数θ1的高斯分布和具有参数θ2的高斯分布的两个段X1和X2的分割点n1,可如下式(2)那样计算基于假设H1的样本序列X的对数概率。
L 1 = log p ( X | H 1 ) = log p ( X 1 | θ 1 ) + log p ( X 2 | θ 2 ) = Σ i = 1 n 1 log p ( x i | θ 1 ) + Σ j = n 1 + 1 n 1 + n 2 log p ( x j | θ 2 ) - - - ( 2 )
在此,参数θ1表示从段X1计算的高斯分布的参数,参数θ2表示从段X2计算的高斯分布的参数。参数θ1可以包括从段X1计算的均值(均值向量)μ1和方差(协方差矩阵)∑1,参数θ2可以包括从段X2计算的均值(均值向量)μ2和方差(协方差矩阵)∑2。θ1和θ2的混合数的和等于θ的混合数。
dGLR=L1-L0被定义为MGLR方法中的度量值。如果满足下式(3),则点可被确定为第一类的点。否则,点可被确定为第二类的点。
dGLR>0                          (3)
除了以上描述的MGLR方法,也可使用其它方法由第一检测单元3300和/或在第一检测步骤S430中判断是否满足规定条件。例如,也可以使用交叉似然比(Cross Likelihood Ratio,CLR)方法(其中的度量值由dCLR表示)或者归一化交叉似然比(Normalized CrossLikelihood Ratio,NCLR)方法(其中的度量值由dNCLR表示)。例如,如果下式(4)和(5)中的一个成立,则可将点确定为第一类的点。否则,点可被确定为第二类的点。
d CLP = 1 n 1 log ( p ( X 1 | θ 1 ) p ( X 1 | θ ) ) + 1 n 2 log ( p ( X 2 | θ 2 ) p ( X 2 | θ ) ) > 0 - - - ( 4 )
d NCLR = 1 n 1 log ( p ( X 1 | θ 1 ) p ( X 1 | θ 2 ) ) + 1 n 2 log ( p ( X 2 | θ 2 ) p ( X 2 | θ 1 ) ) > 0 - - - ( 5 )
式(4)到(5)中的符号的含义与式(1)和(2)中的相应符号的含义相同。
在第一实施例和第二实施例两者中,如前所述,可以根据利用基于模型参数的概率距离序列的方法来执行由第二检测单元3400进行的和/或在第二检测步骤S440中进行的分割点的检测。这样的方法之一是T2方法,其是基于模型参数的假设测试方法。
可如下式(6)那样计算候选区域中的每个点的T2统计值。
T 2 = ( μ 1 - μ 2 ) T [ Σ ( 1 n 1 + 1 n 2 ) ] - 1 ( μ 1 - μ 2 ) - - - ( 6 )
在此,μ1和μ2分别表示两个段X1和X2的均值(均值向量),∑表示整个候选区域的方差(协方差矩阵)。候选区域中的点的T2统计值可以构成T2统计值序列。
对于候选区域,如果在T2统计值序列中存在局部最大值(峰),对应于局部最大值的点可被作为分割点。如果在T2统计值序列中不存在局部最大值(峰),则在候选区域中未检测到分割点。
除了上述的T2方法以外,其它方法也可被用于由第二检测单元3400和/或在第二检测步骤S440中检测分割点。例如,也可以使用用于计算两个段之间的距离的Kullback-Leiber散度(KL)方法、KL方法的对称形式(KL-2方法)、Gish距离(Gish Distance)方法、散度形状距离(Divergence Shape Distance,DSD)方法或者算数谐波球体距离(Arithmetic Harmonic Sphericity,AHS)方法。
在KL方法中,评估KL散度,所述KL散度表示两个段之间的相异性。可如下式(7)那样计算候选区域中的每个点的KL散度。
KL ( X 1 | | X 2 ) = 1 2 tr [ ( Σ 1 - Σ 2 ) ( Σ 2 - 1 - Σ 1 - 1 ) + ( Σ 2 - 1 - Σ 1 - 1 ) ( μ 1 - μ 2 ) ( μ 1 - μ 2 ) T ] - - - ( 7 )
在此,“tr”意味着矩阵的迹的计算。式(7)中的其它符号的含义与以上描述的相同。
作为替换方案,在KL-2方法中,KL方法的式(7)可被下式(8)代替。
KL2(X1,X2)=KL(X1||X2)+KL(X2||X1)                         (8)
作为替换方案,在DSD方法中,KL方法的式(7)可被下式(9)代替。
DSD ( X 1 , X 2 ) = 1 2 tr [ ( Σ 1 - Σ 2 ) ( Σ 2 - 1 - Σ 1 - 1 ) ] - - - ( 9 )
式(9)中的符号的含义与以上描述的相同。
作为替换方案,在Gish方法中,可如下表达Gish距离。
D Gish ( X 1 , X 2 ) = - n 1 + n 2 2 log | Σ 1 | α | Σ 2 | 1 - α | α Σ 1 + ( 1 - α ) Σ 2 | - - - ( 10 )
在此,α=n1/(n1+n2),并且,式(10)中的其它符号的含义与以上描述的相同。
作为替换方案,在AHS方法中,可如下表达AHS距离。
AHS ( X 1 , X 2 ) = log ( tr ( Σ 1 Σ 2 - 1 ) tr ( Σ 1 Σ 2 - 1 ) ) - 2 log ( d ) - - - ( 11 )
式(11)中的其它符号的含义与以上描述的相同。
上式(6)到(11)中的每一个计算两个段X1和X2之间的基于模型参数的距离值。候选区域中的点的距离值可构成距离序列。
对于要在第二检测步骤中或者由第二检测单元处理的候选区域,如果在距离值序列中存在局部最大值,则可将对应于局部最大值的点作为分割点。如果在距离值序列中不存在局部最大值,则在该候选区域中未检测到分割点。
在第一实施例中,ΔBIC方法也可以被用于在候选区域中检测分割点。在本发明中,可以如下计算点的ΔBIC值。
ΔBIC = ( n 1 + n 2 ) log | Σ | - n 1 log | Σ 1 | - n 2 log | Σ 2 | - 1 2 λ D log N - - - ( 12 )
在此,λ=1,并且N=n1+n2。式(12)中的其它符号的含义与以上描述的相同。候选区域中的点的ΔBIC值可构成ΔBIC序列。
在第一实施例中,当ΔBIC方法被用于在第二检测步骤中或者由第二检测单元在候选区域中检测分割点时,ΔBIC序列中的具有局部最大值的点可被确定为分割点。如果ΔBIC序列不具有局部最大值,则在候选区域中未检测到分割点。
如前面所述,ΔBIC方法也可被用于第二实施例中的由第三检测单元进行的或者在第三检测步骤中进行的核实。ΔBIC值可如在上式(12)中定义的那样。换言之,如果对于在第二检测步骤中或者由第二检测单元检测的分割点,ΔBIC>0,则该分割点被核实为有效的。否则,该分割点被核实为无效的。
根据本发明的声音分段方法和声音分段设备可被用于许多应用中。例如,根据本发明的声音分段方法和声音分段设备可被用于声音检测系统。
图11示出用于声音检测系统的示意性框图。声音检测系统包括根据本发明的声音分段设备3000和存储单元,该存储单元用于存储不同声音类别1到M的声音模型,其中M是正整数。所述声音模型中的每一个对于类别集中的一个声音类别(例如,一种声音事件或者某个说话者)被建模。所述声音检测系统还包括声音分类器,所述声音分类器被配置为通过利用声音模型而将从声音分段设备3000输出的声音段分类为相应的声音类别。
例如,声音模型可使用诸如高斯混合模型(Gaussian MixtureModel,GMM)、隐藏马尔可夫模型(Hidden Markov Model,HMM)或向量量化模型(Vector Quantization Model,VQM)等的声学模型。所述类别集也可以包括背景声音(噪声)。也就是说,还可以存在用于背景声音(噪声)的声音模型。类别集中的各声音类别已事先通过利用训练数据而按照声学模型被建模为声音模型。
通过利用在存储单元中存储的声音模型,声音分段设备3000可利用这些声音模型的声音类别作为声音分类中的声音类别而对声音序列执行分段,并且输出被分类为相应声音类别的声音段。因此,图11中所示的声音检测系统可被用于对声音序列进行分段并且识别其中涉及的声音类别。
可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims (23)

1.一种声音分段方法,包括:
非静音检测步骤,从声音序列中检测非静音声音段;
特征提取步骤,从所述非静音声音段中提取特征序列;
第一检测步骤,如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域,所述规定条件是用于判断在该处理窗中是否有可能出现分割点的条件;
第二检测步骤,在所述候选区域内检测分割点;以及
第一处理窗调整步骤,如果在所述第一检测步骤中所述处理窗中的点集不满足所述规定条件或者如果在所述第二检测步骤中没有检测到分割点,则调整所述处理窗,
其中,对于在第一处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤和第二检测步骤。
2.根据权利要求1的声音分段方法,还包括:
第三检测步骤,核实在所述第二检测步骤中检测到的分割点是否有效,
其中,如果在所述第一检测步骤中所述处理窗中的点集不满足所述规定条件、如果在所述第二检测步骤中没有检测到分割点、或者如果在所述第二检测步骤中检测到的所述分割点无效,则在所述第一处理窗调整步骤中调整所述处理窗,以及
其中,对于在第一处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤、第二检测步骤和所述第三检测步骤。
3.根据权利要求1或2的声音分段方法,其中
所述第一处理窗调整步骤包括:
增大步骤,以预定增大值增大所述处理窗的尺寸,
确定步骤,确定从所述增大步骤中输出的处理窗的尺寸是否大于上限尺寸;以及
窗偏移步骤,如果从所述增大步骤输出的处理窗的尺寸大于所述上限尺寸,则以预定偏移值偏移所述处理窗的起点并且将经偏移的处理窗的尺寸重新设置为下限尺寸。
4.根据权利要求1的声音分段方法,还包括:
第二处理窗调整步骤,如果在所述第二检测步骤中检测到分割点,则将处理窗的起点偏移到该分割点,并且将经偏移的处理窗的尺寸重新设置为下限尺寸,
其中,对于在第二处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤和第二检测步骤。
5.根据权利要求2的声音分段方法,还包括:
第二处理窗调整步骤,如果在所述第三检测步骤中核实为分割点有效,则将处理窗的起点偏移到该分割点,并且将经偏移的处理窗的尺寸重新设置为下限尺寸,
其中,对于在第二处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤、第二检测步骤和第三检测步骤。
6.根据权利要求1或2的声音分段方法,其中
所述点集至少包括处理窗的中点的邻域内的一个点。
7.根据权利要求6的声音分段方法,其中
所述点集仅包括一个点,所述一个点将所述处理窗分割为第一段和第二段,并且,所述规定条件是:所述第一段的基于高斯分布的概率与所述第二段的基于高斯分布的概率的和大于整个处理窗的基于高斯分布的概率。
8.根据权利要求6的声音分段方法,其中
所述点集包括多个点,所述多个点中的每一个将处理窗分割为相应的第一段和相应的第二段,以及
所述规定条件是:第一类的点的数量大于第二类的点的数量,其中对于所述第一类的点,第一段的基于高斯分布的概率与第二段的基于高斯分布的概率的和大于整个处理窗的基于高斯分布的概率,而对于所述第二类的点,第一段的基于高斯分布的概率与第二段的基于高斯分布的概率的和小于或等于整个处理窗的基于高斯分布的概率。
9.根据权利要求1或2的声音分段方法,其中
所述第二检测步骤在候选区域的概率距离序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点,
其中,所述概率距离序列中的每个值指示通过将对应于该值的点作为候选区域的分割点而获得的两个声音段之间的概率距离。
10.根据权利要求1的声音分段方法,其中
所述第二检测步骤在候选区域的Delta贝叶斯信息准则序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点。
11.根据权利要求2的声音分段方法,其中
所述第三检测步骤通过判断在所述第二检测步骤中检测到的分割点的Delta贝叶斯信息准则值是否大于零来核实该分割点是否有效。
12.一种声音分段设备,包括:
非静音检测单元,被配置为用于从声音序列中检测非静音声音段;
特征提取单元,被配置为用于从所述非静音声音段中提取特征序列;
第一检测单元,被配置为如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域,所述规定条件是用于判断在该处理窗中是否有可能出现分割点的条件;
第二检测单元,被配置为用于在所述候选区域内检测分割点;以及
第一处理窗调整单元,被配置为如果在所述第一检测单元中所述处理窗中的点集不满足所述规定条件或者如果所述第二检测单元没有检测到分割点,则调整所述处理窗,
其中,对于由第一处理窗调整单元调整的处理窗,所述第一检测单元和第二检测单元再次执行操作。
13.根据权利要求12的声音分段设备,还包括:
第三检测单元,被配置为用于核实所述第二检测单元检测到的分割点是否有效,
其中,如果在所述第一检测单元中所述处理窗中的点集不满足所述规定条件、如果所述第二检测单元没有检测到分割点、或者如果所述第二检测单元检测到的所述分割点无效,则由所述第一处理窗调整单元调整所述处理窗,以及
其中,对于由第一处理窗调整单元调整的处理窗,所述第一检测单元、第二检测单元和所述第三检测单元再次执行操作。
14.根据权利要求12或13的声音分段设备,其中
所述第一处理窗调整单元包括:
增大单元,被配置为用于以预定增大值增大所述处理窗的尺寸,
确定单元,被配置为用于确定从所述增大单元中输出的处理窗的尺寸是否大于上限尺寸;以及
窗偏移单元,被配置为如果从所述增大单元输出的处理窗的尺寸大于所述上限尺寸,则以预定偏移值偏移所述处理窗的起点并且将经偏移的处理窗的尺寸重新设置为下限尺寸。
15.根据权利要求12的声音分段设备,还包括:
第二处理窗调整单元,被配置为如果所述第二检测单元检测到分割点,则将处理窗的起点偏移到该分割点,并且将经偏移的处理窗的尺寸重新设置为下限尺寸,
其中,对于由第二处理窗调整单元调整的处理窗,所述第一检测单元和第二检测单元再次执行操作。
16.根据权利要求13的声音分段设备,还包括:
第二处理窗调整单元,被配置为如果在所述第三检测单元中核实为分割点有效,则将处理窗的起点偏移到该分割点,并且将经偏移的处理窗的尺寸重新设置为下限尺寸,
其中,对于由第二处理窗调整单元调整的处理窗,所述第一检测单元、第二检测单元和第三检测单元再次执行操作。
17.根据权利要求12或13的声音分段设备,其中
所述点集至少包括处理窗的中点的邻域内的一个点。
18.根据权利要求17的声音分段设备,其中
所述点集仅包括一个点,所述一个点将所述处理窗分割为第一段和第二段,并且,所述规定条件是:所述第一段的基于高斯分布的概率与所述第二段的基于高斯分布的概率的和大于整个处理窗的基于高斯分布的概率。
19.根据权利要求17的声音分段设备,其中
所述点集包括多个点,所述多个点中的每一个将处理窗分割为相应的第一段和相应的第二段,以及
所述规定条件是:第一类的点的数量大于第二类的点的数量,其中,对于所述第一类的点,第一段的基于高斯分布的概率与第二段的基于高斯分布的概率的和大于整个处理窗的基于高斯分布的概率,而对于所述第二类的点,第一段的基于高斯分布的概率与第二段的基于高斯分布的概率的和小于或等于整个处理窗的基于高斯分布的概率。
20.根据权利要求12或13的声音分段设备,其中
所述第二检测单元在候选区域的概率距离序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点,
其中,所述概率距离序列中的每个值指示通过将对应于该值的点作为候选区域的分割点而获得的两个声音段之间的概率距离。
21.根据权利要求12的声音分段设备,其中
所述第二检测单元在候选区域的Delta贝叶斯信息准则序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点。
22.根据权利要求13的声音分段设备,其中
所述第三检测单元通过判断由所述第二检测单元检测到的分割点的Delta贝叶斯信息准则值是否大于零来核实该分割点是否有效。
23.一种声音检测系统,包括:
存储单元,被配置为用于存储多个声音模型,每个声音模型对应于一个声音类别;
根据权利要求12到22中的任一项所述的声音分段设备,被配置为用于将声音序列分段为多个声音段;以及
声音分类器,被配置为用于通过利用所述声音模型,将从所述声音分段设备输出的声音段进行分类。
CN201110418846.3A 2011-12-15 2011-12-15 声音分段设备和方法以及声音检测系统 Expired - Fee Related CN103165127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110418846.3A CN103165127B (zh) 2011-12-15 2011-12-15 声音分段设备和方法以及声音检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110418846.3A CN103165127B (zh) 2011-12-15 2011-12-15 声音分段设备和方法以及声音检测系统

Publications (2)

Publication Number Publication Date
CN103165127A CN103165127A (zh) 2013-06-19
CN103165127B true CN103165127B (zh) 2015-07-22

Family

ID=48588151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110418846.3A Expired - Fee Related CN103165127B (zh) 2011-12-15 2011-12-15 声音分段设备和方法以及声音检测系统

Country Status (1)

Country Link
CN (1) CN103165127B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015005850A1 (en) * 2013-07-11 2015-01-15 Hult, Peter Classifying heart sounds
CN103646649B (zh) * 2013-12-30 2016-04-13 中国科学院自动化研究所 一种高效的语音检测方法
KR101942521B1 (ko) * 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
KR101831888B1 (ko) * 2016-04-15 2018-04-16 (주)케어젠 항염증 활성을 갖는 펩타이드 및 이의 용도
CN108242241B (zh) * 2016-12-23 2021-10-26 中国农业大学 一种纯语音快速筛选方法及其装置
CN107799113B (zh) * 2017-09-26 2021-12-07 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及移动终端
CN108717851B (zh) * 2018-03-28 2021-04-06 深圳市三诺数字科技有限公司 一种语音识别方法及装置
CN109036382B (zh) * 2018-08-15 2020-06-09 武汉大学 一种基于kl散度的音频特征提取方法
CN110136715B (zh) * 2019-05-16 2021-04-06 北京百度网讯科技有限公司 语音识别方法和装置
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN1758331A (zh) * 2005-10-31 2006-04-12 浙江大学 基于基音频率的快速音频分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212297A1 (en) * 2005-03-18 2006-09-21 International Business Machines Corporation System and method using blind change detection for audio segmentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN1758331A (zh) * 2005-10-31 2006-04-12 浙江大学 基于基音频率的快速音频分割方法

Also Published As

Publication number Publication date
CN103165127A (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN103165127B (zh) 声音分段设备和方法以及声音检测系统
US7774203B2 (en) Audio signal segmentation algorithm
CN102915728B (zh) 声音分段设备和方法以及说话者识别系统
CN109034046B (zh) 一种基于声学检测的电能表内异物自动识别方法
US7177808B2 (en) Method for improving speaker identification by determining usable speech
EP2927906B1 (en) Method and apparatus for detecting voice signal
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
JP5922263B2 (ja) 特定の対象音を検出するシステム及び方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN108538312B (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
US8431810B2 (en) Tempo detection device, tempo detection method and program
Petry et al. Speaker identification using nonlinear dynamical features
US8779271B2 (en) Tonal component detection method, tonal component detection apparatus, and program
CN105336344A (zh) 杂音检测方法和装置
JP2004240214A (ja) 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
Naik et al. Filter selection for speaker diarization using homomorphism: speaker diarization
Kitaoka et al. Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance
CN116312628A (zh) 基于自我知识蒸馏的虚假音频检测方法及其系统
Dov et al. Voice activity detection in presence of transients using the scattering transform
Hübschen et al. Bitrate and tandem detection for the amr-wb codec with application to network testing
JP2004354589A (ja) 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
Williams et al. Anonymizing Speaker Voices: Easy to Imitate, Difficult to Recognize?
Iyer et al. Speaker identification improvement using the usable speech concept
Mahgoub et al. Voicing-state classification of co-channel speech using nonlinear state-space reconstruction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722

Termination date: 20161215

CF01 Termination of patent right due to non-payment of annual fee