CN104575518B

CN104575518B - 韵律事件检测方法和装置

Info

Publication number: CN104575518B
Application number: CN201310487945.6A
Authority: CN
Inventors: 刘加; 赵军红; 袁桦; 张卫强; 何亮; 赵峰; 邵颖
Original assignee: SHENZHEN VCYBER TECHNOLOGY Co Ltd; Tsinghua University
Current assignee: Cheyin Intelligent Technology Co ltd; Tsinghua University
Priority date: 2013-10-17
Filing date: 2013-10-17
Publication date: 2018-10-02
Anticipated expiration: 2033-10-17
Also published as: CN104575518A

Abstract

本发明公开一种韵律事件检测方法和装置，涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括：接收到待检测语音时，获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n；以音节为单位划分待检测语音，得到至少一个待检测样本；提取每个待检测样本对应的待检测声学特征；使用判别式模型M₁根据对应的待检测声学特征对每个待检测样本进行初步分类，得到每个待检测样本属于各个类别的第一概率；根据对应的联合检测特征，依次使用判别式模型M₂…M_n分别对每个待检测样本进行分类，得到每个待检测样本属于各个类别的第二概率…第N概率；根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。

Description

韵律事件检测方法和装置

技术领域

本发明涉及语音技术，尤其涉及一种韵律事件检测方法和装置。

背景技术

人们进行语言交流时，相互传递的不仅仅是语言文字信息，还包括超音段的韵律信息。因此，上下文信息对韵律事件的检测至关重要。目前，利用上下文信息进行韵律事件检测的方法包括：利用N-gram语言模型进行韵律事件检测，或利用CRF模型进行韵律事件检测。

其中，利用N-gram模型进行韵律事件检测时，使用的N-gram模型为

其中，P^*={p₁ ^*, p₂ ^*…..,p_n ^*}为韵律事件的标签序列，A={a1,a2,…an}是对应的声学特征序列，p_i为第i个韵律事件。

然而，由于N-gram模型需要利用其历史状态进行检测，因此N-gram模型具有时序性的约束，使得利用N-gram模型进行韵律事件检测时，只能利用每个样本及其之前样本之间的关系，导致韵律事件检测的准确率较低。

发明内容

本发明的实施例提供一种韵律事件检测方法和装置，能够提高韵律事件检测的准确率。

为达到上述目的，本发明的实施例采用如下技术方案：

一种韵律事件检测方法，包括：接收到待检测语音时，获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n，n>1；以音节为单位划分所述待检测语音，得到至少一个待检测样本；分别从所述至少一个待检测样本中提取每个待检测样本对应的待检测声学特征；使用所述判别式模型M₁根据对应的待检测声学特征对每个待检测样本进行初步分类，得到每个待检测样本属于各个类别的第一概率；根据对应的联合检测特征，依次使用所述判别式模型M₂…M_n分别对每个待检测样本进行分类，得到每个待检测样本属于各个类别的第二概率…第N概率；根据所述第N概率确定所述至少一个待检测样本的韵律检测结果；所述对应的联合检测特征，包括：根据所使用的判别式模型的前一个判别式模型对所述至少一个待检测样本中目标样本分类后得到的待检测本地概率；根据所述前一个判别式模型对所述至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率；以及根据每个待检测样本对应的待检测声学特征，获取的所述目标样本对应的待检测声学特征。

一种韵律事件检测装置，包括：

模型获取模块，用于接收到待检测语音时，获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n，n>1；

待检测音节划分模块，与所述模型获取模块相连，用于以音节为单位划分所述模型获取模块接收的待检测语音，得到至少一个待检测样本；

待检测特征获取模块，与所述待检测音节划分模块相连，用于分别从所述音节划分模块得到的至少一个待检测样本中提取每个待检测样本对应的待检测声学特征；

第一分类模块，分别与所述模型获取模块和所述待检测特征获取模块相连，用于使用所述模型获取模块获取的判别式模型M₁根据所述特征获取模块获取的对应的待检测声学特征对每个待检测样本进行初步分类，得到每个待检测样本属于各个类别的第一概率；

第二分类模块，分别与所述模型获取模块、所述待检测特征获取模块和所述第一分类模块相连，用于根据对应的联合检测特征，依次使用所述判别式模型M₂…M_n分别对每个待检测样本进行分类，得到每个待检测样本属于各个类别的第二概率…第N概率；

结果获取模块，与所述第二分类模块相连，用于根据所述第二分类模块得到的第N概率确定所述至少一个待检测样本的韵律检测结果；

所述对应的联合检测特征，包括：根据所使用的判别式模型的前一个判别式模型对所述至少一个待检测样本中目标样本分类后得到的待检测本地概率；

根据所述前一个判别式模型对所述至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率；以及

根据每个待检测样本对应的待检测声学特征，获取的所述目标样本对应的待检测声学特征。

本发明实施例提供的韵律事件检测方法和装置，使用预先训练一组受训语音得到的判别式模型M₁、M₂…M_n，依次对待检测语音划分音节后的至少一个待检测样本进行分类，从而根据最后一个判别式模型M_n的分类结果确定至少一个待检测声学特征的韵律检测结果，实现韵律事件检测。由于判别式模型M₂…M_n根据由待检测本地概率、待检测相邻概率和待检测声学特征组成的联合检测特征进行分类，并且待检测本地概率和待检测相邻概率都是根据所使用判别式模型的前一个判别式模型确定的，即待检测本地概率和待检测相邻概率是通过迭代目标样本、及目标样本的相邻样本之间的关系获取的；此外，待检测相邻概率利用目标样本及其相邻样本之间的关系获取的，即不仅利用目标样本及其之前样本之间的关系，还利用目标样本及其之后样本之间的关系，解决了现有技术使用N-gram模型进行韵律事件检测时，只能利用每个样本及其之前样本之间的关系，导致韵律事件检测的准确率较低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的韵律事件检测方法的流程图；

图2为本发明实施例二提供的韵律事件检测方法的流程图；

图3为本发明实施例三提供的韵律事件检测装置的结构示意图一；

图4为本发明实施例三提供的韵律事件检测装置的结构示意图二；

图5为本发明实施例三提供的韵律事件检测装置的结构示意图三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有韵律事件检测的准确率较低的问题，本发明提供一种韵律事件检测方法和装置。

实施例一：

如图1所示，本发明实施例提供的韵律事件检测方法，包括：

步骤101，接收到待检测语音时，获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n。

在本实施例中，可以预先通过迭代的方式对一组受训语音进行训练，以得到判别式模型M₁、M₂…M_n；也可以通过其他方式获取判别式模型M₁、M₂…M_n，在此不再一一赘述。其中，n>1。其中，判别式模型可以为神经网络（Neural Network，NN）模型；为了提高韵律事件检测的准确率，也可以为支持向量机（Support Vector Machine，SVM）模型，还可以为判别式模型中的其他模型，在此不作限制。

步骤102，以音节为单位划分该待检测语音，得到至少一个待检测样本。

步骤103，分别从至少一个待检测样本中提取每个待检测样本对应的待检测声学特征。

在本实施例中，通过步骤103提取的每个待检测样本对应的声学特征可以包括：音高重音特征和边界检测所用的特征中的一种或多种。其中，音高重音特征包括：帧平均特征集合和TILT特征；该帧平均特征集合包括响度特征、基频特征、谱凸显特征和时长特征。

在本实施例中，该待检测声学特征为音高重音特征时，步骤103中提取每个待检测样本对应的声学特征可以包括：

一、将该待检测语音进行短时傅里叶变换，得到线性尺度的频率f；

根据将所述线性尺度的频率f映射到临界带Bark；根据每个临界带范围内所有频率点的能量之和，获取每个临界带范围内总的音强根据将所述总的音强映射为对应的声压级I(z)；根据所述声压级I(z)和计算每个临界带的响度L (z)；根据计算所有临界带的响度之和，得到响度特征L；所述I(k)为第k个频率点的能量；所述j为对应的临界带的频率点总数；所述I₀为1KHZ的标准听觉阈值；和/或

二、从所述待检测语音中提取基频f₀；根据将所述基频映射到半音程尺度下的基频，得到基频特征S；和/或

三、将所述待检测语音进行短时傅里叶变换，得到线性尺度的频率f；用带有凯撒窗的有限冲击响应滤波器提取500Hz到1500Hz频率范围内的能量，得到谱凸显特征；和/或

四、将所述待检测/受训语音进行强制对准，得到边界信息；根据所述边界信息获取时长特征；和/或

五、从所述待检测语音中获取基频曲线；根据所述基频曲线的变化趋势和确定幅度相关的TILT特征tilt_a；根据所述基频曲线的变化趋势和确定时长相关的TILT特征tilt_d；根据所述基频曲线的变化趋势和确定总得TILT特征tilt_t，所述A_rise为上升幅度的总合，所述A_fall为下降幅度的总和，所述D_rise为上升的持续时间的总和，所述D_fall为下降的持续时间的总和。

在本实施例中，该待检测声学特征为边界检测所用的特征时，步骤103中提取每个待检测样本对应的声学特征可以包括：

以音节划分所述待检测语音后，前后两音节的时长及它们的相对比值；和/或

以音节划分所述待检测语音后，前后两音节的音节核的时长及它们的相对比值；和/或

以音节划分所述待检测语音后，前后两音节之间的静音时长；和/或

以音节划分所述待检测语音后，前后两音节的基频均值和最大值，及前后音节的基频均值的差值和前后音节的最大值的差值；和/或

以音节划分所述待检测语音后，前后两音节的响度和谱凸显的均值，前后音节的响度的差值和前后音节的谱凸显的差值；和/或

以音节划分所述待检测语音后，前后两音节的TILT特征。

步骤104，使用判别式模型M₁根据对应的待检测声学特征对每个待检测样本进行初步分类，得到每个待检测样本属于各个类别的第一概率。

步骤105，根据对应的联合检测特征，依次使用判别式模型M₂…M_n分别对每个待检测样本进行分类，得到每个待检测样本属于各个类别的第二概率…第N概率。

在本实施例中，步骤105中对应的联合检测特征包括：根据所使用的判别式模型的前一个判别式模型对至少一个待检测样本中目标样本分类后得到的待检测本地概率；根据该前一个判别式模型对至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率；以及根据每个待检测样本对应的待检测声学特征，获取的目标样本对应的待检测声学特征。

以所使用的判别式模型为M_i，分类的目标样本为P_q为例，如果预设相邻数目为3，则联合检测特征包括：使用判别式模型M_i-1根据目标样本P_q对应的联合检测特征进行分类得到的待检测本地概率；使用判别式模型M_i-1根据目标样本P_q相邻的P_q-3、P_q-2、P_q-1、P_q+1、P_q+2和P_q+3样本对应的联合检测特征进行分类得到的待检测相邻概率；和目标样本P_q对应的待检测声学特征。即，每个联合检测特征是需要由前一个判别式模型对应的联合检测特征获取；过程如下：将目标样本P_q对应的第一概率和对应的待检测声学特征组合，得到第一联合检测特征；使用判别式模型M₂根据第一联合检测特征对该目标样本P_q进行初步分类，得到目标样本属于每个类别的第二概率；将该第二概率和对应的待检测声学特征组合，得到第二联合检测特征；……执行上述过程的类似操作，依次获取第三概率、第三联合检测特征、第四概率等直到第i概率。

在本实施例中，使用其他判别式模型对待检测样本进行检测的过程，与上述过程类似，在此不再一一赘述。

步骤106，根据该第N概率确定至少一个待检测样本的韵律检测结果。

在本实施例中，通过步骤105得到每个待检测样本属于各个类别的第N概率后，可以从每个待检测样本属于各个类别的第N概率中，获取最高概率对应的目标类别，从而根据目标类别确定每个待检测样本的韵律检测结果。

本发明实施例提供的韵律事件检测方法，使用预先训练一组受训语音得到的判别式模型M₁、M₂…M_n，依次对待检测语音划分音节后的至少一个待检测样本进行分类，从而根据最后一个判别式模型M_n的分类结果确定至少一个待检测声学特征的韵律检测结果，实现韵律事件检测。由于判别式模型M₂…M_n根据由待检测本地概率、待检测相邻概率和待检测声学特征组成的联合检测特征进行分类，并且待检测本地概率和待检测相邻概率都是根据所使用判别式模型的前一个判别式模型确定的，即待检测本地概率和待检测相邻概率是通过迭代目标样本、及目标样本的相邻样本之间的关系获取的；此外，待检测相邻概率利用目标样本及其相邻样本之间的关系获取的，即不仅利用目标样本及其之前样本之间的关系，还利用目标样本及其之后样本之间的关系，解决了现有技术使用N-gram模型进行韵律事件检测时，只能利用每个样本及其之前样本之间的关系，导致韵律事件检测的准确率较低的问题。

实施例二：

如图2所示，本发明实施例提供的韵律事件的检测方法，该方法与图1所示的相似，区别在于，在通过步骤101获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n之前，该方法还包括：

步骤107，接收到一组受训语音时，以音节为单位划分该受训语音，得到至少一个受训样本。

步骤108，分别从该至少一个受训样本中提取每个受训样本对应的受训声学特征。

在本实施例中，通过步骤108提取受训声学特征的方式，与图1所示的步骤103相似，在此不再一一赘述。

步骤109，分别获取该至少一个受训样本的类别标签后，根据该类别标签和对应的受训声学特征进行训练，得到判别式模型M₁。

在本实施例中，可以通过模型工具包根据类别标签和对应的受训声学特征进行训练，以得到判别式模型M₁；也可以通过其他方式训练以获取判别式模型M₁，在此不作限制。

步骤110，使用该判别式模型M₁根据对应的受训声学特征对每个受训样本进行初步分类，得到每个受训样本属于各个样本的第一概率。

步骤111，根据对应的联合受训特征和类别标签进行训练，直至得到预设训练数目的判别式模型M₂…M_n。

在本实施例中，通过步骤109和步骤111训练得到的判别式模型，可以为NN模型；为了提高韵律事件检测的准确率，也可以为SVM模型，在此不作限制。

在本实施例中，步骤101中对应的联合受训特征包括：根据待训练的判别式模型的前一个判别式模型对至少一个受训样本中目标样本分类后得到的受训本地概率；根据前一个判别式模型对至少一个受训样本中目标样本的相邻预设相邻数目个受训样本分类后得到的受训相邻概率；根据每个受训样本对应的受训声学特征，获取该目标样本对应的受训声学特征。具体的，该联合受训特征的内容，与图1中步骤105中联合检测特征相似，可以通过受训声学特征根据类似过程确定，在此不再一一赘述。

在本实施例中，步骤111中，预设训练数目，可以根据用户需要任意设置；为提高韵律事件检测的效率，也可以根据预设的开发集确定该相邻数目，即开发集检测正确率不在提高时，结束迭代，得到相邻数目，在此不再一一赘述。

实施例三：

如图3所示，本发明实施例提供的韵律事件检测装置，包括：

模型获取模块301，用于接收到待检测语音时，获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n，n>1；

待检测音节划分模块302，与模型获取模块相连，用于以音节为单位划分模型获取模块接收的待检测语音，得到至少一个待检测样本；

待检测特征获取模块303，与待检测音节划分模块相连，用于分别从音节划分模块得到的至少一个待检测样本中提取每个待检测样本对应的待检测声学特征；

第一分类模块304，分别与模型获取模块和待检测特征获取模块相连，用于使用模型获取模块获取的判别式模型M₁根据特征获取模块获取的对应的待检测声学特征对每个待检测样本进行初步分类，得到每个待检测样本属于各个类别的第一概率；

第二分类模块305，分别与模型获取模块、待检测特征获取模块和第一分类模块相连，用于根据对应的联合检测特征，依次使用判别式模型M₂…M_n分别对每个待检测样本进行分类，得到每个待检测样本属于各个类别的第二概率…第N概率；

结果获取模块306，与第二分类模块相连，用于根据第二分类模块得到的第N概率确定至少一个待检测样本的韵律检测结果。

在本实施例中，第二分类模块305中对应的联合检测特征，包括：根据所使用的判别式模型的前一个判别式模型对至少一个待检测样本中目标样本分类后得到的待检测本地概率；根据前一个判别式模型对至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率；以及根据每个待检测样本对应的待检测声学特征，获取的目标样本对应的待检测声学特征。

在本实施例中，通过模型获取模块301至结果获取模块306实现韵律事件检测的过程，与本发明实施例一提供的过程相似，在此不再一一赘述。

进一步的，如图4所示，本发明实施例提供的韵律事件检测装置，还可以包括：

受训音节划分模块307，用于接收到一组受训语音时，以音节为单位划分受训语音，得到至少一个受训样本；

受训特征获取模块308，与受训音节划分模块相连，用于分别从受训音节划分模块得到的至少一个受训样本中提取每个受训样本对应的受训声学特征；

第一训练模块309，与受训特征获取模块相连，用于分别获取至少一个受训样本的类别标签后，根据类别标签和对应的受训声学特征进行训练，得到判别式模型M₁；

第三分类模块310，分别与第一训练模块和受训特征获取模块相连，用于使用第一训练模块得到的判别式模型M₁根据对应的受训声学特征对每个受训样本进行初步分类，得到每个受训样本属于各个类别的第一概率；

第二训练模块311，与受训特征获取模块和第三分类模块相连，用于根据对应的联合受训特征和类别标签进行训练，直至得到预设训练数目的判别式模型M₂…M_n。

在本实施例中，第二训练模块311中对应的联合受训特征，包括：根据待训练的判别式模型的前一个判别式模型对至少一个受训样本中目标样本分类后得到的受训本地概率；根据前一个判别式模型对至少一个受训样本中目标样本的相邻预设相邻数目个受训样本分类后得到的受训相邻概率；根据每个受训样本对应的受训声学特征，获取的目标样本对应的受训声学特征。

在本实施例中，韵律事件监测装置还包括受训音节划分模块307至第二训练模块311时，韵律事件检测的过程与本发明实施例二提供的相似，在此不再一一赘述。

此时，如图5所示，该韵律事件检测装置还可以包括：

数目计算模块312，与第二训练模块相连，用于根据预设的开发集确定相邻数目。

进一步的，待检测/受训声学特征为音高重音特征时，待检测/受训特征获取模块包括：响度获取子模块、基频获取子模块、谱凸显获取子模块、时长获取子模块和TILT获取子模块中的一种或多种。

其中，响度获取子模块，用于将待检测/受训语音进行短时傅里叶变换，得到线性尺度的频率f；根据将线性尺度的频率f映射到临界带Bark；根据每个临界带范围内所有频率点的能量之和，获取每个临界带范围内总的音强根据将总的音强映射为对应的声压级I(z)；根据声压级I(z)和计算每个临界带的响度L(z)；根据计算所有临界带的响度之和，得到响度特征L；I(k)为第k个频率点的能量； j为对应的临界带的频率点总数；I₀为1KHZ的标准听觉阈值；

基频获取子模块，用于从待检测/受训语音中提取基频f₀；

根据将基频映射到半音程尺度下的基频，得到基频特征S；

谱凸显获取子模块，用于将待检测/受训语音进行短时傅里叶变换，得到线性尺度的频率f；用带有凯撒窗的有限冲击响应滤波器提取500Hz到1500Hz频率范围内的能量，得到谱凸显特征；

时长获取子模块，用于将待检测/受训语音进行强制对准，得到边界信息；根据边界信息获取时长特征；

TILT获取子模块，用于从待检测/受训语音中获取基频曲线；根据基频曲线的变化趋势和确定幅度相关的TILT特征tilt_a；根据基频曲线的变化趋势和确定时长相关的TILT特征tilt_d；根据基频曲线的变化趋势和确定总得TILT特征tilt_t，A_rise为上升幅度的总合，A_fall为下降幅度的总和，D_rise为上升的持续时间的总和，D_fall为下降的持续时间的总和。

进一步的，当待检测/受训声学特征为边界检测所用特征时，待检测/受训特征获取模块包括：第一获取子模块、第二获取子模块、第三获取子模块、第四获取子模块、第五获取子模块和第六获取子模块中的一种或多种。

其中，第一获取子模块，用于以音节划分待检测/受训语音后，前后两音节的时长及它们的相对比值；

第二获取子模块，用于以音节划分待检测/受训语音后，前后两音节的音节核的时长及它们的相对比值；

第三获取子模块，用于以音节划分待检测/受训语音后，前后两音节之间的静音时长；

第四获取子模块，用于以音节划分待检测/受训语音后，前后两音节的基频均值和最大值，及前后音节的基频均值的差值和前后音节的最大值的差值；

第五获取子模块，用于以音节划分待检测/受训语音后，前后两音节的响度和谱凸显的均值，前后音节的响度的差值和前后音节的谱凸显的差值；

第六获取子模块，用于以音节划分待检测/受训语音后，前后两音节的TILT特征。

本发明实施例提供的韵律事件检测装置，使用预先训练一组受训语音得到的判别式模型M₁、M₂…M_n，依次对待检测语音划分音节后的至少一个待检测样本进行分类，从而根据最后一个判别式模型M_n的分类结果确定至少一个待检测声学特征的韵律检测结果，实现韵律事件检测。由于判别式模型M₂…M_n根据由待检测本地概率、待检测相邻概率和待检测声学特征组成的联合检测特征进行分类，并且待检测本地概率和待检测相邻概率都是根据所使用判别式模型的前一个判别式模型确定的，即待检测本地概率和待检测相邻概率是通过迭代目标样本、及目标样本的相邻样本之间的关系获取的；此外，待检测相邻概率利用目标样本及其相邻样本之间的关系获取的，即不仅利用目标样本及其之前样本之间的关系，还利用目标样本及其之后样本之间的关系，解决了现有技术使用N-gram模型进行韵律事件检测时，只能利用每个样本及其之前样本之间的关系，导致韵律事件检测的准确率较低的问题。

本发明实施例提供的韵律事件检测方法和装置，可以应用在自然语音的检测中。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种韵律事件检测方法，其特征在于，包括：

接收到待检测语音时，获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n，n＞1；

以音节为单位划分所述待检测语音，得到至少一个待检测样本；

分别从所述至少一个待检测样本中提取每个待检测样本对应的待检测声学特征；

使用所述判别式模型M₁根据对应的待检测声学特征对每个待检测样本进行初步分类，得到每个待检测样本属于各个类别的第一概率；

根据对应的联合检测特征，依次使用所述判别式模型M₂…M_n分别对每个待检测样本进行分类，得到每个待检测样本属于各个类别的第二概率…第N概率；

根据所述第N概率确定所述至少一个待检测样本的韵律检测结果；

2.根据权利要求1所述的韵律事件检测方法，其特征在于，所述获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n之前，所述方法还包括：

接收到一组受训语音时，以音节为单位划分所述受训语音，得到至少一个受训样本；

分别从所述至少一个受训样本中提取每个受训样本对应的受训声学特征；

分别获取所述至少一个受训样本的类别标签后，根据所述类别标签和对应的受训声学特征进行训练，得到判别式模型M₁；

使用所述判别式模型M₁根据对应的受训声学特征对每个受训样本进行初步分类，得到每个受训样本属于各个类别的第一概率；

根据对应的联合受训特征和所述类别标签进行训练，直至得到预设训练数目的判别式模型M₂…M_n；

所述对应的联合受训特征，包括：根据待训练的判别式模型的前一个判别式模型对所述至少一个受训样本中目标样本分类后得到的受训本地概率；

根据所述前一个判别式模型对所述至少一个受训样本中目标样本的相邻预设相邻数目个受训样本分类后得到的受训相邻概率；

根据每个受训样本对应的受训声学特征，获取的所述目标样本对应的受训声学特征。

3.根据权利要求2所述的韵律事件检测方法，其特征在于，所述方法还包括：

根据预设的开发集确定所述相邻数目。

4.根据权利要求2或3所述的韵律事件检测方法，其特征在于，所述待检测/受训声学特征为音高重音特征时，所述提取每个待检测/受训样本对应的待检测/受训声学特征包括：

将所述待检测/受训语音进行短时傅里叶变换，得到线性尺度的频率f；

根据将所述线性尺度的频率f映射到临界带Bark；根据每个临界带范围内所有频率点的能量之和，获取每个临界带范围内总的音强根据将所述总的音强映射为对应的声压级I(z)；根据所述声压级I(z)和计算每个临界带的响度L(z)；根据计算所有临界带的响度之和，得到响度特征L；所述I(k)为第k个频率点的能量；所述j为对应的临界带的频率点总数；所述I₀为1KHZ的标准听觉阈值；和/或

从所述待检测/受训语音中提取基频f₀；根据将所述基频映射到半音程尺度下的基频，得到基频特征S；和/或

将所述待检测/受训语音进行短时傅里叶变换，得到线性尺度的频率f；用带有凯撒窗的有限冲击响应滤波器提取500Hz到1500Hz频率范围内的能量，得到谱凸显特征；和/或

将所述待检测/受训语音进行强制对准，得到边界信息；根据所述边界信息获取时长特征；和/或

从所述待检测/受训语音中获取基频曲线；根据所述基频曲线的变化趋势和确定幅度相关的TILT特征tilt_a；根据所述基频曲线的变化趋势和确定时长相关的TILT特征tilt_d；根据所述基频曲线的变化趋势和确定总得TILT特征tilt_t，所述A_rise为上升幅度的总合，所述A_fall为下降幅度的总和，所述D_rise为上升的持续时间的总和，所述D_fall为下降的持续时间的总和。

5.根据权利要求2或3所述的韵律事件检测方法，其特征在于，所述待检测/受训声学特征为边界检测所用特征时，所述提取每个待检测/受训样本对应的待检测/受训声学特征包括：

以音节划分所述待检测/受训语音后，前后两音节的时长及它们的相对比值；和/或

以音节划分所述待检测/受训语音后，前后两音节的音节核的时长及它们的相对比值；和/或

以音节划分所述待检测/受训语音后，前后两音节之间的静音时长；和/或

以音节划分所述待检测/受训语音后，前后两音节的基频均值和最大值，及前后音节的基频均值的差值和前后音节的最大值的差值；和/或

以音节划分所述待检测/受训语音后，前后两音节的响度和谱凸显的均值，前后音节的响度的差值和前后音节的谱凸显的差值。

6.一种韵律事件检测装置，其特征在于，包括：

模型获取模块，用于接收到待检测语音时，获取预先训练一组受训语音得到的判别式模型M₁、M₂…M_n，n＞1；

7.根据权利要求6所述的韵律事件检测装置，其特征在于，还包括：

受训音节划分模块，用于接收到一组受训语音时，以音节为单位划分所述受训语音，得到至少一个受训样本；

受训特征获取模块，与所述受训音节划分模块相连，用于分别从所述受训音节划分模块得到的至少一个受训样本中提取每个受训样本对应的受训声学特征；

第一训练模块，与所述受训特征获取模块相连，用于分别获取所述至少一个受训样本的类别标签后，根据所述类别标签和对应的受训声学特征进行训练，得到判别式模型M₁；

第三分类模块，分别与所述第一训练模块和所述受训特征获取模块相连，用于使用所述第一训练模块得到的判别式模型M₁根据对应的受训声学特征对每个受训样本进行初步分类，得到每个受训样本属于各个类别的第一概率；

第二训练模块，与所述受训特征获取模块和所述第三分类模块相连，用于根据对应的联合受训特征和所述类别标签进行训练，直至得到预设训练数目的判别式模型M₂…M_n；

8.根据权利要求7所述的韵律事件检测装置，其特征在于，所述装置还包括：

数目计算模块，与所述第二训练模块相连，用于根据预设的开发集确定所述相邻数目。

9.根据权利要求6或7所述的韵律事件检测装置，其特征在于，所述待检测/受训声学特征为音高重音特征时，所述待检测/受训特征获取模块包括：

响度获取子模块、基频获取子模块、谱凸显获取子模块、时长获取子模块和TILT获取子模块中的一种或多种；

其中，所述响度获取子模块，用于将所述待检测/受训语音进行短时傅里叶变换，得到线性尺度的频率f；根据将所述线性尺度的频率f映射到临界带Bark；根据每个临界带范围内所有频率点的能量之和，获取每个临界带范围内总的音强根据将所述总的音强映射为对应的声压级I(z)；根据所述声压级I(z)和计算每个临界带的响度L(z)；根据计算所有临界带的响度之和，得到响度特征L；所述I(k)为第k个频率点的能量；所述j为对应的临界带的频率点总数；所述I₀为1KHZ的标准听觉阈值；

所述基频获取子模块，用于从所述待检测/受训语音中提取基频f₀；

根据将所述基频映射到半音程尺度下的基频，得到基频特征S；

所述谱凸显获取子模块，用于将所述待检测/受训语音进行短时傅里叶变换，得到线性尺度的频率f；用带有凯撒窗的有限冲击响应滤波器提取500Hz到1500Hz频率范围内的能量，得到谱凸显特征；

所述时长获取子模块，用于将所述待检测/受训语音进行强制对准，得到边界信息；根据所述边界信息获取时长特征；

所述TILT获取子模块，用于从所述待检测/受训语音中获取基频曲线；根据所述基频曲线的变化趋势和确定幅度相关的TILT特征tilt_a；根据所述基频曲线的变化趋势和确定时长相关的TILT特征tilt_d；根据所述基频曲线的变化趋势和确定总得TILT特征tilt_t，所述A_rise为上升幅度的总合，所述A_fall为下降幅度的总和，所述D_rise为上升的持续时间的总和，所述D_fall为下降的持续时间的总和。

10.根据权利要求6或7所述的韵律事件检测装置，其特征在于，所述待检测/受训声学特征为边界检测所用特征时，所述待检测/受训特征获取模块包括：

其中，第一获取子模块、第二获取子模块、第三获取子模块、第四获取子模块、第五获取子模块中的一种或多种；

其中，所述第一获取子模块，用于以音节划分所述待检测/受训语音后，前后两音节的时长及它们的相对比值；

所述第二获取子模块，用于以音节划分所述待检测/受训语音后，前后两音节的音节核的时长及它们的相对比值；

所述第三获取子模块，用于以音节划分所述待检测/受训语音后，前后两音节之间的静音时长；

所述第四获取子模块，用于以音节划分所述待检测/受训语音后，前后两音节的基频均值和最大值，及前后音节的基频均值的差值和前后音节的最大值的差值；

所述第五获取子模块，用于以音节划分所述待检测/受训语音后，前后两音节的响度和谱凸显的均值，前后音节的响度的差值和前后音节的谱凸显的差值。