CN109241526B

CN109241526B - 一种段落分割方法和装置

Info

Publication number: CN109241526B
Application number: CN201810961760.7A
Authority: CN
Inventors: 任灿
Original assignee: Beijing Muhua Information Technology Co ltd
Current assignee: Beijing Muhua Information Technology Co ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2022-11-15
Anticipated expiration: 2038-08-22
Also published as: CN109241526A

Abstract

本申请提供了一种段落分割方法和装置，其中，段落分割方法包括：获取待分割音视频文件的文本内容中包括各个句子的句子向量；根据各个句子的时间序列，获取各个句子的语速信息；根据该句子的语速信息，以及与其相邻的下个句子的语速信息，计算该句子的语速相关性系数；根据目标特征权重和语速相关性系数，计算拼接元素；将拼接元素和该句子的句子向量中的元素进行拼接，生成该句子的语速上下文向量；基于各个语速上下文向量之间的距离对句子进行分类，得到段落分割结果。该段落分割方法，能够充分利用音视频中发言者的语速对段落分割的影响，解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题，使得段落分割结果更加准确。

Description

一种段落分割方法和装置

技术领域

本申请涉及文本内容处理技术领域，具体而言，涉及一种段落分割方法和装置。

背景技术

目前，随着计算机技术的不断发展，越来越多的信息通过音视频形式进行呈现，在一段音视频中，包含的信息多种多样。有时需要将其中的文本内容提取出来，分割为大大小小的段落，用于后续的处理或使用。

当前的段落分割主要是基于文本语义的规则，或是以大量数据的统计化分割。基于大量数据的统计化分割，难以满足特定场景，例如教学场景；基于文本语义的规则的段落分割方法，单纯借助文本的内容会使得分割的段落显得杂乱无章。因此采用现有技术对文本内容进行段落分割难以满足要求。

发明内容

有鉴于此，本申请实施例的目的在于提供一种段落分割方法和装置，在该段落分割过程中结合了文本的内容相关特征和语速特征进行段落分割，充分利用音视频中发言者的语速对段落分割的影响，解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题，使得段落分割结果更加准确。

第一方面，本申请实施例提供了一种段落分割方法，包括：

获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量；

根据所述待分割音视频文件的文本内容中各个句子的时间序列，获取各个句子分别对应的语速信息；

针对除最末的一个句子以外的其它每个句子，根据该句子的语速信息，以及与该句子相邻的下一个句子的语速信息，计算该句子在至少一个相关性特征下的语速相关性系数；

根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素；

将所述拼接元素以及所述该句子的句子向量中的元素进行拼接，生成该句子的语速上下文向量；

基于每个句子的语速上下文向量之间的距离对所述句子进行分类，得到待分割音视频文件的段落分割结果。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量，具体包括：

针对除最末的一个句子以外的其它每个句子，获取该句子所包括的所有词语；

针对每个词语，根据该词语在所述文本内容中出现的频率，以及该词语在预设语料集合中出现的频率，计算该词语的权重；

基于该句子包括的所有词语的权重，组成该句子的句子向量。

结合第一方面，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述各个句子的时间序列，包括该句子的开始时间节点和结束时间节点；

所述根据所述待分割音视频文件的文本内容中各个句子的时间序列，获取各个句子分别对应的语速信息，具体包括：

针对每个句子，根据该句子的开始时间节点和结束时间节点，计算该句子对应的时间长度；根据时间长度以及该句子的字数，计算该句子的平均语速；以及，

根据该句子的结束时间节点，以及与该句子相邻的下一个句子的开始时间节点，计算该句子和与该句子相邻的下一个句子之间的停顿时间间隔；

将所述平均语速以及所述停顿时间间隔作为该句子的语速信息。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述相关性特征包括：平均语速相关性特征、停顿时间间隔相关性特征、平均语速皮尔逊相关性特征、停顿时间间隔皮尔逊相关性特征、平均语速复相关性特征以及停顿时间间隔复相关性特征中的一种或多种。

结合第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，针对所述语速相关性系数包括平均语速相关性特征的情况，根据下述方式计算该句子在平均语速相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

将该句子的平均语速，以及与该句子相邻的下一个句子的平均语速之间的比值，作为该句子在平均语速相关性特征下的语速相关性系数；

针对所述语速相关性系数包括停顿时间间隔相关性特征的情况，根据下述方式计算该句子在停顿时间间隔相关性特征下的语速相关性系数：

获取该句子和与其相邻的上一个句子之间的第一停顿时间间隔，以及该句子和与其相邻的下一个句子之间的第二停顿时间间隔；

计算第一停顿时间间隔和所述第二停顿时间间隔之间的比值；

将得到的比值作为该句子在停顿时间间隔相关性特征下的语速相关性系数；

针对所述语速相关性系数包括平均语速皮尔逊相关性特征的情况，根据下述方式计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

根据该句子的平均语速，与该句子相邻的下一个句子的平均语速，以及预设的皮尔逊相关系数计算公式，计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数；

针对所述语速相关性系数包括停顿时间间隔皮尔逊相关性特征的情况，根据下述方式计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数：

根据所述第一停顿时间间隔、所述第二停顿时间间隔，以及预设的皮尔逊相关系数计算公式，计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数；

针对所述语速相关性系数包括平均语速复相关性特征的情况，根据下述方式计算该句子在平均语速复相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

根据该句子的平均语速、与该句子相邻的下一个句子的平均语速，以及预设的复相关系数计算公式，计算该句子在平均语速复相关性特征下的语速相关性系数；

针对所述语速相关性系数包括停顿时间间隔复相关性特征的情况，根据下述方式计算该句子在停顿时间间隔复相关性特征下的语速相关性系数：

根据所述第一时间间隔、所述第二时间间隔，以及预设的复相关系数计算公式，计算该句子在停顿时间间隔复相关性特征下的语速相关性系数。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素，具体包括：

将每个相关性特征对应的目标特征权重以及与该相关性特征对应的语速相关性系数的乘积，作为该相关性特征对应的拼接元素。

结合第一方面，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述基于每个句子的语速上下文向量之间的距离对所述句子进行分类，具体包括：

基于每个句子的语速上下文向量之间的距离对所述句子进行聚类，得到两个类，其中一个类中的句子为段落内句子，另一个类中的句子为段落尾句子。

结合第一方面的第六种可能的实施方式，本申请实施例提供了第一方面的第七种可能的实施方式，其中，所述基于每个句子的语速上下文向量之间的距离对所述句子进行聚类，具体包括：

从所有所述语速上下文向量中随机选择两个语速上下文向量作为初始的两个聚类中心；

依次计算每个语速上下文向量与两个聚类中心之间的距离；

针对每个语速上下文向量，将该语速上下文向量划分到与该语速上下文向量距离较小的聚类中心对应的分类中；

针对每个分类，将划分到该分类中的各个语速上下文向量组成簇，并计算该簇的簇心，所述簇心所对应的语速上下文向量为所述簇中各语速上下文向量的平均值；

将与所述簇的簇心距离最近的语速上下文向量作为新的聚类中心，并返回依次计算每个语速上下文向量与两个聚类中心之间的距离的步骤；

直到聚类中心不再变化，将最后得到的两个簇作为最后的聚类结果。

结合第一方面，本申请实施例提供了第一方面的第八种可能的实施方式，其中，采用下述步骤获取每个相关性特征的目标特征权重：

获取样本音视频文件的样本文本内容中包括的除最末的一个样本句子以外的其它各个样本句子分别对应的样本句子向量；

根据所述样本音视频文件的样本文本内容中各个样本句子的时间序列，获取各个样本句子分别对应的语速信息；

针对除最末的一个样本句子以外的其它每个样本句子，根据该样本句子的语速信息，以及与该样本句子相邻的下一个样本句子的语速信息，计算该样本句子在至少一个相关性特征下的语速相关性系数；

根据与每个相关性特征对应的特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素；

将所述拼接元素以及所述该样本句子的样本句子向量中的元素进行拼接，生成该样本句子的样本语速上下文向量；

基于每个样本句子的样本语速上下文向量之间的距离对所述样本句子进行聚类，得到两个类，其中一个类中的句子为段落内句子，另一个类中的句子为段落尾句子，得到样本音视频文件的段落分割结果；

将所述样本音视频文件对应的预设的目标段落分割结果，与所述样本音视频文件的段落分割结果进行比对；

在两者的相似度不满足预设相似度要求时，调整每个相关性特征对应的特征权重，并返回根据与每个相关性特征对应的特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素的步骤；

直至所述样本音视频文件对应的预设的目标段落分割结果，与所述样本音视频文件的段落分割结果的相似度满足所述预设相似度要求，完成对所述特征权重的本轮训练；

经过对所述特征权重的多轮训练，将多轮训练后得到的特征权重作为每个相关性特征对应的目标特征权重。

第二方面，本申请实施例提供了一种段落分割装置，包括：

句子向量获取模块：用于获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量；

语速信息获取模块：用于根据所述待分割音视频文件的文本内容中各个句子的时间序列，获取各个句子分别对应的语速信息；

语速相关性系数计算模块：用于针对除最末的一个句子以外的其它每个句子，根据该句子的语速信息，以及与该句子相邻的下一个句子的语速信息，计算该句子在至少一个相关性特征下的语速相关性系数；

拼接元素计算模块：用于根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素；

语速上下文向量生成模块：用于将所述拼接元素以及所述该句子的句子向量中的元素进行拼接，生成该句子的语速上下文向量；

段落分割模块：用于基于每个句子的语速上下文向量之间的距离对所述句子进行分类，得到待分割音视频文件的段落分割结果。

本申请实施例提供的段落分割方法和装置，在进行段落分割的时候，通过获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量；根据待分割音视频文件的文本内容中各个句子的时间序列，获取各个句子分别对应的语速信息；针对除最末的一个句子以外的其它每个句子，根据该句子的语速信息，以及与该句子相邻的下一个句子的语速信息，计算该句子在至少一个相关性特征下的语速相关性系数；根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素；将拼接元素以及该句子的句子向量中的元素进行拼接，生成该句子的语速上下文向量；基于每个句子的语速上下文向量之间的距离对句子进行分类，得到待分割音视频文件的段落分割结果。在该段落分割过程中结合了文本的内容相关特征和语速特征进行段落分割，充分利用音视频中发言者的语速对段落分割的影响，解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题，使得段落分割结果更加准确。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种段落分割方法的流程图；

图2示出了本申请实施例所提供的段落分割方法中，获取除最末的一个句子以外的其它各个句子分别对应的句子向量的流程图；

图3示出了本申请实施例所提供的段落分割方法中，获取各个句子分别对应的语速信息的流程图；

图4示出了本申请实施例所提供的段落分割方法中，获取每个相关性特征的目标特征权重的流程图；

图5示出了本申请实施例所提供的段落分割方法中，聚类的流程图；

图6示出了本申请实施例所提供的一种段落分割装置的结构示意图；

图7示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前的段落分割主要是基于文本语义的规则，或是以大量数据的统计化分割。基于大量数据的统计化分割，难以满足特定场景例如教学场景；基于文本语义的规则的段落分割方法，单纯借助文本的内容会使得分割的段落显得杂乱无章。因此采用现有技术对文本内容进行段落分割难以满足要求。基于此，本申请实施例提供的一种段落分割方法和装置，在该段落分割过程中结合了文本的内容和语速上下文信息对文本进行段落分割，能够充分利用音视频中发言者的语速对段落分割的影响，解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题，使得段落分割结果更加准确。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种段落分割方法进行详细介绍。该方法主要用于对音视频文件中的文本内容进行段落分割，其中，音视频文件中的文本内容，一般是指将声音转化为文字所构成的文本内容。

参见图1所示，本申请实施例提供的一种段落分割方法包括：

S101：获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量。

在具体实现的时候，句子向量能够表征一个句子。其可以有两种构成方式：

其一，将句子进行切词处理，获得组成该句子的各个词语，并采用word2vec算法获取每个词语的向量。使用该句子中每个词语的向量，构成该句子的句子向量。两个句子的句子向量之间的相似度越高，则认为两个句子所表述的内容越接近，越应当被归属于同一个段落。

其中，word2vec即为词向量映射，是将词语映射到一个新的空间中，通过在大量语料中进行计算统计，在神经网络中训练，以多维的连续实数向量进行表示每个词语，word2vec模型是一个大矩阵，存放有所有词语的表示向量。

其二：将句子进行切词处理，获得组成该句子的各个词语，然后根据该词语在文本内容中出现的频率，以及该词语在预设语料集合中出现的频率，计算该词语的权重，并将该句子中所有词语的权重，组成该句子的句子向量。

此处，由于文本内容的最后一个句子一定是属于段落尾句，因此不需要对该句子进行段落划分的判别，因此在获取句子向量时，不需要获得最末的一个句子的句子向量。

可选地，由于每个句子的长度可能不同，所包含的词语的数量也会不同，针对这种情况，可以将所述词语划分为几个类别。通过预设的词语类别，对所述句子进行切词处理时，提取针对每种词语类别的词语。将各个词语类别按照一定的排列顺序排列为一个矩阵，将提取到的针对每种词语类别的词语对应的权重的值，依次添加到所述矩阵中的该词语类别对应的位置中。若没有提取到针对某种词语类别的词语时，在所述矩阵中的该某种词语类别的对应位置补0即可。这样可以保证所有句子的句子向量的维度相等。

例如，一共有5个词语类别，分别为词语类别1、词语类别2、词语类别3、词语类别4、以及词语类别5。假如第一个句子中包含了这5种词语类别，针对这5种词语类别对应的权重为(0.1，0.2，0.3，0.2，0.2)，则所述第一个句子的句子向量为(0.1，0.2，0.3，0.2，0.2)。假如第二个句子中只包含了词语类别1、词语类别2和词语类别5，针对这三种词语类别对应的权重为(0.1，0.2，0.3)，则所述第二个句子的句子向量为(0.1，0.2，0，0，0.3)。

本申请以上述第二种情况为例，对获取句子向量的过程加以说明：

参见图2所示，所述获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量，具体包括：

S201：针对除最末的一个句子以外的其它每个句子，获取该句子所包括的所有词语。

可选地，所述该句子所包括的所有词语可能包括该句子的关键字、关键词、关键词组或关键短语。可以通过分词器，例如jieba分词器获取该句子所包括的所有词语。

例如，句子“我来到北京清华大学”，通过分词器获取的该句子所包括的所有词语可能为：我/来到/北京/清华/清华大学/大学。

S202：针对每个词语，根据该词语在文本内容中出现的频率，以及该词语在预设语料集合中出现的频率，计算该词语的权重。

可选地，可以通过词频-逆文本频率指数(Term Frequency–Inverse DocumentFrequency，TF-IDF)技术计算得到该词语的权重。

此处，TF-IDF用于表征该词语对于该文本内容的重要程度。TF-IDF为TF和IDF的乘积。TF意思是词频(Term Frequency)，指的是该词语在该文本内容中出现的频率。IDF意思是逆文本频率指数(Inverse Document Frequency)，该词语在预设语料集合中出现的频率越低，IDF值越大。若该词语的TF越高、IDF值越大，则表示该词语对于该文本内容越重要，即权重越高。

此处，预设语料集合可以是特定领域的语料，也可以是大量的获取文本，所构成的语料可以通过爬虫、爬取工具等技术从预设平台爬取。在爬取语料的时候，可以不做任何限制的进行爬取，也即，只要是预设平台出现的语料，就可以作为爬取的语料。

可选地，在获取语料的时候，为了能够更快的确定某一领域的领域关键词，还可以针对该预设平台中已经确定了领域的语料进行针对性的获取。这样可以快速获取与每个领域对应的领域关键词，但可能会遗漏某些能够作为领域关键词的词汇。

S203：基于该句子包括的所有词语的权重，组成该句子的句子向量。

基于上述图2对应的实施例，就能够得到待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量。

本申请实施例提供的段落分割方法还包括下述S102，其中，S101和S102并无执行的先后顺序。

S102：根据待分割音视频文件的文本内容中各个句子的时间序列，获取各个句子分别对应的语速信息。

此处，所述各个句子的时间序列，包括该句子的开始时间节点和结束时间节点。各个句子的时间序列，是在从待分割音视频文件中获取文本内容的时候，根据待分割音视频文件的时间轴为文本内容中的各个句子添加的。待分割音视频文件的文本内容是可以是通过语音识别技术从待分割音视频文件中提取到的，也可以借助第三方服务得到，例如科大讯飞平台。

具体实现的时候，参见图3所示，本申请实施例提供的段落分割方法中，采用下述步骤获取各个句子分别对应的语速信息：

S301：针对每个句子，根据该句子的开始时间节点和结束时间节点，计算该句子对应的时间长度；根据时间长度以及该句子的字数，计算该句子的平均语速。

具体实现的时候，通过下述式(1)计算该句子的平均语速：

(1)

其中，m为该句子的平均语速，n为该句子的字数，t₁为该句子的开始时间节点，t₂为该句子的结束时间节点，t₂-t₁为该句子对应的时间长度。

S302：根据该句子的结束时间节点，以及与其相邻的下一个句子的开始时间节点，计算该句子和与该句子相邻的下一个句子之间的停顿时间间隔。

具体实现的时候，通过下述式(2)计算该句子和与该句子相邻的下一个句子之间的停顿时间间隔：

(2)Δt＝t_下1-t₂

其中，Δt为该句子和与该句子相邻的下一个句子之间的停顿时间间隔，t₂为该句子的结束时间节点，t_下1为与该句子相邻的下一个句子的开始时间节点。

S303：将平均语速以及停顿时间间隔作为该句子的语速信息。

在获取了各个句子分别对应的语速信息后，还要根据所获取的语速信息计算每个句子的语速相关性系数。该语速相关性系数用于表征不同的句子语速的不同情况。

S103：针对除最末的一个句子以外的其它每个句子，根据该句子的语速信息，以及与该句子相邻的下一个句子的语速信息，计算该句子在至少一个相关性特征下的语速相关性系数。

可选地，所述相关性特征包括：平均语速相关性特征、停顿时间间隔相关性特征、平均语速皮尔逊相关性特征、停顿时间间隔皮尔逊相关性特征、平均语速复相关性特征和停顿时间间隔复相关性特征中的一种或多种。

具体实现的时候，采用下面的计算方法计算该句子在至少一个相关性特征下的语速相关性系数：

其一：针对所述语速相关性系数包括平均语速相关性特征的情况，根据下述方式计算该句子在平均语速相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

其二：针对所述语速相关性系数包括停顿时间间隔相关性特征的情况，根据下述方式计算该句子在停顿时间间隔相关性特征下的语速相关性系数：

其三：针对所述语速相关性系数包括平均语速皮尔逊相关性特征的情况，根据下述方式计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

其四：针对所述语速相关性系数包括停顿时间间隔皮尔逊相关性特征的情况，根据下述方式计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数：

其五：针对所述语速相关性系数包括平均语速复相关性特征的情况，根据下述方式计算该句子在平均语速复相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

其六：针对所述语速相关性系数包括停顿时间间隔复相关性特征的情况，根据下述方式计算该句子在停顿时间间隔复相关性特征下的语速相关性系数：

S104：根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素。

具体实现的时候，将每个相关性特征对应的目标特征权重和与该相关性特征对应的语速相关性系数的乘积，作为该相关性特征对应的拼接元素。

此处，参见图4所示，采用下述步骤获取每个相关性特征的目标特征权重：

S401：获取样本音视频文件的样本文本内容中包括的除最末的一个样本句子以外的其它各个样本句子分别对应的样本句子向量。

S402：根据样本音视频文件的样本文本内容中各个样本句子的时间序列，获取各个样本句子分别对应的语速信息。

S403：针对除最末的一个样本句子以外的其它每个样本句子，根据该样本句子的语速信息，以及与该样本句子相邻的下一个样本句子的语速信息，计算该样本句子在至少一个相关性特征下的语速相关性系数。

S404：根据与每个相关性特征对应的特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素。

S405：将拼接元素以及该样本句子的样本句子向量中的元素进行拼接，生成该样本句子的样本语速上下文向量。

S406：基于每个样本句子的样本语速上下文向量之间的距离对样本句子进行聚类，得到两个类，一类为段落内句，一类为段落尾句，得到样本音视频文件的段落分割结果。

S407：将样本音视频文件对应的预设的目标段落分割结果，与样本音视频文件的段落分割结果进行比对。

S408：在两者的相似度不满足要求时，调整每个相关性特征对应的特征权重，并返回根据与每个相关性特征对应的特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素的步骤。

S409：直至样本音视频文件对应的预设的目标段落分割结果，与样本音视频文件的段落分割结果的相似度满足要求，完成对特征权重的本轮训练。

S410：经过对特征权重的多轮训练，将多轮训练后得到的特征权重作为每个相关性特征对应的目标特征权重。

下面对获取每个相关性特征的目标特征权重的步骤进行示例性说明：

首先需要对每个相关性特征设置一组初始的特征权重，例如对6个相关性特征设置的初始的特征权重为(0.1,0.2,0.3,0.1,0.1,0.2),所有权重的和为1。通过图4中的步骤得到样本音视频文件的第一个段落分割结果后，将其与样本音视频文件对应的预设的目标段落分割结果进行比对，在两者的相似度不满足要求时，对每个相关性特征对应的特征权重进行第一次调整，例如将特征权重调整为(0.1,0.1,0.2,0.2,0.2,0.2)，根据这组特征权重，得到第二个段落分割结果。通过重复上述过程，对特征权重进行n次调整后，得到第n+1组特征权重，和对应的第n+1个段落分割结果，直到第n+1个段落分割结果与样本音视频文件对应的预设的目标段落分割结果的相似度满足要求。这时，将第n+1组特征权重作为目标特征权重。

S105：将拼接元素以及该句子的句子向量中的元素进行拼接，生成该句子的语速上下文向量。

可选地，拼接方式可以为前拼方式和后拼方式。所述前拼方式是指将拼接元素拼接到该句子的句子向量中的元素的前面，所述后拼方式是指将拼接元素拼接到该句子的句子向量中的元素的后面。

例如拼接元素为(0.1,0.2,0.3)，该句子的句子向量为(0.4,0.5,0.6,0.7)，则通过前拼方式得到的语速上下文向量为(0.1,0.2,0.3，0.4,0.5,0.6,0.7)，通过后拼方式得到的语速上下文向量为(0.4,0.5,0.6,0.7，0.1,0.2,0.3)。

S106：基于每个句子的语速上下文向量之间的距离对句子进行分类，得到待分割音视频文件的段落分割结果。

具体实现的时候，基于每个句子的语速上下文向量之间的距离对所述句子进行聚类，得到两个类，一类为段落内句，一类为段落尾句，得到待分割音视频文件的段落分割结果。

此处，参见图5所示，采用下述步骤进行聚类：

S501：从所有语速上下文向量中随机选择两个语速上下文向量作为初始的两个聚类中心。

S502：依次计算每个语速上下文向量与两个聚类中心之间的距离。

S503：针对每个语速上下文向量，将该语速上下文向量划分到与该语速上下文向量距离较小的聚类中心对应的分类中。

S504：针对每个分类，将划分到该分类中的各个语速上下文向量组成簇，并计算该簇的簇心，所述簇心所对应的语速上下文向量为所述簇中各语速上下文向量的平均值。

S505：将与所述簇的簇心距离最近的语速上下文向量作为新的聚类中心，并返回依次计算每个语速上下文向量与两个聚类中心之间的距离的步骤。

S506：直到聚类中心不再变化，将最后得到的两个簇作为最后的聚类结果。

下面对聚类过程进行示例性说明：

假设一共有10个语速上下文向量，首先从这10个语速上下文向量中随机选择两个语速上下文向量作为初始的两个聚类中心，比如选择了第3个语速上下文向量为第一个初始聚类中心，选择了第5个语速上下文向量为第二个初始聚类中心。然后计算其他的8个语速上下文向量分别与第3个和第5个语速上下文向量之间的距离，比如第1、2、4、6个语速上下文向量距第3个语速上下文向量的距离较近，第7、8、9、10个语速上下文向量距第5个语速上下文向量的距离较近，那么将第1、2、3、4、6个语速上下文向量分为第一类，其他的语速上下文向量分为第二类，将第一类和第二类中的语速上下文向量分别组成第一簇和第二簇。然后计算第一簇的第一簇心和第二簇的第二簇心，所述第一簇心和第二簇心分别为第一类和第二类中各语速上下文向量的平均值；将与第一簇心和第二簇心距离最近的语速上下文向量作为新的聚类中心，得到新的第一类和第二类，直至聚类中心不再发生变化，将最后得到的两个簇作为最后的聚类结果。

本申请实施例提供的一种段落分割方法中，在进行段落分割的时候，通过获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量；根据待分割音视频文件的文本内容中各个句子的时间序列，获取各个句子分别对应的语速信息；针对除最末的一个句子以外的其它每个句子，根据该句子的语速信息，以及与该句子相邻的下一个句子的语速信息，计算该句子在至少一个相关性特征下的语速相关性系数；根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素；将拼接元素以及该句子的句子向量中的元素进行拼接，生成该句子的语速上下文向量；基于每个句子的语速上下文向量之间的距离对句子进行分类，得到待分割音视频文件的段落分割结果。在该段落分割过程中结合了文本的内容相关特征和语速特征进行段落分割，充分利用音视频中发言者的语速对段落分割的影响，解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题，使得段落分割结果更加准确。

基于同一发明构思，本申请实施例中还提供了与段落分割方法对应的段落分割装置，由于本申请实施例中的段落分割装置解决问题的原理与本申请实施例上述段落分割方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图6所示，本申请实施例提供的一种段落分割装置包括：

句子向量获取模块61：用于获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量；

语速信息获取模块62：用于根据所述待分割音视频文件的文本内容中各个句子的时间序列，获取各个句子分别对应的语速信息；

语速相关性系数计算模块63：用于针对除最末的一个句子以外的其它每个句子，根据该句子的语速信息，以及与该句子相邻的下一个句子的语速信息，计算该句子在至少一个相关性特征下的语速相关性系数；

拼接元素计算模块64：用于根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素；

语速上下文向量生成模块65：用于将所述拼接元素以及所述该句子的句子向量中的元素进行拼接，生成该句子的语速上下文向量；

段落分割模块66：用于基于每个句子的语速上下文向量之间的距离对所述句子进行分类，得到待分割音视频文件的段落分割结果。

本申请实施例提供的一种段落分割装置中，在进行段落分割的时候，通过获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量；根据待分割音视频文件的文本内容中各个句子的时间序列，获取各个句子分别对应的语速信息；针对除最末的一个句子以外的其它每个句子，根据该句子的语速信息，以及与该句子相邻的下一个句子的语速信息，计算该句子在至少一个相关性特征下的语速相关性系数；根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素；将拼接元素以及该句子的句子向量中的元素进行拼接，生成该句子的语速上下文向量；基于每个句子的语速上下文向量之间的距离对句子进行分类，得到待分割音视频文件的段落分割结果。在该段落分割过程中结合了文本的内容相关特征和语速特征进行段落分割，充分利用音视频中发言者的语速对段落分割的影响，解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题，使得段落分割结果更加准确。

可选地，句子向量获取模块61，具体用于采用下述步骤获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量：

可选地，语速信息获取模块62,具体用于采用下述步骤获取各个句子分别对应的语速信息：

可选地，语速相关性系数计算模块63,具体用于计算该句子在至少一个相关性特征下的语速相关性系数：

针对所述语速相关性系数包括平均语速相关性特征的情况，根据下述方式计算该句子在平均语速相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

可选地，拼接元素计算模块64，具体用于：将每个相关性特征对应的目标特征权重以及与该相关性特征对应的语速相关性系数的乘积，作为该相关性特征对应的拼接元素。

可选地，段落分割模块66，具体用于：基于每个句子的语速上下文向量之间的距离对所述句子进行聚类，得到两个类，其中一个类中的句子为段落内句子，另一个类中的句子为段落尾句子。

可选地，采用下述步骤进行聚类：

依次计算每个语速上下文向量与两个聚类中心之间的距离；

参见图6所示，在本申请另一实施例中的段落分割装置还包括：目标特征权重获取模块67。

可选地，目标特征权重获取模块67，具体采用下述步骤获取每个相关性特征的目标特征权重：

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述段落分割方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述段落分割方法，从而充分利用音视频中发言者的语速对段落分割的影响，解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题，使得段落分割结果更加准确。

对应于图1中的段落分割方法，本申请实施例还提供了一种计算机设备，如图7所示，该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序，其中，上述处理器2000执行上述计算机程序时实现上述段落分割方法的步骤。

具体地，上述存储器1000和处理器2000能够为通用的存储器和处理器，这里不做具体限定，当处理器2000运行存储器1000存储的计算机程序时，能够执行上述段落分割方法，从而解决现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题，使得段落分割结果更加准确。

本申请实施例所提供的段落分割方法和装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种段落分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述各个句子的时间序列，包括该句子的开始时间节点和结束时间节点；

4.根据权利要求1所述的方法，其特征在于，所述相关性特征包括：平均语速相关性特征、停顿时间间隔相关性特征、平均语速皮尔逊相关性特征、停顿时间间隔皮尔逊相关性特征、平均语速复相关性特征以及停顿时间间隔复相关性特征中的一种或多种。

5.根据权利要求4所述的方法，其特征在于，针对所述语速相关性系数包括平均语速相关性特征的情况，

根据下述方式计算该句子在平均语速相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

针对所述语速相关性系数包括停顿时间间隔相关性特征的情况，

根据下述方式计算该句子在停顿时间间隔相关性特征下的语速相关性系数：

针对所述语速相关性系数包括平均语速皮尔逊相关性特征的情况，

根据下述方式计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

针对所述语速相关性系数包括停顿时间间隔皮尔逊相关性特征的情况，

根据下述方式计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数：

针对所述语速相关性系数包括平均语速复相关性特征的情况，

根据下述方式计算该句子在平均语速复相关性特征下的语速相关性系数：

根据该句子的语速信息计算该句子的平均语速；

针对所述语速相关性系数包括停顿时间间隔复相关性特征的情况，

根据下述方式计算该句子在停顿时间间隔复相关性特征下的语速相关性系数：

根据所述第一停顿时间间隔、所述第二停顿时间间隔，以及预设的复相关系数计算公式，计算该句子在停顿时间间隔复相关性特征下的语速相关性系数。

6.根据权利要求1所述的方法，其特征在于，所述根据与每个相关性特征对应的目标特征权重，以及与该相关性特征对应的语速相关性系数，计算与每个相关性特征对应的拼接元素，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述基于每个句子的语速上下文向量之间的距离对所述句子进行分类，具体包括：

8.根据权利要求7所述的方法，其特征在于，所述基于每个句子的语速上下文向量之间的距离对所述句子进行聚类，具体包括：

依次计算每个语速上下文向量与两个聚类中心之间的距离；

9.根据权利要求1所述的方法，其特征在于，采用下述步骤获取每个相关性特征的目标特征权重：

10.一种段落分割装置，其特征在于，包括：