CN115346519A

CN115346519A - 静音检测模型的构建方法、电子设备、存储介质及程序产品

Info

Publication number: CN115346519A
Application number: CN202210986679.0A
Authority: CN
Inventors: 孙建伟; 邹伟; 李先刚
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-15

Abstract

本公开提供一种静音检测模型的构建方法，可包括：由初始检测模型对训练样本进行静音检测，获得静音检测结果；利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。本公开的构建方法利用少量训练样本完成对静音检测模型的端到端训练过程，同时实现对具有较高静音检测能力的静音检测模型的构建。本公开还提供一种电子设备、存储介质及程序产品。

Description

静音检测模型的构建方法、电子设备、存储介质及程序产品

技术领域

本公开涉及智能语音技术领域，尤其涉及一种静音检测模型的构建方法、装置、电子设备、存储介质、程序产品，以及一种静音检测方法和装置。

背景技术

基于CTC(Connectionist Temporal Classification，连接时序分类准则)的端到端语音识别方法是语音识别的常见方法，该方法通过引入间隔符blank的方式实现输入音频与输出文本之间的对齐，并且基于整句的上下文场景来获取前帧的后验概率，进而计算损失，实现由语音序列转换为文字序列的端到端训练过程。但是，在真实的连续对话场景中，输入音频会存在大量的静音段，例如多个短时停顿、首尾句长静音等。大量的静音段必然会影响语音识别结果的准确性，因此通常采用静音检测模型进行输入音频的静音段检测。

但是，相关技术中的部分静音检测模型主要采用帧对齐的非端到端训练方式，该方式需要先训练对齐模型，而对齐模型的设计以及训练过程较为困难，整体训练成本较大，并且非端到端的训练方式相较于端到端的训练方式效果差。而基于CTC的端到端训练方式无法区分静音和非静音的情况，训练集又未提供对输入音频的静音段的标注，若加入静音段的标注必然会增加标注成本；并且现有的训练数据多为单句话，无法完全匹配真实的连续对话场景，会出现静音检测的时间段发生延迟的情况。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种静音检测模型的构建方法、装置、电子设备以及存储介质，以利用少量训练样本完成对静音检测模型的端到端训练过程，同时实现对具有较高静音检测能力的静音检测模型的构建。本公开还提供了一种静音检测方法和装置，以利用静音检测模型实现对目标语音的更精准的静音检测。

本公开的一个方面提供了这样一种静音检测模型的构建方法，可包括：由初始检测模型对训练样本进行静音检测，获得静音检测结果；利用至少两种损失函数对所述静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。

在一些实施方式中，由初始检测模型对训练样本进行静音检测，获得静音检测结果，可包括：由初始检测模型对训练样本进行静音端点识别，分别确定训练样本的多个静音起点的语音位置和多个静音终点的语音位置；确定依序相邻的静音起点和静音终点之间的时间长度，并将时间长度符合静音阈值的静音起点和静音终点之间的语音范围作为静音段；计算静音段属于静音拼接数据的拼接概率；以及整合各个静音段的静音起点的语音位置和静音终点的语音位置、各个静音段的语音时长以及各个静音段的拼接概率，生成针对训练样本的静音检测结果。

在一些实施方式中，利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值，可包括：利用交叉熵损失函数，将静音检测结果中的静音段的拼接概率与实际拼接数据进行比对，获得表征拼接概率与实际拼接数据的吻合程度的仿真插入损失值；以及利用CTC损失函数，将静音检测结果中的静音段的静音起点的语音位置和静音终点的语音位置以及静音段的语音时长分别与静音段的实际静音段数据进行比对，获得表征静音段的静音起点的语音位置和静音终点的语音位置以及静音段的语音时长与实际静音段数据的吻合程度的静音段损失值。

在一些实施方式中，在利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值之后，还可包括：对仿真插入损失值和静音段损失值进行整合，获得用于表征静音检测结果与实际值的偏离程度的总损失值。

在一些实施方式中，在由初始检测模型对训练样本进行静音检测，获得静音检测结果之前，还可包括：获取训练样本中的静音拼接数据。获取训练样本中的静音拼接数据，可包括：对原始语音数据中的原始语音段和原始静音段进行切分，获得语音集和静音集；以及将静音集切割为多个具有预设时间长度的仿真静音段，并将各个仿真静音段分别插入语音集，获得由语音集和多个仿真静音段拼接而成的所述训练样本。

在一些实施方式中，将静音集切割为多个具有预设时间长度的仿真静音段，并将各个仿真静音段分别插入语音集，获得由语音集和多个仿真静音段拼接而成的所述训练样本，可包括：从静音集中分割出至少两个具有预设时间长度的仿真静音段，并将至少两个具有预设时间长度的仿真静音段分别插入语音集的头部语音集的尾部。

在一些实施方式中，将静音集切割为多个具有预设时间长度的仿真静音段，并将各个仿真静音段分别插入语音集，获得由语音集和多个仿真静音段拼接而成的所述训练样本，还可包括：将语音集分割为具有预设时间长度的多个语音段，并将从静音集中分割出的多个具有预设时间长度的仿真静音段插入依序相邻的两个语音段之间，获得由语音集和多个仿真静音段拼接而成的训练样本。

本公开的另一个方面提供了这样一种静音检测模型的构建装置，可包括初始结果生成模块、损失值获取模块和静音检测模型生成模块。初始结果生成模块用于由初始检测模型对训练样本进行静音检测，获得静音检测结果。损失值获取模块用于利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值。静音检测模型生成模块用于根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。

本公开的再一个方面提供了这样一种静音检测方法，可包括：将目标语音分解为多个语音包，并输入至静音检测模型，其中静音检测模型由上述任一实施方式的静音检测模型的构建方法构建；由静音检测模型判断各个语音包是否为静音段；以及响应于语音包为静音段的判断结果，生成解码指令，由解码器对语音包进行内容识别。

在一些实施方式中，静音检测模型的构建方法可包括：由初始检测模型对训练样本进行静音检测，获得静音检测结果；利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。

本公开的又一个方面提供了这样一种静音检测装置，可包括：输入模块、检测模块和解码模块。输入模块用于将目标语音分解为多个语音包，并输入至静音检测模型，其中静音检测模型由上述任一实施方式的静音检测模型的构建方法构建。检测模块用于由静音检测模型判断各个语音包是否为静音段。解码模块用于响应于语音包为静音段的判断结果，生成解码指令，由解码器对语音包进行内容识别。

在一些实施方式中，还包括模型构建模块，其执行步骤为：由初始检测模型对训练样本进行静音检测，获得静音检测结果；利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，所述存储器存储执行指令；

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行本公开任一个实施方式的静音检测模型的构建方法和/或执行本公开任一个实施方式的静音检测方法。

根据本公开的又一个方面，提供一种存储介质，所述存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现本公开任一个实施方式的静音检测模型的构建方法和/或实现本公开任一个实施方式的静音检测方法。

根据本公开的再一个方面，提供一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现本公开任一个实施方式的构建方法和/或实现本公开任一个实施方式的静音检测方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开一个实施方式的静音检测模型的构建方法流程图。

图2是静音检测模型的构建方法的具体过程示意图。

图3是静音拼接数据的拼接示意图。

图4是本公开一个实施方式的静音检测模型的构建装置结构框图。

图5是本公开一个实施方式的静音检测方法流程图。

图6是本公开一个实施方式的电子设备示意图。

图7是本公开一个实施方式的存储介质的示意图。

附图标记说明

200 构建装置

210 初始结果生成模块

220 损失值获取模块

230 静音检测模型生成模块

301 总线

302 CPU

303 只读存储器

304 随机存取存储器

305 通信端口

306 输出组件

307 硬盘

308 用户界面

400 存储介质。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1是本公开一个实施方式的静音检测模型的构建方法流程图；图2是静音检测模型的构建方法的具体过程示意图。

如图1所示，本公开的一个方面提供了这样一种静音检测模型的构建方法，可包括：步骤S110，由初始检测模型对训练样本进行静音检测，获得静音检测结果；步骤S120，利用至少两种损失函数对所述静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及步骤S130，根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。需要说明的是，由于图2是在图1的基础上对图1所示方法的更细节的描述，同时还提供了更直观的静音检测模型的构建流程，因此后文将结合图1和图2对本方法进行更具体地的阐述。

在一些实施方式中，首先采集多个原始语音数据，原始语音数据可为实际对话场景中的对话内容，也可为用户根据规定文本的录制内容。需要说明的是，每个原始语音数据的语音时长和内容，以及原始语音数据的采集数量均可按照需求设定，在此不做限制。当然，原始语音的语音时长需要符合预设原始语音时长阈值的规定，若原始语音的语音时长过短，则无法或较难插入仿真静音段；若原始语音的语音时长过长，则会导致仿真静音段的插入成本的提升，以及对初始检测模型的训练时间成本的升高。基于上述，可对不符合需求的原始语音数据进行预处理，即对语音时长过短的原始语音数据进行填充，或者对语音时长过长的原始语音数据进行裁剪，以保证原始语音数据的语音时长符合训练样本的要求。进一步地，在对原始语音进行预处理时，还可对原始语音数据的清晰度进行筛查，清洗出多个原始语音数据中无法进行语音内容识别的原始语音数据，以排除噪音干扰，保证原始语音数据的有效性。

进一步地，对预处理之后的原始语音数据进行切分。在此阶段，切分目的是将原始语音数据中的有效的原始语音段和原始静音段进行分离，即将原始语音数据中的原始静音段提取出来，原始静音段包括原始语音数据中的原始头部静音部分、原始尾部静音部分以及原始中间位置的停顿静音部分等。更进一步地，将原始语音数据中的原始头部静音部分、原始尾部静音部分以及原始中间位置的停顿静音部分等整合成一个静音集，该静音集能够体现原始语音数据中的真实的静音情况，在真实的静音情况中可能包含一定的噪音或者非发音主体的语音内容，因此利用真实的原始语音数据提取的静音集更符合实际情况，基于此训练出的静音检测模型将更贴合真实的语音场景，有利于提高静音检测模型的静音识别准确度。更进一步地，将割离出原始静音段的原始语音数据中的原始语音段进行整合，即按照原始语音数据中的语音内容的顺序对语音段进行整合，获得语音集。需要说明的是，语音集中的语音内容的语序与原始语音段的语序一致，当然表达的内容含义也一致。

在一些实施方式中，在获得了语音集和静音集之后，将静音集根据预设时间长度切分成多个仿真静音段，进而插入语音集的各个位置中，以获得由语音集和多个仿真静音段拼接而成的静音拼接数据。具体地，根据仿真静音段在语音集中的插入位置的不同，拼接方法也分为两种，包括：在语音集的头部和尾部插入仿真静音段的拼接方法，以及在语音集的中间位置插入仿真静音段的拼接方法。

在一些实施方式中，当在语音集的头部和尾部插入仿真静音段时，由于真实场景中发音主体在开始说话之前或者说话完结之后的静音时长相对较长，因此为了贴合真实场景，可在静音集中切割出具有较长时间长度的仿真静音段。例如在该场景中的仿真静音段的时间长度可在0.3秒到1秒的范围内，当然也可根据实际需求适当延长。进一步地，将切割出的具有0.3秒至1秒之间的时间长度的仿真静音段分别插入语音集的头部和尾部，并记录插入的仿真静音段的时间长度和语音位置。需要说明的是，插入语音集的头部和尾部的至少两个仿真静音段的时间长度在设定的时间长度范围中随机切割，且插入语音集的头部的仿真静音段和插入语音集的尾部的仿真静音段的时间长度不需要相同。更进一步地，可直接将头部和尾部具有仿真静音段的语音集作为静音拼接数据，也可在该基础上对语音集的中间位置插入具有较短时间长度的仿真静音段，以模仿真实场景的句间停顿情况。当然，若发音主体的语音集的内容较多，也可在中间位置插入具有较长时间长度的仿真静音段，以表征真实场景的中场休息时间等情况，例如会议间隙、演讲间隙等情况。另外，需要注意的是，对原始语音数据的静音段切割以及仿真静音段的插入，均不会影响原始语音数据中语音集的其他文本标注。

在一些实施方式中，当在语音集的中间位置插入仿真静音段时，由于真实场景中发音者说话会存在停顿的情况，且通常停顿时间较短，因此为了贴合真实场景，可在静音集中切割出具有较短时间长度的仿真静音段。例如在该场景中的仿真静音段的时间长度可控制在0.2秒左右的时间长度，当然也可根据实际需求适当延长或缩短，但若插入的仿真静音段的时间长度过长，则不符合说话过程中的停顿场景；若插入的仿真静音段的时间长度过短，则在对输入语音进行语音识别的过程中可忽略不计。进一步地，将语音集随机切割成多个语音段，为了贴合真实场景中发音者的说话习惯，即至少说完一句话才会进行停顿，每个语音段的时间长度应大于0.5秒，当然也可按需求设定其他长度。进一步地，将相邻的两个语音段之间插入具有0.2秒左右的时间长度的仿真静音段，并记录插入的仿真静音段的时间长度和语音位置。需要说明的是，插入语音集中间位置的多个仿真静音段的时间长度在设定的时间长度范围中随机切割，且插入语音集的中间位置的各个仿真静音段的时间长度不需要完全一样。基于上述操作，即可获得由语音集和多个仿真静音段拼接而成的静音拼接数据。需要说明的是，静音拼接数据的各个语音段的语序与原始语音数据中的语音集的语序一样，且表达含义一样；换言之，在语音集中仅插入仿真静音段，并不调整其语序。另外，对原始语音数据的静音段切割以及仿真静音段的插入，均不会影响原始语音数据中语音集的其他文本标注。

在一些实施方式中，在执行对语音集的中间位置插入仿真静音段时，其插入对象可为原始语音数据，也可为在头部和尾部插入仿真静音段之后的静音拼接数据，以使得最终的静音拼接数据满足对各种仿真静音段的位置需求。由于静音段的插入位置的不同，将可生成多个不同的静音拼接数据，进而也增加了训练样本的数量。

图3是静音拼接数据的拼接示意图。结合图3，更具体地对静音拼接数据中头部、尾部和中间位置均具有仿真静音段的拼接情况进行阐述。具体地，将原始语音数据分割为1至n个语音段，将原始静音数据整合为静音集。进一步地，在原始语音数据的头部和尾部分别插入时间长度较长的仿真静音段(即图示的长静音)，在依序相邻的两个语音段之间插入时间长度较短的仿真静音段(即图示的短静音)。例如，在第1个语音段的前后分别设有长静音和短静音，在第i个语音段的前后均设置短静音，在第n个语音段的前后分别设有短静音和长静音。需要说明的是，第i个语音段的时间长度应大于0.5秒，短静音的时间长度应为0.2秒左右，长静音的时间长度应在0.3秒至1秒之间。进一步地，在插入了长静音和短静音之后，即获得拼接完成的静音拼接数据。

在一些实施方式中，由于静音拼接数据中处于不同位置的仿真静音段的时间长度均满足预先设定的时长需求，因此只能够满足大部分真实场景，而无法表征特殊场景的静音情况。基于此，为了能够更贴合真实场景，在对初始检测模型进行训练时，还将未处理的原始语音数据与静音拼接数据按一定比例混合作为训练样本。具体地，采用0至1之间任意符合需求的浮点数作为原始语音数据与静音拼接数据的混合比例，在此不做限定。将原始语音数据与静音拼接数据混合而成的训练样本，能够增加训练样本的数量，并提升与真实场景的贴合程度。

在一些实施方式中，在获得了训练样本之后，将训练样本作为初始检测模型的输入数据。进一步地，首先提取训练样本的多个维度的特征进行训练，例如80维特征。更进一步地，根据提取的特征的分析和处理，进而可对训练样本进行静音端点的识别，分别确定训练样本的多个静音起点的语音位置和多个静音终点的语音位置；进一步地，计算依序相邻的静音起点至静音终点之间的时间长度。更进一步地，将静音起点至静音终点之间的时间长度与静音阈值进行比较，若静音起点至静音终点之间的时间长度大于静音阈值，则认定该静音起点至静音终点之间的语音范围为静音段。当然，由于发音主体产生语音时，各个字之间必然会有短暂静音间隙，不可能完全无缝衔接，因此若静音起点至静音终点之间的时间长度小于或等于静音阈值，则无需将该静音起点至静音终点之间的语音范围认定为静音段，并生成包含该静音起点至静音终点之间的语音范围在内的语音段的语音识别指令，以指示解码器对该部分内容进行识别。

在一些实施方式中，由于训练样本是静音拼接数据和原始语音数据的混合样本，在获得了训练样本之后，初始检测模型还对该训练样本进行拼接概率的检测，获得用于表征训练样本属于静音拼接数据的可能性的拼接概率。具体地，由初始检测模型判断所述静音段是否存在拼接痕迹，并获得包括拼接位置和仿真静音段的时间长度在内的拼接状态信息，进而根据上述拼接信息分析出该训练样本属于静音拼接数据的可能性的拼接概率。进一步地，由于静音拼接数据具有较长时间长度的头部仿真静音段和尾部仿真静音段，因此，当检测了某训练样本的拼接概率高于预设拼接阈值时，可对静音检测模型的对应权重进行调整，以使得静音检测模型能够适应具有较长的时间长度的头部仿真静音段和尾部仿真静音段的静音拼接数据，以免在进行CTC损失函数计算时，由于无法确静音段的时间长度、静音起点的语音位置和静音终点的语音位置，而产生的时间戳延迟的问题。

在一些实施方式中，将训练样本的多个静音起点的语音位置和多个静音终点的语音位置、静音起点至静音终点之间的时间长度、以及拼接概率整合起来，作为初始检测模型对训练样本的静音检测结果。

在一些实施方式中，CE-Loss(CrossEntropy Loss，交叉熵损失)函数用于度量两个概率分布间的差异性，最终的信息熵值越大，则通过静音检测模型输出的拼接概率与实际拼接情况偏差越大，反之，通过静音检测模型输出的拼接概率与实际拼接情况偏差较小。在本公开中，利用CE-Loss函数，将初始检测模型输出的用于表征训练样本属于静音拼接数据的可能性的拼接概率与实际拼接情况进行比对，获得表征拼接概率与实际拼接情况的吻合程度的仿真插入损失值(即信息熵)。

在一些实施中，CTC-Loss(CTC损失，连接时序分类准则损失)函数是一种只考虑语序而不过度关心语音和文本是否对齐的损失函数，由于其仅考虑语序的标签顺序，不要求对输入音频和文本的绝对性对齐，因此对其进行静音检测的损失值计算更简便，成本更低。基于此，本公开利用CTC损失函数，将所述静音检测结果中的静音段的静音起点的语音位置和静音终点的语音位置以及静音段的语音时长分别与静音段的实际静音段数据(即原始语音数据或者静音拼接数据中的实际静音段的静音起点的语音位置、静音终点的语音位置以及静音段的时间长度)进行比对，获得表征静音段的静音起点的语音位置和静音终点的语音位置以及所述静音段的语音时长与实际静音段数据的吻合程度的静音段损失值。

在一些实施方式中，由于对初始检测模型进行权重调整时，只能输入一个损失值，因此，将仿真插入损失值和静音段损失值进行整合，获得总损失值。进一步地，利用包含初始检测模型的权重调整量的总损失值反馈给初始检测模型，由初始检测模型对自身权重进行调整，以获得能够准确检测静音段的信息的静音检测模型。当然，若一次权重调整无法获得能够准确检测静音段的信息的静音检测模型，可重复上述步骤，直至输出能够准确检测静音段的信息的静音检测模型。

根据本公开的一种静音检测模型的构建方法，利用交叉熵损失函数和CTC损失函数两种方式分别对初始检测模型的静音检测结果进行仿真插入损失值和静音段损失值的计算，解决了单一利用CTC损失函数进行模型训练时遇到较长静音段时导致的时间戳延迟的问题，也解决了单一利用交叉熵损失函数需要大量训练样本的问题，同时保证了静音检测模型输出结果与真实场景的贴合度，提高了构建的静音检测模型的静音段识别能力。

图4是本公开另一个实施方式的静音检测模型的构建装置结构框图。

如图4所示，本公开还提供了这样一种静音检测模型的构建装置200，可包括：初始结果生成模块210、损失值获取模块220和静音检测模型生成模块230。初始结果生成模块210用于由初始检测模型对训练样本进行静音检测，获得静音检测结果。损失值获取模块220用于利用至少两种损失函数对所述静音检测结果进行分析，获得仿真插入损失值和静音段损失值。静音检测模型生成模块230用于根据所述仿真插入损失值和所述静音段损失值，对所述初始检测模型进行权重调整，获得静音检测模型。

在一些实施方式中，初始结果生成模块210的执行步骤可为：由初始检测模型对训练样本进行静音端点识别，分别确定训练样本的多个静音起点的语音位置和多个静音终点的语音位置；确定依序相邻的静音起点和静音终点之间的时间长度，并将时间长度符合静音阈值的静音起点和静音终点之间的语音范围作为静音段；计算静音段属于静音拼接数据的拼接概率；以及整合各个静音段的静音起点的语音位置和静音终点的语音位置、各个静音段的语音时长以及各个静音段的拼接概率，生成针对训练样本的静音检测结果。

在一些实施方式中，损失值获取模块220的执行步骤可包括：利用交叉熵损失函数，将静音检测结果中的拼接概率与实际拼接数据进行比对，获得表征拼接概率与实际拼接数据的吻合程度的仿真插入损失值；以及利用CTC损失函数，将静音检测结果中的静音段的静音起点的语音位置和静音终点的语音位置以及静音段的语音时长分别与静音段的实际静音段数据进行比对，获得表征静音段的静音起点的语音位置和静音终点的语音位置以及静音段的语音时长与实际静音段数据的吻合程度的静音段损失值。

在一些实施方式中，静音检测模型的构建装置200还包括：总损失值获取模块(未示出)，用于对仿真插入损失值和静音段损失值进行整合，获得用于表征静音检测结果与实际值的偏离程度的总损失值。

在一些实施方式中，静音检测模型的构建装置200还还包括：静音拼接数据生成模块(未示出)，用于获取训练样本中的静音拼接数据。静音拼接数据生成模块的执行步骤可包括：对原始语音数据中的原始语音段和原始静音段进行切分，获得语音集和静音集；以及将静音集切割为多个具有预设时间长度的仿真静音段，并将各个仿真静音段分别插入所述语音集，获得由语音集和多个仿真静音段拼接而成的所述训练样本。

在一些实施方式中，静音拼接数据生成模块的执行步骤还包括：从静音集中分割出至少两个具有预设时间长度的仿真静音段，并将至少两个具有预设时间长度的仿真静音段分别插入语音集的头部语音集的尾部；和/或将语音集分割为具有预设时间长度的多个语音段，并将从静音集中分割出的多个具有预设时间长度的仿真静音段插入依序相邻的两个语音段之间，获得由语音集和多个仿真静音段拼接而成的训练样本。

在一些实施方式中，静音检测模型的构建装置200还包括应用模块(未示出)，其执行步骤为：将目标语音分解为多个语音包并输入至静音检测模型；由静音检测模型判断各个语音包是否为静音段；以及响应于语音包为静音段的判断结果，生成解码指令，由解码器对语音包进行内容识别。

根据本公开的一种静音检测模型的构建装置，利用交叉熵损失函数和CTC损失函数两种方式分别对初始检测模型的静音检测结果进行仿真插入损失值和静音段损失值的计算，解决了单一利用CTC损失函数进行模型训练时遇到较长静音段时导致的时间戳延迟的问题，也解决了单一利用交叉熵损失函数需要大量训练样本的问题，同时保证了静音检测模型输出结果与真实场景的贴合度，提高了构建的静音检测模型的静音段识别能力。

图5是本公开一个实施方式的静音检测方法流程图。如图5所示，在获得了能够准确检测静音段的信息的静音检测模型之后，在真实对话场景中，可将发音主体的目标语音切分为多个语音包，将多个语音包输入至该静音检测模型中，由述静音检测模型判断各个语音包是否为静音段；若语音包不为静音段，则生成控制解码器识别语音包的内容的解码指令，由解码器对语音包进行内容识别。当然，若语音包为静音段，则生成不解码指令，避免解码器对其进行解码，提高解码器对目标语音的解码效率。需要说明的是，解码器可为语音识别模型。

本公开的又一个方面提供了这样一种静音检测装置(未示出)，可包括：输入模块(未示出)、检测模块(未示出)和解码模块(未示出)。输入模块用于将目标语音分解为多个语音包，并输入至静音检测模型，其中静音检测模型由上述任一实施方式的静音检测模型的构建方法构建。检测模块用于由静音检测模型判断各个语音包是否为静音段。解码模块用于响应于语音包为静音段的判断结果，生成解码指令，由解码器对语音包进行内容识别。

在一些实施方式中，还包括模型构建模块(未示出)，其执行步骤为：由初始检测模型对训练样本进行静音检测，获得静音检测结果；利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。

图6是根据本公开一个实施方式的电子设备示意图。

如图6所示，根据本公开的又一方面，还提供了一种电子设备。该电子设备可包括一个或多个处理器以及一个或多个存储器。其中，存储器中存储有计算机可读代码，计算机可读代码当由一个或多个处理器运行时，可以执行如上所述的静音检测模型的构建方法。

根据本公开实施方式的方法或装置也可以借助于图6所示的电子设备的架构来实现。如图6所示，电子设备可包括总线301、一个或多个CPU302、只读存储器(ROM)303、随机存取存储器(RAM)304、连接到网络的通信端口305、输入/输出组件306、硬盘307等。电子设备中的存储设备，例如ROM303或硬盘307可存储本公开提供的静音检测模型的构建方法的处理和通信使用的各种数据或文件以及CPU所执行的程序指令。静音检测模型的构建方法可例如包括由初始检测模型对训练样本进行静音检测，获得静音检测结果；利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。进一步地，电子设备还可包括用户界面308。当然，图6所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图6示出的电子设备中的一个或多个组件。

图7是根据本公开一个实施方式的存储介质的示意图。

如图7所示，是根据本公开一个实施方式的存储介质400。存储介质400上存储有计算机可读指令。当计算机可读指令由处理器运行时，可执行参照以上附图描述的根据本公开实施方式的静音检测模型的构建方法。存储介质400包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。

另外，根据本公开的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质存储有机器可读指令，所述机器可读指令能够由处理器运行以执行与本公开提供的方法步骤对应的指令，例如：由初始检测模型对训练样本进行静音检测，获得静音检测结果；利用至少两种损失函数对静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及根据仿真插入损失值和静音段损失值，对初始检测模型进行权重调整，获得静音检测模型。在该计算机程序被中央处理单元(CPU)执行时，执行本公开的方法中限定的上述功能。

根据上述的实施方式的技术方案可至少获得以下一个有益效果。

本公开的静音检测模型的构建方法、装置、电子设备、存储介质及程序产品，利用交叉熵损失函数和CTC损失函数两种方式分别对初始检测模型的静音检测结果进行仿真插入损失值和静音段损失值的计算，解决了单一利用CTC损失函数进行模型训练时遇到较长静音段时导致的时间戳延迟的问题，也解决了单一利用交叉熵损失函数需要大量训练样本的问题，同时保证了静音检测模型输出结果与真实场景的贴合度，提高了构建的静音检测模型的静音段识别能力。本公开的静音检测方法和装置，利用静音检测模型实现对目标语音的更精准的静音检测。

可能以许多方式来实现本公开的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

另外，本公开的实施方式中提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

以上描述仅为本公开的实施方式以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的保护范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离技术构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种静音检测模型的构建方法，其特征在于，包括：

由初始检测模型对训练样本进行静音检测，获得静音检测结果；

利用至少两种损失函数对所述静音检测结果进行分析，获得仿真插入损失值和静音段损失值；以及

根据所述仿真插入损失值和所述静音段损失值，对所述初始检测模型进行权重调整，获得静音检测模型。

2.根据权利要求1所述的静音检测模型的构建方法，其特征在于，所述由初始检测模型对训练样本进行静音检测，获得静音检测结果，包括：

由所述初始检测模型对所述训练样本进行静音端点识别，分别确定所述训练样本的多个静音起点的语音位置和多个静音终点的语音位置；

确定依序相邻的所述静音起点和所述静音终点之间的时间长度，并将所述时间长度符合静音阈值的所述静音起点和所述静音终点之间的语音范围作为静音段；

计算所述静音段属于静音拼接数据的拼接概率；以及

整合各个所述静音段的静音起点的语音位置和静音终点的语音位置、各个所述静音段的语音时长以及各个所述静音段的拼接概率，生成针对所述训练样本的静音检测结果。

3.根据权利要求2所述的静音检测模型的构建方法，其特征在于，所述利用至少两种损失函数对所述静音检测结果进行分析，获得仿真插入损失值和静音段损失值，包括：

利用交叉熵损失函数，将所述静音检测结果中的所述拼接概率与实际拼接数据进行比对，获得表征所述拼接概率与所述实际拼接数据的吻合程度的仿真插入损失值；以及

利用CTC损失函数，将所述静音检测结果中的所述静音段的静音起点的语音位置和静音终点的语音位置以及所述静音段的语音时长分别与所述静音段的实际静音段数据进行比对，获得表征所述静音段的静音起点的语音位置和静音终点的语音位置以及所述静音段的语音时长与实际静音段数据的吻合程度的静音段损失值。

4.根据权利要求3所述的静音检测模型的构建方法，其特征在于，在所述利用至少两种损失函数对所述静音检测结果进行分析，获得仿真插入损失值和静音段损失值之后，还包括：

对所述仿真插入损失值和所述静音段损失值进行整合，获得用于表征所述静音检测结果与实际值的偏离程度的总损失值。

5.根据权利要求1所述的静音检测模型的构建方法，其特征在于，在所述由初始检测模型对训练样本进行静音检测，获得静音检测结果之前，还包括：

获取所述训练样本中的静音拼接数据，包括：

对所述原始语音数据中的原始语音段和原始静音段进行切分，获得语音集和静音集；以及

将所述静音集切割为多个具有预设时间长度的仿真静音段，并将各个所述仿真静音段分别插入所述语音集，获得由所述语音集和多个所述仿真静音段拼接而成的所述训练样本。

6.根据权利要求5所述的静音检测模型的构建方法，其特征在于，所述将所述静音集切割为多个具有预设时间长度的仿真静音段，并将各个所述仿真静音段分别插入所述语音集，获得由所述语音集和多个所述仿真静音段拼接而成的所述训练样本，包括：

从所述静音集中分割出至少两个具有预设时间长度的仿真静音段，并将至少两个具有预设时间长度的所述仿真静音段分别插入所述语音集的头部所述语音集的尾部；

可选地，所述将所述静音集切割为多个具有预设时间长度的仿真静音段，并将各个所述仿真静音段分别插入所述语音集，获得由所述语音集和多个所述仿真静音段拼接而成的所述训练样本，包括：

将所述语音集分割为具有预设时间长度的多个语音段，并将从所述静音集中分割出的多个具有预设时间长度的仿真静音段插入依序相邻的两个语音段之间，获得由所述语音集和多个所述仿真静音段拼接而成的所述训练样本。

7.一种静音检测方法，其特征在于，包括：

将目标语音分解为多个语音包，并输入至所述静音检测模型，其中所述静音检测模型由权利要求1至6中任意一项所述的静音检测模型的构建方法构建；

由所述静音检测模型判断各个所述语音包是否为静音段；以及

响应于所述语音包为所述静音段的判断结果，生成解码指令，由解码器对所述语音包进行内容识别；

可选地，所述静音检测模型的构建方法包括：

8.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行权利要求1至6中任一项所述的静音检测模型的构建方法和/或执行权利要求7所述的静音检测方法。

9.一种存储介质，其特征在于，所述存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至6中任一项所述的静音检测模型的构建方法和/或实现权利要求7所述的静音检测方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述的构建方法和/或实现权利要求7所述的静音检测方法。