CN114038487A

CN114038487A - 一种音频提取方法、装置、设备和可读存储介质

Info

Publication number: CN114038487A
Application number: CN202111328467.5A
Authority: CN
Inventors: 郭震; 李智勇; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-11

Abstract

本发明提供一种音频提取方法、装置、设备和可读存储介质，本发明提供的方案中，在处理待处理音频中，首先获取待处理音频的语音音频，然后再对获取到的语音音频进行断句，再识别断句后的语音音频是否是与注册音频相匹配的目标语音音频，最终，得到的目标语音音频为经过断句后的语音音频，该语音音频为具有断句的语音音频，能够识别出语句停顿，使得输出的语音音频更加符合用户说话规则。

Description

一种音频提取方法、装置、设备和可读存储介质

技术领域

本发明涉及音频处理技术领域，具体涉及一种音频的音频提取方法、装置、设备和可读存储介质。

背景技术

音频处理是现有很多设备所具备的功能，其主要是在采集的语音信号流中分离出目标说话人的语音，该功能在语音信号处理的多种场景中均有应用需求，近年来也越来越收到人们的关注。例如，在一段电话对话、一场会议、一段广播语音或是一个电视节目等日常生活中的语音场景，对目标说话人语音进行提取。

在现有方案中，第目标对象的语音进行提取时，主要依赖于声纹识别模型。首先需要一段目标说话人音频做为注册音频。被测语音信息流首先通过VAD(语音活动检测)模块处理，检测出哪些帧是包含人声的，哪些帧是没有人声的(静音或背景音)，从而将被测语音流分为若干段。接着对于这些语音段按一定的窗长、帧移做分帧处理，一般窗长1秒左右，帧移0.5秒左右，利用声纹识别模型与注册音频做声纹比对，得出每帧的得分。声纹模型对注册音频和每帧音频通过前向计算提取声纹特征，然后计算特征的余弦得分或PLDA(概率线性判别)得分等。得分越高代表两条语音属于同一说话人的可能性越大。最终将高于阈值的语音帧拼接起来即为分离结果。

现有方案受限于VAD性能及声纹识别最短判别时长，在说话人变更点处常常会舍弃较多目标说话人音频，导致切分后的句子末尾突然中断，听感不够自然。比如在说话人语速比较快或者交替说话停顿比较短的情况下，VAD常常判断不出句子停顿。

发明内容

有鉴于此，本发明实施例提供一种音频提取方法、装置、设备和可读存储介质，以实现提供一种能够识别出语句停顿的特定人音频的音频提取。

为实现上述目的，本发明实施例提供如下技术方案：

一种音频提取方法，包括：

获取待处理音频中的语音音频；

对所述语音音频进行句尾判断，得到至少一个完整语段；

对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频。

可选的，上述音频提取方法中，获取待处理音频中的语音音频，包括：

获取待处理音频；

对所述待处理音频中的音频类型进行分类；

识别得到分类结果中的语音音频。

可选的，上述音频提取方法中，对所述语音音频进行句尾判断，得到至少一个完整语段之后，还包括：

获取识别到的句尾对应的时间节点；

以所述时间节点为起始时间节点，所述语音音频进行句尾判断，得到至少一个完整语段。

可选的，上述音频提取方法中，对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频，包括：

获取注册音频的声纹特征；

提取所述完整语段的声纹特征；

判断所述完整语段的声纹特征与所述注册音频的声纹特征的相似度是否大于预设值，如果大于预设值，将所述完整语段作为目标语音音频；

否则，丢弃所述完整语段。

可选的，上述音频提取方法中，还包括：

基于识别到的目标语音音频的时间节点的先后顺序，对各个目标语音音频进行拼接。

一种音频提取装置，包括：

语音音频提取单元，用于获取待处理音频中的语音音频；

标点预测模型，用于对所述语音音频进行句尾判断，得到至少一个完整语段；

声纹模型，用于对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频。

可选的，上述音频提取装置中，所述语音音频提取单元，包括：

VAD模块，用于获取待处理音频，对所述待处理音频中的音频类型进行分类；

语音识别模块，用于识别得到分类结果中的语音音频。

可选的，上述音频提取装置中，标点预测模型，对所述语音音频进行句尾判断，得到至少一个完整语段之后，还用于：

获取识别到的句尾对应的时间节点；

所述标点预测模型还用于：

一种音频提取设备，包括：包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的音频提取方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述任意一项所述的音频提取方法的各个步骤。

基于上述技术方案，本发明实施例提供的上述方案中，在处理待处理音频中，首先获取待处理音频的语音音频，然后再对获取到的语音音频进行断句，再识别断句后的语音音频是否是与注册音频相匹配的目标语音音频，最终，得到的目标语音音频为经过断句后的语音音频，该语音音频为具有断句的语音音频，能够识别出语句停顿，使得输出的语音音频更加符合用户说话规则。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的音频提取方法的流程示意图；

图2为本申请另一实施例公开的音频提取方法的流程示意图；

图3为本申请另一实施例公开的音频提取方法的流程示意图；

图4本申请实施例公开的音频提取装置的结构示意图；

图5本申请另一实施例公开的音频提取装置的结构示意图；

图6本申请另一实施例公开的音频提取设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决在现有方案进行语音提取时，由于无法实现出语句停顿而造成的音频信息丢失的问题，本申请公开了一种音频提取方法，通过该提取方法，对待处理音频中的语音音频的句尾进行判断，从而使得识别出的音频具有停顿节奏，提高了识别结果的可靠性。

图1为本申请实施例公开的音频提取方法，本申请公开了一种音频提取方法，参见图1，该方法包括：

步骤S101：获取待处理音频中的语音音频。

在本方案中，所述待处理音频除了包含语音音频之外，也可能会包含其他各式各样的干扰音频，这些干扰音频例如，设备的运行声音、汽车的蜂鸣声、背景音乐等。在本方案中，可以采用语音识别模块识别出这些音频信息中的语音音频，在本方案中，所述语音音频指的是人说话的声音。

步骤S102：对所述语音音频进行句尾判断，得到至少一个完整语段。

在本方案中，获取到语音音频以后，采用标点预测模型判断所述语音音频中的断句位置，进而准确判断所述语音音频的句尾，并在断句位置添加相应的标点符号，得到完整语段，一个语音音频中可能包含多句完整语段，在本方案中，所述句尾，指的是应标注为句号，问号或感叹号等用于表征一句话结束的位置。

在本方案中，所述标点预测模型为预先训练好的人工智能模型，该人工智能模型在进行标点预测时，先将语音音频转换为可识别的字符，例如，汉字或英文字符等，所述人工智能模型将识别到的这些字符作为输入数据，对标点符号进行预测，得到这些字符中的标点位置，将音频数据中与标点位置相对应的位置作为断句位置，并在该位置处添加相应的标点符号，从而得到一个完整语段。

步骤S103：对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频。

由于所述待处理音频中，在不同的时间节点，可能会包含不同人员的语音音频，本方案中，通过声纹识别技术，可以确定得到的该完整语段是否为与注册音频相匹配的目标语音音频，在识别过程中，如果所述完整语段与注册音频的声纹相似度大于预设值，则表明该完整语段为目标对象的说话内容，将其记为目标语音音频。

在本申请实施例公开的技术方案中，在处理待处理音频中，首先获取待处理音频的语音音频，然后再对获取到的语音音频进行断句，再识别断句后的语音音频是否是与注册音频相匹配的目标语音音频，最终，得到的目标语音音频为经过断句后的语音音频，该语音音频为具有断句的语音音频，使得输出的语音音频更加符合用户说话规则。

在本申请另一实施例公开的技术方案中，所述待处理音频除了包含语音音频之外，也可能会包含其他各式各样的干扰音频，这些干扰音频例如，设备的运行声音、汽车的蜂鸣声、背景音乐、以及其他非目标对象发出的声音。在本方案中，为了更好地识别语音音频，参见图2，获取待处理音频中的语音音频，具体可以包括：

步骤S201：获取待处理音频。

步骤S202：对所述待处理音频中的音频类型进行分类。

在获取到待处理音频以后，采用VAD模块(语音活动检测)对所述待处理音频进行分类，此时，待处理音频信息流首先通过VAD模块处理，检测出哪些帧是包含人声的声音，哪些帧是没有人声的(静音或背景音)声音，从而将被测语音流分为若干段。接着对于这些语音段按一定的窗长、帧移做分帧处理，一般窗长1秒左右，帧移0.5秒左右。

步骤S203：识别分类后的待处理音频中的语音音频。

在本步骤中，通过语音识别模块对所述VAD模块处理的分类结果进行识别，得到所述这些分类结果中的语音音频，该语音音频指的是待处理音频中的用户说话的音频。

由此，上述方案可以精准的排除所述待处理音频中的干扰音频，提高了音频处理的精度。

在本申请实施例公开的技术方案中，对一个完整句段的语音音频进行声纹识别以后，可以继续进行下一段的声纹识别，即，对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频包括：获取识别到的句尾对应的时间节点；以所述时间节点为起始时间节点，所述语音音频进行句尾判断，得到至少一个完整语段。

具体地，获取识别到的完整语段的句尾对应的时间节点；以所述时间节点为起始时间节点，获取所述语音音频中，位于所述时间节点之后的语音音频进行句尾判断，得到位于时间节点之后下一个完整语段，直至所述语音音频全部句尾判断完毕。

在本方案中，所述语音音频进行句尾判断与对所述完整语段进行声纹识别可以同时进行，此时，在得到第一个完整语段后，对该完整语段进行声纹识别，在声纹识别的同时，继续对语音音频的句尾对应的时间节点之后的语音音频进行句尾判断。也可以先对所述语音音频进行句尾判断，当对所述语音音频的所有语音音频均进行句尾判断以后，得到N个完整语段，然后再按照时间节点的顺序依次对所述N个完整语段进行声纹识别，并对识别得到的目标语音音频进行拼接，得到待处理音频中所包含的完整的目标语音音频。

参见图3，在本申请实施例公开的技术方中，对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频，具体包括：

步骤S301：获取注册音频的声纹特征。

所述注册音频为目标对象的一段语音音频，对所述注册音频进行处理可以得到所述注册音频的声纹特征。

步骤S302：提取所述完整语段的声纹特征。

本步骤中，具体用以提取识别到的各个完整语段的声纹特征，不同用户的声纹特征不同，可以通过声纹特征对比的方式判断两个语音音频是否是同一个用户发出的。

步骤S303：判断所述完整语段的声纹特征与所述注册音频的声纹特征的相似度是否大于预设值，如果大于预设值，执行步骤S304。

在本步骤中，将提取到的完整语段的声纹特征与注册音频的声纹特征的相似度进行对比，判断两者的相似度是否大于预设值，当两个声纹特征的相似度大于预设值时，表明两者是同一个用户发出的语音音频，否则，表明两者是不同的用户发出的语音音频。其中，所述预设值的大小可以基于用户需求自行选择。

步骤S304：将所述完整语段作为目标语音音频，提取下一段完整语段。

在本步骤中，当某段完整语段的声纹特征与注册音频的声纹特征对比完成以后，提取下一个完整语段，将下一个完整语段的声纹特征与注册音频的声纹特征对比。

在本步骤中，当对比的完整语段的声纹特征与注册音频的声纹特征的相似度大于预设值时，表明两者是同一个用户发出的语音音频，将该完整语段的语音音频作为目标语音音频，并提取下一个完整语段，以将下一个完整语段的声纹特征与注册音频的声纹特征对比。

步骤S305：否则，丢弃所述完整语段，提取下一段完整语段。

在本步骤中，当对比的完整语段的声纹特征与注册音频的声纹特征的相似度小于预设值时，表明两者是不同用户发出的语音音频，丢弃该完整语段的语音音频，并提取下一个完整语段，以将下一个完整语段的声纹特征与注册音频的声纹特征对比。

当所有的完整语段的声纹特征均与注册音频的声纹特征对比完成以后，需要对识别到的目标语音音频进行拼接，以得到所述待处理音频中所包含的连贯的目标语音音频，在拼接过程中，可以基于识别到的目标语音音频的时间节点的先后顺序，对各个目标语音音频进行拼接。所述目标语音音频的时间节点可以指的是所述目标语音音频在所述待处理音频中的时间节点，也可以指的是确定所述完整语段为目标语音音频的时间节点，当然，也可以基于确定的目标语音音频的先后顺序，自动对确定的各个目标语音音频依次拼接。

本实施例中公开了一种音频提取装置，装置中的各个单元的具体工作内容，请参见上述方法实施例的内容。

下面对本发明实施例提供的音频提取装置进行描述，下文描述的音频提取装置与上文描述的音频提取方法可相互对应参照。

参见图4，本申请实施例公开的音频提取装置，可以包括：语音音频提取单元A，标点预测模型B和声纹模型C。

其中，所述语音音频提取单元A，与上述方法中步骤S101相对应，用于获取待处理音频中的语音音频；

标点预测模型B，与上述方法中步骤S102相对应，用于对所述语音音频进行句尾判断，得到至少一个完整语段；

声纹模型C，与上述方法中步骤S103相对应，用于对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频。

参见图5，与上述方法相对应，所述语音音频提取单元A，可以包括VAD模块A1和语音识别模块A2：

VAD模块A1，用于获取待处理音频，对所述待处理音频中的音频类型进行分类；

语音识别模块A2，用于识别得到分类结果中的语音音频。

与上述方法相对应，上述标点预测模型B在对所述语音音频进行句尾判断，得到至少一个完整语段之后，还用于：

获取识别到的句尾对应的时间节点；

所述标点预测模型还用于：

图6为本发明实施例提供的音频提取设备的硬件结构图，参见图6所示，包括：可以包括：至少一个处理器100，至少一个通信接口200，至少一个存储器300和至少一个通信总线400；

在本发明实施例中，处理器100、通信接口200、存储器300、通信总线400的数量为至少一个，且处理器100、通信接口200、存储器300通过通信总线400完成相互间的通信；显然，图6所示的处理器100、通信接口200、存储器300和通信总线400所示的通信连接示意仅是可选的；

可选的，通信接口200可以为通信模块的接口，如GSM模块的接口；

处理器100可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器300可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，处理器100具体用于：

获取待处理音频中的语音音频；

对所述语音音频进行句尾判断，得到至少一个完整语段；

与上述方法相对应，所述处理器在执行获取待处理音频中的语音音频时，具体用于执行：

获取待处理音频；

对所述待处理音频中的音频类型进行分类；

识别得到分类结果中的语音音频。

与上述方法相对应，所述处理器在对所述语音音频进行句尾判断，得到至少一个完整语段之后，还用于执行：

获取识别到的句尾对应的时间节点；

与上述方法相对应，所述处理器在执行对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频时，具体用于执行：

获取注册音频的声纹特征；

提取所述完整语段的声纹特征；

否则，丢弃所述完整语段。

与上述方法相对应，所述处理器还用于执行：基于识别到的目标语音音频的时间节点的先后顺序，对各个目标语音音频进行拼接。

该音频提取设备可以为录音笔、手机或其他具有音频处理功能的智能终端。

对用于上述方法，本申请还公开了一种可读存储介质，该存储介质可以为具有数据存储功能的芯片，该芯片上存储有预设的计算机程序，这些计算机程序可以被触发执行，所述计算机程序被处理器执行时，实现如上述任意一项所述的音频提取方法的各个步骤。

例如，计算机程序再被触发时，用于：

获取待处理音频中的语音音频；

对所述语音音频进行句尾判断，得到至少一个完整语段；

获取待处理音频；

对所述待处理音频中的音频类型进行分类；

识别得到分类结果中的语音音频。

为了描述的方便，描述以上系统时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频提取方法，其特征在于，包括：

获取待处理音频中的语音音频；

对所述语音音频进行句尾判断，得到至少一个完整语段；

2.根据权利要求1所述的音频提取方法，其特征在于，获取待处理音频中的语音音频，包括：

获取待处理音频；

对所述待处理音频中的音频类型进行分类；

识别得到分类结果中的语音音频。

3.根据权利要求2所述的音频提取方法，其特征在于，对所述语音音频进行句尾判断，得到至少一个完整语段，包括：

获取识别到的句尾对应的时间节点；

4.根据权利要求1-3任一项所述的音频提取方法，其特征在于，对所述完整语段进行声纹识别，得到与注册音频相匹配的目标语音音频，包括：

获取注册音频的声纹特征；

提取所述完整语段的声纹特征；

否则，丢弃所述完整语段。

5.根据权利要求3所述的音频提取方法，其特征在于，还包括：

6.一种音频提取装置，其特征在于，包括：

语音音频提取单元，用于获取待处理音频中的语音音频；

7.根据权利要求6所述的音频提取装置，其特征在于，所述语音音频提取单元，包括：

语音识别模块，用于识别得到分类结果中的语音音频。

8.根据权利要求7所述的音频提取装置，其特征在于，标点预测模型，还用于：

获取识别到的句尾对应的时间节点；

所述标点预测模型还用于：

9.一种音频提取设备，其特征在于，包括：包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-5中任一项所述的音频提取方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-5任意一项所述的音频提取方法的各个步骤。