CN109905764A

CN109905764A - 一种视频中目标人物语音截取方法及装置

Info

Publication number: CN109905764A
Application number: CN201910217721.0A
Authority: CN
Inventors: 郑棉洲; 吕莉丽
Original assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Current assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-06-18
Anticipated expiration: 2039-03-21
Also published as: CN109905764B

Abstract

本申请实施例公开了一种视频中目标人物语音截取方法及装置，利用唇形语音活动检测模型，将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记，而目标人物未进行语音活动的视频帧赋予第二标记，得到第一标记序列，再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点，确定音视频文件中对应的语音帧的第二起止时间点，从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来，得到目标人物的语音片段文件，实现人声分离，解决了目前的人声分离算法对音频的清晰度要求较高，需要先对音频进行降噪处理后再做人声分离，在嘈杂的环境下，噪音影响大，存在的语音截取的难度大，语音截取的效率低的技术问题。

Description

一种视频中目标人物语音截取方法及装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种视频中目标人物语音截取方法及装置。

背景技术

在公安进行声纹鉴定时，需要通过将嫌疑人的语音进行声纹对比，在对声纹提取时，有些收集的音频文件录音环境嘈杂，说话人多，需要对音频中的人声进行分离，才能得到目标人的语音。目前有专门的人声分离算法，但对音频的清晰度要求较高，需要先对音频进行降噪处理后再做人声分离，在嘈杂的环境下，噪音影响大，存在语音截取的难度大，语音截取的效率低的技术问题。

发明内容

本申请实施例提供了一种视频中目标人物语音截取方法及装置，解决了目前的人声分离算法对音频的清晰度要求较高，需要先对音频进行降噪处理后再做人声分离，在嘈杂的环境下，噪音影响大，存在的语音截取的难度大，语音截取的效率低的技术问题。

有鉴于此，本申请第一方面提供了一种视频中目标人物语音截取方法，所述方法包括：

获取包含目标人物的音视频文件；

通过唇形语音活动检测模型逐帧对所述音视频文件的视频帧中的目标人物进行检测，对检测到所述目标人物存在语音活动的视频帧赋予第一标记，未检测到所述目标人物存在语音活动的视频帧赋予第二标记，确定所述音视频文件的全部视频帧的第一标记序列；

根据所述第一标记序列中连续预设数量的包含所述第一标记的视频帧的第一起止时间点，确定所述音视频文件的语音帧的第二起止时间点；

根据所述音视频文件的语音帧的第二起止时间点截取所述音视频文件中的语音片段，得到所述音视频文件中所述目标人物的语音片段文件。

可选地，所述确定所述音视频文件的全部视频帧的第一标记序列之后还包括：

对所述第一标记序列进行平滑处理，得到第二标记序列；

相应地，

根据所述第二标记序列中包含所述第一标记的视频帧的第三起止时间点，确定所述音视频文件的语音帧的第四起止时间点；

根据所述音视频文件的语音帧的第四起止时间点截取所述音视频文件中的语音片段，得到所述音视频文件中所述目标人物的语音片段文件。

可选地，所述得到所述音视频文件中所述目标人物的语音片段文件之后还包括：

按照时间顺序将所述目标人物的语音片段文件排序并拼接，得到所述目标人物的语音文件。

可选地，所述对所述第一标记序列进行平滑处理，得到第二标记序列具体包括：

将所述第一标记序列中，与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一，使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记，得到第二标记序列。

可选地，所述唇形语音活动检测模型具体为通过标注好的唇形图片，利用卷积神经网络进行训练得到的唇形语音活动检测模型。

本申请第二方面提供一种视频中目标人物语音截取装置，所述装置包括：

获取单元，用于获取包含目标人物的音视频文件；

检测单元，用于通过唇形语音活动检测模型逐帧对所述音视频文件的视频帧中的目标人物进行检测，对检测到所述目标人物存在语音活动的视频帧赋予第一标记，未检测到所述目标人物存在语音活动的视频帧赋予第二标记，确定所述音视频文件的全部视频帧的第一标记序列；

时间点确定单元，用于根据所述第一标记序列中连续预设数量的包含所述第一标记的视频帧的第一起止时间点，确定所述音视频文件的语音帧的第二起止时间点；

截取单元，用于根据所述音视频文件的语音帧的第二起止时间点截取所述音视频文件中的语音片段，得到所述音视频文件中所述目标人物的语音片段文件。

可选地，还包括：

处理单元，用于对所述第一标记序列进行平滑处理，得到第二标记序列；

相应地，

时间点确定单元，还用于根据所述第二标记序列中包含所述第一标记的视频帧的第三起止时间点，确定所述音视频文件的语音帧的第四起止时间点；

截取单元，还用于根据所述音视频文件的语音帧的第四起止时间点截取所述音视频文件中的语音片段，得到所述音视频文件中所述目标人物的语音片段文件。

可选地，还包括：

拼接单元，用于按照时间顺序将所述目标人物的语音片段文件排序并拼接，得到所述目标人物的语音文件。

可选地，所述处理单元，还用于将所述第一标记序列中，与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一，使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记，得到第二标记序列。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种视频中目标人物语音截取方法，利用唇形语音活动检测模型，将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记，而目标人物未进行语音活动的视频帧赋予第二标记，得到第一标记序列，再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点，确定音视频文件中对应的语音帧的第二起止时间点，从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来，得到目标人物的语音片段文件，实现人声分离，解决了目前的人声分离算法对音频的清晰度要求较高，需要先对音频进行降噪处理后再做人声分离，在嘈杂的环境下，噪音影响大，存在的语音截取的难度大，语音截取的效率低的技术问题。

附图说明

图1为本申请实施例中一种视频中目标人物语音截取方法的一个方法流程图；

图2为本申请实施例中一种视频中目标人物语音截取方法的另一个方法流程图；

图3为本申请实施例中一种视频中目标人物语音截取装置的一个结构示意图；

图4为本申请实施例中一种视频中目标人物语音截取装置的另一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请设计了一种视频中目标人物语音截取方法及装置，解决了目前的人声分离算法对音频的清晰度要求较高，需要先对音频进行降噪处理后再做人声分离，在嘈杂的环境下，噪音影响大，存在的语音截取的难度大，语音截取的效率低的技术问题。

为了便于理解，请参阅图1，图1为本申请实施例中一种视频中目标人物语音截取方法的一个方法流程图，如图1所示，具体为：

101、获取包含目标人物的音视频文件；

需要说明的是，首先需要获取需要进行处理的包含目标人物的音视频文件，音视频文件中一般区分为音频流和视频流。

102、通过唇形语音活动检测模型逐帧对音视频文件的视频帧中的目标人物进行检测，对检测到目标人物存在语音活动的视频帧赋予第一标记，未检测到目标人物存在语音活动的视频帧赋予第二标记，确定音视频文件的全部视频帧的第一标记序列；

需要说明的是，唇形语音活动检测模型是为了检测视频帧中的目标人物是否发生了语音活动，对于检测到目标人物存在语音活动的视频帧赋予第一标记，例如1，对未检测到目标人物存在语音活动的视频帧赋予第二标记，例如0，最终生成音视频文件的全部视频帧的第一标记序列，例如001001110100。

103、根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点，确定音视频文件的语音帧的第二起止时间点；

需要说明的是，根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点，例如001001110100中，只有连续3帧包含1的视频帧的第一起止时间点需要进行记录，并且根据第一起止时间点确定音视频文件的语音帧的第二起止时间点，第一起止时间点和第二起止时间点相同。

104、根据音视频文件的语音帧的第二起止时间点截取音视频文件中的语音片段，得到音视频文件中目标人物的语音片段文件；

需要说明的是，在得到了音视频文件的语音帧的第二起止时间点后，最终根据第二起止时间点截取音视频文件中的语音片段，单独生成音视频文件中目标人物的语音片段文件，将目标人物的语音片段从音视频文件从截取出来。

请参阅图2，图2为本申请实施例中一种视频中目标人物语音截取方法的另一个方法流程图，如图2所示，具体为：

201、获取包含目标人物的音视频文件；

202、通过唇形语音活动检测模型逐帧对音视频文件的视频帧中的目标人物进行检测，对检测到目标人物存在语音活动的视频帧赋予第一标记，未检测到目标人物存在语音活动的视频帧赋予第二标记，确定音视频文件的全部视频帧的第一标记序列；

203、将第一标记序列中，与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一，使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记，得到第二标记序列；

需要说明的是，对第一标记序列进行平滑处理时，需要将与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一，使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记，得到第二标记序列，例如001001110100，经过修正后得到的第二标记序列为000001111100。

204、根据第二标记序列中包含第一标记的视频帧的第三起止时间点，确定音视频文件的语音帧的第四起止时间点；

需要说明的是，根据第二标记序列中包含第一标记的视频帧的第三起止时间点，例如0000011111000中，只有连续5帧包含1的视频帧的第三起止时间点需要进行记录，并且根据第三起止时间点确定音视频文件的语音帧的第四起止时间点，第三起止时间点和第四起止时间点相同。

205、根据音视频文件的语音帧的第四起止时间点截取音视频文件中的语音片段，得到音视频文件中目标人物的语音片段文件；

需要说明的是，在得到了音视频文件的语音帧的第四起止时间点后，最终根据第四起止时间点截取音视频文件中的语音片段，单独生成音视频文件中目标人物的语音片段文件，将目标人物的语音片段从音视频文件从截取出来。

206、按照时间顺序将目标人物的语音片段文件排序并拼接，得到目标人物的语音文件；

需要说明的是，在得到目标人物的语音片段文件后，还可以按照时间顺序将目标人物的语音片段文件排序并拼接，最终得到目标人物的语音文件。

请参阅图3，图3为本申请实施例中一种视频中目标人物语音截取装置的一个结构示意图，如图3所示，具体为：

获取单元301，用于获取包含目标人物的音视频文件；

检测单元302，用于通过唇形语音活动检测模型逐帧对音视频文件的视频帧中的目标人物进行检测，对检测到目标人物存在语音活动的视频帧赋予第一标记，未检测到目标人物存在语音活动的视频帧赋予第二标记，确定音视频文件的全部视频帧的第一标记序列；

时间点确定单元303，用于根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点，确定音视频文件的语音帧的第二起止时间点；

截取单元304，用于根据音视频文件的语音帧的第二起止时间点截取音视频文件中的语音片段，得到音视频文件中目标人物的语音片段文件。

本申请实施例中，提供了一种视频中目标人物语音截取装置，利用唇形语音活动检测模型，将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记，而目标人物未进行语音活动的视频帧赋予第二标记，得到第一标记序列，再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点，确定音视频文件中对应的语音帧的第二起止时间点，从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来，得到目标人物的语音片段文件，实现人声分离，解决了目前的人声分离算法对音频的清晰度要求较高，需要先对音频进行降噪处理后再做人声分离，在嘈杂的环境下，噪音影响大，存在的语音截取的难度大，语音截取的效率低的技术问题。

请参阅图4，图4为本申请实施例中一种视频中目标人物语音截取装置的另一个结构示意图，如图4所示，具体为：

获取单元401，用于获取包含目标人物的音视频文件；

检测单元402，用于通过唇形语音活动检测模型逐帧对音视频文件的视频帧中的目标人物进行检测，对检测到目标人物存在语音活动的视频帧赋予第一标记，未检测到目标人物存在语音活动的视频帧赋予第二标记，确定音视频文件的全部视频帧的第一标记序列；

处理单元403，用于对第一标记序列进行平滑处理，得到第二标记序列；

处理单元403，还用于将第一标记序列中，与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一，使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记，得到第二标记序列；

时间点确定单元404，还用于根据第二标记序列中包含第一标记的视频帧的第三起止时间点，确定音视频文件的语音帧的第四起止时间点；

截取单元405，还用于根据音视频文件的语音帧的第四起止时间点截取音视频文件中的语音片段，得到音视频文件中目标人物的语音片段文件；

拼接单元406，用于按照时间顺序将目标人物的语音片段文件排序并拼接，得到目标人物的语音文件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频中目标人物语音截取方法，其特征在于，包括：

获取包含目标人物的音视频文件；

2.根据权利要求1所述的视频中目标人物语音截取方法，其特征在于，所述确定所述音视频文件的全部视频帧的第一标记序列之后还包括：

对所述第一标记序列进行平滑处理，得到第二标记序列；

相应地，

3.根据权利要求1或2所述的视频中目标人物语音截取方法，其特征在于，所述得到所述音视频文件中所述目标人物的语音片段文件之后还包括：

4.根据权利要求2所述的视频中目标人物语音截取方法，其特征在于，所述对所述第一标记序列进行平滑处理，得到第二标记序列具体包括：

5.根据权利要求1所述的视频中目标人物语音截取方法，其特征在于，所述唇形语音活动检测模型具体为通过标注好的唇形图片，利用卷积神经网络进行训练得到的唇形语音活动检测模型。

6.一种视频中目标人物语音截取装置，其特征在于，包括：

获取单元，用于获取包含目标人物的音视频文件；

7.根据权利要求6所述的视频中目标人物语音截取装置，其特征在于，还包括：

相应地，

8.根据权利要求6或7所述的视频中目标人物语音截取装置，其特征在于，还包括：

9.根据权利要求7所述的视频中目标人物语音截取装置，其特征在于，所述处理单元，还用于将所述第一标记序列中，与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一，使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记，得到第二标记序列。

10.根据权利要求6所述的视频中目标人物语音截取装置，其特征在于，所述唇形语音活动检测模型具体为通过标注好的唇形图片，利用卷积神经网络进行训练得到的唇形语音活动检测模型。