CN109905764A - 一种视频中目标人物语音截取方法及装置 - Google Patents

一种视频中目标人物语音截取方法及装置 Download PDF

Info

Publication number
CN109905764A
CN109905764A CN201910217721.0A CN201910217721A CN109905764A CN 109905764 A CN109905764 A CN 109905764A CN 201910217721 A CN201910217721 A CN 201910217721A CN 109905764 A CN109905764 A CN 109905764A
Authority
CN
China
Prior art keywords
video
frame
audio
target person
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910217721.0A
Other languages
English (en)
Other versions
CN109905764B (zh
Inventor
郑棉洲
吕莉丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou National Acoustic Intelligent Technology Co Ltd
Original Assignee
Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou National Acoustic Intelligent Technology Co Ltd filed Critical Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority to CN201910217721.0A priority Critical patent/CN109905764B/zh
Publication of CN109905764A publication Critical patent/CN109905764A/zh
Application granted granted Critical
Publication of CN109905764B publication Critical patent/CN109905764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请实施例公开了一种视频中目标人物语音截取方法及装置,利用唇形语音活动检测模型,将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记,而目标人物未进行语音活动的视频帧赋予第二标记,得到第一标记序列,再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,确定音视频文件中对应的语音帧的第二起止时间点,从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来,得到目标人物的语音片段文件,实现人声分离,解决了目前的人声分离算法对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在的语音截取的难度大,语音截取的效率低的技术问题。

Description

一种视频中目标人物语音截取方法及装置
技术领域
本申请涉及语音处理技术领域,尤其涉及一种视频中目标人物语音截取方法及装置。
背景技术
在公安进行声纹鉴定时,需要通过将嫌疑人的语音进行声纹对比,在对声纹提取时,有些收集的音频文件录音环境嘈杂,说话人多,需要对音频中的人声进行分离,才能得到目标人的语音。目前有专门的人声分离算法,但对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在语音截取的难度大,语音截取的效率低的技术问题。
发明内容
本申请实施例提供了一种视频中目标人物语音截取方法及装置,解决了目前的人声分离算法对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在的语音截取的难度大,语音截取的效率低的技术问题。
有鉴于此,本申请第一方面提供了一种视频中目标人物语音截取方法,所述方法包括:
获取包含目标人物的音视频文件;
通过唇形语音活动检测模型逐帧对所述音视频文件的视频帧中的目标人物进行检测,对检测到所述目标人物存在语音活动的视频帧赋予第一标记,未检测到所述目标人物存在语音活动的视频帧赋予第二标记,确定所述音视频文件的全部视频帧的第一标记序列;
根据所述第一标记序列中连续预设数量的包含所述第一标记的视频帧的第一起止时间点,确定所述音视频文件的语音帧的第二起止时间点;
根据所述音视频文件的语音帧的第二起止时间点截取所述音视频文件中的语音片段,得到所述音视频文件中所述目标人物的语音片段文件。
可选地,所述确定所述音视频文件的全部视频帧的第一标记序列之后还包括:
对所述第一标记序列进行平滑处理,得到第二标记序列;
相应地,
根据所述第二标记序列中包含所述第一标记的视频帧的第三起止时间点,确定所述音视频文件的语音帧的第四起止时间点;
根据所述音视频文件的语音帧的第四起止时间点截取所述音视频文件中的语音片段,得到所述音视频文件中所述目标人物的语音片段文件。
可选地,所述得到所述音视频文件中所述目标人物的语音片段文件之后还包括:
按照时间顺序将所述目标人物的语音片段文件排序并拼接,得到所述目标人物的语音文件。
可选地,所述对所述第一标记序列进行平滑处理,得到第二标记序列具体包括:
将所述第一标记序列中,与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一,使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记,得到第二标记序列。
可选地,所述唇形语音活动检测模型具体为通过标注好的唇形图片,利用卷积神经网络进行训练得到的唇形语音活动检测模型。
本申请第二方面提供一种视频中目标人物语音截取装置,所述装置包括:
获取单元,用于获取包含目标人物的音视频文件;
检测单元,用于通过唇形语音活动检测模型逐帧对所述音视频文件的视频帧中的目标人物进行检测,对检测到所述目标人物存在语音活动的视频帧赋予第一标记,未检测到所述目标人物存在语音活动的视频帧赋予第二标记,确定所述音视频文件的全部视频帧的第一标记序列;
时间点确定单元,用于根据所述第一标记序列中连续预设数量的包含所述第一标记的视频帧的第一起止时间点,确定所述音视频文件的语音帧的第二起止时间点;
截取单元,用于根据所述音视频文件的语音帧的第二起止时间点截取所述音视频文件中的语音片段,得到所述音视频文件中所述目标人物的语音片段文件。
可选地,还包括:
处理单元,用于对所述第一标记序列进行平滑处理,得到第二标记序列;
相应地,
时间点确定单元,还用于根据所述第二标记序列中包含所述第一标记的视频帧的第三起止时间点,确定所述音视频文件的语音帧的第四起止时间点;
截取单元,还用于根据所述音视频文件的语音帧的第四起止时间点截取所述音视频文件中的语音片段,得到所述音视频文件中所述目标人物的语音片段文件。
可选地,还包括:
拼接单元,用于按照时间顺序将所述目标人物的语音片段文件排序并拼接,得到所述目标人物的语音文件。
可选地,所述处理单元,还用于将所述第一标记序列中,与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一,使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记,得到第二标记序列。
可选地,所述唇形语音活动检测模型具体为通过标注好的唇形图片,利用卷积神经网络进行训练得到的唇形语音活动检测模型。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种视频中目标人物语音截取方法,利用唇形语音活动检测模型,将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记,而目标人物未进行语音活动的视频帧赋予第二标记,得到第一标记序列,再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,确定音视频文件中对应的语音帧的第二起止时间点,从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来,得到目标人物的语音片段文件,实现人声分离,解决了目前的人声分离算法对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在的语音截取的难度大,语音截取的效率低的技术问题。
附图说明
图1为本申请实施例中一种视频中目标人物语音截取方法的一个方法流程图;
图2为本申请实施例中一种视频中目标人物语音截取方法的另一个方法流程图;
图3为本申请实施例中一种视频中目标人物语音截取装置的一个结构示意图;
图4为本申请实施例中一种视频中目标人物语音截取装置的另一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请设计了一种视频中目标人物语音截取方法及装置,解决了目前的人声分离算法对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在的语音截取的难度大,语音截取的效率低的技术问题。
为了便于理解,请参阅图1,图1为本申请实施例中一种视频中目标人物语音截取方法的一个方法流程图,如图1所示,具体为:
101、获取包含目标人物的音视频文件;
需要说明的是,首先需要获取需要进行处理的包含目标人物的音视频文件,音视频文件中一般区分为音频流和视频流。
102、通过唇形语音活动检测模型逐帧对音视频文件的视频帧中的目标人物进行检测,对检测到目标人物存在语音活动的视频帧赋予第一标记,未检测到目标人物存在语音活动的视频帧赋予第二标记,确定音视频文件的全部视频帧的第一标记序列;
需要说明的是,唇形语音活动检测模型是为了检测视频帧中的目标人物是否发生了语音活动,对于检测到目标人物存在语音活动的视频帧赋予第一标记,例如1,对未检测到目标人物存在语音活动的视频帧赋予第二标记,例如0,最终生成音视频文件的全部视频帧的第一标记序列,例如001001110100。
103、根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,确定音视频文件的语音帧的第二起止时间点;
需要说明的是,根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,例如001001110100中,只有连续3帧包含1的视频帧的第一起止时间点需要进行记录,并且根据第一起止时间点确定音视频文件的语音帧的第二起止时间点,第一起止时间点和第二起止时间点相同。
104、根据音视频文件的语音帧的第二起止时间点截取音视频文件中的语音片段,得到音视频文件中目标人物的语音片段文件;
需要说明的是,在得到了音视频文件的语音帧的第二起止时间点后,最终根据第二起止时间点截取音视频文件中的语音片段,单独生成音视频文件中目标人物的语音片段文件,将目标人物的语音片段从音视频文件从截取出来。
本申请实施例中,提供了一种视频中目标人物语音截取方法,利用唇形语音活动检测模型,将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记,而目标人物未进行语音活动的视频帧赋予第二标记,得到第一标记序列,再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,确定音视频文件中对应的语音帧的第二起止时间点,从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来,得到目标人物的语音片段文件,实现人声分离,解决了目前的人声分离算法对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在的语音截取的难度大,语音截取的效率低的技术问题。
请参阅图2,图2为本申请实施例中一种视频中目标人物语音截取方法的另一个方法流程图,如图2所示,具体为:
201、获取包含目标人物的音视频文件;
需要说明的是,首先需要获取需要进行处理的包含目标人物的音视频文件,音视频文件中一般区分为音频流和视频流。
202、通过唇形语音活动检测模型逐帧对音视频文件的视频帧中的目标人物进行检测,对检测到目标人物存在语音活动的视频帧赋予第一标记,未检测到目标人物存在语音活动的视频帧赋予第二标记,确定音视频文件的全部视频帧的第一标记序列;
需要说明的是,唇形语音活动检测模型是为了检测视频帧中的目标人物是否发生了语音活动,对于检测到目标人物存在语音活动的视频帧赋予第一标记,例如1,对未检测到目标人物存在语音活动的视频帧赋予第二标记,例如0,最终生成音视频文件的全部视频帧的第一标记序列,例如001001110100。
203、将第一标记序列中,与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一,使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记,得到第二标记序列;
需要说明的是,对第一标记序列进行平滑处理时,需要将与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一,使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记,得到第二标记序列,例如001001110100,经过修正后得到的第二标记序列为000001111100。
204、根据第二标记序列中包含第一标记的视频帧的第三起止时间点,确定音视频文件的语音帧的第四起止时间点;
需要说明的是,根据第二标记序列中包含第一标记的视频帧的第三起止时间点,例如0000011111000中,只有连续5帧包含1的视频帧的第三起止时间点需要进行记录,并且根据第三起止时间点确定音视频文件的语音帧的第四起止时间点,第三起止时间点和第四起止时间点相同。
205、根据音视频文件的语音帧的第四起止时间点截取音视频文件中的语音片段,得到音视频文件中目标人物的语音片段文件;
需要说明的是,在得到了音视频文件的语音帧的第四起止时间点后,最终根据第四起止时间点截取音视频文件中的语音片段,单独生成音视频文件中目标人物的语音片段文件,将目标人物的语音片段从音视频文件从截取出来。
206、按照时间顺序将目标人物的语音片段文件排序并拼接,得到目标人物的语音文件;
需要说明的是,在得到目标人物的语音片段文件后,还可以按照时间顺序将目标人物的语音片段文件排序并拼接,最终得到目标人物的语音文件。
本申请实施例中,提供了一种视频中目标人物语音截取方法,利用唇形语音活动检测模型,将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记,而目标人物未进行语音活动的视频帧赋予第二标记,得到第一标记序列,再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,确定音视频文件中对应的语音帧的第二起止时间点,从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来,得到目标人物的语音片段文件,实现人声分离,解决了目前的人声分离算法对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在的语音截取的难度大,语音截取的效率低的技术问题。
请参阅图3,图3为本申请实施例中一种视频中目标人物语音截取装置的一个结构示意图,如图3所示,具体为:
获取单元301,用于获取包含目标人物的音视频文件;
检测单元302,用于通过唇形语音活动检测模型逐帧对音视频文件的视频帧中的目标人物进行检测,对检测到目标人物存在语音活动的视频帧赋予第一标记,未检测到目标人物存在语音活动的视频帧赋予第二标记,确定音视频文件的全部视频帧的第一标记序列;
时间点确定单元303,用于根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,确定音视频文件的语音帧的第二起止时间点;
截取单元304,用于根据音视频文件的语音帧的第二起止时间点截取音视频文件中的语音片段,得到音视频文件中目标人物的语音片段文件。
本申请实施例中,提供了一种视频中目标人物语音截取装置,利用唇形语音活动检测模型,将音视频文件中目标人物进行了语音活动的视频帧赋予第一标记,而目标人物未进行语音活动的视频帧赋予第二标记,得到第一标记序列,再根据第一标记序列中连续预设数量的包含第一标记的视频帧的第一起止时间点,确定音视频文件中对应的语音帧的第二起止时间点,从而直接根据第二起止时间点将音视频文件中对应的语音片段截取出来,得到目标人物的语音片段文件,实现人声分离,解决了目前的人声分离算法对音频的清晰度要求较高,需要先对音频进行降噪处理后再做人声分离,在嘈杂的环境下,噪音影响大,存在的语音截取的难度大,语音截取的效率低的技术问题。
请参阅图4,图4为本申请实施例中一种视频中目标人物语音截取装置的另一个结构示意图,如图4所示,具体为:
获取单元401,用于获取包含目标人物的音视频文件;
检测单元402,用于通过唇形语音活动检测模型逐帧对音视频文件的视频帧中的目标人物进行检测,对检测到目标人物存在语音活动的视频帧赋予第一标记,未检测到目标人物存在语音活动的视频帧赋予第二标记,确定音视频文件的全部视频帧的第一标记序列;
处理单元403,用于对第一标记序列进行平滑处理,得到第二标记序列;
处理单元403,还用于将第一标记序列中,与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一,使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记,得到第二标记序列;
时间点确定单元404,还用于根据第二标记序列中包含第一标记的视频帧的第三起止时间点,确定音视频文件的语音帧的第四起止时间点;
截取单元405,还用于根据音视频文件的语音帧的第四起止时间点截取音视频文件中的语音片段,得到音视频文件中目标人物的语音片段文件;
拼接单元406,用于按照时间顺序将目标人物的语音片段文件排序并拼接,得到目标人物的语音文件。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种视频中目标人物语音截取方法,其特征在于,包括:
获取包含目标人物的音视频文件;
通过唇形语音活动检测模型逐帧对所述音视频文件的视频帧中的目标人物进行检测,对检测到所述目标人物存在语音活动的视频帧赋予第一标记,未检测到所述目标人物存在语音活动的视频帧赋予第二标记,确定所述音视频文件的全部视频帧的第一标记序列;
根据所述第一标记序列中连续预设数量的包含所述第一标记的视频帧的第一起止时间点,确定所述音视频文件的语音帧的第二起止时间点;
根据所述音视频文件的语音帧的第二起止时间点截取所述音视频文件中的语音片段,得到所述音视频文件中所述目标人物的语音片段文件。
2.根据权利要求1所述的视频中目标人物语音截取方法,其特征在于,所述确定所述音视频文件的全部视频帧的第一标记序列之后还包括:
对所述第一标记序列进行平滑处理,得到第二标记序列;
相应地,
根据所述第二标记序列中包含所述第一标记的视频帧的第三起止时间点,确定所述音视频文件的语音帧的第四起止时间点;
根据所述音视频文件的语音帧的第四起止时间点截取所述音视频文件中的语音片段,得到所述音视频文件中所述目标人物的语音片段文件。
3.根据权利要求1或2所述的视频中目标人物语音截取方法,其特征在于,所述得到所述音视频文件中所述目标人物的语音片段文件之后还包括:
按照时间顺序将所述目标人物的语音片段文件排序并拼接,得到所述目标人物的语音文件。
4.根据权利要求2所述的视频中目标人物语音截取方法,其特征在于,所述对所述第一标记序列进行平滑处理,得到第二标记序列具体包括:
将所述第一标记序列中,与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一,使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记,得到第二标记序列。
5.根据权利要求1所述的视频中目标人物语音截取方法,其特征在于,所述唇形语音活动检测模型具体为通过标注好的唇形图片,利用卷积神经网络进行训练得到的唇形语音活动检测模型。
6.一种视频中目标人物语音截取装置,其特征在于,包括:
获取单元,用于获取包含目标人物的音视频文件;
检测单元,用于通过唇形语音活动检测模型逐帧对所述音视频文件的视频帧中的目标人物进行检测,对检测到所述目标人物存在语音活动的视频帧赋予第一标记,未检测到所述目标人物存在语音活动的视频帧赋予第二标记,确定所述音视频文件的全部视频帧的第一标记序列;
时间点确定单元,用于根据所述第一标记序列中连续预设数量的包含所述第一标记的视频帧的第一起止时间点,确定所述音视频文件的语音帧的第二起止时间点;
截取单元,用于根据所述音视频文件的语音帧的第二起止时间点截取所述音视频文件中的语音片段,得到所述音视频文件中所述目标人物的语音片段文件。
7.根据权利要求6所述的视频中目标人物语音截取装置,其特征在于,还包括:
处理单元,用于对所述第一标记序列进行平滑处理,得到第二标记序列;
相应地,
时间点确定单元,还用于根据所述第二标记序列中包含所述第一标记的视频帧的第三起止时间点,确定所述音视频文件的语音帧的第四起止时间点;
截取单元,还用于根据所述音视频文件的语音帧的第四起止时间点截取所述音视频文件中的语音片段,得到所述音视频文件中所述目标人物的语音片段文件。
8.根据权利要求6或7所述的视频中目标人物语音截取装置,其特征在于,还包括:
拼接单元,用于按照时间顺序将所述目标人物的语音片段文件排序并拼接,得到所述目标人物的语音文件。
9.根据权利要求7所述的视频中目标人物语音截取装置,其特征在于,所述处理单元,还用于将所述第一标记序列中,与前一帧视频帧和后一帧视频帧的标记不同的中间视频帧的标记进行统一,使得中间视频帧的标记修正为前一帧视频帧和后一帧视频帧的标记,得到第二标记序列。
10.根据权利要求6所述的视频中目标人物语音截取装置,其特征在于,所述唇形语音活动检测模型具体为通过标注好的唇形图片,利用卷积神经网络进行训练得到的唇形语音活动检测模型。
CN201910217721.0A 2019-03-21 2019-03-21 一种视频中目标人物语音截取方法及装置 Active CN109905764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910217721.0A CN109905764B (zh) 2019-03-21 2019-03-21 一种视频中目标人物语音截取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910217721.0A CN109905764B (zh) 2019-03-21 2019-03-21 一种视频中目标人物语音截取方法及装置

Publications (2)

Publication Number Publication Date
CN109905764A true CN109905764A (zh) 2019-06-18
CN109905764B CN109905764B (zh) 2021-08-24

Family

ID=66953715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910217721.0A Active CN109905764B (zh) 2019-03-21 2019-03-21 一种视频中目标人物语音截取方法及装置

Country Status (1)

Country Link
CN (1) CN109905764B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767229A (zh) * 2019-10-15 2020-02-07 广州国音智能科技有限公司 基于声纹的音频输出方法、装置、设备及可读存储介质
CN110808062A (zh) * 2019-11-26 2020-02-18 秒针信息技术有限公司 混合语音分离方法和装置
CN111128212A (zh) * 2019-12-09 2020-05-08 秒针信息技术有限公司 混合语音分离方法及装置
CN111145774A (zh) * 2019-12-09 2020-05-12 秒针信息技术有限公司 语音分离方法及装置
CN111221987A (zh) * 2019-12-30 2020-06-02 秒针信息技术有限公司 混合音频标记方法和装置
CN111639157A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 音频标记方法、装置、设备及可读存储介质
CN111768760A (zh) * 2020-05-26 2020-10-13 云知声智能科技股份有限公司 一种多模态语音端点检测方法及装置
CN111881726A (zh) * 2020-06-15 2020-11-03 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN112487247A (zh) * 2020-11-30 2021-03-12 维沃移动通信(深圳)有限公司 视频处理方法及视频处理装置
CN113571051A (zh) * 2021-06-11 2021-10-29 天津大学 一种唇部语音活动检测和结果纠错的语音识别系统和方法
CN114640826A (zh) * 2022-03-23 2022-06-17 北京有竹居网络技术有限公司 数据处理方法、装置、可读介质以及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0876049A2 (en) * 1997-04-28 1998-11-04 Eastman Kodak Company Method and apparatus for producing audio-enhanced hard copy image prints selected from a motion image sequence and accompanying sound stored on an electronic image storage medium
US20020083473A1 (en) * 2000-12-21 2002-06-27 Philips Electronics North America Corporation System and method for accessing a multimedia summary of a video program
CN104657650A (zh) * 2015-01-06 2015-05-27 三星电子(中国)研发中心 用于数据输入或验证身份的方法及装置
CN104735461A (zh) * 2015-03-31 2015-06-24 北京奇艺世纪科技有限公司 视频中语音关键词广告的更换方法及装置
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN106571136A (zh) * 2016-10-28 2017-04-19 努比亚技术有限公司 一种语音输出装置和方法
EP3306948A1 (en) * 2016-10-07 2018-04-11 HURRA Communications GmbH Method and system for displaying the content of a video or audio broadcast signal to a user and method and system for storing timestamps in a database
CN108346034A (zh) * 2018-02-02 2018-07-31 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
CN109168067A (zh) * 2018-11-02 2019-01-08 深圳Tcl新技术有限公司 视频时序矫正方法、矫正终端及计算机可读存储介质
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109409204A (zh) * 2018-09-07 2019-03-01 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0876049A2 (en) * 1997-04-28 1998-11-04 Eastman Kodak Company Method and apparatus for producing audio-enhanced hard copy image prints selected from a motion image sequence and accompanying sound stored on an electronic image storage medium
US20020083473A1 (en) * 2000-12-21 2002-06-27 Philips Electronics North America Corporation System and method for accessing a multimedia summary of a video program
WO2002051138A2 (en) * 2000-12-21 2002-06-27 Koninklijke Philips Electronics N.V. System and method for accessing a multimedia summary of a video program
CN104657650A (zh) * 2015-01-06 2015-05-27 三星电子(中国)研发中心 用于数据输入或验证身份的方法及装置
CN104735461A (zh) * 2015-03-31 2015-06-24 北京奇艺世纪科技有限公司 视频中语音关键词广告的更换方法及装置
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
EP3306948A1 (en) * 2016-10-07 2018-04-11 HURRA Communications GmbH Method and system for displaying the content of a video or audio broadcast signal to a user and method and system for storing timestamps in a database
CN106571136A (zh) * 2016-10-28 2017-04-19 努比亚技术有限公司 一种语音输出装置和方法
CN108346034A (zh) * 2018-02-02 2018-07-31 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109409204A (zh) * 2018-09-07 2019-03-01 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质
CN109168067A (zh) * 2018-11-02 2019-01-08 深圳Tcl新技术有限公司 视频时序矫正方法、矫正终端及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宣守盼: "多模态情感数据库的研究与建立", 《中国优秀硕士学位论文全文数据库》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767229A (zh) * 2019-10-15 2020-02-07 广州国音智能科技有限公司 基于声纹的音频输出方法、装置、设备及可读存储介质
CN110808062B (zh) * 2019-11-26 2022-12-13 秒针信息技术有限公司 混合语音分离方法和装置
CN110808062A (zh) * 2019-11-26 2020-02-18 秒针信息技术有限公司 混合语音分离方法和装置
CN111128212A (zh) * 2019-12-09 2020-05-08 秒针信息技术有限公司 混合语音分离方法及装置
CN111145774A (zh) * 2019-12-09 2020-05-12 秒针信息技术有限公司 语音分离方法及装置
CN111221987A (zh) * 2019-12-30 2020-06-02 秒针信息技术有限公司 混合音频标记方法和装置
CN111639157A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 音频标记方法、装置、设备及可读存储介质
CN111639157B (zh) * 2020-05-13 2023-10-20 广州国音智能科技有限公司 音频标记方法、装置、设备及可读存储介质
CN111768760B (zh) * 2020-05-26 2023-04-18 云知声智能科技股份有限公司 一种多模态语音端点检测方法及装置
CN111768760A (zh) * 2020-05-26 2020-10-13 云知声智能科技股份有限公司 一种多模态语音端点检测方法及装置
CN111881726A (zh) * 2020-06-15 2020-11-03 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN112487247A (zh) * 2020-11-30 2021-03-12 维沃移动通信(深圳)有限公司 视频处理方法及视频处理装置
CN112487247B (zh) * 2020-11-30 2024-06-11 维沃移动通信(深圳)有限公司 视频处理方法及视频处理装置
CN113571051A (zh) * 2021-06-11 2021-10-29 天津大学 一种唇部语音活动检测和结果纠错的语音识别系统和方法
CN114640826A (zh) * 2022-03-23 2022-06-17 北京有竹居网络技术有限公司 数据处理方法、装置、可读介质以及电子设备
CN114640826B (zh) * 2022-03-23 2023-11-03 北京有竹居网络技术有限公司 数据处理方法、装置、可读介质以及电子设备

Also Published As

Publication number Publication date
CN109905764B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN109905764A (zh) 一种视频中目标人物语音截取方法及装置
CN112088402B (zh) 用于说话者识别的联合神经网络
US10108709B1 (en) Systems and methods for queryable graph representations of videos
CN108597525B (zh) 语音声纹建模方法及装置
CN108307229B (zh) 一种影音数据的处理方法及设备
JP6333260B2 (ja) 単語自動翻訳に基づく唇形状変更装置および方法
CN105139858B (zh) 一种信息处理方法及电子设备
CN102843543B (zh) 视频会议提醒方法、装置和视频会议系统
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN110853646A (zh) 会议发言角色的区分方法、装置、设备及可读存储介质
CN113343831A (zh) 视频中说话人分类方法、装置、电子设备和存储介质
CN109639700A (zh) 身份识别方法、装置、设备、云端服务器及存储介质
CN103607556B (zh) 视频会议系统及其实现方法
CN117337467A (zh) 经由迭代说话者嵌入的端到端说话者分离
US20150049247A1 (en) Method and apparatus for using face detection information to improve speaker segmentation
CN109545232A (zh) 信息推送方法、信息推送装置和语音交互设备
US9609272B2 (en) Optimized video snapshot
Mocanu et al. Active speaker recognition using cross attention audio-video fusion
CN113327619B (zh) 一种基于云—边缘协同架构的会议记录方法及系统
EP2913822B1 (en) Speaker recognition
US12073844B2 (en) Audio-visual hearing aid
CN117854507A (zh) 语音识别方法、装置、电子设备及存储介质
Butko et al. Acoustic event detection based on feature-level fusion of audio and video modalities
CN114792522A (zh) 音频信号处理、会议记录与呈现方法、设备、系统及介质
JP7178331B2 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant