CN112565885B - 一种视频分割方法、系统、设备及存储介质 - Google Patents
一种视频分割方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN112565885B CN112565885B CN202011374280.4A CN202011374280A CN112565885B CN 112565885 B CN112565885 B CN 112565885B CN 202011374280 A CN202011374280 A CN 202011374280A CN 112565885 B CN112565885 B CN 112565885B
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- video segment
- lip
- node information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视频分割方法、系统、设备及存储介质,方法包括从第一视频中提取第一音频并去噪得到第二音频;分析第二音频获得第三音频和第一时间节点信息,并得到第一视频片段;对第三音频进行人声识别,得到第二视频片段;对第二视频片段进行人脸检测;对含人脸视频片段进行唇形同步检测;对唇形同步视频片段进行语音增强,进一步对已有视频片段进行语音识别,得到语音识别结果。本发明通过对视频采用诸如去噪、神经网络分析、人声识别、人脸检测、唇形同步检测、语音增强结果等处理手段,能够自动化实现对视频的高精度切割。本发明可以广泛应用于视频处理技术领域。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及一种视频分割方法、系统、设备及存储介质。
背景技术
随着互联网技术的不断发展,视频已经成为了信息传递的新载体,但因为不同语种的客观事实,使得采用不同语种的视频在传播过程中存在障碍,针对这一现状现阶段主要通过添加字幕或使用其他语种的人工配音。然而添加字幕的方式会分散观众的注意力,使得观众过于关注文字信息,忽略整体画面,影响观看效果;使用其他语种的人工配音则会因为配音与视频中演员的唇形变化不匹配,产生声音与画面不同步的现象,同样影响观众的观看效果;因此,如果能根据其他语种的人工配音对视频中相应的表演者的唇形进行合成匹配,将有效解决上述方法中缺陷。
对视频中的唇形进行合成匹配其难点之一在于大部分视频中的场景复杂,发声人数不固定,同时存在背景噪音干扰语音识别模型的准确度;为保证视频中的音画同步,视频在人说话的断句处、场景转换及背景中人声与背景音的衔接处都需要进行分割,需要较高的视频分割精度才能满足后期进行视频翻译的要求,如何能够以较高的分割精度对视频进行前期的分割处理,从而更好地实现后期的视频翻译,是当前急需解决的技术问题。
发明内容
为至少解决现有技术中存在的技术问题之一,本发明的目的在于提供一种视频分割方法、系统、设备及存储介质。
根据本发明实施例的第一方面,一种视频分割方法,包括以下步骤:
获取第一视频,从所述第一视频中提取第一音频,并对所述第一音频进行去噪,得到第二音频;
利用卷积神经网络分析所述第二音频,得到第三音频和第一时间节点信息,根据所述第一时间节点信息对所述第一视频进行分割,得到第一视频片段;所述第一时间节点信息包括第一起始节点信息和第一终止节点信息;
对所述第三音频进行人声识别,得到第二时间节点信息,根据所述第二时间节点信息对所述第一视频片段进行分割,得到第二视频片段;所述第二时间节点信息包括第二起始节点信息和第二终止节点信息;
对所述第二视频片段进行人脸检测,得到含人脸视频片段和无人脸视频片段;
对所述含人脸视频片段进行唇形同步检测,得到唇形同步视频片段和唇形未同步视频片段;
对所述唇形同步视频片段进行语音增强,得到语音增强视频片段,对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别,得到语音识别结果。
进一步,所述利用卷积神经网络分析所述第二音频,得到第三音频和第一时间节点这一步骤,包括:
获取所述第二音频,并对所述第二音频进行分帧,得到分帧结果;
利用所述卷积神经网络对所述分帧结果进行粗粒度语音检测,提取语音特征;
对所述语音特征进行分类筛选,得到所述第三音频;
根据所述第三音频在所述第一视频中的所处位置,生成所述第一时间节点信息。
进一步,所述对所述第三音频进行人声识别,得到第二时间节点信息这一步骤,包括:
获取所述第三音频;
对所述第三音频进行语音跟踪和聚类分析,区分不同人声所处的音频片段;
根据所述音频片段在所述第一视频中的所处位置,生成所述第二时间节点信息。
进一步,所述对所述第二视频片段进行人脸检测,得到含人脸视频片段和无人脸视频片段这一步骤,包括:
获取所述第二视频片段;
对所述第二视频片段进行人脸检测,得到所述人脸检测结果;
根据所述人脸检测结果将所述第二视频片段分割为所述含人脸视频片段和所述无人脸视频片段。
进一步,所述对所述含人脸视频片段进行唇形同步检测,得到唇形同步视频片段和唇形未同步视频片段这一步骤,包括:
获取所述含人脸视频片段;
对所述含人脸视频片段进行唇形同步检测,得到唇形同步检测结果;
根据所述唇形同步检测结果将所述含人脸视频片段分割为所述唇形同步视频片段和所述唇形未同步视频片段。
进一步,所述对所述唇形同步视频片段进行语音增强,得到语音增强视频片段这一步骤,包括:
获取所述唇形同步视频片段;
利用音视频模态学习和视觉唇形信息对所述唇形同步视频片段进行语音增强,得到所述语音增强视频片段。
进一步,所述对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别,得到语音识别结果这一步骤,包括:
获取所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段;
对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行句子级别的停顿切分,得到切分结果;
根据所述切分结果进行逐句语音识别,得到所述语音识别结果。
根据本发明实施例的第二方面,一种视频分割系统,包括以下模块:
预处理模块,用于获取第一视频,从所述第一视频中提取第一音频,并对所述第一音频进行去噪,得到第二音频;
第一分割模块,用于利用卷积神经网络分析所述第二音频,得到第三音频和第一时间节点信息,根据所述第一时间节点信息对所述第一视频进行分割,得到第一视频片段;所述第一时间节点信息包括第一起始节点信息和第一终止节点信息;
第二分割模块,用于对所述第三音频进行人声识别,得到第二时间节点信息,根据所述第二时间节点信息对所述第一视频片段进行分割,得到第二视频片段;所述第二时间节点信息包括第二起始节点信息和第二终止节点信息;
人脸检测模块,用于对所述第二视频片段进行人脸检测,得到含人脸视频片段和无人脸视频片段;
唇形同步检测模块,用于对所述含人脸视频片段进行唇形同步检测,得到唇形同步视频片段和唇形未同步视频片段;
语音识别模块,用于对所述唇形同步视频片段进行语音增强,得到语音增强视频片段,对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别,得到语音识别结果。
根据本发明实施例的第三方面,一种视频分割设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一方面所述的方法。
根据本发明实施例的第四方面,一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于实现第一方面所述的方法。
本发明的有益效果是:本发明通过对视频采用诸如去噪、神经网络分析、人声识别、人脸检测、唇形同步检测、语音增强结果等分析处理手段,能够自动化实现对视频的高精度切割,为后期视频翻译运行的流畅度提供了有效保障。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例提供的方法流程图;
图2是本发明实施例提供的执行步骤图;
图3是本发明实施例提供的模块连接图;
图4是本发明实施例提供的设备连接图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供了一种视频分割方法,该方法可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软体。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。参照图1,该方法包括以下步骤S100~S700:
S100、获取第一视频,从第一视频中提取第一音频,并对第一音频进行去噪,得到第二音频。
S200、利用卷积神经网络分析第二音频,得到第三音频和第一时间节点信息,根据第一时间节点信息对第一视频进行分割,得到第一视频片段;第一时间节点信息包括第一起始节点信息和第一终止节点信息。
可选地,步骤S200可以通过以下子步骤实现:
S201、获取第二音频,并对第二音频进行分帧,得到分帧结果;
S202、利用卷积神经网络对分帧结果进行粗粒度语音检测,提取语音特征;
S203、对语音特征进行分类筛选,得到第三音频;
S204、根据第三音频在第一视频中的所处位置,生成第一时间节点信息。
S300、对第三音频进行人声识别,得到第二时间节点信息,根据第二时间节点信息对第一视频片段进行分割,得到第二视频片段;第二时间节点信息包括第二起始节点信息和第二终止节点信息。
可选地,步骤S300可以通过以下子步骤实现:
S301、获取第三音频;
S302、对第三音频进行语音跟踪和聚类分析,区分不同人声所处的音频片段;
S303、根据音频片段在第一视频中的所处位置,生成第二时间节点信息;
S400、对第二视频片段进行人脸检测,得到含人脸视频片段和无人脸视频片段。
可选地,步骤S400可以通过以下子步骤实现:
S401、获取第二视频片段;
S402、对第二视频片段进行人脸检测,得到人脸检测结果;
S403、根据人脸检测结果将第二视频片段分割为含人脸视频片段和无人脸视频片段。
S500、对含人脸视频片段进行唇形同步检测,得到唇形同步视频片段和唇形未同步视频片段。
可选地,步骤S500可以通过以下子步骤实现:
S501、获取含人脸视频片段;
S502、对含人脸视频片段进行唇形同步检测,得到唇形同步检测结果;
S503、根据唇形同步检测结果将含人脸视频片段分割为唇形同步视频片段和唇形未同步视频片段。
S600、对唇形同步视频片段进行语音增强,得到语音增强视频片段,对语音增强视频片段、唇形未同步视频片段和无人脸视频片段进行语音识别,得到语音识别结果。
可选地,步骤S600可以通过以下子步骤实现:
S601、获取唇形同步视频片段;
S602、利用音视频模态学习和视觉唇形信息对唇形同步视频片段进行语音增强,得到语音增强视频片段。
可选地,步骤S600还可以通过以下子步骤实现:
S611、获取语音增强视频片段、唇形未同步视频片段和无人脸视频片段;
S612、对语音增强视频片段、唇形未同步视频片段和无人脸视频片段进行句子级别的停顿切分,得到切分结果;
S613、根据切分结果进行逐句语音识别,得到语音识别结果。
本发明通过对视频采用诸如去噪、神经网络分析、人声识别、人脸检测、唇形同步检测、语音增强结果等分析处理手段,能够自动化实现对视频的高精度切割,为后期视频翻译运行的流畅度提供了有效保障。
参照图2所示为根据本发明实施例提供的执行步骤图,开始;获取第一视频,即原始视频资源;从第一视频中提取第一音频,然后对第一音频进行去噪或语音增强处理,抑制原视频中的噪声或背景音乐,得到相对纯净的人声音频资源,即第二音频;对第二音频进行分帧滑窗处理,利用卷积神经网络对分帧后的结果进行粗粒度语音活动检测,得到人声语音的起始时间点T1和结束时间点T2,T1和T2即第一时间节点信息中的第一起始节点信息和第一终止节点信息,需要说明的是,同一段视频中可能存在多段人声语音,得到第三音频;通过第一时间节点对第一视频进行分割,得到第一视频片段;对第三音频进行语音跟踪和聚类分析,得到不同个体或不同说话人的人声音频片段,同时得到相应的第二时间节点信息;通过第二时间节点信息对第一视频片段进行视频分割,得到第二视频片段;对第二视频片段进行人脸检测,将第二视频片段中存在人脸画面和不存在人脸画面的片段分开,对无人脸视频片段不作处理,对含人脸视频片段进行唇形同步检测;满足同步阈值的即视为唇形同步视频片段,不满足的则视为唇形未同步视频片段,将两者分开,唇形未同步视频片段不作处理;对于唇形同步视频片段进行语音增强,得到语音增强视频片段;对无人脸视频片段、唇形未同步视频片段和语音增强视频片段进行细粒度语音活动检测,以句子级别为执行标准,进行语音片段断句处理;最终进行语音识别,并按上述切分使用的时间点将所有视频片段重新合并形成待翻译的视频,即第二视频;本发明将第一视频中仅需合成语音和需要唇形合并的片段进行鉴别和划分,在对第二视频进行翻译时减少了后期工作量,保证了视频翻译的质量。
在部分优选实施例中,我们针对第三音频使用的需语音跟踪和聚类分析方法主要采用基于RNN的监督方法,该监督方法不限制说话人的数目,基于d-vector特征,为每个说话人建立了对应的循环神经网络模型,并且持续更新状态。首先对语音片段进行分帧处理,帧之间具有重合,采用一个无界交叉状态的循环神经网络进行建模,每个说话人之间共享参数。可以生成无界数量的说话人实例,将不同的说话人在时域中交叉。通过贝叶斯非参数模型自动估计说话人的数量,并通过循环神经网络的携带的时间信息,对说话人进行聚类。
具体执行方法如下:
给定一段语音,使用嵌入提取模块得到语音的序列的嵌入表示:X=(x1,x2,...,xT),其中t∈(1,2,...,T)。每个xt都是对应于原始语音中某个分割片段的d-vector向量。并且在模型训练时候,对于每个分割片段都有对应的说话人分割的真实标签,Y=(y1,y2,...,yT)。每个yt都是对应于xt的真实说话者的ID,这里的ID用说话人出现顺序表示,比如第一个出现的说话人为1,第二个出现的说话人为2等等。如Y=(1,1,2,3,2)表示该语音具有五个片段,其中具有三个不同说话人。相同的数字表示该片段属于该说话人。
该模型属于一个序列的生成模型,定义一个顺序集合(1,2,…,t)为[t]。
为了建模说话者的改变,上述公式可以表示为:
其中,Z=(z2,z3,...,zT),zt∈(0,1),0表示说话者没有改变,1表示说话者改变。如Y=(1,1,2,3,2),则Z=(0,1,1,1)。因此Y决定了Z的值。对上述公式进行展开得到:
其中,p(xt|x[t-1],y[t])代表建模序列生成,p(yt|zt,y[t-1])代表建模说话者分配,p(zt|z[t-1])代表建模说话者改变。并且让y1=1不建模说话人分配和说话人变更。
使用贝叶斯非参数估计隐式地建模未知数目的说话者。当zt=0表示说话者没有改变,zt=1表示说话者改变。让
p(yt=K|zt=1,y[t-1])∝Nk,t-1,
p(yt=Kt-1+1|zt=1,y[t-1])∝α,
比如:Y5=(1,1,2,3,2),可以分成四块,(1,1)|(2)|(3)|(2),N1,4=1,N2,4=2,N3,4=1。Nk,t-1表示将序列真实值标记分为t-1块,k表示第几个说话者,Nk,t-1的值表示该说话者所占的块数。切换为之前说话者的概率与该说话者说过的连续语音块的数目成正比,切换到新的说话者的概率与常数α成正比。Y和Z的联合概率分布为:
为了生成序列Y,使用GRU循环神经网络对序列进行建模,GRU的隐藏状态ht与说话者yt有关。并且:mt=f(ht|θ),作为GRU网络的输出。假设当前状态Y5=(1,1,2,3,2),下一个状态y7有四种可能:说话者1,2,3或新的说话者4。新的状态y7取决于之前分配的标签序列y[6]和之前的观测序列x[6]。隐藏状态ht为:ht=GRU(xt′,ht′|θ)。其中t′=max{0,s<t:ys=yt},表示为将当前的时间步t看作t时刻之前的说话者ys的时刻的最大时间步。最后,使用在线解码的方法按照时间顺序进行贪婪搜索,来降低在整个标记空间上进行搜索的时间复杂度,并且使用常数C限制每个语音中的最大说话人数,具体的采用集束搜索,即Beam Search方法进行解码,通过该算法,我们可以从一段语音中分割出说话人的时间节点。
在部分优选实施例中,我们针对含人脸片段进行唇形同步检测主要采用SyncNet(唇形同步检测器)神经网络,将人脸检测中获取的唇形和当前的语音进行特征提取,相似度比较从而判断当前语音是不是当前人脸在说,由此在视频合成时候,只需要对同步的视频片段进行语言匹配的唇形转换,其他仅需合成语音即可;具体来说,对于给定的语音进行短时傅里叶变换得到语音的频谱图,将0.2秒的语音和其对应的视频中的唇部图像输入分别输入到两个独立的编码器中分别编码为256维度的向量,编码器为CNN架构旨在进行特征降维和压缩,从而分别提取出语音和唇部特征,然后计算两个256维度向量的相似度。模型训练的目标是音频和视频编码器的输出对于真实的距离更近,不匹配的距离更远。通过该网络可以获得与视频中语音想匹配的人脸,从而在后面的唇形合成中进行替换。并且识别的结果可以用来验证说话者分割的结果是否准确。
在部分优选实施例中,我们针对唇形同步视频片段采用音视频多模态学习的方法,利用视觉唇形信息增强语音信息。具体的是采用了编码器-解码器的神经网络架构,输入为人的唇部图像序列和带噪音的语音频谱图,输出为增强后的语音频谱图。输入的唇部图像序列采用一个多层反卷积神经网络将其压缩成一个向量,频谱图同样使用卷积神经网络执行相似操作得到压缩的向量。将这两个向量进行注意力加权融合,然后对这个向量进行反卷积重建得到去噪后的增强语音频谱图。
在部分优选实施例中,我们进行了句子级别的停顿切分后,可以得到如下展示结果:
Speaker 1Time:00:00:00,000-->00:00:02,640,
hi,Dan,what are u doing?
Speaker 2Time:00:00:02,640-->00:00:07,910,
I am playing war craft。
Speaker 1Time:00:00:07,910-->00:00:11,390,
Where is Tommy?
参照图3所示为根据本发明实施例提供的模块连接图,包括以下模块:
预处理模块301,用于获取第一视频,从第一视频中提取第一音频,并对第一音频进行去噪,得到第二音频;
第一分割模块302,与预处理模块301连接实现交互,用于利用卷积神经网络分析第二音频,得到第三音频和第一时间节点信息,根据第一时间节点信息对第一视频进行分割,得到第一视频片段;第一时间节点信息包括第一起始节点信息和第一终止节点信息;
第二分割模块303,与第一分割模块302连接实现交互,用于对第三音频进行人声识别,得到第二时间节点信息,根据第二时间节点信息对第一视频片段进行分割,得到第二视频片段;第二时间节点信息包括第二起始节点信息和第二终止节点信息;
人脸检测模块304,与第二分割模块303连接实现交互,用于对第二视频片段进行人脸检测,得到含人脸视频片段和无人脸视频片段;
唇形同步检测模块305,与人脸检测模块304连接实现交互,用于对含人脸视频片段进行唇形同步检测,得到唇形同步视频片段和唇形未同步视频片段;
语音识别模块306,分别与人脸检测模块304、唇形同步检测模块305连接实现交互,用于对唇形同步视频片段进行语音增强,得到语音增强视频片段,对语音增强视频片段、唇形未同步视频片段和无人脸视频片段进行语音识别,得到语音识别结果;
参照图4,本发明还提供了一种设备,包括:
至少一个处理器401;
至少一个存储器402,用于存储至少一个程序;
当至少一个程序被至少一个处理器401执行,使得至少一个处理器401实现如图1所示的方法。
图1所示的方法实施例中的内容均适用于本设备实施例中,本设备实施例所具体实现的功能与图1所示的方法实施例相同,并且达到的有益效果与图1所示的方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
图1所示的方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与图1所示的方法实施例相同,并且达到的有益效果与图1所示的方法实施例所达到的有益效果也相同。
可以理解的是,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种视频分割方法,其特征在于,包括以下步骤:
获取第一视频,从所述第一视频中提取第一音频,并对所述第一音频进行去噪,得到第二音频;
利用卷积神经网络分析所述第二音频,得到第三音频和第一时间节点信息,根据所述第一时间节点信息对所述第一视频进行分割,得到第一视频片段;所述第一时间节点信息包括第一起始节点信息和第一终止节点信息;
对所述第三音频进行人声识别,得到第二时间节点信息,根据所述第二时间节点信息对所述第一视频片段进行分割,得到第二视频片段;所述第二时间节点信息包括第二起始节点信息和第二终止节点信息;
对所述第二视频片段进行人脸检测,得到含人脸视频片段和无人脸视频片段;
对所述含人脸视频片段进行唇形同步检测,得到唇形同步视频片段和唇形未同步视频片段;
对所述唇形同步视频片段进行语音增强,得到语音增强视频片段,对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别,得到语音识别结果;
所述利用卷积神经网络分析所述第二音频,得到第三音频和第一时间节点这一步骤,包括:
获取所述第二音频,并对所述第二音频进行分帧,得到分帧结果;
利用所述卷积神经网络对所述分帧结果进行粗粒度语音检测,提取语音特征;
对所述语音特征进行分类筛选,得到所述第三音频;
根据所述第三音频在所述第一视频中的所处位置,生成所述第一时间节点信息;
所述对所述第三音频进行人声识别,得到第二时间节点信息这一步骤,包括:
获取所述第三音频;
对所述第三音频进行语音跟踪和聚类分析,区分不同人声所处的音频片段;
根据所述音频片段在所述第一视频中的所处位置,生成所述第二时间节点信息。
2.根据权利要求1所述的视频分割方法,其特征在于,所述对所述第二视频片段进行人脸检测,得到含人脸视频片段和无人脸视频片段这一步骤,包括:
获取所述第二视频片段;
对所述第二视频片段进行人脸检测,得到人脸检测结果;
根据所述人脸检测结果将所述第二视频片段分割为所述含人脸视频片段和所述无人脸视频片段。
3.根据权利要求1所述的视频分割方法,其特征在于,所述对所述含人脸视频片段进行唇形同步检测,得到唇形同步视频片段和唇形未同步视频片段这一步骤,包括:
获取所述含人脸视频片段;
对所述含人脸视频片段进行唇形同步检测,得到唇形同步检测结果;
根据所述唇形同步检测结果将所述含人脸视频片段分割为所述唇形同步视频片段和所述唇形未同步视频片段。
4.根据权利要求1所述的视频分割方法,其特征在于,所述对所述唇形同步视频片段进行语音增强,得到语音增强视频片段这一步骤,包括:
获取所述唇形同步视频片段;
利用音视频模态学习和视觉唇形信息对所述唇形同步视频片段进行语音增强,得到所述语音增强视频片段。
5.根据权利要求1所述的视频分割方法,其特征在于,所述对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别,得到语音识别结果这一步骤,包括:
获取所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段;
对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行句子级别的停顿切分,得到切分结果;
根据所述切分结果进行逐句语音识别,得到所述语音识别结果。
6.一种视频分割系统,其特征在于,包括以下模块:
预处理模块,用于获取第一视频,从所述第一视频中提取第一音频,并对所述第一音频进行去噪,得到第二音频;
第一分割模块,用于利用卷积神经网络分析所述第二音频,得到第三音频和第一时间节点信息,根据所述第一时间节点信息对所述第一视频进行分割,得到第一视频片段;所述第一时间节点信息包括第一起始节点信息和第一终止节点信息;
第二分割模块,用于对所述第三音频进行人声识别,得到第二时间节点信息,根据所述第二时间节点信息对所述第一视频片段进行分割,得到第二视频片段;所述第二时间节点信息包括第二起始节点信息和第二终止节点信息;
人脸检测模块,用于对所述第二视频片段进行人脸检测,得到含人脸视频片段和无人脸视频片段;
唇形同步检测模块,用于对所述含人脸视频片段进行唇形同步检测,得到唇形同步视频片段和唇形未同步视频片段;
语音识别模块,用于对所述唇形同步视频片段进行语音增强,得到语音增强视频片段,对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别,得到语音识别结果;
所述利用卷积神经网络分析所述第二音频,得到第三音频和第一时间节点这一步骤,包括:
获取所述第二音频,并对所述第二音频进行分帧,得到分帧结果;
利用所述卷积神经网络对所述分帧结果进行粗粒度语音检测,提取语音特征;
对所述语音特征进行分类筛选,得到所述第三音频;
根据所述第三音频在所述第一视频中的所处位置,生成所述第一时间节点信息;
所述对所述第三音频进行人声识别,得到第二时间节点信息这一步骤,包括:
获取所述第三音频;
对所述第三音频进行语音跟踪和聚类分析,区分不同人声所处的音频片段;
根据所述音频片段在所述第一视频中的所处位置,生成所述第二时间节点信息。
7.一种视频分割设备,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374280.4A CN112565885B (zh) | 2020-11-30 | 2020-11-30 | 一种视频分割方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374280.4A CN112565885B (zh) | 2020-11-30 | 2020-11-30 | 一种视频分割方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112565885A CN112565885A (zh) | 2021-03-26 |
CN112565885B true CN112565885B (zh) | 2023-01-06 |
Family
ID=75045385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011374280.4A Active CN112565885B (zh) | 2020-11-30 | 2020-11-30 | 一种视频分割方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112565885B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362832A (zh) * | 2021-05-31 | 2021-09-07 | 多益网络有限公司 | 一种用于音视频人物的命名方法及相关装置 |
CN114299944B (zh) * | 2021-12-08 | 2023-03-24 | 天翼爱音乐文化科技有限公司 | 视频处理方法、系统、装置及存储介质 |
CN114299953B (zh) * | 2021-12-29 | 2022-08-23 | 湖北微模式科技发展有限公司 | 一种结合嘴部运动分析的话者角色区分方法与系统 |
CN114282621B (zh) * | 2021-12-29 | 2022-08-23 | 湖北微模式科技发展有限公司 | 一种多模态融合的话者角色区分方法与系统 |
CN116781856A (zh) * | 2023-07-12 | 2023-09-19 | 深圳市艾姆诗电商股份有限公司 | 基于深度学习的视听转换控制方法、系统及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1949879A (zh) * | 2005-10-11 | 2007-04-18 | 华为技术有限公司 | 分组网络中多媒体实时传输的唇同步方法及其装置 |
US9548048B1 (en) * | 2015-06-19 | 2017-01-17 | Amazon Technologies, Inc. | On-the-fly speech learning and computer model generation using audio-visual synchronization |
CN107333071A (zh) * | 2017-06-30 | 2017-11-07 | 北京金山安全软件有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN107945789A (zh) * | 2017-12-28 | 2018-04-20 | 努比亚技术有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN109005451A (zh) * | 2018-06-29 | 2018-12-14 | 杭州星犀科技有限公司 | 基于深度学习的视频拆条方法 |
CN109389085A (zh) * | 2018-10-09 | 2019-02-26 | 清华大学 | 基于参数化曲线的唇语识别模型训练方法及装置 |
CN111556254A (zh) * | 2020-04-10 | 2020-08-18 | 早安科技(广州)有限公司 | 利用视频内容进行视频切割的方法、系统、介质及智能设备 |
CN111641790A (zh) * | 2020-05-29 | 2020-09-08 | 三维六度(北京)文化有限公司 | 影视制发方法、装置和系统 |
-
2020
- 2020-11-30 CN CN202011374280.4A patent/CN112565885B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1949879A (zh) * | 2005-10-11 | 2007-04-18 | 华为技术有限公司 | 分组网络中多媒体实时传输的唇同步方法及其装置 |
US9548048B1 (en) * | 2015-06-19 | 2017-01-17 | Amazon Technologies, Inc. | On-the-fly speech learning and computer model generation using audio-visual synchronization |
CN107333071A (zh) * | 2017-06-30 | 2017-11-07 | 北京金山安全软件有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN107945789A (zh) * | 2017-12-28 | 2018-04-20 | 努比亚技术有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN109005451A (zh) * | 2018-06-29 | 2018-12-14 | 杭州星犀科技有限公司 | 基于深度学习的视频拆条方法 |
CN109389085A (zh) * | 2018-10-09 | 2019-02-26 | 清华大学 | 基于参数化曲线的唇语识别模型训练方法及装置 |
CN111556254A (zh) * | 2020-04-10 | 2020-08-18 | 早安科技(广州)有限公司 | 利用视频内容进行视频切割的方法、系统、介质及智能设备 |
CN111641790A (zh) * | 2020-05-29 | 2020-09-08 | 三维六度(北京)文化有限公司 | 影视制发方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112565885A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112565885B (zh) | 一种视频分割方法、系统、设备及存储介质 | |
CN112562721B (zh) | 一种视频翻译方法、系统、装置及存储介质 | |
US10621991B2 (en) | Joint neural network for speaker recognition | |
Chung et al. | Learning to lip read words by watching videos | |
CN108307229B (zh) | 一种影音数据的处理方法及设备 | |
US7636662B2 (en) | System and method for audio-visual content synthesis | |
CN112823380A (zh) | 将数字视频中的口形和动作与替代音频匹配 | |
CN112866586B (zh) | 一种视频合成方法、装置、设备及存储介质 | |
US11057457B2 (en) | Television key phrase detection | |
US20220215830A1 (en) | System and method for lip-syncing a face to target speech using a machine learning model | |
Halperin et al. | Dynamic temporal alignment of speech to lips | |
WO2023197979A1 (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
US20210390945A1 (en) | Text-driven video synthesis with phonetic dictionary | |
Ivanko et al. | Multimodal speech recognition: increasing accuracy using high speed video data | |
Tapu et al. | DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people | |
Feng et al. | Self-supervised video forensics by audio-visual anomaly detection | |
CN114022668B (zh) | 一种文本对齐语音的方法、装置、设备及介质 | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
Schwiebert et al. | A multimodal German dataset for automatic lip reading systems and transfer learning | |
JP2018005011A (ja) | プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム | |
US9576587B2 (en) | Example-based cross-modal denoising | |
US20230326369A1 (en) | Method and apparatus for generating sign language video, computer device, and storage medium | |
Mocanu et al. | Active speaker recognition using cross attention audio-video fusion | |
Jha et al. | Cross-language speech dependent lip-synchronization | |
CN113312928A (zh) | 文本翻译方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |