CN115150660A - 一种基于字幕的视频编辑方法和相关设备 - Google Patents

一种基于字幕的视频编辑方法和相关设备 Download PDF

Info

Publication number
CN115150660A
CN115150660A CN202210651820.1A CN202210651820A CN115150660A CN 115150660 A CN115150660 A CN 115150660A CN 202210651820 A CN202210651820 A CN 202210651820A CN 115150660 A CN115150660 A CN 115150660A
Authority
CN
China
Prior art keywords
video
reserved
subtitle
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210651820.1A
Other languages
English (en)
Other versions
CN115150660B (zh
Inventor
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Big Head Brothers Technology Co Ltd
Original Assignee
Shenzhen Big Head Brothers Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Big Head Brothers Technology Co Ltd filed Critical Shenzhen Big Head Brothers Technology Co Ltd
Priority to CN202210651820.1A priority Critical patent/CN115150660B/zh
Publication of CN115150660A publication Critical patent/CN115150660A/zh
Application granted granted Critical
Publication of CN115150660B publication Critical patent/CN115150660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)

Abstract

本发明公开了一种基于字幕的视频编辑方法和相关设备,方法包括:获取待处理的视频文件;基于视频文件的字幕信息,对视频文件进行分割,得到若干个切片视频;根据切片时间节点预设的初筛规则,对切片视频进行无效视频的筛选,确定切片视频中的第一保留视频;对字幕文本进行拆字处理,得到字段集合;针对每一个字幕文本,根据字段合计中每一个字段文本出现的频次,确定第一保留视频中的第二保留视频;根据第二保留视频对应的时间戳,对第二保留视频进行拼接,得到目标视频。本发明能够实现视频的快速剪辑,提高视频的编辑效率。

Description

一种基于字幕的视频编辑方法和相关设备
技术领域
本发明涉及视频处理技术领域,特别涉及一种基于字幕的视频编辑方法和相关设备。
背景技术
随着网络的发展,拍摄视频并上传发布的门槛越来越低,越来越多的用户参与其中。在视频拍摄过程中,拍摄对象常常会存在无声片段、重复片段和无效片段。拍摄完成后,为了将这些片段删除,用户需要对拍摄的视频进行编辑处理,例如将无声片段删除、然后将删除后的前一段视频和后一段视频拼接组合,形成所需要的片段。但是在此过程中,除了确定所要剪辑的片段,用户需要反复观看视频外,为了精确剪切的起点和终点,也需要反反复复多次观看,极大地降低了视频剪辑的效力,对用户而言也费时费力。
发明内容
本发明要解决的技术问题在于目前视频剪辑效率较低,针对现有技术的不足,提供一种基于字幕的视频编辑方法和相关设备。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种基于字幕的视频编辑方法,所述方法包括:
获取待处理的视频文件;
基于所述视频文件的字幕信息,对所述视频文件进行分割,得到若干个切片视频,其中,所述字幕信息包括字幕文本和所述字幕文本对应的切片时间节点;
根据所述切片时间节点预设的初筛规则,对所述切片视频进行无效视频的筛选,确定所述切片视频中的第一保留视频;
对所述字幕文本进行拆字处理,得到字段集合,其中,所述字段集合包括若干个字段文本;
针对每一个所述字幕文本,根据所述字段合计中每一个所述字段文本出现的频次,确定所述第一保留视频中的第二保留视频;
根据所述第二保留视频对应的时间戳,对所述第二保留视频进行拼接,得到目标视频。
所述基于字幕的视频编辑方法,其中,所述基于所述视频文件的字幕信息,对所述视频文件进行分割,得到若干个切片视频包括:
对所述视频文件进行语音识别,得到字幕信息;
根据所述切片时间节点,对所述视频文件进行分割,得到若干个切片视频。
所述基于字幕的视频编辑方法,其中,所述对所述视频文件进行语音识别,得到字幕信息包括:
对所述视频文件进行音频提取,得到所述视频文件中的音频信息;
对所述音频信息进行人声提取,得到所述音频信息中的语音信息;
对所述语音信息进行语音识别,得到所述语音信息对应的字幕信息。
所述基于字幕的视频编辑方法,其中,所述对所述语音信息进行语音识别,得到所述语音信息对应的字幕信息包括:
对所述语音信息进行语音识别,得到识别信息,其中,所识别信息包括语音文本和所述语音文本对应的语音节点;
根据预设的无效字段规则,删除所述语音文本中的无效字段,得到字幕文本;
根据所述字幕文本,对所述语音节点进行调整,得到切片时间节点。
所述基于字幕的视频编辑方法,其中,所述根据所述切片时间节点预设的初筛规则,对所述切片视频进行无效视频的筛选,确定所述切片视频中的第一保留视频包括:
针对每一个所述切片视频,当该切片视频对应的字幕文本为空时,确定该切片视频为第一候选视频;
当该切片视频的对应的字幕文本为非空或所述第一候选视频的时间长度小于预设的停顿阈值时,确定该切片视频为第一保留视频。
所述基于字幕的视频编辑方法,其中,所述针对每一个所述字幕文本,根据所述字段合计中每一个所述字段文本出现的频次,确定所述第一保留视频中的第二保留视频包括:
针对每一个所述字幕文本,计算所述字段集合中的每一个字在该字幕文本中的出现次数,得到与该字幕文本对应的字段向量;
将该字段向量以外的字段向量作为比较向量,并计算该字段向量与每一个所述比较向量之间的相似度值;
根据所述相似度值,确定所述第一保留视频中的第二保留视频。
所述基于字幕的视频编辑方法,其中,所述根据所述第二保留视频对应的时间戳,对所述第二保留视频进行拼接,得到目标视频,包括:
根据所述第二保留视频对应的时间戳,计算所述第二保留视频的播放时长;
根据预设的无效时间阈值和所述播放时长,确定所述第二保留视频中的第二候选视频;
根据所述第二候选视频的音频波形,对所述第二候选视频进行筛选,得到第三保留视频;
根据每一个所述第三保留视频对应的时间戳,对所述第三保留视频进行拼接,得到目标视频。
所述基于字幕的视频编辑方法,其中,所述根据所述第二候选视频的音频波形,对所述第二候选视频进行筛选,得到第三保留视频包括:
针对每一个所述第二候选视频,对该第二候选视频进行波形提取,得到该第二候选视频对应的音频波形;
根据所述音频波形中的每一个波的波形高度和波的数量,计算所述音频波形对应的波形平均高度值;
根据预设的波形高度阈值和所述波形平均高度值,确定所述第二候选视频中的第三保留视频。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的基于字幕的视频编辑方法中的步骤。
一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的基于字幕的视频编辑方法中的步骤。
有益效果:本发明提供一种基于字幕的视频编辑方法,首先提取视频文件的字幕,然后基于字幕,将视频文件进行切片拆分,得到若干个切片视频。由于切片视频是根据字幕的有无进行划分的,因此不存在字幕的视频可视为无效视频,将存在字幕的视频作为第一保留视频。然后通过字幕中字段文本出现的频次,再对第一保留视频进行筛选,将存在较多内容重复的第一保留视频删除,留下第二保留视频。最后将第二保留视频进行拼接,即可得到目标视频。通过无效视频的排除、内容重复的视频删除和拼接,即可快速实现视频的剪辑,节省时间和精力。
附图说明
图1为本发明提供的基于字幕的视频编辑方法的流程图。
图2为本发明提供的基于字幕的视频编辑方法的切片视频的示意图。
图3为本发明提供的基于字幕的视频编辑方法的整体流程图。
图4为本发明提供的基于字幕的视频编辑方法的切片视频合并后的示意图。
图5为本发明提供的终端设备的结构原理图。
具体实施方式
本发明提供一种基于字幕的视频编辑方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,本实施提供了一种基于字幕的视频编辑方法,为方便说明,以常见的服务器作为执行主体进行描述,此处的服务器可替换为平板、电脑等具有数据处理功能的设备,基于字幕的视频编辑方法包括以下步骤:
S10、获取待处理的视频文件。
具体地,用户将需要进行剪辑处理的视频作为待处理的视频文件上传至视频剪辑程序中。
在本实施例中,视频文件是指视频格式的文件,包括且不限于MP4、WMV、MKV。视频文件包含按照一定顺序排列的若干个图像帧和音频信息。
S20、基于所述视频文件的字幕信息,对所述切片视频进行分割,得到若干个切片视频。
具体地,字幕信息是指针对视频文件中的语音信息的文字信息。当某一段时间范围内存在对应的字幕信息,则说明这段时间范围内拍摄对象正在说话,因此这段时间对应的视频应当得到保留。
若该视频文件本身就具备字幕,则可通过文字定位和文字识别的功能,提取视频文件中的字幕信息。为了方便字幕的内容在视频中对应的时间显示出来,字幕信息除了视频文件中显示的字幕文本外,还包括字幕文本对应的切片时间节点。切片时间节点就是用于后续对视频文件进行切片的时间节点。
例如字幕信息为“00:00:59,450-->00:01:01,580少来了,你和那个人一起出去!”,其中,“00:00:59,450”为切片时间节点中的起始节点,“00:01:01,580”为切片时间节点中的终止节点,而“少来了,你和那个人一起出去!”为字幕文本。
根据切片时间节点中的起始节点和终止节点,如图2所示,可对视频文件进行时刻标记,然后根据标记的时刻,对视频文件进行分割,得到若干个切片视频。图2中黑色倒三角是标记的切片时间节点,第一排为字幕文本,第二排为根据切片时间节点计算的时间长度,第三排为该切片时间节点对应的图像帧。
若该视频文件本身不具备字幕,则需要对视频文件进行语音识别,才可得到与该视频文件的字幕信息。然后根据字幕信息的切片时间节点,对视频文件进行分割,得到若干个切片视频。
在进行语音识别过程中,若视频文件本身包含背景音乐和拍摄对象的语音,背景音乐会产生一定的干扰,因此,在进行语音识别过程中,可采用人声分离的方式,如图3所示,其具体包括:
A10、对所述视频文件进行音频提取,得到所述视频文件中的音频信息。
具体地,首先对视频文件进行音频提取,将视频文件的音频信息和帧图像进行分离,可采用的方式包括将音轨和帧图像先取消联系,然后再对音轨进行信息提取,得到音频信息。
A20、对所述音频信息进行人声提取,得到所述音频信息中的语音信息。
具体地,得到音频信息后,为了避免背景音的干扰,先进行人声提取,人声提取就是将音频信息中的人声部分和背景噪音、背景音乐等背景音进行分离开,从而得到包含较为干净的人声内容的语音信息,人声提取可采用降噪、音轨分离等方式。
A30、对所述语音信息进行语音识别,得到所述语音信息对应的字幕信息。
具体地,得到语音信息后,再采用预设的语音识别模型、语音识别算法等,对语音信息进行语音识别,从而得到该语音信息对应的字幕信息。语音识别可采用语音活动检测算法、神经网络模型等。
在语音转文字的过程中,若视频文件存在多个人发生对话,会常常发生对话交错的情况,若此时发生一方打断另一方的发言,会导致会话内容连接不上,语音转文字的准确度降低。因此,在本实施例中,采用以下方式以提升识别的准确度:
A31、对所述语音信息进行人声识别,得到若干个人声信息,其中,所述人声信息包括人物编号和每一个所述人物编号对应的第一语音数据。
具体地,首先对语音信息进行人声识别,以区分视频文件中是存在一个人还是多个人,人声识别可以基于声纹特征进行,不同的人的发声存在一定的区别,因此声纹能够作为一个人的身份标志。根据声纹的不同,可以将语音信息中来源于不同人的发声内容进行区分,一个人声信息中包括人物编号和人物编号对应的语音信息,相对于人声识别前的语音信息,此处的语音信息时间更短,因此为了区分,将其命名为第一语音数据。每识别出一个与之前不同的声纹特征,即生成一个人物编号,并将基于声纹特征,确定该人物编号对应的第一语音数据。
A32、针对每一个人物编号,对该人物编号对应的语音数据进行拼接,得到第二语音数据。
具体地,将对应同一个人物编号的语音数据进行拼接,得到仅对应一个声纹特征的第二语音数据。例如对话内容为对话人A:“我记得你的英文名叫约……”;对话人B;“什么”;对话人A:“翰”。
拼接后的第二语音数据为对话人A:“我记得你的名字叫约翰”,对话人B:“什么”。
A33、对所述第二语音数据进行语音识别,得到所述第二语音数据对应的识别文本和所述识别文本对应的识别节点。
具体地,对拼接的第二语音数据再进行语音识别,得到第二语音数据语音识别后的文本,将其称为识别文本。由于此过程可与一般的语音识别方法相同,故不再赘述。此时的识别节点中的时间是针对第二语音数据的时间节点。
A34、根据所述第一语音数据对应的时间戳和所述识别节点,对所述识别文本进行拆分,得到字幕文本,并基于所述字幕文本和和所述切片时间节点。
具体地,第一语音数据对应的时间戳是与视频文件对应,因此,根据第一数据对应的时间戳和识别节点上的时间信息,对翻译后的语音文本进行拆分,以将拼接识别的语音文本恢复为与视频文件对应的状态,此时拆分后的字幕文本和切片时间节点都是针对视频文本。
进一步地,在语音识别时,为了方便用户观看上面的文字和理解说话人的语气,常常会加上一些语气词和标点符号,例如“哇”、“呀、“哦”、“噢”、“喔”。在拆分过程中,将这些语气词也包含在拆分的范围内,则会占用一定的时间,而且拼接后的衔接上会存在一定的空白时间,缺乏连贯性。因此,在本实施例中,将语音识别后得到的文本作为语音文本,同时,将语音文本对应的时间节点作为语音节点。
预先设置一个无效字段规则,在无效字段规则中,包含有切片时不需要考虑的字幕内容,例如标点符号和语气词。采用无效字段规则,对语音文本进行过滤,以删除所述语音文本中的无效字段,例如标点符号、语气词,得到字幕文本。
然后根据字幕文本,对所述语音节点进行调整,将原先对应语气词等无效字段的时间段删除,从而得到调整后的切片时间节点。
然后根据调整后的切片时间节点,对视频文件进行分割,从而得到若干个切片视频。
S30、根据所述切片时间节点预设的初筛规则,对所述切片视频进行无效视频的筛选,确定所述切片视频中的第一保留视频。
具体地,切片视频中包含了对应字幕的切片视频,也包括不对应字幕的切片视频,而不存在对应字幕的切片视频,很大概率为用户不需要的视频片段。预先设定一个初筛规则,可对切片视频进行初步的无效视频的筛选。
在第一种筛选方式中,针对每一个切片视频,若该切片视频对应的第字幕文本为空时,确定该切片视频为无效视频,将无效视频以外的切片视频作为第一保留视频。
在第二种筛选方式中,在拍摄对象在进行说话的时候,语句和语句之间会存在短暂的暂时,而在剪辑后的视频中将暂停的部分取消,视频的节奏会过快,不符合常规的听者的思维。因此,在本实施例中,首先将对应字幕文本为空的切片视频作为第一候选视频;而当切片视频的对应的字幕文本为非空或所述第一候选视频的时间长度小于预设的停顿阈值时,确定该切片视频为第一保留视频。
S40、对所述字幕文本进行拆字处理,得到字段集合,其中,所述字段集合包括若干个字段文本。
具体地,确定第一保留视频后,将第一保留视频对应的字幕文本进行拆字处理,拆字处理即将长文本拆分为字、词组成的集合,得到第一保留视频对应的字段文本。
为了拆分后计算的有效性,可设定拆分规则,例如针对中文,以字为单位进行拆分或以词为单位进行拆分,针对英文,以单词为单位进行拆分,针对数字,以连续的数字为单位进行拆分。以字为单位进行拆分为例,“我喜欢13这个数字”,被拆分为[我][喜][欢][13][这][个][数][字]。将拆分后得到的所有字段文本进行汇总,即可得到包含所有的字段文本的字段集合。
例如,字幕A和字幕B分别是两个字幕文本。字幕A:“[在][我][们][10][号][red][的][链][接]”,字幕B:“[点][击][下][方][链][接]”。对字幕A和字幕B进行拆字后汇合,得到的字段合集为“[在][我][们][10][号][red][的][链][接][点][击][下][方]”。在字段集合中,重复的字段文本会合并。
S50、针对每一个所述字幕文本,根据所述字段合集中每一个所述字段文本出现的频次,确定所述第一保留视频中的第二保留视频。
具体地,仍以上述字幕A和字幕B为例,针对字幕A,字段集合“[在][我][们][10][号][red][的][链][接][点][击][下][方]”对应的频次分别为1,1,1,1,1,1,1,1,1,0,0,0,0;针对字幕B,字段集合对应的频次分别为0,0,0,0,0,0,0,1,1,1,1,1,1。
得到频次后,计算两个字幕文本之间的相似度。当相似度超过预设的相似度阈值时,则说明字幕A和字幕B两者相似,是内容重复的第一保留视频。因此选择字幕A对应的第一保留视频或字幕B对应的第二保留视频删除,另一个作为第二保留视频。持续这一判断过程,就可确定所有的第一保留视频中的第二保留视频。本实施例中,优选的相似度阈值为60%。
本实施例的一种实现方式中,计算字幕文本之间的相似度可采用计算频率之间的重合度的方式,例如针对字幕A和字幕B,两者重合的字段文本是[链][接],重合度为2/13,并将该重合度作为相似度。此方法的计算方式过于粗略,准确度交底。在本实施例的另一种实现方式中,首先,针对每一个所述字幕文本,计算所述字段集合中的每一个字在该字幕文本中的出现次数,得到与该字幕文本对应的字段向量。例如上述的字幕A,其对应的字段向量为(1,1,1,1,1,1,1,1,1,0,0,0,0),字幕B对应的字段向量为(0,0,0,0,0,0,0,1,1,1,1,1,1)。然后将该字段向量以外的字段向量作为比较向量,并计算该字段向量与每一个所述比较向量之间的相似度值。最后根据相似度值,在两个比较的第一保留视频中确定第二保留视频。计算相似度值的方式可采用欧几里得距离、余弦相似度等方式。以余弦相似度算法为例,计算相似度值的公式为
Figure BDA0003686408990000101
其中,A和B为字段向量和比较向量,n为向量长度,也就是字段集合中字段文本的数量,i是当前比较的字段文本的次序;Ai是指字段向量中的第i个值,例如字幕A中的A1为1,Bi是指比较向量中的第i个值。
在确定第一保留视频中的第二保留视频时,可以直接选择第一保留视频中的第二保留视频,也可以选择将在视频文件中时间最早的第一保留视频作为第二保留视频。还可以比较被比较的两个第一保留视频对应的时间距离,即时间在先的第一保留视频的结束时刻和时间在后的第二保留视频的起始时刻的时间长度。预先设定一个时间阈值,当被比较的两个第一保留视频的时间长度小于时间阈值,则基于上述方案,选择第一保留视频中的第二保留视频;当被比较的两个第一保留视频的时间长度大于时间阈值时,说明这两个重复内容距离较长时间,此时重复可以起到强化的作用,因此,将两个第一保留视频都作为第二保留视频。
S60、根据所述第二保留视频对应的时间戳,对所述第二保留视频进行拼接,得到目标视频。
具体地,如图4所示,确定了第二保留视频后,根据第二保留视频对应的时间戳,按照时间的先后顺序,将第二保留视频进行拼接,组成一个新的视频,即可得到目标视频。
但是在提取字幕文本的阶段,若采用了提取人声进行语音识别,则拍摄对象小声低语的内容也会被提取出来,例如意外录入的呼叫声或者噪音。之前在进行切片视频筛选时主要是基于字幕的有无进行的,而当拍摄环境中有噪音,可能会将噪音误以为是说话的内容进行识别。因此,为了避免这种无效信息的干扰,在本实施例中,可结合第二保留视频的播放时长和音频波形,对第二保留视频进行筛选,其过程包括:
B10、根据所述第二保留视频对应的时间戳,计算所述第二保留视频的播放时长。
具体地,首先根据第二保留视频对应的时间戳,将在后的时间戳的数值减去在先的时间戳的数值,得到时间差,将这一时间差作为第二保留视频的播放时长。
B20、根据预设的无效时间阈值和所述播放时长,确定所述第二保留视频中的第二候选视频。
具体地,预先设定一个无效时间阈值,该无效时间阈值可以是根据常见的意外录入的无效音频的时间长度计算得到,也可以是用户自定义设置。在本实施例中,选用的无效时间阈值为500毫秒。将播放时长和无效时间阈值进行比较,当播放时长大于或等于无效时间阈值时,将该第二保留视频作为第二候选视频;当播放时长小于无效时间阈值时,将该第二保留视频不作为第二候选视频。
B30、根据所述第二候选视频的音频波形,对所述第二候选视频进行筛选,得到第三保留视频。
具体地,在音频波形方面,与噪音相比,正常说话的声音会更为清晰,音量也更高,高低音明显,因此可提取第二候选视频的音频波形,并根据第二候选视频的音频波形,判断第二候选视频是否为无效视频,实现对第二候选视频的进一步筛选。
为了有效筛选,预先可设定一个筛选规则,明确根据第二候选视频的音频波形中的哪一项或哪一些信息作为筛选的指标。例如以音量为筛选指标,计算每一个第二候选视频对应的音频参数,该音频参数可包括平均音量、音量中位数等,然后将其于预设的标准音量进行比对,标准音量是预先设定的拍摄对象正常说话时的音量标准。若音频参数大于或等于标准音量时,则确定当前计算的第二候选视频为第三保留视频;若音频参数小于标准音量时,则确定第二后算视频非第三保留视频。
此外,还可采用波形高度作为音频参数,音频是具有规律的声波变动组成的波,音频中的每一个波都有其对应的高度,在波形图像上,横轴就是时间,而一个波在纵轴的高度就是波形的高度,其可以表示位深,用于描述音频变化的幅度。若一个音频具有稳定且较高的波形高度,则越可能为正常的说话。
预先设定一个波形高度阈值,针对每一个第二候选视频,先对该第二候选视频进行波形提取,得到其对应的音频波形。然后计算该音频波形中每一个波的波形高度以及波的数量,计算该音频波形的波形平均高度。该波形高度阈值可以为一个具体的高度值,也可以是根据所有的音频波形的平均高度和预设的百分比数计算得到的阈值。例如本实施设定的百分比数为30%。当波形的平均高度大于或等于波形高度阈值时,将该第二候选视频作为第三保留视频;当波形的平均高度小于波形高度阈值时,将该第二候选视频删除。
B40、根据每一个所述第三保留视频对应的时间戳,对所述第三保留视频进行拼接,得到目标视频。
具体地,然后按照第三保留视频的时间戳中的起始时刻和终止时刻,对所有的第三保留视频进行排序,并按照顺序对第三保留视频进行拼接,得到目标视频。
基于上述基于字幕的视频编辑方法,本发明还提供了一种终端设备,如图5所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑命令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取计算机可读存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序命令或模块。处理器20通过运行存储在存储器22中的软件程序、命令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态计算机可读存储介质。
此外,上述计算机可读存储介质以及终端设备中的多条命令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于字幕的视频编辑方法,其特征在于,所述方法包括:
获取待处理的视频文件;
基于所述视频文件的字幕信息,对所述视频文件进行分割,得到若干个切片视频,其中,所述字幕信息包括字幕文本和所述字幕文本对应的切片时间节点;
根据所述切片时间节点预设的初筛规则,对所述切片视频进行无效视频的筛选,确定所述切片视频中的第一保留视频;
对所述字幕文本进行拆字处理,得到字段集合,其中,所述字段集合包括若干个字段文本;
针对每一个所述字幕文本,根据所述字段合计中每一个所述字段文本出现的频次,确定所述第一保留视频中的第二保留视频;
根据所述第二保留视频对应的时间戳,对所述第二保留视频进行拼接,得到目标视频。
2.根据权利要求1所述基于字幕的视频编辑方法,其特征在于,所述基于所述视频文件的字幕信息,对所述视频文件进行分割,得到若干个切片视频包括:
对所述视频文件进行语音识别,得到字幕信息;
根据所述切片时间节点,对所述视频文件进行分割,得到若干个切片视频。
3.根据权利要求2所述基于字幕的视频编辑方法,其特征在于,所述对所述视频文件进行语音识别,得到字幕信息包括:
对所述视频文件进行音频提取,得到所述视频文件中的音频信息;
对所述音频信息进行人声提取,得到所述音频信息中的语音信息;
对所述语音信息进行语音识别,得到所述语音信息对应的字幕信息。
4.根据权利要求3所述基于字幕的视频编辑方法,其特征在于,所述对所述语音信息进行语音识别,得到所述语音信息对应的字幕信息包括:
对所述语音信息进行语音识别,得到识别信息,其中,所识别信息包括语音文本和所述语音文本对应的语音节点;
根据预设的无效字段规则,删除所述语音文本中的无效字段,得到字幕文本;
根据所述字幕文本,对所述语音节点进行调整,得到切片时间节点。
5.根据权利要求1所述基于字幕的视频编辑方法,其特征在于,所述根据所述切片时间节点预设的初筛规则,对所述切片视频进行无效视频的筛选,确定所述切片视频中的第一保留视频包括:
针对每一个所述切片视频,当该切片视频对应的字幕文本为空时,确定该切片视频为第一候选视频;
当该切片视频的对应的字幕文本为非空或所述第一候选视频的时间长度小于预设的停顿阈值时,确定该切片视频为第一保留视频。
6.根据权利要求1所述基于字幕的视频编辑方法,其特征在于,所述针对每一个所述字幕文本,根据所述字段合计中每一个所述字段文本出现的频次,确定所述第一保留视频中的第二保留视频包括:
针对每一个所述字幕文本,计算所述字段集合中的每一个字在该字幕文本中的出现次数,得到与该字幕文本对应的字段向量;
将该字段向量以外的字段向量作为比较向量,并计算该字段向量与每一个所述比较向量之间的相似度值;
根据所述相似度值,确定所述第一保留视频中的第二保留视频。
7.根据权利要求1~6中任意一项所述基于字幕的视频编辑方法,其特征在于,所述根据所述第二保留视频对应的时间戳,对所述第二保留视频进行拼接,得到目标视频,包括:
根据所述第二保留视频对应的时间戳,计算所述第二保留视频的播放时长;
根据预设的无效时间阈值和所述播放时长,确定所述第二保留视频中的第二候选视频;
根据所述第二候选视频的音频波形,对所述第二候选视频进行筛选,得到第三保留视频;
根据每一个所述第三保留视频对应的时间戳,对所述第三保留视频进行拼接,得到目标视频。
8.根据权利要求7所述基于字幕的视频编辑方法,其特征在于,所述根据所述第二候选视频的音频波形,对所述第二候选视频进行筛选,得到第三保留视频包括:
针对每一个所述第二候选视频,对该第二候选视频进行波形提取,得到该第二候选视频对应的音频波形;
根据所述音频波形中的每一个波的波形高度和波的数量,计算所述音频波形对应的波形平均高度值;
根据预设的波形高度阈值和所述波形平均高度值,确定所述第二候选视频中的第三保留视频。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~8任意一项所述的基于字幕的视频编辑方法中的步骤。
10.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1~8任意一项所述的基于字幕的视频编辑方法中的步骤。
CN202210651820.1A 2022-06-09 2022-06-09 一种基于字幕的视频编辑方法和相关设备 Active CN115150660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210651820.1A CN115150660B (zh) 2022-06-09 2022-06-09 一种基于字幕的视频编辑方法和相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210651820.1A CN115150660B (zh) 2022-06-09 2022-06-09 一种基于字幕的视频编辑方法和相关设备

Publications (2)

Publication Number Publication Date
CN115150660A true CN115150660A (zh) 2022-10-04
CN115150660B CN115150660B (zh) 2024-05-10

Family

ID=83407595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210651820.1A Active CN115150660B (zh) 2022-06-09 2022-06-09 一种基于字幕的视频编辑方法和相关设备

Country Status (1)

Country Link
CN (1) CN115150660B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115942043A (zh) * 2023-03-03 2023-04-07 南京爱照飞打影像科技有限公司 一种基于ai语音识别的视频碎剪方法与设备
CN117119261A (zh) * 2023-08-09 2023-11-24 广东保伦电子股份有限公司 一种基于字幕合并的字幕显示方法及系统
CN117119261B (zh) * 2023-08-09 2024-06-07 广东保伦电子股份有限公司 一种基于字幕合并的字幕显示方法及系统

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130021454A1 (en) * 2011-07-21 2013-01-24 Samsung Electronics Co., Ltd. 3d display apparatus and content displaying method thereof
CN104021385A (zh) * 2013-03-02 2014-09-03 北京信息科技大学 基于模板匹配及曲线拟合的视频字幕细化方法
US20140376872A1 (en) * 2013-06-20 2014-12-25 VidText, Inc. Video and text integration system and method for official recordings
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法
CN105357566A (zh) * 2015-10-29 2016-02-24 青岛歌尔声学科技有限公司 一种语音遥控器及其供电方法
CN106126619A (zh) * 2016-06-20 2016-11-16 中山大学 一种基于视频内容的视频检索方法及系统
CN108683924A (zh) * 2018-05-30 2018-10-19 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
US20180330756A1 (en) * 2016-11-19 2018-11-15 James MacDonald Method and apparatus for creating and automating new video works
CN108833973A (zh) * 2018-06-28 2018-11-16 腾讯科技(深圳)有限公司 视频特征的提取方法、装置和计算机设备
US20190104259A1 (en) * 2017-09-29 2019-04-04 Apple Inc. Media editing application with anchored timeline for captions and subtitles
JP2020053715A (ja) * 2018-09-21 2020-04-02 西都速記株式会社 情報処理システム、情報処理方法、及び、情報処理プログラム
CN111615008A (zh) * 2020-05-18 2020-09-01 南京莱科智能工程研究院有限公司 基于多设备体验的智能摘要生成和字幕阅读系统
CN112702659A (zh) * 2020-12-24 2021-04-23 成都新希望金融信息有限公司 视频字幕处理方法、装置、电子设备及可读存储介质
WO2021112419A1 (en) * 2019-12-04 2021-06-10 Samsung Electronics Co., Ltd. Method and electronic device for automatically editing video
CN112995754A (zh) * 2021-02-26 2021-06-18 北京奇艺世纪科技有限公司 字幕质量检测方法、装置、计算机设备和存储介质
CN113225618A (zh) * 2021-05-06 2021-08-06 阿里巴巴新加坡控股有限公司 一种视频剪辑方法及装置
CN113395586A (zh) * 2021-05-25 2021-09-14 深圳市趣推科技有限公司 基于标记的视频剪辑方法、装置、设备及存储介质
CN113423010A (zh) * 2021-06-22 2021-09-21 深圳市大头兄弟科技有限公司 基于文档的视频转换方法、装置、设备及存储介质
US20210319809A1 (en) * 2020-04-10 2021-10-14 Sunday Morning Technology (Guangzhou) Co., Ltd. Method, system, medium, and smart device for cutting video using video content
CN113806570A (zh) * 2021-09-22 2021-12-17 维沃移动通信有限公司 图像生成方法和生成装置、电子设备和存储介质
CN113824899A (zh) * 2021-09-18 2021-12-21 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及介质
CN114242058A (zh) * 2021-12-22 2022-03-25 广州繁星互娱信息科技有限公司 语音字幕的生成方法、系统、装置、存储介质及电子装置
CN114268831A (zh) * 2021-11-30 2022-04-01 乐美科技股份私人有限公司 一种视频剪辑方法及装置
CN114339208A (zh) * 2021-12-29 2022-04-12 北京金堤科技有限公司 视频测试方法、装置、电子设备及计算机存储介质
CN114449308A (zh) * 2021-12-28 2022-05-06 苏州市中拓互联信息科技有限公司 一种视频自动剪辑方法、装置及云剪辑服务器

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130021454A1 (en) * 2011-07-21 2013-01-24 Samsung Electronics Co., Ltd. 3d display apparatus and content displaying method thereof
CN104021385A (zh) * 2013-03-02 2014-09-03 北京信息科技大学 基于模板匹配及曲线拟合的视频字幕细化方法
US20140376872A1 (en) * 2013-06-20 2014-12-25 VidText, Inc. Video and text integration system and method for official recordings
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法
CN105357566A (zh) * 2015-10-29 2016-02-24 青岛歌尔声学科技有限公司 一种语音遥控器及其供电方法
CN106126619A (zh) * 2016-06-20 2016-11-16 中山大学 一种基于视频内容的视频检索方法及系统
US20180330756A1 (en) * 2016-11-19 2018-11-15 James MacDonald Method and apparatus for creating and automating new video works
US20190104259A1 (en) * 2017-09-29 2019-04-04 Apple Inc. Media editing application with anchored timeline for captions and subtitles
CN108683924A (zh) * 2018-05-30 2018-10-19 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN108833973A (zh) * 2018-06-28 2018-11-16 腾讯科技(深圳)有限公司 视频特征的提取方法、装置和计算机设备
JP2020053715A (ja) * 2018-09-21 2020-04-02 西都速記株式会社 情報処理システム、情報処理方法、及び、情報処理プログラム
WO2021112419A1 (en) * 2019-12-04 2021-06-10 Samsung Electronics Co., Ltd. Method and electronic device for automatically editing video
US20210319809A1 (en) * 2020-04-10 2021-10-14 Sunday Morning Technology (Guangzhou) Co., Ltd. Method, system, medium, and smart device for cutting video using video content
CN111615008A (zh) * 2020-05-18 2020-09-01 南京莱科智能工程研究院有限公司 基于多设备体验的智能摘要生成和字幕阅读系统
CN112702659A (zh) * 2020-12-24 2021-04-23 成都新希望金融信息有限公司 视频字幕处理方法、装置、电子设备及可读存储介质
CN112995754A (zh) * 2021-02-26 2021-06-18 北京奇艺世纪科技有限公司 字幕质量检测方法、装置、计算机设备和存储介质
CN113225618A (zh) * 2021-05-06 2021-08-06 阿里巴巴新加坡控股有限公司 一种视频剪辑方法及装置
CN113395586A (zh) * 2021-05-25 2021-09-14 深圳市趣推科技有限公司 基于标记的视频剪辑方法、装置、设备及存储介质
CN113423010A (zh) * 2021-06-22 2021-09-21 深圳市大头兄弟科技有限公司 基于文档的视频转换方法、装置、设备及存储介质
CN113824899A (zh) * 2021-09-18 2021-12-21 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及介质
CN113806570A (zh) * 2021-09-22 2021-12-17 维沃移动通信有限公司 图像生成方法和生成装置、电子设备和存储介质
CN114268831A (zh) * 2021-11-30 2022-04-01 乐美科技股份私人有限公司 一种视频剪辑方法及装置
CN114242058A (zh) * 2021-12-22 2022-03-25 广州繁星互娱信息科技有限公司 语音字幕的生成方法、系统、装置、存储介质及电子装置
CN114449308A (zh) * 2021-12-28 2022-05-06 苏州市中拓互联信息科技有限公司 一种视频自动剪辑方法、装置及云剪辑服务器
CN114339208A (zh) * 2021-12-29 2022-04-12 北京金堤科技有限公司 视频测试方法、装置、电子设备及计算机存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUXANDRA TAPU: "DEEP-HEAR: A Multimodal Subtitle Positioning System Dedicated to Deaf and Hearing-Impaired People", 《IEEE ACCESS》, vol. 7, 1 July 2019 (2019-07-01) *
张粉粉: "微视频字幕呈现方式对学习效果影响的实证研究", 《万方数据库》, 17 January 2020 (2020-01-17) *
黄子健: "基于云计算的视频剪辑系统设计与实现的研究", 《新型工业化》, 31 March 2022 (2022-03-31), pages 17 - 19 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115942043A (zh) * 2023-03-03 2023-04-07 南京爱照飞打影像科技有限公司 一种基于ai语音识别的视频碎剪方法与设备
CN117119261A (zh) * 2023-08-09 2023-11-24 广东保伦电子股份有限公司 一种基于字幕合并的字幕显示方法及系统
CN117119261B (zh) * 2023-08-09 2024-06-07 广东保伦电子股份有限公司 一种基于字幕合并的字幕显示方法及系统

Also Published As

Publication number Publication date
CN115150660B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN105931644B (zh) 一种语音识别方法及移动终端
CN107305541B (zh) 语音识别文本分段方法及装置
CN109493850B (zh) 成长型对话装置
KR102081495B1 (ko) 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체
CN107562760B (zh) 一种语音数据处理方法及装置
EP3617946B1 (en) Context acquisition method and device based on voice interaction
CN108920640B (zh) 基于语音交互的上下文获取方法及设备
CN109979474B (zh) 语音设备及其用户语速修正方法、装置和存储介质
CN111128223A (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN111797632A (zh) 信息处理方法、装置及电子设备
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
KR20240053639A (ko) 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
US20190213998A1 (en) Method and device for processing data visualization information
CN114385800A (zh) 语音对话方法和装置
CN111435595A (zh) 文本规整方法及装置
CN115150660A (zh) 一种基于字幕的视频编辑方法和相关设备
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
CN112562659A (zh) 语音识别方法、装置、电子设备和存储介质
CN112597889A (zh) 一种基于人工智能的情绪处理方法和装置
CN112466287A (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN113345423B (zh) 语音端点检测方法、装置、电子设备和存储介质
CN111970311B (zh) 会话切分方法、电子设备及计算机可读介质
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518000 Building 1901, 1902, 1903, Qianhai Kexing Science Park, Labor Community, Xixiang Street, Bao'an District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Flash Scissor Intelligent Technology Co.,Ltd.

Address before: 518000 Unit 9ABCDE, Building 2, Haihong Industrial Plant Phase II, Haihong Industrial Plant, West Side of Xixiang Avenue, Labor Community, Xixiang Street, Bao'an District, Shenzhen, Guangdong

Applicant before: Shenzhen big brother Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant