CN116644212B - 视频检测方法、装置、设备及可读存储介质 - Google Patents

视频检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116644212B
CN116644212B CN202310908926.XA CN202310908926A CN116644212B CN 116644212 B CN116644212 B CN 116644212B CN 202310908926 A CN202310908926 A CN 202310908926A CN 116644212 B CN116644212 B CN 116644212B
Authority
CN
China
Prior art keywords
video
text
detected
information
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310908926.XA
Other languages
English (en)
Other versions
CN116644212A (zh
Inventor
潘青华
丁杰
汪锦想
于振华
胡国平
刘聪
魏思
王士进
刘权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202310908926.XA priority Critical patent/CN116644212B/zh
Publication of CN116644212A publication Critical patent/CN116644212A/zh
Application granted granted Critical
Publication of CN116644212B publication Critical patent/CN116644212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请公开了一种视频检测方法、装置、设备及可读存储介质。在确定待检测视频以及待对比视频之后;先确定待检测视频的文本片段信息;待检测视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;然后,获取待对比视频的文本片段信息;待对比视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;最后,比较待检测视频的文本片段信息以及待对比视频的文本片段信息,确定待检测视频与待对比视频是否重复。基于该方案,由于视频的文本片段,相对于视频的图像帧来说,数量要少很多,而且,文本片段信息仅仅包含文本信息和其时间戳,比对文本片段信息相对于比对图像帧要更为简单,因此,采用本方案能够提升视频检测的效率。

Description

视频检测方法、装置、设备及可读存储介质
技术领域
本申请涉及视频处理技术领域,更具体的说,是涉及一种视频检测方法、装置、设备及可读存储介质。
背景技术
随着社交网络的快速发展,视频逐渐成为了移动互联网的主导内容形态之一。由于视频具有参与性强和传播价值高等特点,因此,视频的上传量越来越大;因此需要对视频进行检测,以确定检测的视频是否与已上传的视频构成重复视频。
目前,多利用人工智能技术,从视频的画面方面对视频进行检测,以确定检测的视频是否与已上传的视频构成重复视频,但是,这种视频检测方式需要对比两个视频的图像帧,而视频的图像帧数量众多,导致视频检测的效率低下。
因此,如何提供一种视频检测方法,以提升视频检测的效率,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种视频检测方法、装置、设备及可读存储介质。具体方案如下:
一种视频检测方法,所述方法包括:
确定待检测视频以及待对比视频;
确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
可选地,所述确定待检测视频的文本片段信息,包括:
确定所述待检测视频中的各个子音频片段;
针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳;
各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
可选地,所述确定所述子音频片段对应的文本片段信息,包括:
确定所述子音频片段对应的文本;
确定所述子音频片段对应的文本中第一个字对应的起始时间戳;
基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息;
将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳;所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
可选地,所述确定所述子音频片段对应的文本,包括:
对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本;
对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本;
对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
可选地,所述确定所述子音频片段对应的文本中第一个字对应的起始时间戳,包括:
确定所述第一文本中各个字在所述子音频片段中的起始时间戳;
基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
可选地,所述比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复,包括:
比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;
如果不存在,则确定所述待检测视频与所述待对比视频不重复;
如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
可选地,所述基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复,包括:
确定一个时间戳偏差对应的目标文本信息的个数;
计算最大个数与所述待检测视频的文本片段信息的个数的比值;
如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;
如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
可选地,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则所述方法还包括:
输出所述待对比视频在所述视频库中的存储路径。
可选地,如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则所述方法还包括:
将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。
一种视频检测装置,所述装置包括:
视频确定单元,用于确定待检测视频以及待对比视频;
文本片段信息确定单元,用于确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
文本片段信息获取单元,用于获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
比较单元,用于比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
可选地,所述文本片段信息确定单元,包括:
子音频片段确定单元,用于确定所述待检测视频中的各个子音频片段;
子音频片段处理单元,用于针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳;各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
可选地,所述子音频片段处理单元,包括:
文本确定单元,用于确定所述子音频片段对应的文本;
起始时间戳确定单元,用于确定所述子音频片段对应的文本中第一个字对应的起始时间戳;
文本信息确定单元,用于基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息;
时间戳确定单元,用于将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳;所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
可选地,所述文本确定单元,包括:
语音识别单元,用于对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本;
字幕识别单元,用于对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本;
对齐与校正处理单元,用于对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
可选地,所述起始时间戳确定单元,具体用于:
确定所述第一文本中各个字在所述子音频片段中的起始时间戳;
基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
可选地,所述比较单元,具体用于:
比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;
如果不存在,则确定所述待检测视频与所述待对比视频不重复;
如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
可选地,所述比较单元,具体用于:
确定一个时间戳偏差对应的目标文本信息的个数;
计算最大个数与所述待检测视频的文本片段信息的个数的比值;
如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;
如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
可选地,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则所述装置还包括:
输出单元,用于输出所述待对比视频在所述视频库中的存储路径。
可选地,如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则所述装置还包括:
存储单元,用于将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。
一种视频检测设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的视频检测方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的视频检测方法的各个步骤。
借由上述技术方案,本申请公开了一种视频检测方法、装置、设备及可读存储介质。在确定待检测视频以及待对比视频之后;先确定待检测视频的文本片段信息;待检测视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;然后,获取待对比视频的文本片段信息;待对比视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;最后,比较待检测视频的文本片段信息以及待对比视频的文本片段信息,确定待检测视频与待对比视频是否重复。基于该方案,由于视频的文本片段,相对于视频的图像帧来说,数量要少很多,而且,文本片段信息仅仅包含文本信息和其时间戳,比对文本片段信息相对于比对图像帧要更为简单,因此,采用本方案能够提升视频检测的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的一种视频检测方法的流程示意图;
图2为本申请实施例公开的一种视频检测装置结构示意图;
图3为本申请实施例公开的一种视频检测设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的视频检测方法进行介绍。
参照图1,图1为本申请实施例公开的一种视频检测方法的流程示意图,该方法可以包括:
步骤S101:确定待检测视频以及待对比视频。
在本申请中,待检测视频和待对比视频可以为任意时长或任意格式的视频,对此,本申请不进行任何限定。在一些场景下,视频检测的目的是确定待检测视频是否可以存储至预设视频库,这种场景下,如果待检测视频与预设视频库中的视频均不重复,才会将待检测视频存储至预设视频库中,以减小对预设视频库的存储空间的无效占用,这种情况下,待对比视频可以是预设视频库中存储的任一视频。
步骤S102:确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳。
需要说明的是,文本信息可以表征视频片段对应的文本,文本信息的时间戳可以表征视频片段对应的文本是在该视频片段中的哪个时刻开始出现的。
在本申请中,可以将待检测视频划分为多个视频片段,针对每个视频片段确定该视频片段对应的文本片段信息,具体实现方式将通过后续实施例详细说明,此处不再展开描述。
步骤S103:获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳。
在本申请中,预设视频库中可以存储有视频以及视频的文本片段信息,则可以从预设视频库中获取待对比视频的文本片段信息。需要说明的是,可以在每个视频的各个文本片段信息中添加视频标识,这样,不同视频的文本片段信息便可以通过不同的视频标识进行区分。
步骤S104:比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
在本申请中,通过比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,可以确定所述待检测视频与所述待对比视频的相似度,基于所述待检测视频与所述待对比视频的相似度,即可确定所述待检测视频与所述待对比视频是否重复,具体实现方式将通过后面的实施例详细说明,此处不再展开描述。
本实施例公开了一种视频检测方法。在确定待检测视频以及待对比视频之后;先确定待检测视频的文本片段信息;待检测视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;然后,获取待对比视频的文本片段信息;待对比视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;最后,比较待检测视频的文本片段信息以及待对比视频的文本片段信息,确定待检测视频与待对比视频是否重复。基于该方案,由于视频的文本片段,相对于视频的图像帧来说,数量要少很多,而且,文本片段信息仅仅包含文本信息和其时间戳,比对文本片段信息相对于比对图像帧要更为简单,因此,采用本方案能够提升视频检测的效率。
在本申请的另一个实施例中,对步骤S102确定所述待检测视频的文本片段信息的具体实现方式进行说明,该方式可以包括如下步骤:
步骤S201:确定所述待检测视频中的各个子音频片段。
在本申请中,可以先提取所述待检测视频的音频信息,再依据VAD(Voiceactivity detection,语音活性检测)技术从所述待检测视频的音频信息提取有效音频片段,作为所述待检测视频中的各个子音频片段。
步骤S202:针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳。
需要说明的是,确定所述子音频片段对应的文本片段信息的具体实现方式,将通过后面的实施例详细说明,此处不再展开描述。
步骤S203:各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
在本申请的另一个实施例中,对步骤S202确定所述子音频片段对应的文本片段信息的具体实现方式进行说明,该方式可以包括如下步骤:
步骤S301:确定所述子音频片段对应的文本。
作为一种可实施方式,所述确定所述子音频片段对应的文本的具体实现方式可以包括如下步骤:
步骤S3011:对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本。
在本申请中,可以利用ASR(Automatic Speech Recognition,自动语音识别)技术,对所述子音频片段进行语音识别,得到所述音频片段对应的第一文本。
步骤S3012:对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本。
在本申请中,可以利用OCR(Optical Character Recognition,光学字符识别)对所述子音频片段对应的视频片段中的图像帧进行字幕识别,得到所述子音频片段对应的第二文本。
步骤S3013:对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
考虑到ASR技术和OCR技术的实现原理的区别,得到的子音频片段对应的第一文本与子音频片段对应的第二文本可能存在不完全一致的情况,因此,在本申请中,需要对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
作为一种可实施方式,在本申请中可以采用文本编辑距离算法实现所述第一文本及所述第二文本的对齐,在所述第一文本及所述第二文本的对齐之后,可以基于预设的校正规则对所述第一文本及所述第二文本进行校正,得到校正后的文本作为所述子音频片段对应的文本。预设的校正规则包括但不限于句首位置对齐、同音字以第二文本为准、同型字以第一文本为准,第一文本丢字基于第二文本补全、第二文本丢字基于第一文本补全、第一文本尾部多余字词截断、英文翻译成中文字幕以第一文本为准等。
为便于理解,假设第一文本为:咕咕我这还没出发呢菜某某待会在草丛里好好给我辅助啊 ok 嗯;第二文本为:我这还没出发蔡某某待会儿在草丛里好好拾我辅助啊 好
首先采用文本编辑距离将所述第一文本及所述第二文本进行对齐后,结果如下:
咕咕我这还没出发呢菜某某待会 在草丛里好好给我辅助啊 ok 嗯
我这还没出发 蔡某某待会儿在草丛里好好拾我辅助啊 好
在所述第一文本及所述第二文本的对齐之后,可以基于预设的校正规则对所述第一文本及所述第二文本进行校正,具体如下:
规则一,句首位置对齐
如上述示例中将以“我这”确认为句首位置。
规则二,同音字以第二文本为准
如上述示例中“菜某某”和“蔡某某”,将以“蔡某某”为准。
规则三,同型字以第一文本为准
如上述示例中“给我”和“拾我”,将以“给我”为准。
规则四,第一文本丢字基于第二文本补全
如上述示例中基于“待会儿”补全“待会”
规则五,第二文本丢字基于第一文本补全
如上述示例中基于第一文本中“我还没出发呢”在第一文本中“我还没出发”后补全“呢”
规则六,第一文本尾部多余字词截断
如上述示例中第一文本尾部的“嗯”截断
规则七,英文翻译成中文字幕以第一文本为准
如上述示例中以“ok”为准。
基于预设的校正规则对上述第一文本及第二文本进行校正,得到校正后的文本如下:我这还没出发呢 蔡某某待会儿在草丛里好好给我辅助啊 ok
步骤S302:确定所述子音频片段对应的文本中第一个字对应的起始时间戳。
作为一种可实施方式,所述确定所述子音频片段对应的文本中第一个字对应的起始时间戳的实现方式可以为:确定所述第一文本中各个字在所述子音频片段中的起始时间戳;基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
在本申请中,可以基于语音识别中的强制对齐技术将所述第一文本与对应子音频片段进行强制对齐,从而确定所述第一文本中各个字在所述子音频片段中的起始时间戳。在确定所述子音频片段对应的文本之后,确定该文本中第一个字对应第一文本中哪个字,将该字在所述子音频片段中的起始时间戳,作为所述子音频片段对应的文本中第一个字对应的起始时间戳。
为便于理解,基于上述示例,所述子音频片段对应的文本中第一个字为“我这”中的“我”,则确定第一文本中“我这”中的“我”对应的起始时间戳为所述子音频片段对应的文本中“我这”中的“我”对应的起始时间戳。
步骤S303:基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息。
作为一种可实施方式,可以计算所述子音频片段对应的文本的哈希值,作为所述子音频片段对应的文本信息。
步骤S304:将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳,所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
在本申请的另一个实施例中,对步骤S104比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复的具体实现方式进行详细说明,该方式可以包括如下步骤:
步骤S401:比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;如果不存在,则执行步骤S402;如果存在,则执行步骤S403;
为便于理解,假设待检测视频的文本片段信息包括两个,其中一个文本信息为abc,其对应时间戳为10,另一个文本信息为bcd,其对应时间戳为20;
待对比视频的文本片段信息包括三个,其中一个文本信息为abc,其对应时间戳为60,另一个文本信息为bcd,其对应时间戳为70,再一个文本信息为abc,其对应时间戳为90;
其中,文本信息abc和bcd为目标文本信息。
步骤S402:确定所述待检测视频与所述待对比视频不重复。
步骤S403:针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
其中,所述基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复,包括:确定一个时间戳偏差对应的目标文本信息的个数;计算最大个数与所述待检测视频的文本片段信息的个数的比值;如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
为便于理解,以步骤S401的示例为例,假设预设阈值为80%,文本信息abc的时间戳偏差为50和80,文本信息bcd的时间戳偏差为50。则时间戳偏差50对应的目标文本信息的个数为2,时间戳偏差80对应的目标文本信息的个数为1,则时间戳偏差对应的目标文本信息的个数中的最大个数为2,待检测视频的文本片段信息的个数为2,则最大个数与所述待检测视频的文本片段信息的个数的比值为100%,其大于预设阈值,则确定所述待检测视频与所述待对比视频重复。
上述实施例中提到,在一些场景下,视频检测的目的是确定待检测视频是否可以存储至预设视频库,这种场景下,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则输出所述待对比视频在所述视频库中的存储路径,以便提示用户视频库中已存储有类似视频。如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则可以将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。
下面对本申请实施例公开的视频检测装置进行描述,下文描述的视频检测装置与上文描述的视频检测方法可相互对应参照。
参照图2,图2为本申请实施例公开的一种视频检测装置结构示意图。如图2所示,该视频检测装置可以包括:
视频确定单元11,用于确定待检测视频以及待对比视频;
文本片段信息确定单元12,用于确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
文本片段信息获取单元13,用于获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
比较单元14,用于比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
作为一种可实施方式,所述文本片段信息确定单元,包括:
子音频片段确定单元,用于确定所述待检测视频中的各个子音频片段;
子音频片段处理单元,用于针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳;各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
作为一种可实施方式,所述子音频片段处理单元,包括:
文本确定单元,用于确定所述子音频片段对应的文本;
起始时间戳确定单元,用于确定所述子音频片段对应的文本中第一个字对应的起始时间戳;
文本信息确定单元,用于基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息;
时间戳确定单元,用于将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳;所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
作为一种可实施方式,所述文本确定单元,包括:
语音识别单元,用于对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本;
字幕识别单元,用于对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本;
对齐与校正处理单元,用于对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
作为一种可实施方式,所述起始时间戳确定单元,具体用于:
确定所述第一文本中各个字在所述子音频片段中的起始时间戳;
基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
作为一种可实施方式,所述比较单元,具体用于:
比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;
如果不存在,则确定所述待检测视频与所述待对比视频不重复;
如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
作为一种可实施方式,所述比较单元,具体用于:
确定一个时间戳偏差对应的目标文本信息的个数;
计算最大个数与所述待检测视频的文本片段信息的个数的比值;
如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;
如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
作为一种可实施方式,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则所述装置还包括:
输出单元,用于输出所述待对比视频在所述视频库中的存储路径。
作为一种可实施方式,如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则所述装置还包括:
存储单元,用于将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。
参照图3,图3为本申请实施例提供的一种视频检测设备的硬件结构框图,参照图3,该视频检测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
确定待检测视频以及待对比视频;
确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
确定待检测视频以及待对比视频;
确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种视频检测方法,其特征在于,所述方法包括:
确定待检测视频以及待对比视频;
确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;
如果不存在,则确定所述待检测视频与所述待对比视频不重复;
如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待检测视频的文本片段信息,包括:
确定所述待检测视频中的各个子音频片段;
针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳;
各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
3.根据权利要求2所述的方法,其特征在于,所述确定所述子音频片段对应的文本片段信息,包括:
确定所述子音频片段对应的文本;
确定所述子音频片段对应的文本中第一个字对应的起始时间戳;
基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息;
将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳;所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
4.根据权利要求3所述的方法,其特征在于,所述确定所述子音频片段对应的文本,包括:
对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本;
对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本;
对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
5.根据权利要求4所述的方法,其特征在于,所述确定所述子音频片段对应的文本中第一个字对应的起始时间戳,包括:
确定所述第一文本中各个字在所述子音频片段中的起始时间戳;
基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
6.根据权利要求1所述的方法,其特征在于,所述基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复,包括:
确定一个时间戳偏差对应的目标文本信息的个数;
计算最大个数与所述待检测视频的文本片段信息的个数的比值;
如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;
如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
7.根据权利要求1所述的方法,其特征在于,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则所述方法还包括:
输出所述待对比视频在所述视频库中的存储路径。
8.根据权利要求7所述的方法,其特征在于,如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则所述方法还包括:
将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。
9.一种视频检测装置,其特征在于,所述装置包括:
视频确定单元,用于确定待检测视频以及待对比视频;
文本片段信息确定单元,用于确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
文本片段信息获取单元,用于获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;
比较单元,用于比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;
如果不存在,则确定所述待检测视频与所述待对比视频不重复;
如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
10.一种视频检测设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至8中任一项所述的视频检测方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的视频检测方法的各个步骤。
CN202310908926.XA 2023-07-24 2023-07-24 视频检测方法、装置、设备及可读存储介质 Active CN116644212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310908926.XA CN116644212B (zh) 2023-07-24 2023-07-24 视频检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310908926.XA CN116644212B (zh) 2023-07-24 2023-07-24 视频检测方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN116644212A CN116644212A (zh) 2023-08-25
CN116644212B true CN116644212B (zh) 2023-12-01

Family

ID=87640302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310908926.XA Active CN116644212B (zh) 2023-07-24 2023-07-24 视频检测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116644212B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201121829D0 (en) * 2010-12-20 2012-02-01 Vaclik Paul P A method of making text data associated with video data searchable
CN104506933A (zh) * 2014-12-23 2015-04-08 方正宽带网络服务有限公司 一种校验视频文件是否相同的方法及装置
CN106973305A (zh) * 2017-03-20 2017-07-21 广东小天才科技有限公司 一种视频中不良内容的检测方法及装置
CN109905772A (zh) * 2019-03-12 2019-06-18 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
CN110602566A (zh) * 2019-09-06 2019-12-20 Oppo广东移动通信有限公司 匹配方法、终端和可读存储介质
CN110874526A (zh) * 2018-12-29 2020-03-10 北京安天网络安全技术有限公司 一种文件相似性检测方法、装置、电子设备及存储介质
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统
CN112951275A (zh) * 2021-02-26 2021-06-11 北京百度网讯科技有限公司 语音质检方法、装置、电子设备及介质
CN113591530A (zh) * 2021-02-24 2021-11-02 腾讯科技(深圳)有限公司 一种视频检测方法、装置、电子设备和存储介质
CN115361377A (zh) * 2022-08-19 2022-11-18 中国联合网络通信集团有限公司 文件上传方法、用户终端、网盘服务器、设备及介质
CN116012753A (zh) * 2022-12-21 2023-04-25 平安银行股份有限公司 视频处理方法、装置、计算机设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9888279B2 (en) * 2013-09-13 2018-02-06 Arris Enterprises Llc Content based video content segmentation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201121829D0 (en) * 2010-12-20 2012-02-01 Vaclik Paul P A method of making text data associated with video data searchable
CN104506933A (zh) * 2014-12-23 2015-04-08 方正宽带网络服务有限公司 一种校验视频文件是否相同的方法及装置
CN106973305A (zh) * 2017-03-20 2017-07-21 广东小天才科技有限公司 一种视频中不良内容的检测方法及装置
CN110874526A (zh) * 2018-12-29 2020-03-10 北京安天网络安全技术有限公司 一种文件相似性检测方法、装置、电子设备及存储介质
CN109905772A (zh) * 2019-03-12 2019-06-18 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
CN110602566A (zh) * 2019-09-06 2019-12-20 Oppo广东移动通信有限公司 匹配方法、终端和可读存储介质
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统
CN113591530A (zh) * 2021-02-24 2021-11-02 腾讯科技(深圳)有限公司 一种视频检测方法、装置、电子设备和存储介质
CN112951275A (zh) * 2021-02-26 2021-06-11 北京百度网讯科技有限公司 语音质检方法、装置、电子设备及介质
CN115361377A (zh) * 2022-08-19 2022-11-18 中国联合网络通信集团有限公司 文件上传方法、用户终端、网盘服务器、设备及介质
CN116012753A (zh) * 2022-12-21 2023-04-25 平安银行股份有限公司 视频处理方法、装置、计算机设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN116644212A (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
JP4580885B2 (ja) シーン情報抽出方法、シーン抽出方法および抽出装置
KR101768509B1 (ko) 온라인 음성 번역 방법 및 장치
KR101199747B1 (ko) 단어 인식 방법 및 단어 인식용 프로그램의 기록매체 및 정보 처리 장치
CN109817210B (zh) 语音写作方法、装置、终端和存储介质
JP5845764B2 (ja) 情報処理装置及び情報処理プログラム
CN111159546B (zh) 事件推送方法、装置、计算机可读存储介质和计算机设备
CN109145149B (zh) 一种信息对齐方法、装置、设备及可读存储介质
CN108595679B (zh) 一种标签确定方法、装置、终端和存储介质
CN110674396A (zh) 文本信息处理方法、装置、电子设备及可读存储介质
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
WO2022166808A1 (zh) 文本还原方法、装置及电子设备
TWI699663B (zh) 分段方法、分段系統及非暫態電腦可讀取媒體
CN116644212B (zh) 视频检测方法、装置、设备及可读存储介质
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN113923479A (zh) 音视频剪辑方法和装置
CN117336572A (zh) 视频摘要生成方法、装置、计算机设备以及存储介质
JP6358744B2 (ja) 音声認識誤り修正装置
CN110780749B (zh) 一种字符串纠错方法和装置
CN116017088A (zh) 视频字幕处理方法、装置、电子设备和存储介质
CN114501159A (zh) 一种字幕编辑方法、装置、电子设备及存储介质
CN114373446A (zh) 一种会议语种确定方法、装置及电子设备
CN116631447B (zh) 噪声提取方法、装置、设备及可读存储介质
CN113688625A (zh) 一种语种识别方法及装置
CN113271247B (zh) 信息处理方法、装置、设备和存储介质
JP7105500B2 (ja) コンピュータによって実行される文字間スペースなし特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant