CN113850184A - 对视频内容进行检测的方法、装置、设备和可读介质 - Google Patents

对视频内容进行检测的方法、装置、设备和可读介质 Download PDF

Info

Publication number
CN113850184A
CN113850184A CN202111118332.6A CN202111118332A CN113850184A CN 113850184 A CN113850184 A CN 113850184A CN 202111118332 A CN202111118332 A CN 202111118332A CN 113850184 A CN113850184 A CN 113850184A
Authority
CN
China
Prior art keywords
video
named entity
detected
sub
preset condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111118332.6A
Other languages
English (en)
Inventor
孙建洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111118332.6A priority Critical patent/CN113850184A/zh
Publication of CN113850184A publication Critical patent/CN113850184A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种对视频内容进行检测的方法,包括:从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;根据所述比对结果,判断所述待检测视频是否符合预设条件;如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。

Description

对视频内容进行检测的方法、装置、设备和可读介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种对视频内容进行检测的方法、装置、设备和可读介质。
背景技术
视频作为一种信息载体和信息传播方式,以其时效性、直观性、趣味性等优点吸引着众多的用户,尤其是近年来随着移动互联网技术的发展,短视频行业用户规模和使用市场呈现爆发式增长态势。
然而不可否认的是,网络中充斥着大量涉嫌低俗、暴力、血腥、色情等有害内容的视频信息,有必要将这些充满危害的视频及时有效地检测出来。
但是,目前的自动检测,大多基于文本信息,存在局限性。因此,有必要提供一种能够对视频内容进行有效检测并能方便人工对涉嫌违规视频进行人工核查,以综合判断其是否违规的方法。
发明内容
本说明书实施例提供一种对视频内容进行检测的方法、装置、设备和可读介质,视频内容进行有效检测并能方便人工对涉嫌违规视频进行人工核查,进而综合判断是否违规的方法。
为解决上述技术问题,本说明书实施例是这样实现的:
从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
根据所述比对结果,判断所述待检测视频是否符合预设条件;
如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
本说明书实施例提供的一种对视频内容进行检测的装置,包括:
命名实体提取模块,用于从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
比对模块,用于将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
判断模块,用于根据所述比对结果,判断所述待检测视频是否符合预设条件;
定位模块,用于如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
本说明书实施例提供的一种对视频内容进行检测的设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述处理器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
根据所述比对结果,判断所述待检测视频是否符合预设条件;
如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
本说明书实施提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行如前任一项所述的对视频内容进行检测的方法。
本说明书中提供的至少一个实施例能够达到以下有益效果:
通过将待检测视频中的命名实体信息提取出来,然后将提取出来的命名实体信息与预先建立的关键字词库中的字词进行比对的方式,根据比对结果判断待检测视频是否符合预设条件,可以细粒度地根据检测要求设置相应的关键字词库中的字词,从而针对性强地对待检测视频进行检测。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中一种对视频内容进行检测的方法的整体应用场景示意图;
图2为本说明书实施例中另一种对视频内容进行检测的方法的整体应用场景示意图
图3为本说明书实施例中提供的一种对视频内容进行检测的方法的流程示意图;
图4为本说明书实施例中提供的一种对视频内容进行检测的方法的流程示意中对待检测视频进行检测的一种示例图;
图5为本说明书实施例中提供的一种对视频内容进行检测的方法的流程示意中对待检测视频进行检测的另一种示例图;
图6为本说明书实施例提供的一种对视频内容进行检测的装置的结构示意图;
图7为本说明书实施例提供的对应于图3的一种对视频内容进行检测的设备的结构示意图。
其中,101表示用户,102表示用户终端,103表示视频存储服务器,104表示视频检测服务器。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
应当理解,尽管在本申请文件中可以采用第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
图1为本说明书实施例中一种对视频内容进行检测的方法的整体应用场景示意图。如图1所示,用户101通过用户终端102将某段视频上传到视频存储服务器103,视频检测服务器104对用户上传的视频进行检测,如果检测结果不符合预设条件,则将某段视频进行相应标记,以便进行后续处理。
在对用户上传的视频进行检测的实时性要求高的情况下,也可以采用如图2所示的架构,图2为本说明书实施例中另一种对视频内容进行检测的方法的整体应用场景示意图。图2中,用户101通过用户终端102将某段视频上传到视频存储服务器103前,需要示视频检测服务器104预先对此视频进行检测,在检测结果符合预设条件后,视频检测服务器104再将此视频转发到视频存储服务器103,若检测结果不符合预设条件,则不允许某段视频上传到视频存储服务器103,同时可以向用户终端102发送警告信息。
图3为本说明书实施例提供的一种对视频内容进行检测的方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器或应用终端的程序。
如图3所示,该流程可以包括以下步骤:
步骤302:从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息。
待检测视频可以指需要进行检测的视频,例如可以指视频存储服务器中已经存储的现有视频,也可以指用户实时上传的视频。
命名实体,可以指待识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体序列,可以指由若干个命名实体按某种顺序进行排列得到的结构,比如可以按命名实体各自出现的时间先后顺序进行排列。
时间戳信息,可以指命名实体在待检测视频中出现时的时间信息,此时间信息是一个相对时间信息,即以待检测视频的开头为时间零点。例如一段时长一个小时的待检测视频,某个命名实体在此待检测视频中出现的时间为此待检测视频的第20分钟20秒,则此命名实体的时间戳信息为第20分钟20秒。
步骤304:将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词。
关键字词库中可以是利用机器学习模型产生的字词库,例如可以将与非法或者违规行为相关的一些违规字词纳入关键字词库,也可以根据用户反馈的信息,如涉及刷单、黄赌毒等违规内容的字词纳入关键字词库。本实施例技术方案中,将每个命名实体与关键字词库中的字词逐一进行比对,以判断命名实体序列中是否包括违规字词。具体的比对标准,可以是精确匹配,也可以是模糊匹配,本实施例技术方案并不做限制。具体的比对方式本实施例技术方案也不做限制,例如可以采用正则匹配。
需要说明的是,本实施例技术方案中,可以根据对待检测视频的检测需求设置关键字词库。
步骤306:根据所述比对结果,判断所述待检测视频是否符合预设条件。
预设条件,可以指从待检测视频中提取出的命名实体序列中不能包含某种特定类型的字词,如不能涉及毒品、暴力、赌博、色情等违反法律法规或者违背公序良俗的字词。由于这些字词相对于正常的字词数量较少,且能够通过枚举的方式罗列出来,所以本实施例技术方案中,预设条件为从待检测视频中提取出的命名实体序列中不能包含关键字词库中的字词。
步骤308:如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
本实施例技术方案中,在检测到从待检测视频中提取到的命名实体序列中包括违规的命名实体后,可以根据此命名实体的时间戳信息对此命名实体在待检测视频中的位置进行定位。具体地,考虑到命名实体是否违规需要综合考虑命名实体所在的上下文信息,即需要结合具体场景判断此命名实体是否违规。从而在可选的实施例技术方案中在对违规的命名实体在待检测视频中的位置进行定位后,可以将此违规的命名实体出现的视频区间进行标记,并将此视频区间的视频发送给具体的审核人员进行进一步的人工核查,这样,能够保证审核人员根据具体语义场景对涉嫌违规的命名实体进行人工核查,从而一方面提高了对待检测视频进行检测的准确率,也提高了检测效果。例如,涉嫌违规的命名实体对应的时间戳信息为第10分20秒,可以将此涉嫌违规的命名实体的视频区间设置为第9分20秒到第11分20秒。
在可选的实施例技术方案中,如果采用图像分析的技术对待检测视频进行检测,则可以只截取涉嫌违规的命名实体所在的帧图像,或者具体的涉嫌违规字词所在的局部连续的若干帧图像发送给审核人员进行人工审核,从而提高审核效率。
举例说明,如图4所示,在通过将待检测视频中提取音频信息,再将音频信息转换为文本信息的情况下,可以将涉嫌违规的命名实体所在的时间区间的前一段时间的音频和后一段时间的音频都考虑进来,从而结合将涉嫌违规的命名实体的上下文相关信息,综合判断涉嫌违规的命名实体所在的视频区间的内容是否违规,进而判断待检测视频是否违规。
又或者如图5所示,在第n帧图像中提取到了命名实体“香烟”,在没有具体的上下文相关信息的情况下,仅凭检测出的命名实体“香烟”无法进一步判断待检测视频是否包含违规内容,所以可以进一步将第n帧图像的前面若干帧图像和第n帧图像的后面若干帧图像连同此第n帧图像综合进行分析,从而准确地判断待检测视频是否包含违规内容。
本实施例技术方案通过将待检测视频中的命名实体信息提取出来,然后将提取出来的命名实体信息与预先建立的关键字词库中的字词进行比对的方式,根据比对结果判断待检测视频是否符合预设条件,可以细粒度地根据检测要求设置相应的关键字词库中的字词,从而针对性强地对待检测视频进行检测。
应当理解,本说明书一个或多个实施例所述的方法中,部分步骤的顺序可以根据实际需要调整,或者可以省略部分步骤。
基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方式,下面进行说明。
在可选的实施例技术方案中,所述根据所述比对结果,判断所述待检测视频是否符合所述预设条件,具体包括:
如果所述命名实体序列中的至少一个命名实体与所述关键字词库中的字词匹配,则判定所述待检测视频不符合所述预设条件。
在有的应用场景中,对待检测视频是否符合预设条件的标准要求较高,在此实施例技术方案中,至少一个命名实体与所述关键字词库中的字词匹配就判定待检测视频不符合所述预设条件。
在可选的实施例技术方案中,所述从待检测视频中提取命名实体序列,具体包括:
从所述待检测视频中提取语音信息;
对所述语音信息进行处理,得到命名实体序列。
具体的,本实施例技术方案中,可以利用各种成熟的音频提取工具,将待处理视频中包括的音频信息提取出来,例如可以利用开源计算机程序FFmpeg从待检测视频中提取出音频信息,然后利用傅里叶变化,从提取出来的音频信息中提取MFCC特征,然后利用隐马尔可夫模型结合维特比算法,进行语音识别,得到待检测视频中包括的语音信息,再将语音信息转换为文本信息,然后通过Bi-LSTM加条件随机场技术进行命实体识别。
在可选的实施例技术方案中,所述从所述待检测视频中提取语音信息,具体包括:
将所述待检测视频分割为m段子视频,为所述m段子视频中的每个子视频设置时间戳;
将所述m段子视频中的每个子视频以及所述每个子视频对应的时间戳进行封装,得到m段封装后的子视频;
将所述m段封装后的子视频分配给n个计算节点,所述n个计算节点中的每个计算节点至少分配到一段封装后的子视频,其中m≥n;
所述n个计算节点中的每个计算节点对分配到的封装后的子视频进行语音信息提取;
待对所述m段封装后的子视频进行语音信息提取完毕后,按照时间戳顺序将提取得到的语音信息进行整合,得到整合后的语音信息。
在有的应用场景下,在用户通过用户终端将某段视频上传到服务器后,视频检测服务器需要快速地对用户上传的视频进行检测,以实时地检测出此视频是否含有违规内容。
现有技术中,在用户上传的视频容量很大的情况下,大多也是按序逐帧地对用户上传的视频进行检测,这种方式实时性不高。如果用户上传的视频含有违规内容,很有可能发生视频检测服务器未完成检测前,用户上传的视频已经传播开来的情况。因此,需要实时地对用户上传的视频进行检测。由于用户上传的视频可以切割为若干段子视频,视频检测服务器也可以包括若干个计算节点,所以本实施例技术方案中,将用户上传的视频进行切割,由这些若干个计算节点同时对切割后的子视频进行检测,从而并行地对用户上传的视频进行检测,加快检测速度。
需要说明的是,在对用户上传的视频进行切割时,可以综合考虑用户上传的视频的时间长度和检测服务器中处于空闲状态的计算节点的个数,以决定切割后的每段子视频的长度,切割后的子视频的长度可以相同也可以不同,对此,本实施例技术方案并不作限制,但应保证子视频的时间长度都大于某一时间长度阈值,比如10s、20s、60s,以保证每一段子视频中都包含一定的完整的语义信息。
在可选的实施例技术方案中,所述n个计算节点中的至少一个计算节点处理完毕分配到的封装后的子视频后,若还有未分配的封装后的子视频,将所述未分配的封装后的子视频中的至少一段封装后的子视频分配给所述至少一个计算节点进行语音信息提取。
在大部分情况下,对用户上传的视频进行切割后的子视频的个数大于视频检测服务器中处于空闲状态的计算节点的个数,当某个计算节点处理完分配的封装后的子视频后,如果还有未分配的封装后的子视频,可以将此未分配的封装后的子视频分配给此处于空闲状态的计算节点。
在可选的实施例技术方案中,所述从待检测视频中提取命名实体序列,具体包括:
将所述待检测视频分割为i段子视频,为所述i段子视频中的每个子视频设置时间戳;
将所述i段子视频中的每个子视频以及所述每个子视频对应的时间戳进行封装,得到i段封装后的子视频;
将所述i段封装后的子视频分配给j个计算节点,所述j个计算节点中的每个计算节点至少分配到一段封装后的子视频,其中i≥j;
所述j个计算节点中的每个计算节点对分配到的封装后的子视频进行命名实体提取,得到若干命名实体子序列。
在可选的实施例技术方案中,所述j个计算节点中的每个计算节点对分配到的封装后的子视频进行命名实体提取,得到若干命名实体子序列,具体包括:
对所述封装后的子视频进行分帧处理,得到视频帧图像序列;
提取所述视频帧图像序列中的文字信息;
对所述文字信息进行分词处理,得到命名实体子序列。
在可选的实施例技术方案中,如果所述待检测视频符合所述预设条件,待所述预先建立的关键字词库更新后,依据更新后的关键字词库重新对所述待检测视频进行检测。
在可选的实施例技术方案中,所述根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置之后,还包括:将所述待检测视频标记为违规视频,输出警告信息。
本实施例技术方案中,随着时间的推移,预先建立的关键字词库中的字词可能发生变化,例如根据用户的举报,部分字词可能增加到关键字词库中,或者根据场景的不同,可能使用另外一套关键字词库,又或者,随着时间的推移,一些本来不是违规或敏感的字词可能变成违规或敏感字词,此时应更新关键字词库,并依据更新后的关键字词库重新对所述待检测视频进行检测。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图6为本说明书实施例提供的对应于图3的一种对视频内容进行检测的装置的结构示意图。如图6所示,该装置可以包括:
命名实体提取模块602,用于从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
比对模块604,用于将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
判断模块606,用于根据所述比对结果,判断所述待检测视频是否符合预设条件;
定位模块608,用于如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
可以理解,上述的各模块是指计算机程序或者程序段,用于执行某一项或多项特定的功能。此外,上述各模块的区分并不代表实际的程序代码也必须是分开的。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。图5为本说明书实施例提供的对应于图1的一种对视频内容进行检测的设备结构示意图。如图6所示,设备500可以包括:
至少一个处理器510;以及,
与所述至少一个处理器通信连接的存储器530;其中,
所述存储器530存储有可被所述至少一个处理器510执行的指令520,所述指令被所述至少一个处理器510执行。
所述指令可以使所述至少一个处理器510能够:
从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
根据所述比对结果,判断所述待检测视频是否符合预设条件;
如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
基于同样的思路,本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现以下方法:
从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
根据所述比对结果,判断所述待检测视频是否符合预设条件;
如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。
本说明书实施例提供的装置、设备与方法是对应的,因此,装置、设备也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包括有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包括在本申请的权利要求范围之内。

Claims (12)

1.一种对视频内容进行检测的方法,包括:
从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
根据所述比对结果,判断所述待检测视频是否符合预设条件;
如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
2.根据权利要求1所述的方法,所述根据所述比对结果,判断所述待检测视频是否符合预设条件,具体包括:
如果所述命名实体序列中的至少一个命名实体与所述关键字词库中的字词匹配,则判定所述待检测视频不符合所述预设条件。
3.根据权利要求1所述的方法,所述从待检测视频中提取命名实体序列,具体包括:
从所述待检测视频中提取语音信息;
对所述语音信息进行处理,得到命名实体序列。
4.根据权利要求3所述的方法,所述从所述待检测视频中提取语音信息,具体包括:
将所述待检测视频分割为m段子视频,为所述m段子视频中的每个子视频设置时间戳;
将所述m段子视频中的每个子视频以及所述每个子视频对应的时间戳进行封装,得到m段封装后的子视频;
将所述m段封装后的子视频分配给n个计算节点,所述n个计算节点中的每个计算节点至少分配到一段封装后的子视频,其中m≥n;
所述n个计算节点中的每个计算节点对分配到的封装后的子视频进行语音信息提取;
待对所述m段封装后的子视频进行语音信息提取完毕后,按照时间戳顺序将提取得到的语音信息进行整合,得到整合后的语音信息。
5.根据权利要求4所述的方法,所述n个计算节点中的至少一个计算节点处理完毕分配到的封装后的子视频后,若还有未分配的封装后的子视频,将所述未分配的封装后的子视频中的至少一段封装后的子视频分配给所述至少一个计算节点进行语音信息提取。
6.根据权利要求1所述的方法,所述从待检测视频中提取命名实体序列,具体包括:
将所述待检测视频分割为i段子视频,为所述i段子视频中的每个子视频设置时间戳;
将所述i段子视频中的每个子视频以及所述每个子视频对应的时间戳进行封装,得到i段封装后的子视频;
将所述i段封装后的子视频分配给j个计算节点,所述j个计算节点中的每个计算节点至少分配到一段封装后的子视频,其中i≥j;
所述j个计算节点中的每个计算节点对分配到的封装后的子视频进行命名实体提取,得到若干命名实体子序列。
7.根据权利要求6所述的方法,所述j个计算节点中的每个计算节点对分配到的封装后的子视频进行命名实体提取,得到若干命名实体子序列,具体包括:
对所述封装后的子视频进行分帧处理,得到视频帧图像序列;
提取所述视频帧图像序列中的文字信息;
对所述文字信息进行分词处理,得到命名实体子序列。
8.根据权利要求1所述的方法,还包括:
如果所述待检测视频符合所述预设条件,待所述预先建立的关键字词库更新后,依据更新后的关键字词库重新对所述待检测视频进行检测。
9.根据权利要求1所述的方法,所述根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置之后,还包括:将所述待检测视频标记为违规视频,输出警告信息。
10.一种对视频内容进行检测的装置,包括:
命名实体提取模块,用于从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
比对模块,用于将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
判断模块,用于根据所述比对结果,判断所述待检测视频是否符合预设条件;
定位模块,用于如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
11.一种对视频内容进行检测的设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述处理器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
从待检测视频中提取命名实体序列以及所述命名实体序列中的每个命名实体所对应的时间戳信息;
将所述每个命名实体与预先建立的关键字词库中的字词进行比对,得到比对结果;所述关键字词库包含预设违规字词;
根据所述比对结果,判断所述待检测视频是否符合预设条件;
如果所述待检测视频不符合所述预设条件,根据违规的命名实体的时间戳信息标识所述待检测视频中的不符合所述预设条件部分在所述待检测视频中的位置。
12.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1-9中任一项所述的对视频内容进行检测的方法。
CN202111118332.6A 2021-09-22 2021-09-22 对视频内容进行检测的方法、装置、设备和可读介质 Pending CN113850184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111118332.6A CN113850184A (zh) 2021-09-22 2021-09-22 对视频内容进行检测的方法、装置、设备和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111118332.6A CN113850184A (zh) 2021-09-22 2021-09-22 对视频内容进行检测的方法、装置、设备和可读介质

Publications (1)

Publication Number Publication Date
CN113850184A true CN113850184A (zh) 2021-12-28

Family

ID=78979544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111118332.6A Pending CN113850184A (zh) 2021-09-22 2021-09-22 对视频内容进行检测的方法、装置、设备和可读介质

Country Status (1)

Country Link
CN (1) CN113850184A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114979727A (zh) * 2022-05-18 2022-08-30 雨果网(厦门)跨境电商有限公司 一种广告违规聚集审核系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN110085213A (zh) * 2019-04-30 2019-08-02 广州虎牙信息科技有限公司 音频的异常监控方法、装置、设备和存储介质
CN110418161A (zh) * 2019-08-02 2019-11-05 广州虎牙科技有限公司 视频审核方法及装置、电子设备及可读存储介质
CN110852231A (zh) * 2019-11-04 2020-02-28 云目未来科技(北京)有限公司 违规视频检测方法、装置以及存储介质
CN112202932A (zh) * 2020-12-07 2021-01-08 北京欣博电子科技有限公司 一种基于边缘计算的对视频进行结构化分析的方法及装置
CN112464036A (zh) * 2020-11-24 2021-03-09 行吟信息科技(武汉)有限公司 一种违规数据的审核方法及装置
CN112860943A (zh) * 2021-01-04 2021-05-28 浙江诺诺网络科技有限公司 一种教学视频审核方法、装置、设备及介质
CN112995696A (zh) * 2021-04-20 2021-06-18 共道网络科技有限公司 一种直播间违规检测方法及装置
CN113163153A (zh) * 2021-04-06 2021-07-23 游密科技(深圳)有限公司 视频会议中违规信息的处理方法、装置、介质及电子设备
CN113223558A (zh) * 2021-04-30 2021-08-06 广州虎牙科技有限公司 音频数据消音方法、装置、电子设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN110085213A (zh) * 2019-04-30 2019-08-02 广州虎牙信息科技有限公司 音频的异常监控方法、装置、设备和存储介质
CN110418161A (zh) * 2019-08-02 2019-11-05 广州虎牙科技有限公司 视频审核方法及装置、电子设备及可读存储介质
CN110852231A (zh) * 2019-11-04 2020-02-28 云目未来科技(北京)有限公司 违规视频检测方法、装置以及存储介质
CN112464036A (zh) * 2020-11-24 2021-03-09 行吟信息科技(武汉)有限公司 一种违规数据的审核方法及装置
CN112202932A (zh) * 2020-12-07 2021-01-08 北京欣博电子科技有限公司 一种基于边缘计算的对视频进行结构化分析的方法及装置
CN112860943A (zh) * 2021-01-04 2021-05-28 浙江诺诺网络科技有限公司 一种教学视频审核方法、装置、设备及介质
CN113163153A (zh) * 2021-04-06 2021-07-23 游密科技(深圳)有限公司 视频会议中违规信息的处理方法、装置、介质及电子设备
CN112995696A (zh) * 2021-04-20 2021-06-18 共道网络科技有限公司 一种直播间违规检测方法及装置
CN113223558A (zh) * 2021-04-30 2021-08-06 广州虎牙科技有限公司 音频数据消音方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114979727A (zh) * 2022-05-18 2022-08-30 雨果网(厦门)跨境电商有限公司 一种广告违规聚集审核系统

Similar Documents

Publication Publication Date Title
US11132281B2 (en) Applying consistent log levels to application log messages
Galvez et al. The people's speech: A large-scale diverse english speech recognition dataset for commercial usage
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
CN111339250B (zh) 新类别标签的挖掘方法及电子设备、计算机可读介质
US11132108B2 (en) Dynamic system and method for content and topic based synchronization during presentations
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
CN109582948B (zh) 评价观点抽取的方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN112037819B (zh) 一种基于语义的语音质检方法和装置
US10592236B2 (en) Documentation for version history
US9916158B2 (en) Cognitive feature analytics
US9558462B2 (en) Identifying and amalgamating conditional actions in business processes
CN112397073A (zh) 一种音频数据处理方法及装置
CN112287071A (zh) 一种文本关系提取方法、装置及电子设备
CN113011169A (zh) 一种会议纪要的处理方法、装置、设备及介质
CN113850184A (zh) 对视频内容进行检测的方法、装置、设备和可读介质
CN109492401B (zh) 一种内容载体风险检测方法、装置、设备及介质
CN111488737B (zh) 文本识别方法、装置及设备
CN106294765A (zh) 处理新闻数据的方法及装置
US20200104356A1 (en) Experiential parser
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN113837772B (zh) 一种对营销信息进行审核的方法、装置及设备
CN113935748A (zh) 一种抽检对象的筛选方法、装置、设备及介质
CN112667855B (zh) 区块链数据管理方法、电子设备及计算机存储介质
CN114021064A (zh) 网站分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination