CN109151502A

CN109151502A - 识别违规视频方法、装置、终端和计算机可读存储介质

Info

Publication number: CN109151502A
Application number: CN201811184309.5A
Authority: CN
Inventors: 李元朋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-01-04

Abstract

本发明实施例提出一种识别违规视频方法、装置、终端和计算机可读存储介质，方法包括获取视频；识别视频中是否含有待识别人脸；其中，待识别人脸为超出阈值数量的帧数内均含有的人脸；若含有待识别人脸，则获取待识别人脸的面部特征信息，并与人脸数据库中预设人物的面部特征信息匹配；若匹配成功，则将所述视频进行预定处理。通过采集视频中的人脸的面部特征信息并与数据库中的预设人物进行匹配，可以准确的识别出具有预设人物的视频，并及时对该视频进行预定处理。

Description

识别违规视频方法、装置、终端和计算机可读存储介质

技术领域

本发明涉及内容识别技术领域，尤其涉及一种识别违规视频方法、装置、终端和计算机可读存储介质。

背景技术

现有的广播、电视节目和网络视频在播放广告时，为了获取高额的利益，会在某一监管力度较弱的时段(例如夜间)播放违规的广告。对公众造成一定的不良影响。并且，由于广告是实时播放且会不定期更新内容的，因此很难做到实时且有效的监控广告内容。

在背景技术中公开的上述信息仅用于加强对本发明的背景的理解，因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。

发明内容

本发明实施例提供一种识别违规视频方法、装置、终端和计算机可读存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种识别违规视频方法，包括：

获取视频；

识别所述视频中是否含有待识别人脸；其中，所述待识别人脸为超出阈值数量的帧数内均含有的人脸；

若含有所述待识别人脸，则获取所述待识别人脸的面部特征信息，并与人脸数据库中预设人物的面部特征信息匹配；

若匹配成功，则将所述视频进行预定处理。

在一种实施方式中，还包括：

识别所述视频中是否含有待识别语音；其中，所述待识别语音为超出阈值时间的语音；

若含有所述待识别语音，则识别所述待识别语音的语音内容，并与语音数据库中的敏感词语进行匹配；

若匹配成功，则将所述视频进行预定处理。

在一种实施方式中，还包括：

识别所述视频中是否含有待识别文字；其中，所述待识别文字为超出阈值数量的帧数内显示的文字；

若含有所述待识别文字，则将所述待识别文字的文本信息与文字数据库中的敏感词文本进行匹配；

若匹配成功，则将所述视频进行预定处理。

在一种实施方式中，还包括：

所述人脸数据库实时或定期的进行预设人物的数据更新，以解禁或增加所述预设人物。

在一种实施方式中，所述人脸数据库实时或定期的进行预设人物的数据更新，以解禁或增加所述预设人物，包括：

获取所述预设人物最新的人物画像；

根据所述最新的人物画像的各标签，判断是否解禁所述预设人物。

在一种实施方式中，所述视频至少包括广告视频、影视视频或网络视频。

在一种实施方式中，所述预定处理至少包括视频进行预定处理、与预设人物相匹配人物的面部遮挡或屏蔽含有与预设人物相匹配人物的帧。

第二方面，本发明实施例提供了一种识别违规视频装置，包括：

获取模块，用于获取视频；

人脸识别模块，用于识别所述视频中是否含有待识别人脸；其中，所述待识别人脸为超出阈值数量的帧数内均含有的人脸；

人脸匹配模块，若含有所述待识别人脸，则获取所述待识别人脸的面部特征信息，并与人脸数据库中预设人物的面部特征信息匹配；若匹配成功，则将所述视频进行预定处理。

在一种实施方式中，还包括：

语音识别模块，用于识别所述视频中是否含有待识别语音；其中，所述待识别语音为超出阈值时间的语音；

语音匹配模块，用若含有所述待识别语音，则识别所述待识别语音的语音内容，并与语音数据库中的敏感词语进行匹配；若匹配成功，则将所述视频进行预定处理。

在一种实施方式中，还包括：

文字识别模块，用于识别所述视频中是否含有待识别文字；其中，所述待识别文字为超出阈值数量的帧数内显示的文字；

文字匹配模块，用于若含有所述待识别文字，则将所述待识别文字的文本信息与文字数据库中的敏感词文本进行匹配；若匹配成功，则将所述视频进行预定处理。

第三方面，本发明实施例提供了一种识别违规视频的终端，包括：

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，识别违规视频的终端的结构中包括处理器和存储器，所述存储器用于存储支持识别违规视频的终端执行上述第一方面中识别违规视频的方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。识别违规视频的终端还可以包括通信接口，用于识别违规视频的终端与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储识别违规视频的终端所用的计算机软件指令，其包括用于执行上述第一方面中识别违规视频的方法为识别违规视频的终端所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过采集视频中的人脸的面部特征信息并与数据库中的预设人物进行匹配，可以准确的识别出具有预设人物的视频，并及时对该视频进行预定处理。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明第一实施方式提供的识别违规视频方法的流程图。

图2为本发明第二实施方式提供的识别违规视频方法的流程图。

图3为本发明第三实施方式提供的识别违规视频方法的流程图。

图4为本发明第四实施方式提供的识别违规视频方法的流程图。

图5为本发明第五实施方式提供的识别违规视频方法的流程图。

图6为本发明第五实施方式提供的步骤S800的具体流程图。

图7为本发明实施方式提供的识别违规视频装置结构示意图。

图8为本发明实施方式提供的识别违规视频装置结构示意图。

图9为本发明实施方式提供的识别违规视频装置结构示意图。

图10为本发明实施方式提供的识别违规视频终端结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例提供了一种识别违规视频方法，如图1所示，包括以下步骤：

S100：获取视频。

在一个实施例中，该视频可以是广告视频、影视视频、综艺视频或网络视频。视频可以是实时进行获取的，也可以是预先从电视节目、视频网络或网站页面后端预先获取的。广告视频可以是电视节目、网络视频或网站页面上播放的广告视频。具体的获取方式可根据应用场景和视频的播放方式进行选择和调整。若视频均为实时更新播放的广告时，则采用实时获取视频的方式。若视频均是提前配置好且按一定顺序循环播放的，则采用预先获取的方式。两种获取方式根据应用场景的不同，均能够及时、快速的获取到视频资源。

S200：识别视频中是否含有待识别人脸。其中，待识别人脸为超出阈值数量的帧数内均含有的人脸。阈值数量在此不做具体限定，可根据视频长短、视频内容进行调整。例如，视频较短时，阈值数量设定为较小值。若视频内容较为敏感时，阈值数量设定为较小值。

需要说明的是，每个视频由若干帧组成。当在一定数量的连续帧中均包含有某一相同人脸时，则判断该人脸为待识别人脸。也可以是，当一定数量的不连续帧中均包含有某一相同人脸时，则判断该人脸为待识别人脸。

S300：若含有待识别人脸，则获取待识别人脸的面部特征信息，并与人脸数据库中预设人物的面部特征信息匹配。若匹配成功，则将视频进行预定处理。预设人物可以从个人主观行为角度定义，例如违法、负面新闻较多或是具有劣迹的公众人物。预设人物也可以根据视频类型进行定义，例如广告视频为有效药品广告，则禁止名人进行代言。

在一个实施例中，预定处理至少包括视频禁播、与预设人物相匹配人物的面部遮挡(如马赛克)或屏蔽含有与预设人物相匹配人物的帧。

由于视频的展现方式多样，视频内容可以通过人物的表情、动作、文字和/或语音的形式表现。因此，优选的从多个维度识别违规视频，在人脸识别的基础上，增加其他识别方式以提高识别出违规视频的准确度。

在一种实施方式中，如图2所示，识别违规视频的方法，还包括：

S400：识别视频中是否含有待识别语音。其中，待识别语音为超出阈值时间的语音。阈值时间可以理解为是语音的时间长度，具体的阈值时间可以根据视频长短、视频内容进行调整。根据阈值时间的设置，待识别语音可以是一句完整的话语，也可以是一个词语，或是一整段话语。

需要说明的是，待识别语音可以为视频中的任意音频，例如，待识别语音可以包括代言人说出的广告语、广告中的旁白、以及广告中人物间的对话等。

S500：若含有待识别语音，则识别待识别语音的语音内容，并与语音数据库中的敏感词语进行匹配。若匹配成功，则将视频进行预定处理。

在一个具体实施方式中，识别视频中的待识别语音，优选的将阈值时间设置的相对较长，例如，至少为连续的两句话语。这种实施方式的目的是，由于语音表述方式和词义，在不同语境中所表达的含义可能有所不同，为了减少误判的机率，提高识别准确性，可以结合上下文内容，再判断待识别语音中是否真的含有词义一直的敏感词语。

在一个实施方式中，在将待识别语音的语音内容与语音数据库中的敏感词语进行匹配时，可以通过字面比对完成匹配，和/或也通过语义比对完成匹配。由于中文表述方式多变，同样的语义可能通过不同的方式进行表达，因此通过字面比对和语义比对两种方式，能够最大限度的保证待识别语音与语音数据库中的敏感词的匹配准确度。以避免例如广告视频的广告商通过隐晦的表述方式规避违规广告的识别。

在一种实施方式中，如图3所示，识别违规视频的方法，还包括：

S600：识别视频中是否含有待识别文字。其中，待识别文字为超出阈值数量的帧数内显示的文字。阈值数量在此不做具体限定，可根据视频长短、视频内容进行调整。例如，视频较短时，阈值数量设定为较小值。若视频内容较为敏感时，阈值数量设定为较小值。

需要说明的是，每个视频由若干帧组成。当在一定数量的连续帧中均包含有某一相同文字时，则判断该文字为待识别文字。也可以是，当一定数量的不连续帧中均包含有某一相同文字时，则判断该文字为待识别文字。文字可以理解为是一个词汇、一句短语或是一段对话的文字内容。

S700：若含有待识别文字，则将待识别文字的文本信息与文字数据库中的敏感词文本进行匹配。若匹配成功，则将视频进行预定处理。

在一个实施例中，识别视频中是否含有待识别文字，可以采用OCR(OpticalCharacter Recognition，光学字符识别)的方法进行识别。

在一个实施例中，如图4所示，可以同时采用步骤S100-S300的人脸识别、S400-S500的语音识别和S600-S700的文字识别三种方式同时完成违规广告的识别。三种方式可以并行，也可以以任意顺序顺次执行。本实施例中，通过多种识别技术相结合的方式，可以从多个维度实时的对播放的视频内容进行违规监控，提高了监控强度和效率，保证了播放的视频的质量。

在一种实施方式中，如图5所示，识别违规视频的方法，还包括：

S800：人脸数据库实时或定期的进行预设人物的数据更新，以解禁或增加预设人物。

在一种实施方式中，如图6所示，人脸数据库实时或定期的进行预设人物的数据更新，以解禁或增加预设人物，包括：

S810：获取预设人物最新的人物画像。

S820：根据最新的人物画像的标签，判断是否解禁预设人物。

需要说明的是，可以根据工作需要自定义需要监控的标签，从而快速的判断是否解禁或增加预设人物。

在一个可变化的实施方式中，还可以包括：

获取公众人物的人物画像；

查找公众人物的人物画像中是否具有需要监控的标签；

若具有，则将该公众人物作为预设人物，增加到人脸数据库中。

在一个实施方式中，语音数据库实时或定期的进行数据更新，以增加或删减敏感词语。文字数据库实时或定期的进行数据更新，以增加或删减敏感词文本。

本发明实施例提供了一种识别违规视频装置，如图7所示，包括：

获取模块10，用于获取视频。

人脸识别模块20，用于识别视频中是否含有待识别人脸。其中，待识别人脸为超出阈值数量的帧数内均含有的人脸。

人脸匹配模块30，若含有待识别人脸，则获取待识别人脸的面部特征信息，并与人脸数据库中预设人物的面部特征信息匹配。若匹配成功，则将视频进行预定处理。

在一种实施方式中，如图8所示，还包括：

语音识别模块40，用于识别视频中是否含有待识别语音。其中，待识别语音为超出阈值时间的语音。

语音匹配模块50，用若含有待识别语音，则识别待识别语音的语音内容，并与语音数据库中的敏感词语进行匹配。若匹配成功，则将视频进行预定处理。

在一种实施方式中，如图9所示，还包括：

文字识别模块60，用于识别视频中是否含有待识别文字。其中，待识别文字为超出阈值数量的帧数内显示的文字。

文字匹配模块70，用于若含有待识别文字，则将待识别文字的文本信息与文字数据库中的敏感词文本进行匹配。若匹配成功，则将视频进行预定处理。

本发明实施例提供了一种识别违规视频的终端，如图10所示，包括：

存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行计算机程序时实现上述实施例中的识别违规视频的方法。存储器910和处理器920的数量可以为一个或多个。

通信接口930，用于存储器910和处理器920与外部进行通信。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920、以及通信接口930独立实现，则存储器910、处理器920以及通信接口930可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920以及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如实施例一包括的任一所述的识别违规视频的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤、方法、装置或模块可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种识别违规视频的方法，其特征在于，包括：

获取视频；

若匹配成功，则将所述视频进行预定处理。

2.如权利要求1所述的方法，其特征在于，还包括：

若匹配成功，则将所述视频进行预定处理。

3.如权利要求1所述的方法，其特征在于，还包括：

若匹配成功，则将所述视频进行预定处理。

4.如权利要求1所述的方法，其特征在于，还包括：

5.如权利要求4所述的方法，其特征在于，所述人脸数据库实时或定期的进行预设人物的数据更新，以解禁或增加所述预设人物，包括：

获取所述预设人物最新的人物画像；

6.如权利要求1所述的方法，其特征在于，所述视频至少包括广告视频、影视视频或网络视频。

7.如权利要求1所述的方法，其特征在于，所述预定处理至少包括视频禁播、与预设人物相匹配人物的面部遮挡或屏蔽含有与预设人物相匹配人物的帧。

8.一种识别违规视频的装置，其特征在于，包括：

获取模块，用于获取视频；

9.如权利要求8所述的装置，其特征在于，还包括：

10.如权利要求8所述的装置，其特征在于，还包括：

11.一种识别违规视频终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。