CN111986259A

CN111986259A - 颜文字检测模型的训练、视频数据的审核方法及相关装置

Info

Publication number: CN111986259A
Application number: CN202010866298.XA
Authority: CN
Inventors: 薛昊
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-24

Abstract

本发明实施例提供了颜文字检测模型的训练、视频数据的审核方法及相关装置，该方法包括：采集颜文字及相应的类别；获取包含文字的图像数据、作为样本图像数据；参考文字将颜文字写入样本图像数据中，以模拟用户将颜文字与文字作为短文书写在样本图像数据中；确定颜文字在样本图像数据中所处的位置；以样本图像数据作为训练的样本、类别与位置作为标签，训练颜文字检测模型。模拟用户将颜文字与文字编排成短文制作样本，能够获得更为真实、贴近网络宣传内容的训练样本集，再对样本中颜文字的类别和位置标记标签，可提高模型对内容违规特征的检测效率，保证审核模型的性能。

Description

颜文字检测模型的训练、视频数据的审核方法及相关装置

技术领域

本发明实施例涉及内容审核的技术领域，尤其涉及颜文字检测模型的训练、视频数据的审核方法及相关装置。

背景技术

随着互联网技术的发展，颜文字(又称表情符号)在社交网络中出现的频次越来越高，由于颜文字的种类丰富，通过颜文字本身、多种颜文字的组合均可以表达一定的语义信息，增加了沟通表达的趣味性，越来越多的网络用户使用颜文字来代替语言文字本身。

有些用户利用颜文字本身携带语义信息的特性，在视频、图像中将颜文字(如emoji)代替部分语言文字，从而隐藏一些敏感信息，这些敏感信息可能涉及恐怖、暴力、色情、赌博、负面社会舆论等，对于短视频等制作简单、传播速度快的视频数据，尤为明显。

通常，各大网络平台会对用户上传的视频、图像内容进行审核，从而过滤其中包含违规内容的视频。

目前，网络平台通常采用图像语义对视频和图像内容进行审核，图像语义是针对图像内容本身违规的数据，由于颜文字本身是符合规定的，与使用图像语义进行审核，容易遗漏颜文字，此时，是依靠人工进行审核，但人工审核需要消耗大量人力成本且审核耗时长，导致审核的效率较低。

发明内容

本发明实施例提出了颜文字检测模型的训练、视频数据的审核方法及相关装置，以解决利用图像语义进行内容审核，容易遗漏颜文字的问题。

第一方面，本发明实施例提供了一种颜文字检测模型的训练方法，包括：

采集颜文字及相应的类别；

获取包含文字的图像数据、作为样本图像数据；

参考所述文字将所述颜文字写入所述样本图像数据中，以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中；

确定所述颜文字在所述样本图像数据中所处的位置；

以所述样本图像数据作为训练的样本、所述类别与所述位置作为标签，训练颜文字检测模型。

第二方面，本发明实施例还提供了一种视频数据的审核方法，包括：

接收视频数据；

从所述视频数据中提取部分图像数据，作为目标图像数据；

确定颜文字检测模型；

将所述目标图像数据输入所述颜文字检测模型中进行处理，以预测颜文字的位置及适于内容审核的类别；

对所述视频数据标记所述颜文字在所述目标图像数据中所处的所述位置及所述类别。

第三方面，本发明实施例还提供了一种颜文字检测模型的训练装置，包括：

图像数据采集模块，用于采集颜文字及相应的类别；

样本图像数据获取模块，用于获取包含文字的图像数据、作为样本图像数据；

样本图像数据处理模块，用于参考所述文字将所述颜文字写入所述样本图像数据中，以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中；

颜文字位置确定模块，用于确定所述颜文字在所述样本图像数据中所处的位置；

检测模型训练模块，用于以所述样本图像数据作为训练的样本、所述类别与所述位置作为标签，训练颜文字检测模型。

第四方面，本发明实施例还提供了一种视频数据的审核装置，包括：

视频数据接收模块，用于接收视频数据；

目标图像数据提取模块，用于从所述视频数据中提取部分图像数据，作为目标图像数据；

检测模型确定模块，用于确定颜文字检测模型；

检测模型处理模块，用于将所述目标图像数据输入所述颜文字检测模型中进行处理，以预测颜文字的位置及适于内容审核的类别；

颜文字标记模块，用于对所述视频数据标记所述颜文字在所述目标图像数据中所处的所述位置及所述类别。

第五方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的颜文字检测模型的训练方法或者如第二方面所述的视频数据的审核方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的颜文字检测模型的训练方法或者如第二方面所述的视频数据的审核方法。

在本实施例中，采集颜文字及相应的类别，获取包含文字的图像数据、作为样本图像数据，参考文字将颜文字写入样本图像数据中，以模拟用户将颜文字与文字作为短文书写在样本图像数据中，确定颜文字在样本图像数据中所处的位置，以样本图像数据作为训练的样本、类别与位置作为标签，训练颜文字检测模型。模拟用户将颜文字与文字编排成短文制作样本图像数据，符合内容制作的语义逻辑，使得样本图像数据更加贴近真实的网络应用场景，能够为颜文字检测模型提供更为真实的训练数据，对样本图像数据中颜文字的类别和位置都预先标记标签，可快速从样本图像数据中定位表征敏感内容的颜文字，提高颜文字的检测效率，同时，能够进一步提高训练颜文字检测模型的效率，降低训练颜文字检测模型的成本，保证颜文字检测模型的性能。

附图说明

图1为本发明实施例一提供的一种颜文字检测模型的训练方法的流程图；

图2为本发明实施例一提供的颜文字表现在不同平台、产品中的示意图；

图3为本发明实施例一提供的一种锚点与模型输出的对应关系的示意图；

图4A为本发明实施例二提供的一种颜文字检测模型的训练方法的流程图；

图4B为本发明实施例三提供的一种颜文字检测模型的训练方法的流程图；

图5是本发明实施例三提供的一种颜文字特征提取网络的结构示意图；

图6是本发明实施例三提供的一种视频数据的审核方法的流程图；

图7为本发明实施例四提供的一种颜文字检测模型的训练装置的结构示意图；

图8为本发明实施例五提供的一种视频数据的审核装置的结构示意图；

图9为本发明实施例六提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

依托于社交和网络的不断发展，人们之间的交流方式也出现了相应的改变，由最早的文字沟通到开始使用一些简单的符号表情、emoji表情、表情包，逐步演变为日益多元化的表情文化。这类蕴含表情文化的沟通方式增加了沟通的趣味，得到了人们的认可和追捧。

其中，emoji表情已被大多数现代计算机系统所兼容的统一码Unicode采纳，一些通用的emoji表情配置统一码Unicode，由于统一码Unicode跨平台的通用性，大多数智能终端(比如iOS、Android(安卓)系统的手机、平板，Windows、Mac OS X系统的电脑等)的输入法以及应用程序(如即时通讯工具、短视频应用、直播应用等)中都自带通用的emoji表情库，用户在聊天或者编辑信息时，可以很方便地使用emoji表情来表达自我情绪、以及代替文字来传递一些信息。

emoji作为表情文化发展潮流中使用最长久、最广泛的一种表情符号，其通用表情的数量至今已经超过3000种。

然而，表情文化的日益丰富也增加了网络信息的审核难度。因为如今的内容审核技术针对文字本身表达敏感内容的检测已经很完善了，但对基于emoji这种本身符合规范、但可用于隐藏违规信息的表示表情的图像数据进行审核还存在缺陷，因此，有些传递违规信息的用户会针对目前网络平台审核机制对图像内容检测的缺陷，采用emoji以及emoji的组合来代替语言文字本身表达一些违反规定的语义信息，多涉及恐怖、暴力、色情、赌博等违规内容。

实施例一

图1为本发明实施例一提供的一种颜文字检测模型的训练方法的流程图，本实施例可适用于在模拟用户的书写行为自动生成包含颜文字的样本，从而训练用于检测颜文字的颜文字检测模型的情况，该方法可以由颜文字检测模型的训练装置来执行，该颜文字检测模型的训练装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，该方法具体包括如下步骤：

S101、采集颜文字及相应的类别。

一些表示表情的图像数据，因其可表示丰富的内容，在本质上可以被看作一种文字，因此，这些图像数据也常被称为颜文字。

在本实施例中，可以从各个厂商提供的表情库、网络爬虫、表情包等方式收集颜文字，并基于内容审核的需求对颜文字进行分类，使得颜文字关联有适于内容审核的类别，从而将颜文字作为训练的样本、将类别作为训练的标签(Tag)。

进一步而言，适于内容审核的类别可分为敏感类别和非敏感类别。

该敏感类别是基于用户对涉及恐怖、涉及暴力、涉及色情、涉及赌博等违规内容的敏感性进行设置的。

对于每个敏感类别，可以包括表情相同或相似的颜文字。

例如，表示“茄子”、“香蕉”、“黄瓜”的颜文字可被用作表示对男性的性暗示，可以分别针对“茄子”、“香蕉”、“黄瓜”设置三种敏感类别；表示“桃子”的颜文字可被用作表示对女性的性暗示，可以针对“桃子”设置一种敏感类别；表示“小恶魔”的颜文字可被用作暗示恋童癖，可以针对“小恶魔”设置一种敏感类别，表示“舔口水”的图像数据会被用作暗示猥琐，可以针对“舔口水”设置一种敏感类别，等等。

除敏感类别之外的颜文字可以划分至非敏感类别。

例如，表示“笑脸”、“爱心”、“星星”的颜文字可划分至非敏感类别。

需要说明的是，“(*^▽^*)”、“o(╥﹏╥)o”、“o(′^｀)o”等标点符号的组合可表示表情，但其属于语言文字本身，并非本实施例所指的颜文字。

在一个采集颜文字的示例中，由于统一码Unicode为每种语言中的每个字符设定了统一且唯一的二进制编码，可以满足跨语言、跨平台进行文本转换、处理的要求，因此，许多编辑短视频、广告、推文等内容的编辑应用都会带有标记有统一码Unicode的表情库，而内容生产者可以将这些编辑应用中的表情库中的表情(图像数据)添加至新制作的短视频、广告、推文中。

在本示例中，可以收集不同的表情库，从该表情库中获取多个表示表情的图像数据、从而作为颜文字，在表情库中，已为这些颜文字标记统一码Unicode。

针对不同的表情库，对于同一个统一码Unicode的表情，其表现形式上可能会存在一定的差异，例如，如图2所示，针对“smiling face with hearts(带爱心的笑脸)”这个表情，该颜文字在手机品牌A、手机品牌B、手机品牌C、手机品牌D这四个平台上所展现的图像样式是不同的，在应用E、应用F、应用G这三个应用程序上所展现的图像样式也是不同的，但这些颜文字的Unicode码均为U+1F60D。

针对不同的颜文字，可以对比其统一码Unicode，从而对颜文字进行分类，全面地对颜文字构建数据库。

若对比不同的颜文字，其统一码Unicode相同，则可以针对统一码Unicode设置适于内容审核的类别，将该统一码Unicode下的颜文字划分至该类别中，使得具有同一统一码Unicode的颜文字划分在同一个类别中。

一般而言，颜文字在其发展的过程中，经过多个版本的更新，即便同一个平台、同一个应用程序所提供的、同一个统一码Unicode的颜文字，在表现形式上也会存在差异，如果人工标记颜文字的类别，会存在标记错误的问题，在本示例中，根据颜文字的统一码Unicode建立关联内容审核的类别的颜文字的数据库，可覆盖不法分子使用颜文字制作新的违规信息，保证样本的全面性，从而保证颜文字检测模型的性能，由于统一码Unicode是固定的，可避免分类错误，保证分类的准确性；并且，针对统一码Unicode对颜文字进行分类，能够实现对颜文字的自动标注，操作简便，无需人工标注，提高了训练颜文字检测模型的效率，降低了训练颜文字检测模型的成本，可以将耗时2-3个月的人工标注工作，减少至一周完成。

需要说明的是，本实施例中采集表示表情的图像数据、作为颜文字还可以是自定义的表情包。

当然，上述基于统一码Unicode对颜文字划分类别只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他对颜文字划分类别的方式，例如，采集一些不具有统一码Unicode的通用的表情作为颜文字，这些颜文字可能是针对emoji表情进行改动(如放大、多个叠加)过的图像数据，也可能是用户以时下流行的明星、语录、动漫、影视截图为素材，配上一系列相匹配的文字，用以表达特定情感的图像数据，使用分类器对这些颜文字划分类别，或者人工标注类别，等等，本发明实施例对此不加以限制。另外，除了上述对颜文字划分类别的方式外，本领域技术人员还可以根据实际需要采用其它对颜文字划分类别的方式，本发明实施例对此也不加以限制。

S102、获取包含文字的图像数据、作为样本图像数据。

在本实施例中，可预先通过从网络中的页面抓取包含文字的图像数据、累积用户上传的包含文字的图像数据、从公开的数据库中下载包含文字的图像数据等方式，获取包含文字的图像数据，作为训练颜文字检测模型的样本，为便于区分，该图像数据在本实施例中称之为样本图像数据。

S103、参考文字将颜文字写入样本图像数据中，以模拟用户将颜文字与文字作为短文书写在样本图像数据中。

在实际应用中，非法网络内容(视频数据、图像数据)的生产者(用户)会将颜文字与文字结合在一起编辑成短文，并选取适当的背景图像数据进行贴合，从而制作出具有宣传性质的内容。

本实施例为了使得构建的样本图像数据更接近实际场景，可以通过视觉算法和预设的规则将颜文字作为素材写入样本图像数据中，从而模拟用户将颜文字与文字作为短文书写在样本图像数据中。

S104、确定颜文字在样本图像数据中所处的位置。

在本实施例中，因为样本图像数据中颜文字与文字所组合成的短文具有一定的行文逻辑，颜文字与文字息息相关，颜文字与文字之间的空间位置布局也是具有一定规律的，颜文字可能与文字分布在同一行，也可能颜文字的组合内容独立分布在一行，或者，颜文字分布在样本图像数据中的非文本区域。

例如，颜文字可能会添加在某一行文字的开头位置，或者，添加在某一文字段落的末尾位置，或者，添加在两段行文的中间过渡位置，或者，添加在除了文字区域的其他空白区域，等等。

因此，在将颜文字写入样本图像数据时，记录颜文字在样本图像数据中的位置，作为训练的标签(Tag)。

S105、以样本图像数据作为训练的样本、类别与位置作为标签，训练颜文字检测模型。

在本实施例中，由于每一个样本图像数据中可能具有多个不同类别的颜文字，这些颜文字在样本图像数据中所处的位置也不同，可预先对样本图像数据标记表征颜文字的类别以及颜文字的位置，以样本图像数据作为训练样本、该类别和颜文字在样本图像数据中所处的位置作为标签，通过预设的目标检测模型进行训练，在训练完成时，该目标检测模型可视为颜文字检测模型，并存储其模型参数。

其中，预设的目标检测模型是基于深度学习框架的目标检测模型，并非传统的以滑动窗口为主要框架的目标检测模型。

所谓目标检测,是指找到一帧图像数据中所有目标物体的位置以及该目标物体的类别。

在具体实现中，该目标检测模型包括一阶(One Stage)目标检测模型和二阶(TwoStage)目标检测模型。

其中，生成一系列作为样本的候选框，再通过卷积神经网络CNN(ConvolutionalNeural Network)进行样本分类的目标检测模型被称为二阶目标检测模型，例如，R-CNN、SPP-Net、Fast R-CNN、Faster-RCNN，等等。

无需生成候选框，直接将目标边框定位的问题转化为回归问题进行处理的目标检测模型则被称为一阶目标检测模型，例如，G-CNN、YOLO(You Only Look Once)、SSD(SingleShot Mutibox Detector)，等等。

为使本领域技术人员更好地理解本实施例，在本实施例中，将SSD作为目标检测模型的一种示例进行说明。

在本示例中，将标记有颜文字的类别与位置的样本图像数据输入到SSD模型中，SSD均匀地在样本图像数据的不同位置进行密集抽样，抽样时采用不同尺度和长宽比的锚点(Anchor，也被称为先验框、锚框)，利用卷积神经网络CNN提取样本图像数据的特征，对样本图像数据中的颜文字进行分类与回归，整个过程可归纳为一步(One Stage)，检测速度较快。其中，锚点是指具有不同尺度和长宽比的边界框。

如图3所示，SSD最后的完整输出可以看成是一个包含多个网络块的长方体310,这个长方体310长宽都为m,把一个完整的长方体310拆分成k*m*m个小立方体作为单独输出，每一个单独输出都与一个锚点对应，例如，小立方体311对应输入图像320的锚点321，小立方体312对应输入图像320的锚点322。

在本示例中，将SSD输出的颜文字的类别、位置与作为标签的类别、位置进行比较，计算模型的损失值，基于损失值更新SSD的模型参数，对SSD进行重复训练，直到损失值小于预设的阈值或者不再变化，则判断SSD收敛，结束SSD的训练过程，将训练完成后的SSD作为颜文字检测模型。

在本实施例中，采集颜文字及相应的类别，获取包含文字的图像数据、作为样本图像数据，参考文字将颜文字写入样本图像数据中，以模拟用户将颜文字与文字作为短文书写在样本图像数据中，确定颜文字在样本图像数据中所处的位置，以样本图像数据作为训练的样本、类别与位置作为标签，训练颜文字检测模型。模拟用户将颜文字与文字编排成短文制作样本图像数据，符合内容制作的语义逻辑，使得样本图像数据更加贴近非法用户真实制作违规内容的场景，能够为颜文字检测模型提供更为真实的训练数据，从而保证颜文字检测模型的性能，可在内容审核中识别出颜文字，减少或避免因人工审核而造成的人力成本，审核耗时少，可提高审核效率，并且，自动对样本图像数据中颜文字的类别和位置标记标签，操作简便、耗时少，可大大降低人工标注的成本，提高训练颜文字检测模型的效率。

实施例二

图4A为本发明实施例二提供的一种颜文字检测模型的训练方法的流程图，本实施例以前述实施例为基础，进一步细化将颜文字写入样本图像数据中，以模拟用户将颜文字与文字作为短文书写在样本图像数据中的操作，并且增加了对样本图像数据进行预处理的操作，该方法具体包括如下步骤：

S401、获取颜文字与样本图像数据。

在本实施例中，为训练颜文字检测模型，可获取颜文字与样本图像数据作为训练的样本，其中，颜文字为表示表情的图像数据，样本图像数据为包含文字的图像数据。

对于颜文字，可收集大量表示表情(主要是emoji表情)的图像数据，将这些图像数据划分为敏感类别和非敏感类别，鉴于内容审核的需求，可针对敏感类别下的图像数据，再次进行细分。

以emoji表情为例，收集不同平台、不同产品中的emoji表情，因为Unicode码具有唯一性，可以将同一Unicode码所对应的emoji图像数据归为一个类别，并且按照Unicode码对emoji图像数据标记标签，从而可以建立较为全面的颜文字的数据库。例如，emoji表情为“桃子”和“香蕉”的图像数据都属于敏感类别，但“桃子”和“香蕉”的Unicode码不同，因此将网络平台A、网络平台B、网络平台C等不同平台下的表示“桃子”的emoji图像数据都归为一个敏感类别，而所有平台中Unicode码为“香蕉”的emoji图像数据都归为另一个类别，从而，“桃子”和“香蕉”被标记为两个不同敏感类别的标签(Tag)。

S402、模拟用户选定某个颜文字。

为了保证训练样本的数据平衡，模拟用户选定某个颜文字可以通过配置抽样概率来实现，比如，确定对每个类别配置的第四概率，按照第四概率选定某个类别，在选定的类别中随机选择颜文字。

作为一个示例，设置敏感类别中、颜文字的类别为N，非敏感类别中、颜文字的类别为1，可按照1/(N+1)的概率从各个类别的颜文字中选择颜文字。

当然，考虑到真实的环境中，非敏感类别的颜文字的数量大于敏感类别的颜文字的数量，则可以设置非敏感类别的颜文字的第四概率大于敏感类别的颜文字的第四概率，本实施例对此不加以限制。

S403、确定样本图像数据包含的文本行。

采用文字识别技术(如光学字符识别OCR)对样本图像数据识别文字，从而确定文本行的数量、位置布局、文字方向等信息，其中，每个文本行包含一个或多个文字。

S404、在样本图像数据中，模拟用户对文本行选定适于写入颜文字的位置。

在本实施例中，可预先对用户书写文本行与颜文字的书写行为抽取特征，对于当前的样本图像数据，可在该文本行中选定适于写入颜文字的位置，使得颜文字写入该文本行的该位置时，符合用户书写文本行与颜文字这个书写行为的特征。

在一种方式中，可以查询选定的颜文字的属性，从而确定选定的颜文字的尺寸，在样本图像数据中，确定其他颜文字所处的位置、文本行的位置，将选定的颜文字的尺寸、其他颜文字所处的位置、文本行的位置输入预先设置的映射函数中，从而基于选定的颜文字的尺寸、其他颜文字所处的位置、文本行的位置，在文本行的首部和/或尾部确定一位置，以使用颜文字写入首部和/或尾部的位置中时符合第一条件。

其中，该映射函数用于选择符合第一条件的位置，该第一条件为选定的颜文字与其他颜文字、文本行之间重叠的面积占选定的颜文字的比例小于预设的第一面积阈值。第一面积阈值是指选定的颜文字与其他颜文字、文本行之间重叠的面积占据该颜文字自身面积的最大比例，避免样本图像数据中的文字、其他颜文字被当前选定的颜文字遮挡，导致表达出的语义信息不完整。

作为一个示例，预先设置第一面积阈值为15％，即模拟用户将颜文字添加在文本行中的分布，以满足该添加的颜文字与任意文本行、其他颜文字的重叠面积小于当前颜文字面积的15％。

需要说明的是，本实施例对于颜文字写入文本行的位置的选择方式不作限定，例如，在样本图像数据中，基于语义表达的逻辑，颜文字还可以代替一些字词写入选定的文本行的中间位置，但为了文本阅读的完整性和可理解性，颜文字在写入文本行的中间位置时依旧需要满足第一条件。

S405、将选定的颜文字写入选定好的位置，以模拟用户将颜文字与文本行作为短文中的短句书写在样本图像数据中。

当前，基于光学字符识别的技术手段、使用正值表达式来对网络平台中的文字违规信息进行过滤的审核手段已经较为完善，涉及恐怖、涉及暴力、涉及色情、涉及赌博等敏感信息的内容生产者为了规避文字审核，会在内容制作过程中避免使用较多的文字来表达语义信息，而是将颜文字添加进文本行中、代替大部分的文字信息，用较多的颜文字与少量的文字组成多个短句，再将这些短句拼凑起来，生成暗示有敏感信息的短文，使得这些短文可以暂时规避网络平台中的审核，在社交网络中散播开来。

在一种方式中，为了提高将颜文字与文本行组合为短文中的短句的真实性，可以判断文本行的形状，若文本行的形状为矩形，则确定文本行的短边的长度，将选定的颜文字调整至与该短边的长度适配，这个适配可以指颜文字的尺寸(主要指图像数据的长宽)与短边的长度相等，或者与该长度进行比较、保证颜文字的尺寸保持在该短边的长度的偏差范围内，即比该长度稍微偏大或者偏小，在两者适配时，将调整后的颜文字写入选定好的文本行中的位置。

在上述模拟用户书写行为的方式中，通过模拟用户将颜文字与文字穿插组合成短文的短句，基于内容制作的原创表达含义，选定文本行中颜文字可插入的位置，一方面能够基于不同的位置制作多元化的样本，并为每个样本图像中的颜文字打上准确的标签，另一方面能够为模型的训练提供更加贴近实际应用场景的样本图像数据，提高颜文字检测模型的性能，保证模型审核的准确性。

S406、在样本图像数据中确定除文本行之外的其他区域，作为背景区域。

在本实施例中，圈定样本图像数据中文本行所在的位置区域，从而确定除该位置区域之外的其他区域为空白区域，将该空白区域作为背景区域。例如短文标题附近的空白区域、短文结尾处的空白区域，等等。

S407、模拟用户选定某个背景区域。

在实际应用中，一些违规信息的内容生产者会将颜文字单独放置在背景区域中，用作内容的点缀，使得宣传效果更好。

在本实施例中，确定用户书写修饰物的概率，作为第一概率，以第一概率选定某个背景区域。例如，设置第一概率为10％，在样本图像数据中随机选择背景区域。

S408、在选定的背景区域中，模拟用户选定适于写入颜文字的位置。

在本实施例中，查询选定的颜文字的属性，确定该颜文字的尺寸，并且确定其他颜文字以及文本行在样本图像数据中所处的位置，基于选定的颜文字的尺寸、其他颜文字所处的位置、文本行的位置，在选定的背景区域中确定一位置，以使颜文字写入选定的背景区域的位置中时符合第二条件。

具体的，第二条件为选定的颜文字与其他颜文字、文本行之间重叠的面积占选定的颜文字的比例小于预设的第二面积阈值的概率为第二概率，第二概率的数值为第一数值，该比例大于或等于预设的第二面积阈值的概率为第三概率，第三概率为第二数值，第一数值大于第二数值。第二面积阈值是指选定的颜文字与其他颜文字、文本行之间重叠的面积占据该颜文字自身面积的最大比例，避免样本图像数据中的文字、其他颜文字被当前选定的颜文字遮挡，导致表达出的语义信息不完整。

在实际应用中，违规内容的内容生产者为了使新制作的违规内容在网络平台中能够快速、广泛的传播，需要在短时间内、大规模地制作包含敏感信息的图文、短视频等内容，并将这些内容上传到网络平台中，以达到宣传的目的。因此，在大规模生产过程中，这些内容生产者所制作出的图文、短视频的质量较低，对违规内容添加颜文字时，一般没有充裕的时间将颜文字调整到与文本行适配的位置，所以会存在有颜文字遮挡文字信息的情况。

为了模拟该情况，在第二条件中设定存在一定的概率使得选定的颜文字与其他颜文字、文本行之间重叠的面积占选定的颜文字的比例大于或等于第二面积阈值，在本实施例中，设定该概率为第三概率，其具体数值为第二数值。其中，第二概率与第三概率相加为1。

作为一个示例，将第二面积阈值设置为15％，第一数值设置为80％，第二数值设置为20％。在模拟用户给样本图像数据的背景区域添加颜文字时，有80％的概率会出现选定的颜文字与其他颜文字、文本行之间重叠的面积小于当前颜文字面积15％的情况，有20％的概率会出现选定的颜文字与其他颜文字、文本行之间重叠的面积大于或等于当前颜文字面积15％的情况。

S409、将选定的颜文字写入位置中，以模拟用户将颜文字作为短文中的修饰物书写在样本图像数据中。

需要说明的是，除了上述将颜文字添加进样本图像数据中的实现方式外，本实施例还可以通过其他方式来实现模拟用户将颜文字与文字作为短文书写在样本图像数据中，本发明实施例对此不作任何限制。

S410、在保持样本图像数据的内容的条件下，对样本图像数据进行预处理，以生成新的样本图像数据。

在本实施例中，为了节省样本图像数据制作的时间，获取数量更多、形式更为多样化的样本图像数据，可以在保持样本图像数据的内容的条件下，对已有的样本图像数据进行图像预处理，以生成新的样本图像数据。

在本实施例的一个示例中，对样本图像数据缩小之后放大，获得新的样本图像数据。这样能够降低图像质量，增加样本的多样性。

在本实施例的另一个示例中，对样本图像数据进行透视变换，获得新的样本图像数据。这种方式能够模拟真实的拍照场景，增加样本图像数据的多样性。透视变换(Perspective Transformation)的本质是将原图像投影到一个新的视平面，以获得新的图像，具体实现中，需要固定变换前后图像的四个顶点的像素值不变，图像整体则根据变换规则(透视变换矩阵)进行变换。

在本实施例的另一个示例中，对样本图像数据进行高斯模糊处理，获得新的样本图像数据。高斯模糊也叫高斯平滑，从数学的角度来看，图像的高斯模糊过程就是图像与正态分布做卷积，通常用高斯模糊来减少图像噪声以及降低细节层次。在本示例中，使用高斯模糊能够降低原样本图像数据的质量，增加图像数据的复杂性。

在本实施例的又一个示例中，对样本图像数据进行随机读写处理，获得新的样本图像数据。通过随机多次读写样本图像数据，可以模拟图像信息损失的情况，增加样本图像的复杂性。

需要说明的是，可以选择以上四种图像预处理方式(缩小之后放大、透视变换、高斯模糊、随机读写)中的任意一种对样本图像数据进行处理，获取新的样本图像数据；也可以选择以上四种图像预处理方式(缩小之后放大、透视变换、高斯模糊、随机读写)中的任意两种或者任意三种方式分别对所有的样本图像数据进行处理，获取新的样本图像数据；也可以同时选择以上四种图像预处理方式分别对样本图像数据进行处理，获取新的样本图像数据；还可以选择以上四种图像预处理方式中的任意两种叠加或者任意三种叠加或者四种叠加的方式对同一样本图像数据进行处理，获取新的样本图像数据；本实施例对此不加以限制。

通过上述图像预处理的操作，一方面可以增加用以训练颜文字检测模型的训练样本的数量，另一方面可以构造出具有不同形状和大小的包含颜文字的样本图像数据，将这些样本图像数据都作为训练样本输入到颜文字检测模型中，使得模型能够学习到更加鲁棒的目标特征，从而提高颜文字检测模型的性能。

实施例三

图4B为本发明实施例三提供的一种颜文字检测模型的训练方法的流程图，本实施例以前述实施例为基础，进一步细化了训练颜文字检测模型的操作，该方法具体包括如下步骤：

S421、将样本图像数据输入颜文字检测模型中，以颜文字作为目标、基于锚点检测颜文字的位置及类别。

在本实施例中，从样本图像数据的训练数据集中随机挑选M帧样本图像数据，作为一次迭代训练的样本，选择一个目标检测模型作为颜文字检测模型，针对该目标检测模型将训练样本的长宽比缩放到预设的输入比例，以SSD为例，可以将样本缩放到520*520，将缩放后的样本输入到目标检测模型中，以颜文字作为目标、基于锚点检测颜文字的位置及类别。

为使本领域技术人员更好地理解本实施例，在本实施例中，将SSD作为目标检测模型的一种示例进行说明，具体步骤如下：

S4211、基于卷积神经网络构建颜文字的特征提取网络。

如图5所示，按照前向传播的方式依次对颜文字的特征提取网络进行构建。该特征提取网络一共包含23个卷积层，由于，SSD采用VGG16作为基础模型，网络块510、网络块520、网络块530、网络块540和网络块550都属于VGG16模型中的一部分500，属于该部分500的每个卷积层采用的卷积核的尺寸均为3*3。

其中，网络块510由卷积层1和卷积层2组成，卷积层1和卷积层2均包含64个特征通道，后接一个最大池化层(Pooling层)；网络块520由卷积层3和卷积层4组成，卷积层3和卷积层4均包含128个特征通道，后接一个最大池化层(Pooling层)；网络块530由卷积层5、卷积层6和卷积层7组成，卷积层5、卷积层6和卷积层7均包含256个特征通道，后接一个最大池化层(Pooling层)；网络块540由卷积层8、卷积层9和卷积层10组成，卷积层8、卷积层9和卷积层10均包含512个特征通道，后接一个最大池化层(Pooling层)；网络块550由卷积层11、卷积层12和卷积层13组成，卷积层11、卷积层12和卷积层13均包含512个特征通道，后接一个最大池化层(Pooling层)；卷积层14和卷积层15串联；网络块560由使用卷积核为1*1且包含256个特征通道的卷积层16和使用卷积核为3*3且包含512个特征通道的卷积层17组成，后接一个最大池化层(Pooling层)；网络块570由使用卷积核为1*1且包含128个特征通道的卷积层18和使用卷积核为3*3且包含256个特征通道的卷积层19组成，后接一个最大池化层(Pooling层)；网络块580由使用卷积核为1*1且包含128个特征通道的卷积层20和使用卷积核为3*3且包含256个特征通道的卷积层21组成，后接一个最大池化层(Pooling层)；网络块590由使用卷积核为1*1且包含128个特征通道的卷积层22和使用卷积核为3*3且包含256个特征通道的卷积层23组成。

SSD的特点在于采用不同尺度的特征图(Feature map)用于目标检测，大尺度特征图可以用来检测小物体，而小尺度特征图可以用来检测大物体。

在本示例的特征提取网络中，多个网络块或卷积层输出的特征图(Feature map)将用于进行颜文字的检测与识别。

S4212、基于锚点进行颜文字的检测与识别。

在本示例中，SSD对特征图(Feature map)中的每个单元格(cell)设置尺度或者长宽比不同的锚点(Anchor)。在一定程度上可以减少训练难度。

在模型的训练过程中，需要确定样本图像数据中的颜文字的真实边界框(GroundTruth)与哪个锚点进行匹配，与真实边界框匹配的锚点将负责预测该颜文字的位置和类别。

在本示例中，由于颜文字在不同的样本图像数据中变化较大，应用SSD目标检测模型对颜文字进行检测与识别所设定的锚点的长宽比，优选为1:1，12:12，24:24。

参考图5，将包含颜文字、文字的样本图像数据501输入到特征提取网络中，分别使用网络块550、卷积层15、网络块560、网络块570、网络块580、网络块590输出的特征图预测4、6、6、6、4、4个锚点。

其中，每个锚点对应的特征图将预测得到包含4+N+1个数值的结果。该结果中前4个数值用于表示锚点与颜文字的偏移位置；由于本实施例将颜文字划分为N个敏感类别和1个非敏感类别，因此该结果中还会存在N+1个数值用于表示颜文字的类别，每个数值对应表示当前锚点所检测到的颜文字在某一类别下的预测概率，统计N+1个预测概率，筛选出数值最大的预测概率，将数值最大的预测概率所对应的类别作为当前锚点检测到的颜文字的类别。

将不同特征图获得的锚点收集在一起，用非极大值抑制方法对这些锚点进行筛选，抑制一部分重叠或者错误的锚点，最终获得正确的锚点，这些正确的锚点负责检测颜文字的位置及类别。

需要说明的是，在实际应用中，与真实边界框匹配成功的锚点被称为正样本，反之，若一个锚点没有与任何真实边界框进行匹配，那么该锚点只能与样本图像数据中的背景匹配，被称为负样本。

锚点与真实边界框的匹配主要遵循以下两个原则：

第一原则为计算每个真实边界框与所有锚点的IOU，找到与该真实边界框IOU最大的锚点，将该锚点与该真实边界框匹配。这样可以保证每个真实边界框一定会与某个锚点匹配。其中，IOU(Intersection-over-Union)是指锚点和真实边界框之间的交并比，即两者的交集与并集的比值。

由于一个样本图像数据中真实边界框是很少的，而锚点却很多，如果仅按第一原则进行匹配，很多锚点会是负样本，导致正负样本极其不平衡。因此，需要第二个原则。

第二个原则是：对于剩余的未匹配锚点，若某个未匹配锚点与某个真实边界框的IOU大于预设的阈值(经验值取0.5)，那么该未匹配锚点也与这个真实边界框进行匹配。这意味着某个真实边界框可能与多个锚点匹配，这是可以的。但是反过来却不可以，若一个锚点只能匹配一个真实边界框，如果多个真实边界框与某个锚点的IOU大于预设的阈值，那么该锚点只与IOU最大的那个真实边界框进行匹配；由于第二个原则在第一个原则之后进行，仔细考虑一下这种情况，如果某个真实边界框所对应的最大IOU小于阈值，并且与该真实边界框所匹配的锚点却与另外一个真实边界框的IOU大于阈值，那么该锚点应该匹配谁，答案应该是前者，首先要确保某个真实边界框一定有一个锚点与之匹配。

S422、基于作为标签的类别、位置与检测的位置、类别计算损失值。

损失值是指模型的预测结果和真实结果之间的差异，基于损失值，可以引导网络做出更准确的预测。

在本实施例中，将作为标签的类别、位置与检测的位置、类别输入到损失函数中进行计算，得到损失值。

该损失函数为位置误差(locatization loss，loc)与置信度误差(confidenceloss，conf)的加权和,位置误差表示锚点相对于颜文字的真实边界框的偏移量，置信度误差表示颜文字预测类别与真实类别的误差，具体的计算公式如下：

其中，N为锚点的正样本数量，这里

为一个指示参数，当

时表示第i个锚点与第j个真实边界框匹配，并且真实边界框的类别为p。c为类别置信度预测值，l为锚点所对应的预测边界框的位置预测值，而g是真实边界框的位置参数，权重系数α通过交叉验证设置为1。

对于位置误差L_loc(x,l,g)，可以采用Smooth L1损失函数(L1范数损失函数，也被称为最小绝对值偏差)进行计算，对于置信度误差L_conf(x,c)，可以采用Softmax损失函数(softmax loss)进行计算，其中，Softmax loss是由Softmax函数(归一化指数函数)和交叉熵损失函数(cross-entropy loss)组合而成，所以Softmax损失函数的全称为Softmaxwith cross-entropy loss，在caffe，tensorflow等深度学习开源框架的实现中，直接将Softmax函数和交叉熵损失函数放在一个网络层中，而不是分开放在不同层，可以让数值计算更加稳定。

S423、基于损失值更新颜文字检测模型中的参数。

损失函数作为网络模型训练中前向传播的终点，也是网络模型训练中反向传播的起点，不同的损失函数可以使模型更加侧重于学习到数据某一方面的特征，并在之后能够更好地提取到这一独有的特征，对于网络模型的优化有导向性的作用。

在本实施例中，基于损失值，通过反向传播的训练方式，在颜文字检测模型中逐层到达第一层，将模型中的权重、偏差等参数进行更新。

进一步而言，还可以按照置信度误差对负样本进行降序排列，然后抽取K个损失值最大的负样本，将这个K个负样本与所有的正样本一起放入模型中进行训练，以影响梯度更新的方向，更新颜文字检测模型中的参数。

S424、获取测试图像数据。

在本实施例中，可以从内容审核平台累积的素材库中抽取真实的图像数据，作为测试图像数据，还可以从短视频应用、直播应用等网络应用中，利用拍照、录像的控件来采集真实的图像数据，作为测试图像数据。

为了缓解正负样本不平衡的问题，本实施例中获取的测试图像数据存在部分测试图像数据中具有颜文字，部分测试图像数据中没有颜文字。对于具有颜文字的测试图像数据，设置用于标记颜文字在该测试图像数据中的真实的位置及真实的类别的矩形框，作为真实边界框。

S425、将测试图像数据输入颜文字检测模型中进行处理，以预测颜文字的位置及类别。

在本实施例中，将获取得到的包含颜文字的测试图像数据、不包含颜文字的测试图像数据一起输入颜文字检测模型中，通过不同的卷积层生成多尺度的特征图，对不同的特征图设置具有不同尺度与比例的锚点，为每个真实边界框匹配一个与其IOU最高的锚点，保证每个真实边界框都有对应的锚点，同时，若存在其他锚点与某一真实边界框的IOU大于预设的阈值(一般为0.5或0.7)，也指定该锚点用来预测该真实边界框，与此同时，若该锚点与多个真实边界框的IOU都大于预设的阈值，则该锚点选择与其IOU最大的真实边界框匹配。

其中，每个锚点都会预测一个边界框，称为预测框。

对于每个预测框，根据类别置信度确定其类别(置信度最大者)与置信度值，并过滤掉属于背景的预测框，比如，根据置信度阈值(如0.5或0.7)过滤掉阈值较低的预测框，将剩余的预测框进行解码(解码后一般还需要做裁剪，防止预测框位置超出颜文字的尺寸)，解码之后，根据置信度对预测框进行降序排列，仅保留排序最为靠前的K个预测框。采用非极大值抑制方法过滤掉那些重叠度较大的预测框。最后剩余的预测框即为检测结果。

该检测结果中包括预测框中的颜文字的位置、预测框选定的颜文字的类别。

S426、分别对比真实的位置与预测的位置、真实的类别与预测的类别，以确定颜文字的预测状态。

在本实施例中，将真实的位置与预测的位置、真实的类别与预测的类别分别进行比对，采用计算损失值、计算平均误差、置信度等方式衡量真实值与预测值之间的差异，以确定颜文字的预测状态为预测正确或者预测错误。

若预测状态为预测错误，则提取位于预测的位置的图像数据，作为负向颜文字。

其中，出现负向颜文字的情况即出现负样本的情况，当特征图中的锚点没有与任何颜文字的真实边界框(GT框)进行匹配，该颜文字即为负向颜文字。

当检测到负向颜文字时，参考文字将负向颜文字写入样本图像数据中，以模拟用户将负向颜文字与文字作为短文书写在样本图像数据中。

在一种实现方式中，模拟用户选定某个负向颜文字，确定样本图像数据包含的文本行，每个文本行包含一个或多个文字，在样本图像数据中，模拟用户对文本行选定适于写入负向颜文字的位置，将选定的负向颜文字写入选定好的位置，以模拟用户将负向颜文字与文本行作为短文中的短句书写在样本图像数据中。

在另一种实现方式中，模拟用户选定某个负向颜文字，确定样本图像数据包含的文本行，每个文本行包含一个或多个文字，在样本图像数据中确定除文本行之外的其他区域，作为背景区域，模拟用户选定某个背景区域，在选定的背景区域中，模拟用户选定适于写入负向颜文字的位置，将选定的负向颜文字写入位置中，以模拟用户将负向颜文字作为短文中的修饰物书写在样本图像数据中。

需要说明的是，本实施例对于将负向颜文字写入样本图像数据中的方式不作限定。

S427、基于预测状态统计预测颜文字的准确率。

若预测状态为预测正确，则统计预测颜文字的准确率。

在本实施例中，可以采用召回率(Recall)、精确度(Precision)、AP(AveragePrecision，平均精确度)、MAP(Mean Average Precision，平均精确度值)、PR曲线、ROC曲线等评价指标的计算方法，统计预测颜文字的准确率。其中，该准确率用于衡量测试图像数据中颜文字被正确检测的概率，以及识别颜文字类别的正确性。

S428、判断准确率是否大于或等于预设的预测阈值。

在本实施例中，将颜文字检测模型训练收敛时的数值作为预设的预测阈值。

若准确率大于或等于预设的预测阈值，则执行S429；若准确率小于预设的预测阈值，则继续训练该颜文字检测模型。

S429、确定颜文字检测模型训练完成。

多次重复上述步骤直到模型在测试数据集上的表现达到预期，则确定颜文字检测模型训练完成。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

图6为本发明实施例三提供的一种视频数据的审核方法的流程图，本实施例可适用于在视频数据中对涉及敏感信息的颜文字进行审核的情况，该方法可以由视频数据的审核装置来执行，该视频数据的审核装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，该方法具体包括如下步骤：

S601、接收视频数据。

视频数据，属于视频(vedio)，其具有多帧连续的图像数据，连续的图像数据变化每秒超过24帧(frame)时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果。

针对不同的业务场景，该视频数据的格式、形式有所不同，本实施例对此不加以限制。

进一步而言，该视频数据的格式可以包括MPEG(Moving Pictures ExpertsGroup，动态图像专家组)、RMVB(RealMedia Variable Bitrate，RealMedia可变比特率，)、AVI(Audio Video Interleaved，音频视频交错格式)，等等。

在本实施例中，可以将接收到的短视频、直播视频、电影、电视剧等流媒体素材，作为视频数据。

S602、从视频数据中提取部分图像数据，作为目标图像数据。

在本实施例中，可以依据帧率、时间、预设数量等方式从视频数据的所有图像数据中抽取部分图像数据，作为目标图像数据。例如，对视频数据每隔30帧抽取一帧图像数据作为目标图像数据，或者，每隔2s抽一帧图像数据，又或者以一个短视频为一个单位，从每个短视频中抽取固定帧数的图像数据作为目标图像数据。

S603、确定颜文字检测模型。

在本实施例中，可预先训练颜文字检测模型，将训练完成后的颜文字检测模型用于识别目标图像数据中的颜文字。

训练颜文字检测模型的具体方法包括：采集颜文字及相应的类别；获取包含文字的图像数据、作为样本图像数据；参考文字将颜文字写入样本图像数据中，以模拟用户将颜文字与文字作为短文书写在样本图像数据中；确定颜文字在样本图像数据中所处的位置；以样本图像数据作为训练的样本、类别与位置作为标签，训练颜文字检测模型。

需要说明的是，该颜文字检测模型的训练方法与任一实施例所述的训练方法基本相同，本实施例在此不加以详述。

S604、将目标图像数据输入颜文字检测模型中进行处理，以预测颜文字的位置及适于内容审核的类别。

其中，适于内容审核的类别可分为敏感类别和非敏感类别。

在本实施例中，将目标图像数据输入颜文字检测模型中，基于锚点进行颜文字的检测与识别，输出目标图像数据中颜文字的位置及颜文字的类别，该类别涉及敏感类别和非敏感类别。

S605、对视频数据标记颜文字在目标图像数据中所处的位置及类别。

在本实施例中，在视频数据中查找与目标图像数据对应的图像数据，在该图像数据中标记颜文字所处的位置及类别。

在本实施例中，接收视频数据，从视频数据中提取部分图像数据，作为目标图像数据，确定颜文字检测模型，将目标图像数据输入颜文字检测模型中进行处理，以预测颜文字的位置及适于内容审核的类别，对视频数据标记颜文字在目标图像数据中所处的位置及类别，可快速从视频数据中定位表征敏感内容的颜文字，提高颜文字的检测效率，同时，能够进一步提高训练颜文字检测模型的效率，降低训练颜文字检测模型的成本，保证颜文字检测模型的性能。

实施例四

图7为本发明实施例四提供的一种颜文字检测模型的训练装置的结构框图，该装置具体可以包括如下模块：

图像数据采集模块701，用于采集颜文字及相应的类别；

样本图像数据获取模块702，用于获取包含文字的图像数据、作为样本图像数据；

样本图像数据处理模块703，用于参考所述文字将所述颜文字写入所述样本图像数据中，以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中；

颜文字位置确定模块704，用于确定所述颜文字在所述样本图像数据中所处的位置；

检测模型训练模块705，用于以所述样本图像数据作为训练的样本、所述类别与所述位置作为标签，训练颜文字检测模型。

在本发明的一个实施例中，颜文字检测模型的训练装置还包括：

测试图像数据获取模块，用于获取测试图像数据，部分所述测试图像数据中具有颜文字，所述颜文字标记有真实的位置及真实的类别；

颜文字检测模型处理模块，用于将所述测试图像数据输入所述颜文字检测模型中进行处理，以预测所述颜文字的位置及类别；

颜文字预测状态确定模块，用于分别对比真实的位置与预测的位置、真实的类别与预测的类别，以确定所述颜文字的预测状态；

准确率统计模块，用于基于所述预测状态统计预测所述颜文字的准确率；

准确率判断模块，用于判断所述准确率是否大于或等于预设的预测阈值；若是，则调用模型训练完成确定模块，若否，则调用返回执行模块；

模型训练完成确定模块，用于若是，则确定所述颜文字检测模型训练完成；

返回执行模块，用于若否，则返回执行所述参考所述文字将所述颜文字写入所述样本图像数据中，以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中。

负向颜文字提取模块，用于若所述预测状态为预测错误，则提取位于预测的位置的图像数据，作为负向颜文字；

负向颜文字处理模块，用于参考所述文字将所述负向颜文字写入所述样本图像数据中，以模拟用户将所述负向颜文字与所述文字作为短文书写在所述样本图像数据中。

本发明实施例所提供的颜文字检测模型的训练装置可执行本发明任意实施例所提供的颜文字检测模型的训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图8为本发明实施例五提供的一种视频数据的审核装置的结构示意图，该装置具体可以包括如下模块：

视频数据接收模块801，用于接收视频数据；

目标图像数据提取模块802，用于从所述视频数据中提取部分图像数据，作为目标图像数据；

检测模型确定模块803，用于确定颜文字检测模型；

图像数据采集模块，用于采集颜文字及相应的类别；

检测模型处理模块804，用于将所述目标图像数据输入所述颜文字检测模型中进行处理，以预测颜文字的位置及适于内容审核的类别；

颜文字标记模块805，用于对所述视频数据标记所述颜文字在所述目标图像数据中所处的所述位置及所述类别。

本发明实施例所提供的视频数据的审核装置可执行本发明任意实施例所提供的视频数据的审核方法，具备执行方法相应的功能模块和有益效果。

实施例六

图9为本发明实施例六提供的一种计算机设备的结构示意图。如图9所示，该计算机设备包括处理器900、存储器901、输入装置902和输出装置903；计算机设备中处理器900的数量可以是一个或多个，图9中以一个处理器900为例；计算机设备中的处理器900、存储器901、输入装置902和输出装置903可以通过总线或其他方式连接，图9中以通过总线连接为例。

本实施例提供的计算机设备，可执行本发明任一实施例提供的颜文字检测模型的训练方法或视频数据的审核方法，具体相应的功能和有益效果。

实施例七

本发明实施例七还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例的颜文字检测模型的训练方法或视频数据的审核方法。

当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的颜文字检测模型的训练方法或视频数据的审核方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述颜文字检测模型的训练装置或视频数据的审核装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种颜文字检测模型的训练方法，其特征在于，包括：

采集颜文字及相应的类别；

获取包含文字的图像数据、作为样本图像数据；

确定所述颜文字在所述样本图像数据中所处的位置；

2.根据权利要求1所述的方法，其特征在于，所述采集颜文字及相应的类别，包括：

获取多个表示表情的图像数据、作为颜文字，所述颜文字具有统一码Unicode；

若所述统一码Unicode相同，则针对所述统一码Unicode设置适于内容审核的类别；

将所述统一码Unicode下的所述颜文字划分至所述类别中。

3.根据权利要求1所述的方法，其特征在于，所述参考所述文字将所述颜文字写入所述样本图像数据中，以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中，包括：

模拟用户选定某个所述颜文字；

确定所述样本图像数据包含的文本行，所述文本行包含一个或多个所述文字；

在所述样本图像数据中，模拟用户对所述文本行选定适于写入颜文字的位置；

将选定的所述颜文字写入所述位置，以模拟用户将所述颜文字与所述文本行作为短文中的短句书写在所述样本图像数据中。

4.根据权利要求3所述的方法，其特征在于，所述在所述样本图像数据中，模拟用户对所述文本行选定适于写入颜文字的位置，包括：

确定选定的所述颜文字的尺寸；

在所述样本图像数据中，确定其他所述颜文字所处的位置、所述文本行的位置；

基于选定的所述颜文字的尺寸、其他所述颜文字所处的位置、所述文本行的位置，在所述文本行的首部和/或尾部确定一位置，以使用所述颜文字写入所述首部和/或尾部的位置中时符合第一条件；

其中，所述第一条件为选定的所述颜文字与其他所述颜文字、所述文本行之间重叠的面积占选定的所述颜文字的比例小于预设的第一面积阈值。

5.根据权利要求3所述的方法，其特征在于，所述将选定的所述颜文字写入所述位置，以模拟用户将所述颜文字与所述文本行作为短句书写在所述样本图像数据中，包括：

若所述文本行的形状为矩形，则确定所述文本行的短边的长度；

将选定的所述颜文字调整至与所述长度适配；

将调整后的所述颜文字写入所述位置。

6.根据权利要求1所述的方法，其特征在于，所述参考所述文字将所述颜文字写入所述样本图像数据中，以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中，包括：

模拟用户选定某个所述颜文字；

在所述样本图像数据中确定除所述文本行之外的其他区域，作为背景区域；

模拟用户选定某个所述背景区域；

在选定的所述背景区域中，模拟用户选定适于写入颜文字的位置；

将选定的所述颜文字写入所述位置中，以模拟用户将所述颜文字作为短文中的修饰物书写在所述样本图像数据中。

7.根据权利要求6所述的方法，其特征在于，所述模拟用户选定某个所述背景区域，包括：

确定用户书写修饰物的概率，作为第一概率；

以所述第一概率选定某个所述背景区域。

8.根据权利要求6所述的方法，其特征在于，所述在选定的所述背景区域中，模拟用户选定适于写入颜文字的位置，包括：

确定选定的所述颜文字的尺寸；

基于选定的所述颜文字的尺寸、其他所述颜文字所处的位置、所述文本行的位置，在选定的所述背景区域中确定一位置，以使所述颜文字写入选定的所述背景区域的位置中时符合第二条件；

其中，所述第二条件为选定的所述颜文字与其他所述颜文字、所述文本行之间重叠的面积占选定的所述颜文字的比例小于预设的第二面积阈值的第二概率为第一数值，大于或等于所述第二面积阈值的第三概率为第二数值，所述第一数值大于所述第二数值。

9.根据权利要求3或6所述的方法，其特征在于，所述模拟用户选定某个所述颜文字，包括：

确定对每个类别配置的第四概率；

按照所述第四概率选定某个所述类别；

在选定的所述类别中随机选择所述颜文字。

10.根据权利要求1所述的方法，其特征在于，在所述参考所述文字将所述颜文字写入所述样本图像数据中，以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中之后，所述方法还包括：

在保持所述样本图像数据的内容的条件下，对所述样本图像数据进行预处理，以生成新的样本图像数据。

11.根据权利要求10所述的方法，其特征在于，所述在保持所述样本图像数据的内容的条件下，对所述样本图像数据进行多样性处理，以生成新的样本图像数据，包括：

对所述样本图像数据缩小之后放大，获得新的样本图像数据；

和/或，

对所述样本图像数据进行透视变换，获得新的样本图像数据；

和/或，

对所述样本图像数据进行高斯模糊处理，获得新的样本图像数据；

和/或，

对所述样本图像数据进行随机读写处理，获得新的样本图像数据。

12.根据权利要求1所述的方法，其特征在于，所述以所述样本图像数据作为训练的样本、所述类别与所述位置作为标签，训练颜文字检测模型，包括：

将所述样本图像数据输入颜文字检测模型中，以所述颜文字作为目标、基于锚点检测所述颜文字的位置及类别；

基于作为标签的所述类别、所述位置与检测的位置、类别计算损失值；

基于所述损失值更新所述颜文字检测模型中的参数。

13.根据权利要求1或2或3或4或5或6或7或8或10或11或12所述的方法，其特征在于，还包括：

获取测试图像数据，部分所述测试图像数据中具有颜文字，所述颜文字标记有真实的位置及真实的类别；

将所述测试图像数据输入所述颜文字检测模型中进行处理，以预测所述颜文字的位置及类别；

分别对比真实的位置与预测的位置、真实的类别与预测的类别，以确定所述颜文字的预测状态；

基于所述预测状态统计预测所述颜文字的准确率；

判断所述准确率是否大于或等于预设的预测阈值；

若是，则确定所述颜文字检测模型训练完成；

若否，则返回执行所述参考所述文字将所述颜文字写入所述样本图像数据中，以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中。

14.根据权利要求13所述的方法，其特征在于，还包括：

若所述预测状态为预测错误，则提取位于预测的位置的图像数据，作为负向颜文字；

参考所述文字将所述负向颜文字写入所述样本图像数据中，以模拟用户将所述负向颜文字与所述文字作为短文书写在所述样本图像数据中。

15.一种视频数据的审核方法，其特征在于，包括：

接收视频数据；

从所述视频数据中提取部分图像数据，作为目标图像数据；

确定颜文字检测模型；

16.一种颜文字检测模型的训练装置，其特征在于，包括：

图像数据采集模块，用于采集颜文字及相应的类别；

17.一种视频数据的审核装置，其特征在于，包括：

视频数据接收模块，用于接收视频数据；

检测模型确定模块，用于确定颜文字检测模型；

18.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-14中任一所述的颜文字检测模型的训练方法或如权利要求15所述的视频数据的审核方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-14中任一所述的颜文字检测模型的训练方法或如权利要求15所述的视频数据的审核方法。