CN113762049B

CN113762049B - 内容识别方法、装置、存储介质和终端设备

Info

Publication number: CN113762049B
Application number: CN202110512370.3A
Authority: CN
Inventors: 蔡聪怀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2024-03-29
Anticipated expiration: 2041-05-11
Also published as: CN113762049A

Abstract

本申请公开了内容识别方法、装置、存储介质和终端设备，应用于基于人工智能的信息处理技术领域。采用预训练的主体内容识别模型对待识别图像进行主体内容图像的识别，主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的，其中，初始训练模型包括特征提取模块、用于检测图像边缘信息的边缘检测模块及用于获取图像主体目标的主体目标获取模块。由于在对主体内容识别模型进行预训练时，主体目标获取模块获取主体目标的过程会借鉴边缘检测模块检测边缘线的信息，使得主体目标获取模块获取的信息更准确，进而使得训练得到的主体内容识别模型在对待识别图像进行主体内容图像的识别时更准确。

Description

内容识别方法、装置、存储介质和终端设备

技术领域

本申请涉及基于人工智能的信息处理技术领域，特别涉及内容识别方法、装置、存储介质和终端设备。

背景技术

内容识别是指识别出图像中主体内容图像，将主体内容图像从周围的黑白边、纯色边或花边等背景中识别出来，可以广泛应用于视频去重及视频质量任务等应用中。一般情况下，通过内容识别，需要识别出图像中主体内容图像所在框的位置，比如坐标信息等。

现有的一种内容识别方法可以通过边缘检测的方法来检测出图像的边缘线，从而得到图像中的主体内容，但是由于图像中很多非花边的内容直线，如门框边缘、床边缘等也会被检测出来，噪声较大，使得现有的内容识别方法识别出的主体内容图像的准确率较低。

发明内容

本申请提供内容识别方法、装置、存储介质和终端设备，实现了更准确地训练主体内容识别模型。

本申请一方面提供一种内容识别方法，包括：

获取待识别图像，所述待识别图像包括待识别的主体内容图像；

通过预训练的主体内容识别模型对所述待识别图像进行主体内容图像的识别，得到所述待识别图像中主体内容图像的目标坐标框；所述预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的；

其中，所述第一标注信息用于标注所述样本图像中主体目标所在框的位置信息，所述第二标注信息用于标注所述样本图像中边缘线的位置信息；所述初始训练模型包括特征提取模块、边缘检测模块和主体目标获取模块，所述特征提取模块用于提取所述样本图像的图像特征信息，所述边缘检测模块用于根据所述图像特征信息检测所述样本图像中的边缘信息，所述主体目标获取模块用于根据所述图像特征信息获取所述样本图像中的主体目标。

本申请另一方面提供一种内容识别装置，包括：

图像获取单元，用于获取待识别图像，所述待识别图像包括待识别的主体内容图像；

内容识别单元，用于通过预训练的主体内容识别模型对所述待识别图像进行主体内容图像的识别，得到所述待识别图像中主体内容图像的目标坐标框；所述预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的；

本申请另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如本申请一方面所述的内容识别方法。

本申请另一方面还提供一种终端设备，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如本申请一方面所述的内容识别方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

可见，本申请的内容识别方法中，内容识别装置会采用预训练的主体内容识别模型对待识别图像进行主体内容图像的识别，而主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的，其中，初始训练模型包括特征提取模块、用于检测图像边缘信息的边缘检测模块及用于获取图像主体目标的主体目标获取模块。这样，由于在对主体内容识别模型进行预训练时，主体目标获取模块获取主体目标的过程会借鉴边缘检测模块检测边缘线的信息，使得主体目标获取模块获取的信息更准确，进而使得训练得到的主体内容识别模型在对待识别图像进行主体内容图像的识别时更准确。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种内容识别方法的示意图；

图2是本申请一个实施例提供的一种内容识别方法的流程图；

图3是本申请一个实施例提供的训练主体内容识别模型的方法流程图；

图4是本申请一个实施例中内容识别装置确定的主体目标获取模块的结构示意图；

图5a是本申请一个应用实施例中识别出图像的主体内容图像所在框的示意图；

图5b是本申请一个应用实施例中识别出一个视频中某帧图像的主体内容图像所在框的示意图；

图5c是本申请一个应用实施例中识别出另一视频中某帧图像的主体内容图像所在框的示意图；

图6是本申请一个应用实施例提供的内容识别方法的流程图；

图7a是本申请一个应用实施例中初始训练模型的结构示意图；

图7b是本申请一个应用实施例中边缘检测模块检测的花边信息的示意图；

图8是本申请另一应用实施例中内容识别方法所应用于的分布式系统的示意图；

图9是本申请另一应用实施例中区块结构的示意图；

图10是本申请实施例提供的一种内容识别装置的逻辑结构示意图；

图11是本申请实施例提供的一种终端设备的逻辑结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供一种内容识别方法，如图1所示，主要由内容识别装置按照如下步骤对任一图像进行主体内容图像的识别，进而可以确定出任一图像的花边信息：

获取待识别图像，所述待识别图像包括待识别的主体内容图像；通过预训练的主体内容识别模型对所述待识别图像进行主体内容图像的识别，得到所述待识别图像中主体内容图像的目标坐标框；所述预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的；其中，所述第一标注信息用于标注所述样本图像中主体目标所在框的位置信息，所述第二标注信息用于标注所述样本图像中边缘线的位置信息；所述初始训练模型包括特征提取模块、边缘检测模块和主体目标获取模块，所述特征提取模块用于提取所述样本图像的图像特征信息，所述边缘检测模块用于根据所述图像特征信息检测所述样本图像中的边缘信息，所述主体目标获取模块用于根据所述图像特征信息获取所述样本图像中的主体目标。

上述对预训练的主体内容识别模型是一种基于人工智能的机器学习模型。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

这样，由于在对主体内容识别模型进行预训练时，主体目标获取模块获取主体目标的过程会借鉴边缘检测模块检测边缘线的信息，使得主体目标获取模块获取的信息更准确，进而使得训练得到的主体内容识别模型在对待识别图像进行主体内容图像的识别时更准确。

本申请的一个实施例提供一种内容识别方法，主要是由内容识别装置所执行的方法，流程图如图2所示，包括：

步骤101，获取待识别图像，待识别图像包括待识别的主体内容图像。

可以理解，本实施例中，内容识别装置可以针对任一图像(比如待识别图像)发起本实施例的流程。

步骤102，通过预训练的主体内容识别模型对待识别图像进行主体内容图像的识别，得到待识别图像中主体内容图像的目标坐标框，这里，预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的。

其中，第一标注信息用于标注样本图像中主体目标所在框的位置信息，第二标注信息用于标注样本图像中边缘线的位置信息；初始训练模型包括特征提取模块、边缘检测模块和主体目标获取模块，特征提取模块用于提取样本图像的图像特征信息，边缘检测模块用于根据图像特征信息检测样本图像中的边缘信息，主体目标获取模块用于根据图像特征信息获取样本图像中的主体目标。

在本实施例中，预训练的主体内容识别模型可以包括训练后的初始训练模型中的特征提取模块和主体目标获取模块。

参考图3所示，在具体的实现过程中，内容识别装置具体可以通过如下步骤实现对主体内容识别模型的训练，包括：

步骤201，获取训练样本，训练样本中包括多个样本图像及各个样本图像中的第一标注信息和第二标注信息。

步骤202，根据训练样本中的第一标注信息和第二标注信息，对初始训练模型进行调整，得到调整后的训练模。

可以理解，初始训练模型可包括预先构建的多层结构，各层结构中参数被设置有对应的初始值。其中，各层结构中的参数是指初始训练模型中各层结构在计算过程中所用到的固定的参数，即不需要随着后期模型的调整随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

而初始训练模型的结构可以包括：

特征提取模块，用于提取样本图像的图像特征信息。

边缘检测模块，用于根据特征提取模块提取的图像特征信息，检测样本图像中的边缘信息，具体为边缘线的位置信息，而边缘线可以为样本图像中主体目标与花边之间的交界线等；这里花边是泛指图像中主体内容周围的黑白边、毛玻璃、纯色边或花边等，而主体目标是图像中除花边之外的内容，图像中主体目标的图像即称为主体内容图像，比如，在包含人物的图像中，主体目标为人物，而花边可以指人物周围所处的背景等。

主体目标获取模块，用于根据特征提取模块提取的图像特征信息获取样本图像中的主体目标，该主体目标获取模块可以输出主体目标的信息，比如主体目标所在框在样本图像中的位置信息，还可以包括主体目标的类型信息等。

其中，边缘检测模块具体可以为：多层整体嵌套网络(Holistically-NestedNetwork，HED)、深度边缘(DeepEdge)、类别感知语义网络(Category-Aware Semantic EdgeNet，CASENet)、基于全卷积的编解码目标轮廓检测网络(Fully Convolution Encoder-Decoder Object Contour Detection Network，CEDN)和密集感知网络(Dense ExtremeInception Network，DexiNed)等，而主体目标获取模块具体可以为如下两种类型的结构：

(1)主体目标获取模块具体为目标检测模型，比如：区域卷积神经网络(RegionConvolutional LayerNet，RCNN)、MaskR-CNN、基于区域卷积的快速目标检测网络(FastRegion-based Convolutional Object Detection Network，Fast-RCNN)、Faster-RCNN或单阶段实时目标检测网络(Unified,Real-Time Object Detection Network，YOLO)等。

由于在一般情况下，样本图像中的边缘线即花边与主体目标之间的交界线为规则形状图形，比如矩形等，这样，通过目标检测模型可以直接检测到样本图像中主体目标所在矩形框的位置信息。例如图4所示，当目标检测模型采用MaskR-CNN结构的模型时，主要包括：生成候选区域的区域候选网络(Region Proposal Network，RPN)、感兴趣区域对齐(region of interest align，RoIAlign)网络及全连接网络(Fully Convolution Nets)中的三个分支，包括类别(Category)分支、坐标位置(Coordinates)分支和轮廓(Mask)分支，其中，残差网络的输出分别连接区域候选网络和RoIAlign，区域候选网络的输出连接RoIAlign，RoIAlign的输出分别连接到上述三个分支。具体地：

区域候选网络基于图像特征信息生成主体目标的候选区域(Proposals)，softmax层判断某一位置是否是主体目标的候选区域，bboxreg层则给出具体的位置；RoIAlign对候选区域进行修正；最后坐标位置分支给出主体目标的位置信息，轮廓分支给出主体目标所在框的区域信息，类别分支给出主体目标属于某一类型的概率信息。

(2)主体目标获取模块还可以包括语义分割子模块和目标判别子模块，其中：

由于在有些情况下，图像中的边缘线(即花边与主体目标之间的交界线)可以为不规则形状图形，这样，只通过目标检测模型检测出的主体目标所在框的准确度不是很高，在本实施例中，主体目标获取模块可以通过语义分割子模块和判别子模块来实现，具体地：先由语义分割子模块根据图像特征信息对样本图像进行语义分割，得到多个分割区域的信息，具体为各个分割区域的轮廓线在图像中的位置信息，然后再通过判别子模块对多个分割区域的类型进行判别，并确定多个分割区域中属于主体目标类型的目标分割区域，并基于目标分割区域的信息确定并输出样本图像中主体目标的位置信息。

具体地，在调整初始训练模型的过程中，可以通过如下步骤来实现：

步骤2021，通过初始训练模型输出样本图像中主体目标的第一位置信息，及样本图像中边缘线的第二位置信息。

具体地，可以通过特征提取模块对各个样本图像进行特征提取得到图像特征信息，而主体目标获取模块根据各个样本图像的图像特征信息检测各个样本图像中主体目标的第一位置信息，边缘检测获取模块根据各个样本图像的图像特征信息获取各个样本图像中边缘线的第二位置信息。

步骤2022，根据初始训练模型输出的第一位置信息和训练样本中对应的第一标注信息的第一损失函数，及初始训练模型输出的第二位置信息和训练样本中对应的第二标注信息的第二损失函数，调整初始训练模型，得到调整后的初始训练模型。

具体地，内容识别装置会先根据边缘检测模块得到的第二位置信息和训练样本中对应的第二标注信息，计算与边缘检测模块相关的第二损失函数，该第二损失函数用于指示边缘检测模块得到的边缘线的位置信息，与训练样本中各个样本图像中边缘线的实际位置信息(根据第二标注信息得到)之间的误差，比如交叉熵损失函数等；根据主体目标获取模块得到的第一位置信息和训练样本中对应的第二标注信息，计算与主体目标获取模块相关的第一损失函数，该第一损失函数用于指示主体目标获取模块得到的主体目标的位置信息，与训练样本中各个样本图像中主体目标的实际位置信息(根据第一标注信息得到)之间的误差；然后再根据第一损失函数和第二损失函数计算一个整体损失函数，比如整体损失函数为第一损失函数和第二损失函数的加权和值等；进而再根据整体损失函数调整上述初始训练模型中参数的参数值。

而主体内容识别模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述初始训练模型中参数的参数值，并使得上述整体损失函数的计算值降至最低。

具体地，当计算的整体损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的整体损失函数的函数值减小。

进一步地，上述主体目标获取模块输出的主体目标的第一位置信息信息可以包括：目标所在框的位置信息及目标所在框属于主体目标的概率信息，其中，如果某一目标所在框属于主体目标的概率信息大于某一阈值，则说明该目标所在框为主体目标所在框，如果概率信息不大于该阈值，则目标所在框非主体目标所在框；而在第一标注信息包括样本图像中多个样本框的位置信息及样本框内目标是否为主体目标的信息，则内容识别装置在计算上述第一损失函数的过程中，将第一损失函数划分为两部分即第一子误差和第二子误差，具体地：

内容识别装置会根据主体目标获取模块获取的目标所在框的位置信息与第一标注信息中样本框的位置信息，计算第一子误差；及根据目标所在框属于主体目标类型的概率信息与第一标注信息中各个样本框内目标是否为主体目标的信息计算第二子误差；然后根据第一子误差及其权重值，及第二子误差及其权重值计算第一损失函数，其中，由于第一子误差的权重值大于某一预置值，这样可以增大主体目标获取模块的回归损失占比。

需要说明的是，训练样本中，一个样本图像的多个样本框中可以包括正样本框和负样本框，正样本框内的图像内容属于主体目标，负样本框内的图像内容非主体目标，则在计算上述第一子误差时，会根据对应概率信息(是由上述主体目标获取模块获取的)大于阈值目标所在框的位置信息与训练样本中正样本框的位置信息之间的第一差值及其权重值，及对应概率信息不大于上述阈值的目标所在框的位置信息与训练样本中负样本框的位置信息之间的第二差值及其权重值，计算第一子误差，比如将第一差值与其权重值的乘积，与第二差值与其权重值的乘积按照一定计算函数计算后得到的值，作为第一子误差。其中，第二差值的权重值小于另一预置值，这样可以降低负样本框在计算第一损失函数过程中的权重，以减小正负样本不均衡带来的影响。

进一步地，内容识别装置在计算整体损失函数的过程中，除了计算上述的第一损失函数和第二损失函数之外，还可以计算第三损失函数，具体地，根据边缘检测模块得到的第二位置信息，和主体目标获取模块得到的第一位置信息，计算第三损失函数，该第三损失函数用于描述边缘检测模块检测的第二位置信息与主体目标获取模块获取的第一位置信息之间的差值，则在计算整体损失函数时，根据第一损失函数、第二损失函数和第三损失函数计算整体损失函数，比如整体损失函数为第一损失函数、第二损失函数和第三损失函数的加权和值等。这样，通过整体损失函数对初始训练模型中参数的参数值进行调整后，可以使得边缘检测模块检测的边缘线的第二位置信息与主体目标获取模块获取的主体目标的第一位置信息尽量接近，进而使得主体目标获取模块对主体内容的检测更准确。

步骤2023，判断对初始训练模型的调整是否满足预置的训练停止条件，如果满足，可以执行步骤2024；如果不满足，针对当前调整后的初始训练模型，返回执行上述输出第一位置信息和第二位置信息及后续步骤，即返回执行步骤2021。

需要说明的是，上述步骤2021到2022是通过初始训练模型得到的第一位置信息和第二位置信息对初始训练模型中参数的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤2021到2022，直到对参数值的调整满足一定的训练停止条件为止。

因此，内容识别装置在执行了上述实施例步骤2022之后，还需要判断当前对参数值的调整是否满足预置的训练停止条件。其中，预置的训练停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

步骤2024，将当前调整后的初始训练模型确定为最终训练得到的训练模型，即上述调整后的训练模型，然后继续执行如下步骤203。

步骤203，确定预训练的主体内容识别模型包括调整后的训练模型中的特征提取模块和主体目标获取模块。

可见，在本实施例的方法中，内容识别装置会采用预训练的主体内容识别模型对待识别图像进行主体内容图像的识别，而主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的，其中，初始训练模型包括特征提取模块、用于检测图像边缘信息的边缘检测模块及用于获取图像主体目标的主体目标获取模块。这样，由于在对主体内容识别模型进行预训练时，主体目标获取模块获取主体目标的过程会借鉴边缘检测模块检测边缘线的信息，使得主体目标获取模块获取的信息更准确，进而使得训练得到的主体内容识别模型在对待识别图像进行主体内容图像的识别时更准确。

以下以一个具体的应用实例来说明本申请的内容识别方法，主要可以应用于视频去重和视频质量任务等应用中，比如，在一种具体的应用中，一个图像中花边内容会影响图像的清晰度及美观度等评分值的计算，通过本申请实施例中训练得到的主体内容识别模型对图像的主体内容图像进行识别后，可以只对图像中的主体内容图像进行一系列评分，可以提高评分的准确度，进而可以将评分度较高的图像推荐给用户，改善了用户体验。例如图5a所示的图像，在识别出主体内容图像所在框后，图像中主体内容图像所在框之外的图像即为花边，可以截取主体内容图像所在框中的主体内容图像，并针对截取的主体内容图像进行评分值的计算，这样，可以消除图像中花边对评分值的影响，提高评分的准确度。

在另一种具体的应用即视频去重的应用中，由于在重复的视频中，视频的各帧图像中有很多图像的主体内容是一样，但是花边(比如背景)不同，导致这些图像的画面的整体差异性不是很明显，这给视频去重带来了较大的干扰，通过本申请实施例中训练得到的主体内容识别模型对图像的主体内容图像进行识别后，可以准确的判断出图像之间的相似性，极大的提高了视频去重的召回结果。例如图5b和图5c所示分别为两个视频中的某帧图像，分别识别出这两帧图像中主体内容图像所在框后，图像中主体内容图像所在框之外的图像即为花边，可以分别截取这两帧图像中主体内容图像所在框中的主体内容图像，然后再判断这两帧图像中主体内容图像之间的相似性，并基于相似性确定这两帧图像所对应的视频是否为重复视频，进而进行去重，这样，可以消除图像中花边对视频去重的影响，提高视频去重的召回结果。如图6所示，本实施例中主体内容识模型可以通过如下步骤来训练得到：

步骤301，确定初始训练模型，初始训练模型包括特征提取模块、边缘检测模块和主体目标获取模块。

如图7a所示，在本实施例中，特征提取模块可以提取图像中整体物体及纹理的特征信息，得到图像特征信息；图像特征信息输入到主体目标获取模块后，经过多层卷积网络及全连接层(FC)得到主体目标的信息，具体可以包括图像中主体目标所在框的坐标信息，及该主体目标所在框是否为主体目标与花边之间的交界线，即是否为花边线，其中，主体目标获取模块具体为目标检测模型；当图像特征信息输入到边缘检测模块后，经过两个全连接层(FC)，输出图像中边缘线的位置信息，比如图7b所示的边缘检测模块检测的边缘线为主体目标与花边之间的交界线。

其中，在本实施例中，可以设定主体目标获取模块获取的主体目标所在框的大小，比如增大主体目标所在框的大小。

步骤302，确定训练样本，训练样本中包括多个样本图像及各个样本图像中主体目标的第一标注信息和边缘线的第二标注信息。

其中，第一标注信息中包括样本图像中正样本框的位置信息、负样本框的位置信息及各个样本框内的图像是否为主体目标的信息，而正样本框内的图像为主体目标，负样本框内的图像非主体目标。

步骤303，通过特征提取模块对各个样本图像进行特征提取得到图像特征信息，边缘检测模块根据各个样本图像的图像特征信息检测各个样本图像中边缘线的第二位置信息，主体目标获取模块根据各个样本图像的图像特征信息获取各个样本图像中主体目标的第一位置信息。

其中，各个样本图像中边缘线的第二位置信息包括样本图像中主体目标与花边之间的交界线的位置信息，而各个样本图像中主体目标的第一位置信息可以包括样本图像中目标所在框的位置信息及目标所在框属于主体目标类型的概率信息等。

在本实施例中，内容识别装置还可以针对主体目标获取模块输出的目标所在框的位置信息，计算各个样本图像中各个目标所在框对应的并交(Intersection over Union，IoU)值，如果某一目标所在框的IoU值大于某一IoU阈值，则说明该目标所在框为主体目标所在框，否则目标所在框非主体目标所在框。

其中，IoU值用于描述主体目标获取模块输出的图像的主体目标信息，与图像实际的主体目标信息之间重合的参数，如果重合度越高，则说明主体目标获取模块的准确度越高。本实施例中，可以通过提高IoU阈值，来使训练的主体目标获取模块更准确，进一步地借鉴边缘检测模块检测边缘线的信息，则训练得到的主体目标获取模块也更准确。

步骤304，根据边缘检测模块得到的第二位置信息及训练样本中对应的第二标注信息，计算与边缘检测模块相关的第二损失函数；根据主体目标获取模块得到的第一位置信息和所述训练样本中对应的第一标注信息，计算与主体目标获取模块相关的第一损失函数；根据边缘检测模块得到的第二位置信息，和主体目标获取模块得到的第一位置信息，计算第三损失函数。

其中，在计算第一损失函数时，具体地，根据主体目标获取模块获取的目标所在框的位置信息与第一标注信息中样本框的位置信息，计算第一子误差；及根据目标所在框为主体目标类型的概率信息与第一标注信息中各个样本框内目标是否为主体目标的信息计算第二子误差；然后根据第一子误差及其权重值，及第二子误差及其权重值计算第一损失函数，这里，第一子误差的权重值大于某一预置值。

其中，在计算第一子误差时，会根据对应概率信息大于阈值目标所在框的位置信息与训练样本中正样本框的位置信息之间的第一差值及其权重值，及对应概率信息不大于上述阈值的目标所在框的位置信息与训练样本中负样本框的位置信息之间的第二差值及其权重值，计算第一子误差，这里，第二差值的权重值小于另一预置值。

步骤305，根据第一损失函数、第二损失函数和第三损失函数计算整体损失函数，比如将三个损失函数的加权和值作为整体损失函数。

步骤306，根据整体损失函数调整初始训练模型中参数的参数值。

步骤307，判断对初始训练模型中参数的参数值的调整是否满足预置的训练停止条件，如果满足，则将当前调整的初始训练模型作为最终训练得到的训练模型，并将当前调整的初始训练模型中的特征提取模块和主体目标获取模块作为最终训练得到的主体内容识别模型，并结束流程；如果不满足，返回执行步骤303。

可见，在本实施例中，结合边缘检测模块和主体目标获取模块各自的优点，高效、准确地训练主体内容识别模型，以对图像中的主体内容图像进行识别。在训练的过程中，使用主体目标获取模块输出主体目标所在框的位置，来获取主体内容图像的大致位置，同时利用边缘检测模块输出边缘线的信息，最后结合两者的信息，最终输出主体目标的位置信息。总体来说，本实施例的方法有如下优点：

(1)对主体目标获取模块进行优化，具体地，在计算第一损失函数时，增大回归损失占比，即增大上述第一子误差的权重值；且在计算第一损失函数时，降低负样本框的权重值，即降低上述第二差值的权重值；提高主体目标获取模块输出的目标所在框的IoU值，使得获取的主体目标所在框的位置信息更准确。

(2)将边缘检测模块输出的第二位置信息与主体目标获取模块输出的第一位置信息相结合，具体地，在计算整体损失函数时，会计算上述第三损失函数，使得通过边缘检测模块得到的第二位置信息与通过主体目标获取模块得到的第一位置信息尽量重合，进而准确地获取图像的主体目标。

在具体实践过程中，按照现有技术中的主体内容识别模型(比如Canny、DexiNed、YoloV3及Faster RCNN)对图像中花边进行识别后，计算得到的评判参数，与按照本实施例中训练的主体内容识别模型对图像中花边进行识别后，计算得到的评判参数，如下表1所示：

表1

其中，计算的评判参数具体为平均精度(AveragePrecision，AP)，该评判参数AP用于描述主体内容识别模型识别出图像的主体内容图像与图像实际的主体内容的重合程度的平均准确率，比如85％重合程度的平均准确度即为AP85、90％重合程度的平均准确度即为AP90、55％的重合程度的平均准确度即为AP95、97％重合程度的平均准确度即为AP97，可见，按照本实施例训练的主体内容识别模型对图像进行主体内容图像的识别后，与图像实际的主体内容的重合程度较高，即本实施例中的主体内容识别模型对主体内容图像的识别更准确。

以下以另一具体的应用实例来说明本申请中的内容识别方法，本申请实施例中的内容识别装置主要为分布式系统100，该分布式系统可以包括客户端300及多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)，客户端300与节点200之间通过网络通信的形式连接。

以分布式系统为区块链系统为例，参见图8是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端300形成，节点之间形成组成的点对点(P2P，Peer ToPeer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图8示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其它节点，供其它节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，在本实施例中，节点中的应用还包括实现内容识别功能的代码，该内容识别功能主要包括：

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图9为本申请实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本申请实施例还提供一种内容识别装置400，其结构示意图如图10所示，具体可以包括：

图像获取单元10，用于获取待识别图像，所述待识别图像包括待识别的主体内容图像。

内容识别单元11，用于通过预训练的主体内容识别模型对所述图像获取单元10获取的待识别图像进行主体内容图像的识别，得到所述待识别图像中主体内容图像的目标坐标框；所述预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的；其中，所述第一标注信息用于标注所述样本图像中主体目标所在框的位置信息，所述第二标注信息用于标注所述样本图像中边缘线的位置信息；所述初始训练模型包括特征提取模块、边缘检测模块和主体目标获取模块，所述特征提取模块用于提取所述样本图像的图像特征信息，所述边缘检测模块用于根据所述图像特征信息检测所述样本图像中的边缘信息，所述主体目标获取模块用于根据所述图像特征信息获取所述样本图像中的主体目标。

进一步地，本实施例的内容识别装置400还包括：

样本获取单元12，用于获取训练样本，所述训练样本中包括多个样本图像及各个样本图像的第一标注信息和第二标注信息。

调整单元13，根据所述样本获取单元12获取的训练样本中的第一标注信息和第二标注信息，对所述初始训练模型进行调整，得到调整后的训练模型。

模型确定单元14，用于确定所述预训练的主体内容识别模型包括所述调整单元13调整后的训练模型中的特征提取模块和主体目标获取模块。这样，上述内容识别单元11会根据模型确定单元14确定的主体内容识别模型进行主体内容图像的识别。

在具体的实施例中，上述调整单元13，具体用于通过所述初始训练模型输出所述样本图像中主体目标的第一位置信息，及所述样本图像中边缘线的第二位置信息；根据所述初始训练模型输出的第一位置信息和所述训练样本中对应的第一标注信息的第一损失函数，及所述初始训练模型输出的第二位置信息和所述训练样本中对应的第二标注信息的第二损失函数，调整所述初始训练模型，得到调整后的初始训练模型；当对所述初始训练模型的调整满足预置的训练停止条件时，将当前调整后的初始训练模型确定为所述调整后的训练模型；当对所述初始训练模型的调整不满足预置的训练停止条件时，针对当前调整后的初始训练模型，返回执行所述输出第一位置信息和第二位置信息及后续步骤。

其中，所述初始训练模型输出的第一位置信息中包括：目标所在框的位置信息及目标所在框属于主体目标类型的概率信息，所述第一标注信息中包括：所述样本图像中多个样本框的位置信息及样本框内目标是否为主体目标的信息；则所述初始训练模型输出的第一位置信息和所述训练样本中对应的第一标注信息的第一损失函数在计算时，调整单元13，具体用于根据初始训练模型输出的目标所在框的位置信息与第一标注信息中对应样本框的位置信息，计算第一子误差；及根据目标所在框属于主体目标类型的概率信息与第一标注信息中对应样本框内目标是否为主体目标的信息计算第二子误差；根据第一子误差及其权重值，及第二子误差及其权重值计算所述第一损失函数，其中，由于第一子误差的权重值大于某一预置值。

其中，所述多个样本坐标框包括正样本框和负样本框，所述正样本框内的图像内容属于主体目标，所述负样本框内的图像内容非主体目标，则所述调整单元13在根据初始训练模型输出的目标所在框的位置信息与第二标注信息中对应样本框的位置信息，计算第一子误差时，具体用于根据对应概率信息大于阈值的目标所在框的位置信息与所述正样本框的位置信息之间的第一差值及其权重值，及对应概率信息不大于所述阈值的目标所在框的位置信息与负样本框的位置信息之间的第二差值及其权重值，计算所述第一子误差，其中，所述第二差值的权重值小于另一预置值。

进一步地，调整单元13在根据调整所述初始训练模型之前，还用于根据所述初始训练模型输出的第一位置信息和第二位置信息，计算第三损失函数，所述第三损失函数用于描述所述初始训练模型中边缘检测模块检测的第二位置信息与主体目标获取模块获取的第一位置信息之间的差值；则在调整所述初始训练模型时，具体用于根据所述第一损失函数、第二损失函数和第三损失函数计算整体损失函数，根据所述整体损失函数调整所述初始训练模型。

可见，由于在对主体内容识别模型进行预训练时，主体目标获取模块获取主体目标的过程会借鉴边缘检测模块检测边缘线的信息，使得主体目标获取模块获取的信息更准确，进而使得训练得到的主体内容识别模型在对待识别图像进行主体内容图像的识别时更准确。

本申请实施例还提供一种终端设备500，其结构示意图如图11所示，该终端设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对终端设备500中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备500上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括内容识别的应用程序，且该程序可以包括上述内容识别装置400中的图像获取单元10，内容识别单元11，样本确定单元12，调整单元13和模型确定单元14，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备500上执行存储介质22中储存的内容识别的应用程序对应的一系列操作。

终端设备500还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，一个或一个以上输入输出接口25，和/或，一个或一个以上操作系统223，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由内容识别装置400所执行的步骤可以基于该图11所示的终端设备的结构。

本申请实施例另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如上述内容识别装置所执行的内容识别方法。

本申请实施例另一方面还提供一种终端设备，包括处理器和存储器；所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如上述内容识别装置所执行的内容识别方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

另外，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的内容识别方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。

以上对本申请实施例所提供的内容识别方法、装置、存储介质和终端设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种内容识别方法，其特征在于，包括：

获取待识别图像，所述待识别图像为待评分或去重的图像，包括待识别的主体内容图像及所述主体内容图像之外的花边；

通过预训练的主体内容识别模型对所述待识别图像进行主体内容图像的识别，得到所述待识别图像中主体内容图像的目标坐标框，基于所述主体内容图像进行图像评分或去重；所述预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的；

其中，所述第一标注信息用于标注所述样本图像中主体目标所在框的位置信息，所述第二标注信息用于标注所述样本图像中边缘线的位置信息；所述初始训练模型包括特征提取模块、边缘检测模块和主体目标获取模块，所述特征提取模块用于提取所述样本图像的图像特征信息，所述边缘检测模块用于根据所述图像特征信息检测所述样本图像中的边缘信息，所述主体目标获取模块用于根据所述图像特征信息获取所述样本图像中的主体目标；其中，所述边缘信息包括边缘线的位置信息，所述边缘线为所述样本图像中主体目标与花边之间的交界线；

其中，所述主体目标获取模块包括：区域候选网络、感兴趣区域对齐网络和全连接网络中的三个分支，所述三个分支包括：类别分支、坐标位置分支和轮廓分支，所述特征提取模块的输出分别连接所述区域候选网络和感兴趣区域对齐网络，所述区域候选网络的输出连接所述感兴趣区域对齐网络，所述感兴趣区域对齐网络的输出分别连接到所述三个分支；其中，所述区域候选网络用于基于所述图像特征信息生成主体目标的候选区域，所述感兴趣区域对齐网络用于对所述候选区域进行修正，所述坐标位置分支输出所述主体目标的位置信息，所述轮廓分支输出所述主体目标所在框的区域信息，所述类别分支输出所述主体目标属于一类型的概率信息；

所述预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的，包括：

根据所述初始训练模型输出的第一位置信息和训练样本中对应的第一标注信息计算第一损失函数，及，根据所述初始训练模型输出的第二位置信息和所述训练样本中对应的第二标注信息计算第二损失函数，及，根据所述初始训练模型输出的第一位置信息和第二位置信息计算第三损失函数，所述第三损失函数用于描述所述初始训练模型中边缘检测模块检测的第二位置信息与主体目标获取模块获取的第一位置信息之间的差值；

根据所述第一损失函数、第二损失函数和第三损失函数计算整体损失函数，根据所述整体损失函数调整所述初始训练模型；

其中，所述第一位置信息为所述样本图像中主体目标的第一位置信息，所述第二位置信息为所述样本图像中边缘线的第二位置信息。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本，所述训练样本中包括多个样本图像及各个样本图像的第一标注信息和第二标注信息；

根据所述训练样本中的第一标注信息和第二标注信息，对所述初始训练模型进行调整，得到调整后的训练模型；

确定所述预训练的主体内容识别模型包括所述调整后的训练模型中的特征提取模块和主体目标获取模块。

3.如权利要求2所述的方法，其特征在于，

所述主体目标获取模块，用于根据所述图像特征信息对所述样本图像进行语义分割，得到多个分割区域；对所述多个分割区域的类型进行判别，确定所述多个分割区域中属于主体目标类型的目标分割区域；基于所述目标分割区域的信息确定所述样本图像中主体目标的位置信息。

4.如权利要求2所述的方法，其特征在于，所述根据所述训练样本中的第一标注信息和第二标注信息，对所述初始训练模型进行调整，得到调整后的训练模型，包括：

通过所述初始训练模型输出所述样本图像中主体目标的第一位置信息，及所述样本图像中边缘线的第二位置信息；

根据所述初始训练模型输出的第一位置信息和所述训练样本中对应的第一标注信息的第一损失函数，及所述初始训练模型输出的第二位置信息和所述训练样本中对应的第二标注信息的第二损失函数，调整所述初始训练模型，得到调整后的初始训练模型；

当对所述初始训练模型的调整满足预置的训练停止条件时，将当前调整后的初始训练模型确定为所述调整后的训练模型；

当对所述初始训练模型的调整不满足预置的训练停止条件时，针对当前调整后的初始训练模型，返回执行所述输出第一位置信息和第二位置信息及后续步骤。

5.如权利要求4所述的方法，其特征在于，所述初始训练模型输出的第一位置信息中包括：目标所在框的位置信息及目标所在框属于主体目标类型的概率信息，所述第一标注信息中包括：所述样本图像中多个样本框的位置信息及样本框内目标是否为主体目标的信息；

则所述初始训练模型输出的第一位置信息和所述训练样本中对应的第一标注信息的第一损失函数在计算时，包括：根据初始训练模型输出的目标所在框的位置信息与第一标注信息中对应样本框的位置信息，计算第一子误差；及根据目标所在框属于主体目标类型的概率信息与第一标注信息中对应样本框内目标是否为主体目标的信息计算第二子误差；

根据第一子误差及其权重值，及第二子误差及其权重值计算所述第一损失函数，其中，由于第一子误差的权重值大于某一预置值。

6.如权利要求5所述的方法，其特征在于，所述多个样本坐标框包括正样本框和负样本框，所述正样本框内的图像内容属于主体目标，所述负样本框内的图像内容非主体目标，则所述根据初始训练模型输出的目标所在框的位置信息与第二标注信息中对应样本框的位置信息，计算第一子误差，包括：

根据对应概率信息大于阈值的目标所在框的位置信息与所述正样本框的位置信息之间的第一差值及其权重值，及对应概率信息不大于所述阈值的目标所在框的位置信息与负样本框的位置信息之间的第二差值及其权重值，计算所述第一子误差，其中，所述第二差值的权重值小于另一预置值。

7.一种内容识别装置，其特征在于，包括：

图像获取单元，用于获取待识别图像，所述待识别图像为待评分或去重的图像，包括待识别的主体内容图像及所述主体内容图像之外的花边；

内容识别单元，用于通过预训练的主体内容识别模型对所述待识别图像进行主体内容图像的识别，得到所述待识别图像中主体内容图像的目标坐标框，基于所述主体内容图像进行图像评分或去重；所述预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的；

所述预训练的主体内容识别模型中包括所述特征提取模块和主题目标获取模块；

所述预训练的主体内容识别模型是通过多个样本图像及各个样本图像的第一标注信息和第二标注信息对初始训练模型训练得到的，包括：根据所述初始训练模型输出的第一位置信息和训练样本中对应的第一标注信息计算第一损失函数，及，根据所述初始训练模型输出的第二位置信息和所述训练样本中对应的第二标注信息计算第二损失函数，及，根据所述初始训练模型输出的第一位置信息和第二位置信息计算第三损失函数，所述第三损失函数用于描述所述初始训练模型中边缘检测模块检测的第二位置信息与主体目标获取模块获取的第一位置信息之间的差值；根据所述第一损失函数、第二损失函数和第三损失函数计算整体损失函数，根据所述整体损失函数调整所述初始训练模型；其中，所述第一位置信息为所述样本图像中主体目标的第一位置信息，所述第二位置信息为所述样本图像中边缘线的第二位置信息。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1至6任一项所述的内容识别方法。

9.一种终端设备，其特征在于，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如权利要求1至6任一项所述的内容识别方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。