CN115115869A - 业务图像标注方法、装置、电子设备、计算机程序产品 - Google Patents

业务图像标注方法、装置、电子设备、计算机程序产品 Download PDF

Info

Publication number
CN115115869A
CN115115869A CN202210547397.0A CN202210547397A CN115115869A CN 115115869 A CN115115869 A CN 115115869A CN 202210547397 A CN202210547397 A CN 202210547397A CN 115115869 A CN115115869 A CN 115115869A
Authority
CN
China
Prior art keywords
image
service
seed
business
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210547397.0A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210547397.0A priority Critical patent/CN115115869A/zh
Publication of CN115115869A publication Critical patent/CN115115869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks

Abstract

本发明提供了一种业务图像标注方法,包括:通过获取业务流信息中的业务图像和种子图像;通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量;对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇;根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置;响应于所述待标注业务图像的位置,由此,辅助进行图像标注,同时提升图像标注的速度,节省了人力成本。本发明还提供了业务图像标注装置、电子设备、计算机程序产品以及存储介质。本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

Description

业务图像标注方法、装置、电子设备、计算机程序产品
技术领域
本发明涉及人工智能领域的图像处理技术,尤其涉及业务图像标注方法、装置、电子设备、计算机程序产品以及存储介质。
背景技术
基于深度学习所进行的各类别识别,一直以来都是各应用场景下解决大量数据分的重要工具。例如,在图像、自然语言处理等应用场景中,对大量数据所实现的大规模分类和识别,以此来快速准确的获得相关的分类预测结果,加速所在应用场景的功能实现。
在计算机视觉(CV)领域中,基于人工智能的各种图像处理技术已经得到显著发展,并且具有广泛应用。计算机视觉可以应用于多种不同的图像处理任务,诸如图像分类以及图像的全景分类等等。针对这些图像处理任务,通常需要首先对图像进行准确的标注。因此,图像标注的准确性影响着图像处理任务的准确性。此外,准确地图像标注结果可以提升图像处理的可扩展性,能够应用于多种不同的图像处理任务。
发明内容
有鉴于此,本发明实施例提供一种业务图像标注方法、装置、电子设备、计算机程序产品以及存储介质,能够实现利用计算机设备通过机器学习技术确定待标注图像的位置,辅助进行图像标注,同时提升图像标注的速度,节省了人力成本。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种业务图像标注方法,包括:
获取业务流信息中的业务图像和种子图像;
通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量;
对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇;
根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置;
响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理。
本发明实施例还提供了一种业务图像标注装置,所述装置包括:
信息传输模块,用于获取业务流信息中的业务图像和种子图像;
信息处理模块,用于通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量;
所述信息处理模块,用于对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇;
所述信息处理模块,用于根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置;
所述信息处理模块,用于响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理。
上述方案中,所述信息处理模块,用于确定所述业务流信息的业务类型;
根据所述业务类型在云网络中查询与所述业务类型相匹配的种子图像,其中,所述业务类型包括至少以下之一:
低俗图像识别、小样本动作图像识别、版权保护图像识别。
上述方案中,所述信息处理模块,用于确定所述种子图像的数量阈值和聚类距离阈值;
当所述种子图像的数量小于等于所述种子图像的数量阈值时,在小于等于所述聚类距离阈值的所述图像聚类子簇中筛选业务图像;
对所筛选出的业务图像进行标注,得到第一标注业务图像;
所述信息处理模块,用于将所述第一标注业务图像发送至所述在云网络的种子图像数据库中,以实现所述种子图像的数量大于所述种子图像的数量阈值。
上述方案中,所述信息处理模块,用于确定所述图像聚类子簇的数量阈值;
所述信息处理模块,用于当所述图像聚类子簇的数量小于等于所述图像聚类子簇的数量阈值时,触发与所述种子图像向量相匹配的相似性搜索数据库;
所述信息处理模块,用于通过所述相似性搜索数据库中的图像标注信息,筛选与所述图像聚类子簇相匹配的图像,并且将所述图像与所述图像聚类子簇进行融合,以实现所述当所述图像聚类子簇的数量大于所述图像聚类子簇的数量阈值。
上述方案中,所述信息处理模块,用于获取初始训练样本集合;
所述信息处理模块,用于对所述初始训练样本集合进行数据编码处理,得到训练样本集合;
所述信息处理模块,用于通过所述训练样本集合,对所述图像分类模型进行训练,确定所述图像分类模型的网络参数,其中,所述图像分类模型包括第一图像分类网络和第二图像分类网络;
所述信息处理模块,用于基于所述图像分类模型的对比损失函数,调整所述图像分类模型的网络参数;
所述信息处理模块,用于直至所述对比损失函数达到相应的收敛条件时,确定所述图像分类模型的网络参数。
上述方案中,所述信息处理模块,用于确定与所述图像分类模型的使用环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述初始训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的初始训练样本集合;或者,
所述信息处理模块,用于确定与所述图像分类模型相对应的固定噪声阈值,并根据所述固定噪声阈值对所述初始训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的初始训练样本集合。
上述方案中,所述信息处理模块,用于截取所述业务流信息中的业务视频,并对所述业务视频进行抽帧处理,得到抽帧图像;
所述信息处理模块,用于获取与所述业务视频的标签对应的关键词,并获取与所述关键词相匹配的关键词图像;
所述信息处理模块,用于获取公开数据集合中与所述业务视频相匹配的业务图像;
所述信息处理模块,用于将所述抽帧图像、所述关键词图像和所述业务图像进行组合,得到所述初始训练样本集合。
上述方案中,所述信息处理模块,用于当所述业务类型为低俗图像识别时,获取与所述待标注业务图像的图像场景相对应的低俗识别规则;
所述信息处理模块,用于基于与所述待标注业务图像的图像场景相对应的低俗识别规则,确定所述待标注业务图像的低俗识别结果。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前述的业务图像标注方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现前述的业务图像标注方法。
本发明实施例具有以下有益效果:
本发明通过获取业务流信息中的业务图像和种子图像;通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量;对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇;根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置;响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理能够实现利用计算机设备通过机器学习技术确定待标注图像的位置,辅助进行图像标注,同时提升图像标注的速度,节省了人力成本。
附图说明
图1是本发明实施例提供的业务图像标注方法的使用环境示意图;
图2为本发明实施例提供的电子设备的组成结构示意图;
图3为本发明实施例提供的业务图像标注方法一个可选的流程示意图;
图4为本发明实施例中小样本动作识别的种子图像一个可选的示意图;
图5为本发明实施例提供的业务图像标注方法一个可选的流程示意图;
图6为本发明实施例中图像分类模型的模型结构示意图;
图7为本发明实施例图像分类模型中编码器的编码过程示意图;
图8为本发明实施例图像分类模型中编码器的编码过程示意图;
图9为本发明实施例图像分类模型中数据编码的过程示意图;
图10为本发明实施例一个可选的的使用场景示意图;
图11本发明实施例提供的业务图像标注方法一个可选的流程示意图;
图12为本发明实施例中低俗识别结果示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)基于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)客户端,终端中实现特定功能的载体,例如移动客户端(APP)是移动终端中特定功能的载体,例如执行线上直播(视频推流)的功能或者是在线视频的播放功能。
3)卷积神经网络(CNN Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。
4)模型训练,对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多图像分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出图像分类结果。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
5)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
6)Contrastive loss:对比损失函数,其可以学习一种映射关系,这种映射关系可以使得在高维空间中,相同类别但距离较远的点,通过函数映射到低维空间后,距离变近,不同类别但距离都较近的点,通过映射后再低维空间变得更远。这样的结果就是,在低维空间,同一种类的点会产生聚类的效果,不同种类的mean会隔开。类似fisher降维,但fisher降维不具有out-of-sample extension的效果,不能对new sample进行作用。
7)Soft max:归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
8)内容,看推荐客户端推荐给用户阅读的内容,可以包括视频、图像、文本,内容通常是自媒账号注册公众号后主动编辑发布的。
9)终端,用户所使用的可以接收消息的电子设备,电子设备中安装有智能操作系统。
10)终端程序,运行在终端上的各种可接受消息及信息流的应用。
11)服务端,部署在多组服务器上、专门为终端程序提供远程网络服务的服务器程序。
12)图集,一种将图像内容聚合展示的样式。
13)看点,手机社交客户端的内嵌功能,可以推荐多篇文章和视频供用户阅读。
14)信息流,消息来源,是一种资料格式,网站透过它将最新资讯传播给用户,通常以时间轴方式排列,时间轴是信息流最原始、最直觉、也最基本的展示形式,用户能够订阅网站的先决条件是,网站提供了消息来源,将信息源汇流于一处称为聚合,而用于聚合的软体称为聚合器,对终端用户而言,聚合器是专门用来订阅网站的软件,一般亦称为阅读器。
在介绍本申请所提供的业务图像标注方法之前,首先对相关技术中的图像标注方法进行说明,由于互联网上内容来源非常广泛,包括文章、图像、视频等,这些内容来源渠道和质量层次不齐。面对海量庞杂的内容,线上内容存在少量包含漏胸、臀、内衣、裸露部分身体等用户群体敏感的低俗图像,不利于净化社会风气,尤其是对于大量的未成年的青少年用户。相关技术中的方法通常是对图像进行人工审核和标记,将低俗图像直接过滤掉,但是在图像数量庞大的情况下,人工审核和标记的当时效率很低;相关技术中还提供一种辅助算法对图像进行识别的方法,对于特征非常明显的图像(如色情图像)进行识别时,效果非常好,但是对于低俗软色情图像,由于涉及个人价值及场景(例如泳装,走秀,大尺度街拍等不同类目内容,涉及到人体不同部位裸露,裸露面积不一样等等),该方法的识别效果并不好。
在实际的图像场景下,由于信息流内容分发用户群体是多种多样的,青少年和成年人,男性和女性对低俗内容的认知和感知,影响的范围都是不一样,在大规模图像图像场景,例如信息流内容,图文,图集和视频封面图当中一直都存在这样的问题:低俗图像在面向不同用户,不同图像场景会有不同的标准和要求,大一统的图像分类模型(即直接通过图像分类模型判断是否低俗)无法灵活应对不同的图像场景,存在低俗图像判断复杂和难以界定的问题。同时,业务内容当中的低俗图像非常稀疏(位置分布不均匀),大量收集样本信息存很大困难,而且成本很高,当前算法建模进行识别时样本主要来源途径是通过收集用户质量举报和负反馈及人工主动巡检,然后经过人工复核得到样本,但是总体效率非常低,同时对大量数据进行人工图像标注的成本高,耗时长,不利于降低模型的训练成本。
为了解决上述缺陷,本申请提供了一种业务图像标注方法,下面对本发明实施例所提供的业务图像标注方法进行说明,其中,图1为本发明实施例中业务图像标注方法应用环境示意图,参见图1,参见图1,图1是本申请实施例提供的低俗图像的识别系统100的架构示意图,为实现支撑一个示例性应用,终端(包括终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。其中,终端400-1为信息流生产端,终端400-2为信息流消费端。
终端400-2,接收用户所创作的图文内容,并将所接收到的图文内容发送至服务器200;
服务器200,从图文内容中获取待标注业务图像、及待标注业务图像关联的上下文信息;分别对所述待标注业务图像及所述上下文信息进行特征提取,得到图像特征及上下文特征;基于所述图像特征及上下文特征,对所述待标注业务图像进行分类,得到所述待标注业务图像所属的类别;确定所述待标注业务图像的图像场景,并基于所述类别及所述图像场景确定所述待标注业务图像的低俗识别结果;当低俗识别结果为正常时,对图文内容进行分发;
终端400-1,获取分发的图文内容,并呈现该图文内容,供用户浏览。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
其中,本申请实施例所提供的业务图像标注方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如,可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition,ASR),其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。
例如可以涉及机器学习(Machine learning,ML),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(artificial neural network),例如卷积神经网络(ConvolutionalNeural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
可以理解的是,本申请提供的业务图像标注方法以及语音处理可以应用于智能设备(Intelligent device)上,智能设备可以是任何一种具有信息展示功能的设备,例如可以是智能终端、智能家居设备(如智能音箱、智能洗衣机等)、智能穿戴设备(如智能手表)、车载智能中控系统(通过执行不同任务的图像标注对采集的待标注业务图像进行图像标注处理)或者AI智能医疗设备(通过展示待标注业务图像实现展示治疗案例)等。
在一些实施例中,终端即可以手机等智能设备,也可以是车载的智能系统。本发明所提供的业务图像标注方法可以作为云服务的形式服务可类型的客户(封装于车载终端或者封装于不同的移动电子设备中),具体使用场景本申请不做具体限制,其中,作为云服务提供给企业客户,帮助其训练图像分类模型,对不同业务类型中待标注业务图像进行图像标注处理(待标注业务图像在数据流中分布稀疏的场景),例如对低俗图像识别、小样本动作图像识别、版权保护图像识别。
其中,本申请实施例所提供的业务图像标注方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如,可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition,ASR),其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。
例如可以涉及机器学习(Machine learning,ML),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(artificial neural network),例如卷积神经网络(ConvolutionalNeural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图像类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
所谓人工智能云服务,一般也被称作是AI即服务(AIaaS,AI as a Service),是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习、人工智能云服务等技术,具体通过如下实施例进行说明。
将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的业务图像标注方法和图像分类方法。
下面对本发明实施例的电子设备的结构做详细说明,电子设备可以各种形式来实施,如带有图像分类处理功能的专用终端,也可以为带有图像分类功能的电子设备或者云服务器,例如前述图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图,可以理解,图2仅仅示出了电子设备的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的电子设备包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。其中,本发明实施例中的终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等,通过不同终端执行本发明所提供的业务图像标注方法时,具体的使用场景本发明不做限制
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的业务图像标注装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的业务图像标注装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的业务图像标注方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的业务图像标注装置采用软硬件结合实施的示例,本发明实施例所提供的业务图像标注装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的业务图像标注方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的业务图像标注装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的业务图像标注方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括:用于在电子设备20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从业务图像标注方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的业务图像标注装置可以采用软件方式实现,图2示出了存储在存储器202中的业务图像标注装置2020,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括业务图像标注装置2020,业务图像标注装置2020中包括以下的软件模块:
信息传输模块2081,用于获取业务流信息中的业务图像和种子图像。
信息处理模块2082,用于通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量。
所述信息处理模块2082,用于对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇。
所述信息处理模块2082,用于根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置。
所述信息处理模块2082,用于响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理。
根据图2所示的电子设备,在本申请的一个方面中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请所提供的业务图像标注方法的各种可选实现方式中所提供的方法。
结合图2示出的业务图像标注装置说明本发明实施例提供的业务图像标注方法,参见图3,图3为本发明实施例提供的业务图像标注方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行业务图像标注装置的各种电子设备执行,例如可以是如带有图像分类处理功能的专用终端、服务器或者服务器集群,来实现对大规模业务流数据中的图像进行标注。下面针对图3示出的步骤进行说明。
步骤301:业务图像标注装置获取业务流信息中的业务图像和种子图像。
在本发明的一些实施例中,获取业务流信息中的业务图像和种子图像,可以通过以下方式实现:
确定所述业务流信息的业务类型;根据所述业务类型在云网络中查询与所述业务类型相匹配的种子图像,其中,所述业务类型包括至少以下之一:低俗图像识别、小样本动作图像识别、版权保护图像识别。其中,本申请实施例对待标注业务图像的来源及种类不做限定,服务器可以从线上业务流、数据库或其他数据来源获取待标注业务图像,待标注业务图像可以是公众号发布文章中的图像,可以是即时通信过程中的聊天图像,也可以是电商发布的广告图像,也可以是用户上传的短视频的封面图像。
在进行低俗图像识别、小样本动作图像识别和版权保护图像识别三种不同的业务时,低俗图像、小样本动作图像以及版权保护图像(商标或肖像)的共同特点是在大量的图像帧中仅存在一小部分,数量较少且位置稀疏,在进行人工标注时,需要依次查阅标注大量的无效图像后才能够对低俗图像、小样本动作图像以及版权保护图像进行标注,通过本申请提供的业务图像标注方法,利用与业务类型相匹配的种子图像可以确定待标注业务图像的位置,辅助进行标注。
其中,图4为本发明实施例中小样本动作识别的种子图像一个可选的示意图。如图4所示,所显示的画面区域中有不同的视频目标,通过对视频目标的识别可以确定视频目标在所述待识别视频的不同视频帧中的所在区域,由于图4所示的3个不同的短视频中分别出现了动作1“打羽毛球”、动作2“打乒乓球”以及动作3“打篮球”,通过本申请所提供的业务图像标注方法可以分别对4个不同的小样本动作即:1“打羽毛球”、动作2“打乒乓球”以及动作3“打篮球”进行识别。
步骤302:业务图像标注装置通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量。
步骤303:业务图像标注装置对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇。
其中,簇或者子簇是通过聚类算法得到的对全部数据的一个划分,其特点是同一个簇内的数据有相同的特点(数据密度大,间距小),不同簇内的数据差异明显。其中,图像聚类子簇中的不同用户的兴趣相同或相似的,例如在短视频封面的低俗图像识别的使用场景中,可以是体育新闻图像聚类子簇、娱乐新闻图像聚类子簇、经济新闻图像聚类子簇,娱乐新闻图像聚类子簇还可以包括:内地娱乐新闻图像聚类子簇、港台娱乐新闻图像聚类子簇、欧美娱乐新闻图像聚类子簇,并且可以根据用户自行划分的图像聚类子簇种类进行标记。
步骤304:业务图像标注装置根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置。
在本发明的一些实施例中,还可以确定所述种子图像的数量阈值和聚类距离阈值;当所述种子图像的数量小于等于所述种子图像的数量阈值时,在小于等于所述聚类距离阈值的所述图像聚类子簇中筛选业务图像;对所筛选出的业务图像进行标注,得到第一标注业务图像;将所述第一标注业务图像发送至所述在云网络的种子图像数据库中,以实现所述种子图像的数量大于所述种子图像的数量阈值。其中,由于业务流信息中的业务类型多种多样,已有的种子图像可能由于数量少于阈值无法实现聚类处理的效果,影响对待标注图像位置的确定,因此,需要对种子图像进行补充,例如低俗图像识别中通过反馈和类别标准制定有了部分种子样本,接下来需要补充每个类别的样本数据,通过业务图像和种子图像向量化后聚类,按照图像分类模型中嵌入层embedding的特征,同一个类别样本距离靠近,不同类别,样本空间距离很大,聚类后可以得到和不同种子样本在一个子簇和不在一个子簇的图像,聚类时候需要设置聚类距离的阈值(例如低俗图像识别的聚类距离的阈值为0.75),利用聚类距离的阈值可以确定属于同一个子簇是同一类型的接近的图像,由此实现对种子图像的补充。
在本发明的一些实施例中,为了计算出图像聚类子簇的大小,可以利用图像聚类子簇的数量阈值,确定图像聚类子簇的大小是否满足业务图像标注的使用需求,避免由于图像聚类子簇过小,影响业务图像标注的速度,当然这一过程中,不同业务图像标注场景对应的图像聚类子簇的数量阈值并不相同,其中,低俗图像识别场景的图像聚类子簇的数量阈值大于小样本动作图像识别场景的图像聚类子簇的数量阈值;小样本动作图像识别场景的图像聚类子簇的数量阈值大于版权保护图像识别场景的图像聚类子簇的数量阈值。
具体来说,为了更加准确地通过图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置,减少图像标注的数量,可以确定所述图像聚类子簇的数量阈值;当所述图像聚类子簇的数量小于等于所述图像聚类子簇的数量阈值时,触发与所述种子图像向量相匹配的相似性搜索数据库;通过所述相似性搜索数据库中的图像标注信息,筛选与所述图像聚类子簇相匹配的图像,并且将所述图像与所述图像聚类子簇进行融合,以实现所述图像聚类子簇的数量大于所述图像聚类子簇的数量阈值。例如:低俗图像识别的图像聚类子簇的数量阈值为100,即当进行低俗图像识别时,图像聚类子簇的数量小于等于100时,即通过相似性搜索数据库对图像聚类子簇进行补充。由此,能够提升标注图像的数据浓度,减少不必要的标注。同时,还可以通过调整聚类数量和类间距离值得到不同的聚类子簇,以实现对新的类型的低俗图像的识别,以符合不同地区的法律对低俗图像的管辖要求。
需要说明的是,在对业务流信息中的版权保护图像,或者肖像权图像进行标记时,由于版权保护图像,或者肖像权图像可能出现在业务流信息中的短视频业务流中,因此,图像聚类子簇的浓度更大,根据图像聚类和图像聚类子簇的浓度,筛选业务图像中待标注业务图像的位置,可以发现任意形状的图像聚类子簇、图像聚类子簇密度每个点的邻域内都会出现版权保护图像,或者肖像权图像,因此可以进一步地提升图像标注效率。
步骤305:业务图像标注装置响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理。
下面通过表1以及前序图3中的不同处理步骤,对业务图像标注的过程进行说明。
表1
Figure BDA0003649599730000181
在图像分类模型进行部署使用之前,还需要对图像分类模型进行训练,参见图5,图5为本发明实施例提供的业务图像标注方法一个可选的流程示意图,可以理解地,图5示的步骤可以由运行带有图像分类功能的各种电子设备执行,例如可以是如带有业务图像标注功能的专用终端、服务器或者服务器集群,其中,带有业务图像标注功能的专用终端可以为前序图2所示的实施例的电子设备。下面针对图5示出的步骤进行说明。
步骤501:获取初始训练样本集合。
在本发明的一些实施例中,初始训练样本集合可以包括:截取所述业务流信息中的业务视频,并对所述业务视频进行抽帧处理,得到抽帧图像;获取与所述业务视频的标签对应的关键词,并获取与所述关键词相匹配的关键词图像;获取公开数据集合中与所述业务视频相匹配的业务图像;将所述抽帧图像、所述关键词图像和所述业务图像进行组合,得到所述初始训练样本集合。
其中,以低俗图像识别为例,初始训练样本集合的图像获取按照前述实施例的处理方式可以包括以下三个方面:
1.信息流分发的视频内容抽帧图,例如对于一个视频内容,可以认为相邻的抽帧图是相似的,去重后不同视频的抽帧和不相邻的视频帧是不相似的:具体来说负样本对从不同视频的抽帧时间随机构造,构造的同时利用已有视频去重关系链,规避掉重复视频,对信息流内容库,利用信息内容库内启用视频,每个视频内部抽取相邻/相近帧,视为相似图像作为正样本。
2.采用已有的领域的例如ImageNet的分类数据,其中标记同一个标签的图可以认为是相似的图像,不是同一个标签类目则不是相似图像。
3.爬取互联网公共数据:通过信息流分发的内容统计内容标签对应的实体词作为检索Query,通过搜索引擎和垂类网站收集有大量图片数据及已有的低俗图像,可以认为同一个query的top N(N这里可以取3)的图片是相似的图片,不同的Query是不同的图片,从而得到相似和不相似的图片对组合。
步骤502:对所述初始训练样本集合进行数据编码处理,得到训练样本集合。
步骤503:通过所述训练样本集合,对所述图像分类模型进行训练,确定所述图像分类模型的网络参数,其中,所述图像分类模型包括第一图像分类网络和第二图像分类网络。
步骤504:基于所述图像分类模型的对比损失函数,调整所述图像分类模型的网络参数。
参考图6,图6为本发明实施例中图像分类模型的模型结构示意图,其中,图像分类模型的对比损失函数为:
Figure BDA0003649599730000201
其中d=||an-bn||2,代表两个样本特征的欧氏距离,y为两个样本是否匹配的标签,y=1代表两个样本相似或者匹配,y=0则代表不匹配,margin为设定的阈值。这种损失函数最初来源于Yann LeCun的Dimensionality Reduction by Learning an InvariantMapping,即本来相似的样本,在经过特征提取后,在特征空间中,两个样本仍旧相似;而原本不相似的样本,特征空间中,保持两个样本仍旧不相似。图6所示的结构中,SwinTransformer Block包括LN(LayerNorm)层、残差连接、具有GELU非线性的2层MLP、W-MSA(window-based multi-head self attention)和SW-MSA(shifted window-based multi-head self attention),其中W-MSA的使用使模型的复杂度大大降低,减少了计算量,提升了模型的计算效率;SW-MSA的使用使不重叠的窗口之间有了联系,这样也能提取更深的特征,使图像分类模型的效果提升。
图7为本发明实施例图像分类模型中编码器的编码过程示意图,其中,x1经过self-attention到了z1的状态,通过了self-attetion的张量还需要进过残差网络和LaterNorm的处理,然后进入到全连接的前馈网络中,前馈网络需要进行同样的操作,进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中,然后这样的操作,迭代经过了6次,迭代处理的结果进入到decoder中。最终,经过训练的图像分类模型能够对各种类型的业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量。
通过图6所示的模型结构,经过自监督预训练,提取网络隐层的图片嵌入层特征(embedding)之后,业务图像向量和种子图像向量通常维度都非常高的浮点数,由于业务流中大量的图片需要进行向量化提取特征,最终结果就是占用的存储空间非常大。
为解决这一问题,需要具备对图片领域基础内容很好的描述,同时图片特征的维度不能太高,否则计算的复杂度会很高,所因可以通过聚类对图片的特征向量进行降维处理,即对初始训练样本集合进行数据编码处理,得到训练样本集合。
图8为本发明实施例图像分类模型中数据编码的过程示意图,具体来说,输入是图像分类模型所获得的高维向量特征,进行编码成01向量降维,具体如图8所示,主要目的是为了降低维度,减少存储空间,同时尽量不损失精度,也能度量2个图片向量空间的相似性。
图9为本发明实施例图像分类模型中数据编码的过程示意图,在inference的时候再将tanh输出进行sign化,也没有损失太多精度。通过图9所示的符号函数能够把函数的符号析离出来,在计算机运算中,其功能是取某个数的符号(正或负):当x>0,sign(x)=1;当x=0,sign(x)=0;当x<0,sign(x)=-1;在通信中,sign(t)表示这样一种信号:当t≥0,sign(t)=1;即从t=0时刻开始,信号的幅度均为1;当t<0,sign(t)=-1;在t=0时刻之前,信号幅度均为-1。
在本发明的一些实施例中,可以确定与所述图像分类模型的使用环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述初始训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的初始训练样本集合;其中由于图像分类模型的使用环境不同,与所述图像分类模型的使用环境相匹配的动态噪声阈值也不相同,例如,低俗图像识别类的使用环境中,与图像分类模型的使用环境相匹配的动态噪声阈值需要小于小样本动作图像识别中的动态噪声阈值。
在本发明的一些实施例中,还可以确定与所述图像分类模型相对应的固定噪声阈值,并根据所述固定噪声阈值对所述初始训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的初始训练样本集合。其中,当图像分类模型固化于相应的硬件机构中,例如车载终端,使用环境为对道路图像中的小样本动作图像进行分类时,由于噪声较为单一,通过固定图像分类模型相对应的固定噪声阈值,能够有效提升图像分类模型的训练速度,减少图像标注的时间。
步骤505:直至所述对比损失函数达到相应的收敛条件时,确定所述图像分类模型的网络参数。
为了更好的说明本申请提供的业务图像标注方法的处理过程,下面以使用图像分类模型进行低俗图像识别的业务图像标注为例,对本申请所提供的业务图像标注方法的使用环境进行说明,图10为本发明实施例一个可选的的使用场景示意图,本发明所提供的业务图像标注方法可以作为云服务的形式服务可类型的客户(封装于低俗图像识别小程序或者封装于不同的小程序云服务器中),具体使用场景本申请不做具体限制,其中,作为云服务提供给企业客户,帮助企业客户对各类低俗图像识别进行检测。其中,如图10所示,业务图像标注环境包括:
一.PGC和UGC内容生产和消费端
(1)PGC或者UGC,MCN或者PUGC的内容生产者,通过移动端或者后端接口API系统,提供本地或者拍摄的视频内容或者撰写的自媒体文章或者图集,作者可以选择主动上传对应内容的封面图,这些都是分发内容的主要内容来源;
(2)通过和上下行内容接口服务的通讯,先获取上传服务器接口地址,然后在上传本地文件,拍摄过程当中本地视频内容可以选择搭配的音乐,滤镜模板和视频的美化功能等等;
(3)作为消费者,和内容分发出口服务器通讯,获取对应内容的索引信息(即内容直接访问的地址入口),视频的话然后和内容存储服务通讯,下载对应的流媒体文件并且通过本地播放器来播放观看,图文的话通常是直接边缘部署的CDN服务通讯;
(4)同时将上传和下载过程当中用户浏览的行为数据,阅读速度,完成率,阅读时间,卡顿,加载时间,播放点击等上报给服务器;
(5)消费端通常通过Feeds流方式浏览消费数据,对于消费端遇到的图片内容提供直接举报和反馈的入口,直接和人工审核系统对接,进行确认和复核标记,复核的结果保存在图片内容样本库,作为后续图片业务模型训练样本种子数据来源,但是这个样本是事后的;
二.上下行内容接口服务器
(1)和内容生产端直接通讯,从前端提交的内容,通常是内容的标题,发布者,摘要,封面图,发布时间,或者是拍摄的视频直接通过该服务器进入服务端,把文件存入视频内容存储服务;
(2)将视频内容的元信息,比如视频文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,作者标记的Tag信息等信息写入内容数据库;
(3)将上传的文件和内容元信息(比如自媒体作者提供的标签,分类信息)提交给调度中心服务,进行后续的内容处理和流转;
三.内容数据库
(1)内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,重点是内容本身的元信息比如文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,视频文件大小,视频格式,是否原创的标记或者首发还包括人工审核过程中对内容的分类(包括一,二,三级别分类和标签信息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是华为,mate30);
(2)人工审核过程当中会读取内容数据库当中的信息,同时人工审核的结果和状态也会回传进入内容数据库
(3)调度中心对内容处理主要包括机器处理和人工审核处理,这里机器处理核心各种质量判断比如低质过滤,内容标签比如分类,标签信息,还有就是内容排重,结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理;
四.调度中心服务
(1)负责视频和图文内容流转的整个调度过程,通过上下行内容接口服务器接收入库的内容,然后从内容元信息数据库中获取内容的元信息;
(2)在作为图文和视频链路运行的实际调度控制者,按照内容的类型,对链路当中的图片内容,调度多模态低俗图片内容识别服务系统来处理对应的内容,直接过滤和对内容打上对应的标记;
(3)调度人工审核系统和机器处理系统,控制调度的顺序和优先级;
(4)通过人工审核系统的内容被启用,然后通过内容出口分发服务(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给终端的内容消费者,也就是消费端获得的内容索引信息;
五.人工审核服务与举报投诉上报低质量图片内容
(1)通常是一个WEB系统,在链路上,承接机器过滤的结果,对结果进行人工确认和复核,将复核的结果写入内容信息元数据库记录下来,同时可以通过这里人工复核的结果来在线评估机器打击和过滤模型的实际效果;
(2)上报人工审核过程领取任务的来源,审核结果,审核开始和结束时间等审核的详细流水到统计服务器;
(3)和用户消费端的投诉和内容举报的复核系统对接,高优先级处理投诉和举报的低质量图片内容,复核的结果保存在图片内容库当中为后续构建图片业务识别模型提供样本数据;
六.内容存储服务
(1)通常是一组分布范围很广,离C侧用户很久的就近接入的存储服务器通常外围还有CDN加速服务器进行分布式缓存加速,通过上下行内容接口服务器将内容生产者上传的视频和图片内容保存起来;
(2)终端消费者在获取内容索引信息后,也可以直接访问视频内容存储服务器下载对应的内容;
(3)除了作为对外服务的数据源意外,还作为对内服务的数据源,供下载文件系统获取原始的视频数据进行相关的处理,内外数据源的通路通常是分开部署的,避免相互影响;
七.图片样本库
(1)从端举报和负反馈上报符合的低质量图片内容样本经过复核后的结果写入此样本库;
(2)以此样本库为基础,经过和业务所有图片进行向量聚类和筛选得到待标记样本库写入此数据
(3)经过样本收集和处理过后的图片样本库也保存在这里;
八.图片业务处理模型簇
(1)读取图片内容样本库的样本内容,构建各种图片业务处理模型模型,这些模型通常采用CNN网络比如Resnet50或者RestNet101作为骨干网络,也有采用Transform作为骨干网络进行监督学习进行分类的;
(2)构建模型的优先级和顺序通常是通过统计举报和负反馈对应质量问题的排序来决定的;
九.图片处理服务群
(1)将上面构建的图片业务处理模型簇服务化,构建能够在链路上被调用的服务来实现内容的打击与过滤,或者标记,实现按场景及按照用户分发,改善重点用户的体验;
十.样本收集和处理系统
(1)按照上面描述的方法收集多个渠道的数据源,构建预训练自监督图片embedding模型提取图片特征,然后对图片embedding进行降维和01向量化处理有助于工程化实现,再对业务图片数据及已经收集到的种子样本进行向量化和向量聚类结果保存在图片样本数据库当中;
十.下载文件系统
(1)从内容存储服务器下载和获取原始的视频内容,控制下载的速度和进度,通常是一组并行的服务器,有相关的任务调度和分发集群构成;
(2)下载完成的文件调用抽帧服务从视频源文件当中获取必要的视频文件关键帧,作为后续构造视频图片帧来服务;
十一.抽帧服务
(1)按照上面描述的抽帧方法,下载文件系统从视频内容存储服务上下载到的文件进行视频文件特征的初级处理-视频抽帧,包括关键帧和均匀抽到的帧,基于这些帧数据构建图片对;
(2)抽帧核心问题在于时长不同视频的挑战,无法使用均匀抽帧策略,均匀的抽帧策略会导致采样频率不够,同时全部抽取也会增加抽帧的负担和计算量,计算成本急剧增大,比较空间扩大,这里采用的均匀抽取采用30帧的策略,1秒1帧,不足30帧,按照实际时长抽取。
在本发明的一些实施例中,参考图11,图11本发明实施例提供的业务图像标注方法一个可选的流程示意图,具体包括以下步骤:
步骤1101:获取低俗图像识别业务的业务流信息中的业务图像和种子图像。
步骤1102:通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量。
步骤1103:对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇。
步骤1104:根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置。
步骤1105:响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理。
步骤1106:基于与所述待标注业务图像的图像场景相对应的低俗识别规则,确定所述待标注业务图像的低俗识别结果。
参考图12,图12为本发明实施例中低俗识别结果示意图,在一些实施例中,服务器可以通过以下方式确定待识别图像的低俗识别结果:获取与待识别图像的图像场景相对应的低俗识别规则;基于类别、及与待识别图像的图像场景相对应的低俗识别规则,确定待识别图像的低俗识别结果。
在实际实施时,可以预先为待识别图像的图像场景设置相应的低俗识别结果,这里,低俗识别规则应该与类别相对应,也即需要设置类别与低俗识别结果之间的对应关系,其中,色情低俗当前分解有70种子类,例如人体低俗,动作低俗,物品低俗,着装和场景低俗等不同的低俗图像标注场景,如图12所示,当基于类别、及与待识别图像的图像场景相对应的低俗识别规则,确定待识别图像的低俗识别结果后,可以在显示界面中指示具体的识别结果。
步骤1107:向用户发出告警信息。
有益技术效果:
本发明通过获取业务流信息中的业务图像和种子图像;通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量;对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇;根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置;响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理能够实现利用计算机设备通过机器学习技术确定待标注图像的位置,辅助进行图像标注,同时提升图像标注的速度,节省了人力成本。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种业务图像标注方法,其特征在于,所述方法包括:
获取业务流信息中的业务图像和种子图像;
通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量;
对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇;
根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置;
响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理。
2.根据权利要求1所述的方法,其特征在于,所述获取业务流信息中的业务图像和种子图像,包括:
确定所述业务流信息的业务类型;
根据所述业务类型在云网络中查询与所述业务类型相匹配的种子图像,其中,所述业务类型包括至少以下之一:
低俗图像识别、小样本动作图像识别、版权保护图像识别。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述种子图像的数量阈值和聚类距离阈值;
当所述种子图像的数量小于等于所述种子图像的数量阈值时,在小于等于所述聚类距离阈值的所述图像聚类子簇中筛选业务图像;
对所筛选出的业务图像进行标注,得到第一标注业务图像;
将所述第一标注业务图像发送至所述在云网络的种子图像数据库中,以实现所述种子图像的数量大于所述种子图像的数量阈值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述图像聚类子簇的数量阈值;
当所述图像聚类子簇的数量小于等于所述图像聚类子簇的数量阈值时,触发与所述种子图像向量相匹配的相似性搜索数据库;
通过所述相似性搜索数据库中的图像标注信息,筛选与所述图像聚类子簇相匹配的图像,以实现所述图像聚类子簇的数量大于所述图像聚类子簇的数量阈值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取初始训练样本集合;
对所述初始训练样本集合进行数据编码处理,得到训练样本集合;
通过所述训练样本集合,对所述图像分类模型进行训练,确定所述图像分类模型的网络参数,其中,所述图像分类模型包括第一图像分类网络和第二图像分类网络;
基于所述图像分类模型的对比损失函数,调整所述图像分类模型的网络参数;
直至所述对比损失函数达到相应的收敛条件时,确定所述图像分类模型的网络参数。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
确定与所述图像分类模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述初始训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的初始训练样本集合;或者,
确定与所述图像分类模型相对应的固定噪声阈值,并根据所述固定噪声阈值对所述初始训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的初始训练样本集合。
7.根据权利要求5所述的方法,其特征在于,所述获取初始训练样本集合,包括:
截取所述业务流信息中的业务视频,并对所述业务视频进行抽帧处理,得到抽帧图像;
获取与所述业务视频的标签对应的关键词,并获取与所述关键词相匹配的关键词图像;
获取公开数据集合中与所述业务视频相匹配的业务图像;
将所述抽帧图像、所述关键词图像和所述业务图像进行组合,得到所述初始训练样本集合。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述业务类型为低俗图像识别时,获取与所述待标注业务图像的图像场景相对应的低俗识别规则;
基于与所述待标注业务图像的图像场景相对应的低俗识别规则,确定所述待标注业务图像的低俗识别结果。
9.一种业务图像标注装置,其特征在于,所述装置包括:
信息传输模块,用于获取业务流信息中的业务图像和种子图像;
信息处理模块,用于通过图像分类模型对所述业务图像和种子图像分别进行向量化处理,得到业务图像向量和种子图像向量;
所述信息处理模块,用于对所述业务图像向量和种子图像向量进行向量聚类处理,得到图像聚类和图像聚类子簇;
所述信息处理模块,用于根据所述图像聚类和图像聚类子簇的大小,筛选所述业务图像中待标注业务图像的位置;
所述信息处理模块,用于响应于所述待标注业务图像的位置,对所述待标注业务图像进行图像标注处理。
10.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至8任一项所述的业务图像标注方法。
11.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时,实现权利要求1至8任一项所述的业务图像标注方法。
12.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行实现权利要求1至8任一项所述的业务图像标注方法。
CN202210547397.0A 2022-05-18 2022-05-18 业务图像标注方法、装置、电子设备、计算机程序产品 Pending CN115115869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210547397.0A CN115115869A (zh) 2022-05-18 2022-05-18 业务图像标注方法、装置、电子设备、计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210547397.0A CN115115869A (zh) 2022-05-18 2022-05-18 业务图像标注方法、装置、电子设备、计算机程序产品

Publications (1)

Publication Number Publication Date
CN115115869A true CN115115869A (zh) 2022-09-27

Family

ID=83326597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210547397.0A Pending CN115115869A (zh) 2022-05-18 2022-05-18 业务图像标注方法、装置、电子设备、计算机程序产品

Country Status (1)

Country Link
CN (1) CN115115869A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489829A (zh) * 2021-12-22 2022-05-13 北京市遥感信息研究所 一种基于ArcMap的遥感图像样本标注方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489829A (zh) * 2021-12-22 2022-05-13 北京市遥感信息研究所 一种基于ArcMap的遥感图像样本标注方法

Similar Documents

Publication Publication Date Title
WO2022161202A1 (zh) 多媒体资源分类模型训练方法和多媒体资源推荐方法
Rizoiu et al. Hawkes processes for events in social media
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN111444357B (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN113536793A (zh) 一种实体识别方法、装置、设备以及存储介质
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN112257661A (zh) 低俗图像的识别方法、装置、设备及计算机可读存储介质
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
Nie et al. Multimodal learning toward micro-video understanding
CN111507097A (zh) 一种标题文本处理方法、装置、电子设备及存储介质
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
Yang et al. Sentiment enhanced multi-modal hashtag recommendation for micro-videos
WO2023231542A1 (zh) 表示信息的确定方法、装置、设备及存储介质
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
Hazrati et al. Addressing the New Item problem in video recommender systems by incorporation of visual features with restricted Boltzmann machines
CN115115869A (zh) 业务图像标注方法、装置、电子设备、计算机程序产品
CN113822127A (zh) 视频处理方法、装置、视频处理设备及存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN115168568B (zh) 一种数据内容的识别方法、装置以及存储介质
CN117011745A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN117150053A (zh) 多媒体信息推荐模型训练方法、推荐方法及装置
Motohashi et al. Technological competitiveness of China's internet platformers: comparison of Google and Baidu by using patent text information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination