CN111126390A - 一种用于识别媒体内容中标识图案的相关方法及装置 - Google Patents
一种用于识别媒体内容中标识图案的相关方法及装置 Download PDFInfo
- Publication number
- CN111126390A CN111126390A CN201911338757.0A CN201911338757A CN111126390A CN 111126390 A CN111126390 A CN 111126390A CN 201911338757 A CN201911338757 A CN 201911338757A CN 111126390 A CN111126390 A CN 111126390A
- Authority
- CN
- China
- Prior art keywords
- identification
- pattern
- identification pattern
- content
- media content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种基于人工智能的、用于识别媒体内容中标识图案的识别模型训练方法、媒体内容识别方法和相关装置,针对待识别对象的标识图案,可以通过添加形式进行训练样本的构建,由于添加形式可以标识在图像中添加该标识图案的添加位置,或者在添加该标识图案时,对该标识图案的内容改变方式,由此构建得到的训练样本中,可以囊括各种在图像中添加该标识图案的可能形式。训练样本的生成对网络爬取、人工标识的依赖性降低,能够依据添加形式快速生成大量的高质量训练样本,且均包括准确的标签,从而在以此训练样本进行监督训练得到的识别模型,即使针对网络中新产生的标识图案,也能够准确识别媒体内容中各种变化形式的该标识图案。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种用于识别媒体内容中标识图案的识别模型训练方法、媒体内容识别方法和相关装置。
背景技术
在互联网时代,大量的媒体内容通过不同途径被上传到网络上进行传播。由于媒体内容所具有的传播性,在一些情况下媒体内容的生成方或上传方会通过媒体内容对一些对象例如营销号、产品、软件等进行宣传,以提高对象的曝光度。
一种常见的对象宣传方式是在媒体内容中添加用于宣传的对象的标识图案,例如指向该对象的二维码、软件图标、营销号标识等。通过不同的添加形式,使得媒体内容在播放、展示过程中,显示该标识图案。
为了避免通过标识图案散播不良内容,需要对网络中的媒体内容进行准确的标识图案识别,以识别出携带了标识图案的媒体内容。然而,由于标识图案的变化形式非常多,对标识图案的识别带来了很大难度。
发明内容
为了解决上述技术问题,本申请提供了一种用于识别媒体内容中标识图案的相关方法及装置,使得训练样本中尽可能涵盖标识图案以各种各样变形形式存在的训练样本,以及标识图案处于各种各样添加位置处的训练样本,提高经训练样本训练得到的识别模型识别媒体内容中标识图案的准确性。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种用于识别媒体内容中标识图案的识别模型训练方法,所述方法包括:
获取待识别对象的标识图案;
采用不同的添加形式在图像中添加所述标识图案,作为训练样本;
通过所述训练样本训练识别模型,所述识别模型用于识别媒体内容中的标识图案;
所述添加形式用于标识以下任意一种或多种的组合:
在图像中添加所述标识图案的添加位置;
所述标识图案的内容改变方式。
另一方面,本申请实施例提供了一种媒体内容识别方法,所述方法包括:
从待识别的媒体内容中选取多个图像帧作为帧序列;
分别确定所述多个图像帧中标识图案的位置信息;
根据所述帧序列中相邻图像帧的位置信息,确定所述相邻图像帧中的标识图案是否部分重叠;
若目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
另一方面,本申请实施例提供了一种用于识别媒体内容中标识图案的识别模型训练装置,所述装置包括获取单元、添加单元和训练单元:
所述获取单元,用于获取待识别对象的标识图案;
所述添加单元,用于采用不同的添加形式在图像中添加所述标识图案,作为训练样本;
所述训练单元,用于通过所述训练样本训练识别模型,所述识别模型用于识别媒体内容中的标识图案;
所述添加形式用于标识以下任意一种或多种的组合:
在图像中添加所述标识图案的添加位置;
所述标识图案的内容改变方式。
另一方面,本申请实施例提供了一种媒体内容识别装置,所述装置包括选取单元、第一确定单元、第二确定单元和第三确定单元:
所述选取单元,用于从待识别的媒体内容中选取多个图像帧作为帧序列;
所述第一确定单元,用于分别确定所述多个图像帧中标识图案的位置信息;
所述第二确定单元,用于根据所述帧序列中相邻图像帧的位置信息,确定所述相邻图像帧中的标识图案是否部分重叠;
所述第三确定单元,用于若目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
另一方面,本申请实施例提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述所述的识别模型训练方法或所述的媒体内容识别方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述所述的识别模型训练方法或上述所述的媒体内容识别方法。
由上述技术方案可以看出,针对待识别对象的标识图案,可以通过添加形式进行训练样本的构建,由于添加形式可以标识在图像中添加该标识图案的添加位置,或者在添加该标识图案时,对该标识图案的内容改变方式,由此构建得到的训练样本中,可以囊括各种在图像中添加该标识图案的可能形式。训练样本的生成对网络爬取、人工标识的依赖性降低,能够依据添加形式快速生成大量的高质量训练样本,且均包括准确的标签,从而在以此训练样本进行监督训练得到的识别模型,即使针对网络中新产生的标识图案,也能够准确识别媒体内容中各种变化形式的该标识图案。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种为媒体内容添加了对象为“AA视频软件”的标识图案的展示示意图;
图2为本申请实施例提供的一种识别模型训练方法的应用场景示意图;
图3为本申请实施例提供的一种用于识别媒体内容中标识图案的识别模型训练方法流程图;
图4为本申请实施例提供的一种基于内容改变方式生成训练样本的训练样本示例图;
图5为本申请实施例提供的一种媒体内容识别方法流程图;
图6为本申请实施例提供的一种识别动态的标识图案的场景示意图;
图7为本申请实施例提供的一种水印识别系统结构图;
图8为本申请实施例提供的一种识别模型训练装置结构图;
图9为本申请实施例提供的一种媒体内容识别装置的结构图;
图10为本申请实施例提供了一种数据处理设备结构图;
图11为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
目前,通常在媒体内容中添加对象的标识图案如二维码、软件图标、营销号标识等,以使得在媒体内容播放、展示过程中,显示该标识图案进行传播。例如图1示出的为媒体内容添加了对象为“AA视频软件”的标识图案的展示示意图。
为了避免通过标识图案散播不良内容,需要对媒体内容进行标识图案识别。然而,有些媒体内容生成、上传方为了规避识别,会对所要添加的标识图案进行各种形式变化,对标识图案的识别带来了很大难度。
本申请实施例所提供的识别模型训练方法和后续介绍的媒体内容识别方法可以是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能技术包括上述计算机视觉技术、自然语言处理技术及机器学习等方向。
例如可以涉及计算机视觉(Computer Vision)中的图像处理(ImageProcessing)、图像语义理解(Image Semantic Understanding,ISU)、视频处理(VideoProcessing)、视频语义理解(Video Semantic Understanding,VSU)、三维物体重建(3Dobject reconstruction)、人脸识别(Face recognition)等。
例如可以涉及自然语言处理(Nature Language processing,NLP)中的文本预处理(Text preprocessing)和语义理解(Semantic understanding)等,其中包括词、句切分(word/sentence segementation)、词性标注(word tagging)、语句分类(word/sentenceclassification)等。
例如可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(artificial neural network)。
为此,本申请实施例提供的一种识别模型训练方法,通过该方法训练得到的识别模型,可以准确识别媒体内容的图像帧中各种变化形式的标识图案。
本申请提供的识别模型训练方法可以通过数据处理设备执行,该数据处理设备可以是终端设备,也可以是服务器。其中,终端设备例如可以是智能手机、计算机、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑、销售终端(Point of Sales,简称POS)、车载电脑等设备。服务器可以是独立的服务器,也可以是集群中的服务器。
该数据处理设备可以具备实施计算机视觉技术的能力,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
在本申请实施例中,数据处理设备可以通过计算机视觉技术获取视频这一媒体内容中的图像帧、识别图像帧中标识图案体现的图案内容、以及从媒体内容的图像帧中识别标识图案体现的图案内容等。
该数据处理设备还可以具有实施自然语言处理的能力,其是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解等技术。
在本申请实施例中,数据处理设备通过实施上述NLP技术,实现对媒体内容中的标识图案确定对应的信息类型等。
该数据处理设备可以具备机器学习(Machine Learning,ML)能力。ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
在本申请实施例中,数据处理设备可以识别媒体内容图像帧中的标识图案,以及通过数据增强的方式扩展训练样本等。
为了便于理解本申请的技术方案,下面以服务器作为执行主体,并结合实际应用场景对本申请实施例提供的识别模型训练方法进行介绍。
参见图2,该图示出了本申请实施例提供的一种识别模型训练方法的应用场景示意图。如图2所示,该场景中包括服务器201,由该服务器201来执行识别模型训练方法。在本申请实施例中,服务器201可以通过获取待识别对象的标识图案,依据不同的添加形式快速、自动化地生成大量的训练样本,由于添加形式中标识了添加标识图案的位置和内容改变方式等,故基于添加形式所确定出的训练样本均具有与识别标识图案相关的训练标签,根据这类训练样本可以训练出针对标识图案的高质量识别模型。
本申请实施例所涉及的标识图案可以是新出现在网络中的,由于该标识图案的传播时间较短,导致目前可以爬取、检测到的训练样本数量很少,从而导致没有足够的训练样本来针对性的训练识别模型,使得该标识图案被原有识别模型识别的准确性不足。基于这种情况,本申请所提供的方案可以根据该识别图案自动化生成足够的训练样本来训练识别模型,使得可以在短时间内实现对新出现标识图案的准确识别。
本申请实施例所涉及的标识图案可以不是新出现在网络中的,这种情况下,针对该标识图案虽然可以通过网络爬取、人工标注的方式获取到足够的训练样本,但是会消耗大量人力、网络资源。基于这种情况,本申请所提供的方案可以根据该识别图案自动化生成足够的训练样本来训练识别模型,而不需要从网络中确定实际识别结果来作为训练样本,在保证识别精度的前提下提高了模型训练效率。
在本申请实施例中所需要识别的待识别对象可以为前述的涉及不良内容的对象,也可以是与媒体内容平台无关的对象,也可以是需要指定识别的对象等。
在图2所示的场景中,服务器201可以在上述需求下,主动获取待识别对象的标识图案,也可以在终端设备检测到待识别对象的标识图案后上报给服务器201。
待识别对象的标识图案具有唯一或明确标识该待识别对象的作用,具有各种可能的表现形式,例如可以是该待识别对象的标志(Logo)、二维码、软件图标、营销号标识、网址、用户ID等。可以理解,该标识图案可以为文字或图标,也可以为文字和图标的组合。
例如,如图2所示,待识别对象例如为“AA视频软件”,该待识别对象“AA视频软件”的标识图案可以为由“AA视频”的文字和“灰色圆形”图标共同组成的图案。
服务器201可以基于所获取的待识别对象的标识图案,根据添加形式自动化地构建训练样本。
在实际场景中,媒体内容的生成方或上传方为避免识别出需要宣传、散播的对象的标识图案,通常会在媒体内容中通过各种各样变化的方式添加该标识图案。总体来说,规避识别所添加标识图案的方式主要包括:将标识图案添加至媒体内容图像中的各种位置,以及,对标识图案通过各种内容改变方式的处理后添加至媒体内容中。
由此,为了保证训练样本可以囊括以各种可能形式存在的标识图案,在构建训练样本时,服务器201可以采用各种不同的添加形式在图像中添加标识图案,并为图像添加与识别标识图案相关的标签,生成训练样本。其中,训练样本中的标识图案可以以数字水印的形式存在于训练样中。
在本申请实施例中,添加形式可以用于标识向图像中添加标识图案的各种形式,该添加形式可以标识如下任意一种或多种的组合:在图像中添加标识图案的添加位置,以及,标识图案的内容改变方式。
其中,在向图像中添加标识图案时,若添加形式标识了在图像中添加标识图案的添加位置,可以根据添加形式所指示的添加位置在图像中添加标识图案。若添加形式标识了标识图案的内容改变方式,可以根据添加形式所指示的内容改变方式对标识图案的内容展现形式进行改变,得到以各种形式展示的标识图案,并将各种经内容改变方式变形的标识图案添加至图像中。
需要说明,本申请实施例中的内容改变方式可以是针对标识图案的内容展现形式进行的改变,并不会改变标识图案所体现的实质内容,也就是说,不论通过何种内容改变形式添加的标识图案,该标识图案所标识的待识别对象不会发生改变。需要注意的是,如果添加形式中仅包括内容改变形式,那么在根据该添加形式向图像中添加标识图案时,可以添加到图像中的随机位置。
通过上述方式构建的训练样本,保证尽可能涵盖了标识图案以各种各样变形形式存在的训练样本,以及标识图案处于各种各样添加位置处的训练样本。
例如,参见图2,服务器201可以采用不同添加位置的添加形式,将待识别对象“AA视频软件”的标识图案分别添加至图像的左上方位置M和右下方位置N,并向图像添加识别标识图案在图像中的添加位置即左上方位置M及右下方位置N的训练标签,以及与内容相关(如标识图案体现的实质内容“AA视频”)的训练标签,生成训练样本。以及,可以将待识别对象“AA视频软件”的标识图案进行内容改变方式如显示颜色的改变,将改变后的该标识图案添加至图像中,并向图像添加识别标识图案的与内容相关(如标识图案体现的实质内容“AA视频”)的训练标签,生成训练样本。
最后,服务器201可以应用通过上述方法构建的训练样本进行模型训练,得到识别模型。
在该方法中,通过以不同的标识图案的添加形式来构建训练样本,保证囊括了各种在图像中添加标识图案的可能形式,且训练样本的生成对网络爬取、人工标识的依赖性降低,能够依据添加形式快速生成大量的高质量训练样本,以及训练样本均包括准确的标签,使得针对以此训练样本进行监督训练得到的识别模型,可以准确确定出媒体内容中的以各种形式存在的标识图案。
另外,若将网络中新产生的标识图案用于构建训练样本,则通过上述方法所得的训练样本中还涵盖了该新产生标识图案的以各种添加形式添加的训练样本。如此,保证了经训练后的识别模型能够准确识别出媒体内容中以各种形式存在的这类新产生的标识图案。
接下来,将以服务器作为执行主体,对本申请实施例提供的识别模型训练方法进行介绍。
参见图3,该图示出了本申请实施例提供的一种用于识别媒体内容中标识图案的识别模型训练方法流程图,所述方法可以包括:
S301:获取待识别对象的标识图案。
在本申请实施例中,可以根据实际场景和应用需求,服务器可以从网络中宣传、散播的对象中确定需要识别出的对象作为待识别对象,并获取待识别对象的标识图案来构建训练样本。
需要说明,本申请实施例不限定标识图案的获取方式,如可以在网络中搜集标识图案。在具体实现中,服务器可以获取携带了标识图案且包括阿尔法(Alpha)通道的图像,该携带标识图案的图像可以是便携式网络图形(Portable Network Graphics,PNG)格式的图像。这样,在S302中向图像中添加标识图案时,可以将这些携带标识图案的图像的Alpha通道调整至对应于透明状态,然后再将这些携带标识图案的图像添加至生成训练样本的图像中,由此可以保证训练样本中仅包括标识图案,而不会包括所携带标识图案的图像中的其余部分。
S302:采用不同的添加形式在图像中添加标识图案,作为训练样本。
在实际场景中,媒体内容的生成方或上传方为避免识别出需要宣传、散播的对象的标识图案,通常会在媒体内容中通过各种各样变化的方式添加标识图案。其中,规避识别所添加标识图案的方式主要包括:将标识图案添加至媒体内容图像中的各种位置,以及,对标识图案通过各种内容改变方式的处理后添加至媒体内容中。
在本申请实施例中,为了保证所构建的训练样本中尽量包括以各种变化形式存在的标识图案,从而提高所训练识别模型的标识图案识别准确率,在构建训练样本时,可以采用不同的添加形式在图像中添加标识图案,作为训练样本。
其中,该添加形式可以用于标识以下任意一种或多种的组合:在图像中添加标识图案的添加位置,以及,标识图案的内容改变方式。
也就是说,在向图像中添加标识图案时,若添加形式标识了在图像中添加标识图案的添加位置,可以根据添加形式所指示的各种添加位置在图像中添加标识图案。若添加形式标识了标识图案的内容改变方式,可以根据添加形式所指示的各种内容改变方式对标识图案的内容展现形式进行改变,得到以各种形式展示的标识图案,并将各种经内容改变方式变形的标识图案添加至图像中。
在本申请实施例中,为了保证训练样本中尽量涵盖各种各样的内容改变方式的标识图案,从而提高识别模型识别经各种内容改变方式处理的标识图案的准确率。在一种可能的实现方式中,在构建训练样本时,该添加形式所标识的内容改变方式可以包括以下任意一种或多种的组合:标识图案的清晰度改变方式;标识图案的尺寸改变方式;标识图案的字体改变方式;以及,标识图案的颜色改变方式。
也就是说,在基于内容改变方式向图像中添加待识别对象的标识图案时,可以针对标识图案中全部或部分内容的清晰度、尺寸、字体、以及颜色中的任意一种或多种进行改变,再将改变后的标识图案添加至图像中。参见图4,该图示出了本申请实施例提供的一种基于内容改变方式生成训练样本的训练样本示例图,如图4所示,图4a中的该训练样本是通过对标识图案降低清晰度后所构建的;图4b中的训练样本是通过对标识图案增大高度方向的尺寸后所构建的;图4c中的训练样本是通过改变标识图案中的字体类型后所构建的;图4d中的训练样本是通过改变标识图案的颜色后所构建的。
需要说明,针对图4中的训练样本,是通过向图像中相同添加位置添加经不同内容改变方式变形的标识图案生成的,即仅基于内容改变方式,而不涉及添加位置。而在实际场景中,在构建训练样本时,可以同时针对内容改变方式和添加位置来构建训练样本,例如可以将经不同内容改变方式变形的标识图案添加至图像中的不同添加位置,来生成训练样本。
通过该方式,使得训练样本涵盖了标识图案以不同内容改变方式进行处理后的训练样本,保证识别模型准确识别媒体内容中以不同内容展现形式存在的标识图案。
另外,在一些场景中,技术人员需要确定所识别的标识图案的信息类型,并根据信息类型进行后续相应的处理操作。为此,在一种可能的实现方式中,在S302中构建训练样本时,该训练样本还包括所添加的标识图案的信息类型。其中,信息类型可以是根据标识图案所体现的某一方面的信息(如基于添加标识图案本身的内容所体现的信息)确定的所属类型。例如,信息类型可以包括为引导用户消费、使用标识图案所标识对象的导流类型等。
在实际场景中,可以根据具体场景或应用需求灵活的确定标识图案的信息类型,并添加至训练样本中。如需要将媒体内容中的导流类型的标识图案识别出来并进行消除,由此在构建训练样本时,可以将标识图案的信息类型确定为导流类型和非导流类型,以保证经此训练样本训练得到的识别模型可以准确识别出媒体内容中的标识图案是否为导流类型。
需要说明,实际场景中可能会对获取的标识图案采用不同的添加形式来构建训练样本,基于添加形式的不同,可能导致训练样本中添加的标识图案的信息类型不同,例如,在将标识图案降低清晰度后添加至图像中得到训练样本时,可以将该训练样本加入“标识图案模糊”的信息类型。在将改变字体颜色的标识图案添加至图像中得到训练样本时,可以将该训练样本加入“改变标识图案字体颜色”的信息类型。由此,训练样本中针对相同标识图案基于不同添加形式构建的训练样本,根据实际需求,它们的标识图案的信息类型可能相同,也可能不同。
通过在训练样本中针对所添加的标识图案确定对应的信息类型,保证经该训练样本训练得到的识别模型还能够识别出媒体内容中标识图案的信息类型,方便相关技术人员根据所识别的标识图案的信息类型对媒体内容进行后续进一步的处理。
在具体实现中,可以将影像网(ImageNet)网络测试集合中的图像作为构建训练样本的图像。ImageNet网络测试集合是一个可用于研究视觉对象的大型可视化数据库,其中包括大量的、涵盖各种类型的高质量图像。通过应用该ImageNet网络测试集合中的图像构建训练样本,以对识别模型进行训练,可以提高模型训练的泛化能力。
另外,服务器在采用不同的添加形式向图像中添加标识图案时,当添加形式标识了在图像中添加标识图案的添加位置时,可以增加在图像的各个角落(添加位置)添加标识图案的概率,当添加形式标识了标识图案的内容改变方式时,可以改变如扩展标识图案的尺寸(Scale),改变标识图案中文字的字体,改变标识图案的颜色,改变如降低标识图案的清晰度以使标识图案变得模糊(Blur),然后将通过内容改变方式改变后的标识图案添加至图像中。另外,还可以通过数据增强(Data augmentation)的方式,来增加训练样本数量。
S303:通过训练样本训练识别模型,识别模型用于识别媒体内容的图像帧中的标识图案。
在本申请实施例中,需要识别模型识别的媒体内容可以是通过展示的方式向用户传递信息的内容,例如为视频、图像和文档等。基于媒体内容的可以向用户传递信息的特点,媒体内容的生成方或上传方可以将需要宣传、散播的对象的标识图案添加至媒体内容中,以实现宣传、散播功能。
需要说明,媒体内容中的标识图案可以是在制作媒体内容的过程中添加于其中的,也可以是在完成媒体内容的制作后添加至其中的,甚至是媒体内容中本身就存在的。而无论标识图案是通过何种方式存在于媒体内容中的,本申请实施例中的识别模型都可以对其进行准确识别。
其中,识别模型在识别媒体内容时,针对视频这一媒体内容,识别模型可以用于识别视频的各个视频帧中的标识图案;针对图像这一媒体内容,该识别模型可以用于识别各张图像中的标识图案;针对文档这一媒体内容,该识别模型可以用于识别文档所包括的动图、图像以及文档的背景中的标识图案等。
由上述技术方案可以看出,针对待识别对象的标识图案,可以通过添加形式进行训练样本的构建,由于添加形式可以标识在图像中添加该标识图案的添加位置,或者在添加该标识图案时,对该标识图案的内容改变方式,由此构建得到的训练样本中,可以囊括各种在图像中添加该标识图案的可能形式。训练样本的生成对网络爬取、人工标识的依赖性降低,能够依据添加形式快速生成大量的高质量训练样本,且均包括准确的标签,从而在以此训练样本进行监督训练得到的识别模型,即使针对网络中新产生的标识图案,也能够准确识别媒体内容中的各种变化形式的该标识图案。同时,也提高了标识图案识别的召回率。
可以理解的是,网络中会源源不断的出现新的标识图案,以宣传所标识的对象。为了提高识别模型针对这类标识图案的识别准确率,在一种可能的实现方式中,所述方法还可以包括:
通过已识别标识图案所构建的训练样本,对识别模型进行训练迭代。
其中,该已识别标识图案可以包括以下任意一种或多种的组合:
被识别上报的标识图案,以及,通过识别模型在媒体内容识别过程中识别出的标识图案。
针对该被识别上报的标识图案,可以是通过各种方式被识别出并进行上报所获取的标识图案。例如,用户在所展示的媒体内容中看到了标识图案后进行举报(上报),该被识别上报的标识图案可以是从该用户举报的失效实例(Bad Case)中获取的,也可以是专业人员从网络上传播的媒体内容中检测并反馈(上报)的,等等,不再赘述。
需要说明,本申请实施例不限定被识别上报的标识图案的获取方式,可以根据实际场景来选择适合的方式获取,如用户举报的Bad Case为一个视频帧,则可以从该视频帧中获取其中的标识图案。
而针对通过识别模型在媒体内容识别过程中识别出的标识图案,可以将其理解为,在完成对识别模型的训练后,识别模型在各种媒体内容的识别过程中识别出的标识图案。
从而,可以通过上述已识别标识图案构建训练样本,对识别模型进行训练迭代。
需要说明,本申请实施例不限定通过上述已识别标识图案构建训练样本的方式,优选的,可以通过上述S301-S302的方法来构建训练样本,以尽量保证构建出丰富且高质量的训练样本,即构建的训练样本中包括以各种变化形式存在的上述已识别标识图案。
这样,通过该已识别标识图案所构建的训练样本对识别模型进行训练迭代,可以提高经训练迭代的识别模型对网络中各种标识图案的识别准确率。
还需说明,由于上述已识别标识图案的获取时机是随机、不确定的,如被识别上报的标识图案可以是用户不定时上报而获得的。
因此,可以按照特定的迭代周期来获取已识别标识图案,并以此构建训练样本,然后基于构建的训练样本对识别模型进行训练迭代。
本申请实施例对该迭代周期不作限定,可以根据实际场景和不同需求,来确定该迭代周期。例如,为了方便迭代,迭代周期可以是预设的时间周期,如此,可以根据每个时间周期内获取的已识别标识图案来构建训练样本,进而对识别模型进行训练迭代。又如,为了在获取足够的已识别标识图案后进行迭代训练,可以以预设的已识别标识图案数量阈值来确定迭代周期,在每次获取到的已识别标识图案数量达到预设的已识别标识图案数量阈值数量时,来以此构建训练样本,进行训练迭代。等等,不再赘述。
在一些场景中,为了充分宣传、散播所需宣传的对象,为该所需宣传对象制作的标识图案中不仅包括该对象的图标,还包括可以充分体现该对象信息的文字,以使得看到该标识图案的用户可以准确确认出该所需宣传的对象。而在另一些标识图案中,还可能仅仅包括体现所需宣传对象信息的文字。
由此,为了提高识别模型针对标识图案的识别准确率,在一种可能的实现方式中,若上述S301中的添加形式至少用于标识在图像中添加标识图案的添加位置,即,根据添加形式指示的添加位置,在图像中添加标识图案来构建训练样本,且训练样本中包括识别标识图案在图像中添加位置的训练标签。则,在S303中进行训练的识别模型可以包括用于识别标识图案位置的位置识别子模型,以及用于识别标识图案内容的内容识别子模型。上述S303中通过训练样本训练识别模型的方式可以包括如下两种训练方式:
第一种训练方式包括:通过训练样本对位置识别子模型和内容识别子模型进行并行训练。
其中,位置识别子模型可以识别出媒体内容中的标识图案的位置信息,内容识别子模型可以识别出媒体内容中标识图案所体现的内容。
基于训练样本中包括了识别标识图案在图像中的添加位置的训练标签,以及识别标识图案所体现内容的训练标签,由此,可以应用训练样本对位置识别子模型及内容识别子模型进行单独训练。
在本申请实施例中,可以通过训练样本对位置识别子模型和内容识别子模型进行并行训练。
如此,可以通过训练样本同时训练位置识别子模型和内容识别子模型,缩减了模型训练时间,提高了模型训练效率。
第二种训练方式包括:通过训练样本对位置识别子模型进行训练,根据训练过程中位置识别子模型的模型输出和对应的训练样本,对内容识别子模型进行训练。
可以理解,训练样本是通过在图像中添加标识图案得到的,即训练样本同时包括图像和标识图案,由此,为避免内容识别子模型识别训练样本中标识图案的内容时受该训练样本中图像的影响,可以通过训练样本对位置识别子模型进行训练,在训练过程中,根据位置识别子模型的模型输出即训练样本中标识图案的位置信息和对应的该训练样本,对内容识别子模型进行训练。
通过该种方式进行模型训练,由于位置识别子模型可以识别出标识图案在训练样本中的位置信息,如此,在训练内容识别子模型时,使得内容识别子模型可以根据位置识别子模型的模型输出即该训练样本中标识图案的位置信息,训练识别训练样本中该位置信息处的标识图案所体现的内容,从而提高了内容识别子模型的识别准确率。
在具体实现中,位置识别子模型可以是单射多盒检测器(Single Shot MultiBoxDetector,SSD)模型,内容识别子模型可以是光学字符识别(Optical CharacterRecognition,OCR)模型。其中,SSD可以用于检测目标对象位置信息。OCR可以是通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的技术。
可以理解,在构建训练样本时,若添加形式标识了内容改变方式,可使得构建的训练样本中存在有各种不同尺寸大小的标识图案,为使训练识别模型准确识别出训练样本中各种不同尺寸大小的标识图案,在应用SSD模型识别训练样本中标识图案的添加位置时,可以通过多尺度的方式进行位置识别。通过对历史标识图案的尺寸数据进行分析和统计,获得标识图案尺寸的先验知识,并以此构造不同尺寸的先验框,以适配各种尺寸的标识图案。其中,先验框可以用于抓取图像中的区域。
在网络中传播着可以实现发生动态变化的标识图案即动态的标识图案,例如所处位置可以动态变化的标识图案,动态的标识图案实现动态变化的方式通常为,基于多个连续图像帧,通过使标识图案存在于相邻图像帧中的位置重叠比例较高,且连续展示该多个图像帧来实现。
实际场景中,并未对这类动态的标识图案进行针对性的识别,而是基于每个图像帧中的标识图案一一进行识别,由此无法确定媒体内容的图像帧中标识图案的关联性。
为此,本申请实施例提供了一种媒体内容识别方法,参见图5,该图示出了本申请实施例提供的一种媒体内容识别方法流程图,如图5所示,所述方法可以包括:
S501:从待识别的媒体内容中选取多个图像帧作为帧序列。
可以理解,由于媒体内容中的动态标识图案具有时序性和连贯性特征,因此,在媒体内容的多帧连续图像帧中,相邻图像帧中的标识图案之间具有较高的重叠比例。进而,可以基于动态标识图案具有的该特点,即,相邻图像帧中标识图案间具有较高重叠比例,识别媒体内容中是否包括动态标识图案。
在本申请实施例中,为了提高识别动态标识图案的效率,无需针对完整的媒体内容进行识别,而可以仅从媒体内容中选取多个图像帧作为帧序列,并针对帧序列识别其中是否包括动态标识图案。其中,帧序列可以是由多个图像帧基于时序性特征排列而成的序列。
需要说明,本申请实施例不限定从待识别的媒体内容中选取多个图像帧作为帧序列的方式,可以根据实际场景和应用需求的不同,选择适合的方式来选取。
在一种可能的实现方式中,上述S501中从待识别的媒体内容中选取多个图像帧作为帧序列的方法,包括:
通过间隔抽帧方式从媒体内容中选取多个图像帧作为帧序列。
间隔抽帧方式可以是指按照特定间隔如时间间隔、帧数间隔等进行抽帧的方式。其中,该间隔抽帧方式可以为等间隔或不等间隔。
在本申请实施例中,可以通过这种简单、可靠的间隔抽帧方式,可以方便的从媒体内容中选取多个图像帧作为帧序列。如可以在媒体内容为视频、且视频的时长较短的情形下通过该种方式进行抽帧。
或者,还可以根据媒体内容中的关键帧,从媒体内容中选取多个图像帧作为帧序列。
其中,关键帧可以是媒体内容中体现关键或重要信息、内容的图像帧。例如针对视频这一媒体内容,其关键帧可以是视频中明亮度变化明显的场景切换帧。
基于关键帧体现媒体内容的关键信息而导致更容易被用户查看的特点,在媒体内容的关键帧中更有可能具有标识图案。如此,在从媒体内容中选取图像帧作为帧序列时,可以根据媒体内容中的关键帧选取多个图像帧作为帧序列。
另外,当媒体内容为视频、且视频的时长较长时,通过间隔抽帧方式确定帧序列的方式将导致帧序列中的图像帧数量过多,增加根据帧序列确定动态标识图案的计算量,由此,该情形下可以优选通过关键帧选取图像帧的方式来确定帧序列。
通过该种通过关键帧确定帧序列的方式,可以保证帧序列中更有可能具有标识图案,从而提高后续识别动态的标识图案的准确性。
S502:分别确定多个图像帧中标识图案的位置信息。
其中,图像帧中标识图案的位置信息可以对标识图案在图像帧中所覆盖的区域进行标识。
S503:根据帧序列中相邻图像帧的位置信息,确定相邻图像帧中的标识图案是否部分重叠。
在本申请实施例中,帧序列中的相邻图像帧可以是按照图像帧的时序性特征从帧序列中确定出的。
可以理解,基于动态标识图案的时序性和连贯性特征,若帧序列中包括动态标识图案,则在帧序列的相邻图像帧中的标识图案应当至少有部分区域发生重叠。如此,在本申请实施例中,为了识别帧序列中是否包括动态标识图案,可以根据帧序列中相邻图像帧的标识图案,确定该相邻图像帧中的标识图案是否部分重叠。
需要说明,针对帧序列中相邻图像帧中的标识图案发生部分重叠,可以是指相邻图像帧中的标识图案之间的部分或全部区域发生重叠。
S504:若目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定媒体内容中目标相邻图像帧对应的图像帧区间具有动态的标识图案。
在本申请实施例中,可以将帧序列中的任意一个相邻图像帧作为目标图像帧,并确定目标相邻图像帧的标识图案的部分重叠比例。其中,可以将目标相邻图像帧的标识图案的部分重叠比例理解为,针对于目标相邻图像帧中标识图案的重叠区域大小,以及目标相邻图像帧中(其中的任一图像帧)标识图案的覆盖区域大小,该目标相邻图像帧的标识图案的部分重叠比例可以为前者与后者的比值。
需要说明,帧序列中的相邻图像帧不一定为媒体内容中的相邻图像帧,例如:媒体内容中包括50个图像帧,通过以10帧为帧数间隔的等间隔抽帧方式确定出的帧序列包括,第1个图像帧、第11个图像帧、第21个图像帧、第31个图像帧和第41个图像帧。在该示例中,第i+1个图像帧与第i+11个图像帧在帧序列中属于相邻图像帧,而在媒体内容中并不属于相邻图像帧,i=0,1,2,3。
针对该阈值,可以用于衡量帧序列中相邻图像帧的标识图案的部分重叠比例是否满足动态标识图案在该相邻图像帧中的部分重叠比例范围。
在实际场景中,可以根据帧序列的确定方式,来灵活设置该阈值。如通过间隔较小的等间隔抽帧方式确定帧序列时,可以设置较高的阈值,如通过间隔较大的等间隔抽帧方式确定帧序列时,可以设置较低的阈值。
则,可以确定目标相邻图像帧的标识图案的部分重叠比例是否满足阈值,若目标相邻图像帧的标识图案的部分重叠比例满足阈值,可以确定媒体内容中目标相邻图像帧对应的图像帧区间具有动态的标识图案。
其中,可以将媒体内容中目标相邻图像帧对应的图像帧区间理解为,在媒体内容中处于该目标相邻图像帧之间(包括目标相邻图像帧)的全部图像帧。例如,基于前述示例,若目标相邻图像帧为第1个图像帧和第11个图像帧,该媒体内容中目标相邻图像帧对应的图像帧区间可以是媒体内容中第1个图像帧至第11个图像帧之间的全部图像帧。
在该方法中,可以从待识别的媒体内容中选取多个图像帧作为帧序列。然后,分别确定该多个图像帧中标识图案的位置信息。基于动态标识图案的连贯性和时序性特征,帧序列中相邻图像帧中的标识图案会发生部分重叠,由此,可以确定帧序列中相邻图像帧的标识图案是否部分重叠。若针对该帧序列中任意一个相邻图像帧即目标相邻图像帧,其标识图案的部分重叠比例满足阈值,即满足动态的标识图案的特征,则可以确定媒体内容中目标相邻图像帧对应的图像帧区间具有动态的标识图案。
可见,通过执行该方法,可以从媒体内容中确定出其中包括的动态标识图案以及包括该动态标识图案的图像帧区间。如此,方便后续一并对该图像帧区间中的动态标识图案进行处理,而无需进行逐帧处理,由此提高了标识图案的处理效率。
在本申请实施例中,为了进一步提高动态标识图案的识别准确率,在一种可能的实现方式中,所述方法还包括:
S601:分别确定目标相邻图像帧中标识图案的图案内容。
标识图案的图案内容可以针对标识图案中各个组成部分所展现出的信息进行标识。例如:若标识图案包括图标和文字这两个组成部分,该标识图案的标识信息可以针对该图标和文字展现的信息均进行标识。
为了提高S601中确定目标相邻图像帧中标识图案的图案内容的效率和准确率,在一种可能的实现方式中,可以通过识别模型来进行标识图案的图案内容的确定。
在本申请实施例中,识别模型可以包括用于识别标识图案位置的位置识别子模型和用于识别标识图案内容的内容识别子模型。其中,位置识别子模型和内容识别子模型的训练方法如前所述,在此不再赘述。针对S502中分别确定多个图像帧中标识图案的位置信息的方法,可以包括:
通过位置识别子模型分别确定多个图像帧中标识图案的位置信息。
则,上述S601中分别确定目标相邻图像帧中标识图案的图案内容的方法,可以包括:
根据位置识别子模型所确定的位置信息和目标相邻图像帧,通过内容识别子模型分别确定目标相邻图像帧中标识图案的图案内容。
针对目标相邻图像帧,若位置识别子模型为其分别识别出标识图案的位置信息后,可以将该目标相邻图像帧和对应的位置信息输入至内容识别子模型中,以使得内容识别子模型分别识别目标相邻图像帧中的标识图案的图案内容。
通过识别模型识别标识图案的图案内容的方法,可以提高标识图案的图案内容识别的准确率和效率。
S602:根据图案内容确定目标相邻图像帧中标识图案是否属于同一个目标标识图案。
由于动态的标识图像在多个图像帧中所体现的图案内容是相同的,因此,在确定目标相邻图像帧中标识图案的图案内容后,可以根据图案内容确定目标相邻图像帧中的标识图案是否属于同一个标识图案即目标标识图案。
则,上述S504中确定媒体内容中目标相邻图像帧对应的图像帧区间具有动态的标识图案的方法,可以包括:
S603:若目标相邻图像帧中标识图案属于同一个目标标识图案,且目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定媒体内容中目标相邻图像帧对应的图像帧区间具有动态的标识图案。
在具体实现中,可以通过数据处理设备如终端设备或服务器来执行媒体内容识别方法,参见图6,该图示出了本申请实施例提供的一种识别动态的标识图案的场景示意图。如图6所示,针对视频这一媒体内容,可以从中确定出帧序列,该帧序列中包括视频中的图像帧1(第一个图像帧)、图像帧3(第三个图像帧)和图像帧5(第五个图像帧)。然后,分别确定出图像帧1和图像帧3中标识图案的位置信息1(对应于图像帧1中的虚线框区域)和位置信息3(对应于图像帧3中的虚线框区域)。其中,图像帧5中不包括标识图案,由此未从中识别出位置信息。
接下来,针对包括图像帧1和图像帧3的目标相邻图像帧,可以分别确定出其标识图案的图案内容1“AA视频和圆形图标”和图案内容3“AA视频和圆形图标”。最后,可以根据位置信息1和位置信息3,确定目标相邻图像帧中的标识图案的部分重叠比例满足阈值,以及根据图案内容1和图案内容3,确定目标相邻图像帧中的标识图案属于同一个目标标识图案。由此,确定视频中的目标相邻图像帧对应的图像帧区间(即视频中第一个图像帧至第三个图像帧)具有动态的标识图案。
基于动态标识图案在帧序列中相邻图像帧中的位置条件、即目标相邻图像帧的标识图案的部分重叠比例满足阈值,以及内容条件、即目标相邻图像帧中的标识图案属于同一个目标标识图案,而对帧序列进行双重识别,保证了识别动态标识图案的准确性。
在本申请实施例中,还可以针对媒体内容中的任意一个图像帧即目标图像帧进行标识图案的识别,由此,所述方法还可以包括:
S701:通过位置识别子模型确定目标图像帧中标识图案的目标位置信息。
S702:根据目标位置信息和目标图像帧,通过内容识别子模型确定目标图像帧中标识图案的目标图案内容。
其中,目标位置信息和目标图案内容可以是为目标图像帧确定的位置信息和图案内容。
针对通过位置识别子模型和内容识别子模型为目标图像帧确定目标位置信息和目标图案内容的方式,与前述通过位置识别子模型和内容识别子模型为目标相邻图像帧确定位置信息和图案内容的方式相同,此处不再赘述。
S703:根据目标位置信息和目标图案内容,确定目标图像帧对应的识别结果。
在具体实现中,识别结果可以包括图像帧中包括标识图案、图像帧中不包括标识图案以及不确定图像帧中是否包括标识图案。
通过包括有位置识别子模型和内容识别子模型的识别模型对媒体内容进行标识图案的检测,提高了标识图案的识别效率和准确率。
在具体实现中,标识图案可以是媒体内容中以数字水印形式存在的标识图案。其中,数字水印是数字产品中的一种用于产品保护的技术,将数字水印嵌入到数字产品中,用来代表版权所有者的信息,以防止其他团队对数字产品的盗用。
数字水印包括空域水印,空域水印可以是在原始图像上面直接改变原图像素来添加水印,这种水印是可见的。一般情况下,使用空域水印的情况比较多,比如在常见的图像中都可以使用到。
另外,应用识别模型进行识别的媒体内容可以是文章、视频和图像等。该文章比如可以为应用软件(Application,APP)推荐给用户阅读的文章,该文章中可以包括动图、图像等,文章通常是自媒体平台用户在注册后主动在网络中编辑发布的文章。视频比如可以为APP推荐给用户观看的视频,该视频可以包括竖版和横版的短视频,媒体内容可以是以消息来源(Feeds)流的形式存在的。
其中,上述提及的短视频是一种互联网内容传播方式,一般在互联网新媒体上传播且时长在5分钟以内的视频传播内容。随着移动终端普及和网络的提速,短、平、快的大流量传播内容逐渐获得各大平台、粉丝和资本的青睐。
其中,上述提及的Feeds又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源等,其为一种资料格式,网站可以通过它将最新资讯传播给用户。网站在推荐资讯时,通常以时间轴(Timeline)先后排列,Timeline是Feeds最原始也最基本的展示形式。用户订阅网站的先决条件可以是,网站提供了Feeds,并通过用于聚合的软体即聚合器(Aggregator)将Feeds汇流于一处以实现聚合(Aggregation),对于用户而言,聚合器可以是专门用来订阅网站的软件,一般称为信息聚合(Really Simple Syndication,RSS)阅读器、Feed阅读器、新闻阅读器等。
接下来,以媒体内容为视频、以视频中以数字水印形式存在的标识图案为例,对本申请实施例提供的一种水印识别系统进行介绍。为了方便描述,后续将以数字水印形式存在的标识图案简称为水印。参见图7,该图示出了本申请实施例提供的一种水印识别系统结构图,如图7所示,该水印识别系统700中可以包括水印识别服务701、水印识别模型702、抽帧服务703、视频排重服务704、转码模块705、调度中心服务706、人工审核系统707、视频内容存储服务708、下载文件系统709、内容数据库710、上下行内容接口服务711、内容分发出口服务712、视频内容生产端713和视频内容消费端714。
下面对该水印识别系统进行详细介绍。
针对水印识别服务701,可以用于将该系统中的水印识别模型702(即前述识别模型)实现服务化,以及可以用于在视频处理链路上由调度中心服务706调度,进行水印识别,然后按照产品策略调用转码模块705进行后续的视频处理。
针对水印识别模型702,可以按照前述的训练样本构建方法,收集和构造水印识别的训练样本,进行训练样本的数据增强,通过融合SSD模型和OCR模型,构建出用于识别水印的识别模型。另外,还可以基于视频内容消费端714的用户举报和反馈的各种水印的BadCase来更新训练样本,以对水印识别模型702进行迭代训练。
针对抽帧服务703,其为对下载文件系统709从视频内容存储服务708中下载的视频文件进行特征的初级处理。另外,针对时长不同的视频,无法使用等间隔抽帧策略来确定帧数相同的帧序列,以及帧序列中图像帧的帧数过多时也会增加抽帧的负担和计算量,计算成本急剧增大。由此,基于视频包括的多个关键帧,抽帧服务703可以抽取视频中明亮度变化明显的场景切换帧即关键帧,作为帧序列,从而进行视频中的动态水印识别。
针对视频排重服务704,其可以对视频文件抽取视频特征和音频特征,以此构建视频的指纹特征,并通过指纹特征进行视频排重,减少后续处理视频的量级。对于重复的视频,可以将其直接从视频存储内容服务708中删除。
针对转码模块705,可以与水印识别服务701通信,得到水印的位置信息和水印的信息类型。然后,可以重新对视频内容进行编码,去掉水印所在位置的水印,并按照业务需求在水印所在位置重新写入其他水印或者空白,将经处理的视频内容写入视频内容存储服务708。
针对调度中心服务706,可以用于进行视频内容流转的整个调度过程,通过上下行内容接口服务711接收存入内容数据库710的视频内容,然后从内容数据库710中获取视频的元信息。还可用于调度人工审核系统707和机器处理系统,控制调度的顺序和优先级。对于视频内容,可以先与视频排重服务704通信,以使视频排重服务704对视频中不同码率、不同清晰度、不同尺寸、部分黑屏、有无滤镜、有无水印、在相似视频内容中插入广告内容以及对视频的片头片尾的裁剪进行相应处理,有效生成进入人工审核过程的视频内容。调度进入人工审核系统707中进行人工审核的视频内容,以过滤掉重复的视频。针对通过人工审核系统707的视频内容启用内容分发出口服务712,以通过推荐引擎、搜索引擎以及与运营直接相关的展示页面提供给终端的视频内容消费者714。以及,调用水印识别服务701,来识别视频中的各种水印,按照实际运用的产品策略,例如可以将识别出的水印直接过滤而不再进行后续的流转;例如针对质量较高且仅具有水印问题的视频,可以调用转码模块,对识别出来的水印所处位置进行模糊处理,去掉水印,并启用内容分发出口服务712进行后续的分发流程。
针对人工审核系统707,可以是一个业务复杂的基于网络数据库开发的系统,可以读取内容数据库710中视频内容本身的原始信息,可以通过人工来初步审核并过滤视频中涉及色情,赌博,政治敏感的内容。在初步审核的基础之上,对视频内容进行二次审核,该二次审核主要是对视频进行分类、标注或者确认,由于完全通过机器学习比如深度学习来对视频内容进行分类及标注的方式还不完全成熟,因此需要在机器处理的基础上进行两次的人工审核处理,通过人机协作,提升视频本身标注的准确性。
可以理解,基于视频的上传量大幅增长的前提,为了保证视频的安全性,需要在短时间内完成视频的审核比如内容是否涉及黄赌毒、政治敏感以及质量和安全性进行识别和处理,目前的主要途径是通过大量的人力同时辅助以机器算法能力来进行。下面介绍目前短视频的分发流程,短视频从开始上传、到上传成功、再到成功进入用户消费的过程包括:通过终端拍摄工具拍摄视频,然后通过终端或者公众号平台上传,在视频上传的流程中,视频会经过重转码,将视频规范化,保存视频的元信息,提升视频在各个平台播放兼容性。然后,会对视频进行人工审核,在人工审核的同时机器也会通过算法对视频进行一些辅助特征的获取比如分类,标签等等;然后在机器算法处理的基础上进行人工标准化标注,对视频填充相关的信息,例如视频的标签、类别、明星信息等,这就是视频的标准化过程。
针对视频内容存储服务708,通常是一组分布范围较广、且离用户很近的存储服务器。通常在外围还包括内容分发网络(Content Delivery Network,CDN)加速服务器进行分布式缓存加速。可以通过上下行内容接口服务711将视频内容生产端713上传的视频内容保存起来。视频内容消费端714在获取视频的索引信息后,也可以直接访问视频内容存储服务708下载对应的视频。除了作为对外服务的数据源之外,还可以作为对内服务的数据源,供下载文件系统709获取原始的视频内容进行相关的处理。其中,内外数据源的通路通常是分开部署的,避免相互影响。
针对下载文件系统709,从视频内容存储服务708下载和获取原始的视频,控制下载的速度和进度,通常包括一组并行的服务器,具有相关的任务调度和分发集群。抽帧服务703可以针对完成下载的视频,从视频源文件中获取必要的关键帧,作为后续构造水印识别模型702及训练样本。
针对内容数据库710,其为视频内容的核心数据库,所有视频内容生产端713发布视频的元信息都保存在这个业务数据库中。保存有视频的元信息文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、以及人工审核过程中对视频的分类和标签(可以包括一,二,三级别分类和标签。上下行内容接口服务711将发布的视频存储在视频内容存储服务708上以后,视频内容存储服务708会对视频进行标准的转码操作,转码完成后异步返回的视频的元信息主要包括文件大小、码率、规格、封面截图,这些元信息都会保存在内容数据库710中。人工审核过程中会读取内容数据库710中的信息,同时人工审核的结果和状态也会回传入内容数据库。调度中心服务706对视频的处理主要包括机器处理和人工审核处理,这里机器处理是调用视频排重服务704,排重的结果会写入内容数据库710,完全重复的视频不会至人工审核处进行重复的二次处理。
在视频审核通过后,会进入到视频平台的内容数据库710,这个过程经过机器算法模型对视频进行封面图截取,视频质量和清晰度评价及计算。最后直接给运营方分发到外网或者给到推荐引擎,基于用户的画像特征,通过推荐算法比如协同推荐,矩阵分解,监督学习算法逻辑回归(Logistic Regression)模型,基于深度学习的模型,因子分解机(Factorization Machine,FM)和梯度提升决策树(Gradient Boosting Decision Tree,GBDT)等。同时各个短视频平台为了鼓励创作视频,对视频都有相关的补贴和激励机制,同时视频创作的门槛本身也会很高,需要好的创意和拍摄。视频创作者为了提升自己的收益,会上传搬运大量类似(对视频进行简单的编辑修改、比如视频标题、水印或者编辑裁剪、加入广告的片头和片尾、修改音频等等)或者重复的视频,由于视频都需要经过人工审核,人工审核一方面需要增加很多成本,另一方面效率也不够。随着视频量的快速增加,成本都非常高。
针对上下行内容接口服务711,可以和视频内容生产端713直接通信,其中,视频内容生产端713的视频,通常是视频的标题、发布者、摘要、封面图、发布时间,或者是拍摄的视频直接通过该服务器进入服务端,把视频存入视频内容存储服务708。将视频的元信息,比如视频文件大小、封面图链接、码率、文件格式、标题、发布时间以及作者等信息写入内容数据库710。将上传的文件提交给调度中心服务706,以进行后续的视频处理和流转。
针对内容分发出口服务712,用于根据人工审核系统707的视频启用指示,以通过推荐引擎、搜索引擎以及与运营直接相关的展示页面提供给终端的视频内容消费者714。
针对视频内容生产端713,即用户生成内容(User Generated Content,UGC)、专业生产内容(Professional Generated Content,PGC)、专业用户生产内容(ProfessionalUser Generated Content,PUGC)或者多频道网络(Multi-Channel Network,MCN)的内容生产者,通过移动终端或者后端接口的应用程序接口(Application ProgrammingInterface,API)系统,提供本地或者拍摄的视频,,这些都是分发内容的主要视频来源。通过和上下行内容接口服务711的通信,先获取上传服务器接口地址,然后在上传本地文件,拍摄过程中本地视频可以选择搭配的音乐,滤镜模板和视频的美化功能等等。
其中,PGC用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化的内容。也称为职业生产内容(Professionally-produced Content,PPC)。
PUGC是以UGC形式,产出的相对接近PGC的专业音频内容。
MCN是一种多频道网络的产品形态,将PGC联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
实际场景中,短视频作为视频的一种类型,融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题。由于视频较短,可以单独成片,也可以成为系列栏目。不同于微电影和直播,短视频制作并没有像微电影一样具有特定的表达形式和团队配置要求,具有生产流程简单、制作门槛低、参与性强等特点,又比直播更具有传播价值,超短的制作周期和趣味化的内容对短视频制作团队的文案以及策划功底有着一定的挑战,优秀的短视频制作团队通常依托于成熟运营的自媒体或网际协议(Internet Protocol,IP),除了高频稳定的内容输出外,也有强大的粉丝渠道;短视频的出现丰富了新媒体原生广告的形式。
目前短视频从一开始的UGC、PGC、PUGC的视频内容生产端713上传,到专门制造短视频的机构,到MCN,再到专业的短视频APP等众多流量平台不断崛起,短视频已经成为内容创业和社交媒体平台的重要传播方式之一。短视频在引发视频创业者的狂欢,冲击着视频媒体平台的同时,其影响力进一步升级,各大资讯平台也展开了一场围绕短视频的争夺战。所以各种各样的短视频越来越多也越来越丰富。无论是短视频的生产者还是消费者都成为一个巨大的群体。
针对视频内容消费端714,和上下行内容接口服务711通信,获取访问视频文件的索引信息,然后和视频内容存储服务708通信,下载对应的流媒体文件并且通过本地播放器来播放观看。同时将上传和下载过程中用户播放的行为数据、卡顿、加载时间、播放点击等上报给服务器。视频内容消费端714通常通过Feeds流方式浏览视频数据,所以视频重复文件对用户体验会有很大影响,如果视频中存在很多水印或者水印的导流,会非常影响观看的体验,将对应Bad Case举报或反馈至该水印识别系统700。
基于前述实施例提供的识别模型训练方法,本申请实施例提供一种用于识别媒体内容中标识图案的识别模型训练装置,参见图8,该图示出了本申请实施例提供的一种识别模型训练装置800结构图,所述装置包括获取单元801、添加单元802和训练单元803:
所述获取单元801,用于获取待识别对象的标识图案;
所述添加单元802,用于采用不同的添加形式在图像中添加所述标识图案,作为训练样本;
所述训练单元803,用于通过所述训练样本训练识别模型,所述识别模型用于识别媒体内容中的标识图案;
所述添加形式用于标识以下任意一种或多种的组合:
在图像中添加所述标识图案的添加位置;
所述标识图案的内容改变方式。
在一种可能的实现方式中,所述训练单元803,具体用于:
若所述添加形式至少用于标识在图像中添加所述标识图案的添加位置,所述识别模型包括用于识别标识图案位置的位置识别子模型和用于识别标识图案内容的内容识别子模型,通过所述训练样本对所述位置识别子模型和所述内容识别子模型进行并行训练;或者,
通过所述训练样本对所述位置识别子模型进行训练,根据训练过程中所述位置识别子模型的模型输出和对应的训练样本,对所述内容识别子模型进行训练。
在一种可能的实现方式中,所述训练样本还包括所添加的所述标识图案的信息类型。
在一种可能的实现方式中,所述内容改变方式包括以下任意一种或多种的组合:
所述标识图案的清晰度改变方式;
所述标识图案的尺寸改变方式;
所述标识图案的字体改变方式;
所述标识图案的颜色改变方式。
在一种可能的实现方式中,所述训练单元803,具体用于:
通过已识别标识图案所构建的训练样本,对所述识别模型进行训练迭代;所述已识别标识图案包括以下任意一种或多种的组合:
被识别上报的标识图案;
通过所述识别模型在媒体内容识别过程中识别出的标识图案。
基于前述实施例提供的媒体内容识别方法,本申请实施例提供一种媒体内容识别装置,参见图9,该图示出了本申请实施例提供的一种媒体内容识别装置900的结构图,所述装置包括选取单元901、第一确定单元902、第二确定单元903和第三确定单元904:
所述选取单元901,用于从待识别的媒体内容中选取多个图像帧作为帧序列;
所述第一确定单元902,用于分别确定所述多个图像帧中标识图案的位置信息;
所述第二确定单元903,用于根据所述帧序列中相邻图像帧的位置信息,确定所述相邻图像帧中的标识图案是否部分重叠;
所述第三确定单元904,用于若目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
在一种可能的实现方式中,所述第一确定单元902,还用于:
分别确定所述目标相邻图像帧中标识图案的图案内容;
根据所述图案内容确定所述目标相邻图像帧中标识图案是否属于同一个目标标识图案;
所述第三确定单元904,还具体用于:
若所述目标相邻图像帧中的标识图案属于同一个目标标识图案,且所述目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
在一种可能的实现方式中,所述第一确定单元902,具体用于:
识别模型包括用于识别标识图案位置的位置识别子模型和用于识别标识图案内容的内容识别子模型,通过所述位置识别子模型分别确定所述多个图像帧中标识图案的位置信息;
根据所述位置识别子模型所确定的位置信息和所述目标相邻图像帧,通过所述内容识别子模型分别确定所述目标相邻图像帧中标识图案的图案内容。
在一种可能的实现方式中,所述第一确定单元902,具体用于:
目标图像帧为所述媒体内容中的任意一个图像帧,通过所述位置识别子模型确定所述目标图像帧中标识图案的目标位置信息;
根据所述目标位置信息和所述目标图像帧,通过所述内容识别子模型确定所述目标图像帧中标识图案的目标图案内容;
所述第三确定单元904,还具体用于:
根据所述目标位置信息和目标图案内容,确定所述目标图像帧对应的识别结果。
在一种可能的实现方式中,所述选取单元901,具体用于:
通过间隔抽帧方式从所述媒体内容中选取多个图像帧作为帧序列;或者,
根据所述媒体内容中的关键帧从所述媒体内容中选取多个图像帧作为帧序列。
由上述技术方案可以看出,针对待识别对象的标识图案,可以通过添加形式进行训练样本的构建,由于添加形式可以标识在图像中添加该标识图案的添加位置,或者在添加该标识图案时,对该标识图案的内容改变方式,由此构建得到的训练样本中,可以囊括各种在图像中添加该标识图案的可能形式。训练样本的生成对网络爬取、人工标识的依赖性降低,能够依据添加形式快速生成大量的高质量训练样本,且均包括准确的标签,从而在以此训练样本进行监督训练得到的识别模型,即使针对网络中新产生的标识图案,也能够准确识别媒体内容中各种变化形式的该标识图案。
本申请实施例还提供了一种数据处理设备,下面结合附图对数据处理设备进行介绍。请参见图10所示,本申请实施例提供了一种数据处理设备1000结构图,该设备1000还可以是终端设备,以终端设备为手机为例:
图10示出的是与本申请实施例提供的手机的部分结构框图。参考图10,手机包括:射频(Radio Frequency,简称RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,简称WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器1080还具有以下功能:
获取待识别对象的标识图案;
采用不同的添加形式在图像中添加所述标识图案,作为训练样本;
通过所述训练样本训练识别模型,所述识别模型用于识别媒体内容中的标识图案;
所述添加形式用于标识以下任意一种或多种的组合:
在图像中添加所述标识图案的添加位置;
所述标识图案的内容改变方式。
或者,在本实施例中,该终端设备所包括的处理器1080还具有以下功能:
从待识别的媒体内容中选取多个图像帧作为帧序列;
分别确定所述多个图像帧中标识图案的位置信息;
根据所述帧序列中相邻图像帧的位置信息,确定所述相邻图像帧中的标识图案是否部分重叠;
若目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
本申请实施例提供的用于资源展示的设备可以是服务器,请参见图11所示,图11为本申请实施例提供的服务器1100的结构图,服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中的步骤也可以由服务器执行,该服务器可以基于该图11所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的方法。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (15)
1.一种用于识别媒体内容中标识图案的识别模型训练方法,其特征在于,所述方法包括:
获取待识别对象的标识图案;
采用不同的添加形式在图像中添加所述标识图案,作为训练样本;
通过所述训练样本训练识别模型,所述识别模型用于识别媒体内容中的标识图案;
其中,所述添加形式用于标识以下任意一种或多种的组合:
在图像中添加所述标识图案的添加位置;
所述标识图案的内容改变方式。
2.根据权利要求1所述的方法,其特征在于,若所述添加形式至少用于标识在图像中添加所述标识图案的添加位置,所述识别模型包括用于识别标识图案位置的位置识别子模型和用于识别标识图案内容的内容识别子模型,所述通过所述训练样本训练识别模型,包括:
通过所述训练样本对所述位置识别子模型和所述内容识别子模型进行并行训练;或者,
通过所述训练样本对所述位置识别子模型进行训练,根据训练过程中所述位置识别子模型的模型输出和对应的训练样本,对所述内容识别子模型进行训练。
3.根据权利要求1或2所述的方法,其特征在于,所述训练样本还包括所添加的所述标识图案的信息类型。
4.根据权利要求1或2所述的方法,其特征在于,所述内容改变方式包括以下任意一种或多种的组合:
所述标识图案的清晰度改变方式;
所述标识图案的尺寸改变方式;
所述标识图案的字体改变方式;
所述标识图案的颜色改变方式。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过已识别标识图案所构建的训练样本,对所述识别模型进行训练迭代;所述已识别标识图案包括以下任意一种或多种的组合:
被识别上报的标识图案;
通过所述识别模型在媒体内容识别过程中识别出的标识图案。
6.一种媒体内容识别方法,其特征在于,所述方法包括:
从待识别的媒体内容中选取多个图像帧作为帧序列;
分别确定所述多个图像帧中标识图案的位置信息;
根据所述帧序列中相邻图像帧的位置信息,确定所述相邻图像帧中的标识图案是否部分重叠;
若目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
分别确定所述目标相邻图像帧中标识图案的图案内容;
根据所述图案内容确定所述目标相邻图像帧中标识图案是否属于同一个目标标识图案;
所述确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案,包括:
若所述目标相邻图像帧中的标识图案属于同一个目标标识图案,且所述目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
8.根据权利要求7所述的方法,其特征在于,识别模型包括用于识别标识图案位置的位置识别子模型和用于识别标识图案内容的内容识别子模型,所述分别确定所述多个图像帧中标识图案的位置信息,包括:
通过所述位置识别子模型分别确定所述多个图像帧中标识图案的位置信息;
所述分别确定所述目标相邻图像帧中标识图案的图案内容,包括:
根据所述位置识别子模型所确定的位置信息和所述目标相邻图像帧,通过所述内容识别子模型分别确定所述目标相邻图像帧中标识图案的图案内容。
9.根据权利要求8所述的方法,其特征在于,目标图像帧为所述媒体内容中的任意一个图像帧,所述方法还包括:
通过所述位置识别子模型确定所述目标图像帧中标识图案的目标位置信息;
根据所述目标位置信息和所述目标图像帧,通过所述内容识别子模型确定所述目标图像帧中标识图案的目标图案内容;
根据所述目标位置信息和目标图案内容,确定所述目标图像帧对应的识别结果。
10.根据权利要求6所述的方法,其特征在于,所述从待识别的媒体内容中选取多个图像帧作为帧序列,包括:
通过间隔抽帧方式从所述媒体内容中选取多个图像帧作为帧序列;或者,
根据所述媒体内容中的关键帧,从所述媒体内容中选取多个图像帧作为帧序列。
11.一种用于识别媒体内容中标识图案的识别模型训练装置,其特征在于,所述装置包括获取单元、添加单元和训练单元:
所述获取单元,用于获取待识别对象的标识图案;
所述添加单元,用于采用不同的添加形式在图像中添加所述标识图案,作为训练样本;
所述训练单元,用于通过所述训练样本训练识别模型,所述识别模型用于识别媒体内容中的标识图案;
所述添加形式用于标识以下任意一种或多种的组合:
在图像中添加所述标识图案的添加位置;
所述标识图案的内容改变方式。
12.一种媒体内容识别装置,其特征在于,所述装置包括选取单元、第一确定单元、第二确定单元和第三确定单元:
所述选取单元,用于从待识别的媒体内容中选取多个图像帧作为帧序列;
所述第一确定单元,用于分别确定所述多个图像帧中标识图案的位置信息;
所述第二确定单元,用于根据所述帧序列中相邻图像帧的位置信息,确定所述相邻图像帧中的标识图案是否部分重叠;
所述第三确定单元,用于若目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
13.根据权利要求12所述的装置,其特征在于,所述第一确定单元,还用于:
分别确定所述目标相邻图像帧中标识图案的图案内容;
根据所述图案内容确定所述目标相邻图像帧中标识图案是否属于同一个目标标识图案;
所述第三确定单元,还具体用于:
若所述目标相邻图像帧中的标识图案属于同一个目标标识图案,且所述目标相邻图像帧的标识图案的部分重叠比例满足阈值,确定所述媒体内容中所述目标相邻图像帧对应的图像帧区间具有动态的标识图案。
14.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5任意一项所述的识别模型训练方法或6-10任意一项所述的媒体内容识别方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5任意一项所述的识别模型训练方法或6-10任意一项所述的媒体内容识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911338757.0A CN111126390A (zh) | 2019-12-23 | 2019-12-23 | 一种用于识别媒体内容中标识图案的相关方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911338757.0A CN111126390A (zh) | 2019-12-23 | 2019-12-23 | 一种用于识别媒体内容中标识图案的相关方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111126390A true CN111126390A (zh) | 2020-05-08 |
Family
ID=70501215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911338757.0A Pending CN111126390A (zh) | 2019-12-23 | 2019-12-23 | 一种用于识别媒体内容中标识图案的相关方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126390A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291720A (zh) * | 2020-03-10 | 2020-06-16 | 孔华 | 基于云计算网络的建筑物广告辨识系统 |
CN111626776A (zh) * | 2020-05-26 | 2020-09-04 | 创新奇智(西安)科技有限公司 | 训练策略模型的方法、确定广告投放策略的方法和装置 |
CN112612930A (zh) * | 2020-12-31 | 2021-04-06 | 北京四方继保工程技术有限公司 | 基于关键帧数据电力系统潮流转移可视化实现方法和系统 |
CN115033318A (zh) * | 2021-11-22 | 2022-09-09 | 荣耀终端有限公司 | 图像的文字识别方法、电子设备及存储介质 |
-
2019
- 2019-12-23 CN CN201911338757.0A patent/CN111126390A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291720A (zh) * | 2020-03-10 | 2020-06-16 | 孔华 | 基于云计算网络的建筑物广告辨识系统 |
CN111626776A (zh) * | 2020-05-26 | 2020-09-04 | 创新奇智(西安)科技有限公司 | 训练策略模型的方法、确定广告投放策略的方法和装置 |
CN111626776B (zh) * | 2020-05-26 | 2024-03-08 | 创新奇智(西安)科技有限公司 | 训练策略模型的方法、确定广告投放策略的方法和装置 |
CN112612930A (zh) * | 2020-12-31 | 2021-04-06 | 北京四方继保工程技术有限公司 | 基于关键帧数据电力系统潮流转移可视化实现方法和系统 |
CN115033318A (zh) * | 2021-11-22 | 2022-09-09 | 荣耀终端有限公司 | 图像的文字识别方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10924800B2 (en) | Computerized system and method for automatically detecting and rendering highlights from streaming videos | |
CN103781522B (zh) | 用于生成并加入经验共享的方法和系统 | |
WO2022078102A1 (zh) | 一种实体识别方法、装置、设备以及存储介质 | |
JP6681342B2 (ja) | 行動イベント計測システム及び関連する方法 | |
EP2732383B1 (en) | Methods and systems of providing visual content editing functions | |
CN111126390A (zh) | 一种用于识别媒体内容中标识图案的相关方法及装置 | |
JP5843207B2 (ja) | 直観的コンピューティング方法及びシステム | |
CN104471564B (zh) | 在将数据变换成可消费内容时创建变型 | |
CN108416003A (zh) | 一种图片分类方法和装置、终端、存储介质 | |
CN106204165A (zh) | 一种广告投放方法及装置 | |
CN109791680A (zh) | 在线社交网络上的视频关键帧显示 | |
CN109919244B (zh) | 用于生成场景识别模型的方法和装置 | |
CN109740085A (zh) | 一种页面内容的展示方法、装置、设备及存储介质 | |
CN111444357B (zh) | 内容信息确定方法、装置、计算机设备及存储介质 | |
KR20110005140A (ko) | 컨텐츠 처리 방법 및 컨텐츠 제공 시스템 | |
Rodrigues et al. | Adaptive card design UI implementation for an augmented reality museum application | |
CN110059223A (zh) | 机内循环、图像到视频计算机视觉引导 | |
CN112231497B (zh) | 信息分类方法、装置、存储介质及电子设备 | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
CN112464052A (zh) | 反馈信息的处理方法、显示方法、装置及电子设备 | |
CN114372172A (zh) | 生成视频封面图像的方法、装置、计算机设备及存储介质 | |
CN113626624B (zh) | 一种资源识别方法和相关装置 | |
CN113392315A (zh) | 一种主题类型挖掘方法、装置、设备及存储介质 | |
US20170034586A1 (en) | System for content matching and triggering for reality-virtuality continuum-based environment and methods thereof | |
CN111931075A (zh) | 一种内容推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |