CN110209920A - 媒体资源的处理方法和装置、存储介质及电子装置 - Google Patents

媒体资源的处理方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110209920A
CN110209920A CN201810411615.1A CN201810411615A CN110209920A CN 110209920 A CN110209920 A CN 110209920A CN 201810411615 A CN201810411615 A CN 201810411615A CN 110209920 A CN110209920 A CN 110209920A
Authority
CN
China
Prior art keywords
target
feature
resource
picture
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810411615.1A
Other languages
English (en)
Inventor
唐亚腾
钟滨
邓强
潘昆豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810411615.1A priority Critical patent/CN110209920A/zh
Publication of CN110209920A publication Critical patent/CN110209920A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种媒体资源的处理方法和装置、存储介质及电子装置。其中,该方法包括:获取待推荐的目标媒体资源的特征序列,其中,特征序列包括目标媒体资源的目标图片特征和目标文字特征;使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;对目标媒体资源进行处理。本发明解决了相关技术中对媒体资源识别的准确度较低的技术问题。

Description

媒体资源的处理方法和装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种媒体资源的处理方法和装置、存储介质及电子装置。
背景技术
如今,为了吸引更多用户参与,很多终端应用的开发商会在终端应用中为用户推荐媒体资源(如,文章),以提高用户对终端应用的兴趣。其中,在推荐媒体资源之前,往往需要先识别待推荐的媒体资源是否为垃圾媒体资源。
目前,对上述待推荐的媒体资源进行识别时,通常是基于人为规定的规则,来去除在规则范围内的垃圾媒体资源。如,上述规则可以为用于指示文章中所包含的广告的数量,在上述广告的数量大于预定阈值时,则将上述文章识别为垃圾文章。
然而,随着待推荐的媒体资源的数量增加,人为规定的规则的数量也需随之增加,但上述人为规定的规则往往无法覆盖垃圾媒体资源中所有的情况,从而导致对媒体资源识别的准确度较低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种媒体资源的处理方法和装置、存储介质及电子装置,以至少解决相关技术中对媒体资源识别的准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种媒体资源的处理方法,包括:获取待推荐的目标媒体资源的特征序列,其中,特征序列包括目标媒体资源的目标图片特征和目标文字特征;使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;对目标媒体资源进行处理。
根据本发明实施例的另一方面,还提供了一种媒体资源的处理装置,包括:第一获取单元,用于获取待推荐的目标媒体资源的特征序列,其中,特征序列包括目标媒体资源的目标图片特征和目标文字特征;确定单元,用于使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;处理单元,用于对目标媒体资源进行处理。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的方法。
在本发明实施例中,获取了待推荐的目标媒体资源的特征序列,然后基于目标模型对上述特征序列进行处理,以确定目标媒体资源是目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征。因此,实现了通过机器学习训练得到的模型对目标媒体资源进行识别,以确定目标媒体资源是否是目标类别的媒体资源,而通过机器学习确定的模型可以全面的考虑导致成为垃圾媒体资源的因素,而不是再通过人为规定的规则进行识别,从而提高了识别垃圾媒体资源的准确度,进而解决了相关技术中对媒体资源识别的准确度较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种媒体资源的处理方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的媒体资源的处理方法的流程示意图;
图3是根据本发明实施例的一种可选的特征序列获取的示意图;
图4是根据本发明实施例的一种可选的图片模板库的获取方法的示意图;
图5是根据本发明实施例的一种可选的目标模型的获取方法的示意图;
图6是根据本发明实施例的又一种可选的媒体资源的处理方法的示意图;
图7是根据本发明实施例的一种可选的媒体资源的处理装置的结构示意图;
图8是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种媒体资源的处理方法。可选地,上述媒体资源的处理方法可以但不限于应用于如图1所示的应用环境中,其中,待推荐的目标文章相当于待推荐的目标媒体资源。如图1所示,终端102的应用(如,微信应用)通过网络104接收服务器106发送的待推荐的目标文章,如体育类文章1,体育类文章2(包含广告的数量大于预定值1),然后获取目标文章的特征序列,然后,使用目标模型对上述特征序列进行处理,确定上述目标文章是目标类别的文章。在终端102确定目标文章是目标类别的文章的情况下,删除该目标文章,如体育类文章2包含的广告的数量大于预定值1,则确定其为垃圾文章,删除体育类文章2;在确定目标文章不是目标类别的文章的情况下,将该目标文章通过终端102上的微信推荐给用户,如体育类文章1不包含广告,则确定其不是垃圾文章,将其通过微信显示给用户。
在本发明实施例中,获取了待推荐的目标文章的特征序列,然后基于目标模型对上述特征序列进行处理,以确定目标文章是目标类别的文章,其中,目标模型为使用样本文章的特征序列通过机器学习对初始模型进行训练得到的模型,样本文章的特征序列包括样本文章的图片特征和文字特征。因此,实现了通过机器学习训练得到的模型对目标文章进行识别,以确定目标文章是否是目标类别的文章,而通过机器学习确定的模型可以全面的考虑导致成为垃圾文章的因素,从而提高了识别垃圾文章的准确度,而不是再通过人为规定的规则进行识别,进而解决了相关技术中对媒体资源识别的准确度较低的技术问题。
可选地,在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑等。上述网络可以包括但不限于无线网络,其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以包括但不限于以下至少之一:PC机及其他用于计算服务的设备。上述只是一种示例,本实施例对此不做任何限定。
作为一种可选的实施方式,如图2所示,上述媒体资源的处理方法可以包括:
S202,获取待推荐的目标媒体资源的特征序列,其中,特征序列包括目标媒体资源的目标图片特征和目标文字特征;
S204,使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;
S206,对目标媒体资源进行处理。
可选地,上述目标图片特征可以包括但不限于如下特征:用于指示所述目标图片大小的大小特征、用于指示所述目标图片的色情指数的色情特征、用于指示所述目标图片的广告指数的广告特征、用于指示所述目标图片包括的文字的指数的文字特征和用于指示所述目标图片是否包括二维码的二维码特征、用于指示统一资源定位符对应的图片是否在所述图片模板库的模板特征。可选地,图片模板库包括满足预定条件的图片,上述预定条件为图片在预定时间段内的所有文章中出现的次数大于目标阈值。
可选地,上述目标文字特征包括但不限于如下特征:文章主题、正文段落、正文段落数、每个段落的文字数。
可选地,上述样本媒体资源可以是历史待推荐的媒体资源集合中的媒体资源。上述目标类型包括但不限于如下:垃圾类型(如包括广告信息较多的媒体资源)、正常类型(如不包括广告信息的媒体资源)。当然,也可以根据实际业务需求进行其他分类。
需要说明的是,上述实施例可以应用于文章推荐类产品中,如,终端上的微信应用向用户推荐文章方面,终端上的微博向用户推荐文章方面,等等,但是,包括并不限于上述示例,也可以应用于其他应用向用户推荐文章方面,使用本发明实施例可以对用于推荐的文章进行垃圾识别,根据业务需求和垃圾程度有选择的对推荐的文章进行过滤,进而将过滤后的文章显示给用户,以保证用户收到的文章中不再包含大量垃圾文章。
在本发明实施例中,获取了待推荐的目标媒体资源的特征序列,然后基于目标模型对上述特征序列进行处理,以确定目标媒体资源是目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征。因此,实现了通过机器学习训练得到的模型对目标媒体资源进行识别,以确定目标媒体资源是否是目标类别的媒体资源,而通过机器学习确定的模型可以全面的考虑导致成为垃圾媒体资源的因素,从而提高了识别垃圾媒体资源的准确度,而不是再通过人为规定的规则进行识别,进而解决了相关技术中对媒体资源识别的准确度较低的技术问题。
需要说明的是,上述待推荐的目标媒体资源的特征序列可以包括但不限于如下方式获取:解析目标媒体资源的超文本标记语言结构,根据该结构中的标签得到目标媒体资源中的目标图片的统一资源定位符和目标文字特征,然后,根据超文本标记语言结构中标签的顺序,将目标图片特征和目标文字特征生成目标媒体资源的特征序列。
需要说明的是,上述目标图片特征中可以包括但不限于如下方式获取:根据上述统一资源定位符,确定目标图片的模板特征,其中,上述模板特征用于指示统一资源定位符对应的图片是否在图片模板库,然后,根据模板特征以及目标图片的属性信息,获取目标图片特征。
可选地,上述模板库可以通过但不限于如下方式获取:查询历史媒体资源集合中出现次数大于目标阈值的图片,提取上述图片的集合并将该图片集合作为模板库。
可选地,上述属性信息可以通过但不限于如下方式获取:将目标图片输入用于提取图片属性信息的特征提取模板,获取上述属性信息。
需要说明的是,上述属性信息包括但不限于以下至少之一:用于指示目标图片大小的大小特征、用于指示目标图片的色情指数的色情特征、用于指示目标图片的广告指数的广告特征、用于指示目标图片包括的文字的指数的文字特征和用于指示目标图片是否包括二维码的二维码特征。
需要说明的是,上述目标模型可以包括但不限于如下:使用样本媒体资源的特征序列通过长短期记忆网络(Long Short-Term Memory,简称为LSTM)算法对初始模型进行训练得到的模型。
作为一种可选的实施方式,获取待推荐的目标媒体资源的特征序列包括:
S1,根据目标媒体资源的超文本标记语言结构中的标签,获取目标媒体资源中的目标图片的统一资源定位符和目标文字特征;
S2,根据统一资源定位符,获取目标图片特征;
S3,根据统一资源定位符对应的标签和目标文字特征对应的标签的顺序,将目标图片特征和目标文字特征生成为目标媒体资源的特征序列。
例如,如图3所示,终端302解析目标文章的超文本标记语言(HypeText MarkupLanguage,简称为html)结构,获取其中的标签,根据该标签得到目标文章中的目标图片的统一资源定位符(Uniform Resource Locator,简称为url)和目标文字特征,进而在根据统一资源定位符获取目标图片的目标图片特征,从而根据上述获取的标签的顺序,将获取的目标图片特征和目标文字特征表示为特征序列。
在本发明实施例中,特征序列结合了目标媒体资源的目标图片特征和目标文字特征,使得综合考虑了整篇媒体资源的特性,进一步提高了上述识别垃圾媒体资源的准确度。
作为一种可选的实施方式,根据统一资源定位符,获取目标图片特征包括:
S1,根据统一资源定位符以及图片模板库,确定目标图片的模板特征,其中,图片模板库包括满足预定条件的图片,预定条件为图片在预定时间段内的所有文章中出现的次数大于目标阈值,模板特征用于指示统一资源定位符对应的图片是否在图片模板库;
S2,根据模板特征以及目标图片的属性信息,获取目标图片特征。
例如,在获取目标图片的url后,通过url在模板库中查询确定url对应的图片是否在图片模板库,从而确定目标图片的模板特征,进而根据确定模板特征以及目标图片的属性信息,获取目标图片特征。
相关技术中,目标图片特征仅包含了目标图片的大小特征、二维码特征、色情特征等特征,即仅包括了目标图片的属性信息。在本发明实施例中,目标图片特征除了包括目标图片的属性信息,还包括了用于指示统一资源定位符对应的图片是否在图片模板库的模板特征,使得目标图片特征更全面,更丰富。
作为一种可选的实施方式,根据模板特征以及目标图片的属性信息,获取目标图片特征包括:
S1,将目标图片输入特征提取模板,获取目标图片的属性信息,其中,特征提取模板用于提取图片的属性信息;
S2,根据模板特征以及属性信息,获取目标图片特征。
需要说明的是,上述特征提取模板可以是现有技术中可以提取图片属性信息的任意模板。
作为一种可选的实施方式,属性信息包括以下至少之一:用于指示目标图片大小的大小特征、用于指示目标图片的色情指数的色情特征、用于指示目标图片的广告指数的广告特征、用于指示目标图片包括的文字的指数的文字特征和用于指示目标图片是否包括二维码的二维码特征。
需要说明的是,上述属性信息可以根据业务需求调整要提取的特征类型。
作为一种可选的实施方式,在确定目标图片的模板特征之前,还包括:
S1,获取历史媒体资源集合中第一样本媒体资源的第一图片的统一资源定位符和第一样本媒体资源对应的第一帐号标识;
S2,使用第一图片的统一资源定位符和第一帐号标识,生成第一图片的第一标识;
S3,在第一标识出现在历史媒体资源集合中的次数大于目标阈值的情况下,将第一图片和第一标识加入图片模板库。
例如,可选地,上述图片模板库的获取流程可以如图4所示,其主要包括如下步骤:
步骤S401,依次读取用于推荐的候选账号的一定时间段内所有文章;
步骤S402,通过解析上述文章的html结构,获取文章中图片的url;
步骤S403,使用候选账号id和图片url作为该图片的唯一编码key,进而在哈希库(相当于计数库)查询上述图片key的次数;
步骤S404,确定哈希库(相当于计数库)是否存在上述key,若不存在,转入步骤S405,若存在,转入步骤S406;
步骤S405,若图片不在计数的哈希库中则插入(key,1)的键值对;
步骤S406,该key的计数值加一,并将上述计数结果作为计数库。
步骤S407,确定是否处理完上述所有文章,若处理完了,则转入步骤S408,若没有处理完,则转入步骤S401;
步骤S408,提取出现次数大于一定阈值的图片组成模板库。
步骤S409,保存计数库和模板库,计数库用于后续更新,模板库用于提取图片的模板特征。
在本发明实施例中,通过使用图片的统一资源定位符和帐号标识作为图片的标识,使得图片的标识是唯一的,进而可以使用该标识方便的对图片进行计数,从而根据计数结果确定图片是否加入模板库。
作为一种可选的实施方式,根据统一资源定位符以及图片模板库,确定目标图片的模板特征包括:
S1,获取目标图片对应的目标帐号标识;
S2,使用目标图片的统一资源定位符和目标帐号标识,生成目标图片的目标标识;
S3,在确定目标标识在图片模板库中的情况下,确定目标图片的模板特征,其中,模板特征用于指示目标图片在图片模板库中。
在本发明实施例中,通过图片的标识确定其是否是模板库中的图片,使得确定的过程更方便快捷。
作为一种可选的实施方式,在使用目标模型对特征序列进行处理之前,还包括但不限于:
S1,获取历史媒体资源集合中第一样本媒体资源的第一特征序列和第一样本媒体资源对应的第一目标类别;
S2,使用第一特征序列和第一目标类别,通过机器学习对初始模型进行训练得到第一模型;
S3,依次使用历史媒体资源集合中其他样本媒体资源的特征序列和其他样本媒体资源对应的目标类别,通过机器学习对第一模型进行训练得到目标模型。
例如,上述目标模型的训练过程可以包括但不限于如图5所示,主要包括如下步骤:
步骤S501,获取实际业务中的文章集合S(如微信公众号平台产生的文章,简称为MP文章),并根据文章中图片垃圾情况对文章打上是否垃圾的标签。
步骤S502,读取已生成的图片模板库L,用于图片的模板特征提取。
步骤S503,对文章集合S中的文章解析其html结构,生成由图片url和文字段落组成的序列S1。
步骤S504,使用已有的特征提取模板对文章中的图片依次提取大小特征F_size(即图片像素的长和宽)、色情特征(即图片的色情指数,范围为0-1)、广告特征(即图片的广告指数,范围0-1)、文字特征(即图片的文字指数,范围0-1)、二维码特征(即图片是否包含二维码);同时使用图片模板库L提取图片url的模板特征(即图片是否为模板图片)。
步骤S505,将序列S1中的图片和文字表示成如下10维的特征序列S2,特征依次为:
是否为文字、文字数、是否为图片、图片长、图片宽、图片的色情指数、图片的广告指数、图片的文字指数、图片是否为二维码、图片是否是模板
步骤S506,使用LSTM算法对特征序列S2及其对应的标签训练分类模型M。
步骤S507,保存训练生成的模型M用于预测新数据。
在本发明实施例中,基于MP文章的特点,提取了图片的模板特征、色情特征、广告特征、文字特征、大小特征、二维码特征等,进而将文章抽象表示为综合特征的序列,再结合人工标注数据,便可以使用多种机器学习的算法来对特征序列进行训练,以得到预测结果更准确的目标模板。
作为一种可选的实施方式,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型包括但不限于:目标模型为使用样本媒体资源的特征序列通过长短期记忆网络LSTM算法对初始模型进行训练得到的模型。
需要说明的是,本发明实施例使用的是LSTM算法来进行分类模型的训练,但是并不限定该示例,也可以使用其他分类模型来替换。
作为一种可选的实施方式,使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源包括但不限于:使用目标模型对特征序列进行处理,判断目标媒体资源是否为目标类别的媒体资源;在判断结果为是的情况下,确定目标媒体资源为目标类别的媒体资源。在本发明实施例中,使用机器学习的方法确定目标模型,使得目标模型可根据业务需求自动学习和调整,灵活可用。
为了方便理解上述实施例,本发明实施例结合上述模型对待推荐的文章预测是否为垃圾文章,具体流程如图6所示,可以包括如下步骤:
步骤S601,读取待推荐的MP文章集合。
步骤S602,读取已生成的图片模板库L用于模板特征提取。
步骤S603,读取已训练好的模型M用于预测结果。
步骤S604,对读取的文章解析其html结构,生成由图片url和文字段落组成的序列S1。
步骤S605,使用公司内已有的特征提取接口对文章中的图片依次提取大小特征F_size(即图片像素的长和宽)、色情特征(即图片的色情指数,范围为0-1)、广告特征(即图片的广告指数,范围0-1)、文字特征(即图片的文字指数,范围0-1)、二维码特征(即图片是否包含二维码);同时使用图片模板库L提取图片url的模板特征(即图片是否为模板图片)。
步骤S606,将序列S1中的图片和文字表示成如下10维的特征序列S2,特征依次为:
是否为文字、文字数、是否为图片、图片长、图片宽、图片的色情指数、图片的广告指数、图片的文字指数、图片是否为二维码、图片是否是模板图片。
步骤S607,将特征序列S2输入到模型M中进行预测。
步骤S608,输出模型的预测结果。
步骤S609,根据预测结果确定待推荐的MP文章集合中的垃圾文章并将其删除,以便筛选得到用于推荐的文章。
需要说明的是,本发明实施例可以应用在微信的“看一看”文章推荐类产品中,文章质量对于整个产品来说非常重要,垃圾文章中由图片引起的占比很高,可以根据图片的垃圾程度以及实际业务需求进行个性化处理。但传统的图片文章垃圾识别多采用基于规则的方法,准确率和召回率相对较低,因此本发发明实施例提出一种结合多种特征并使用机器学习算法来识别图片垃圾文章的方法。本发明实施例基于MP文章的特点,提取了图片的模板特征、色情特征、广告特征、文字特征、大小特征、二维码特征等,进而将文章抽象表示为综合特征的序列,再结合人工标注数据,便可以使用多种机器学习的算法来对特征序列进行训练。
例如,确定待推荐的文章是否可以在“看一看”中显示,具体实现过程可以包括但不限于如下:
S1,获取待推荐的文章,假设该文章包括文字和图片;
S2,解析该文章的超文本标记语言html结构,例如,可以根据该文章的html结构中的标签,获取该文章中的图片的统一资源定位符url和该文章的文字特征(如,包括两段文字,每段文字的字数为100、200);
S3,使用公司内已有的特征提取接口对该文章中的图片依次提取大小特征F_size(图片像素是595*842)、色情特征(如,图片的色情指数为0.5)、广告特征(如,图片的广告指数为0.3)、图片中文字特征(如图片的文字指数为0.4)、二维码特征(如,图片不包含二维码);
S4,同时使用郧县训练的图片模板库L提取图片url对应的模板特征(即图片是否为模板图片);
S5,将上述特征按对应的html标签的顺序表示为特征序列,如特征序列可以包括但不限于:文字,2,100,200、图片、595、842、0.5、0.3、0.4、图片中无二维码、图片是模板图片;
S6,将上述特征序列输入到预先训练的模型M中,如果输出的结果(如输出的结果为1)显示该文章为非垃圾文章,则确定上述待推荐的文章可以在“看一看”中显示;如果输出的结果(如输出的结果为0)显示该文章为垃圾文章,则删除上述待推荐文章。
本发明实施例的方法灵活性高,可以根据业务需求调整标注数据,不仅可以进行判断是否垃圾的分类识别,还可以根据垃圾程度的不同回归拟合垃圾程度,使得识别结果具有高准确率,高召回率。同时,本发明实施例还适用于其他基于账号发布的文章图片反垃圾,具有较高的普适性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述媒体资源的处理装置,如图7所示,该装置包括:
(1)第一获取单元702,用于获取待推荐的目标媒体资源的特征序列,其中,特征序列包括目标媒体资源的目标图片特征和目标文字特征;
(2)确定单元704,用于使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;
(3)处理单元706,用于对目标媒体资源进行处理。
需要说明的是,上述目标图片特征可以包括但不限于如下特征:用于指示所述目标图片大小的大小特征、用于指示所述目标图片的色情指数的色情特征、用于指示所述目标图片的广告指数的广告特征、用于指示所述目标图片包括的文字的指数的文字特征和用于指示所述目标图片是否包括二维码的二维码特征、用于指示统一资源定位符对应的图片是否在所述图片模板库的模板特征。可选地,图片模板库包括满足预定条件的图片,上述预定条件为图片在预定时间段内的所有文章中出现的次数大于目标阈值。
需要说明的是,上述目标文字特征包括但不限于如下特征:文章主题、正文段落、正文段落数、每个段落的文字数。
需要说明的是,上述样本媒体资源可以是历史待推荐的媒体资源集合中的媒体资源。上述目标类型包括但不限于如下:垃圾类型(如包括广告信息较多的媒体资源)、正常类型(如不包括广告信息的媒体资源)。当然,也可以根据实际业务需求进行其他分类。
需要说明的是,上述实施例可以应用于终端上的微信应用向用户推荐文章方面,也可以应用于其他应用向用户推荐文章方面。
在本发明实施例中,获取了待推荐的目标媒体资源的特征序列,然后基于目标模型对上述特征序列进行处理,以确定目标媒体资源是目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征。因此,实现了通过机器学习训练得到的模型对目标媒体资源进行识别,以确定目标媒体资源是否是目标类别的媒体资源,提高了识别垃圾媒体资源的准确度,而不是再通过人为规定的规则进行识别,进而解决了相关技术中对媒体资源识别的准确度较低的技术问题。
可选地,上述第一获取单元702包括:
(1)第一获取模块,用于根据目标媒体资源的超文本标记语言结构中的标签,获取目标媒体资源中的目标图片的统一资源定位符和目标文字特征;
(2)第二获取模块,用于根据统一资源定位符,获取目标图片特征;
(3)生成模块,用于根据统一资源定位符对应的标签和目标文字特征对应的标签的顺序,将目标图片特征和目标文字特征生成为特征序列。
例如,如图3所示,终端302解析目标文章的超文本标记语言(HypeText MarkupLanguage,简称为html)结构,获取其中的标签,根据该标签得到目标文章中的目标图片的统一资源定位符(Uniform Resource Locator,简称为url)和目标文字特征,进而在根据统一资源定位符获取目标图片的目标图片特征,从而根据上述获取的标签的顺序,将获取的目标图片特征和目标文字特征表示为特征序列。
在本发明实施例中,特征序列结合了目标媒体资源的目标图片特征和目标文字特征,使得综合考虑了整篇媒体资源的特性,进一步提高了上述识别垃圾媒体资源的准确度。
作为一种可选的实施方式,第二获取模块包括:
(1)确定子模块,用于根据统一资源定位符以及图片模板库,确定目标图片的模板特征,其中,图片模板库包括满足预定条件的图片,预定条件为图片在预定时间段内的所有文章中出现的次数大于目标阈值,模板特征用于指示统一资源定位符对应的图片是否在图片模板库;
(2)第一获取子模块,用于根据模板特征以及目标图片的属性信息,获取目标图片特征。
例如,在获取目标图片的url后,通过url在模板库中查询确定url对应的图片是否在图片模板库,从而确定目标图片的模板特征,进而根据确定模板特征以及目标图片的属性信息,获取目标图片特征。
相关技术中,目标图片特征仅包含了目标图片的大小特征、二维码特征、色情特征等特征,即仅包括了目标图片的属性信息。在本发明实施例中,目标图片特征除了包括目标图片的属性信息,还包括了用于指示统一资源定位符对应的图片是否在图片模板库的模板特征,使得目标图片特征更全面。
作为一种可选的实施方式,第一获取子模块还用于,将目标图片输入特征提取模板,获取目标图片的属性信息,其中,特征提取模板用于提取图片的属性信息;根据模板特征以及属性信息,获取目标图片特征。
需要说明的是,上述特征提取模板可以是现有技术中可以提取图片属性信息的任意模板。
作为一种可选的实施方式,上述属性信息包括以下至少之一:用于指示目标图片大小的大小特征、用于指示目标图片的色情指数的色情特征、用于指示目标图片的广告指数的广告特征、用于指示目标图片包括的文字的指数的文字特征和用于指示目标图片是否包括二维码的二维码特征。
作为一种可选的实施方式,第二获取模块还包括:
(1)第二获取子模块,用于获取历史媒体资源集合中第一样本媒体资源的第一图片的统一资源定位符和第一样本媒体资源对应的第一帐号标识;
(2)生成子模块,用于使用第一图片的统一资源定位符和第一帐号标识,生成第一图片的第一标识;
(3)加入子模块,用于在第一标识出现在历史媒体资源集合中的次数大于目标阈值的情况下,将第一图片和第一标识加入图片模板库。
例如,可选地,上述图片模板库的获取流程可以如图4所示,其主要包括如下步骤:
步骤S401,依次读取用于推荐的候选账号的一定时间段内所有文章;
步骤S402,通过解析上述文章的html结构,获取文章中图片的url;
步骤S403,使用候选账号id和图片url作为该图片的唯一编码key,进而在哈希库(相当于计数库)查询上述图片key的次数;
步骤S404,确定哈希库(相当于计数库)是否存在上述key,若不存在,转入步骤S405,若存在,转入步骤S406;
步骤S405,若图片不在计数的哈希库中则插入(key,1)的键值对;
步骤S406,该key的计数值加一,并将上述计数结果作为计数库。
步骤S407,确定是否处理完上述所有文章,若处理完了,则转入步骤S408,若没有处理完,则转入步骤S401;
步骤S408,提取出现次数大于一定阈值的图片组成模板库。
步骤S409,保存计数库和模板库,计数库用于后续更新,模板库用于提取图片的模板特征。
在本发明实施例中,通过使用图片的统一资源定位符和帐号标识作为图片的标识,使得图片的标识是唯一的,进而可以使用该标识方便的对图片进行计数,从而根据计数结果确定图片是否加入模板库。
作为一种可选的实施方式,确定子模块,还用于获取目标图片对应的目标帐号标识;使用目标图片的统一资源定位符和目标帐号标识,生成目标图片的目标标识;以及在确定目标标识在图片模板库中的情况下,确定目标图片的模板特征,其中,模板特征用于指示目标图片在图片模板库中。
在本发明实施例中,通过图片的标识确定其是否是模板库中的图片,使得确定的过程更方便快捷。
作为一种可选的实施方式,上述装置还包括:
(1)第二获取单元,用于获取历史媒体资源集合中第一样本媒体资源的第一特征序列和第一样本媒体资源对应的第一目标类别;
(2)第一训练单元,用于使用第一特征序列和第一目标类别,通过机器学习对初始模型进行训练得到第一模型;
(3)第二训练单元,用于依次使用历史媒体资源集合中其他样本媒体资源的特征序列和其他样本媒体资源对应的目标类别,通过机器学习对第一模型进行训练得到目标模型。
例如,上述目标模板的训练过程可以包括但不限于如图5所示,主要包括如下步骤:
步骤S501,获取实际业务中的文章集合S(如微信公众号平台产生的文章,简称为MP文章),并根据文章中图片垃圾情况对文章打上是否垃圾的标签。
步骤S502,读取已生成的图片模板库L,用于图片的模板特征提取。
步骤S503,对文章集合S中的文章解析其html结构,生成由图片url和文字段落组成的序列S1。
步骤S504,使用已有的特征提取模板对文章中的图片依次提取大小特征F_size(即图片像素的长和宽)、色情特征(即图片的色情指数,范围为0-1)、广告特征(即图片的广告指数,范围0-1)、文字特征(即图片的文字指数,范围0-1)、二维码特征(即图片是否包含二维码);同时使用图片模板库L提取图片url的模板特征(即图片是否为模板图片)。
步骤S505,将序列S1中的图片和文字表示成如下10维的特征序列S2,特征依次为:
是否为文字、文字数、是否为图片、图片长、图片宽、图片的色情指数、图片的广告指数、图片的文字指数、图片是否为二维码、图片是否是模板。
步骤S506,使用LSTM算法对特征序列S2及其对应的标签训练分类模型M。
步骤S507,保存训练生成的模型M用于预测新数据。
在本发明实施例中,基于MP文章的特点,提取了图片的模板特征、色情特征、广告特征、文字特征、大小特征、二维码特征等,进而将文章抽象表示为综合特征的序列,再结合人工标注数据,便可以使用多种机器学习的算法来对特征序列进行训练,以得到预测结果更准确的目标模板。
作为一种可选的实施方式,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型包括:目标模型为使用样本媒体资源的特征序列通过长短期记忆网络LSTM算法对初始模型进行训练得到的模型。
需要说明的是,本发明实施例使用的是LSTM算法来进行分类模型的训练,但是并不限定该示例,也可以使用其他分类模型来替换。
需要说明的是,上述实施例可以应用于微信的“看一看”,如确定待推荐的文章是否可以在“看一看”中显示,具体实现过程可以包括但不限于如下:
S1,获取待推荐的文章,假设该文章包括文字和图片;
S2,解析该文章的超文本标记语言html结构,例如,可以根据该文章的html结构中的标签,获取该文章中的图片的统一资源定位符url和该文章的文字特征(如,包括两段文字,每段文字的字数为100、200);
S3,使用公司内已有的特征提取接口对该文章中的图片依次提取大小特征F_size(图片像素是595*842)、色情特征(如,图片的色情指数为0.5)、广告特征(如,图片的广告指数为0.3)、图片中文字特征(如图片的文字指数为0.4)、二维码特征(如,图片不包含二维码);
S4,同时使用郧县训练的图片模板库L提取图片url对应的模板特征(即图片是否为模板图片);
S5,将上述特征按对应的html标签的顺序表示为特征序列,如特征序列可以包括但不限于:文字,2,100,200、图片、595、842、0.5、0.3、0.4、图片中无二维码、图片是模板图片;
S6,将上述特征序列输入到预先训练的模型M中,如果输出的结果(如输出的结果为1)显示该文章为非垃圾文章,则确定上述待推荐的文章可以在“看一看”中显示;如果输出的结果(如输出的结果为0)显示该文章为垃圾文章,则删除上述待推荐文章。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待推荐的目标媒体资源的特征序列,其中,特征序列包括目标媒体资源的目标图片特征和目标文字特征;
S2,使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;
S3,对目标媒体资源进行处理。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:获取待推荐的目标媒体资源的特征序列包括:
S1,根据目标媒体资源的超文本标记语言结构中的标签,获取目标媒体资源中的目标图片的统一资源定位符和目标文字特征;
S2,根据统一资源定位符,获取目标图片特征;
S3,根据统一资源定位符对应的标签和目标文字特征对应的标签的顺序,将目标图片特征和目标文字特征生成为特征序列。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:根据统一资源定位符,获取目标图片特征包括:
S1,根据统一资源定位符以及图片模板库,确定目标图片的模板特征,其中,图片模板库包括满足预定条件的图片,预定条件为图片在预定时间段内的所有文章中出现的次数大于目标阈值,模板特征用于指示统一资源定位符对应的图片是否在图片模板库;
S2,根据模板特征以及目标图片的属性信息,获取目标图片特征。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:根据模板特征以及目标图片的属性信息,获取目标图片特征包括:
S1,将目标图片输入特征提取模板,获取目标图片的属性信息,其中,特征提取模板用于提取图片的属性信息;
S2,根据模板特征以及属性信息,获取目标图片特征。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:属性信息包括以下至少之一:用于指示目标图片大小的大小特征、用于指示目标图片的色情指数的色情特征、用于指示目标图片的广告指数的广告特征、用于指示目标图片包括的文字的指数的文字特征和用于指示目标图片是否包括二维码的二维码特征。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在确定目标图片的模板特征之前,还包括:
S1,获取历史媒体资源集合中第一样本媒体资源的第一图片的统一资源定位符和第一样本媒体资源对应的第一帐号标识;
S2,使用第一图片的统一资源定位符和第一帐号标识,生成第一图片的第一标识;
S3,在第一标识出现在历史媒体资源集合中的次数大于目标阈值的情况下,将第一图片和第一标识加入图片模板库。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:根据统一资源定位符以及图片模板库,确定目标图片的模板特征包括:
S1,获取目标图片对应的目标帐号标识;
S2,使用目标图片的统一资源定位符和目标帐号标识,生成目标图片的目标标识;
S3,在确定目标标识在图片模板库中的情况下,确定目标图片的模板特征,其中,模板特征用于指示目标图片在图片模板库中。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在使用目标模型对特征序列进行处理之前,还包括:
S1,获取历史媒体资源集合中第一样本媒体资源的第一特征序列和第一样本媒体资源对应的第一目标类别;
S2,使用第一特征序列和第一目标类别,通过机器学习对初始模型进行训练得到第一模型;
S3,依次使用历史媒体资源集合中其他样本媒体资源的特征序列和其他样本媒体资源对应的目标类别,通过机器学习对第一模型进行训练得到目标模型。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型包括:目标模型为使用样本媒体资源的特征序列通过长短期记忆网络LSTM算法对初始模型进行训练得到的模型。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源包括:
S1,使用目标模型对特征序列进行处理,判断目标媒体资源是否为目标类别的媒体资源;
S2,在判断结果为是的情况下,确定目标媒体资源为目标类别的媒体资源。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述媒体资源的处理方法的电子装置,如图8所示,该电子装置包括:处理器802、存储器804、显示器806、用户接口808、传输装置810、传感器812等。该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待推荐的目标媒体资源的特征序列,其中,特征序列包括目标媒体资源的目标图片特征和目标文字特征;
S2,使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源,其中,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;
S3,对目标媒体资源进行处理。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:获取待推荐的目标媒体资源的特征序列包括:
S1,根据目标媒体资源的超文本标记语言结构中的标签,获取目标媒体资源中的目标图片的统一资源定位符和目标文字特征;
S2,根据统一资源定位符,获取目标图片特征;
S3,根据统一资源定位符对应的标签和目标文字特征对应的标签的顺序,将目标图片特征和目标文字特征生成为特征序列。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:根据统一资源定位符,获取目标图片特征包括:
S1,根据统一资源定位符以及图片模板库,确定目标图片的模板特征,其中,图片模板库包括满足预定条件的图片,预定条件为图片在预定时间段内的所有文章中出现的次数大于目标阈值,模板特征用于指示统一资源定位符对应的图片是否在图片模板库;
S2,根据模板特征以及目标图片的属性信息,获取目标图片特征。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:根据模板特征以及目标图片的属性信息,获取目标图片特征包括:
S1,将目标图片输入特征提取模板,获取目标图片的属性信息,其中,特征提取模板用于提取图片的属性信息;
S2,根据模板特征以及属性信息,获取目标图片特征。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:属性信息包括以下至少之一:用于指示目标图片大小的大小特征、用于指示目标图片的色情指数的色情特征、用于指示目标图片的广告指数的广告特征、用于指示目标图片包括的文字的指数的文字特征和用于指示目标图片是否包括二维码的二维码特征。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在确定目标图片的模板特征之前,还包括:
S1,获取历史媒体资源集合中第一样本媒体资源的第一图片的统一资源定位符和第一样本媒体资源对应的第一帐号标识;
S2,使用第一图片的统一资源定位符和第一帐号标识,生成第一图片的第一标识;
S3,在第一标识出现在历史媒体资源集合中的次数大于目标阈值的情况下,将第一图片和第一标识加入图片模板库。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:根据统一资源定位符以及图片模板库,确定目标图片的模板特征包括:
S1,获取目标图片对应的目标帐号标识;
S2,使用目标图片的统一资源定位符和目标帐号标识,生成目标图片的目标标识;
S3,在确定目标标识在图片模板库中的情况下,确定目标图片的模板特征,其中,模板特征用于指示目标图片在图片模板库中。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在使用目标模型对特征序列进行处理之前,还包括:
S1,获取历史媒体资源集合中第一样本媒体资源的第一特征序列和第一样本媒体资源对应的第一目标类别;
S2,使用第一特征序列和第一目标类别,通过机器学习对初始模型进行训练得到第一模型;
S3,依次使用历史媒体资源集合中其他样本媒体资源的特征序列和其他样本媒体资源对应的目标类别,通过机器学习对第一模型进行训练得到目标模型。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型包括:目标模型为使用样本媒体资源的特征序列通过长短期记忆网络LSTM算法对初始模型进行训练得到的模型。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:使用目标模型对特征序列进行处理,确定目标媒体资源为目标类别的媒体资源包括:
S1,使用目标模型对特征序列进行处理,判断目标媒体资源是否为目标类别的媒体资源;
S2,在判断结果为是的情况下,确定目标媒体资源为目标类别的媒体资源。
可选地,本领域普通技术人员可以理解,图8所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图8中所示更多或者更少的组件(如网络接口等),或者具有与图8所示不同的配置。
其中,存储器804可用于存储软件程序以及模块,如本发明实施例中的媒体资源的处理方法和装置对应的程序指令/模块,处理器802通过运行存储在存储器804内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述媒体资源的处理方法。存储器804可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器804可进一步包括相对于处理器802远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置810用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置88包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置810为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种媒体资源的处理方法,其特征在于,包括:
获取待推荐的目标媒体资源的特征序列,其中,所述特征序列包括所述目标媒体资源的目标图片特征和目标文字特征;
使用目标模型对所述特征序列进行处理,确定所述目标媒体资源为目标类别的媒体资源,其中,所述目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,所述样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;
对所述目标媒体资源进行处理。
2.根据权利要求1所述的方法,其特征在于,所述获取待推荐的目标媒体资源的特征序列包括:
根据所述目标媒体资源的超文本标记语言结构中的标签,获取所述目标媒体资源中的目标图片的统一资源定位符和目标文字特征;
根据所述统一资源定位符,获取所述目标图片特征;
根据所述统一资源定位符对应的标签和所述目标文字特征对应的标签的顺序,将所述目标图片特征和所述目标文字特征生成为所述特征序列。
3.根据权利要求2所述的方法,其特征在于,所述根据所述统一资源定位符,获取所述目标图片特征包括:
根据所述统一资源定位符以及图片模板库,确定所述目标图片的模板特征,其中,所述图片模板库包括满足预定条件的图片,所述预定条件为所述图片在预定时间段内的所有文章中出现的次数大于目标阈值,所述模板特征用于指示所述统一资源定位符对应的图片是否在所述图片模板库;
根据所述模板特征以及所述目标图片的属性信息,获取所述目标图片特征。
4.根据权利要求3所述的方法,其特征在于,根据所述模板特征以及所述目标图片的属性信息,获取所述目标图片特征包括:
将所述目标图片输入特征提取模板,获取所述目标图片的属性信息,其中,所述特征提取模板用于提取图片的属性信息;
根据所述模板特征以及所述属性信息,获取所述目标图片特征。
5.根据权利要求3或4所述的方法,其特征在于,所述属性信息包括以下至少之一:用于指示所述目标图片大小的大小特征、用于指示所述目标图片的色情指数的色情特征、用于指示所述目标图片的广告指数的广告特征、用于指示所述目标图片包括的文字的指数的文字特征和用于指示所述目标图片是否包括二维码的二维码特征。
6.根据权利要求3所述的方法,其特征在于,在所述确定所述目标图片的模板特征之前,还包括:
获取历史媒体资源集合中第一样本媒体资源的第一图片的统一资源定位符和所述第一样本媒体资源对应的第一帐号标识;
使用所述第一图片的统一资源定位符和所述第一帐号标识,生成所述第一图片的第一标识;
在所述第一标识出现在所述历史媒体资源集合中的次数大于所述目标阈值的情况下,将所述第一图片和所述第一标识加入所述图片模板库。
7.根据权利要求6所述的方法,其特征在于,所述根据所述统一资源定位符以及图片模板库,确定所述目标图片的模板特征包括:
获取所述目标图片对应的目标帐号标识;
使用所述目标图片的统一资源定位符和所述目标帐号标识,生成所述目标图片的目标标识;
在确定所述目标标识在所述图片模板库中的情况下,确定所述目标图片的模板特征,其中,所述模板特征用于指示所述目标图片在所述图片模板库中。
8.根据权利要求1所述的方法,其特征在于,在所述使用目标模型对所述特征序列进行处理之前,还包括:
获取历史媒体资源集合中第一样本媒体资源的第一特征序列和所述第一样本媒体资源对应的第一目标类别;
使用所述第一特征序列和所述第一目标类别,通过机器学习对所述初始模型进行训练得到第一模型;
依次使用所述历史媒体资源集合中其他样本媒体资源的特征序列和所述其他样本媒体资源对应的目标类别,通过机器学习对所述第一模型进行训练得到目标模型。
9.根据权利要求1所述的方法,其特征在于,所述目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型包括:所述目标模型为使用样本媒体资源的特征序列通过长短期记忆网络LSTM算法对初始模型进行训练得到的模型。
10.根据权利要求1所述的方法,其特征在于,所述使用目标模型对所述特征序列进行处理,确定所述目标媒体资源为目标类别的媒体资源包括:
使用所述目标模型对所述特征序列进行处理,判断所述目标媒体资源是否为所述目标类别的媒体资源;
在判断结果为是的情况下,确定所述目标媒体资源为所述目标类别的媒体资源。
11.一种媒体资源的处理装置,其特征在于,包括:
第一获取单元,用于获取待推荐的目标媒体资源的特征序列,其中,所述特征序列包括所述目标媒体资源的目标图片特征和目标文字特征;
确定单元,用于使用目标模型对所述特征序列进行处理,确定所述目标媒体资源为目标类别的媒体资源,其中,所述目标模型为使用样本媒体资源的特征序列通过机器学习对初始模型进行训练得到的模型,所述样本媒体资源的特征序列包括样本媒体资源的图片特征和文字特征;
处理单元,用于对所述目标媒体资源进行处理。
12.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至10任一项中所述的方法。
13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。
CN201810411615.1A 2018-05-02 2018-05-02 媒体资源的处理方法和装置、存储介质及电子装置 Pending CN110209920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810411615.1A CN110209920A (zh) 2018-05-02 2018-05-02 媒体资源的处理方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810411615.1A CN110209920A (zh) 2018-05-02 2018-05-02 媒体资源的处理方法和装置、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN110209920A true CN110209920A (zh) 2019-09-06

Family

ID=67778833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810411615.1A Pending CN110209920A (zh) 2018-05-02 2018-05-02 媒体资源的处理方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110209920A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672783A (zh) * 2021-08-11 2021-11-19 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281622A (zh) * 2013-07-11 2015-01-14 华为技术有限公司 一种社交媒体中的信息推荐方法和装置
WO2016062183A1 (zh) * 2014-10-20 2016-04-28 北京金山安全软件有限公司 一种媒体内容推荐方法和装置
CN105791910A (zh) * 2016-03-08 2016-07-20 北京四达时代软件技术股份有限公司 一种多媒体资源推送系统及方法
CN106296312A (zh) * 2016-08-30 2017-01-04 江苏名通信息科技有限公司 基于社交媒体的在线教育资源推荐系统
CN106528813A (zh) * 2016-11-18 2017-03-22 腾讯科技(深圳)有限公司 一种多媒体推荐方法和装置
CN106897454A (zh) * 2017-02-15 2017-06-27 北京时间股份有限公司 一种文件分类方法及装置
CN107506414A (zh) * 2017-08-11 2017-12-22 武汉大学 一种基于长短期记忆网络的代码推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281622A (zh) * 2013-07-11 2015-01-14 华为技术有限公司 一种社交媒体中的信息推荐方法和装置
WO2016062183A1 (zh) * 2014-10-20 2016-04-28 北京金山安全软件有限公司 一种媒体内容推荐方法和装置
CN105791910A (zh) * 2016-03-08 2016-07-20 北京四达时代软件技术股份有限公司 一种多媒体资源推送系统及方法
CN106296312A (zh) * 2016-08-30 2017-01-04 江苏名通信息科技有限公司 基于社交媒体的在线教育资源推荐系统
CN106528813A (zh) * 2016-11-18 2017-03-22 腾讯科技(深圳)有限公司 一种多媒体推荐方法和装置
CN106897454A (zh) * 2017-02-15 2017-06-27 北京时间股份有限公司 一种文件分类方法及装置
CN107506414A (zh) * 2017-08-11 2017-12-22 武汉大学 一种基于长短期记忆网络的代码推荐方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672783A (zh) * 2021-08-11 2021-11-19 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法
CN113672783B (zh) * 2021-08-11 2023-07-11 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法

Similar Documents

Publication Publication Date Title
CN108108821A (zh) 模型训练方法及装置
CN110009401A (zh) 基于用户画像的广告投放方法、装置和存储介质
CN106651057B (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN109598576A (zh) 服务推荐方法、装置及设备
CN110276446A (zh) 模型训练和选择推荐信息的方法和装置
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN108510303A (zh) 广告投放方法及装置
CN110472154A (zh) 一种资源推送方法、装置、电子设备及可读存储介质
CN112380859A (zh) 舆情信息的推荐方法、装置、电子设备及计算机存储介质
CN109492122A (zh) 商家信息的获取方法、装置、终端及计算机可读存储介质
CN106339507A (zh) 流媒体消息推送方法和装置
CN113688326B (zh) 推荐方法、装置、设备及计算机可读存储介质
CN109903172A (zh) 理赔信息提取方法和装置、电子设备
CN113592605B (zh) 基于相似产品的产品推荐方法、装置、设备及存储介质
CN110020878A (zh) 一种广告的推送方法、服务器和系统
CN110162609A (zh) 用于向用户推荐咨询问题的方法及装置
CN108717519B (zh) 一种文本分类方法及装置
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN110083774A (zh) 应用推荐列表的确定方法、装置、计算机设备及存储介质
CN112559923A (zh) 网址资源推荐方法、装置、电子设备及计算机存储介质
CN112288554A (zh) 商品推荐方法和装置、存储介质及电子装置
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
CN109146606B (zh) 一种品牌推荐方法、电子设备、存储介质及系统
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN110209920A (zh) 媒体资源的处理方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221214

Address after: 35F, Tencent Building, Keji Zhongyi Road, Nanshan District, Shenzhen, Guangdong 518100

Applicant after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.