CN110325986B - 文章处理方法、装置、服务器及存储介质 - Google Patents

文章处理方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110325986B
CN110325986B CN201780054780.XA CN201780054780A CN110325986B CN 110325986 B CN110325986 B CN 110325986B CN 201780054780 A CN201780054780 A CN 201780054780A CN 110325986 B CN110325986 B CN 110325986B
Authority
CN
China
Prior art keywords
promotion
article
target
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780054780.XA
Other languages
English (en)
Other versions
CN110325986A (zh
Inventor
周莜
徐澜
谢奕
阳丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of CN110325986A publication Critical patent/CN110325986A/zh
Application granted granted Critical
Publication of CN110325986B publication Critical patent/CN110325986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于自媒体平台的文章处理方法、装置、服务器及存储介质,方法包括:接收客户端发送的目标文章,其中,所述客户端用于连接所述自媒体平台,所述目标文章由所述自媒体平台的用户通过所述客户端提交;在所述目标文章中确定用于呈现推广信息的推广文章、以及所述推广文章中用于添加推广信息的推广位置;在存储于所述自媒体平台的候选推广对象中确定目标推广对象、以及与所述目标推广对象匹配的素材;根据所确定的与所述目标推广对象匹配的素材生成推广信息;根据所确定的所述推广位置,将所述推广信息添加到所述推广文章中相应的推广位置;发送添加有所述推广信息的所述推广文章。

Description

文章处理方法、装置、服务器及存储介质
技术领域
本发明涉及通信技术,尤其涉及一种基于自媒体平台的文章处理方法、装置、服务器及存储介质。
背景技术
随着互联网特别移动互联网的发展,微博、博客和公众号等自媒体平台成为人们普遍使用的社交途径,在自媒体平台中针对产品或服务等推广对象的宣传,成为推广商品、服务等各种推广对象的普遍使用的技术手段。
在自媒体平台中发布的文章承载了用户表达情绪、传播信息和社交的诉求,相关技术提供在文章中添加推广信息的方案,当文章触达用户并被观看时,文章中添加的推广信息在用户观看文章的过程中呈现,实现宣传推广对象的效果。
对于在文章中添加推广信息,相关技术采用的一种技术方案是,将用户在自媒体平台发表的文章中添加推广信息,然后向用户推送添加有推广信息的文章,这种技术方案对于用户阅读文章过程中的感知造成很大的干扰,导致发布文章的用户接受度下降,进而影响对象推广的效果;
另外,相关技术还采用的一种技术方案是,在自媒体平台开设专用的账号,通过账号发布各种推广信息的文章,由于这种专用账号在发布时的访问流量具有很大的波动性,特别是在账号创建的初期,难以支撑宣传推广对象的时效性和覆盖特定用户群体的需求。
发明内容
有鉴于此,本发明实施例期望提供一种基于自媒体平台的文章处理方法、装置、服务器及存储介质,能够实现推广信息在自媒体文章的理想的融合,以及推广信息触达用户的良好时效性。
为达到上述目的,本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种基于自媒体平台的文章处理方法,包括:
接收客户端发送的目标文章,其中,所述客户端用于连接自媒体平台,所述目标文章由所述自媒体平台的用户通过所述客户端提交;
在所述目标文章中确定用于呈现推广信息的推广文章、以及所述推广文章中用于添加推广信息的推广位置;
在存储于所述自媒体平台的候选推广对象中确定目标推广对象、以及与所述目标推广对象匹配的素材;
根据所确定的与所述目标推广对象匹配的素材生成推广信息;
根据所确定的所述推广位置,将所述推广信息添加到所述推广文章中相应的推广位置;
发送添加有所述推广信息的所述推广文章。
第二方面,本发明实施例提供一种基于自媒体平台的文章处理方法,所述方法由服务器执行,所述服务器包括有一个或多个处理器以及存储器,以及一个或一个以上的程序,其中,所述一个或一个以上的程序存储于存储器中,所述程序可以包括一个或一个以上的每一个对应于一组指令的单元,所述一个或多个处理器被配置为执行指令;所述方法包括:
接收客户端发送的目标文章,其中,所述客户端用于连接所述自媒体平台,所述目标文章由所述自媒体平台的用户通过所述客户端提交;
在所述目标文章中确定用于呈现推广信息的推广文章、以及所述推广文章中用于添加推广信息的推广位置;
在存储于所述自媒体平台的候选推广对象中确定目标推广对象、以及与所述目标推广对象匹配的素材;
根据所确定的与所述目标推广对象匹配的素材生成推广信息;
根据所确定的所述推广位置,将所述推广信息添加到所述推广文章中相应的推广位置;
发送添加有所述推广信息的所述推广文章。
第三方面,本发明实施例还提供一种基于自媒体平台的文章处理装置,包括:
接收单元,配置为接收客户端发送的目标文章,其中,所述客户端用于连接所述自媒体平台,所述目标文章由所述自媒体平台的用户通过所述第一客户端提交;
确定单元,配置为在所述目标文章中确定用于呈现推广信息的推广文章、以及所述推广文章中用于添加推广信息的推广位置;
以及,配置为在存储于所述自媒体平台的候选推广对象中确定目标推广对象、以及与所述目标推广对象匹配的素材;
生成单元,配置为根据所确定的与所述目标推广对象匹配的素材生成推广信息;
添加单元,配置为根据所确定的所述推广位置,将所述推广信息添加到所述推广文章中相应的推广位置;
发送单元,配置为发送添加有所述推广信息的所述推广文章。
第四方面,本发明实施例还提供一种服务器,包括:
存储器,配置为存储可执行程序;
处理器,配置为执行所述存储器中存储的可执行程序时,实现上述基于自媒体平台的文章处理方法。
第五方面,本发明实施例还提供一种存储介质,存储有可执行程序,所述可执行程序被处理器执行时,实现上述的基于自媒体平台的文章处理方法。
应用本发明上述实施例具有以下有益效果:
目标文章的来源可以来自社交网络中任意一个用户终端,打破了靠征集特定主题的文章的局限性,可实现推广信息的批量化和自动化添加;自动实现推广信息的位置的选定,位置灵活,能够避免推广信息的出现突兀,使得文章内容与推广信息的内容衔接自然;通过文章发布以及触达用户的过程完成推广信息的传递,依赖自媒体平台自身的发布/发送流量实现了推广信息,推广信息得以覆盖自媒体平台的访问流量并实时触达用户。
附图说明
图1A为本发明实施例提供的基于自媒体平台的文章处理方法的一个可选的应用场景示意图;
图1B为本发明实施例提供的基于自媒体平台的文章处理方法的一个可选的应用场景示意图;
图2A为本发明实施例提供的推广文章的一种可选的呈现方式示意图;
图2B为本发明实施例提供的推广文章的一种可选的呈现方式示意图;
图2C为本发明实施例提供的推广文章的一种可选的呈现方式示意图;
图3为本发明实施例提供的基于自媒体平台的文章处理装置的一个可选的硬件结构示意图;
图4为本发明实施例提供的基于自媒体平台的文章处理方法的一个可选的流程示意图;
图5A为本发明实施例提供的利用关键字-主题分类器进行主题预测的示意图;
图5B为本发明实施例提供的利用文本-文本相似度分类器进行相似度计算的示意图;
图5C为本发明实施例提供的利用图像-图像相似度分类器进行相似度计算的示意图;
图5D为本发明实施例提供的利用文本-图像相似度分类器进行相似度计算的示意图;
图6A为本发明实施例提供的文字素材的一个可选的示意图;
图6B为本发明实施例提供的文字素材的一个可选的示意图;
图7A为本发明实施例提供的在推广文章中添加推广信息的示意图;
图7B为本发明实施例提供的在推广文章中添加推广信息的示意图;
图7C为本发明实施例提供的在推广文章中添加推广信息的示意图;
图8为本发明实施例提供的推广信息的示意图;
图9A为本发明实施例提供的推广信息的显示方式的示意图;
图9B为本发明实施例提供的推广信息的显示方式的示意图;
图9C为本发明实施例提供的推广信息的显示方式的示意图;
图10为本发明实施例提供的基于自媒体平台的文章处理方法的一个可选的流程示意图;
图11为本发明实施例提供的基于自媒体平台的文章处理方法的一个可选的流程示意图;
图12为本发明实施例提供的基于自媒体平台的文章处理装置的组成结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本发明,并不用于限定本发明。另外,以下所提供的实施例是用于实施本发明的部分实施例,而非提供实施本发明的全部实施例,在不冲突的情况下,本发明实施例记载的技术方案可以任意组合的方式实施。
需要说明的是,在本发明实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,这里的单元可以是部分电路、部分处理器、部分程序或软件等等)。
例如,本发明实施例提供的基于自媒体平台的文章处理方法包含了一系列的步骤,但是本发明实施例提供的基于自媒体平台的文章处理方法不限于所记载的步骤,同样地,本发明实施例提供的基于自媒体平台的文章处理装置包括了一系列单元,但是本发明实施例提供的装置不限于包括所明确记载的单元,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的单元。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)自媒体平台,也称为自媒体,互联网中设置的用于供用户(包括个人用户、团体和组织等)发布文章的信息平台,依赖于服务器以及在服务器部署的实现自媒体功能的相关软件(支持前端访问和后台处理);自媒体平台如微博、博客、个人网站、论坛社区和各种社交应用的公众号等。
自媒体平台的账户可以是个人、组织、团体和企业等不同类型,通过注册自媒体的账户以后,在客户端提交的新闻、动态等与用户自身的偏好、动态或业务相关的文章,通过客户端经由自媒体平台推送到合适的用户。
2)文章,用于在自媒体平台发布的文章,文章的内容包括文字和图片的一种或组合。
3)推广信息,针对推广对象进行宣传的适用于在互联网进行传播的各种类型的信息,推广信息中所宣传的对象称为推广对象,例如广告。
4)词向量,利用词到向量的映射模型如词到向量(Word2Vector),根据不同词之间的语义的近似程度,将词映射到向量空间中而得到的向量,不同词向量之间的距离与对对应的词在语义上的近似度程度负相关,即两个词的词向量的距离(如欧式距离)越小,则这两个词的语义越接近。
5)主题特征,将表示主题的关键字映射成相应的词向量,并进行组合得到,也称主题特征向量。
6)内容特征,将从文章中提取的多个特征词映射成相应的词向量,并进行组合得到,也称内容特征向量。
7)分词,又称为切词,按照一定的分词策略指的是将文章中的字符分割为单独的词。
8)停用词,从文章中过滤的对文章的分类决策不会产生影响的词;通常通用词不具有明确意义(只有将其放入一个完整的句子中才有一定作用),例如,代词、冠词和数词、语气助词、副词、介词和连词等功能词。
9)特征词,对文章进行分词后,从文章中过滤停用词后,从剩余的词中提取得到的可以表示文章主题的词。
10)分类器模型,也称为分类器,即通过机器学习的方式获得的用于分类的模型,用于根据文章的样本特征,预测文章是目标类别的文章的得分用以表示文章是目标类别的概率。
例如,本文中分类器模型可以采用支持向量机(SVM,Support Vector Machines)的二分类器模型、基于词袋(BOW,Bag of Words)的分类器模型、基于先验概率和稀疏特征的分类器模型、基于神经网络和深度学习的分类器模型等类别的分类器模型,如无特别说明,本文中所记载的分类器模型用于二分类,如判断是否属于一个主题,判断文章是否属于目标类别。
11)机器学习(ML,Machine Learning),通过对训练集的文章样本(简称为样本)进行样本特征和是否属于目标类别(如美妆类文章)的标记,对分类器模型进行训练,使训练后的分类器模型具有对测试集的文章样本判断是否属于目标类别的性能。
12)训练集,包括训练分类器模型的文章,文章的向量表示和先验的分类结果用于构造训练样本以训练分类器模型,使分类器模型具有对待测试文章就目标类别进行二分类的性能。
13)测试集,包括待测试(分类)的文章,文章的向量表示用于输入分类器模型以预测属于目标类别的得分。
本发明实施例提供基于自媒体平台的文章处理方法、实施基于自媒体平台的文章处理方法的基于自媒体平台的文章处理装置、以及存储用于实现基于自媒体平台的文章处理方法的可执行程序的存储介质。就基于自媒体平台的文章处理方法的实施而言,本发明实施例提供终端侧实施和服务器侧实施的方案,接下来将对文章处理的示例性实施场景进行说明。
图1A及图1B为本发明实施例提供的基于自媒体平台的文章处理方法的可选的应用场景示意图,如图1A、图1B所示,在本发明实施例中,用户终端不限于手机、平板电脑、PC机等类型,服务器可以采用任何商用或专用的服务器,在本发明实施例中,基于服务器实现的功能的不同,将其划分为两类,分别为社交网络服务器21及广告后台服务器22,而在实际应用中,每类服务器均可以依据实际情况设置一个或多个。用户终端11至用户终端15可通过有线网络、无线网络或二者的组合与社交网络服务器21及广告后台服务器22进行信息交互,各个用户终端之间可以通过服务器进行信息(如文章)收发、广告投放等。以下结合图1A及图1B对本发明实施例的文章处理方法进行说明,需要说明的是,图1A及图1B所示的网络仅仅是一种示例,以便于理解,而不对本发明的网络架构构成任何限制。
参见图1A,在一些实施例中,广告后台服务器22从广告主终端处获取携带推广信息(如广告)的推广文章,然后将推广文章发送至社交网络服务器21,以通过社交网络服务器21将携带推广信息的推广文章发送至社交网络,使得社交网络用户得以接收和阅读携带推广信息的推广文章。
其中,上述携带推广信息的推广文章可以为,广告商为广告主针对特定人群(如公众号用户)或特定商品(如某指定洗发水)、针对每个商品或特定人群逐个撰写用于推广的文章(也称为软文),可以包括文本和/或图片的形式,将广告和文章内容融合在一起。
以社交网络服务器21承载公众号功能为例,参见图2A,图2A为本发明实施例提供的推广文章的一种可选的呈现方式示意图,广告商为广告主针对公众号用户(即通过社交网络客户端关注了公众号的用户)进行软文撰写,然后广告主将软文发送至广告后台服务器22,广告后台服务器22通过社交网络服务器21将软文发送至关注公众号的用户的终端,如图2A所示,用户在访问公众号的过程中,通过点击界面1中任意位置跳转到界面2,既看到了自身关注的内容,也了解了广告主发布的广告。
然而,上述实现方式的人力成本很高,需要针对不同的广告主撰写相应的文章,无法做到规模化和批量化,同时由于专门撰写软文导致无法满足实时推广的需求。
参见图1A,在一些实施例中,社交网络服务器21从用户处获取针对特定主题征集的文章,然后将征集的文章发送至广告后台服务器22,广告后台服务器22在征集的文章中添加推广信息(如广告),通过社交网络服务器21将添加有推广信息的文章发送至社交网络,使得社交网络用户得以接收和阅读添加推广信息的推广文章。
以社交网络服务器21承载公众号功能为例,参见图2B,图2B为本发明实施例提供的推广文章的一种可选的呈现方式示意图,公众号发起特定主题(如情人节)的征文活动,承载公众号功能的社交网络服务器21获得参与该活动的用户发送的文章,将获得的文章发送至广告后台服务器22,广告后台服务器22在文章的文末添加广告,得到添加广告的推广文章,将推广文章发送至社交网络服务器21,通过公众号将推广文章发送至社交网络,社交网络用户通过点击界面1中任意位置跳转到界面2,进行文章内容及添加广告的阅读。
然而,上述实现方式的文章来源由于依赖于向用户征集文章因而存在较大的局限性,仅限于征集的特定主题的用户原创内容(UGC,User Generated Content)文章,且广告内容以展示为主,用户无法针对展示的广告进一步进行操作,降低了用户对广告产品的购买率及了解欲望。
参见图1A,在一些实施例中,社交网络服务器21从用户处获取待发布的文章,然后将获取的文章发送至广告后台服务器22,广告后台服务器22在文章的特定位置添加与文章主题相关的推广信息(如广告)得到推广文章,通过社交网络服务器21将推广文章发送至社交网络。
以社交网络服务器21承载新闻发布平台功能为例,参见图2C,图2C为本发明实施例提供的推广文章的一种可选的呈现方式示意图,社交网络服务器21从新闻发布平台的运营用户终端侧获取待发布的文章,然后将获取的文章发送至广告后台服务器22,广告后台服务器22在文章的结束添加与文章主题相关的广告得到推广文章,将推广文章发送至社交网络服务器21,通过新闻发布平台将推广文章发送至社交网络,用户通过点击界面1中任意位置跳转到界面2,得以看到添加了广告的推广文章。
然而,上述实现方式中,虽然文章中添加的广告与文章主题的契合度较高,然而由于添加位置固定,使得广告与文章内容的结合生硬,出现推广信息与文章中内容关联性不高甚至毫无关联的情况,降低了推广信息的接受度。
参见图1B,在一些实施例中,本发明实施例基于自媒体平台的文章处理方法的实现可以包括:承载有自媒体平台功能的社交网络服务器21接收自媒体平台的用户通过连接自媒体平台的第一客户端提交的待发布文章,将待发布文章发送给广告后台服务器22;广告后台服务器22在待发布文章中,确定用于呈现推广信息的推广文章、以及推广文章中用于添加推广信息的推广位置;社交网络服务器21确定候选推广对象中与推广文章匹配的目标推广对象、以及与目标推广对象匹配的素材;根据确定的推广位置,添加包括素材的推广信息至推广文章的推广位置;将添加有推广信息的推广文章发送给社交网络服务器21,社交网络服务器21发送添加推广信息的推广文章至自媒体平台的第二客户端进行呈现。
参见图1B,在一些实施例中,本发明实施例基于自媒体平台的文章处理方法的实现可以包括:承载有自媒体平台功能的社交网络服务器21接收自媒体平台的用户通过连接自媒体平台的第一客户端提交的目标文章;社交网络服务器21从广告后台服务器22处获得候选推广对象或者获得自身存储的候选推广对象,而自身存储了候选推广对象的素材,在目标文章中确定用于呈现推广信息的推广文章、以及推广文章中用于添加推广信息的推广位置;社交网络服务器21确定候选推广对象中与推广文章匹配的目标推广对象、以及与目标推广对象匹配的素材;根据确定的推广位置,添加包括素材的推广信息至推广文章的推广位置;发送添加推广信息的推广文章至自媒体平台的第二客户端进行呈现。其中,客户端提交的目标文章可以包括待发布文章及原始文章;这里的原始文章指已经通过自媒体平台被发布过又被撤回的文章。
接下来根据图3说明实现本发明实施例的基于自媒体平台的文章处理方法对应的装置的示例性的硬件结构,基于自媒体平台的文章处理装置可以以各种形式来实施,例如终端(如台式机电脑、笔记本电脑或智能手机)、服务器等各种类型的计算机设备,由终端、服务器等计算机设备采用独立或协同的方式实现本发明实施例的基于自媒体平台的文章处理方法。下面对本发明实施例的基于自媒体平台的文章处理装置的硬件结构做详细说明,可以理解,图3仅仅示出了基于自媒体平台的文章处理装置的示例性结构而非全部结构,根据需要可以实施图3示出的部分结构或全部结构。
参见图3,图3为本发明实施例提供的基于自媒体平台的文章处理装置的一个可选的硬件结构示意图,可以应用于前述应用场景中的服务器,如可以为微博/微信的后台服务器;自媒体网站的后台服务器,图3所示的文章处理装置100包括:至少一个处理器101、存储器102、至少一个网络接口103。文章处理装置100中的各个组件通过总线系统104耦合在一起。可以理解,总线系统104用于实现这些组件之间的连接通信。总线系统104除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统104。
其中,存储器102可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。
本发明实施例中的存储器102用于存储各种类型的数据以支持基于自媒体平台的文章处理装置100的操作。这些数据的示例包括:用于在基于自媒体平台的文章处理装置100上操作的任何计算机程序,如可执行程序1021,实现本发明实施例的基于自媒体平台的文章处理方法的程序可以包含在可执行程序1021中。
网络接口103可以包括一个或多个通信模块,如包括移动通信模块及无线互联网模块。
本发明实施例揭示的基于自媒体平台的文章处理方法可以应用于处理器101中,或者由处理器101实现。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,本发明实施例方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器(DSP,DigitalSignal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器101可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成本发明实施例提供的上述基于自媒体平台的文章处理方法的步骤。
在示例性实施例中,基于自媒体平台的文章处理装置100可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex ProgrammableLogic Device),用于执行本发明实施例的基于自媒体平台的文章处理方法。
基于上述基于自媒体平台的文章处理方法的应用场景及基于自媒体平台的文章处理装置,接下来对本发明实施例的基于自媒体平台的文章处理方法的实现过程进行说明。
作为上述基于自媒体平台的文章处理方法的一个可选实施例,本发明实施例可将基于自媒体平台的文章处理装置实施为信息推广平台功能的广告后台服务器进行说明,广告后台服务器通过社交网络服务器接收来自自媒体平台客户端的待发布文章,确定待发布文章中的推广文章,获取候选推广对象信息,确定目标推广对象,以及与目标推广对象对应的素材,并生成包括素材的推广信息,确定推广文章中呈现推广信息的推广位置,将推广信息添加至推广文章中的推广位置,并将添加了推广信息的推广文章,通过社交网络服务器发送至自媒体平台的客户端呈现。当然,基于自媒体平台的文章处理装置也可以实施到其他应用环境中,例如新闻推送APP的后台服务器、自媒体网站的后台服务器、信息推广平台的服务器等,本文不排除基于自媒体平台的文章处理装置实施为提供自媒体平台功能的任意应用环境。
作为上述基于自媒体平台的文章处理方法的另一个可选实施例,图4示出了本发明实施例提供的基于自媒体平台的文章处理方法的一个可选的流程示意图,参见图4,本发明实施例将以基于自媒体平台的文章处理装置实施为部署自媒体平台功能的社交网络服务器进行说明,本发明实施例提供的基于自媒体平台的文章处理方法包括:
步骤301:发布者通过自媒体平台的第一客户端发送待发布文章给社交网络服务器。
待发布文章可以为待于自媒体平台(如微博、公众号、论坛社区等)发布的文章。
社交网络服务器承载有自媒体平台(如微博、公众号、QQ空间、论坛社区等)功能,社交网络可以为基于微博、公众号等可以供用户发布文章的互联网社交实体,文章的发布者可以为社交网络中的任意用户,用户基于终端上的自媒体平台的客户端完成文章的撰写后,将待发布的文章发送至社交网络服务器,以通过社交网络服务器发送至自媒体平台的客户端进行呈现。如此,利用自媒体平台自发的关于文章的流量作为推广信息的载体,即文章的来源可以来自社交网络中任意一个用户终端,打破了靠征集特定主题的文章的局限性。
示例性地,公众号运营用户作为文章的发布者,可以通过客户端提交文章,例如可以是用户撰写的关于心情、美食、化妆等主题进行分享的文章,也可以是从互联网中下载的与上述主题相关的文章,将待发布文章由客户端发送至承载有公众号功能的社交网络服务器,以通过社交网络服务器将文章发送至关注公众号的用户。
再如,微博用户作为发布者,待发布文章通过微博客户端发送至承载有微博功能的社交网络服务器,社交网络服务器将文章发送关注发布者的微博账号的用户。
在一个实施例中,社交网络服务器接收了发布者终端发送的待发布文章后,可以直接将待发布文章发送至社交网络的其他用户,也可以对待发布文章进行推广信息的合成处理,以进行合成有推广信息的文章的发布。
下面结合步骤302至步骤305,对社交网络服务器对待发布文章进行推广信息的合成处理进行说明。
步骤302:社交网络服务器在待发布文章中,确定用于呈现推广信息的推广文章、以及推广文章中用于添加推广信息的位置。
当推广信息为广告时,其中可能存在不适合进行广告添加的文章,如学术性文章,因此需要对待发布文章进行筛选,确定能够呈现(添加)广告的文章,即推广文章。
在一些实施例中,社交网络服务器可以通过广告后台服务器获取候选推广对象,且自身存储了候选推广对象的素材信息,社交网络服务器可以通过如下方式确定用于呈现推广信息的推广文章:
将待发布文章的主题与候选推广对象表示的主题进行主题相似度计算,将满足主题相似度条件(如相似度超过预设主题相似度阈值)的待发布文章确定为用于呈现推广信息的推广文章。
在一实施例中,分别将表征文章及候选推广对象的主题的特征词输入预设的学习模型(如word2vec),经该学习模型映射得到对应文章主题及候选推广对象的主题特征向量,然后计算文章的主题特征向量与候选推广对象的主题特征向量之间的相似度,选取相似度超过相似度阈值的文章作为推广文章。例如,可通过如下方式实现待发布文章的主题特征与候选推广对象的主题特征的主题相似度计算:将从待发布文章提取的关键词,输入根据特征词进行主题分类的分类器模型,获得分类器模型计算输出的待发布文章对应的主题;将从候选推广对象的素材提取的关键词,输入根据特征词进行主题分类的分类器模型,获得候选推广对象对应的主题;根据待发布文章所对应主题与候选推广对象所对应主题的语义距离,确定与语义距离负相关关系的主题相似度。例如,计算发布文章所对应主题向量与候选推广对象所对应主题向量的欧式距离,然后计算其倒数,作为主题相似度。
在一些实施例中,可依据预设的分类标准对文章及候选推广对象的主题进行等级设置,如按照等级层次由高到低设置为第一级主题、第二级主题及第三级主题;其中,每个等级的主题可以包括其下一级的多个主题,举例说明:第一级主题可以为军事、体育、娱乐、财经,以第一级主题为娱乐为例,其可以包括美食、旅游、电影和音乐等多个第二级主题,以第二级主题为音乐为例,其可以包括爵士音乐、古典音乐等多个第三级主题。
相应的,在一实施例中,社交网络服务器将待发布文章的主题划分到对应的第一级主题,计算待发布文章的第一级主题与候选推广对象的第一级主题的相似度,当相似度满足相似度条件(例如超出第一级主题的主题相似度阈值)时,确定待发布文章为用于呈现推广信息的推广文章。也就是说,基于第一级主题特征对待发布文章进行粗略筛选,得到推广文章,然而在另一些实施例中,亦可基于第二级主题或第三级主题对文章进行筛选得到推广文章,但由于第一级主题包括多个第二级主题及多个第三级主题,也即第一级主题对应的特征向量维度低于第二/第三级主题对应的特征向量的维度,而社交网络服务器接收的自媒体平台中的文章流量很大,因此采用第一级主题进行文章的筛选显然要比基于第二/第三级主题进行筛选速度要快,即快速判断出可以添加推广信息的推广文章,减少网络延迟。
在一实施例中,将待发布文章的主题划分到第一级主题的方式与划分到第二级主题、第三级主题的方式类似,均可通过对应等级的分类器实现,作为使用分类器的示例,通过提取文章的特征(文本特征、图像特征至少之一),将提取的特征通过预设的学习模型映射得到相应的特征向量,将得到的文章的特征向量输入不同等级的分类器,映射得到相应等级的主题;例如将提取的文章的特征词输入预设的word2vec模型,得到相应的多个维度的特征向量,将得到的多个维度的特征向量输入第一级分类器,得到对应的第一级主题。例如,将得到的文章的多个维度的特征向量输入第一级分类器后输出得到的第一级主题为体育的概率为10%、为娱乐的概率为80%、为财经的概率为5%,选取概率最高的“娱乐”作为最终的第一级主题。
在一些实施例中,不同等级分类器的获取可通过以下方式之一得到:
1)有监督的学习方法,如采用人工标注文本和/或图片对应若干个主题,并用标注数据的特征(文本和/或图片特征)训练一个特定等级的特征-主题分类器模型,通过训练得到的特征-主题分类器实现相应等级的主题的映射。
2)无监督的学习方法,对文章的文本和/或图片特征进行聚类,得到对应文章的主题。
候选推广对象可以为从推广系统(如广告后台服务器)处获得的优先级排序(如竞价排名)在前的一定数量的推广对象。
在一些实施例中,社交网络服务器还可以通过如下方式确定用于呈现推广信息的推广文章:
社交网络服务器将待发布文章的主题,与候选推广对象的名称、所属类别和对应的推广信息关键字至少之一进行匹配,确定满足匹配条件(即满足相似度条件,如相似度达到阈值)的文章为用于呈现推广信息的推广文章。其中,上述待发布文章的主题可以为以下两种之一:
1)待发布文章的关键字;
例如,关键字可以包括:从文章标题或文章内容(如文章的每个段落)中提取的关键字;例如:待发布的文章的标题为“青岛美食剖析”,提取得到关键字为“美食”。
2)利用关键字-主题模型对文章进行主题预测得到的主题;
图5A为本发明实施例提供的利用关键字-主题分类器模型进行主题预测的示意图,参见图5A,关键字-主题模型可以为预先进行训练得到的分类器模型,实现了文章关键字与文章主题的关系映射,两个或两个以上的关键字通过关键字-主题分类器映射得到文章的主题。例如:关键字为从文章内容中提取得到的关键字为“糖”、“饼干”、“方便面”、“巧克力”,将这些关键字对应的向量输入关键字-主题模型,对主题进行预测,可得到主题为“食品”的概率为80%,得到主题为“娱乐”的概率为3%,选取概率最大的结果(食品)作为预测得到的文章的主题。
接下来对本发明实施例中的候选推广对象进行说明,候选推广对象可以为服务(如电影、游戏等)或产品(如化妆品、衣服、鞋等);以候选推广对象是服务为例,候选推广对象对应的名称、所属类别和推广信息关键字可以为服务对应的服务名称(如电影名称)、服务类别(如电影)、广告词(如“谁说汽车不能飞-XXX”);以候选推广对象是产品为例,候选推广对象对应的名称、所属类别和推广信息关键字可以为产品对应的产品名称(如女装品牌-XX)、产品类别(如衣服)、广告词(如“来自法兰西的浪漫、时尚服饰-XX”)。
基于上述对文章的主题、候选推广对象等的说明,在一些实施例中,将待发布文章的主题,与推广对象的名称、所属类别和对应的推广信息关键字至少之一进行匹配时,可以通过以下方式之一确定用于呈现推广信息的推广文章:
1)候选推广对象的名称、所属类别和对应的推广信息关键字至少之一所对应的内容,包括了待发布文章的主题;例如:若候选推广对象对应的推广信息关键字为:水果王后-山竹,待发布的文章的主题为:水果,则确定该待发布的文章满足匹配条件;
2)分别计算候选推广对象的名称、所属类别和对应的推广信息关键字与待发布文章的主题的相似度,当计算得到的三个相似度值至少之一超过预设的相似度阈值时,确定待发布文章满足匹配条件。
在确定了用于呈现推广信息的推广文章之后,接下来对推广文章中用于添加推广信息的推广位置进行说明。
在一些实施例中,可以通过如下方式确定推广文章中用于添加推广信息的推广位置:根据推广文章包括的主题特征,在推广文章中确定具有所包括的主题特征的段落;当所述段落所包括的主题特征与推广信息的主题特征满足主题相似度条件时,确定对应该段落的位置为用于添加推广信息的推广位置。
推广文章包括的主题可以有一个或一个以上,不同的主题可分布于推广文章的不同段落中,对应不同段落的位置(对应不同主题的位置)可以为文章的中间位置、文章的结束位置、或相邻两个主题(段落)交接的位置;例如:当推广文章仅包含一个主题,该主题特征与推广信息的主题特征满足主题相似度条件,对应包括该主题的段落的位置(文章的结束位置)为推广位置;当推广文章包含两个或两个以上的主题,多个主题分布在不同的段落中,当多个主题特征中至少之一与推广信息的主题特征满足主题相似度条件时,将满足主题相似度条件的主题特征所在的段落与相邻段落交接的位置作为推广位置。如此,自动实现推广信息的位置的选定,位置灵活,能够避免推广信息的出现突兀,使得文章内容与推广信息的内容衔接自然,易于在用户在阅读文章的过程中接受。
在一些实施例中,还可以通过如下方式确定推广文章中用于添加推广信息的推广位置:当在推广文章中相邻段落之间的位置添加推广信息时,根据所述推广文章的内容样式中相同类型的内容是否被所述推广信息分割,和/或所述推广信息在所述内容样式中所占用的显示比例,确定相应的完整度;当完整度满足预设的完整度条件时,确定该相邻段落之间的位置为添加推广信息的推广位置。
示例性地,当在推广文章可以添加推广信息的位置(即候选位置,例如,任意两个段落的中间位置)添加推广信息后,根据文章的内容样式中相同类型的内容是否被推广信息分割,确定内容样式的完整度,如果相同类型的内容被推广信息分割,则内容样式被破坏,相应的完整度为0;若文章的内容样式中相同类型的内容未被推广信息分割时,则内容样式仍然完整,对应的完整度为1,候选位置符合完整度条件从而能够作为推广位置。
例如,若推广文章的内容样式仅包含文本,则为了保证文章中内容样式的完整性,可令文章内容的结束位置作为用于添加推广信息(广告)的推广位置,从而文章的内容样式不会被破坏。
又例如,若推广文章的内容样本除了包括文本,还包含多个类别或多个图片时,可以令每一类或每一个图片的结束位置作为用于添加推广信息的推广位置;如此,可以使得在文章的中间位置添加推广信息时对文章内容样式的影响最小,形成推广信息在文章中理想的融入度。
示例性地,当在推广文章可以添加推广信息的位置(即候选位置,例如,任意两个段落的中间位置)添加推广信息后,根据推广信息在文章的内容样式中所占用的显示比例确定对应的完整度,占用的显示比例越大则对应的内容完整度越小,二者具有负相关的关系(可以采用反比例关系);当完整度小于完整度阈值时,说明候选位置不符合完整度条件。
在实际实施时,社交网络服务器确定了用于呈现推广信息的推广文章以及推广文章中用于添加推广信息的推广位置后,需要确定与推广文章匹配的目标推广对象;目标推广对象对应的素材用于生成推广信息;即执行步骤303:社交网络服务器确定与推广文章匹配的目标推广对象。
基于本发明上述实施例,与推广文章匹配的目标推广对象可以有一个或多个,可通过如下方式确定与推广文章匹配的目标推广对象:将推广文章的内容特征与候选推广对象的内容特征进行内容相似度计算,将满足内容相似度条件的候选推广对象确定为目标推广对象。
在一实施例中,社交网络服务器可通过如下方式确定与推广文章匹配的目标推广对象:社交网络服务器可从广告后台服务器处获得待推广的多个推广对象,然后对获得的多个推广对象进行首次筛选得到与推广文章匹配的候选推广对象集合,然后对得到的候选推广对象进行二次筛选得到与推广文章匹配的目标推广对象。
例如,社交网络服务器确定与推广文章的主题满足主题相似度条件的候选推广对象,形成候选推广对象集合,完成一次筛选;然后确定候选推广对象集合中各候选推广对象与推广文章关于至少一个类型特征的相似度,特征包括图像特征和文本特征,将相似度满足相应类型特征的相似度条件的候选推广对象确定为目标推广对象,完成二次筛选。通过如上方式确定目标推广对象,首先基于主题进行筛选,然后基于特征进行筛选,目的在于节约全部使用特征进行筛选对算力的消耗。
这里需要说明的是,这里提到的相应类型特征的相似度,即图像特征与图像特征的相似度,或者,文本特征与文本特征的相似度;也即,将相似度满足相应类型特征的相似度条件的候选推广对象确定为目标推广对象,包括:确定所提取的图像特征与推广文章图像特征的相似度,当所确定的相似度超出图像特征的相似度阈值时,确定候选推广对象为目标推广对象;或者,确定所提取的文本特征与推广文章文本特征的相似度,当所确定的相似度超出文本特征的相似度阈值时,确定候选推广对象为目标推广对象。在实际实施时,在进行特征的相似度计算之前可以执行特征提取的操作,如:提取由颜色、纹理和形状构成的图像特征;和/或,进行分词处理,对分词结果过滤掉停用词,得到由特征词构成的文本特征。
在一些实施例中,可通过如下方式得到与推广文章匹配的候选推广对象集合:将候选推广对象的至少一个类型的特征,输入根据特征词进行主题分类的分类器模型,获得分类器模型计算输出的候选推广对象所属的主题;当映射得到的主题与推广文章的主题的相似度超出主题相似度阈值时,确定为与推广文章的主题满足主题相似度条件的候选推广对象。其中,分类器模型根据特征词进行主题分类的过程可以包括:具有多个特征词的词向量组合形成输入向量(每次特征词的词向量根据语义-向量模型输出),根据输入向量预测属于不同主题的概率,取最大概率对应的主题作为候选推广对象所属的主题。
接续将主题划分为三个等级进行举例说明,在一些实施例中,可基于第二级主题从待推广的推广对象中筛选出与推广文章匹配的候选推广对象集合,如可通过如下方式得到与推广文章匹配的候选推广对象集合:确定推广对象的第二级主题特征及推广文章的第二级主题特征,计算推广对象的第二级主题特征与推广文章的第二级主题特征的相似度,当超出预设的第二级主题相似度阈值(可以依据实际需要进行设定,如70%)时,确定为与推广文章匹配的候选推广对象。
当然,在进行第二级主题相似度计算之前需要得到推广文章及推广对象的第二级主题,获取推广对象/推广文章的特征向量,将获取的特征向量输入二级分类器,得到对应的第二级主题。在实际实施时为将推广对象/推广文章的多个维度的特征向量映射得到对应的第二级主题,因此,上述映射到相应的第二级主题的过程相当于对多个维度的特征向量进行降维处理的过程,如此,降低了文章处理的算法难度。
接下来对主题映射过程中不同类型的特征的提取分别进行说明。
首先,对于文本特征的提取来说,提取目的是从文章或段落中获得文本的语义描述,在一实施中,可以包括预处理及文本特征提取两个主要操作,其中,预处理可以包括如下步骤:
步骤1、无效字符过滤;例如:文章如果是来源于网页,通常需要通过正则表达式等方式将HTML的Tag过滤掉。
步骤2、分词处理;
在实际实施时,往往需要先对步骤1得到内容进行编码转换,然后可利用正则表达式匹配标点符号、分行符实现将文章的段落划分为句子,最后可利用中文分词法将句子划分为一个一个单独的词。
步骤3、过滤停用词;
在实际实施时,可根据预先设定的词典过滤“的”、“地”等无关语义的词。在一些实施例中,执行完步骤3后,还可以进一步进行特征词的提取,使得后续的文本特征提取更简便。
在上述步骤1至步骤3执行完成后,即完成对文本特征提取的预处理,之后,即可进行文本特征的提取,在实际实施时,可采用如下方式之一进行文本特征的提取:
1)关键词提取,如采用词频-逆向文件频率(TF-IDF,Term Frequency-InverseDocument Frequency)等算法实施。
2)词袋模型,忽略语法将文本表示为词集,即词的组合。
3)深度学习模型,例如Word Embedding,将词映射得到词向量,通过词向量进行运算。
接下来,对图像特征的提取进行说明,提取的目的是从文章图片中获得图片的语义描述,在一实施中,对文章中图像特征的提取可以采用以下方式之一:
1)采用图片矩阵的代数特征,例如通过奇异值分解(SVD,Singular valuedecomposition)、可编程计数器阵列(PCA,Programmable Counter Array)等方法对表示图片的矩阵降维得到。
2)采用全局统计特征,例如直方图、对比度、几何不变矩Hu矩等。
3)采用局部直观特征,例如纹理特征(如采用线性反投影算法(LBP,Linear BackProjection)、通用搜索树(GIST,Generalized Search Trees)等)、角点特征(如采用Harris角点检测等)、边缘特征(如采用多级边缘检测算法-Canny算子)、形状特征(如采用Hough变换)等。
4)采用尺度不变特征变换(SIFT,Scale-invariant feature transform)、方向梯度直方图(HOG,Histogram of Oriented Gradient)、Haar分类器至少之一进行特征提取。
5)采用卷积神经网络(CNN,Convolutional Neural Network)进行特征提取,CNN网络有多种具体实现方式,例如AlexNet、VGG、ResNet等;在实际实施时,可以采用ImageNet等公开数据集训练的通用模型的最后一个卷积层的结果作为CNN模型的特征。
接下来,对经第二级主题进行筛选得到的候选推广对象进行二次筛选得到与推广文章匹配的目标推广对象进行说明,在一些实施例中,可通过以下方式实现从候选推广对象集合中筛选出与推广文章匹配的目标推广对象:提取候选推广对象的特征,所提取的特征包括图像特征和文本特征中至少一个类型的特征;计算所提取的特征与推广文章的相应类型特征的相似度;当超出相应类型特征的相似度阈值时,确定为与推广文章匹配的目标推广对象。如此,自动实现目标推广对象的适配,使得推广文章中的推广信息(广告)与文章内容的契合度较高,不会对用户阅读文章的过程造成干扰,提高了用户的阅读体验。
下面对通过预先训练得到的分类器实现上述从候选推广对象集合中筛选出与推广文章匹配的目标推广对象进行说明。
在一个示例中,针对待发布文章和候选推广对象均具有文本素材的情况,图5B为本发明实施例提供的利用文本-文本相似度分类器进行相似度计算的示意图,参见图5B,提取候选推广对象的文本特征及推广文章的文本特征,输入对应的文本-文本相似度分类器,当得到文本-文本相似度超出文本-文本相似度阈值时,确定该候选推广对象为与推广文章匹配的目标推广对象。
在又一个示例中,待发布文章和候选推广对象均具有图像素材的情况,图5C为本发明实施例提供的利用图像-图像相似度分类器进行相似度计算的示意图,参见图5C,提取推广对象的图像特征及推广文章的图像特征,输入对应的图像-图像相似度分类器,当得到图像-图像相似度超出图像-图像相似度阈值时,确定该候选推广对象为与推广文章匹配的目标推广对象。在一些实施例中,可通过图像的特征向量计算相似度,如采用以下方式得到:
1)欧式距离:将向量想象为N维空间的点,欧式距离衡量点与点之间的距离;
2)Cosine相似度:衡量两个向量之间的夹角大小;
3)Jaccard相似度:把两个向量看作一个集合,衡量集合间的重合度。
在一些实施例中,可通过以下方式实现从候选推广对象集合中筛选出与推广文章匹配的目标推广对象:计算候选推广对象集合中候选推广对象的第三级主题与所述推广文章的第三级主题的相似度,当超出第三级主题相似度阈值时,确定为与所述推广文章匹配的目标推广对象。
在一些实施例中,可通过以下方式实现从候选推广对象集合中筛选出与推广文章匹配的目标推广对象:提取候选推广对象的图像特征及推广文章的文本特征,确定候选推广对象的图像特征与推广文章的文本特征的相似度;当超出文本与图像相似度阈值时,确定为与推广文章匹配的目标推广对象。
下面对通过预先训练得到的文本-图像相似度分类器,实现上述候选推广对象的图像特征与推广文章的文本特征相似度的计算进行说明;
图5D为本发明实施例提供的利用文本-图像相似度分类器进行相似度计算的示意图,参见图5D,提取推广对象的图像特征及推广文章的文本特征,输入对应的文本-图像相似度分类器,当得到文本-图像相似度超出文本-图像相似度阈值时,确定该推广对象为与推广文章匹配的推广对象。
在一些实施例中,还可通过如下方式确定与推广文章匹配的目标推广对象:计算获得的待推广的推广对象与推广文章的图像特征和文本特征至少之一的相似度;确定相似度满足相应类型特征的相似度条件的推广对象,为与推广文章匹配的目标推广对象。作为一种实施方式,例如,对候选推广对象的素材以及推广文章执行以下类型至少之一的特征提取操作:提取由颜色、纹理和形状构成的图像特征;进行分词处理,对分词结果过滤掉停用词,得到由特征词构成的文本特征;确定候选推广对象与推广文章关于至少一个类型特征的相似度,将满足相应类型特征的相似度条件的候选推广对象确定为目标推广对象。举例说明,计算候选推广对象的图片素材(在自媒体平台中预先存储)提取的图像特征,与推广文章中图片的图像特征的相似度,如果满足图片相似度条件(大于图像特征相似度阈值),则候选推广对象为目标推广对象;又例如,计算候选推广对象的文字素材(在自媒体平台中预先存储,例如分类信息、广告词)提取的文本特征,与推广文章中文字的文本特征的相似度,如果满足图片相似度条件(大于文本特征相似度阈值),则候选推广对象为目标推广对象。该实现方式省去了确定候选推广对象集合的过程,直接基于推广文章的图像特征和/或文本特征确定目标推广对象。
在一些实施例中,还可通过如下方式确定与推广文章匹配的目标推广对象:确定候选推广对象的图像特征与推广文章的文本特征的相似度;当确定的相似度超出文字与图像相似度阈值时,确定候选推广对象为目标推广对象。这里需要说明的是,由于本发明实施例中的特征均指的特征向量,可以计算候选推广对象及推广文章的不同类型特征的相似度,然后进行阈值比较确定目标推广对象。然而,此处使用候选推广对象的图像特征,以及使用文章的文本特征进行相似度计算,是因为:对于所有的候选推广对象,在自媒体平台中都会有对应的图像素材,而所有的文章都包括文字,能够保证总是能够计算二者的相似度;避免了因为自媒体平台中缺失候选推广对象的文字素材、以及文本中缺失图像素材、从而使用相同类型特征无法计算相似度的问题。
需要说明的是,在本发明实施例中,步骤302及步骤303并不存在依赖关系,其执行顺序可互换。
接下来,执行步骤304:社交网络服务器确定与目标推广对象匹配的素材,形成包括素材的推广信息。
在一些实施例中,可通过如下方式确定与目标推广对象匹配的素材:
从推广文章中提取人物关键字;将人物关键字和目标推广对象的标签关键字至少之一与推广对象的模板内容组合,形成与推广对象匹配的第一文字素材。
在实际实施时,人物关键字可以为文章中出现的文章作者对自己或他人的称谓,如:美国朋友、明星球球等;而提取人物关键字的方式可以为基于语义分析的方法进行提取。
标签关键字为用于标识推广对象的特征、功能等的关键字,每个推广对象都存在对应的标签关键字用于标识该推广对象的特征、功能等,如对于推广对象为某款面膜来说,其标签关键字可以为:保湿、补水。
在一发明实施例中,针对推广对象预先设定了用于生成文字素材的模板(可以为统一的模板,或针对不同主题的推广对象分类设置的模板),模板中设置有固定的文字描述,以及待补充的空白文字位置,当将人物关键字和/或推广对象的标签关键字代入模板后,形成对应推广对象的文字素材。
对将推广对象的标签关键字代入模板后,形成对应推广对象的文字素材的实现方式举例说明:图6A为本发明实施例提供的文字素材的一个可选的示意图;参见图6A,推广对象的标签关键字为人气款,将其代入模板后得到文字模板+动态文字(即标签关键字)生成的文字素材为:这款也是重点推荐的人气款。
对将推广对象的人物关键字和标签关键字代入模板后,形成对应推广对象的文字素材的实现方式举例说明:图6B为本发明实施例提供的文字素材的一个可选的示意图;参见图6B,推广对象的人物关键字为大饼、标签关键字为人气款,将其代入模板后得到文字模板+动态文字(即标签关键字及人物关键字)生成的文字素材为:这款也是大饼重点推荐的人气款。
再如,当推广对象为面膜、提取的人物关键字为明星球球、推广对象的标签关键字为保湿、补水时,将其与面膜的模板进行组合,形成对应的文字素材为:明星球球大力推荐的面膜,既保湿又补水。
在一些实施例中,社交网络服务器可通过如下方式确定与目标推广对象匹配的素材:
对目标推广对象进行图像识别,得到表征目标推广对象属性的图像识别结果;将图像识别结果与目标推广对象的描述信息组合,形成与目标推广对象匹配的第二文字素材。在一些实施例中,与目标推广对象匹配的素材可以包括上述第一文字素材、第二文字素材至少之一。
图像识别结果表征目标推广对象的属性:如名称(推广对象具体是什么,如衣服鞋子)、颜色、款式等;
目标推广对象的描述信息可以为以关键字形式呈现的、从不同维度标识目标推广对象的相关内容的信息,如目标推广对象的价格描述、来源等;目标推广对象的描述信息往往包括可以实现用户与目标推广对象交互的超级链接,使得用户点击描述信息时进行页面跳转至相应页面。
在实际实施时,目标推广信息除包括形成的文字素材外,还包括图像素材;而对图像素材的获取可通过如下方式:当候选推广对象的图像素材的图像特征、与推广文章的图像特征的满足图像特征的匹配条件(如相似度超过预设阈值)时,确定为与目标推广对象匹配的图像素材。
在一些实施例中,还可通过如下方式获取图像素材:
从目标推广对象的原始推广信息中直接提取图像,作为与目标推广对象匹配的图像素材,然后将所提取的图像作为图像素材连同形成的文字素材与推广文章合成。需要说明的是,推广信息中包括的图像素材可以为一个或一个以上的图片,且该图片既可以为目标推广对象对应的图片,还可以为与目标推广对象对应的图片相关联的其它图片。如图7A、图7B所示,图7A、图7B为本发明实施例提供的在推广文章中图片的结束位置添加推广信息的示意图,在图7A、图7B中,块72为在文章中图片的结束位置添加的推广信息,其中,块71为文字模块,用于承载推广信息包括的基于推广对象的模板生成的文字素材,块73为图片模块,用于承载推广信息包括的图像素材。
在一些实施例中,推广信息包括的文字素材部分除包括基于推广对象的模板生成的文字素材外,还包括上述描述信息。如图7C所示,图7C为本发明实施例提供的在推广文章的结束位置添加推广信息的示意图,在图7C中,块70对应推广信息,块77为文字模块,用于承载推广信息包括的基于推广对象的模板生成的文字素材,块78为图片模块,用于承载推广信息包括的图像素材,块79为描述信息模块,用于承载推广信息包括的目标推广对象的描述信息(如推广对象的详情及来源)。
在一些实施例中,目标推广对象匹配的素材可以由目标推广对象的图像素材及描述信息组成。如图8所示,图8为本发明实施例提供的推广信息的示意图,在图8中,块81为图片模块,用于承载推广信息包括的图像素材,块82为描述信息模块,用于承载推广信息包括的目标推广对象的描述信息。
在一些实施例中,根据所获得的素材生成推广信息可通过如下方式实现:获得用于在推广信息中首先(时间或位置上最先)呈现的固定内容,所述固定内容用于引导观看添加后的推广信息;将获得的固定内容、以及所获得的素材填充至推广信息模板,得到推广信息。
社交网络服务器基于确定的文字素材形成推广信息后,执行步骤305:根据确定的推广位置,将推广信息添加至推广位置。如此,合成推广文章与包括素材的推广信息,得到经过合成处理的推广文章。
在一些实施例中,社交网络服务器还可设置推广信息的显示方式,参见图9A至9C,图9A至9C均为本发明实施例提供的推广信息的显示方式的示意图,例如:设置文字模块对应的内容隐藏,即设置推广信息中基于推广对象的模板生成的文字素材的显示方式为隐藏,如图9A所示,当用户点击图片中的文字模块部分时可以显示隐藏的文字素材;或者,如图9B所示,设置推广信息中文字模块显示固定内容(引导观看添加后的推广信息);或者,如图9C所示,设置推广信息中文字模块中,动态显示基于推广对象的模板生成的文字素材的内容,如滚动显示文字素材的内容。
至此,社交网络服务器对推广文章进行推广信息的添加处理描述完成,然后执行步骤306:社交网络服务器发送经添加处理的推广文章至自媒体平台中的第二客户端。
在一些实施例中,社交网络服务器可基于用户登录的自媒体账号获取该用户的文章偏好(如基于该用户的文章阅读记录得到用户偏爱的文章类别,可将用户阅读过的数量最多的一类文章作为用户偏爱的文章类别),基于用户的偏爱向该用户的自媒体平台的客户端主动推送添加有推广信息的推广文章至自媒体平台的客户端进行呈现。
在另一实施例中,社交网络服务器可基于用户终端发送的阅读请求(即终端拉取),将添加有推广信息的推广文章发送至自媒体平台的客户端进行呈现。
自媒体平台中的第二客户端接收到经添加处理的推广文章后,执行步骤307:显示推广文章。如此,使得用户在看到自身关注的文章内容的同时,还了解了添加的推广信息,且由于推广信息与文章的过渡自然,增强了用户的阅读感受。
对自媒体平台中的第一客户端及第二客户端进行说明,文章的发布者亦可为文章的阅读者(即第一客户端与第二客户端为同一客户端),文章的发布者与文章的阅读者为同一用户,在该场景下,第一客户端在向社交网络服务器提交待发布文章后,若提交的该待发布文章被确定为推广文章且存在与之匹配的目标推广对象,第一客户端获得自身提交的文章的同时,亦接收了添加有与目标推广对象匹配的素材的推广信息,之后,呈现文章的原始内容,并根据文章中添加推广信息的推广位置,当显示推广文章的原始内容至相应位置时呈现推广信息。
在另一场景下,文章的发布者与文章的阅读者不是同一用户(即第一客户端与第二客户端为不同客户端),此时,第二客户端可以根据用户的访问请求拉取社交网络中发布的推广文章,或者根据与发布用户的社交(关注/订阅)关系获得社交网络服务器推送的推广文章,之后,呈现文章的原始内容,并根据文章中添加推广信息的推广位置,当显示推广文章的原始内容至相应位置时呈现推广信息。
在一些实施例中,基于对推广信息的显示方式的设置,当显示推广文章的原始内容至相应位置时可采用以下方式之一呈现推广信息:
1)呈现推广信息中的图像素材,并在推广信息中的文字素材被触发(如接收到用户的点击操作)时呈现文字素材;例如,开始仅显示图像素材,文字素材处于隐藏不可见状态,当用户点击文字素材所处位置时,呈现文字素材;
2)响应于对添加推广信息的推广位置呈现的固定内容的操作(如点击操作),呈现推广信息中的文字素材及图像素材;固定内容用于引导观看推广信息;也即,开始呈现的为用于引导用户观看推广信息的固定内容,当用户触发时显示图像素材及文字素材;
可见,上面两种方式仅在用户触发的情况下才显示推广信息中的文字素材及图像素材,这在一定程度上降低了对用户进行文章阅读的干扰;
3)当显示推广文章的原始内容至相应位置时,直接呈现推广信息中的文字素材及图像素材。
应用上述实施例,具备以下有益效果:
1)利用自媒体平台自发的关于文章的流量作为推广信息的载体,即文章的来源可以来自社交网络中任意一个用户终端,打破了靠征集特定主题的文章的局限性,可实现推广信息的批量化和自动化添加,借助与自媒体平台的流量频发的特性,可以实现推广信息及时触达用户;
2)自动实现推广对象、以及相应的文本素材的适配,使得推广文章中的推广信息(广告)与文章内容的契合度较高,不会对用户阅读文章的过程造成干扰,提高了用户的阅读体验;
3)自动实现推广信息的位置的选定,位置灵活,能够避免推广信息的出现突兀,使得文章内容与推广信息的内容衔接自然,易于在用户在阅读文章的过程中接受。
作为上述基于自媒体平台的文章处理方法的另一个可选实施例,图10示出了本发明实施例服务器侧提供的基于自媒体平台的文章处理方法的一个可选的流程示意图,在本实施例中,以推广信息为广告、推广对象为广告对象(广告商品)为例进行说明,参见图10,本发明实施例提供的基于自媒体平台的文章处理方法包括:
步骤401:服务器对文章进行语义分析。
这里提到的文章为服务器获取的待发布的自媒体文章或者已经在自媒体平台被发布过但又被撤回的文章,通过对文章进行语义分析理解文章的标题,自媒体名称(如公众号名称)、作者名称,理解整篇文章的文字。从中挑选属于本篇文章的主题(topic),作为匹配广告对象的依据。进而可筛选出匹配广告对象的文章。
其中,广告对象可供匹配的特征信息包括:广告对象的类别、广告词、广告对象的名称等。文章可供匹配的特征信息包括关键词等。
语义分析即语义理解,指将非结构化或半结构化的自然语言文本转化为计算机可深层处理的结构化信息、并进行分类、分析等操作。
步骤402:识别文章的主题。
在实际实施时,可通过训练得到的关键字-主题模型得到,通过语义分析提取文章的关键字,然后输入训练得到的关键字-主题模型得到文章的主题。
步骤403:基于文章主题判断文章是否匹配广告对象,如果匹配执行步骤404,如果不匹配,文章不出广告。
在实际实施时,服务器可以将文章的主题,与广告对象对应的名称、类别和广告词至少之一进行匹配,确定满足匹配条件的文章为可以匹配广告对象的文章。
如果通过上述匹配确定文章不适合添加广告,即不存在匹配的广告,不对文章添加广告,直接将其发布至社交网络。
步骤404:对文章进行分段的语义分析。
对文章进行分段的语义分析得到文章是否存在多个(两个或两个以上)的主题。
步骤405:识别文章是否存在多个主题。
步骤406:确定文章存在多个主题,执行步骤408。
步骤407:确定文章存在单一主题,执行步骤409。
步骤408:在文章中标记多个添加广告的位置。
在实际实施时,当确定文章存在多个主题时,可选择在对应主题的位置添加广告,如在两个相邻主题的交界处。
步骤409:在文章结束标记添加广告的位置。
步骤410:根据文章主题从广告对象库中选出一组备选广告对象集合。
可通过计算广告对象的主题与文章主题的相似度确定备选广告对象集合(如确定相似度达到预设阈值的)。
步骤411:根据文章的文本内容匹配广告对象。
在实际实施时,可采用预先训练得到的文本-图像相似度分类器,输入文章的文本特征及广告对象的图像特征,得到二者的相似度,当仅在文章结束标记了添加广告的位置时,仅需匹配相似度最高的广告对象即可,当在文章中标记多个添加广告的位置时,则可依据相似度的排序选取相应数量的广告对象。
步骤412:对匹配得到的广告对象进行图像识别,并获取广告对象的描述信息。
广告对象可能仅有图片信息,则通过对广告对象进行图像识别可得到对应广告对象的素材信息,如该广告对象的具体内容是什么,如衣服、鞋等。广告对象的描述信息包括该广告对象的来源、价格、描述详情等等。
步骤413:根据图像识别结果及广告对象的描述信息,合成文字。
在实际实施时,上述合成的文字即为用于添加文章的广告的文字素材。
步骤414:抽取广告对象的描述信息显示在广告图片上。
在实际实施时,对应广告对象的描述信息包括相应的超级链接,当用户点击时,跳转至相应的页面,如跳转至广告对象的购买页。
步骤415:将所述添加文字及可交互的广告对象作为广告添加至文章。
所述可交互的指的是广告包括的超级链接,用户点击可进行页面跳转。
前述基于自媒体平台的文章处理方法的实施例,以承载有自媒体平台的服务器先确定用于呈现推广信息的推广文章,在基于确定的推广文章确定目标推广对象,然而在实际应用中,还可以先确定目标推广对象,再确定用于呈现推广信息的推广文章,接下来对此方式的基于自媒体平台的文章处理方法进行详细说明。
作为基于自媒体平台的文章处理方法的另一个可选实施例,图11示出了本发明实施例服务器侧提供的基于自媒体平台的文章处理方法的一个可选的流程示意图,在本实施例中,自媒体平台可以承载于具有社交功能的社交网络服务器上,以推广信息为广告、推广对象为广告对象(广告商品)为例进行说明,参见图11,本发明实施例提供的基于自媒体平台的文章处理方法包括:
步骤501:第一客户端发送目标文章至自媒体平台。
这里,客户端连接所述自媒体平台,所述目标文章由所述自媒体平台的用户通过所述客户端提交。在实际应用中,目标文章包括待发布文章及原始文章。
步骤502:在候选推广对象中确定目标推广对象、以及与目标推广对象匹配的素材。
在一实施例中,自媒体平台可通过如下方式在存储于自媒体平台的候选推广对象中确定目标推广对象:
将历史目标文章的内容特征与所述候选推广对象的内容特征进行内容相似度计算,将满足内容相似度条件的候选推广对象确定为目标推广对象;其中,所述历史目标文章先于所述目标文章在所述自媒体平台接收并发送。
例如:确定与历史目标文章的主题满足主题相似度条件的候选推广对象,形成候选推广对象集合;确定候选推广对象集合中各候选推广对象与历史目标文章关于至少一个类型特征的相似度,所述特征包括图像特征和文本特征;将相似度满足相应类型特征的相似度条件的候选推广对象确定为目标推广对象。
步骤503:基于确定的目标推广对象,在接收的目标文章中确定用于呈现推广信息的推广文章。
在一实施例中,基于确定的所述目标推广对象,将所述目标推广对象的主题特征与所述目标文章的主题特征进行主题相似度计算,将满足主题相似度条件的目标文章确定为所述推广文章。例如:将从目标文章提取的关键词,输入根据特征词进行主题分类的分类器模型,获得分类器模型计算输出的目标文章对应的主题;将从候选推广对象的素材提取的关键词,输入根据特征词进行主题分类的分类器模型,获得候选推广对象对应的主题;根据目标文章所对应主题与候选推广对象所对应主题的语义距离,确定与语义距离负相关关系的主题相似度,将接收的目标文章中满足主题相似度条件的目标文章确定为推广文章。
步骤504:确定推广文章中用于添加推广信息的推广位置。
在一实施例中,可通过如下方式确定推广文章中用于添加推广信息的推广位置:
根据推广文章包括的主题特征,在推广文章中确定具有所包括的主题特征的段落;当所包括的主题特征与推广信息的主题特征满足主题相似度条件时,确定所述段落的位置为用于添加所述推广信息的推广位置。
步骤505:根据所确定的与目标推广对象匹配的素材生成推广信息。
在一实施例中,可通过如下方式生成推广信息:
获得用于在推广信息中首先呈现的固定内容,所述固定内容用于引导观看添加后的推广信息;将获得的固定内容、以及所获得的素材填充至推广信息模板,得到推广信息。
步骤506:根据所确定的推广位置,将推广信息添加到推广文章中相应的推广位置。
步骤507:发送添加有所述推广信息的推广文章至第二客户端。
步骤508:第二客户端显示推广文章。
本发明实施例还提供了一种基于自媒体平台的文章处理装置300,参见图12,图12为本发明实施例提供的基于自媒体平台的文章处理装置的组成结构示意图,包括:
接收单元31,配置为接收客户端发送的目标文章,其中,所述客户端用于连接所述自媒体平台,所述目标文章由所述自媒体平台的用户通过所述第一客户端提交;
确定单元32,配置为在所述目标文章中确定用于呈现推广信息的推广文章、以及所述推广文章中用于添加推广信息的推广位置;
在存储于所述自媒体平台的候选推广对象中确定目标推广对象、以及与所述目标推广对象匹配的素材;
生成单元33,配置为根据所确定的与所述目标推广对象匹配的素材生成推广信息;
添加单元34,配置为根据所确定的所述推广位置,将所述推广信息添加到所述推广文章中相应的推广位置;
发送单元35,配置为发送添加有所述推广信息的所述推广文章。
在一些实施例中,所述确定单元32,还配置为将所述目标文章的主题特征与候选推广对象的主题特征进行主题相似度计算,将满足主题相似度条件的目标文章确定为所述推广文章;
以及配置为基于确定的所述推广文章,将所述推广文章的内容特征与所述候选推广对象的内容特征进行内容相似度计算,将满足内容相似度条件的候选推广对象确定为目标推广对象。
在一些实施例中,所述确定单元32,还配置为将历史目标文章的内容特征与所述候选推广对象的内容特征进行内容相似度计算,将满足内容相似度条件的候选推广对象确定为目标推广对象;
其中,所述历史目标文章先于所述目标文章在所述自媒体平台接收并发送;
以及配置为基于确定的所述目标推广对象,将所述目标推广对象的主题特征与所述目标文章的主题特征进行主题相似度计算,将满足主题相似度条件的目标文章确定为所述推广文章。
在一些实施例中,所述确定单元32,还配置为根据所述推广文章包括的主题特征,在所述推广文章中确定具有所包括的主题特征的段落;
当所包括的主题特征与所述推广信息的主题特征满足主题相似度条件时,确定所述段落的位置为用于添加所述推广信息的推广位置。
在一些实施例中,所述确定单元32,还配置为当在所述推广文章中相邻段落之间的位置添加所述推广信息时,根据所述推广文章的内容样式中相同类型的内容是否被所述推广信息分割,和/或所述推广信息在所述内容样式中所占用的显示比例,确定相应的完整度;
当所述完整度满足完整度条件时,确定所述相邻段落之间的位置为添加所述推广信息的推广位置。
在一些实施例中,所述确定单元32,还配置为将从所述待发布文章提取的关键词,输入根据特征词进行主题分类的分类器模型,获得所述分类器模型计算输出的所述待发布文章对应的主题;
将从所述候选推广对象的素材提取的关键词,输入根据特征词进行主题分类的分类器模型,获得所述候选推广对象对应的主题;
根据所述待发布文章所对应主题与所述候选推广对象所对应主题的语义距离,确定与所述语义距离负相关关系的主题相似度。
在一些实施例中,所述确定单元32,还配置为对所述候选推广对象的素材以及所述推广文章执行以下类型至少之一的特征提取操作:提取由颜色、纹理和形状构成的图像特征;进行分词处理,对分词结果过滤掉停用词,得到由特征词构成的文本特征;
确定所述候选推广对象与所述推广文章关于至少一个类型特征的相似度:
将满足相应类型特征的相似度条件的候选推广对象确定为目标推广对象。
在一些实施例中,所述确定单元32,还配置为确定与所述推广文章的主题满足主题相似度条件的候选推广对象,形成候选推广对象集合;
确定所述候选推广对象集合中各候选推广对象与所述推广文章关于至少一个类型特征的相似度,所述特征包括图像特征和文本特征;
将相似度满足相应类型特征的相似度条件的候选推广对象确定为目标推广对象。
在一些实施例中,所述确定单元32,还配置为将候选推广对象的至少一个类型的特征,输入根据特征词进行主题分类的分类器模型,获得所述分类器模型计算输出的所述候选推广对象所属的主题;
当映射得到的主题与所述推广文章的主题的相似度超出主题相似度阈值时,确定为与所述推广文章的主题满足主题相似度条件的候选推广对象。
在一些实施例中,所述确定单元32,还配置为确定候选推广对象的图像特征与所述推广文章的文本特征的相似度;
当确定的所述相似度超出文字与图像相似度阈值时,确定所述候选推广对象为目标推广对象。
在一些实施例中,所述确定单元32,还配置为从所述推广文章中提取人物关键字;
将所述人物关键字和所述目标推广对象的标签关键字至少之一,与所述目标推广对象的模板内容组合,形成与所述目标推广对象对应的文字素材。
在一些实施例中,所述确定单元32,还配置为对所述目标推广对象进行图像识别,得到表征所述推广对象属性的图像识别结果;
将所述图像识别结果与所述目标推广对象的描述信息组合,形成与所述目标推广对象对应的文字素材。
在一些实施例中,所述确定单元32,还配置为当候选推广对象的图像素材的图像特征、与所述推广文章的图像特征满足图像特征的匹配条件时,将满足所述匹配条件的图像素材作为与所述目标推广对象对应的图像素材。
在一些实施例中,所述生成单元33,还配置为获得用于在所述推广信息中首先呈现的固定内容,所述固定内容用于引导观看添加后的所述推广信息;
将所述固定内容、以及所获得的素材填充至推广信息模板,得到所述推广信息。
本发明实施例还提供了一种服务器,包括:
存储器,配置为存储可执行程序;
处理器,配置为执行所述存储器中存储的可执行程序时,实现上述基于自媒体平台的文章处理方法。
本发明实施例还提供了一种可读存储介质,存储介质可以包括:移动存储设备、随机存取存储器(RAM,Random Access Memory)、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述可读存储介质存储有可执行程序;
所述可执行程序,用于被处理器执行时实现上述基于自媒体平台的文章处理方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种基于自媒体平台的文章处理方法,包括:
接收客户端发送的目标文章,其中,所述客户端用于连接所述自媒体平台,所述目标文章由所述自媒体平台的用户通过所述客户端提交;
在所述目标文章中筛选确定用于呈现推广信息的推广文章、以及所述推广文章中用于添加推广信息的推广位置;
在存储于所述自媒体平台的候选推广对象中确定目标推广对象、以及与所述目标推广对象匹配的素材;
获得用于在推广信息中呈现的固定内容,所述固定内容用于引导观看添加后的所述推广信息;
将所述固定内容及所获得的素材填充至推广信息模板生成推广信息;
根据所确定的所述推广位置,将所述推广信息添加到所述推广文章中相应的推广位置,其中,当所述推广位置为所述推广文章中相邻段落之间的位置时,添加的所述推广信息维持所述推广文章的内容样式的完整度符合完整度条件;
发送添加有所述推广信息的所述推广文章。
2.如权利要求1所述的方法,其中,所述在所述目标文章中确定用于呈现推广信息的推广文章,包括:
将所述目标文章的主题特征与候选推广对象的主题特征进行主题相似度计算,将满足主题相似度条件的目标文章确定为推广文章;
所述在存储于所述自媒体平台的候选推广对象中确定目标推广对象,包括:
基于确定的所述推广文章,将所述推广文章的内容特征与所述候选推广对象的内容特征进行内容相似度计算,将满足内容相似度条件的候选推广对象确定为目标推广对象。
3.如权利要求1所述的方法,其中,所述在存储于所述自媒体平台的候选推广对象中确定目标推广对象,包括:
将历史目标文章的内容特征与所述候选推广对象的内容特征进行内容相似度计算,将满足内容相似度条件的候选推广对象确定为目标推广对象;
其中,所述历史目标文章先于所述目标文章在所述自媒体平台接收并发送;
所述在所述目标文章中确定用于呈现推广信息的推广文章,包括:
基于确定的所述目标推广对象,将所述目标推广对象的主题特征与所述目标文章的主题特征进行主题相似度计算,将满足主题相似度条件的目标文章确定为推广文章。
4.如权利要求1或2所述的方法,其中,所述确定所述推广文章中用于添加推广信息的推广位置,包括:
根据所述推广文章包括的主题特征,在所述推广文章中确定具有所包括的主题特征的段落;
当所述段落所包括的主题特征与所述推广信息的主题特征满足主题相似度条件时,确定所述段落的位置为用于添加所述推广信息的推广位置。
5.如权利要求1或2所述的方法,其中,所述确定所述推广文章中用于添加推广信息的推广位置,包括:
当在所述推广文章中相邻段落之间的位置添加所述推广信息时,
根据所述推广文章的内容样式中相同类型的内容是否被所述推广信息分割,和/或所述推广信息在所述内容样式中所占用的显示比例,确定相应的完整度;
当所述完整度满足完整度条件时,确定所述相邻段落之间的位置为添加所述推广信息的推广位置。
6.如权利要求2所述的方法,其中,所述将所述推广文章的内容特征与所述候选推广对象的内容特征进行内容相似度计算,将满足内容相似度条件的候选推广对象确定为目标推广对象,包括:
确定与所述推广文章的主题满足主题相似度条件的候选推广对象,形成候选推广对象集合;
确定所述候选推广对象集合中各候选推广对象与所述推广文章关于至少一个类型特征的相似度,所述特征包括图像特征和文本特征;
将所述相似度满足相应类型特征的相似度条件的候选推广对象确定为目标推广对象。
7.如权利要求6所述的方法,其中,所述确定与所述推广文章的主题满足主题相似度条件的候选推广对象,包括:
将候选推广对象的至少一个类型的特征,输入根据特征词进行主题分类的分类器模型,获得所述分类器模型计算输出的所述候选推广对象所属的主题;
当映射得到的主题与所述推广文章的主题的相似度超出主题相似度阈值时,确定为与所述推广文章的主题满足主题相似度条件的候选推广对象。
8.如权利要求1所述的方法,其中,所述确定与所述目标推广对象匹配的素材,包括:
对所述目标推广对象进行图像识别,得到表征所述目标推广对象属性的图像识别结果;
将所述图像识别结果与所述目标推广对象的描述信息组合,形成与所述目标推广对象对应的文字素材。
9.如权利要求1所述的方法,其中,所述确定与所述目标推广对象匹配的素材,包括:
当候选推广对象的图像素材的图像特征与所述推广文章的图像特征满足图像特征的匹配条件时,将满足所述匹配条件的图像素材作为与所述目标推广对象对应的图像素材。
10.如权利要求1所述的方法,其中,所述方法还包括:
设置所述推广信息的显示方式,所述显示方式使得在发送添加有所述推广信息的所述推广文章至客户端之后,所述客户端通过以下显示方式至少之一显示所述推广信息:
呈现所述推广信息中的图像素材,并在所述推广信息中的文字素材被触发时呈现文字素材;
响应于对所述推广位置呈现的固定内容的操作,呈现所述推广信息中的文字素材及图像素材。
11.一种基于自媒体平台的文章处理装置,包括:
接收单元,配置为接收客户端发送的目标文章,其中,所述客户端用于连接所述自媒体平台,所述目标文章由所述自媒体平台的用户通过所述客户端提交;
确定单元,配置为在所述目标文章中筛选确定用于呈现推广信息的推广文章、以及所述推广文章中用于添加推广信息的推广位置;
以及,配置为在存储于所述自媒体平台的候选推广对象中确定目标推广对象、以及与所述目标推广对象匹配的素材;
生成单元,配置为获得用于在推广信息中呈现的固定内容,所述固定内容用于引导观看添加后的所述推广信息;
将所述固定内容及所获得的素材填充至推广信息模板生成推广信息;
添加单元,配置为根据所确定的所述推广位置,将所述推广信息添加到所述推广文章中相应的推广位置,其中,当所述推广位置为所述推广文章中相邻段落之间的位置时,添加的所述推广信息维持所述推广文章的内容样式的完整度符合完整度条件;
发送单元,配置为发送添加有所述推广信息的所述推广文章。
12.一种服务器,包括:
存储器,配置为存储可执行程序;
处理器,配置为执行所述存储器中存储的可执行程序时,实现如权利要求1至10任一项所述的基于自媒体平台的文章处理方法。
13.一种存储介质,存储有可执行程序,所述可执行程序被处理器执行时,实现如权利要求1至10任一项所述的基于自媒体平台的文章处理方法。
CN201780054780.XA 2017-12-15 2017-12-15 文章处理方法、装置、服务器及存储介质 Active CN110325986B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/116646 WO2019113977A1 (zh) 2017-12-15 2017-12-15 文章处理方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110325986A CN110325986A (zh) 2019-10-11
CN110325986B true CN110325986B (zh) 2022-02-11

Family

ID=66818894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780054780.XA Active CN110325986B (zh) 2017-12-15 2017-12-15 文章处理方法、装置、服务器及存储介质

Country Status (2)

Country Link
CN (1) CN110325986B (zh)
WO (1) WO2019113977A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334356B (zh) * 2019-07-15 2023-08-04 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN110781377B (zh) * 2019-09-03 2024-02-20 深圳市雅阅科技有限公司 一种文章推荐方法、装置
CN112465530A (zh) * 2019-09-06 2021-03-09 阳光学院 一种基于大数据的网络营销用工具
CN110737783B (zh) * 2019-10-08 2023-01-17 腾讯科技(深圳)有限公司 一种推荐多媒体内容的方法、装置及计算设备
CN110874313B (zh) * 2019-11-18 2023-07-25 北京百度网讯科技有限公司 写作工具测试方法及装置
CN111210258A (zh) * 2019-12-23 2020-05-29 北京三快在线科技有限公司 广告投放方法、装置、电子设备及可读存储介质
CN111292134A (zh) * 2020-02-25 2020-06-16 上海昌投网络科技有限公司 一种微信公众号是否可投广告的判断方法及装置
CN111353532A (zh) * 2020-02-26 2020-06-30 北京三快在线科技有限公司 图像生成方法及装置、计算机可读存储介质、电子设备
CN111885399B (zh) * 2020-06-29 2023-06-13 腾讯科技(武汉)有限公司 内容分发方法、装置、电子设备以及存储介质
CN112149653B (zh) * 2020-09-16 2024-03-29 北京达佳互联信息技术有限公司 信息处理方法、装置、电子设备及存储介质
CN112364610A (zh) * 2020-12-01 2021-02-12 深圳市房多多网络科技有限公司 房源文章中楼盘卡片的插入方法、装置及计算设备
CN112800083B (zh) * 2021-02-24 2022-03-18 山东省住房和城乡建设发展研究院 一种面向政府决策的政务大数据分析方法及设备
CN113379481A (zh) * 2021-05-25 2021-09-10 北京大米科技有限公司 一种数据处理方法及装置
CN115271822B (zh) * 2022-08-11 2023-08-11 北京创新乐知网络技术有限公司 一种推广信息投放方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200923813A (en) * 2007-11-27 2009-06-01 Inst Information Industry Advertisement selection systems and methods for internet articles
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN105593888A (zh) * 2013-10-08 2016-05-18 株式会社纬兹 广告信息共享系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049791A1 (en) * 2000-07-11 2002-04-25 Bridgewell, Inc. Method and system for using a personal electronic document for advertising
US20060116926A1 (en) * 2004-11-27 2006-06-01 Chen Michael W Method and system for internet publishing and advertising forums
CN1674001A (zh) * 2005-04-04 2005-09-28 栾奕 在互联网文章中建立关键词索引的广告方法
CN100462980C (zh) * 2007-06-26 2009-02-18 腾讯科技(深圳)有限公司 内容相关广告识别方法和内容相关广告服务器
US20090312040A1 (en) * 2008-06-13 2009-12-17 Embarq Holdings Company, Llc System and method for inserting advertisements into SMS messages
CN102402763A (zh) * 2011-11-30 2012-04-04 江苏奇异点网络有限公司 用于文档服务网站的广告投放方法
CN103177383A (zh) * 2013-03-21 2013-06-26 北京亿部文化有限公司 一种在电子书中植入广告的方法
CN103853824B (zh) * 2014-03-03 2017-05-24 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN106326379A (zh) * 2016-08-16 2017-01-11 廖文广 在网页文章中植入广告的管理系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200923813A (en) * 2007-11-27 2009-06-01 Inst Information Industry Advertisement selection systems and methods for internet articles
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN105593888A (zh) * 2013-10-08 2016-05-18 株式会社纬兹 广告信息共享系统

Also Published As

Publication number Publication date
WO2019113977A1 (zh) 2019-06-20
CN110325986A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
Kumar et al. Sentiment analysis of multimodal twitter data
Zhao et al. Continuous probability distribution prediction of image emotions via multitask shared sparse regression
US10726208B2 (en) Consumer insights analysis using word embeddings
US11113714B2 (en) Filtering machine for sponsored content
US9830404B2 (en) Analyzing language dependency structures
US10685183B1 (en) Consumer insights analysis using word embeddings
US11182806B1 (en) Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
Song et al. “Is a picture really worth a thousand words?”: A case study on classifying user attributes on Instagram
US10977448B2 (en) Determining personality profiles based on online social speech
US20190102374A1 (en) Predicting future trending topics
CN107958385B (zh) 基于买家定义函数的投标
US10558759B1 (en) Consumer insights analysis using word embeddings
US10509863B1 (en) Consumer insights analysis using word embeddings
Ortis et al. An Overview on Image Sentiment Analysis: Methods, Datasets and Current Challenges.
US10803248B1 (en) Consumer insights analysis using word embeddings
US11030539B1 (en) Consumer insights analysis using word embeddings
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
US10685184B1 (en) Consumer insights analysis using entity and attribute word embeddings
US20180239790A1 (en) Provision device, provision method and non-transitory computer readable storage medium
Blanchard et al. Extraction of Visual Information to Predict Crowdfunding Success
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
Kim et al. # ShoutYourAbortion on Instagram: exploring the visual representation of hashtag movement and the public’s responses
Chishti et al. Identify Website Personality by Using Unsupervised Learning Based on Quantitative Website Elements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant