CN110619070B - 文章生成方法和装置 - Google Patents

文章生成方法和装置 Download PDF

Info

Publication number
CN110619070B
CN110619070B CN201810565298.9A CN201810565298A CN110619070B CN 110619070 B CN110619070 B CN 110619070B CN 201810565298 A CN201810565298 A CN 201810565298A CN 110619070 B CN110619070 B CN 110619070B
Authority
CN
China
Prior art keywords
account information
webpage
data
comment
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810565298.9A
Other languages
English (en)
Other versions
CN110619070A (zh
Inventor
黄俊衡
陈思姣
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810565298.9A priority Critical patent/CN110619070B/zh
Publication of CN110619070A publication Critical patent/CN110619070A/zh
Application granted granted Critical
Publication of CN110619070B publication Critical patent/CN110619070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提出一种文章生成方法和装置。该方法包括:监测交互数据中是否包括关注账户信息,所述交互数据包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系;如果监测到所述交互数据中所述与交互行为有关的账户信息中包括所述关注账户信息,则根据所述关注账户信息对应的网页信息获取原网页;从原网页获取第一素材和第二素材;以及根据所述第一素材和所述第二素材生成文章。本发明实施例能够从互联网的海量数据中自动搜索交互数据中是否包括关注账户信息,根据关注账户信息对应的网页信息找到原网页,从原网页中获取生成文章所需的素材以生成与关注账户信息相关的文章,可以提高文章生成速度和数量多,成本低,时效性高。

Description

文章生成方法和装置
技术领域
本发明涉及数据处理领域,尤其涉及一种文章生成方法和装置。
背景技术
明星行为类的文章获取的常规方法是依赖自媒体或者雇佣写手去编写高质量的文章。由于依赖自媒体和写手,产出的文章量少且耗费大,因此,文章量少,成本高。而且,明星文章来源单一,具有一定局限性。当前,大多数明星都有社交网络账号并且会经常对其内容进行更新和维护,因此社交网络上通常会记载有大量的明星信息。然而,从社交网络等的历史内容中进行人工筛选明星信息需要耗费大量的时间和精力,往往无法及时传递文章结果,时效性不高。
发明内容
本发明实施例提供一种文章生成方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种文章生成方法,包括:
监测交互数据中是否包括关注账户信息,所述交互数据包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系;
如果监测到所述交互数据中所述与交互行为有关的账户信息中包括所述关注账户信息,则根据所述关注账户信息对应的网页信息获取原网页;
从原网页获取第一素材和第二素材;以及
根据所述第一素材和所述第二素材生成文章。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,还包括:
将社交网络数据中的交互数据按照交互行为的类型分别存储到不同类型的行为库中,所述行为库中包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系,所述与交互行为相关的账户信息包括执行交互行为的账户信息和/或与交互行为相关的网页所属的账户信息。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,将社交网络数据按照交互行为的类型分别存储到不同类型的行为库中,包括以下至少一种方式:
如果所述交互行为的类型为评论,则将所述社交网络数据中的评论数据存储到数据库的评论表中,所述评论表中包括评论账户信息、被评论网页的标识和被评论网页所属的账户信息的对应关系;
如果所述交互行为的类型为转发,则将所述社交网络数据中的转发数据存储到数据库的转发表中,所述转发表中包括转发账户信息、被转发网页的标识和被转发网页所属的账户信息的对应关系;
如果所述交互行为的类型为点赞,则将所述社交网络数据中的点赞数据存储到数据库的点赞表中,所述点赞表中包括点赞账户信息、被点赞网页的标识和被点赞网页所属的账户信息的对应关系。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第三种实现方式中,监测交互数据中是否包括关注账户信息,包括:
根据关注账户信息字典,查找所述行为库中的所述执行交互行为的账户信息和/或所述与交互行为相关的网页所属的账户信息中是否包括关注账户信息。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第四种实现方式中,从原网页获取第一素材和第二素材,包括:
对原网页进行截图以获取第一素材;
对原网页中的评论数据进行筛选以获取第二素材。
结合第一方面的第四种实现方式,本发明实施例在第一方面的第五种实现方式中,对原网页进行截图以获取第一素材,包括:
采用截图工具对原网页进行截图;
采用充图工具对截取的图片进行充图后,得到所述第一素材。
结合第一方面的第四种实现方式,本发明实施例在第一方面的第六种实现方式中,对原网页中的评论数据进行筛选以得到第二素材,包括:
抓取原网页中的评论数据;
将抓取的评论数据输入预先训练的评论筛选模型中,筛选出优质评论,所述优质评论为所述第二素材。
结合第一方面的第六种实现方式,本发明实施例在第一方面的第七种实现方式中,还包括:
采用朴素贝叶斯算法预先训练评论筛选模型;其中,所述评论筛选模型用于对输入的评论数据进行评分,根据评分结果筛选出优质评论。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第八种实现方式中,根据所述第一素材和所述第二素材生成文章,包括:
按照设定模板来根据所述第一素材和所述第二素材生成文章。
第二方面,本发明实施例提供了文章生成装置,包括:
监测模块,用于监测交互数据中是否包括关注账户信息,所述交互数据包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系;
网页获取模块,用于如果监测到所述交互数据中所述与交互行为有关的账户信息中包括所述关注账户信息,则根据所述关注账户信息对应的网页信息获取原网页;
素材获取模块,用于从原网页获取第一素材和第二素材;
文章生成模块,用于根据所述第一素材和所述第二素材生成文章。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,还包括:
存储模块,用于将社交网络数据中的交互数据按照交互行为的类型分别存储到不同类型的行为库中,所述行为库中包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系,所述与交互行为相关的账户信息包括执行交互行为的账户信息和/或与交互行为相关的网页所属的账户信息。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述存储模块包括以下子模块的至少一个:
第一存储子模块,用于如果所述交互行为的类型为评论,则将所述社交网络数据中的评论数据存储到数据库的评论表中,所述评论表中包括评论账户信息、被评论网页的标识和被评论网页所属的账户信息的对应关系;
第二存储子模块,如果所述交互行为的类型为转发,则将所述社交网络数据中的转发数据存储到数据库的转发表中,所述转发表中包括转发账户信息、被转发网页的标识和被转发网页所属的账户信息的对应关系;
第三存储子模块,如果所述交互行为的类型为点赞,则将所述社交网络数据中的点赞数据存储到数据库的点赞表中,所述点赞表中包括点赞账户信息、被点赞网页的标识和被点赞网页所属的账户信息的对应关系。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第三种实现方式中,所述监测模块还用于根据关注账户信息字典,查找所述行为库中的所述执行交互行为的账户信息和/或所述与交互行为相关的网页所属的账户信息中是否包括关注账户信息。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第四种实现方式中,所述素材获取模块包括:
第一素材获取子模块,用于对原网页进行截图以获取第一素材;
第二素材获取子模块,用于对原网页中的评论数据进行筛选以获取第二素材。
结合第二方面的第四种实现方式,本发明实施例在第二方面的第五种实现方式中,所述第一素材获取子模块包括:
截图子模块,用于采用截图工具对原网页进行截图;
充图子模块,用于采用充图工具对截取的图片进行充图后,得到所述第一素材。
结合第二方面的第四种实现方式,本发明实施例在第二方面的第六种实现方式中,所述第二素材获取子模块包括:
抓取子模块,用于抓取原网页中的评论数据;
筛选子模块,用于将抓取的评论数据输入预先训练的评论筛选模型中,筛选出优质评论,所述优质评论为所述第二素材。
结合第二方面的第六种实现方式,本发明实施例在第二方面的第七种实现方式中,还包括:
模型训练模块,用于采用朴素贝叶斯算法预先训练评论筛选模型;其中,所述评论筛选模型用于对输入的评论数据进行评分,根据评分结果筛选出优质评论。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第八种实现方式中,所述文章生成模块还用于按照设定模板来根据所述第一素材和所述第二素材生成文章。
第三方面,本发明实施例提供了一种文章生成装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,文章生成装置的结构中包括处理器和存储器,所述存储器用于存储支持文章生成装置执行上述文章生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述文章生成装置还可以包括通信接口,用于文章生成装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储文章生成装置所用的计算机软件指令,其包括用于执行上述文章生成方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:能够从互联网的海量数据中自动搜索交互数据中是否包括关注账户信息,根据关注账户信息对应的网页信息找到原网页,从原网页中获取生成文章所需的素材以生成与关注账户信息相关的文章。与人工编辑相比,可以提高文章生成速度,生成文章数量多,成本低,时效性高。
上述技术方案中的另一个技术方案具有如下优点或有益效果:由于文章的数据来源广泛,得到的文章内容更加证全面、丰富。此外,还能够同时监控大量的关注账户信息,效率高且能满足对各种账户信息的关注需求。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的文章生成方法的流程图。
图2示出根据本发明实施例的文章生成方法的流程图。
图3示出根据本发明实施例的文章生成方法的流程图。
图4示出根据本发明实施例的文章生成方法的应用示例的示意图。
图5示出根据本发明实施例的自动合成的文章的示例图。
图6示出根据本发明实施例的文章生成装置的框图。
图7示出根据本发明实施例的文章生成装置的框图。
图8示出根据本发明实施例的文章生成装置的框图。
图9示出根据本发明实施例的文章生成装置的框图。
图10示出根据本发明实施例的装置的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的文章生成方法的流程图。如图1所示,该方法包括:
步骤S110、监测交互数据中是否包括关注账户信息,所述交互数据包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系;
步骤S120、如果监测到所述交互数据中所述与交互行为有关的账户信息中包括所述关注账户信息,则根据所述关注账户信息对应的网页信息获取原网页;
步骤S130、从原网页获取第一素材和第二素材;以及
步骤S140、根据所述第一素材和所述第二素材生成文章。
在本实施例中,社交网络可以包括通过互联网建立的人与人能够交流的平台。例如:微博、博客、QQ、微信、人人网、facebook等。社交网络数据可以包括社交网络上的各种数据例如:登陆网站的账户信息、好友、黑名单等相关信息、发布的文章、文章的评论、转发、点赞等。账户信息可以包括但不限于使用社交网络功能时所用的账户号码、账户名称等能够唯一标识用户账号的标识符。
交互数据中可以包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系。其中,与交互行为相关的账户信息可以包括执行交互行为的账户信息和/或与交互行为相关的网页所属的账户信息。按照交互行为的类型可以将交互数据分为转发数据、评论数据、点赞数据等。
例如,转发数据可以包括:执行转发行为的账户信息(可以简称转发账户信息)、被转发网页的标识(根据该标识可以转换得到网页链接)、被转发网页的所属的账户信息(可以简称被转发账户信息)。转发数据中还可以包括但不限于被转发网页的内容、转发量等中的一项或者多项。
再如,评论数据可以包括:执行评论行为的账户信息(可以简称评论账户信息)和被评论网页的标识、被评论网页的所属的账户信息(可以简称被评论账户信息)。评论数据还可以包括但不限于被评论网页的内容、评论量、评论内容等中的一项或者多项。
再如,点赞数据可以包括:执行点赞行为的账户信息(可以简称点赞账户信息)和被点赞网页的标识、被点赞网页的所属的账户信息(可以简称被点赞账户信息)。点赞数据还可以包括但不限于被点赞网页的内容、点赞量等中的一项或者多项。
在一种可能的实现方式中,如图2所示,该方法还包括步骤S100,将社交网络数据中的交互数据按照交互行为的类型分别存储到不同类型的行为库中,所述行为库中包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系,所述与交互行为相关的账户信息包括执行交互行为的账户信息和/或与交互行为相关的网页所属的账户信息。步骤S100具体可以包括:
如果所述交互行为的类型为评论,则将所述社交网络数据中的评论数据存储到数据库的评论表中,所述评论表中包括评论账户信息、被评论网页的标识和被评论网页所属的账户信息的对应关系;
如果所述交互行为的类型为转发,则将所述社交网络数据中的转发数据存储到数据库的转发表中,所述转发表中包括转发账户信息、被转发网页的标识和被转发网页所属的账户信息的对应关系;
如果所述交互行为的类型为点赞,则将所述社交网络数据中的点赞数据存储到数据库的点赞表中,所述点赞表中包括点赞账户信息、被点赞网页的标识和被点赞网页所属的账户信息的对应关系。
在本发明实施例中,可以实时接入社交网络数据,将社交网络数据中的转发数据、评论数据、点赞数据分别存入数据库例如NewSQL(New Structured Query Language,优化的结构化查询语言)数据库的若干表中,例如转发表、评论表和点赞表,其中,表的数目可以根据实际监测要求和环境进行选择。
举例而言,如果原始数据为protobuf(一种数据交换格式)的格式,为了加速数据的传递,可以将数据反protobuf化,然后依照转发和评论相关的数据分别存入NewSQL数据库的转发表和评论表。
转发表、评论表或点赞表,可以按照一定的规则存储转发、评论、点赞相关的数据。例如,将某一账户信息和该账户信息所转发的各个网页的标识关联地存储到转发表中。再如,将某一账户信息和该账户信息所转发的各个网页的原始发表账户信息关联地存储到转发表中。再如,将某一账户信息和该账户信息所评论的各个网页的标识关联地存储到评论表中。再如,将某一网页中包括的评论内容与该网页所属账户信息等关联地存储到评论表中。
在一种可能的实现方式中,步骤S110包括:根据关注账户信息字典,查找所述行为库中的所述执行交互行为的账户信息和/或所述与交互行为相关的网页所属的账户信息中是否包括关注账户信息。
可以预先建立关注账户信息字典,关注账户信息字典可以包括需要关注的多个账户信息(即关注账户信息)的基本信息,例如需要关注的各个明星的社交网站账户信息的账户号码、用户名、昵称等信息。根据关注账户信息字典,对评论表、转发表、点赞表定时或不定时的扫描。如果发现评论表、转发表或点赞表中包括关注账户信息字典中的某一个或多个关注账户信息,则表示该账户信息执行了转发、评论或点赞行为。然后,可以根据该账户信息在评论表、转发表、点赞表中对应的网页标识转换得到网页链接,根据网页链接查找并打开该账户信息转发、评论或点赞的原网页。
在一种可能的实现方式中,如图3所示,步骤S130包括:
步骤S131、对原网页进行截图以获取第一素材。
步骤S132、对原网页中的评论数据进行筛选以获取第二素材。
其中,步骤S131和步骤S132可以没有时序限定,既可以先执行步骤S131,也可以先执行步骤S132,或者二者同时执行。
在一种可能的实现方式中,如图3所示,步骤S131具体可以包括:采用截图工具对原网页进行截图;采用充图工具对截取的图片进行充图后,得到第一素材。
举例而言,根据网页链接打开原网页后,可以采用截图工具例如casperjs(是一个开源的导航脚本处理和测试工具,基于前端自动化测试工具编写)对原网页进行截图。经过充图工具对截取的图片充图后,可以使用HTTP(HyperText Transfer Protocol,超文本传输协议)的形式打开。经过截图和充图得到的图片,可以作为后续进行文章合成时所使用的一种素材。
在一种可能的实现方式中,步骤S132具体可以包括:抓取原网页中的评论数据;将抓取的评论数据输入预先训练的评论筛选模型中,筛选出优质评论,所述优质评论为所述第二素材。
举例而言,根据网页链接打开原网页后,可以采用爬虫等方式抓取原网页中的评论数据,然后从抓取的评论数据中挑选出优质评论,作为生成文章的一种素材。
在一种可能的实现方式中,该方法还包括:
采用朴素贝叶斯算法预先训练评论筛选模型;其中,所述评论筛选模型用于对输入的评论数据进行评分,根据评分结果筛选出优质评论。
具体地,可以采用朴素贝叶斯算法,结合若干历史评论数据的样本,构建出用于给评论数据打分的模型。将从原网页抓取的评论数据的具体内容输入该模型,可以为每一条评论内容打分。假设分数越高,评论内容越优质,可以从多条评论内容中挑选出分数最高的几条例如20条,作为优质评论。
在一种可能的实现方式中,该方法还包括:预先设置一些合成文章所用的模板。然后在步骤S110中,按照设定模板来根据所述第一素材和所述第二素材生成文章。例如,将上述截图、充图后得到的第一素材,以及筛选评论的得到的第二素材,按照选定的模板,生成文章。模板的形式可以有多种,本发明实施例中不做限定。例如:可以在文章上部放图片相关的第一素材,下部放评论相关的第二素材。再如,可以在文章左边放图片相关的第一素材,右边放评论相关的第二素材。模板还可以支持自由调整,允许编辑者删除、修改其中合成的部分内容。由于根据与关注账户信息的交互行为找到的原网页,且第一素材、第二素材来自于原网页的截图或评论,因此,第一素材、第二素材与关注账户信息的交互行为相关性较强。根据第一素材和第二素材合成得到的文章与关注账户信息的交互行为相关性较强。
采用本实施例的文章生成方法,能够从互联网的海量数据中自动搜索交互数据中是否包括关注账户信息,根据关注账户信息对应的网页信息找到原网页,从原网页中获取生成文章所需的素材以生成与关注账户信息相关的文章。与人工编辑相比,可以提高文章生成速度,生成文章数量多,成本低,时效性高。进一步地,由于文章的数据来源广泛,得到的文章内容更加证全面、丰富。此外,还能够同时监控大量的关注账户信息,效率高且能满足对各种账户信息的关注需求。
图4示出根据本发明实施例的文章生成方法的应用示例的示意图。如图4所示,以利用微博数据自动合成明星相关文章为例,对本发明实施例的文章生成方法进行说明。
本实施例从微博平台实时接入全部微博用户数据。首先,将全部微博用户数据流实时存储到微博评论库和微博转发库中。结合明星账户信息字典,可查询出明星的行为数据。然后利用截图和充图工具,对明星微博截图取证。接着获取用户对明星的评论数据,并经过训练好的优质评论筛选模型,挑选出优质评论。最后在文章生成模块,结合人工模板,自动生成文章。
具体的,在一个示例中,该方法可以通过以下模块实现:
微博数据实时接入模块1:
与微博合作,实时接入用户微博数据,主要获取微博的内容、转发和评论的数据。可以将protobuf格式的原始数据反protobuf化,以加速数据的传递,并依照转发和评论分别存入NewSQL数据库的转发表和评论表中。
明星行为数据检索模块2:
结合明星账号字典,定时对数据库中的若干表:转发表、评论表和点赞表等,进行扫描。根据明星是否执行了转发、评论或点赞其他微博的行为进行搜索,直到返回一篇或者以上该明星的转发、评论或点赞的数据。
明星微博截图及充图模块3:
获取到明星在微博上的转发、评论或点赞数据后,根据表中对应的微博页标识得到对应的链接,对该明星的微博页进行截图留证。例如采用casperjs工具截图。截下来的图再经过例如知识图谱部门充图的充图工具后,可以采用http的形式打开。
评论数据抓取及筛选模块4:
在获取到微博页链接后,可以抓取该微博页的微博内容对应的评论数据。然后挑选优质的评论数据,作为生成文章的素材。其中,优质评论筛选模块可以使用朴素贝叶斯算法进行训练,用于给评论打分,挑选优质的评论。
文章生成模块5:
基于微博数据实时接入模块1、明星行为数据检索模块2、明星微博截图及充图模块3、和评论数据抓取及筛选模块4,获取了生成一篇文章的素材后,可以结合设定的模板,即可生成文章。合成效果可以参见图5的自动合成的文章的示例。
在互联网用户生成信息爆发的时代,从海量微博数据中挖掘出明星微博,利用明星转发和评论行为生成一篇明星行为的文章,具有巨大的商业价值。采用本发明实施例的文章生成方法,能够实时的挖掘出高质量的文章,满足用户实时浏览高质量文章的需求,提升相关产品的商业价值。
图6示出根据本发明实施例的文章生成装置的框图。如图6所示,该装置可以包括:
监测模块610,用于监测交互数据中是否包括关注账户信息,所述交互数据包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系;
网页获取模块620,用于如果监测到所述交互数据中所述与交互行为有关的账户信息中包括所述关注账户信息,则根据所述关注账户信息对应的网页信息获取原网页;
素材获取模块630,用于从原网页获取第一素材和第二素材;
文章生成模块640,用于根据所述第一素材和所述第二素材生成文章。
在一种可能的实现方式中,如图7所示,该装置还包括:
存储模块700,用于将社交网络数据中的交互数据按照交互行为的类型分别存储到不同类型的行为库中,所述行为库中包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系,所述与交互行为相关的账户信息包括执行交互行为的账户信息和/或与交互行为相关的网页所属的账户信息。
在一种可能的实现方式中,所述存储模块700包括以下子模块的至少一个:
第一存储子模块710,用于如果所述交互行为的类型为评论,则将所述社交网络数据中的评论数据存储到数据库的评论表中,所述评论表中包括评论账户信息、被评论网页的标识和被评论网页所属的账户信息的对应关系;
第二存储子模块720,如果所述交互行为的类型为转发,则将所述社交网络数据中的转发数据存储到数据库的转发表中,所述转发表中包括转发账户信息、被转发网页的标识和被转发网页所属的账户信息的对应关系;
第三存储子模块730,如果所述交互行为的类型为点赞,则将所述社交网络数据中的点赞数据存储到数据库的点赞表中,所述点赞表中包括点赞账户信息、被点赞网页的标识和被点赞网页所属的账户信息的对应关系。
在一种可能的实现方式中,所述监测模块610还用于根据关注账户信息字典,查找所述行为库中的所述执行交互行为的账户信息和/或所述与交互行为相关的网页所属的账户信息中是否包括关注账户信息。
在一种可能的实现方式中,如图8所示,
素材获取模块630包括:
第一素材获取子模块631,用于对原网页进行截图以获取第一素材;
第二素材获取子模块632,用于对原网页中的评论数据进行筛选以获取第二素材。
在一种可能的实现方式中,第一素材获取子模块631包括:
截图子模块,用于采用截图工具对原网页进行截图;
充图子模块,用于采用充图工具对截取的图片进行充图后,得到所述第一素材。
在一种可能的实现方式中,第二素材获取子模块632包括:
抓取子模块,用于抓取原网页中的评论数据;
筛选子模块,用于将抓取的评论数据输入预先训练的评论筛选模型中,筛选出优质评论,所述优质评论为所述第二素材。
在一种可能的实现方式中,如图9所示,该装置还包括:
模型训练模块800,用于采用朴素贝叶斯算法预先训练评论筛选模型;其中,所述评论筛选模型用于对输入的评论数据进行评分,根据评分结果筛选出优质评论。
在一种可能的实现方式中,所述文章生成模块还用于按照设定模板来根据所述第一素材和所述第二素材生成文章。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图10示出根据本发明实施例的装置的框图。如图10所示,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的广告作弊的识别方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明各部分可用硬件、软件、固件或它们的组合实现。在上述实施方式中,多个步骤或方法可用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种文章生成方法,其特征在于,包括:
监测交互数据中是否包括关注账户信息,所述交互数据包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系,其中,所述与交互行为相关的账户信息包括执行交互行为的账户信息和与交互行为相关的网页所属的账户信息;
如果监测到所述交互数据中所述与交互行为有关的账户信息中包括所述关注账户信息,则根据所述关注账户信息对应的网页信息获取原网页;
从原网页获取第一素材和第二素材;以及
根据所述第一素材和所述第二素材生成文章。
2.根据权利要求1所述的方法,其特征在于,还包括:
将社交网络数据中的交互数据按照交互行为的类型分别存储到不同类型的行为库中,所述行为库中包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系。
3.根据权利要求2所述的方法,其特征在于,将社交网络数据按照交互行为的类型分别存储到不同类型的行为库中,包括以下至少一种方式:
如果所述交互行为的类型为评论,则将所述社交网络数据中的评论数据存储到数据库的评论表中,所述评论表中包括评论账户信息、被评论网页的标识和被评论网页所属的账户信息的对应关系;
如果所述交互行为的类型为转发,则将所述社交网络数据中的转发数据存储到数据库的转发表中,所述转发表中包括转发账户信息、被转发网页的标识和被转发网页所属的账户信息的对应关系;
如果所述交互行为的类型为点赞,则将所述社交网络数据中的点赞数据存储到数据库的点赞表中,所述点赞表中包括点赞账户信息、被点赞网页的标识和被点赞网页所属的账户信息的对应关系。
4.根据权利要求2所述的方法,其特征在于,监测交互数据中是否包括关注账户信息,包括:
根据关注账户信息字典,查找所述行为库中的所述执行交互行为的账户信息和/或所述与交互行为相关的网页所属的账户信息中是否包括关注账户信息。
5.根据权利要求1至4中任一项所述的方法,其特征在于,从原网页获取第一素材和第二素材,包括:
对原网页进行截图以获取第一素材;
对原网页中的评论数据进行筛选以获取第二素材。
6.根据权利要求5所述的方法,其特征在于,对原网页进行截图以获取第一素材,包括:
采用截图工具对原网页进行截图;
采用充图工具对截取的图片进行充图后,得到所述第一素材。
7.根据权利要求5所述的方法,其特征在于,对原网页中的评论数据进行筛选以得到第二素材,包括:
抓取原网页中的评论数据;
将抓取的评论数据输入预先训练的评论筛选模型中,筛选出优质评论,所述优质评论为所述第二素材。
8.根据权利要求7所述的方法,其特征在于,还包括:
采用朴素贝叶斯算法预先训练评论筛选模型;其中,所述评论筛选模型用于对输入的评论数据进行评分,根据评分结果筛选出优质评论。
9.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述第一素材和所述第二素材生成文章,包括:
按照设定模板来根据所述第一素材和所述第二素材生成文章。
10.一种文章生成装置,其特征在于,包括:
监测模块,用于监测交互数据中是否包括关注账户信息,所述交互数据包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系,其中,所述与交互行为相关的账户信息包括执行交互行为的账户信息和与交互行为相关的网页所属的账户信息;
网页获取模块,用于如果监测到所述交互数据中所述与交互行为有关的账户信息中包括所述关注账户信息,则根据所述关注账户信息对应的网页信息获取原网页;
素材获取模块,用于从原网页获取第一素材和第二素材;
文章生成模块,用于根据所述第一素材和所述第二素材生成文章。
11.根据权利要求10所述的装置,其特征在于,还包括:
存储模块,用于将社交网络数据中的交互数据按照交互行为的类型分别存储到不同类型的行为库中,所述行为库中包括与交互行为相关的账户信息以及与交互行为相关的网页信息的对应关系。
12.根据权利要求11所述的装置,其特征在于,所述存储模块包括以下子模块的至少一个:
第一存储子模块,用于如果所述交互行为的类型为评论,则将所述社交网络数据中的评论数据存储到数据库的评论表中,所述评论表中包括评论账户信息、被评论网页的标识和被评论网页所属的账户信息的对应关系;
第二存储子模块,如果所述交互行为的类型为转发,则将所述社交网络数据中的转发数据存储到数据库的转发表中,所述转发表中包括转发账户信息、被转发网页的标识和被转发网页所属的账户信息的对应关系;
第三存储子模块,如果所述交互行为的类型为点赞,则将所述社交网络数据中的点赞数据存储到数据库的点赞表中,所述点赞表中包括点赞账户信息、被点赞网页的标识和被点赞网页所属的账户信息的对应关系。
13.根据权利要求11所述的装置,其特征在于,所述监测模块还用于根据关注账户信息字典,查找所述行为库中的所述执行交互行为的账户信息和/或所述与交互行为相关的网页所属的账户信息中是否包括关注账户信息。
14.根据权利要求10至13中任一项所述的装置,其特征在于,所述素材获取模块包括:
第一素材获取子模块,用于对原网页进行截图以获取第一素材;
第二素材获取子模块,用于对原网页中的评论数据进行筛选以获取第二素材。
15.根据权利要求14所述的装置,其特征在于,所述第一素材获取子模块包括:
截图子模块,用于采用截图工具对原网页进行截图;
充图子模块,用于采用充图工具对截取的图片进行充图后,得到所述第一素材。
16.根据权利要求14所述的装置,其特征在于,所述第二素材获取子模块包括:
抓取子模块,用于抓取原网页中的评论数据;
筛选子模块,用于将抓取的评论数据输入预先训练的评论筛选模型中,筛选出优质评论,所述优质评论为所述第二素材。
17.根据权利要求16所述的装置,其特征在于,还包括:
模型训练模块,用于采用朴素贝叶斯算法预先训练评论筛选模型;其中,所述评论筛选模型用于对输入的评论数据进行评分,根据评分结果筛选出优质评论。
18.根据权利要求10至13中任一项所述的装置,其特征在于,所述文章生成模块还用于按照设定模板来根据所述第一素材和所述第二素材生成文章。
19.一种文章生成装置,其特征在于,所述文章生成装置包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至9中任一项所述的方法。
20.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至9中任一项所述的方法。
CN201810565298.9A 2018-06-04 2018-06-04 文章生成方法和装置 Active CN110619070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810565298.9A CN110619070B (zh) 2018-06-04 2018-06-04 文章生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810565298.9A CN110619070B (zh) 2018-06-04 2018-06-04 文章生成方法和装置

Publications (2)

Publication Number Publication Date
CN110619070A CN110619070A (zh) 2019-12-27
CN110619070B true CN110619070B (zh) 2022-05-10

Family

ID=68919827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810565298.9A Active CN110619070B (zh) 2018-06-04 2018-06-04 文章生成方法和装置

Country Status (1)

Country Link
CN (1) CN110619070B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6546393B1 (en) * 1999-10-07 2003-04-08 Clickmarks, Inc. System method and article of manufacture for dynamically user-generated internet search directory based on prioritized server-sided user bookmarks

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516917B (zh) * 2013-09-30 2019-10-11 腾讯科技(北京)有限公司 一种获取社区信息的方法及装置
US9858249B2 (en) * 2013-11-08 2018-01-02 Yahoo Holdings, Inc. Media forums for presenting and managing user generated content regarding articles presented on websites
CN104063476A (zh) * 2014-06-30 2014-09-24 北京奇虎科技有限公司 基于社交网络的内容推荐方法和系统
CN105447028B (zh) * 2014-08-27 2019-06-28 阿里巴巴集团控股有限公司 识别特征账号的方法及装置
US9720901B2 (en) * 2015-11-19 2017-08-01 King Abdulaziz City For Science And Technology Automated text-evaluation of user generated text
CN107102976A (zh) * 2017-03-23 2017-08-29 北京大学 基于微博的娱乐新闻自动构建技术与系统
CN107656918B (zh) * 2017-05-10 2019-07-05 平安科技(深圳)有限公司 获取目标用户的方法及装置
CN107657056B (zh) * 2017-10-18 2022-02-18 北京百度网讯科技有限公司 基于人工智能展示评论信息的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6546393B1 (en) * 1999-10-07 2003-04-08 Clickmarks, Inc. System method and article of manufacture for dynamically user-generated internet search directory based on prioritized server-sided user bookmarks

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
微信写作:从社交应用到新闻生成;李红秀;《西南民族大学学报(人文社科版)》;20170310(第03期);172-176 *
面向新闻文档的微博生成算法研究与实现;张立健;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160115;I138-955 *

Also Published As

Publication number Publication date
CN110619070A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN108121795B (zh) 用户行为预测方法及装置
US7730409B2 (en) Method and system for visualizing weblog social network communities
Papadopoulou et al. A corpus of debunked and verified user-generated videos
US20110078206A1 (en) Tagging method and apparatus based on structured data set
Mödritscher Towards a recommender strategy for personal learning environments
CN101395606A (zh) 关系标签的创建和利用
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
CN106096037A (zh) 基于人工智能的搜索结果聚合方法、装置以及搜索引擎
CN108959595B (zh) 基于虚拟与现实的网站构建和体验方法及其装置
Drinkwater et al. The use of Optical Character Recognition (OCR) in the digitisation of herbarium specimen labels
CN105677927A (zh) 用于提供搜索结果的方法和装置
Münster et al. Digital topics on cultural heritage investigated: how can data-driven and data-guided methods support to identify current topics and trends in digital heritage?
CN104268192A (zh) 一种网页信息提取方法、装置及终端
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN110909768B (zh) 一种标注数据获取方法及装置
Bildosola et al. An approach for modelling and forecasting research activity related to an emerging technology
Fiol-Roig et al. Data mining techniques for web page classification
CN113468431B (zh) 基于用户行为的内容推荐方法及装置
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN110619070B (zh) 文章生成方法和装置
KR20230096932A (ko) Ai 기반의 소셜 네트워크 서비스 분석 장치
CN105786929B (zh) 一种信息监测方法及装置
CN115828862A (zh) 数据处理方法、文本显示方法、数据处理系统及设备
CN115269771A (zh) 一种基于语义的大数据分析系统
CN104778282B (zh) 一种iptv机顶盒浏览器的网页容错方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant