CN109033050B - 文章生成方法、设备及存储介质 - Google Patents

文章生成方法、设备及存储介质 Download PDF

Info

Publication number
CN109033050B
CN109033050B CN201810700644.XA CN201810700644A CN109033050B CN 109033050 B CN109033050 B CN 109033050B CN 201810700644 A CN201810700644 A CN 201810700644A CN 109033050 B CN109033050 B CN 109033050B
Authority
CN
China
Prior art keywords
question
target
preset
answer data
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810700644.XA
Other languages
English (en)
Other versions
CN109033050A (zh
Inventor
蒋帅
陈思姣
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810700644.XA priority Critical patent/CN109033050B/zh
Publication of CN109033050A publication Critical patent/CN109033050A/zh
Application granted granted Critical
Publication of CN109033050B publication Critical patent/CN109033050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文章生成方法、设备及存储介质,该方法包括:基于知识图谱确定目标兴趣点;采用目标兴趣点,对全网问答数据进行标注,得到目标问答数据;对目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章。本发明实施例可以在有效提高热门问答文章的质量的同时,进一步提升生成热门问答文章时效性。

Description

文章生成方法、设备及存储介质
技术领域
本发明实施例涉及互联网技术,尤其涉及一种文章生成方法、设备及存储介质。
背景技术
在互联网信息爆炸的时代,围绕网络数据展开的趋势性应用和产品受到广泛关注。例如,问答本身具备可持续更新的特点,再加上其独有的趣味性和吸引力,使得生成的文章也具有很高的可读性。
在相关技术中,主要通过人工挑选兴趣点;再根据这些兴趣点收集问答数据;然后,根据人工筛选出的问答数据归纳出问答数据的摘要;最后,将多个问答数据的摘要拼凑为热门问答文章。
上述生成热门问答文章的方法,虽然一定程度上可以得到较好质量的热门问答文章,但通过人工编辑问答文章至少存在时效性差的缺点。
发明内容
本发明实施例提供一种文章生成方法、设备及存储介质,可以在有效提高热门问答文章的质量的同时,进一步提升生成热门问答文章时效性。
第一方面,本发明实施例提供一种文章生成方法,包括:
基于知识图谱确定目标兴趣点;
采用所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据;
对所述目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章。
在一种可能的设计中,所述采用所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据之前,还包括:
根据第一预设模型从全网问答库中滤除低质量问题;
根据滤除后的结果确定目标问题;
相应地,所述采用所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据,包括:采用所述目标兴趣点,对全网中所述目标问题对应的问答数据进行标注,得到目标问答数据。
在一种可能的设计中,所述第一预设模型是根据以下特征中的任一个或多个训练得到的:
广告;
违反法律法规的预设词;
问题字数少于预设字数;
回答数量少于预设条数。
在一种可能的设计中,所述基于知识图谱确定目标兴趣点,包括:
基于百科词条数据,结合第二预设模型训练得到目标词条,所述第二预设模型以热度信息作为特征进行训练获得;
对所述目标词条进行实体挖掘,得到候选实体集,其中,所述候选实体集包括至少一个候选兴趣点;
采用预设统计方法对所述候选实体集进行去杂质处理,并归一得到唯一实体集;
以新闻源数据作为样本,采用所述唯一实体集做标注,将命中率大于预设值的实体作为所述目标兴趣点。
在一种可能的设计中,所述预设统计方法包括词频-逆文本频率指数 tf-idf。
在一种可能的设计中,所述采用所述目标兴趣点,对全网中所述目标问题对应的问答数据进行标注,得到目标问答数据,包括:
根据预设打分方式,计算所述目标兴趣点的分数;
若所述目标兴趣点的分数大于或等于预设阈值,采用所述目标兴趣点,对全网中所述目标问题对应的问答数据进行标注,得到目标问答数据;
其中,所述预设打分方式包括以下步骤:
对所述目标问题对应的问答数据的标题和正文进行切词处理;
确定所述目标兴趣点在所述标题中的词频,及所述目标兴趣点在所述正文中的词频;
根据所述问答数据中标题对应的第一预设贡献度、所述目标兴趣点在所述标题中的词频、所述问答数据中正文对应的第二预设贡献度、所述目标兴趣点在所述正文中的词频,计算所述目标兴趣点的分数。
在一种可能的设计中,所述根据预设打分方式,计算所述目标兴趣点的分数之后,还包括:若所述目标兴趣点的分数小于所述预设阈值,结束生成基于所述目标兴趣点的热门问答文章。
在一种可能的设计中,所述对所述目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章,包括:
根据所述目标问答数据生成摘要;
基于知识图谱,根据所述目标兴趣点对所述摘要进行聚合处理;
结合所述预设文章模板,根据聚合处理后的结果生成热门问答文章。
在一种可能的设计中,所述结合所述预设文章模板,根据聚合处理后的结果生成热门问答文章之前,还包括:
根据第三预设模型对所述目标问答数据进行筛选处理,所述第三预设模型是根据广告、违反法律法规的预设词、字数少于第二预设字数、点赞总量少于第一预设数值、图片少于第二预设数值中的任一个或多个训练得到的;
相应地,所述结合所述预设文章模板,根据聚合处理后的结果生成热门问答文章,包括:结合所述预设文章模板,根据筛选处理后的结果生成热门问答文章。
第二方面,本发明实施例提供一种文章生成装置,包括:
第一确定模块,用于基于知识图谱确定目标兴趣点;
标注模块,用于采用所述第一确定模块确定的所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据;
文章生成模块,用于对所述标注模块得到的所述目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章。
在一种可能的设计中,还包括:第二确定模块,用于在所述第一确定模块采用所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据之前,根据第一预设模型从全网问答库中滤除低质量问题;并,根据滤除后的结果确定目标问题;
相应地,所述标注模块具体用于:采用所述目标兴趣点,对全网中所述目标问题对应的问答数据进行标注,得到目标问答数据。
在一种可能的设计中,所述第一预设模型是根据以下特征中的任一个或多个训练得到的:
广告;
违反法律法规的预设词;
问题字数少于预设字数;
回答数量少于预设条数。
在一种可能的设计中,所述第一确定模块具体用于:
基于百科词条数据,结合第二预设模型训练得到目标词条,所述第二预设模型以热度信息作为特征进行训练获得;
对所述目标词条进行实体挖掘,得到候选实体集,其中,所述候选实体集包括至少一个候选兴趣点;
采用预设统计方法对所述候选实体集进行去杂质处理,并归一得到唯一实体集;
以新闻源数据作为样本,采用所述唯一实体集做标注,将命中率大于预设值的实体作为所述目标兴趣点。
在一种可能的设计中,所述预设统计方法包括词频-逆文本频率指数 tf-idf。
在一种可能的设计中,所述标注模块具体用于:
根据预设打分方式,计算所述目标兴趣点的分数;
若所述目标兴趣点的分数大于或等于预设阈值,采用所述目标兴趣点,对全网中所述目标问题对应的问答数据进行标注,得到目标问答数据。
其中,所述预设打分方式包括以下步骤:
对所述目标问题对应的问答数据的标题和正文进行切词处理;
确定所述目标兴趣点在所述标题中的词频,及所述目标兴趣点在所述正文中的词频;
根据所述问答数据中标题对应的第一预设贡献度、所述目标兴趣点在所述标题中的词频、所述问答数据中正文对应的第二预设贡献度、所述目标兴趣点在所述正文中的词频,计算所述目标兴趣点的分数。
在一种可能的设计中,所述标注模块还用于:在根据预设打分方式,计算所述目标兴趣点的分数之后,若所述目标兴趣点的分数小于所述预设阈值,结束生成基于所述目标兴趣点的热门问答文章。
在一种可能的设计中,所述文章生成模块包括:
摘要生成单元,用于根据所述目标问答数据生成摘要;
聚合处理单元,用于基于知识图谱,根据所述目标兴趣点对所述摘要进行聚合处理;
文章生成单元,用于结合所述预设文章模板,根据聚合处理后的结果生成热门问答文章。
在一种可能的设计中,所述文章生成模块还包括:
筛选处理单元,用于在所述文章生成单元结合所述预设文章模板,根据聚合处理后的结果生成热门问答文章之前,根据第三预设模型对所述目标问答数据进行筛选处理,所述第三预设模型是根据广告、违反法律法规的预设词、字数少于第二预设字数、点赞总量少于第一预设数值、图片少于第二预设数值中的任一个或多个训练得到的;
相应地,所述文章生成单元具体用于:结合所述预设文章模板,根据筛选处理后的结果生成热门问答文章。
第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如第一方面任一项所述的文章生成方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的文章生成方法。
本发明实施例提供的文章生成方法、设备及存储介质,基于知识图谱确定目标兴趣点;之后,采用目标兴趣点,对全网问答数据进行标注,得到目标问答数据;最后,对目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章。由于目标兴趣点是设备基于知识图谱确定的,因此,目标兴趣点的选取相比相关技术更客观;另外,由设备通执行上述文章生成方法,使得生成热门问答文章时效性较好,且根据与目标兴趣点相关度较高的目标问答数据生成热门问答文章,可以有效提高热门问答文章的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的文章生成方法的流程示意图;
图2为本发明一实施例中热门问答文章的界面示例图;
图3为本发明一实施例中对第一预设模型的应用示例图;
图4为本发明另一实施例提供的文章生成方法的流程示意图;
图5为本发明又一实施例提供的文章生成方法的流程示意图;
图6为本发明又一实施例提供的文章生成方法的流程示意图;
图7为本发明一实施例提供的文章生成装置的结构示意图;
图8为本发明另一实施例提供的文章生成装置的结构示意图;
图9为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通过相关技术生成的热门问答文章,仅简单列出问题和回答,不但内容比较单调,而且没有充分利用热门兴趣点对读者的吸引力及针对性。为了将热门兴趣点的优质问答资源更高效的分发到感兴趣的用户,需要利用问答资源生产热门问答文章;为了能够更全面和丰富的为用户提供热门兴趣点的优质问答资源,需要利用聚合处理技术,将全网涉及热门兴趣点的问题和答案,筛选聚合后生成热门问答文章,再分发给用户。所以,针对热门兴趣点的热门问答文章生成就显得至关重要。
基于上述,本发明实施例提供一种文章生成方法、设备及存储介质,利用知识图谱的全网挖掘能力,结合热门兴趣点挖掘、聚合处理技术等,快速、高效的生成基于兴趣点的热门问答文章。
本发明实施例可以应用在文章自动生成项目中,作为文章生成算法 (AlgorithmGenerated Content,简称:AGC)的重要方向,每天可持续产出 300多文章,并在feed流和百家号中展示,给大量用户提供阅读的需求。上述应用场景仅为示例说明,不对本发明实施例构成限制,还可以将生成的热门问答文章通过其他个性化推荐系统分发给用户。
图1为本发明一实施例提供的文章生成方法的流程示意图。本发明实施例提供一种文章生成方法,该文章生成方法的执行主体可以为文章生成装置。该文章生成装置可以通过软件和/或硬件的方式实现,其中,硬件例如为处理器或电子设备,软件例如为计算机程序指令或应用程序等。该文章生成装置可以为一独立的电子设备,或者,该文章生成装置可以集成在电子设备中。其中,电子设备例如是计算机或服务器等设备。本实施例中以执行主体为服务器进行举例说明。
具体地,服务器包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。
如图1所示,该文章生成方法包括以下步骤:
S101、基于知识图谱确定目标兴趣点。
该步骤利用知识图谱的全网挖掘能力,确定有价值、关注度高的目标兴趣点。其中,该目标兴趣点即为如前所述的热门兴趣点。
S102、采用目标兴趣点,对全网问答数据进行标注,得到目标问答数据。
由于全网问答数据的数据量庞大,人工标注耗时较长,严重影响时效性,因此,本发明实施例通过设备自动化标注,从而提高时效性。
具体地,针对每一目标兴趣点,采用该目标兴趣点,对全网问答数据进行逐一标注,获得标注有该目标兴趣点的问答数据,作为目标问答数据。
可选地,为进一步提高时效性,可以在标注有该目标兴趣点的问答数据中选取目标兴趣点出现次数大于某一固定数值的问答数据,作为目标问答数据。其中,该固定数值可以根据历史经验值进行设置,本发明实施例不予限制。
S103、对目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章。
其中,预设文章模板是任意的。例如,预设文章模板可以包括标题、图片、阅读量、评论次数、文章生成时间等元素中的任意组合。参考图2,示出多个根据预设文章模板生成的热门问答文章,该热门问答文章包括标题31、图片32、阅读量33、评论次数34和文章生成时间35,其中,图片32的个数为至少一个。此处仅为示例说明。
另外,对于聚合处理,可以理解,将多个目标问答数据拼凑为一个。
本发明实施例,基于知识图谱确定目标兴趣点;之后,采用目标兴趣点,对全网问答数据进行标注,得到目标问答数据;最后,对目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章。由于目标兴趣点是设备基于知识图谱确定的,因此,目标兴趣点的选取相比相关技术更客观;另外,由设备执行上述文章生成方法,使得生成热门问答文章时效性较好,且根据与目标兴趣点相关度较高的目标问答数据生成热门问答文章,可以有效提高热门问答文章的质量。
可选地,S102、采用目标兴趣点,对全网问答数据进行标注,得到目标问答数据之前,还可以包括:根据第一预设模型从全网问答库中滤除低质量问题;并,根据滤除后的结果确定目标问题。
其中,全网问答库包括全网问答数据。本步骤基于全网问答数据,经由第一预设模型过滤掉低质量问题,并在滤除后的结果中确定目标问题,该目标问题为适合作为热门问答文章的问题。因此,第一预设模型的作用是从海量的问答数据中过滤掉低质量问题,从而有助于筛选出有价值的目标问题。
具体地,第一预设模型的输入可以为全网问答数据,输出可以为对全网问答数据的分类。该步骤通过第一预设模型对全网的问答数据进行分类,从而过滤掉低质的问题。
可选地,该第一预设模型是根据以下特征中的任一个或多个训练得到的:广告;违反法律法规的预设词;问题字数少于预设字数;回答数量少于预设条数,等等。其中,违反法律法规的预设词例如可以为黄反、色情、反动、反恐等。
可以理解,在训练第一预设模型时,采用的特征越多,通过得到的第一预设模型确定目标问题效果更好,可以进一步提升所生成热门问答文章的质量。
在本发明一示例性实施例中,如图3所示,首先构建广告、违反法律法规的预设词词典;然后统计问答数据命中广告、违反预设词词典的词频,并作为第一预设模型其中两项特征;另外,选取问题字数少于预设字数(例如 15)、回答数量少于预设条数(例如3)的特征作为第一预设模型另两个特征;最后针对每条问答数据,满足以上四项特征的数据判做低质数据直接过滤掉,并在剩下的问答数据中确定目标问题。
基于上述,S102、采用目标兴趣点,对全网问答数据进行标注,得到目标问答数据,可以包括:采用目标兴趣点,对目标问题对应的问答数据进行标注,得到目标问答数据。
图4为本发明另一实施例提供的文章生成方法的流程示意图。参考图4,在图1所示流程的基础上,S101、基于知识图谱确定目标兴趣点,可以包括:
S401、基于百科词条数据,结合第二预设模型训练得到目标词条。
其中,该第二预设模型以热度信息作为特征进行训练获得。具体地,热度信息可以包括但不限于:总热度、一时间段的热度,例如,当日热度和当月热度等。热度是指被用户点击的次数,或被用户用以搜索的次数。
可以理解,第二预设模型用于在百科词条数据中选取满足某些特征的目标词条,该些特征为训练第二预设模型时设置的特征。
S402、对目标词条进行实体挖掘,得到候选实体集。
其中,该候选实体集可以包括至少一个候选兴趣点。实体是指具有实际含义的事物,例如,实体可以指人,如教师、学生等;也可以指物,如书、仓库等。实体不仅可以指能触及的客观对象,还可以指抽象的事件,如演出、足球赛等。
S403、采用预设统计方法对候选实体集进行去杂质处理,并归一得到唯一实体集。
由于候选实体集中仍然会包含一些杂质及相似的数据,对确定热门问答几乎没有用,可以称这种词叫“应删除词”(Stopwords),也就是说在度量相关性时不应考虑这种词出现的频率。因此,可使用预设统计方法对候选实体集去杂质并归一得到唯一实体集。
在一些实施例中,预设统计方法可以具体为词频-逆文本频率指数(termfrequency–inverse document frequency,简称:tf-idf),但不以此为限。
其中,tf-idf是一种用于信息检索与数据挖掘的常用加权技术。其主要思想是:如果某个目标兴趣点在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此目标兴趣点具有很好的类别区分能力。示例地,包含目标兴趣点t的文章越少,也就是n越小,idf越大,则说明目标兴趣点t具有很好的类别区分能力。如果某一类文章C中包含目标兴趣点t的文章数为m,而其它类包含目标兴趣点t的文章总数为k,显然所有包含目标兴趣点t的文章数n=m+k,当m大的时候,n也大,idf的值会小,就说明该目标兴趣点t 类别区分能力不强。
S404、以新闻源数据作为样本,采用唯一实体集做标注,将命中率大于预设值的实体作为目标兴趣点。
对于唯一实体集中实体,虽然实体具有实际意义,但是并不适合作为热门问答文章的目标兴趣点,这就需要对唯一实体集做进一步优化处理。具体地,以大量新闻源数据作为样本,然后用唯一实体集做标注,最后将命中率高(命中率大于预设值)的实体作为最终的目标兴趣点。
通过上述步骤得到的目标兴趣点,为适合作为热门问答文章的兴趣点,以提高目标兴趣点的精确性。
参考图5,在上述基础上,可选地,S102、采用目标兴趣点,对全网问答数据进行标注,得到目标问答数据,可以包括:
S501、根据预设打分方式,计算目标兴趣点的分数。
其中,预设打分方式主要基于标题和正文的兴趣点贡献度,即标题对应的第一预设贡献度和正文对应的第二预设贡献度。具体地,该预设打分方式可以包括以下步骤:
对全网中目标问题对应的问答数据的标题和正文进行切词处理;
确定目标兴趣点在标题中的词频,及目标兴趣点在正文中的词频;
根据问答数据中标题对应的第一预设贡献度、目标兴趣点在标题中的词频、问答数据中正文对应的第二预设贡献度、目标兴趣点在正文中的词频,计算目标兴趣点的分数。
示例性地,设定标题对应的第一预设贡献度为Wi,正文对应的第二预设贡献度为Wj,目标兴趣点在标题中的词频为Ni,目标兴趣点在正文中的词频为Nj,则该目标兴趣点得分为:Score=Wi×Ni+Wj×Nj
S502、若目标兴趣点的分数大于或等于预设阈值,采用该目标兴趣点,对全网中目标问题对应的问答数据进行标注,得到目标问答数据。
例如,设定预设阈值则采用此目标兴趣点对该问答数据进行批注,得到目标问答数据。
可选地,可以结合hadoop集群,并根据预设打分方式,计算目标兴趣点的分数,并在目标兴趣点的分数大于或等于预设阈值时,采用该目标兴趣点,对问答数据进行标注,得到目标问答数据。
作为补充,若目标兴趣点的分数小于预设阈值,则结束生成基于该目标兴趣点的热门问答文章。
图6为本发明又一实施例提供的文章生成方法的流程示意图。参考图6,在上述实施例的基础上,S103、对目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章,可以包括:
S601、根据目标问答数据生成摘要。
示例性地,可以采用改进的textrank算法,快速的生成阅读性强的目标问答数据的摘要。
S602、基于知识图谱,根据目标兴趣点对摘要进行聚合处理。
S603、结合预设文章模板,根据聚合处理后的结果生成热门问答文章。
针对同一目标兴趣点,可能会有多个目标问答数据。因此,在一些实施例中,可以选取目标问答数据的点赞总量以及所包含图片数量作为特征:选取图片数量不少于3张的目标问答数据按点赞总量逆序排列,并选取前3-5 个目标问答数据的摘要进行聚合处理。
进一步地,S603、结合预设文章模板,根据聚合处理后的结果生成热门问答文章之前,还可以包括:根据第三预设模型对目标问答数据进行筛选处理。其中,第三预设模型可以是根据广告、违反法律法规的预设词、字数少于第二预设字数、点赞总量少于第一预设数值、图片少于第二预设数值中的任一个或多个训练得到的。
相应地,S603、结合预设文章模板,根据聚合处理后的结果生成热门问答文章,可以包括:结合预设文章模板,根据筛选处理后的结果生成热门问答文章。
该实施例中,针对每个目标问题数据,先过滤低质回答:命中广告、违反法律法规的预设词,字数少于10字等;然后,同样按照点赞总量进行逆序排列,并选取第一个或多个目标回答数据作为该目标问题的优质回答数据,进行聚合处理。
由于目标兴趣点数量庞大,而且全网的问答数据也是海量,所以生成的热门回答文章也很多,因此,在高效的分布式集群下,可以保证热门问答文章的时效性。
图7为本发明一实施例提供的文章生成装置的结构示意图。本发明实施例提供一种文章生成装置,该文章生成装置可以通过软件和/或硬件的方式实现,其中,硬件例如为处理器或电子设备,软件例如为计算机程序指令或应用程序等。该文章生成装置可以为一独立的电子设备,或者,该文章生成装置可以集成在电子设备中。其中,电子设备例如是计算机或服务器等设备。本实施例中以执行主体为服务器进行举例说明。
具体地,服务器包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。
如图7所示,该文章生成装置70包括:第一确定模块71、标注模块72 和文章生成模块73。其中,
该第一确定模块71,用于基于知识图谱确定目标兴趣点。
该标注模块72,用于采用第一确定模块71确定的所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据。
该文章生成模块73,用于对标注模块72得到的目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章。
本实施例提供的文章生成装置,可用于执行上述如图1所示的方法实施例,其实现方式和技术效果类似,本实施例此处不再赘述。
可选地,该文章生成装置70还可以包括:第二确定模块(未示出),用于在第一确定模块71采用所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据之前,根据第一预设模型从全网问答库中滤除低质量问题;并,根据滤除后的结果确定目标问题。
相应地,标注模块72可具体用于:采用所述目标兴趣点,对全网中目标问题对应的问答数据进行标注,得到目标问答数据。
在一些实施例中,上述第一预设模型可以是根据以下特征中的任一个或多个训练得到的:
广告;
违反法律法规的预设词;
问题字数少于预设字数;
回答数量少于预设条数,等等。
可选地,第一确定模块71可具体用于:
基于百科词条数据,结合第二预设模型训练得到目标词条,该第二预设模型以热度信息作为特征进行训练获得;
对目标词条进行实体挖掘,得到候选实体集,其中,该候选实体集包括至少一个候选兴趣点;
采用预设统计方法对候选实体集进行去杂质处理,并归一得到唯一实体集;
以新闻源数据作为样本,采用唯一实体集做标注,将命中率大于预设值的实体作为目标兴趣点。
在上述实施例中,预设统计方法可以包括tf-idf等。
进一步地,标注模块72可具体用于:根据预设打分方式,计算目标兴趣点的分数;若目标兴趣点的分数大于或等于预设阈值,采用该目标兴趣点,对全网中目标问题对应的问答数据进行标注,得到目标问答数据。
其中,该预设打分方式可以包括以下步骤:
1、对目标问题对应的问答数据的标题和正文进行切词处理;
2、确定目标兴趣点在标题中的词频,及目标兴趣点在正文中的词频;
3、根据问答数据中标题对应的第一预设贡献度、目标兴趣点在标题中的词频、问答数据中正文对应的第二预设贡献度、目标兴趣点在正文中的词频,计算目标兴趣点的分数。
进一步地,标注模块72还可以用于:在根据预设打分方式,计算目标兴趣点的分数之后,若目标兴趣点的分数小于预设阈值,结束生成基于该目标兴趣点的热门问答文章。
图8为本发明另一实施例提供的文章生成装置的结构示意图。如图8所示,在图7所示结构的基础上,文章生成模块73可以包括:
摘要生成单元81,用于根据所述目标问答数据生成摘要。
聚合处理单元82,用于基于知识图谱,根据目标兴趣点对摘要生成单元 81生成的摘要进行聚合处理。
文章生成单元83,用于结合预设文章模板,根据经聚合处理单元82聚合处理后的结果生成热门问答文章。
可选地,文章生成模块73还可以包括:
筛选处理单元84,用于在文章生成单元83结合预设文章模板,根据聚合处理后的结果生成热门问答文章之前,根据第三预设模型对目标问答数据进行筛选处理。其中,第三预设模型是根据广告、违反法律法规的预设词、字数少于第二预设字数、点赞总量少于第一预设数值、图片少于第二预设数值等特征中的任一个或多个训练得到的。
相应地,此时,文章生成单元83可具体用于:结合预设文章模板,根据筛选处理后的结果生成热门问答文章。
图9为本发明一实施例提供的电子设备的结构示意图。如图9所示,该电子设备90包括:处理器91和存储器92。
存储器92存储计算机执行指令。
处理器91执行存储器92存储的计算机执行指令,使得处理器91执行如上所述的文章生成方法。
处理器91的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
可选地,该电子设备90还包括通信部件93。其中,处理器91、存储器 92以及通信部件93可以通过总线94连接。电子设备90通过通信部件93与外界进行通信交互。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上所述的文章生成方法。
在上述的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文: Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器 (PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种文章生成方法,其特征在于,包括:
基于知识图谱确定目标兴趣点;
采用所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据;
对所述目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章;
所述采用所述目标兴趣点,对全网中目标问题对应的问答数据进行标注,得到目标问答数据,包括:
根据预设打分方式,计算所述目标兴趣点的分数;
若所述目标兴趣点的分数大于或等于预设阈值,采用所述目标兴趣点,对全网中所述目标问题对应的问答数据进行标注,得到目标问答数据;
其中,所述预设打分方式包括以下步骤:
对全网中所述目标问题对应的问答数据的标题和正文进行切词处理;
确定所述目标兴趣点在所述标题中的词频,及所述目标兴趣点在所述正文中的词频;
根据所述问答数据中标题对应的第一预设贡献度、所述目标兴趣点在所述标题中的词频、所述问答数据中正文对应的第二预设贡献度、所述目标兴趣点在所述正文中的词频,计算所述目标兴趣点的分数。
2.根据权利要求1所述的方法,其特征在于,所述采用所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据之前,还包括:
根据第一预设模型从全网问答库中滤除低质量问题;
根据滤除后的结果确定目标问题;
相应地,所述采用所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据,包括:采用所述目标兴趣点,对全网中所述目标问题对应的问答数据进行标注,得到目标问答数据。
3.根据权利要求2所述的方法,其特征在于,所述第一预设模型是根据以下特征中的任一个或多个训练得到的:
广告;
违反法律法规的预设词;
问题字数少于预设字数;
回答数量少于预设条数。
4.根据权利要求1所述的方法,其特征在于,所述基于知识图谱确定目标兴趣点,包括:
基于百科词条数据,结合第二预设模型训练得到目标词条,所述第二预设模型以热度信息作为特征进行训练获得;
对所述目标词条进行实体挖掘,得到候选实体集,其中,所述候选实体集包括至少一个候选兴趣点;
采用预设统计方法对所述候选实体集进行去杂质处理,并归一得到唯一实体集;
以新闻源数据作为样本,采用所述唯一实体集做标注,将命中率大于预设值的实体作为所述目标兴趣点。
5.根据权利要求4所述的方法,其特征在于,所述预设统计方法包括词频-逆文本频率指数tf-idf。
6.根据权利要求1所述的方法,其特征在于,所述根据预设打分方式,计算所述目标兴趣点的分数之后,还包括:
若所述目标兴趣点的分数小于所述预设阈值,结束生成基于所述目标兴趣点的热门问答文章。
7.根据权利要求1所述的方法,其特征在于,所述对所述目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章,包括:
根据所述目标问答数据生成摘要;
基于知识图谱,根据所述目标兴趣点对所述摘要进行聚合处理;
结合所述预设文章模板,根据聚合处理后的结果生成热门问答文章。
8.根据权利要求7所述的方法,其特征在于,所述结合所述预设文章模板,根据聚合处理后的结果生成热门问答文章之前,还包括:
根据第三预设模型对所述目标问答数据进行筛选处理,所述第三预设模型是根据广告、违反法律法规的预设词、字数少于第二预设字数、点赞总量少于第一预设数值、图片少于第二预设数值中的任一个或多个训练得到的;
相应地,所述结合所述预设文章模板,根据聚合处理后的结果生成热门问答文章,包括:结合所述预设文章模板,根据筛选处理后的结果生成热门问答文章。
9.一种文章生成装置,其特征在于,包括:
第一确定模块,用于基于知识图谱确定目标兴趣点;
标注模块,用于采用所述第一确定模块确定的所述目标兴趣点,对全网问答数据进行标注,得到目标问答数据;
文章生成模块,用于对所述标注模块得到的所述目标问答数据进行聚合处理,并基于预设文章模板生成热门问答文章;
所述标注模块可具体用于:根据预设打分方式,计算所述目标兴趣点的分数;
若所述目标兴趣点的分数大于或等于预设阈值,采用所述目标兴趣点,对全网中目标问题对应的问答数据进行标注,得到目标问答数据;
其中,所述预设打分方式包括以下步骤:
对全网中所述目标问题对应的问答数据的标题和正文进行切词处理;
确定所述目标兴趣点在所述标题中的词频,及所述目标兴趣点在所述正文中的词频;
根据所述问答数据中标题对应的第一预设贡献度、所述目标兴趣点在所述标题中的词频、所述问答数据中正文对应的第二预设贡献度、所述目标兴趣点在所述正文中的词频,计算所述目标兴趣点的分数。
10.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至8任一项所述的文章生成方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的文章生成方法。
CN201810700644.XA 2018-06-29 2018-06-29 文章生成方法、设备及存储介质 Active CN109033050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810700644.XA CN109033050B (zh) 2018-06-29 2018-06-29 文章生成方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810700644.XA CN109033050B (zh) 2018-06-29 2018-06-29 文章生成方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109033050A CN109033050A (zh) 2018-12-18
CN109033050B true CN109033050B (zh) 2019-12-17

Family

ID=65521008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810700644.XA Active CN109033050B (zh) 2018-06-29 2018-06-29 文章生成方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109033050B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399466A (zh) * 2019-08-01 2019-11-01 北京百度网讯科技有限公司 问答数据的筛选方法、装置、设备以及存储介质
CN112508612B (zh) * 2020-12-11 2024-02-27 北京搜狗科技发展有限公司 训练广告创意生成模型、生成广告创意的方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294861A (zh) * 2016-08-23 2017-01-04 武汉烽火普天信息技术有限公司 面向大规模数据的情报系统中文本聚合及展现方法及系统
CN107220352A (zh) * 2017-05-31 2017-09-29 北京百度网讯科技有限公司 基于人工智能构建评论图谱的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231634B (zh) * 2007-12-29 2011-05-04 中国科学院计算技术研究所 一种多文档自动文摘方法
US9396485B2 (en) * 2009-12-24 2016-07-19 Outbrain Inc. Systems and methods for presenting content
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
CN107748802A (zh) * 2017-11-17 2018-03-02 北京百度网讯科技有限公司 文章聚合方法及装置
CN108153723B (zh) * 2017-12-27 2021-10-19 北京百度网讯科技有限公司 热点资讯评论文章生成方法、装置及终端设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294861A (zh) * 2016-08-23 2017-01-04 武汉烽火普天信息技术有限公司 面向大规模数据的情报系统中文本聚合及展现方法及系统
CN107220352A (zh) * 2017-05-31 2017-09-29 北京百度网讯科技有限公司 基于人工智能构建评论图谱的方法和装置

Also Published As

Publication number Publication date
CN109033050A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
US10860811B2 (en) Method and device for generating review article of hot news, and terminal device
US10726297B2 (en) Systems and methods for identifying semantically and visually related content
JP5662961B2 (ja) レビュー処理方法およびシステム
WO2021047237A1 (zh) 一种up主匹配方法及装置
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
CN110334356B (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN109511015B (zh) 多媒体资源推荐方法、装置、存储介质及设备
US20150310392A1 (en) Job recommendation engine using a browsing history
CN108509479B (zh) 实体推荐方法及装置、终端及可读存储介质
TW201033823A (en) Systems and methods for analyzing electronic text
US11049029B2 (en) Identifying content appropriate for children algorithmically without human intervention
CN113961823B (zh) 新闻推荐方法、系统、存储介质及设备
Wang et al. Bilateral correspondence model for words-and-pictures association in multimedia-rich microblogs
Chen et al. Search engine reinforced semi-supervised classification and graph-based summarization of microblogs
CN112911326A (zh) 弹幕信息处理方法、装置、电子设备和存储介质
CN109033050B (zh) 文章生成方法、设备及存储介质
CN104881447A (zh) 搜索方法及装置
KR102718286B1 (ko) 검열된 미디어 코퍼스에의 통합을 위한 미디어 소스 측정
CN108563713B (zh) 关键词规则生成方法及装置和电子设备
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
Amiri et al. Research topics and trends of the hashtag recommendation domain
CN111813936A (zh) 基于深度学习的新闻资讯呈现方法及相关设备
CN111782880B (zh) 语义泛化方法及显示设备
GB2608112A (en) System and method for providing media content
CN113282789A (zh) 内容的显示方法及装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant