CN110555199A - 基于热点素材的文章生成方法、装置、设备及存储介质 - Google Patents

基于热点素材的文章生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110555199A
CN110555199A CN201810558291.4A CN201810558291A CN110555199A CN 110555199 A CN110555199 A CN 110555199A CN 201810558291 A CN201810558291 A CN 201810558291A CN 110555199 A CN110555199 A CN 110555199A
Authority
CN
China
Prior art keywords
preset
hotspot
target
article
articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810558291.4A
Other languages
English (en)
Other versions
CN110555199B (zh
Inventor
陈奇石
陈思姣
梁海金
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810558291.4A priority Critical patent/CN110555199B/zh
Publication of CN110555199A publication Critical patent/CN110555199A/zh
Application granted granted Critical
Publication of CN110555199B publication Critical patent/CN110555199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种基于热点素材的文章生成方法、装置、设备及存储介质,通过获取目标文本,基于预设的素材提取策略从目标文本中提取用于生成文章的热点素材,基于预先设定的素材提取策略与文章类型之间的关联关系,采用上述获得的热点素材生成相应类型的文章。由于在本申请实施例中不同的素材提取策略对应不同的文章类型,因而能够确保基于素材提取策略提取获得热点素材能够用于生成该素材提取策略所对应的文章类型的文章,从而保证了挖掘出的热点素材的可用性,并实现了基于热点素材生成热点文章的目的。

Description

基于热点素材的文章生成方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种基于热点素材的文章生成方法、装置、设备及存储介质。
背景技术
当前人工智能技术正以前所未有的速度发展,其中人工智能文章写作技术(简称agc)是人工智能重要的应用之一。不论是发文数量,还是文章阅读量,agc均做出了巨大的贡献。但是当前agc并没有一种热点挖掘技术,用来指导agc生成和发布更热门的文章。
现有的热点挖掘方法是通过从微博、新闻、用户搜索的关键词或语句中提取中心词汇,再通过统计各中心词汇出现的次数,提取出现次数满足要求的中心词汇作为热点素材,但是由于该种热点挖掘方法没有从生成文章的角度考虑,导致挖掘出的热点素材仅包含词汇本身,并不包含词汇的其他信息(比如词汇所属的词汇类型灯),而这些与词汇相关的信息能够指导agc采用何种策略生成何种类型的文章,因此,现有技术挖掘出的热点素材一般无法应用到agc中自动生成文章。
发明内容
本申请实施例提供一种基于热点素材的文章生成方法、装置、设备及存储介质,用以基于热点素材生成热点文章。
本申请实施例第一方面提供一种基于热点素材的文章生成方法,包括:获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词;基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,其中所述热点素材是指关注度高于预设阈值的素材;基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
本申请实施例第二方面提供一种基于热点素材的文章生成装置,包括:获取模块,用于获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词;提取模块,用于基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,其中所述热点素材是指关注度高于预设阈值的素材;生成模块,用于基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的方法。
基于以上各方面,本申请实施例通过获取目标文本,基于预设的素材提取策略从目标文本中提取用于生成文章的热点素材,基于预先设定的素材提取策略与文章类型之间的关联关系,采用上述获得的热点素材生成相应类型的文章。由于在本申请实施例中不同的素材提取策略对应不同的文章类型,因而能够确保基于素材提取策略提取获得热点素材能够用于生成该素材提取策略所对应的文章类型的文章,从而保证了挖掘出的热点素材的可用性,并实现了基于热点素材生成热点文章的目的。
应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。
附图说明
图1是本申请实施例提供的一种基于热点素材的文章生成方法的流程图;
图2是本申请实施例提供的一种基于热点素材的文章生成方法的流程图;
图3是本申请实施例提供的一种基于热点素材的文章生成方法的流程图;
图4是本申请实施例提供的一种基于热点素材的文章生成方法的流程图;
图5是本申请实施例提供的一种基于热点素材的文章生成方法的流程图;
图6是本申请实施例提供的一种基于热点素材的文章生成方法的流程图;
图7是本申请实施例提供的一种基于热点素材的文章生成装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,下面首先对本申请实施例涉及的名词进行解释:
1、实体,是指物理世界中真实存在的能够看得见摸得到的物体,比如,足球,xx明星等,但不局限于示例中的这些物体。
2、实体词汇,是指在物理世界中存在对应实体的词汇。
3、概念词汇,是指具有一定领域粒度的词汇,或者也可以说是包括领域范畴的词汇,比如,“人工智能”、“大数据”等。
4、热点素材,是指关注度高于预设阈值的素材,热点素材至少可以包括如下素材中的一种:实体词汇、概念词汇、语句、词汇的组合。
5、热点文章,是指基于热点素材生成的文章。
图1是本申请实施例提供的一种基于热点素材的文章生成方法的流程图,该方法可以由一种基于热点素材的文章生成装置来执行。参见图1,该方法包括步骤S11-S13:
S11、获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词。
其中,本实施例中可以基于如下几种设计获取目标文本:
在一种可能的设计中,可以通过对搜索引擎进行监控,获取搜索频率超过第一预设阈值的关键词和/或语句,并基于这些关键词和/或语句,从数据库或者网络媒体上获取包括该些关键词和/或语句的文章,将该些关键词和/或语句,以及文章作为目标文本。甚至出于处理效率的考虑,本实施例在获取到上述文章之后,还可以在上述文章的标题与上述关键词和/或语句之间进行相似度,将文章标题与关键词和/或语句之间的相似度作为文章与关键词和/或语句之间的相关程度,从而将关键词和/或语句,以及与关键词和/或语句之间的相关程度高于第二预设阈值的文章作为目标文本。
在另一种可能的设计中,可以先从预设的一个或多个数据库中获取如下文本中的至少一种:关键词、文章、语句、问答数据。再对获取到的文本进行聚类操作,得到由文本组成的聚类簇,这些聚类簇中包括的文本数量可以不同,当聚类簇中包括的文本数量超过第三预设阈值时,则认为该聚类簇中包括热点素材,因而将该些聚类簇中的文本作为目标文本。或者为了提高处理效率,还可以根据预设的选择策略从上述文本数满足条件的每个聚类簇中获取预设数量的文本作为目标文本。
这里需要说明的是上述两种获取目标文本的方式,仅是为了清楚说明而列举的两种最有可能采用的方式,但是并不是所有方式。
S12、基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,其中所述热点素材是指关注度高于预设阈值的素材。
本实施例中针对不同文章类型设定不同的素材提取策略,其中,每个素材提取策略提取获得的素材均可以用于生成其所对应的文章类型的文章。素材提取策略的制定方法本实施例中不做限定,只要能够确保提取出的热点素材可以用于生成相应类型的文章即可。
本实施例中的文章类型可以根据需要进行划分,而不局限于某一种特定的划分方式。
S13、基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
在获取到热点素材之后,首先从预设的数据库或者网络媒体上获取包含热点素材的多篇文章。进一步的,再基于预先配置的质量工具分析文章的质量,过滤掉质量低于标准的文章。使用摘要工具从过滤剩下的文章中提取内容,并基于预先设定的素材提取策略与文章类型之间的关联关系,确定热点素材对应的文章类型,并调取预先设定的与该文章类型匹配的排版策略,基于该排版策略对提取获得的内容进行排版生成文章。或者为了提高处理效率,降低计算量,本实施例在滤掉质量低于标准的文章后,还可以基于预设策略从剩下的文章中提取预设数量的文本,进一步的再使用摘要工具从该些文本中提取内容,并执行后续的文章生成步骤。也就是说,上述基于热点素材生成文章的方法可以概括性的表述为:获取包括热点素材的文章,基于获取到的文章,以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。
本实施例通过获取目标文本,基于预设的素材提取策略从目标文本中提取用于生成文章的热点素材,基于预先设定的素材提取策略与文章类型之间的关联关系,采用上述获得的热点素材生成相应类型的文章。由于在本实施例中不同的素材提取策略对应不同的文章类型,因而能够确保基于素材提取策略提取获得热点素材能够用于生成该素材提取策略所对应的文章类型的文章,从而保证了挖掘出的热点素材的可用性,并实现了基于热点素材生成热点文章的目的。
下面结合附图对上述实施例进行进一步的优化和扩展。
图2是本申请实施例提供的一种基于热点素材的文章生成方法的流程图。如图2所示,在图1实施例的基础上,该方法包括步骤S21-S23.
S21、获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词。
S22、从所述目标文本中提取实体词汇,以及所述实体词汇所属的实体类型,将所述实体词汇和所述实体词汇所属的实体类型作为热点素材,其中,所述实体词汇是指在物理世界中存在对应实体的词汇。
其中,本实施例可以基于预设的实体提取工具从目标文本中提取实体词汇,该实体提取工具可以是现有技术提供的任意一种,比如,斯坦福大学提供的实体提供工具stanfordnlp和百度提供的实体提取工具kg-egl等,但不局限于这两种工具。本实施例以kg-egl为例,该工具不但能够从文本中提取出实体词汇还能够与网络平台相关联,获取该实体词汇的释义以及词性等信息,并且在kg-egl的输出信息中包含有一个特定的字段,该字段存储的是实体词汇的类型信息,通过对该字段携带的信息进行判断就可以获得实体词汇的对应实体类型,比如,kg-egl提取出的实体词汇为“高铁”则在该字段中存储的类型信息则为“交通工具”。当然这里仅为示例说明而不是唯一限定。
另外,为了避免针对同一热点素材反复生成多次热点文章,避免资源浪费,本实施例可以设置一个数据库用于存储历史挖掘获得的热点素材。当挖掘到新的热点资素材后,首先,要将该热点资素材与上述数据库中的热点素材进行比较,若数据库中不存在该热点素材,则保存该热点素材,并基于该热线素材生成热点文章,否则删除该热点素材。
S23、基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
本实施例通过实体提取工具从目标文本中提取实体词汇以及实体词汇所属的实体类型,并将实体词汇和实体类型作为热点素材,基于该热点素材生成与实体相关的热点文章。从而实现了实体热点的挖掘,并使得挖掘出的实体热点可应用于生成与热点实体相关的文章。
图3是本申请实施例提供的一种基于热点素材的文章生成方法的流程图,如图3所示,在图1或图2实施例的基础上,该方法包括:
S31、获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词。
S32、从所述目标文本中提取概念词汇作为热点素材,其中所述概念词汇是指包括领域范畴的词汇。
本实施例中从目标文本中提取概念词汇的方法可以包括多种:
在一种可能的设计中,可以先对目标文本进行分词处理,从目标文本中获得特征词,进一步的,再分别将获取到的特征词与预设概念词汇库中的概念词汇进行匹配,当特征词与概念词汇库中的词匹配时,则判断该特征词为概念词汇。
在另一种可能的设计中,还可以预先配置上下位概念词库,该词库中预先存储词与词之间的上下位关系。在获得目标文本后,先基于分词处理获得特征词,再基于上下位概念词库确定特征词的上位概念路径长度是否小于预设的阈值,若是则确定特征词为概念词汇,否则确定不是。其中,词的上位概念路径是指词的上位概念,以及该上位概念的上位概念直至最顶层,如大数据->人工智能->计算机科学技术->学科,则人工智能->计算机科学技术->学科是大数据的上位路径。当然这里仅为示例说明而不是对上位路径的唯一限定。
这里需要说明的是上述两种概念词汇的提取方式,仅是为了清楚说明而列举的两种最有可能采用的方式,但是并不是所有方式。
S33、基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章
本实施例通过从目标文本中提取概念词汇作为热点素材,基于该热点素材生成与概念词汇相关的热点文章。从而实现了概念类热点的挖掘,以及相关热点文章的生成。
图4是本申请实施例提供的一种基于热点素材的文章生成方法的流程图,如图4所示,在图1或图2或图3实施例的基础上,该方法包括:
S41、获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词。
S42、基于预设依存分析工具从所述目标文本中提取目标语句作为热点素材,其中,所述目标语句包括预设句式结构,且所述目标语句的语句长度大于预设长度。
举例来说,假设目标文本包括多篇文章,则可以采用依存分析工具分别从每篇文章的标题中提取主谓结构,过滤掉标题中不包括主语和谓语的文章。若剩下的文章中存在标题长度超过预设长度的本章,则将该文章的标题作为热点素材。当目标文本中包括单独的语句时,其热点素材的提取方法与前述示例中的方法类似在这里不再赘述。
当然上述仅为示例说明而不是对本申请的唯一限定。
S43、基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
本实施例的有益效果与上述实施例类似在这里不再赘述。
图5是本申请实施例提供的一种基于热点素材的文章生成方法的流程图,如图5所示,在图1或图2或图3或图4实施例的基础上,该方法包括:
S51、获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词。
S52、基于预设的分类模型,从所述目标文本中提取包括目标词汇组合的文本,所述目标词汇组合是指形容词与实体词汇的组合。
S53、基于预设的模板挖掘工具从提取获得的文本中提取所述目标词汇组合作为热点素材。
S54、基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
举例来说,假设目标文本A包括N个文本,其中文本1包括词汇组合“出轨明星a”,文本2中包括词汇组合“出轨明星b”,则从目标文本中提取出文本1和文本2,进一步的,再从文本1和文本2中,提取出词汇组合“出轨明星a”和“出轨明星b”,并将词汇组合“出轨明星a”和“出轨明星b”作为热点素材。
进一步的,由于词汇组合“出轨明星a”和“出轨明星b”中实体词汇“明星a”和“明星b”的实体类型均为明星,则可以获取多个同属明星类别的其他实体词汇,这里以“明星c”和“明星d”为例,再将获取到的其他实体词分别与形容词“出轨”进行组合,形成新增的词汇组合“出轨,明星c”和“出轨,明星d”,基于“出轨明星a”、“出轨明星b”、“出轨,明星c”和“出轨,明星d”召回文章,并基于召回的文章以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。也就是说,也就是说,本实施例中基于热点素材生成文章的方法可以概括性的表述为:获取与所述目标词汇组合中的实体词汇属于同一实体类型的多个实体词汇;将所述目标词汇中的形容词分别于所述多个实体词汇进行组合,形成多个新增词汇组合;获取包括所述目标词汇组合或者所述新增词汇组合的文章;基于获取到的所述文章,以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。
本实施例的技术效果与前述实施例类似,在这里不再赘述。
图6是本申请实施例提供的一种基于热点素材的文章生成方法的流程图,如图6所示,在前述实施例的基础上,本实施例提供的方法包括:
S61、获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词;
S62、基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,其中所述热点素材是指关注度高于预设阈值的素材。
S63、基于预设的热度计算关系,确定所述热点素材的热度。
本实施例提供的热度计算关系可以包括如下几种,在计算热点素材的热度时可以从如下几种的计算关系中选择一种进行计算:
在一种可能的设计中,热度计算关系可以表示如下:
pv_weight*pv_num+doc_num*doc_weight
其中:pv_num为包含实体词汇的关键词和语句的搜索次数的总和。doc_num为包含前述实体词汇的文章的数量。pv_weight和doc_weight为权重值,是常数。
在另一种可能的设计中,热度计算关系可以表示如下:
pv_weight*(pv_numwordname+sum(pv_numinferior))+(doc_numwordname+sum(doc_numinferior))*doc_weight
其中:pv_numwordname为预设时间内包括目标概念词汇的关键词和语句的搜索次数的总和。inferior为概念词汇的上下位概念列表。sum(pv_numinferior)为预设时间内出现的包含inferior列表中的概念词汇的所有关键词和语句的数量之和。doc_numwordname包含目标概念词汇的文章的数量,sum(doc_numinferior)为在预设时间内包括inferior列表中的概念词汇的文章数量。
在又一种可能的设计中,热度计算关系可以表示如下:
pv_weight*pv_numqsim+doc_numqsim*doc_weight
其中:pv_numqsim为与目标实体词汇属于同一实体类型的所有词汇被搜索的次数之和。doc_numqsim为包括目标实体词汇或者与目标实体词汇属于同一实体类型的其他词汇的所有文章的数量。
在又一种可能的设计中,热度计算关系可以表示如下:
pv_weight*sum(pv_numdescription)+sum(doc_numdescription)*doc_weight
其中:sum(pv_numdescription)为所有包含目标词汇组合的关键词以及语句的数量之和。sum(doc_numdescription)为包含目标词汇组合的文章的数量。
S64、基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
S65、在存在多个热点素材时,按照热度由高到低的顺序,依次采用相应热度的热点素材,并基于预先设定的素材提取策略与文章类型之间的关联关系生成相应类型的文章。
举例来说,假设热点素材t对应的热度为90%,热点素材y对应的热度为80%,则先基于热点素材t生成文章,再基于热点素材y生成文章,在文章输出时,基于热点素材t生成的文章在文章列表的前面,基于热点素材y生成的文章在文章列表的后面。当然这里仅为示例说明而不是对本申请的唯一限定。
本实施例通过计算热点素材的热度,并基于热点素材的热度,先以热度高的热点素材生成高热度的文章再以热度低的热点素材生成低热度的文章,从而使得高热度的文章能够先输出,以满足用户的需求。
图7是本申请实施例提供的一种基于热点素材的文章生成装置的结构示意图,如图7所示,该装置包括:
获取模块71,用于获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词;
提取模块72,用于基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,其中所述热点素材是指关注度高于预设阈值的素材;
生成模块73,用于基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
其中,在一种可能的设计中,所述获取模块71包括:
第一获取子模块,用于获取搜索频率超过第一预设阈值的关键词和/或语句,以及包括所述关键词和/或语句的文章,将所述关键词和/或语句以及所述文章作为目标文本。
在一种可能的设计中,所述第一获取子模块,具体用于:
将所述关键词和/或语句,以及所述文章中与所述关键词和/或语句之间的相关程度超过第二预设阈值的文章作为目标文本。
在一种可能的设计中,所述获取模块71,包括:
第二获取子模块,用于获取如下文本中的至少一种:文章、语句、关键词;
聚类子模块,用于对获取到的文本进行聚类处理,获得文本的聚类簇;
设置子模块,用于将文本数量大于第三预设阈值的聚类簇中的文本设置为目标文本。
在一种可能的设计中,所述设置子模块,具体用于:
从文本数量大于第三预设阈值的聚类簇中选择预设个数的文本作为目标文本。
在一种可能的设计中,所述提取模块72,包括:
第一提取子模块,用于从所述目标文本中提取实体词汇,以及所述实体词汇所属的实体类型,将所述实体词汇和所述实体词汇所属的实体类型作为热点素材,其中,所述实体词汇是指在物理世界中存在对应实体的词汇。
在一种可能的设计中,所述提取模块72,包括:
第二提取子模块,用于从所述目标文本中提取概念词汇作为热点素材,其中所述概念词汇是指包括领域范畴的词汇。
在一种可能的设计中,所述提取模块72,包括:
第三提取子模块,用于基于预设依存分析工具从所述目标文本中提取目标语句作为热点素材,其中,所述目标语句包括预设句式结构,且所述目标语句的语句长度大于预设长度。
在一种可能的设计中,所述生成模块73,包括:
第三获取子模块,用于获取包括所述热点素材的文章;
第一生成子模块,用于基于所述文章,以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。
在一种可能的设计中,所述提取模块72,包括:
第四提取子模块,用于基于预设的分类模型,从所述目标文本中提取包括目标词汇组合的文本,所述目标词汇组合是指形容词与实体词汇的组合;
第五提取子模块,用于基于预设的模板挖掘工具从提取获得的文本中提取所述目标词汇组合作为热点素材。
在一种可能的设计中,所述生成模块73,包括:
第四获取子模块,用于获取与所述目标词汇组合中的实体词汇属于同一实体类型的多个实体词汇;
词汇组合子模块,用于将所述目标词汇中的形容词分别于所述多个实体词汇进行组合,形成多个新增词汇组合;
第五获取子模块,用于获取包括所述目标词汇组合或者所述新增词汇组合的文章;
第二生成子模块,用于基于获取到的所述文章,以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。
在一种可能的设计中,所述装置还包括:
确定模块,用于基于预设的热度计算关系,确定所述热点素材的热度;
所述生成模块73,包括:
第三生成子模块,用于在存在多个热点素材时,按照热度由高到低的顺序,依次采用相应热度的热点素材,并基于预先设定的素材提取策略与文章类型之间的关联关系生成相应类型的文章。
本实施例提供的装置能够用于执行上述实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
本申请实施例还提供一种计算机设备,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
本申请实施例还提供在一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述的方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (26)

1.一种基于热点素材的文章生成方法,其特征在于,包括:
获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词;
基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,其中所述热点素材是指关注度高于预设阈值的素材;
基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本,包括:
获取搜索频率超过第一预设阈值的关键词和/或语句,以及包括所述关键词和/或语句的文章,将所述关键词和/或语句以及所述文章作为目标文本。
3.根据权利要求2所述的方法,其特征在于,所述将所述关键词和/或语句以及所述文章作为目标文本,包括:
将所述关键词和/或语句,以及所述文章中与所述关键词和/或语句之间的相关程度超过第二预设阈值的文章作为目标文本。
4.根据权利要求1所述的方法,其特征在于,所述获取目标文本,包括:
获取如下文本中的至少一种:文章、语句、关键词;
对获取到的文本进行聚类处理,获得文本的聚类簇;
将文本数量大于第三预设阈值的聚类簇中的文本设置为目标文本。
5.根据权利要求4所述的方法,其特征在于,所述将文本数量大于第三预设阈值的聚类簇中的文本设置为目标文本,包括:
从文本数量大于第三预设阈值的聚类簇中选择预设个数的文本作为目标文本。
6.根据权利要求1所述的方法,其特征在于,所述基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,包括:
从所述目标文本中提取实体词汇,以及所述实体词汇所属的实体类型,将所述实体词汇和所述实体词汇所属的实体类型作为热点素材,其中,所述实体词汇是指在物理世界中存在对应实体的词汇。
7.根据权利要求1所述的方法,其特征在于,所述基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,包括:
从所述目标文本中提取概念词汇作为热点素材,其中所述概念词汇是指包括领域范畴的词汇。
8.根据权利要求1所述的方法,其特征在于,基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,包括:
基于预设依存分析工具从所述目标文本中提取目标语句作为热点素材,其中,所述目标语句包括预设句式结构,且所述目标语句的语句长度大于预设长度。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章,包括:
获取包括所述热点素材的文章;
基于所述文章,以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。
10.根据权利要求1所述的方法,其特征在于,所述基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,包括:
基于预设的分类模型,从所述目标文本中提取包括目标词汇组合的文本,所述目标词汇组合是指形容词与实体词汇的组合;
基于预设的模板挖掘工具从提取获得的文本中提取所述目标词汇组合作为热点素材。
11.根据权利要求10所述的方法,其特征在于,所述基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章,包括:
获取与所述目标词汇组合中的实体词汇属于同一实体类型的多个实体词汇;
将所述目标词汇中的形容词分别于所述多个实体词汇进行组合,形成多个新增词汇组合;
获取包括所述目标词汇组合或者所述新增词汇组合的文章;
基于获取到的所述文章,以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。
12.根据权利要求1所述的方法,其特征在于,所述基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材之后,所述方法还包括:
基于预设的热度计算关系,确定所述热点素材的热度;
所述基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章,包括:
在存在多个热点素材时,按照热度由高到低的顺序,依次采用相应热度的热点素材,并基于预先设定的素材提取策略与文章类型之间的关联关系生成相应类型的文章。
13.一种基于热点素材的文章生成装置,其特征在于,包括:
获取模块,用于获取目标文本,其中所述目标文本至少包括如下的一种:文章、语句、关键词;
提取模块,用于基于预设的素材提取策略,从所述目标文本中提取用于生成文章的热点素材,其中所述热点素材是指关注度高于预设阈值的素材;
生成模块,用于基于预先设定的素材提取策略与文章类型之间的关联关系,采用所述热点素材生成相应类型的文章。
14.根据权利要求13所述的装置,其特征在于,所述获取模块包括:
第一获取子模块,用于获取搜索频率超过第一预设阈值的关键词和/或语句,以及包括所述关键词和/或语句的文章,将所述关键词和/或语句以及所述文章作为目标文本。
15.根据权利要求14所述的装置,其特征在于,所述第一获取子模块,具体用于:
将所述关键词和/或语句,以及所述文章中与所述关键词和/或语句之间的相关程度超过第二预设阈值的文章作为目标文本。
16.根据权利要求13所述的装置,其特征在于,所述获取模块,包括:
第二获取子模块,用于获取如下文本中的至少一种:文章、语句、关键词;
聚类子模块,用于对获取到的文本进行聚类处理,获得文本的聚类簇;
设置子模块,用于将文本数量大于第三预设阈值的聚类簇中的文本设置为目标文本。
17.根据权利要求16所述的装置,其特征在于,所述设置子模块,具体用于:
从文本数量大于第三预设阈值的聚类簇中选择预设个数的文本作为目标文本。
18.根据权利要求13所述的装置,其特征在于,所述提取模块,包括:
第一提取子模块,用于从所述目标文本中提取实体词汇,以及所述实体词汇所属的实体类型,将所述实体词汇和所述实体词汇所属的实体类型作为热点素材,其中,所述实体词汇是指在物理世界中存在对应实体的词汇。
19.根据权利要求13所述的装置,其特征在于,所述提取模块,包括:
第二提取子模块,用于从所述目标文本中提取概念词汇作为热点素材,其中所述概念词汇是指包括领域范畴的词汇。
20.根据权利要求13所述的装置,其特征在于,所述提取模块,包括:
第三提取子模块,用于基于预设依存分析工具从所述目标文本中提取目标语句作为热点素材,其中,所述目标语句包括预设句式结构,且所述目标语句的语句长度大于预设长度。
21.根据权利要求13-20中任一项所述的装置,其特征在于,所述生成模块,包括:
第三获取子模块,用于获取包括所述热点素材的文章;
第一生成子模块,用于基于所述文章,以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。
22.根据权利要求13所述的装置,其特征在于,所述提取模块,包括:
第四提取子模块,用于基于预设的分类模型,从所述目标文本中提取包括目标词汇组合的文本,所述目标词汇组合是指形容词与实体词汇的组合;
第五提取子模块,用于基于预设的模板挖掘工具从提取获得的文本中提取所述目标词汇组合作为热点素材。
23.根据权利要求22所述的装置,其特征在于,所述生成模块,包括:
第四获取子模块,用于获取与所述目标词汇组合中的实体词汇属于同一实体类型的多个实体词汇;
词汇组合子模块,用于将所述目标词汇中的形容词分别于所述多个实体词汇进行组合,形成多个新增词汇组合;
第五获取子模块,用于获取包括所述目标词汇组合或者所述新增词汇组合的文章;
第二生成子模块,用于基于获取到的所述文章,以及预先设定的素材提取策略与文章类型之间的关联关系,生成相应类型的文章。
24.根据权利要求13所述的装置,其特征在于,所述装置还包括:
确定模块,用于基于预设的热度计算关系,确定所述热点素材的热度;
所述生成模块,包括:
第三生成子模块,用于在存在多个热点素材时,按照热度由高到低的顺序,依次采用相应热度的热点素材,并基于预先设定的素材提取策略与文章类型之间的关联关系生成相应类型的文章。
25.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一项所述的方法。
26.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一项所述的方法。
CN201810558291.4A 2018-06-01 2018-06-01 基于热点素材的文章生成方法、装置、设备及存储介质 Active CN110555199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810558291.4A CN110555199B (zh) 2018-06-01 2018-06-01 基于热点素材的文章生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810558291.4A CN110555199B (zh) 2018-06-01 2018-06-01 基于热点素材的文章生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110555199A true CN110555199A (zh) 2019-12-10
CN110555199B CN110555199B (zh) 2023-07-04

Family

ID=68734958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810558291.4A Active CN110555199B (zh) 2018-06-01 2018-06-01 基于热点素材的文章生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110555199B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310417A (zh) * 2020-02-20 2020-06-19 北京奇艺世纪科技有限公司 一种标题的生成方法及装置
CN112487151A (zh) * 2020-12-14 2021-03-12 深圳市欢太科技有限公司 文案生成方法及装置、存储介质与电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225584A (ja) * 2007-03-08 2008-09-25 Nec Corp 物品推薦装置、物品推薦システム、物品推薦方法及び物品推薦プログラム
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
CN103957275A (zh) * 2014-05-19 2014-07-30 北京奇虎科技有限公司 用户评论信息的推送方法、客户端、服务器及系统
CN103970754A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 文章的自动选取方法及装置
CN106021389A (zh) * 2016-05-12 2016-10-12 新华通讯社 基于模板自动生成新闻的系统和方法
CN106294425A (zh) * 2015-05-26 2017-01-04 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及系统
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN106844322A (zh) * 2017-01-22 2017-06-13 百度在线网络技术(北京)有限公司 智能文章生成方法和装置
CN106874248A (zh) * 2017-01-22 2017-06-20 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法和装置
CN106933808A (zh) * 2017-03-20 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的文章标题生成方法、装置、设备及介质
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
CN107145482A (zh) * 2017-03-28 2017-09-08 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法及装置、设备与可读介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225584A (ja) * 2007-03-08 2008-09-25 Nec Corp 物品推薦装置、物品推薦システム、物品推薦方法及び物品推薦プログラム
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
CN103970754A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 文章的自动选取方法及装置
CN103957275A (zh) * 2014-05-19 2014-07-30 北京奇虎科技有限公司 用户评论信息的推送方法、客户端、服务器及系统
CN106294425A (zh) * 2015-05-26 2017-01-04 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及系统
CN106021389A (zh) * 2016-05-12 2016-10-12 新华通讯社 基于模板自动生成新闻的系统和方法
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN106844322A (zh) * 2017-01-22 2017-06-13 百度在线网络技术(北京)有限公司 智能文章生成方法和装置
CN106874248A (zh) * 2017-01-22 2017-06-20 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法和装置
CN106933808A (zh) * 2017-03-20 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的文章标题生成方法、装置、设备及介质
CN107145482A (zh) * 2017-03-28 2017-09-08 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法及装置、设备与可读介质
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310417A (zh) * 2020-02-20 2020-06-19 北京奇艺世纪科技有限公司 一种标题的生成方法及装置
CN111310417B (zh) * 2020-02-20 2023-09-01 北京奇艺世纪科技有限公司 一种标题的生成方法及装置
CN112487151A (zh) * 2020-12-14 2021-03-12 深圳市欢太科技有限公司 文案生成方法及装置、存储介质与电子设备

Also Published As

Publication number Publication date
CN110555199B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US11531818B2 (en) Device and method for machine reading comprehension question and answer
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN108804421B (zh) 文本相似性分析方法、装置、电子设备及计算机存储介质
CN107463548B (zh) 短语挖掘方法及装置
US8126897B2 (en) Unified inverted index for video passage retrieval
WO2015143239A1 (en) Providing search recommendation
CN111159330A (zh) 一种数据库查询语句的生成方法及装置
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
RU2556425C1 (ru) Способ автоматической итеративной кластеризации электронных документов по семантической близости, способ поиска в совокупности кластеризованных по семантической близости документов и машиночитаемые носители
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
Posadas-Duran et al. Complete syntactic n-grams as style markers for authorship attribution
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
CN110555199B (zh) 基于热点素材的文章生成方法、装置、设备及存储介质
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
Fatima et al. New graph-based text summarization method
Ribeiro et al. Self reinforcement for important passage retrieval
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
CN115062135B (zh) 一种专利筛选方法与电子设备
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant