CN109657043A - 自动生成文章的方法、装置、设备及存储介质 - Google Patents
自动生成文章的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109657043A CN109657043A CN201811536360.8A CN201811536360A CN109657043A CN 109657043 A CN109657043 A CN 109657043A CN 201811536360 A CN201811536360 A CN 201811536360A CN 109657043 A CN109657043 A CN 109657043A
- Authority
- CN
- China
- Prior art keywords
- entity
- relationship
- article
- group object
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出一种自动生成文章的方法和装置,其中方法包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。本发明实施例能够自动生成关系类文章,避免受到人工编辑者主观性的影响。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种自动生成文章的方法、装置、设备及存储介质。
背景技术
关系类文章(CP文章)是指同时关于两个以上实体的文章,并且这两个以上实体存在一定的关系。实体可以理解为文章所涉及的人或事物,例如,人物A的名字即为一个实体。如果A和B分别为两个人物的名字,这两个人物获同一奖项,则实体A和实体B即为存在关系的实体。
关系类文章本身具备可持续更新的特点,再加上其独有的热点性和话题性,使得关系类文章具有很高的吸引力。
现有的关系类文章一般是由人工编辑的,由于编辑者的主观性,文章生成的效率较低且质量较差,难以满足需求。
发明内容
本发明实施例提供一种自动生成文章的方法及装置,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种自动生成文章方法,包括:
确定一组实体的关系,所述一组实体包括两个以上实体;
获取两篇以上对应所述一组实体的所述关系的素材文章;
将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
在一种实施方式中,所述确定一组实体的关系之前,还包括:生成唯一实体集,从所述唯一实体集中获取所述一组实体;所述生成唯一实体集,包括:
获取包含实体的搜索查询语句;
从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;
根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;
从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集。
在一种实施方式中,所述确定所述一组实体的关系,包括:
根据所述一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;
如果存在,则采用以下方式中的至少一种,确定所述一组实体的关系:
获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,
获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,
获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。
在一种实施方式中,所述获取两篇以上对应所述一组实体的所述关系的素材文章之前,还包括:
获取包含一组实体中各个实体的素材文章及所述一组实体的关系;
确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;
判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。
在一种实施方式中,所述获取两篇以上对应所述一组实体的所述关系的素材文章,包括:
针对对应所述一组实体的所述关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;
获取质量最高的两篇以上所述素材文章。
在一种实施方式中,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:
生成各个所述素材文章的摘要和/或筛选各个所述素材文章中的图片;
采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为所述关系类文章的内容部分。
在一种实施方式中,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:
提取各个所述素材文章的标题;
将各个标题采用文章标题话术进行整合,得到待选标题;
将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。
第二方面,本发明实施例还提出一种自动生成文章的装置,包括:
实体关系确定模块,用于确定一组实体的关系,所述一组实体包括两个以上实体;
素材获取模块,用于获取两篇以上对应所述一组实体的所述关系的素材文章;
文章生成模块,用于将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
在一种实施方式中,还包括:
唯一实体集生成模块,用于获取包含实体的搜索查询语句;从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集;
所述实体关系确定模块,还用于从所述唯一实体集中获取一组实体。
在一种实施方式中,所述实体关系确定模块包括:
判断子模块,用于根据一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;如果存在,则指示确定子模块确定所述一组实体的关系;
确定子模块,用于根据所述判断子模块的指示,采用以下方式中的至少一种,确定所述一组实体的关系:获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。
在一种实施方式中,还包括:
素材文章标签设置模块,用于获取包含一组实体中各个实体的素材文章及所述一组实体的关系;确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。
在一种实施方式中,所述素材获取模块,用于:
针对对应一组实体的关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;获取质量最高的两篇以上所述素材文章。
在一种实施方式中,所述文章生成模块包括内容生成子模块;
所述内容生成子模块,用于生成所述素材文章的摘要和/或筛选所述素材文章中的图片;采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为关系类文章的内容部分。
在一种实施方式中,所述文章生成模块包括标题生成子模块;
所述标题生成子模块,用于提取各个所述素材文章的标题;将各个标题采用文章标题话术进行整合,得到待选标题;将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。
第三方面,本发明实施例提供了一种自动生成文章的设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述自动生成文章的设备的结构中包括处理器和存储器,所述存储器用于存储支持所述自动生成文章的设备执行上述自动生成文章的方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储人设备所用的计算机软件指令,其包括用于执行上述自动生成文章的方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例提出的自动生成文章的方法和装置,通过自动确定实体及实体之间的关系,获取对应该组实体该关系的素材文章,并将素材文章进行整合,能够生成针对该组实体该关系的关系类文章。通过这种方式,本发明实施例能够高效、高质量地生成关系类文章,避免受到人工编辑者主观性的影响。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的一种自动生成文章的方法实现流程图;
图2为本发明实施例的另一种自动生成文章的方法实现流程图;
图3为本发明实施例中步骤S101的实现流程图;
图4为本发明实施例中步骤S11的实现流程图;
图5为本发明实施例中为素材文章进行关系标注的实现流程图;
图6为本发明实施例的一种自动生成文章的装置结构示意图;
图7为本发明实施例的另一种自动生成文章的装置结构示意图;
图8为本发明实施例的另一种自动生成文章的设备结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例主要提供了一种自动生成文章的方法和装置,下面分别通过以下实施例进行技术方案的展开描述。
如图1为本发明实施例的一种自动生成文章的方法实现流程图,包括:
S11:确定一组实体的关系,所述一组实体包括两个以上实体。
S12:获取两篇以上对应所述一组实体的所述关系的素材文章。
S13:将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
如图2为本发明实施例的另一种自动生成文章的方法实现流程图,该方法在S11之前还包括:
S101:生成唯一实体集。
S102:从所述唯一实体集中获取一组实体。
以下结合附图3至图5,对本发明实施例做详细介绍。
如图3为本发明实施例中步骤S101的实现流程图,步骤S101的主要功能是挖掘热门实体。包括以下步骤:
S1011:获取包含实体的搜索查询(query)语句。
在一种可能的实施方式中,可以通过自然语言处理工具以及用户搜索点击日志获取可能包含实体的搜索查询语句。
在本实施例中,可以对用户搜索点击日志进行分词处理,对分词处理之后得到词进行词性标注和/或名实体识别。并采用搜索查询语句出现次数或搜索查询语句内容等数据,结合模型训练进行搜索查询语句的识别及获取。
S1012:从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集。
例如,从搜索查询语句抽取出多个人物的名字,A、B、C、D等。
S1013:根据所述候选实体集中各个实体的词频(TF,Term Frequency),过滤所述候选实体集中的错误实体和/或重复实体。
在本实施例中,重复实体是指针对同一事物的多个实体。例如,同一个人的名字和绰号即为重复实体。
在一种可能的实施方式中,可以将候选实体集中的实体按照词频排序,按照长尾原则将词频低的实体过滤掉,以过滤候选实体集中的错误实体和/或重复实体。
在本实施例中,按照长尾原则过滤的具体方式可以为:在二维的坐标系中确定针对各个实体的各个点。其中,点的横坐标取值为该点对应实体的序列号,纵坐标取值为该点对应实体的词频。一个实体的词频越大,其序列号越小。这样,将坐标系中确定的各个点依次连接,可以得到一条曲线。该曲线后半段各点的纵坐标较小,曲线延伸很长,形似一条长尾。在过滤候选实体集时,可以将该“长尾”中各点对应的实体过滤掉,也就是将词频低于预设词频阈值的实体过滤掉。
S1014:从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集。
在一种可能的实施方式中,针对各个实体,可以根据搜索热度、实体出现次数、最近一段时间(如3天,该时间段长度可以预先设置)内关于实体的新闻数量等信息加权求和,得到该实体的热度。根据热度将各个实体排序,按照长尾原则过滤掉热度低的实体,即,将热度低于预设热度阈值的实体过滤掉。过滤后剩余的实体为热度超过预设热度阈值的实体,即热门实体。
通过上述过程,生成了包含热门实体的唯一实体集。之后,针对唯一实体集中任意一组实体,可以确定该组实体的关系。其中,一组实体可以包括两个以上实体。在以下实施例中,以一组包括两个实体为例进行介绍。
如图4为本发明实施例中步骤S11的实现流程图,包括:
S111:根据所述一组实体中各个实体在针对其他实体的百科数据中的信息,确定所述一组实体中的各个实体之间是否存在关系;如果存在,则执行步骤S112。
S112:采用以下方式中的至少一种,确定所述一组实体的关系:
方式一:获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系。
本方式可以适用于结构化数据的实体。例如,实体X和Y分别为人物的姓名。实体X的关键字“星座”的取值为“S”,实体Y的关键字“星座”的取值也为“S”,则该关键字“星座”即为实体X和Y的关系。
方式二:获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系。
本方式可以适用于半结构化数据的实体。例如,实体X和Y指代的人物都获得过N奖项,则N可以作为实体X和Y的关系。
方式三:获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。
本方式可以适用于非结构化数据的实体。
由上述确定实体关系的方式可见,一组实体可能对应多个关系。在确定一组实体的关系后,可以对实体的关系进行筛选,选择较新颖和热门的关系作为一组实体的关系。在一种可能的实施方式中,实体的关系可以为夫妻、情侣、朋友等常见关系;也可以为其他的共性关系,如相同星座、同一天生日、同获一个奖项、共同出演一部影视剧等。
本实施例中,由于存在一个实体具有多个含义的情况,因此在确定实体关系之前,可以首先进行实体消歧,即执行步骤S111。以一组包括两个实体为例,在本实施例中,步骤S111的具体执行步骤可以为:根据各个实体在对方实体的百科数据中的信息,确定两个实体之间是否存在关系。
例如,对于两个实体X和Y;
分别确定X和Y针对对方百科数据的词频-逆文本频率指数(TF-IDF,TermFrequency–Inverse Document Frequency),确定两个TF-IDF的相似度,将该相似度记为M;
分别获取X和Y的锚文本链接,确定两个锚文本链接的相似度,将该相似度记为N;
分别获取X和Y的所属类目,确定两个所属类目的相似度,将该相似度记为O;
分别获取X和Y的热度,确定两个热度的相似度,将该相似度记为P;
将M、N、O、P加权求和,得到实体X和Y的总相似度。当总相似度大于预设相似度阈值时,判定实体X和Y之间存在关系。
确定了一组实体及其关系后,可以针对该组实体的该关系生成关系类文章,首先需要选取生成关系类文章所需的素材文章,即执行步骤S12。为了选取素材文章,可以首先为素材文章进行关系标注,如图5为本发明实施例中为素材文章进行关系标注的实现流程图,包括:
S501:获取包含一组实体中各个实体的素材文章及所述一组实体的关系。
S502:确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分。
在本实施例中,可以统计该关系在素材文章的标题中的词频M,以及该关系在素材文章的正文中的词频N。计算该素材文章针对该组实体的该关系的关系得分为:relation_score=Wi*M+Wj*N,其中Wi和Wj分别为标题和正文的权重,可以分别设置为0.8和0.2。
S503:判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。
在本实施例中,可以为该素材文章打上针对该关系的关系标签。
针对一组实体的一个关系,可能存在多个素材文章。针对这种情况,在一种可能的实施方式中,S12中获取素材文章的过程可以包括:
针对对应所述一组实体的所述关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;
获取质量最高的两篇以上所述素材文章。
选取素材文章之后,可以将选取的素材文章整合,生成针对所述一组实体的所述关系的关系类文章,即执行步骤S13。生成文章的过程可以包括两部分,即生成内容和生成标题。
在一种可能的实施方式中,生成内容的方式可以包括:
素材选择过程:对于文本类素材文章,可以生成各个素材文章的摘要。本发明实施例可以采用基于强化学习技术的文本摘要算法生成摘要。对于图片类素材文章,可以筛选各个素材文章中的图片。本发明实施例可以采用图片质量识别模型筛选质量高的图片。
文章整合过程:采用文章模板及文章话术,将素材选择过程所选择的素材进行整合,作为关系类文章的内容部分。在本实施例中,文章模板可以包括用于组织素材的文章结构信息,文章话术可以包括用于衔接素材的常用语句信息。
在一种可能的实施方式中,生成标题的过程可以包括:
提取各个所述素材文章的标题;
将各个标题采用文章标题话术进行整合,得到待选标题;
将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。
在本实施例中,文章标题话术可以包括用于衔接词句的常用语句信息。
本发明实施例还提出一种自动生成文章的装置。参见图6,图6为本发明实施例的一种自动生成文章的装置结构示意图,包括:
实体关系确定模块610,用于确定一组实体的关系,所述一组实体包括两个以上实体;
素材获取模块620,用于获取两篇以上对应所述一组实体的所述关系的素材文章;
文章生成模块630,用于将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
如图7为本发明实施例的另一种自动生成文章的装置结构示意图,包括:
唯一实体集生成模块700,用于获取包含实体的搜索查询语句;从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入唯一实体集;
实体关系确定模块610,用于从所述唯一实体集中获取一组实体,确定该组实体的关系;
素材获取模块620,用于获取两篇以上对应所述一组实体的所述关系的素材文章;
文章生成模块630,用于将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
在一种可能的实施方式中,所述实体关系确定模块610包括:
判断子模块611,用于根据一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;如果存在,则指示确定子模块确612定所述一组实体的关系;
确定子模块612,用于根据所述判断子模块611的指示,采用以下方式中的至少一种,确定所述一组实体的关系:获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。
在一种可能的实施方式中,上述装置还可以包括:
素材文章标签设置模块740,用于获取包含一组实体中各个实体的素材文章及所述一组实体的关系;确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。
在一种可能的实施方式中,所述素材获取模块620,用于:
针对对应一组实体的关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;获取质量最高的两篇以上所述素材文章。
在一种可能的实施方式中,文章生成模块630包括内容生成子模块631;
所述内容生成子模块631,用于生成所述素材文章的摘要和/或筛选所述素材文章中的图片;采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为关系类文章的内容部分。
在一种可能的实施方式中,所述文章生成模块630包括标题生成子模块632;
所述标题生成子模块632,用于提取各个所述素材文章的标题;将各个标题采用文章标题话术进行整合,得到待选标题;将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本发明实施例还提出一种自动生成文章的设备,如图8为本发明实施例的设备结构示意图,包括:
存储器11和处理器12,存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的获取推荐系统最优参数组合的方法。所述存储器11和处理器12的数量可以为一个或多个。
所述设备还可以包括:
通信接口13,用于与外界设备进行通信,进行数据交换传输。
存储器11可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器11、处理器12和通信接口13独立实现,则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线,外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器11、处理器12和通信接口13集成在一块芯片上,则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明实施例提出的自动生成文章的方法和装置,自动确定实体及实体之间的关系,获取对应该组实体该关系的素材文章,将素材文章进行整合,能够生成针对该组实体该关系的关系类文章。通过这种方式,本发明实施例能够高效、高质量地生成关系类文章,避免受到人工编辑者主观性的影响。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种自动生成文章的方法,其特征在于,包括:
确定一组实体的关系,所述一组实体包括两个以上实体;
获取两篇以上对应所述一组实体的所述关系的素材文章;
将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
2.根据权利要求的1所述的方法,其特征在于,所述确定一组实体的关系之前,还包括:生成唯一实体集,从所述唯一实体集中获取所述一组实体;
所述生成唯一实体集,包括:
获取包含实体的搜索查询语句;
从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;
根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;
从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集。
3.根据权利要求的1或2所述的方法,其特征在于,所述确定所述一组实体的关系,包括:
根据所述一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;
如果存在,则采用以下方式中的至少一种,确定所述一组实体的关系:
获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,
获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,
获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。
4.根据权利要求的1或2所述的方法,其特征在于,所述获取两篇以上对应所述一组实体的所述关系的素材文章之前,还包括:
获取包含一组实体中各个实体的素材文章及所述一组实体的关系;
确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;
判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。
5.根据权利要求的1或2所述的方法,其特征在于,所述获取两篇以上对应所述一组实体的所述关系的素材文章,包括:
针对对应所述一组实体的所述关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;
获取质量最高的两篇以上所述素材文章。
6.根据权利要求的1或2所述的方法,其特征在于,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:
生成各个所述素材文章的摘要和/或筛选各个所述素材文章中的图片;
采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为所述关系类文章的内容部分。
7.根据权利要求的1或2所述的方法,其特征在于,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:
提取各个所述素材文章的标题;
将各个标题采用文章标题话术进行整合,得到待选标题;
将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。
8.一种自动生成文章的装置,其特征在于,包括:
实体关系确定模块,用于确定一组实体的关系,所述一组实体包括两个以上实体;
素材获取模块,用于获取两篇以上对应所述一组实体的所述关系的素材文章;
文章生成模块,用于将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
9.根据权利要求的8所述的装置,其特征在于,还包括:
唯一实体集生成模块,用于获取包含实体的搜索查询语句;从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入唯一实体集;
所述实体关系确定模块,还用于从所述唯一实体集中获取一组实体。
10.根据权利要求的8或9所述的装置,其特征在于,所述实体关系确定模块包括:
判断子模块,用于根据一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;如果存在,则指示确定子模块确定所述一组实体的关系;
确定子模块,用于根据所述判断子模块的指示,采用以下方式中的至少一种,确定所述一组实体的关系:获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。
11.根据权利要求的8或9所述的装置,其特征在于,还包括:
素材文章标签设置模块,用于获取包含一组实体中各个实体的素材文章及所述一组实体的关系;确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。
12.根据权利要求的8或9所述的装置,其特征在于,所述素材获取模块,用于:
针对对应一组实体的关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;获取质量最高的两篇以上所述素材文章。
13.根据权利要求的8或9所述的装置,其特征在于,所述文章生成模块包括内容生成子模块;
所述内容生成子模块,用于生成所述素材文章的摘要和/或筛选所述素材文章中的图片;采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为关系类文章的内容部分。
14.根据权利要求的8或9所述的装置,其特征在于,所述文章生成模块包括标题生成子模块;
所述标题生成子模块,用于提取各个所述素材文章的标题;将各个标题采用文章标题话术进行整合,得到待选标题;将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。
15.一种自动生成文章的设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536360.8A CN109657043B (zh) | 2018-12-14 | 2018-12-14 | 自动生成文章的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536360.8A CN109657043B (zh) | 2018-12-14 | 2018-12-14 | 自动生成文章的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657043A true CN109657043A (zh) | 2019-04-19 |
CN109657043B CN109657043B (zh) | 2022-01-04 |
Family
ID=66113433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811536360.8A Active CN109657043B (zh) | 2018-12-14 | 2018-12-14 | 自动生成文章的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657043B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245339A (zh) * | 2019-06-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备和存储介质 |
CN110688857A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN111274799A (zh) * | 2020-01-09 | 2020-06-12 | 天津车之家数据信息技术有限公司 | 一种文章标题生成方法、装置及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101638423B1 (ko) * | 2015-07-30 | 2016-07-12 | 이진용 | 배너형 기사 자동 생성을 통한 기사 작성 및 온라인 배포 방법 |
CN105787156A (zh) * | 2016-02-04 | 2016-07-20 | 嘉兴国电通新能源科技有限公司 | 一种基于ifc实体数据抽取的子模型生成方法 |
CN106095762A (zh) * | 2016-02-05 | 2016-11-09 | 中科鼎富(北京)科技发展有限公司 | 一种基于本体模型库的新闻推荐方法及装置 |
CN106844322A (zh) * | 2017-01-22 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 智能文章生成方法和装置 |
CN106970898A (zh) * | 2017-03-31 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 用于生成文章的方法和装置 |
CN107193792A (zh) * | 2017-05-18 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
CN107748802A (zh) * | 2017-11-17 | 2018-03-02 | 北京百度网讯科技有限公司 | 文章聚合方法及装置 |
CN107943774A (zh) * | 2017-11-20 | 2018-04-20 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
WO2018189589A2 (en) * | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
CN108694160A (zh) * | 2018-05-15 | 2018-10-23 | 北京三快在线科技有限公司 | 文章生成方法、设备及存储介质 |
CN108829854A (zh) * | 2018-06-21 | 2018-11-16 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN108920611A (zh) * | 2018-06-28 | 2018-11-30 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备及存储介质 |
CN108932220A (zh) * | 2018-06-29 | 2018-12-04 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
-
2018
- 2018-12-14 CN CN201811536360.8A patent/CN109657043B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101638423B1 (ko) * | 2015-07-30 | 2016-07-12 | 이진용 | 배너형 기사 자동 생성을 통한 기사 작성 및 온라인 배포 방법 |
CN105787156A (zh) * | 2016-02-04 | 2016-07-20 | 嘉兴国电通新能源科技有限公司 | 一种基于ifc实体数据抽取的子模型生成方法 |
CN106095762A (zh) * | 2016-02-05 | 2016-11-09 | 中科鼎富(北京)科技发展有限公司 | 一种基于本体模型库的新闻推荐方法及装置 |
CN106844322A (zh) * | 2017-01-22 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 智能文章生成方法和装置 |
CN106970898A (zh) * | 2017-03-31 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 用于生成文章的方法和装置 |
WO2018189589A2 (en) * | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
CN107193792A (zh) * | 2017-05-18 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
CN107748802A (zh) * | 2017-11-17 | 2018-03-02 | 北京百度网讯科技有限公司 | 文章聚合方法及装置 |
CN107943774A (zh) * | 2017-11-20 | 2018-04-20 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
CN108694160A (zh) * | 2018-05-15 | 2018-10-23 | 北京三快在线科技有限公司 | 文章生成方法、设备及存储介质 |
CN108829854A (zh) * | 2018-06-21 | 2018-11-16 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN108920611A (zh) * | 2018-06-28 | 2018-11-30 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备及存储介质 |
CN108932220A (zh) * | 2018-06-29 | 2018-12-04 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
Non-Patent Citations (2)
Title |
---|
JUNPENG GONG等: "An automatic generation method of sports news based on knowledge rules", 《2017 IEEE/ACIS 16TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS)》 * |
艾丽斯等: "抽取式自动文本生成算法", 《华东师范大学学报(自然科学版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245339A (zh) * | 2019-06-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备和存储介质 |
CN110688857A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN111274799A (zh) * | 2020-01-09 | 2020-06-12 | 天津车之家数据信息技术有限公司 | 一种文章标题生成方法、装置及存储介质 |
CN111274799B (zh) * | 2020-01-09 | 2023-06-23 | 天津车之家数据信息技术有限公司 | 一种文章标题生成方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109657043B (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Badke | Research strategies: Finding your way through the information fog | |
CN110674410B (zh) | 用户画像构建、内容推荐方法、装置及设备 | |
US8768852B2 (en) | Determining phrases related to other phrases | |
US8423349B1 (en) | Filtering phrases for an identifier | |
CN103902697B (zh) | 组合搜索方法、客户端和服务器 | |
CN109657043A (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
Koteyko | Language and politics in post-Soviet Russia: A corpus assisted approach | |
Dressman | Reading as the interpretation of signs | |
Maybury | Multimedia information extraction: Advances in video, audio, and imagery analysis for search, data mining, surveillance and authoring | |
Barr | The Yahoo! style guide: the ultimate sourcebook for writing, editing, and creating content for the digital world | |
Zhou et al. | Headline summarization at ISI | |
JP4931114B2 (ja) | データ表示装置、データ表示方法及びデータ表示プログラム | |
Kranz | Trying harder: Probability, objectivity, and rationality in adaptation studies | |
CN106528764A (zh) | 基于人工智能的提问型检索词的检索方法及装置 | |
KR101265467B1 (ko) | 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 | |
Clarke | Linguistic variation across Twitter and Twitter trolling | |
Angles | Queer translation/translating queer during the ‘gay boom’in Japan | |
Nichols | First-Person Journalism: A Guide to Writing Personal Nonfiction with Real Impact | |
Walsh | Clear Blogging: How people blogging are changing the world and how you can join them | |
Dillon | Butchered in Translation: A Transnational “Grotesuqe” | |
Booten | A library of fragments: digital quotations, new literacies, and attention on social media | |
Sevenois | SENTIMENT ANALYIS OF INTERNET MEMES ON SOCIAL MEDIA PLATFORMS | |
Mori et al. | Relationship between features of reading behaviors and dynamic abstract of novel | |
Carta et al. | CulturAI: Semantic Enrichment of Cultural Data Leveraging Artificial Intelligence | |
Pruett | Managed Abundance: A Quantitative History of American Fiction, 1931-2009 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |