CN109635260B - 用于生成文章模板的方法、装置、设备和存储介质 - Google Patents

用于生成文章模板的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109635260B
CN109635260B CN201811331776.6A CN201811331776A CN109635260B CN 109635260 B CN109635260 B CN 109635260B CN 201811331776 A CN201811331776 A CN 201811331776A CN 109635260 B CN109635260 B CN 109635260B
Authority
CN
China
Prior art keywords
attribute
article
target
target article
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811331776.6A
Other languages
English (en)
Other versions
CN109635260A (zh
Inventor
陈思姣
梁海金
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811331776.6A priority Critical patent/CN109635260B/zh
Publication of CN109635260A publication Critical patent/CN109635260A/zh
Application granted granted Critical
Publication of CN109635260B publication Critical patent/CN109635260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

根据本公开的示例实施例,提供了用于生成文章模板的方法、装置、设备和计算机可读存储介质。用于生成文章模板的方法包括获取属于预定类别的目标文章。该方法还包括确定目标文章中的第一对象的属性信息,属性信息包括用于描述第一对象的属性和与属性相关联的属性值。该方法进一步包括至少基于第一对象的属性信息和目标文章,生成针对预定类别的文章模板,以用于构建预定类别的文章。以此方式,可以高效、自动地生成文章模板,以供后续文章生成使用。

Description

用于生成文章模板的方法、装置、设备和存储介质
技术领域
本公开的实施例主要涉及计算机领域,并且更具体地,涉及用于生成文章模板的方法、装置、设备和计算机可读存储介质。
背景技术
文章框架或文章模板是指文章的组织结构和脉络。随着人工智能技术的发展,自动生成文章的智能写作受到广泛的关注。对于智能写作,在当前实现中,多以人工配置模板的方式来确定文章的写作结构。然而,这种方法耗时耗力并且不能满足对文章结构多样性的需求。
发明内容
根据本公开的示例实施例,提供了一种用于生成文章模板的方案。
在本公开的第一方面中,提供了一种生成文章模板的方法。该方法包括获取属于预定类别的目标文章。该方法还包括确定目标文章中的第一对象的属性信息,属性信息包括用于描述第一对象的属性和与属性相关联的属性值。该方法进一步包括至少基于第一对象的属性信息和目标文章,生成针对预定类别的文章模板,以用于构建预定类别的文章。
在本公开的第二方面中,提供了一种用于生成文章模板的装置。该装置包括目标文章获取模块,被配置为获取属于预定类别的目标文章。该装置还包括属性信息确定模块,被配置为确定目标文章中的第一对象的属性信息,属性信息包括用于描述第一对象的属性和与属性相关联的属性值。该装置进一步包括文章模板生成模块,被配置为至少基于第一对象的属性信息和目标文章,生成针对预定类别的文章模板,以用于构建预定类别的文章。
在本公开的第三方面中,提供了一种设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的实施例的生成文章模板的过程的流程图;
图3示出了根据本公开的一些实施例的获取目标文章的过程的流程图;
图4示出了根据本公开的一些实施例的生成文章模板的过程的流程图;
图5示出了根据本公开的一些实施例的生成文章模板的过程的流程图;
图6示出了根据本公开的一些实施例的所生成的文章模板的示意图;
图7示出了根据本公开的实施例的用于生成文章模板的装置的示意性框图;以及
图8示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在本公开的实施例的描述中,术语“对象”包括实体和概念两者。“实体”指的是客观世界中存在的且可互相区分的事物。“实体”可以是具体的人、事、物等物体实物。例如,“实体”可以是某一植物(诸如荷花)、某一天体(诸如天王星)或某一物品(诸如水杯)。“概念”指的是对特征的独特组合而形成的知识单元。例如,“概念”可以是人工智能、自动驾驶等。
在本公开的实施例的描述中,术语“对象的属性”包括实体的特征和概念的方面。例如,当对象为人时,“对象的属性”可以包括性别、身高、体重、职业、配偶等;当对象为山时,“对象的属性”可以包括别称、海拔、地理位置、开放时间、适宜游玩季节等。又如,当对象为人工智能时,“对象的属性”可以包括研究价值、发展阶段、发展简史、最新技术等。
传统上,针对智能写作中的文章框架挖掘,普遍采用两种方案来解决。一种是全人工提取的方案。在这种方案中,人工例行浏览网页上的目标文章,总结出文章框架,以供后续智能写作使用。另一种是机器辅助提取的方案。在该方案中,首先由机器或计算设备来抓取指定来源的文章,并进行文章粒度的分析过滤,以缩小人工阅读的文章量。人工再基于机器筛选的文章来总结文章的框架。
这两种传统方案均非常依赖人工,因为机器参与的程度不同,二者的问题及其严重程度也有所不同。第一种方案完全人工提取文章框架,全程无机器参与。由于互联网上内容繁杂,人工很难面面俱到,存在提取框架多样性差的问题,同时全人工的处理方式也需要耗费大量的人力。第二种方案采用机器辅助提取的方式,机器先对文章进行筛选过滤,这缩小了人工审核的范围,同时机器能够较为全面的获取到目标文章,因此第二种方案在一定程度上减轻人力耗费大和文章框架多样性差的问题,但该方案机器只参与了目标文章的筛选,并未参与文章框架的直接挖掘,仍然极度依赖人工。
根据本公开的实施例,提出了一种生成文章模板的方案。在该方案中,首先获取属于预定类别的目标文章并且确定目标文章中的第一对象的属性信息。然后,至少基于第一对象的属性信息和目标文章,生成针对预定类别的文章模板。因此,本公开的方案能够有利地实现高效、自动地生成文章模板,以供后续文章生成使用。
以下将参照附图来具体描述本公开的实施例。
图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在该示例环境100中,由计算设备102利用属于预定类别的目标文章101和存储库120中存储的数据来生成针对该预定类别的文章模板130。应当理解,图1中示出的环境仅是示例性的,还可以使用多个计算设备来生成文章模板130。
目标文章110可以是由计算设备102从网络上获取的,也可以是以其他方式获取的,例如从存储文章的数据库中选择的。目标文章110可以属于不同的预定类别,例如旅游类、娱乐类、美食类等。由此生成的文章模板130可以用于构建该预定类别的文章。目标文章110的预定类别可以根据实际需求而预先确定。
目标文章110可以描述一个或多个对象。在图1的示例中,目标文章110至少描述了对象“华山”(为便于讨论以下称为第一对象101)。目标文章110还可以描述其他对象,诸如衡山、兵马俑等。
存储库130可以存储与包括第一对象101在内的各种对象相关联的结构化数据。这样的结构化数据可以指示对象的属性和与属性相关联的属性值。例如,对“华山”这一实体对象而言,结构化数据可以指示与属性“类别”相关联的属性值为“山”或“景点”,与属性“别名”相关联的属性值为“西岳”或“西岳华山”,与属性“地址”相关联的属性值为“陕西省西安市”等。因此,基于结构化数据,可以确定第一对象101的属性和与属性相对应的属性值。在一些实施例中,结构化数据可以包括知识图谱。
计算设备102可以基于目标文章101和存储库120中的结构化数据来生成文章模板130。文章模板130可以用于构建预定类别的文章。例如,如果目标文章110是旅游类文章,则文章模板130可以用于构建旅游类的文章。针对不同类别的文章,可以生成不同的文章模板;针对同一类别的文章,可以基于不同的目标文章来生成不同的文章模板。
如图1所示,文章模板130可以包括预定义的标签,例如与第一对象101的名称相对应的标签103。在构建文章时,标签103可以由写作素材中的对应文字替换。应当理解,图1所示的环境100仅仅是示意性的,而无意限制本公开的范围。
为了更清楚地理解本公开的实施例所提供的生成文章模板的方案,将参照图2来进一步描述本公开的实施例。图2示出了根据本公开的实施例的生成文章模板的过程200的流程图。过程200可以由图1的计算设备102来实现。为便于讨论,将结合图1来描述过程200。
在框210,计算设备102获取属于预定类别的目标文章110。例如,计算设备102可以获取旅游类的目标文章110。计算设备102可以从存储各种类别的文章的数据库中选择目标文章110。计算设备102还可以从网络资源中筛选目标文章110。
在一些实施例中,可以基于用户对网页的点击情况来选择优质的文章作为目标文章101。下面将参考图3来描述这种实施例。图3示出了根据本公开的一些实施例的获取目标文章的过程300的流程图。
在框310,计算设备102确定与用户的搜索词相对应的搜索结果的统计信息。例如,这样的统计信息可以被存储在搜索点展日志中。搜索点展日志可以记录在针对搜索词的搜索结果中,网络资源上的网页被呈现给用户的次数以及被用户点击的次数。
在框320,计算设备102基于统计信息,从搜索结果中确定目标网页。计算设备102可以从网络资源中基于统计信息来选择多个网页作为目标网页。例如,计算设备102可以基于搜索点展日志来确定目标网页。
作为示例,可以基于网页被用户点击的次数与被呈现给用户的次数的比例来确定目标网页。如果对于某一网页而言,该比例超过阈值比例,可以认为该网页中包含的内容是比较优质的,或者符合用户需求的。因此,该网页可以被确定为目标网页。作为另一示例,也可以基于网页被用户点击的次数来确定目标网页。例如,可以选择被用户点击的次数超过阈值次数的网页作为目标网页。
在框330,计算设备102确定搜索词是否属于预定类别。预定类别可以包括但不限于旅游类、娱乐类、美食类、体育类等。例如,在生成针对旅游类的文章模板130时,计算设备102可以判断搜索词是否属于旅游类。如果搜索词包括诸如名山、景点等词语,计算设备102可以确定该搜索词属于旅游类。
如果在框330计算设备102确定搜索词属于预定类别,则过程300可以进行到框340。在框340,计算设备102从目标网页中提取目标文章110的标题和正文。例如,计算设备102可以利用通用文本解析技术从目标网页中提取包括文章的标题和正文的结构化数据,作为目标文章110。
在这样的实施例中,可以从大量的网页资源中选择较为优质的文章来生成文章模板,并且可以针对同一类别选择较多的目标文章。以此方式,有利于生成优质的文章模板并且提高模板的多样性。
继续参考图2。在框220,计算设备102确定目标文章110中的第一对象101的属性信息。属性信息包括用于描述第一对象101的属性和与属性相关联的属性值。如上文参考图1所描述的,对于第一对象102“华山”而言,与属性“类别”相关联的属性值为“山”或“景点”,与属性“别名”相关联的属性值为“西岳”或“西岳华山”,与属性“地址”相关联的属性值为“陕西省西安市”等。
例如,计算设备102可以首先利用诸如实体识别和实体消岐的知识图谱技术来确定目标文章110中描述的第一对象101。计算设备102还可以利用知识图谱技术识别目标文章110中描述的其他对象。例如,目标文章110中还可能描述黄山、泰山等。然后,计算设备102可以基于结构化数据确定第一对象101的属性信息。
在一些实施例中,计算设备102所利用的结构化数据可以包括针对第一对象101的知识图谱。例如,计算设备102可以获取针对第一对象101的第一知识图谱,以及可以从第一知识图谱中确定第一对象101的属性以及与属性相对应的属性值。即,计算设备102可以从第一知识图谱中确定第一对象101的属性信息。附加地,计算设备102还可以利用第一知识图谱来确定目标文章110中提及的其他主体与第一对象101的关系。例如,目标文章101中提及的“西安市”是“华山”所在的行政区域。
在框230,计算设备102至少基于第一对象101的属性信息和目标文章110,生成针对预定类别的文章模板130,以用于构建预定类别的文章。在一些实施例中,利用在框220确定的属性信息,计算设备102可以确定在目标文章110中描述了与第一对象101有关的哪些属性(哪些方面),从而生成文章模板。例如,计算设备102可以确定在目标文章110中描述了“华山”的地理位置、海拔、开放时间、适宜游玩季节等。在这种情况下,计算设备102可以生成文章模板130,来指示在基于文章模板130而生成的文章中包括要被描述的对象的地理位置、海拔、开放时间、适宜游玩季节等属性。下面将参考图4来描述这样的实施例。
在一些实施例中,利用在框220确定的属性信息,计算设备102可以确定目标文章110中描述的其他对象与第一对象101的关系。如果其他对象与第一对象101属于同一级别的对象,例如均为山或均是景点等,则计算设备101可以基于这种关系来生成文章模板130。下面将参考图5和图6来描述这样的实施例。
如上文所描述的,根据本公开的实施例可以高效、自动地生成文章模板,以供后续文章生成使用。以此方式,可以有效降低生成文章模板的成本并提升文章模板的多样性。
以上描述了生成的文章模板130以用于构建预定类别的文章的过程。在一些实施例中,过程200还可以包括构建预定类别的文章。计算设备102可以获取属于预定类别的素材,并且基于素材和文章模板130来生成预定类别的文章。例如,如果目标文章110属于旅游类文章,则计算设备102或其他计算设备可以获取属于旅游类的素材(例如,关于某一区域的著名景点的素材),并且基于文章模板130和所获取的素材来生成其他旅游类的文章。
如上文参考框230所提及的,计算设备102可以确定目标文章110中与第一对象101相关描述的层级关系,即,计算设备102可以确定目标文章110中描述了第一对象101的哪些属性。下面将参考图4来描述这种实施例。图4示出了根据本公开的一些实施例的生成文章模板的过程400的流程图。过程400可以被认为是框230的一个具体实现。过程400可以由图1的计算设备102来实现。为便于讨论,将结合图1来描述过程400。
如上文参考图2所提及的,在框220,计算设备110例如利用结构化数据确定第一对象101的属性信息,属性信息包括用于描述第一对象101的属性和与属性相关联的属性值。计算设备102继而可以利用属性信息来确定目标文章110中是否描述了某一属性,并由此生成文章模板130。
在框410,计算设备102确定目标文章110中是否包括第一对象101的属性值。例如,如果计算设备102确定华山所在的行政区域为西安市,即,计算设备102确定与属性“行政区域”相关联的属性值为“西安市”,则计算设备102确定目标文章110中是否包括“西安市”。
如果计算设备102在框410确定目标文章110包括该属性值,则过程400进行到框420。在框420,计算设备102从目标文章110中确定与属性值相关联的部分。例如,如果计算设备102确定目标文章110中包括“西安市”,则可以认为目标文章110中描述了第一对象101的“行政区域”这一属性。那么计算设备102可以从目标文章110中确定与“西安市”相关联的部分,即,确定目标文章110中用于描述属性“行政区域”的部分。所确定的部分可以是例如包括属性值的一个或多个句子或段落。
在框430,计算设备102基于所确定的目标文章110的部分和与属性值相关联的属性,生成所述文章模板130。具体地,计算设备102可以利用结构化数据中的各个属性来抽象出文章模板130。例如,计算设备102可以利用指示属性的属性标签来替换目标文章的一部分,从而确定文章模板130的一部分。计算设备102可以进行不同粒度(例如,段落、句子或词语)的替换。
在一些实施例中,计算设备102可以确定指示属性的属性标签,并且将在框420确定的目标文章110的部分替换为属性标签。例如,可以进行句子粒度的替换。在这种情况下,属性标签可以用于指示在该属性标签所在的位置填充描述该属性的句子。例如,如果确定目标文章110中的第二段第一句包括“西安市”,则计算设备102可以将第二段第一句替换为指示属性“行政区域”的属性标签。
对于以此方式生成的文章模板,在构建文章时,需要获取用于描述属性的句子素材来生成文章。例如,在利用文章模板130来构建关于“黄山”的文章时,需要获取用于描述黄山的行政区域的句子素材。应当理解,根据目标文章110的具体组织结构,还可以以段落为粒度进行替换。
在一些实施例中,计算设备102可以确定指示属性的属性标签,并且确定在框420确定的目标文章110的部分中是否包括属性值。如果确定该部分中包括该属性值,则计算设备102可以将目标文章110的该部分中的属性值替换为属性标签。在这种情况下,属性标签可以用于指示在该属性标签所在的位置填充与该属性相关联的属性值。例如,如果确定目标文章110中的第二段第一句包括“西安市”,则计算设备102可以将第二段第一句中的“西安市”替换为指示属性“行政区域”的属性标签。
在这样的实施例中,所生成的文章模板130更为精细地指定了在文章中用于描述对象的组织结构。对于以此方式生成的文章模板,在构建文章时,需要获取与所指示的属性相关联的属性值来生成文章。例如,在利用文章模板130来构建关于“黄山”的文章时,需要获取黄山所在的行政区域“黄山市”作为素材。
在上文参考框430所描述的实施例中,可以生成适合于不同类型素材(例如,句子素材、段落素材或属性值)的文章模板。以此方式可以根据需求更灵活地生成文章模板。另外,应当理解,上述生成文章模板的两种方式可以在同一目标文章进行组合。
如上文参考框230所提及的,计算设备102可以确定目标文章110中所描述的与第一对象101属于同一级别的其他对象。下面将参考图5来描述这种实施例。图5示出了根据本公开的一些实施例的生成文章模板的过程500的流程图。过程500可以被认为是框230的一个具体实现。过程500可以由图1的计算设备102来实现。为便于讨论,将结合图1来描述过程500。
在框510,计算设备102获取针对第一对象101的第一知识图谱.例如,计算设备102可以从存储库120中获取第一知识图谱。在框520,计算设备102获取针对目标文章110中的第二对象的第二知识图谱。如前文参考图2所提及的,计算设备102可以利用知识图谱技术确定目标文章110中描述的除第一对象101之外的其他对象。
图6示出了根据本公开的一些实施例的所生成的文章模板的一个示例的示意图600。参考图6,计算设备102可以确定目标文章110还描述了第二对象602,例如“泰山”。第二对象602与所述第一对象101不同。此外,在目标文章110中,第二对象602是与第一对象101不相关联地(例如,并列地)被描述的。类似地,计算设备102还可以确定在目标文章110中描述的第三对象603、第四对象604和第五对象605等。
继续参考图5。在框530,计算设备102基于第一知识图谱和第二知识图谱,确定第一对象101和第二对象602所具有的共同属性。例如,计算设备102可以确定第一对象101和第二对象602所具有的共同属性例如为“类别”,即,第一对象101和第二对象602的“类别”均为山或名山。
在框540,计算设备102确定共同属性是否属于预定义属性集合。可以针对不同类别的文章,预定义属性集合可以包括不同的属性。例如,对于旅游类文章,预定义属性集合可以包括例如属性“类别”、“行政区域”、“适宜游玩季节”等;对于人物类文章,预定义属性集合可以包括属性“年龄”、“职业”等。应当理解,以上列举的预定义属性集合中包括的属性仅仅是示例性的,而无意限制本公开的范围。预定义属性集合可以包括任何属性,只要这样的属性有助于确定第一对象和第二对象属于是同级或同类对象。
如果在框540确定共同属性属于预定义属性集合,则过程500进行到框550。在框550,计算设备102从目标文章110中确定与第一对象101相关联的第一部分和与第二对象602相关联的第二部分。例如,计算设备102可以确定目标文章110中用于描述第一对象101的段落和用于描述第二对象602的段落。
在框550,计算设备102基于第一部分和第二部分,生成文章模板130。例如,计算设备102可以将第一部分和第二部分的至少部分文字替换为标签,以标识相应的部分分别用于描述同级或同类的不同对象。在一些实施例中,计算设备103可以如参考图4所描述的那样确定与第一部分相对应的文章模板部分,并且将这样确定的文章模板部分直接应用于第二部分。
在一些实施例中,计算设备102可以基于共同属性确定第一标签611(例如,%name1%)和第二标签612(例如,%name2%)。第一标签611和第二标签612可以用于指示同级或同类的不同对象。然后计算设备102可以将目标文章110的第一部分替换为第一标签611,并且将目标文章110的第二部分替换为第二标签612,以便第一标签611和第二标签612各自指示的、具有共同属性的其他对象的信息分别被填充到第一部分和第二部分。例如,利用如此生成的文章模板130可以将也属于“山”的其他对象“喜马拉雅山”和“阿尔卑斯山”的信息或相关描述填充到第一部分和第二部分。
还可以分别在第一标签611和第二标签612之后添加其他标签,诸如图6中所示的标签621和622。在这种情况下,在后续生成文章时,可以用要描述的对象的名称(例如,“喜马拉雅山”和“阿尔卑斯山”)来替换第一标签611和第二标签612,并且用与要描述的对象有关的写作素材来分别替换标签621和622。还可以类似地针对目标文章110中描述的第三对象603、第四对象604和第五对象605来生成第三标签613、第N标签614以及可选的标签623、624。
附加地或备选地,计算设备102还可以对目标文章110的标题601中的文字进行替换,从而生成文章模板130的标题模板601。如图6所示,可以用标签“%region%”来替换标题601中的“中国”,用N来替换标题601中的数字。计算设备102还可以基于句法分析来确定用于描述对象的描述词,例如,可以识别标题601中“著名”为描述词,并且可以用相应的标签(例如,%tag%)来替换这样的描述词。举例而言,利用图6中所示的文章模板130可以生成标题为“北美三大适合徒步的山峰”。正文部分可以分别描述三个不同的山。
在参考图5所描述的实施例中,可以针对目标文章中的不同对象来生成文章模板。以此方式生成的文章模板特别适合于盘点类文章的自动生成。
图7示出了根据本公开的实施例的用于生成文章模板的装置700的示意性框图。如图7所示,装置700包括:目标文章获取模块710,被配置为获取属于预定类别的目标文章;属性信息确定模块720,被配置为确定目标文章中的第一对象的属性信息,属性信息包括用于描述第一对象的属性和与属性相关联的属性值;以及文章模板生成模块730,被配置为至少基于第一对象的属性信息和目标文章,生成针对预定类别的文章模板,以用于构建预定类别的文章。
在一些实施例中,目标文章获取模块710包括:统计信息确定模块,被配置为确定与用户的搜索词相对应的搜索结果的统计信息;目标网页确定模块,被配置为基于统计信息,从搜索结果中确定目标网页;以及目标文章提取模块,被配置为响应于搜索词属于预定类别,从目标网页中提取目标文章的标题和正文。
在一些实施例中,属性信息确定模块720包括:第一知识图谱获取模块,被配置为获取针对第一对象的第一知识图谱;以及属性确定模块,被配置为从第一知识图谱中确定第一对象的属性以及与属性相对应的属性值。
在一些实施例中,文章模板生成模块730包括:第一属性值确定模块,被配置为确定目标文章中是否包括第一对象的属性值;关联部分确定模块,被配置为响应于目标文章包括属性值,从目标文章中确定与属性值相关联的部分;以及第一模板生成模块,被配置为基于目标文章的部分和与属性值相关联的属性,生成文章模板。
在一些实施例中,第一模板生成模块包括:第一属性标签确定模块,被配置为确定指示属性的属性标签;以及第一属性标签替换模块,被配置为将目标文章的部分替换为属性标签。
在一些实施例中,第一模板生成模块包括:第二属性标签确定模块,被配置为确定指示属性的属性标签;第二属性值确定模块,被配置为确定目标文章的部分中是否包括属性值;以及第二属性标签替换模块,被配置为响应于确定目标文章的部分中包括属性值,将目标文章的部分中的属性值替换为属性标签。
在一些实施例中,文章模板生成模块730包括:第一知识图谱获取模块,被配置为获取针对第一对象的第一知识图谱;第二知识图谱获取模块,被配置为获取针对目标文章中的第二对象的第二知识图谱,第二对象与第一对象不同;共同属性确定模块,被配置为基于第一知识图谱和第二知识图谱,确定第一对象和第二对象所具有的共同属性;部分确定模块,被配置为响应于共同属性属于预定义属性集合,从目标文章中确定与第一对象相关联的第一部分和与第二对象相关联的第二部分;以及第二模板生成模块,被配置为基于第一部分和第二部分,生成文章模板。
在一些实施例中,第二模板生成模块包括:第一和第二标签确定模块,被配置为基于共同属性确定第一标签和第二标签;第一标签替换模块,被配置为将目标文章的第一部分替换为第一标签;以及第二标签替换模块,被配置为将目标文章的第二部分替换为第二标签,以便第一标签和第二标签各自指示的、具有共同属性的其他对象的信息分别被填充到第一部分和第二部分。
在一些实施例中,装置700还包括:素材获取模块,被配置为获取属于预定类别的素材;以及文章生成模块,被配置为基于素材和文章模板,生成预定类别的文章。
图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。设备800可以用于实现图1的计算设备102。如图所示,设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元801执行上文所描述的各个方法和处理,例如过程200、300、400和500中的任一个。例如,在一些实施例中,过程200、300、400和500中的任一个可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时,可以执行上文描述的过程200、300、400和500中的任一个的一个或多个步骤。备选地,在其他实施例中,CPU 801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程200。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种生成文章模板的方法,包括:
获取属于预定类别的目标文章;
确定所述目标文章中的第一对象的属性信息,所述属性信息包括用于描述所述第一对象的属性和与所述属性相关联的属性值;以及
至少基于所述第一对象的属性信息和所述目标文章,生成针对所述预定类别的文章模板,以用于构建所述预定类别的文章;
其中生成所述文章模板包括:
获取针对所述第一对象的第一知识图谱;
获取针对所述目标文章中的第二对象的第二知识图谱,所述第二对象与所述第一对象不同;
基于所述第一知识图谱和所述第二知识图谱,确定所述第一对象和所述第二对象所具有的共同属性;
响应于所述共同属性属于预定义属性集合,从所述目标文章中确定与所述第一对象相关联的第一部分和与所述第二对象相关联的第二部分;以及
基于所述第一部分和所述第二部分,生成所述文章模板。
2.根据权利要求1所述的方法,其中获取所述目标文章包括:
确定与用户的搜索词相对应的搜索结果的统计信息;
基于所述统计信息,从所述搜索结果中确定目标网页;以及
响应于所述搜索词属于所述预定类别,从所述目标网页中提取所述目标文章的标题和正文。
3.根据权利要求1所述的方法,其中确定所述第一对象的属性信息包括:
获取针对所述第一对象的第一知识图谱;以及
从所述第一知识图谱中确定所述第一对象的属性以及与所述属性相对应的属性值。
4.根据权利要求1所述的方法,其中生成所述文章模板包括:
确定所述目标文章中是否包括所述第一对象的属性值;
响应于所述目标文章包括所述属性值,从所述目标文章中确定与所述属性值相关联的部分;以及
基于所述目标文章的所述部分和与所述属性值相关联的属性,生成所述文章模板。
5.根据权利要求4所述的方法,其中基于所述部分和所述属性生成所述文章模板包括:
确定指示所述属性的属性标签;以及
将所述目标文章的所述部分替换为所述属性标签。
6.根据权利要求4所述的方法,其中基于所述部分和所述属性生成所述文章模板包括:
确定指示所述属性的属性标签;
确定所述目标文章的所述部分中是否包括所述属性值;以及
响应于确定所述目标文章的所述部分中包括所述属性值,将所述目标文章的所述部分中的所述属性值替换为所述属性标签。
7.根据权利要求1所述的方法,其中基于所述第一部分和所述第二部分生成所述文章模板包括:
基于所述共同属性确定第一标签和第二标签;
将所述目标文章的所述第一部分替换为所述第一标签;以及
将所述目标文章的所述第二部分替换为所述第二标签,以便所述第一标签和所述第二标签各自指示的、具有所述共同属性的其他对象的信息分别被填充到所述第一部分和所述第二部分。
8.根据权利要求1所述的方法,还包括:
获取属于所述预定类别的素材;以及
基于所述素材和所述文章模板,生成所述预定类别的文章。
9.一种用于生成文章模板的装置,包括:
目标文章获取模块,被配置为获取属于预定类别的目标文章;
属性信息确定模块,被配置为确定所述目标文章中的第一对象的属性信息,所述属性信息包括用于描述所述第一对象的属性和与所述属性相关联的属性值;以及
文章模板生成模块,被配置为至少基于所述第一对象的属性信息和所述目标文章,生成针对所述预定类别的文章模板,以用于构建所述预定类别的文章;
其中所述文章模板生成模块包括:
第一知识图谱获取模块,被配置为获取针对所述第一对象的第一知识图谱;
第二知识图谱获取模块,被配置为获取针对所述目标文章中的第二对象的第二知识图谱,所述第二对象与所述第一对象不同;
共同属性确定模块,被配置为基于所述第一知识图谱和所述第二知识图谱,确定所述第一对象和所述第二对象所具有的共同属性;
部分确定模块,被配置为响应于所述共同属性属于预定义属性集合,从所述目标文章中确定与所述第一对象相关联的第一部分和与所述第二对象相关联的第二部分;以及
第二模板生成模块,被配置为基于所述第一部分和所述第二部分,生成所述文章模板。
10.根据权利要求9所述的装置,其中所述目标文章获取模块包括:
统计信息确定模块,被配置为确定与用户的搜索词相对应的搜索结果的统计信息;
目标网页确定模块,被配置为基于所述统计信息,从所述搜索结果中确定目标网页;以及
目标文章提取模块,被配置为响应于所述搜索词属于所述预定类别,从所述目标网页中提取所述目标文章的标题和正文。
11.根据权利要求9所述的装置,其中所述属性信息确定模块包括:
第一知识图谱获取模块,被配置为获取针对所述第一对象的第一知识图谱;以及
属性确定模块,被配置为从所述第一知识图谱中确定所述第一对象的属性以及与所述属性相对应的属性值。
12.根据权利要求9所述的装置,其中所述文章模板生成模块包括:
第一属性值确定模块,被配置为确定所述目标文章中是否包括所述第一对象的属性值;
关联部分确定模块,被配置为响应于所述目标文章包括所述属性值,从所述目标文章中确定与所述属性值相关联的部分;以及
第一模板生成模块,被配置为基于所述目标文章的所述部分和与所述属性值相关联的属性,生成所述文章模板。
13.根据权利要求12所述的装置,其中所述第一模板生成模块包括:
第一属性标签确定模块,被配置为确定指示所述属性的属性标签;以及
第一属性标签替换模块,被配置为将所述目标文章的所述部分替换为所述属性标签。
14.根据权利要求12所述的装置,其中所述第一模板生成模块包括:
第二属性标签确定模块,被配置为确定指示所述属性的属性标签;
第二属性值确定模块,被配置为确定所述目标文章的所述部分中是否包括所述属性值;以及
第二属性标签替换模块,被配置为响应于确定所述目标文章的所述部分中包括所述属性值,将所述目标文章的所述部分中的所述属性值替换为所述属性标签。
15.根据权利要求9所述的装置,其中所述第二模板生成模块包括:
第一和第二标签确定模块,被配置为基于所述共同属性确定第一标签和第二标签;
第一标签替换模块,被配置为将所述目标文章的所述第一部分替换为所述第一标签;以及
第二标签替换模块,被配置为将所述目标文章的所述第二部分替换为所述第二标签,以便所述第一标签和所述第二标签各自指示的、具有所述共同属性的其他对象的信息分别被填充到所述第一部分和所述第二部分。
16.根据权利要求9所述的装置,还包括:
素材获取模块,被配置为获取属于所述预定类别的素材;以及
文章生成模块,被配置为基于所述素材和所述文章模板,生成所述预定类别的文章。
17.一种用于生成文章模板的设备,所述设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201811331776.6A 2018-11-09 2018-11-09 用于生成文章模板的方法、装置、设备和存储介质 Active CN109635260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811331776.6A CN109635260B (zh) 2018-11-09 2018-11-09 用于生成文章模板的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811331776.6A CN109635260B (zh) 2018-11-09 2018-11-09 用于生成文章模板的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN109635260A CN109635260A (zh) 2019-04-16
CN109635260B true CN109635260B (zh) 2022-07-12

Family

ID=66067548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811331776.6A Active CN109635260B (zh) 2018-11-09 2018-11-09 用于生成文章模板的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN109635260B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705310B (zh) * 2019-09-20 2023-07-18 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN111144084B (zh) * 2019-12-10 2024-05-10 贝壳技术有限公司 文章模板的配置方法与配置系统及生成文章的方法与系统
CN113010062A (zh) * 2021-03-18 2021-06-22 阿里巴巴新加坡控股有限公司 生成设计方案的方法、装置及电子设备
CN113361240B (zh) * 2021-06-23 2024-01-19 北京百度网讯科技有限公司 用于生成目标文章的方法、装置、设备和可读存储介质
CN114417808B (zh) * 2022-02-25 2023-04-07 北京百度网讯科技有限公司 文章生成方法、装置、电子设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778160A (zh) * 2010-01-08 2010-07-14 中兴通讯股份有限公司 实现动态预设消息的方法及装置
CN106610927A (zh) * 2016-12-19 2017-05-03 厦门二五八网络科技集团股份有限公司 一种基于翻译模板的互联网文章的建构方法与系统
CN106874248A (zh) * 2017-01-22 2017-06-20 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法和装置
CN107168992A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的文章分类方法及装置、设备与可读介质
CN107943774A (zh) * 2017-11-20 2018-04-20 北京百度网讯科技有限公司 文章生成方法和装置
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778160A (zh) * 2010-01-08 2010-07-14 中兴通讯股份有限公司 实现动态预设消息的方法及装置
CN106610927A (zh) * 2016-12-19 2017-05-03 厦门二五八网络科技集团股份有限公司 一种基于翻译模板的互联网文章的建构方法与系统
CN106874248A (zh) * 2017-01-22 2017-06-20 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法和装置
CN107168992A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的文章分类方法及装置、设备与可读介质
CN107943774A (zh) * 2017-11-20 2018-04-20 北京百度网讯科技有限公司 文章生成方法和装置
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和系统

Also Published As

Publication number Publication date
CN109635260A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635260B (zh) 用于生成文章模板的方法、装置、设备和存储介质
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
JP7334395B2 (ja) ビデオ分類方法、装置、機器、および記憶媒体
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN110020312B (zh) 提取网页正文的方法和装置
CN110647322B (zh) 列表渲染方法、装置、电子设备和计算机可读介质
CN112182359A (zh) 推荐模型的特征管理方法及系统
CN116245177B (zh) 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN111858905A (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN110110143A (zh) 一种视频分类方法及装置
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN104991920A (zh) 标签的生成方法及装置
CN114461749B (zh) 对话内容的数据处理方法、装置、电子设备和介质
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN114860872A (zh) 数据处理方法、装置、设备以及存储介质
CN105528441A (zh) 基于自动标注的中心词提取方法和装置
CN112632981A (zh) 一种新词发现方法和装置
CN109978645B (zh) 一种数据推荐方法和装置
CN107038183B (zh) 网页标注方法及装置
CN111309952A (zh) 图像处理方法及装置、电子设备、存储介质
CN111914199A (zh) 一种页面元素过滤方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant