CN114417808B - 文章生成方法、装置、电子设备以及存储介质 - Google Patents

文章生成方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN114417808B
CN114417808B CN202210184161.5A CN202210184161A CN114417808B CN 114417808 B CN114417808 B CN 114417808B CN 202210184161 A CN202210184161 A CN 202210184161A CN 114417808 B CN114417808 B CN 114417808B
Authority
CN
China
Prior art keywords
candidate
target
event
determining
associated event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210184161.5A
Other languages
English (en)
Other versions
CN114417808A (zh
Inventor
吴雨薇
卞东海
蔡远俊
郑烨翰
徐伟建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210184161.5A priority Critical patent/CN114417808B/zh
Publication of CN114417808A publication Critical patent/CN114417808A/zh
Application granted granted Critical
Publication of CN114417808B publication Critical patent/CN114417808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文章生成方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理和知识图谱技术领域。具体实现方案为:根据目标事件,得到目标关联事件集,其中,目标关联事件集包括至少一个目标关联事件,目标关联事件的发生时刻与目标事件的发生时刻处于同一预定时段内;确定候选素材集,其中,候选素材集包括与目标事件对应的至少一个候选素材和与目标关联事件对应的至少一个候选素材;对候选素材集进行处理,得到与至少一个候选素材对应的主体信息和概要信息;根据预定文章模板以及与至少一个候选素材对应的主体信息和概要信息,生成目标文章。

Description

文章生成方法、装置、电子设备以及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及自然语言处理和知识图谱技术领域。具体地,涉及一种文章生成方法、装置、电子设备以及存储介质。
背景技术
随着互联网技术的发展,互联网已经成为信息社会的基本通信工具,用户可以根据通过互联网获取的各种信息来满足用户需求。
例如,可以获取与事件相关的素材。根据素材生成文章,以便用户可以根据文章对事件有较为详细的了解。文章的类型可以包括多种。例如,文章的类型可以包括事件脉络文章。
发明内容
本公开提供了一种文章生成方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种文章生成方法,包括:根据目标事件,得到目标关联事件集,其中,上述目标关联事件集包括至少一个目标关联事件,上述目标关联事件的发生时刻与上述目标事件的发生时刻处于同一预定时段内;确定候选素材集,其中,上述候选素材集包括与上述目标事件对应的至少一个候选素材和与上述目标关联事件对应的至少一个候选素材;对上述候选素材集进行处理,得到与上述至少一个候选素材对应的主体信息和概要信息;以及,根据预定文章模板以及与上述至少一个候选素材对应的主体信息和概要信息,生成目标文章。
根据本公开的另一方面,提供了一种文章生成装置,包括:第一获得模块,用于根据目标事件,得到目标关联事件集,其中,上述目标关联事件集包括至少一个目标关联事件,上述目标关联事件的发生时刻与上述目标事件的发生时刻处于同一预定时段内;第一确定模块,用于确定候选素材集,其中,上述候选素材集包括与上述目标事件对应的至少一个候选素材和与上述目标关联事件对应的至少一个候选素材;第二获得模块,用于对上述候选素材集进行处理,得到与上述至少一个候选素材对应的主体信息和概要信息;以及,生成模块,用于根据预定文章模板以及与上述至少一个候选素材对应的主体信息和概要信息,生成目标文章。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行本公开所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行本公开所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现本公开所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用文章生成方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的文章生成方法的流程图;
图3示意性示出了根据本公开实施例的文章生成过程的示例示意图;
图4示意性示出了根据本公开实施例的文章生成装置的框图;以及
图5示意性示出了根据本公开实施例的适于实现文章生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
针对如何根据与处于同一预定时段内的相关事件对应的素材来生成文章,本公开实施例提出了一种文章生成方案。根据目标事件,得到目标关联事件集。目标关联事件集包括至少一个目标关联事件。目标关联事件的发生时刻与目标事件的发生时刻处于同一预定时段内。确定候选素材集。候选素材集包括与目标事件对应的至少一个候选素材和与目标关联事件对应的至少一个候选素材。对候选素材集进行处理,得到与至少一个候选素材对应的主体信息和概要信息。根据预定文章模板以及与至少一个候选素材对应的主体信息和概要信息,生成目标文章。
根据本公开的实施例,目标关联事件的发生时刻与目标事件的发生时刻是同一预定时段,由此,候选素材集包括的候选素材是同一预定时段的候选素材,再对候选素材集进行处理,得到与至少一个候选素材对应的主体信息和概要信息,最后根据预定文章模板以及与至少一个候选素材对应的主体信息和概要信息,生成目标文章,实现了生成基于同一预定时段内相关事件的文章。
图1示意性示出了根据本公开实施例的可以应用文章生成方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用文章生成方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的文章生成方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
服务器105可以是提供各种服务的各种类型的服务器。例如,服务器105可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(Virtual Private Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器,或者是结合了区块链的服务器。
需要说明的是,本公开实施例所提供的文章生成方法一般可以由服务器105执行。相应地,本公开实施例所提供的文章生成装置一般可以设置于服务器105中。本公开实施例所提供的文章生成方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文章生成装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
或者,本公开实施例所提供的文章生成方法一般也可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的文章生成装置也可以设置于终端设备101、102、或103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2示意性示出了根据本公开实施例的文章生成方法的流程图。
如图2所示,该方法200包括操作S210~S240。
在操作S210,根据目标事件,得到目标关联事件集。目标关联事件集包括至少一个目标关联事件。目标关联事件的发生时刻与目标事件的发生时刻处于同一预定时段内。
在操作S220,确定候选素材集。候选素材集包括与目标事件对应的至少一个候选素材和与目标关联事件对应的至少一个候选素材。
在操作S230,对候选素材集进行处理,得到与至少一个候选素材对应的主体信息和概要信息。
在操作S240,根据预定文章模板以及与至少一个候选素材对应的主体信息和概要信息,生成目标文章。
根据本公开的实施例,事件可以指对所发生的事情的要素描述。要素可以包括事情发生的时刻和地点,事情的内容和状态,以及与事情相关的参与者等。事件可以包括对象。对象可以包括以下至少一项:事件触发词和事件元素。事件触发词可以指触发事件的关键词。事件元素可以包括事件参与者、事件发生时刻和事件发生地点。根据事件所属领域,可以将事件划分为以下一项:财经类事件、娱乐类事件、社会类事件、体育类事件、教育类事件、科技类事件和健康类事件。根据事件所依托的载体,可以将事件划分为以下一项:文本事件、图像事件和音频事件。根据事件的内容,可以将事件划分为以下一项:元事件和主题事件。元事件可以指在某个时刻,至少一个动作在预定地域范围内发生或状态发生变化的事件。主题事件可以包括多个主题事件片段。主题事件片段可以包括多个元事件。根据事件的热度值,可以将事件划分为以下一项:热度事件和非热度事件。
根据本公开的实施例,素材可以指用于生成文章的资源。根据素材的内容,可以将素材划分为以下一项:文本素材、图像素材和音频素材。主体信息可以指与素材的正文信息相关的信息。概要信息可以指与素材的梗概信息和串联信息相关的信息。概要信息可以包括以下至少一项:标题信息、摘要信息和线索信息。
根据本公开的实施例,目标事件可以指作为用于生成目标文章的依据的事件。目标关联事件可以指与目标事件具有关联关系的事件。关联关系可以体现在发生时刻上具有关联关系和在对象上具有关联关系。
根据本公开的实施例,针对目标关联事件与目标事件在发生时刻上具有关联关系,即,如果目标关联事件的发生时刻与目标事件的发生时刻在同一预定时段内,则可以确定目标关联事件与目标事件在发生时刻上具有关联关系。预定时段可以根据目标事件的延续时段确定。延续时段可以指从目标事件的发生时刻到目标事件的结束时刻之间所经历的时长。预定时段可以大于延续时段。例如,预定时段可以是延续时段的预定倍数。
根据本公开的实施例,针对目标关联事件与目标事件在对象上具有关联关系,即,如果目标关联事件的对象和目标事件的对象之间的关联度满足预定条件,则可以确定目标关联事件与目标事件在对象上具有关联关系。例如,确定与目标关联事件对应的第一对象向量。确定与目标事件对应的第二对象向量。确定第一对象向量与第二对象向量之间的第一相似度。在确定第一相似度大于或等于第一预定相似度阈值的情况下,确定目标关联事件的对象和目标事件的对象之间的关联度满足预定条件。第一相似度的形式可以根据实际业务需求进行配置,在此不作限定。例如,第一相似度可以包括余弦相似度、皮尔逊相关系数、欧式距离或Jaccard距离。第一预定相似度阈值可以根据实际业务需求进行配置,在此不作限定。
根据本公开的实施例,候选素材集可以指与目标事件和目标关联事件均相关的素材集。候选素材集可以包括至少一个与目标事件对应的候选素材和至少一个与目标关联事件对应的候选素材。
根据本公开的实施例,预定文章模板可以用于作为生成文章的规划大纲。预定文章模板可以包括多个框架字段和多个框架字段之间的关系。多个框架字段可以包括标题字段和正文字段。正文字段可以包括开场话术字段、与候选素材集对应的摘要字段、与候选素材集对应的主体字段和结束话术字段。与候选素材集对应的摘要字段可以包括与目标事件对应的至少一个候选素材的摘要字段和与目标关联事件对应的至少一个候选素材的摘要字段。与候选素材集对应的主体字段可以包括与目标事件对应的至少一个候选素材的主体字段和与目标关联事件对应的至少一个候选素材的主体字段。
根据本公开的实施例,可以根据目标事件的至少一个目标对象,确定与目标关联事件的目标关联事件集。根据目标事件和目标关联事件集,得到候选素材集。例如,可以从预定素材库中确定与目标事件对应的至少一个候选素材和与目标关联事件对应的至少一个候选素材,得到候选素材集。再可以对候选素材集包括的至少一个候选素材进行处理,得到与至少一个候选素材各自对应的主体信息和概要信息。备选地,对候选素材集包括的至少一个候选素材进行处理,得到与至少一个候选素材中的部分候选素材各自对应的主体信息和概要信息。在获得与至少一个候选素材对应的主体信息和概要信息之后,可以按照预定文章模板,对与至少一个候选素材对应的主体信息和概要信息进行设置,得到目标文章。
根据本公开的实施例,目标关联事件的发生时刻与目标事件的发生时刻是同一预定时段,由此,候选素材集包括的候选素材是同一预定时段的候选素材,再对候选素材集进行处理,得到与至少一个候选素材对应的主体信息和概要信息,最后根据预定文章模板以及与至少一个候选素材对应的主体信息和概要信息,生成目标文章,实现了生成基于同一预定时段内相关事件的文章。
根据本公开的实施例,操作S210可以包括如下操作。
确定目标事件的至少一个目标对象。基于事件知识图谱,根据至少一个目标对象,得到目标关联事件集。
根据本公开的实施例,目标对象可以包括字或词。例如,目标对象可以包括目标关键词。事件知识图谱可以包括多个第一节点和多个第一边。第一边可以用于表征该第一边连接的两个第一节点之间的关系。第一节点可以用于表征事件。事件知识图谱可以是根据至少一个第一候选事件、至少一个第二候选事件以及至少一个第一候选事件和至少一个第二候选事件之间的关系构建得到的。至少一个第一候选事件可以是根据第一初始对象确定的。至少一个第二候选事件可以是根据第二初始对象确定的。第一初始对象可以是与目标聚类簇对应的对象。目标聚类簇可以是从对多个对象进行聚类得到的多个聚类簇中确定的。
根据本公开的实施例,可以根据目标事件的至少一个目标对象,从事件知识图谱中确定与至少一个目标对象对应的事件,得到至少一个目标关联事件。例如,可以从事件知识图谱中确定与至少一个目标对象中的全部目标对象各自对应的事件,得到至少一个目标关联事件。备选地,从事件知识图谱中确定与至少一个目标对象中的部分目标对象各自对应的事件,得到至少一个目标关联事件。
根据本公开的实施例,确定目标事件的至少一个目标对象可以包括如下操作。
对目标事件进行处理,得到至少一个候选对象。基于第一预定选择策略,从至少一个候选对象中确定至少一个目标对象。
根据本公开的实施例,可以对目标事件进行对象提取,得到至少一个核心对象。根据至少一个核心对象,得到至少一个关联对象。根据至少一个核心对象和至少一个关联对象,得到至少一个候选对象。
根据本公开的实施例,第一预定选择策略可以包括如何从至少一个候选对象中确定至少一个目标对象的内容。例如,第一预定选择策略可以是将不属于预定类别的候选对象确定为目标对象。预定类别可以包括低质量类别。
根据本公开的实施例,可以利用对象分类模型处理至少一个候选对象,得到至少一个候选对象各自的分类结果。针对至少一个候选对象中的每个候选对象,在确定候选对象的分类结果不是预定类别的情况下,将候选对象确定为目标对象。
根据本公开的实施例,通过从至少一个候选对象中确定至少一个目标对象,实现了选择出高质量类别的候选对象作为目标对象。
根据本公开的实施例,对目标事件进行处理,得到至少一个候选对象,可以包括如下操作。
对目标事件进行对象提取,得到至少一个核心对象。基于对象知识图谱,根据至少一个核心对象,得到至少一个候选对象。
根据本公开的实施例,对象知识图谱可以包括多个第二节点和多个第二边。第二边可以用于表征该第二边连接的两个第二节点之间的关系。第二节点可以用于表征对象。
根据本公开的实施例,可以利用对象提取算法处理目标事件,得到至少一个核心对象。对象提取算法可以包括基于词频统计的对象提取算法、基于主题模型的对象提取算法或基于TextRank的对象提取算法。例如,基于词频统计的对象提取算法包括基于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率指数)算法等。基于主题模型的对象提取算法可以包括基于LDA(Linear Discriminant Analysis,线性判别分析)的算法等。在获得至少一个核心对象之后,可以根据目标事件的至少一个核心对象,从知识知识图谱中确定与至少一个核心对象对应的关联对象,得到至少一个关联对象。例如,可以从对象知识图谱中确定与至少一个核心对象中的全部核心对象各自对应的关联对象,得到至少一个关联对象。备选地,从对象知识图谱中确定与至少一个核心对象中的部分核心对象各自对应的事件,得到至少一个关联对象。
根据本公开的实施例,基于事件知识图谱,根据至少一个目标对象,得到目标关联事件集可以包括如下操作。
基于事件知识图谱,根据至少一个目标对象,得到候选关联事件集。候选关联事件集包括至少一个候选关联事件。基于第二预定选择策略,从候选关联事件集中确定目标关联事件集。
根据本公开的实施例,第二预定选择策略可以包括如何从至少一个候选关联事件中确定至少一个目标关联事件的内容。例如,第二预定选择策略可以包括根据候选关联事件与目标事件之间的关联度确定候选关联事件是否是目标关联事件的内容。备选地,第二预定选择策略可以包括根据候选关联事件的发生时刻,确定候选关联事件是否是目标关联事件的内容。备选地,第二预定选择策略可以包括根据候选关联事件与目标事件之间的关联度,以及候选关联事件的发生时刻,确定候选关联事件是否是目标关联事件的内容。
根据本公开的实施例,可以根据至少一个目标对象,从事件知识图谱中确定与至少一个目标对象对应的事件,得到至少一个候选关联事件。例如,可以从事件知识图谱中确定与至少一个目标对象中的全部目标对象各自对应的事件,得到至少一个候选关联事件。备选地,从事件知识图谱中确定与至少一个目标对象中的部分目标对象各自对应的事件,得到至少一个候选关联事件。
根据本公开的实施例,基于第二预定选择策略,从候选关联事件集中确定目标关联事件集可以包括如下操作。
确定候选关联事件集中每个候选关联事件与目标事件之间的关联度,得到至少一个第一关联度。根据至少一个第一关联度,从候选关联事件集中确定目标关联事件集。
根据本公开的实施例,关联度可以指两个事件之间的关联程度。关联度的数值大小与关联程度高低之间的关系,可以根据实际业务需求确定,在此不作限定。例如,关联度的数值越大,则两个事件的关联程度越高。备选地,关联度的数值越小,则两个事件的关联程度越高。关联度可以包括相似度。
根据本公开的实施例,确定与至少一个候选关联事件中的每个候选关联事件各自对应的候选关联事件向量。确定与目标事件对应的目标事件向量。针对至少一个候选关联事件中的每个候选关联事件,确定目标事件向量和与该候选关联事件对应的候选关联事件向量之间的相似度,得到至少一个第二相似度。
根据本公开的实施例,可以根据至少一个第二相似度,从候选关联事件集中确定目标关联事件集。例如,可以对至少一个第二相似度进行排序,得到第一排序结果。根据第一排序结果,从候选关联事件集中确定目标关联事件集。排序可以包括按照第二相似度由大到小,对至少一个候选关联事件进行排序或按照第二相似度由小到大,对至少一个候选关联事件进行排序。例如,如果按照第二相似度由小到大的顺序,则可以将排序靠后的第一预定数目的候选关联事件确定目标关联事件集中的目标关联事件。
根据本公开的实施例,针对至少一个候选关联事件中的每个候选关联事件,在确定与该候选关联事件对应的第二相似度大于或等于第二预定相似度阈值的情况下,将该候选关联事件确定为目标关联事件。第二预定相似度阈值可以根据实际业务需求进行配置,在此不作限定。
根据本公开的实施例,根据至少一个第一关联度,从候选关联事件集中确定目标关联事件集可以包括如下操作。
根据至少一个第一关联度,从候选关联事件集中确定第一候选关联事件子集。根据第一候选关联事件子集中候选关联事件的发生时刻,从第一候选关联事件子集中确定目标关联事件集。
根据本公开的实施例,可以根据至少一个第一关联度,对候选关联事件集包括的至少一个候选关联事件进行排序,得到第二排序结果。根据第二排序结果,从候选关联事件集中确定第一候选关联事件子集。备选地,可以针对至少一个候选关联事件中的每个候选关联事件,在确定与该候选关联事件对应的第一关联度大于或等于第一预定关联度阈值的情况下,将该候选关联事件确定为第一候选关联事件子集中的候选关联事件。
根据本公开的实施例,在确定第一候选关联事件子集之后,可以根据第一候选关联事件子集中的每个候选关联事件的发生时刻的先后顺序,对第一候选关联事件子集中的至少一个候选关联事件进行排序,得到第三排序结果。根据第三排序结果,从第一候选关联事件子集中确定目标关联事件集。排序可以包括按照发生时刻由先到后的顺序,对第一候选关联事件子集中的至少一个候选关联事件进行排序或按照发生时刻由后到先的顺序,对第一候选关联事件子集中的至少一个候选关联事件进行排序。例如,如果按照发生时刻由先到后的顺序,则可以将排序靠前的第二预定数目的候选关联事件确定目标关联事件集中的目标关联事件。
根据本公开的实施例,基于第二预定选择策略,从候选关联事件集中确定目标关联事件集可以包括如下操作。
根据候选关联事件集中候选关联事件的发生时刻,从候选关联事件集中确定目标关联事件。
根据本公开的实施例,可以根据候选关联事件集中的每个候选关联事件的发生时刻的先后顺序,对候选关联事件集中的至少一个候选关联事件进行排序,得到第四排序结果。根据第四排序结果,从候选关联事件集中确定目标关联事件集。排序可以包括按照发生时刻由先到后的顺序,对候选关联事件集中的至少一个候选关联事件进行排序或按照发生时刻由后到先的顺序,对候选关联事件集中的至少一个候选关联事件进行排序。例如,如果按照发生时刻由先到后的顺序,则可以将排序靠前的第三预定数目的候选关联事件确定目标关联事件集中的目标关联事件。
根据本公开的实施例,根据候选关联事件集中候选关联事件的发生时刻,从候选关联事件集中确定目标关联事件可以包括如下操作。
根据候选关联事件集中候选关联事件的发生时刻,从候选关联事件集中确定第二候选关联事件子集。确定第二候选关联事件子集中候选关联事件与目标事件之间的第二关联度,得到至少一个第二关联度。根据至少一个第二关联度,从第二候选关联事件子集中确定目标关联事件集。
根据本公开的实施例,可以根据候选关联事件集中的每个候选关联事件的发生时刻的先后顺序,对候选关联事件集中的至少一个候选关联事件进行排序,得到第五排序结果。根据第五排序结果,从候选关联事件集中确定第二候选关联事件子集。排序可以包括按照发生时刻由先到后的顺序,对候选关联事件集中的至少一个候选关联事件进行排序或按照发生时刻由后到先的顺序,对候选关联事件集中的至少一个候选关联事件进行排序。例如,如果按照发生时刻由先到后的顺序,则可以将排序靠前的第四预定数目的候选关联事件确定第二候选关联事件子集中的候选关联事件。
根据本公开的实施例,在确定第二候选关联事件子集之后,可以确定第二候选关联事件子集中的候选关联事件与目标事件之间的第二关联度,得到至少一个第二关联度。根据至少一个第二关联度,对第二候选关联事件子集包括的至少一个候选关联事件进行排序,得到第六排序结果。根据第六排序结果,从第二候选关联事件子集中确定目标关联事件集。备选地,可以针对第二候选关联事件子集包括的至少一个候选关联事件中的每个候选关联事件,在确定与该候选关联事件对应的第二关联度大于或等于第二预定关联度阈值的情况下,将该候选关联事件确定为目标关联事件集中的目标关联事件。
根据本公开的实施例,概要信息可以包括标题信息、摘要信息和线索信息。
根据本公开的实施例,操作S230可以包括如下操作。
针对候选素材集中的每个候选素材,根据候选素材,得到候选素材的标题信息、主体信息和摘要信息。在确定摘要信息满足预定条件的情况下,将候选素材确定为目标素材。对目标素材进行线索提取,得到目标素材的线索信息。
根据本公开的实施例,概要信息可以包括标题信息、摘要信息和线索信息。线索信息可以指用于串联事件的信息。
根据本公开的实施例,针对候选素材集中的每个候选素材,对候选素材进行处理,得到候选素材的标题信息、主体信息和摘要信息。确定摘要信息是否满足预定条件。如果确定摘要信息满足预定条件,则可以将候选素材确定为目标素材。例如,可以确定摘要信息的摘要字数是否大于或等于预定摘要字数阈值,如果确定摘要信息的摘要字数大于或等于预定摘要字数阈值,则可以确定摘要信息满足预定条件。在确定目标摘要信息之后,可以对目标摘要信息进行线索提取,得到目标素材的线索信息。
根据本公开的实施例,根据候选素材,得到候选素材的标题信息、主体信息和摘要信息可以包括如下操作。
根据候选素材,得到候选素材的标题信息和主体信息。利用摘要算法处理主体信息,得到候选素材的摘要信息。
根据本公开的实施例,可以对候选素材进行处理,得到候选素材的标题信息和主体信息。再利用摘要算法处理候选素材的主体信息,得到候选素材的摘要信息。摘要算法可以包括TextRank算法。
根据本公开的实施例,利用摘要算法处理候选素材的主体信息,得到候选素材的摘要信息可以包括:对候选素材的主体信息进行语句划分,得到至少一个语句。确定与至少一个语句各自的语句向量,得到至少一个语句向量。确定至少一个语句向量彼此之间的第三相似度,得到至少一个第三相似度。根据至少一个第三相似度,得到相似度矩阵。将相似度矩阵转换为以语句为节点,以第二相似度为边的图结构。利用摘要算法处理图结构,得到候选素材的摘要信息。
根据本公开的实施例,对目标素材进行线索提取,得到目标素材的线索信息可以包括如下操作。
利用事件抽取算法处理目标素材,得到目标素材的线索信息。线索信息包括以下至少一项:事件、事件的发生时刻和事件的参与者。
根据本公开的实施例,事件抽取算法可以用于实现事件识操作和事件元素(即线索信息)识别操作。事件识别操作可以包括事件触发词检测操作和事件触发词分类操作。事件元素识别操作可以包括事件论元识别操作和事件论元角色识别操作。可以利用事件抽取算法处理目标素材,得到目标素材的线索信息。
根据本公开的实施例,操作S240可以包括如下操作。
基于预定结构化处理策略,对至少一个候选素材进行处理,得到结构化处理结果。根据预定文章模板、结构化处理结果以及与至少一个候选素材对应的主体信息和概要信息,生成目标文章。
根据本公开的实施例,预定结构化处理策略可以包括如何获得候选素材的结构化处理结果的内容。例如,可以根据事件的发生时刻和与事件对应的对象的相关性,对至少一个候选素材进行处理,得到结构化处理结果。再按照预定文章模板和结构化处理结果,对与至少一个候选素材对应的主体信息和概要信息进行设置,得到目标文章。
根据本公开的实施例,基于预定结构化处理策略,对至少一个候选素材进行处理,得到结构化处理结果可以包括如下操作。
对至少一个候选素材进行分组,得到至少一个候选素材组。不同候选素材组关联的对象彼此不同。针对每个候选素材组,基于预定排序策略,对候选素材组中的至少一个候选素材进行排序,得到排序结果。根据至少一个候选素材组各自的排序结果,得到结构化处理结果。
根据本公开的实施例,预定排序策略可以包括如何对候选素材组中的候选素材进行排序的内容。例如,预定排序策略可以包括根据事件的发生时刻对候选素材进行排序的内容。
根据本公开的实施例,可以根据与候选素材对应的对象,对至少一个候选素材进行分组,得到至少一个候选素材组。候选素材组可以与对象一一对应。针对每个候选素材组,可以根据与候选素材组中的每个候选素材对应的事件的发生时刻的先后顺序,对候选素材组中的至少一个候选素材进行排序,得到与候选素材组对应的第七排序结果。根据至少一个候选素材组各自的第七排序结果,得到结构化处理结果。
根据本公开的实施例,上述文章生成方法还可以包括如下操作。
响应于针对目标文章的编辑操作,根据编辑操作对目标文章进行编辑,得到编辑后的目标文章。
根据本公开的实施例,编辑操作可以包括以下至少一项:修改操作、删除操作、选择操作和添加操作。可以在检测到针对目标文章的编辑操作被触发的情况下,根据编辑操作对目标文章进行编辑,得到编辑后的目标文章。例如,可以检测到编辑页面上的编辑操作被触发的情况下,根据编辑操作对目标文章进行编辑,得到编辑后的目标文章。
例如,编辑操作可以是用于添加目标图像的添加操作。根据添加操作,在目标文章的预定位置添加目标图像,得到编辑后的目标文章。
根据本公开的实施例,上述文章生成方法还可以包括如下操作。
对目标文章进行可视化展示。
根据本公开的实施例,可以可视化页面上展示目标文章。
下面参考图3,结合具体实施例对根据本公开实施例所述的文章生成方法做进一步说明。
图3示意性示出了根据本公开实施例的文章生成过程的示例示意图。
如图3所示,在300中,对目标事件301进行对象提取,得到至少一个核心对象302。基于对象知识图谱303,根据至少一个核心对象302,得到至少一个候选对象304。基于第一预定选择策略,从至少一个候选对象304中确定至少一个目标对象305。基于事件知识图谱306,根据至少一个目标对象305,得到候选关联事件集307。基于第二预定选择策略,从候选关联事件集307中确定目标关联事件集308。目标关联事件的发生时刻与目标事件301的发生时刻处于同一预定时段内。
根据目标关联事件集308,确定候选素材集309。基于预定结构化处理策略,对至少一个候选素材进行处理,得到结构化处理结果310。对候选素材集309进行处理,得到与至少一个候选素材对应的主体信息311和概要信息312。根据预定文章模板313、结构化处理结果310以及与至少一个候选素材对应的主体信息311和概要信息312,生成目标文章314。
例如,目标事件301可以是“第**届××于%%年#月!日在??举行”。对目标事件301进行对象提取,得到核心对象“××”和核心对象“??”。基于对象知识图谱303,根据核心对象“××”和核心对象“??”,得到候选对象304“开幕式”、候选对象304“吉祥物”、候选对象304“解说员”和候选对象304“裁判”。基于第一预定选择策略,从至少一个候选对象304中确定至少一个目标对象305,即,至少一个目标对象305包括目标对象305“开幕式”、目标对象305“吉祥物”、目标对象305“解说员”和目标对象305“裁判”。再根据至少一个目标对象305确定目标关联事件集308。根据目标事件301和目标关联事件集308,确定候选素材集309。候选素材集309可以包括“开幕式有哪些值得关注的亮点”、“开幕式节目”、“吉祥物诞生记”、“解说员为什么这么受欢迎”和“裁判员详解比赛规则”。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
以上仅是示例性实施例,但不限于此,还可以包括本领域已知的其他文章生成方法,只要能够实现生成基于同一预定时段内相关事件的文章即可。
图4示意性示出了根据本公开实施例的文章生成装置的框图。
如图4所示,文章生成装置400可以包括第一获得模块410、第一确定模块420、第二获得模块430和生成模块440。
第一获得模块410,用于根据目标事件,得到目标关联事件集。目标关联事件集包括至少一个目标关联事件,目标关联事件的发生时刻与目标事件的发生时刻处于同一预定时段内。
第一确定模块420,用于确定候选素材集。候选素材集包括与目标事件对应的至少一个候选素材和与目标关联事件对应的至少一个候选素材。
第二获得模块430,用于对候选素材集进行处理,得到与至少一个候选素材对应的主体信息和概要信息。
生成模块440,用于根据预定文章模板以及与至少一个候选素材对应的主体信息和概要信息,生成目标文章。
根据本公开的实施例,第一获得模块410可以包括第一确定子模块和第一获得子模块。
第一确定子模块,用于确定目标事件的至少一个目标对象。
第一获得子模块,用于基于事件知识图谱,根据至少一个目标对象,得到目标关联事件集。
根据本公开的实施例,第一确定子模块可以包括第一获得单元和第一确定单元。
第一获得单元,用于对目标事件进行处理,得到至少一个候选对象。
第一确定单元,用于基于第一预定选择策略,从至少一个候选对象中确定至少一个目标对象。
根据本公开的实施例,第一获得单元可以包括第一获得子单元和第二获得子单元。
第一获得子单元,用于对目标事件进行对象提取,得到至少一个核心对象。
第二获得子单元,用于基于对象知识图谱,根据至少一个核心对象,得到至少一个候选对象。
根据本公开的实施例,第一获得单元可以包括第三获得子单元和第一确定子单元。
第三获得子单元,用于基于事件知识图谱,根据至少一个目标对象,得到候选关联事件集。候选关联事件集包括至少一个候选关联事件。
第一确定子单元,用于基于第二预定选择策略,从候选关联事件集中确定目标关联事件集。
根据本公开的实施例,第一确定子单元可以用于:确定候选关联事件集中每个候选关联事件与目标事件之间的关联度,得到至少一个第一关联度。根据至少一个第一关联度,从候选关联事件集中确定目标关联事件集。
根据本公开的实施例,根据至少一个第一关联度,从候选关联事件集中确定目标关联事件集可以包括如下操作。
根据至少一个第一关联度,从候选关联事件集中确定第一候选关联事件子集。
根据第一候选关联事件子集中候选关联事件的发生时刻,从第一候选关联事件子集中确定目标关联事件集。
根据本公开的实施例,第一确定子单元可以用于根据候选关联事件集中候选关联事件的发生时刻,从候选关联事件集中确定目标关联事件。
根据本公开的实施例,根据候选关联事件集中候选关联事件的发生时刻,从候选关联事件集中确定目标关联事件可以包括如下操作。
根据候选关联事件集中候选关联事件的发生时刻,从候选关联事件集中确定第二候选关联事件子集。
确定第二候选关联事件子集中候选关联事件与目标事件之间的第二关联度,得到至少一个第二关联度。
根据至少一个第二关联度,从第二候选关联事件子集中确定目标关联事件集。
根据本公开的实施例,概要信息包括标题信息、摘要信息和线索信息。
根据本公开的实施例,第二获得模块430可以包括第二获得子模块、第二确定子模块和第三获得子模块。
针对候选素材集中的每个候选素材,
第二获得子模块,用于根据候选素材,得到候选素材的标题信息、主体信息和摘要信息。
第二确定子模块,用于在确定摘要信息满足预定条件的情况下,将候选素材确定为目标素材。
第三获得子模块,用于对目标素材进行线索提取,得到目标素材的线索信息。
根据本公开的实施例,第二获得子模块可以包括第二获得单元和第三获得单元。
第二获得单元,用于根据候选素材,得到候选素材的标题信息和主体信息。
第三获得单元,用于利用摘要算法处理主体信息,得到候选素材的摘要信息。
根据本公开的实施例,第三获得子模块可以包括第四获得单元。
第四获得单元,用于利用事件抽取算法处理目标素材,得到目标素材的线索信息。线索信息包括以下至少一项:事件、事件的发生时刻和与事件的参与者。
根据本公开的实施例,生成模块410可以包括第四获得子模块和生成子模块。
第四获得子模块,用于基于预定结构化处理策略,对至少一个候选素材进行处理,得到结构化处理结果。
生成子模块,用于根据预定文章模板、结构化处理结果以及与至少一个候选素材对应的主体信息和概要信息,生成目标文章。
根据本公开的实施例,第五获得子模块可以包括第五获得单元、第六获得单元和第七获得单元。
第五获得单元,用于对至少一个候选素材进行分组,得到至少一个候选素材组。不同候选素材组关联的对象彼此不同。
第六获得单元,用于针对每个候选素材组,基于预定排序策略,对候选素材组中的至少一个候选素材进行排序,得到排序结果。
第七获得单元,用于根据至少一个候选素材组各自的排序结果,得到结构化处理结果。
根据本公开的实施例,上述文章生成装置400还可以包括第三获得模块。
第三获得模块,用于响应于针对目标文章的编辑操作,根据编辑操作对目标文章进行编辑,得到编辑后的目标文章。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上的方法。
图5示意性示出了根据本公开实施例的适于实现图像分类方法和训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如文章生成方法。例如,在一些实施例中,文章生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的文章生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文章生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (28)

1.一种文章生成方法,包括:
根据目标事件,得到目标关联事件集,其中,所述目标关联事件集包括至少一个目标关联事件,所述目标关联事件的发生时刻与所述目标事件的发生时刻处于同一预定时段内,所述目标关联事件的对象和所述目标事件的对象之间的关联度满足预定条件;
确定候选素材集,其中,所述候选素材集包括与所述目标事件对应的至少一个候选素材和与所述目标关联事件对应的至少一个候选素材;
对所述候选素材集进行处理,得到与所述至少一个候选素材对应的主体信息和概要信息;以及
根据预定文章模板以及与所述至少一个候选素材对应的主体信息和概要信息,生成目标文章;
其中,所述概要信息包括标题信息、摘要信息和线索信息;
其中,所述对所述候选素材集进行处理,得到与所述至少一个候选素材对应的主体信息和线索信息,包括:
针对所述候选素材集中的每个候选素材,
根据所述候选素材,得到所述候选素材的标题信息、主体信息和摘要信息;
在确定所述摘要信息满足预定条件的情况下,将所述候选素材确定为目标素材;以及
对所述目标素材进行线索提取,得到所述目标素材的线索信息;
其中,所述根据所述候选素材,得到所述候选素材的标题信息、主体信息和摘要信息,包括:
根据所述候选素材,得到所述候选素材的标题信息和主体信息;以及
利用摘要算法处理所述主体信息,得到所述候选素材的摘要信息;
其中,所述利用摘要算法处理所述主体信息,得到所述候选素材的摘要信息,包括:
对所述候选素材的主体信息进行语句划分,得到至少一个语句;
确定与所述至少一个语句各自对应的语句向量,得到至少一个语句向量;
确定所述至少一个语句向量彼此之间的第三相似度,得到至少一个第三相似度;
根据所述至少一个第三相似度,得到相似度矩阵;
将所述相似度矩阵转换为以语句为节点,以所述第三相似度为边的图结构;以及
利用摘要算法处理所述图结构,得到所述候选素材的摘要信息。
2.根据权利要求1所述的方法,其中,所述根据目标事件,得到目标关联事件集,包括:
确定所述目标事件的至少一个目标对象;以及
基于事件知识图谱,根据所述至少一个目标对象,得到所述目标关联事件集。
3. 根据权利要求2所述的方法,其中,所述确定所述目标事件的至少一个目标对象,包括:
对所述目标事件进行处理,得到至少一个候选对象;以及
基于第一预定选择策略,从所述至少一个候选对象中确定所述至少一个目标对象。
4.根据权利要求3所述的方法,其中,所述对所述目标事件进行处理,得到至少一个候选对象,包括:
对所述目标事件进行对象提取,得到至少一个核心对象;以及
基于对象知识图谱,根据所述至少一个核心对象,得到所述至少一个候选对象。
5. 根据权利要求2~4中任一项所述的方法,其中,所述基于事件知识图谱,根据所述至少一个目标对象,得到所述目标关联事件集,包括:
基于所述事件知识图谱,根据所述至少一个目标对象,得到候选关联事件集,其中,所述候选关联事件集包括至少一个候选关联事件;以及
基于第二预定选择策略,从所述候选关联事件集中确定所述目标关联事件集。
6. 根据权利要求5所述的方法,其中,所述基于第二预定选择策略,从所述候选关联事件集中确定所述目标关联事件集,包括:
确定所述候选关联事件集中每个候选关联事件与所述目标事件之间的关联度,得到至少一个第一关联度;以及
根据所述至少一个第一关联度,从所述候选关联事件集中确定所述目标关联事件集。
7.根据权利要求6所述的方法,其中,所述根据所述至少一个第一关联度,从所述候选关联事件集中确定所述目标关联事件集,包括:
根据所述至少一个第一关联度,从所述候选关联事件集中确定第一候选关联事件子集;以及
根据所述第一候选关联事件子集中候选关联事件的发生时刻,从所述第一候选关联事件子集中确定所述目标关联事件集。
8.根据权利要求5所述的方法,其中,所述基于第二预定选择策略,从所述候选关联事件集中确定所述目标关联事件集,包括:
根据所述候选关联事件集中候选关联事件的发生时刻,从所述候选关联事件集中确定所述目标关联事件。
9.根据权利要求8所述的方法,其中,所述根据所述候选关联事件集中候选关联事件的发生时刻,从所述候选关联事件集中确定所述目标关联事件,包括:
根据所述候选关联事件集中候选关联事件的发生时刻,从所述候选关联事件集中确定第二候选关联事件子集;
确定所述第二候选关联事件子集中候选关联事件与所述目标事件之间的第二关联度,得到至少一个第二关联度;以及
根据所述至少一个第二关联度,从所述第二候选关联事件子集中确定所述目标关联事件集。
10.根据权利要求1所述的方法,其中,所述对所述目标素材进行线索提取,得到所述目标素材的线索信息,包括:
利用事件抽取算法处理所述目标素材,得到所述目标素材的线索信息,其中,所述线索信息包括以下至少一项:事件、所述事件的发生时刻和与所述事件的参与者。
11. 根据权利要求1~4中任一项所述的方法,其中,所述根据预定文章模板以及与所述至少一个候选素材对应的主体信息和概要信息,生成目标文章,包括:
基于预定结构化处理策略,对所述至少一个候选素材进行处理,得到结构化处理结果;以及
根据所述预定文章模板、所述结构化处理结果以及与所述至少一个候选素材对应的主体信息和概要信息,生成所述目标文章。
12.根据权利要求11所述的方法,其中,所述基于预定结构化处理策略,对所述至少一个候选素材进行处理,得到结构化处理结果,包括:
对所述至少一个候选素材进行分组,得到至少一个候选素材组,其中,不同所述候选素材组关联的对象彼此不同;
针对所述每个候选素材组,基于预定排序策略,对所述候选素材组中的至少一个所述候选素材进行排序,得到排序结果;以及
根据所述至少一个候选素材组各自的排序结果,得到所述结构化处理结果。
13.根据权利要求1~4中任一项所述的方法,还包括:
响应于针对所述目标文章的编辑操作,根据所述编辑操作对所述目标文章进行编辑,得到编辑后的目标文章。
14.一种文章生成装置,包括:
第一获得模块,用于根据目标事件,得到目标关联事件集,其中,所述目标关联事件集包括至少一个目标关联事件,所述目标关联事件的发生时刻与所述目标事件的发生时刻处于同一预定时段内;
第一确定模块,用于确定候选素材集,其中,所述候选素材集包括与所述目标事件对应的至少一个候选素材和与所述目标关联事件对应的至少一个候选素材;
第二获得模块,用于对所述候选素材集进行处理,得到与所述至少一个候选素材对应的主体信息和概要信息;以及
生成模块,用于根据预定文章模板以及与所述至少一个候选素材对应的主体信息和概要信息,生成目标文章;
其中,所述概要信息包括标题信息、摘要信息和线索信息;
其中,所述第二获得模块,包括:
针对所述候选素材集中的每个候选素材,
第二获得子模块,用于根据所述候选素材,得到所述候选素材的标题信息、主体信息和摘要信息;
第二确定子模块,用于在确定所述摘要信息满足预定条件的情况下,将所述候选素材确定为目标素材;以及
第三获得子模块,用于对所述目标素材进行线索提取,得到所述目标素材的线索信息;
其中,所述第二获得子模块,包括:
第二获得单元,用于根据所述候选素材,得到所述候选素材的标题信息和主体信息;以及
第三获得单元,用于利用摘要算法处理所述主体信息,得到所述候选素材的摘要信息;
其中,所述第三获得单元,用于:
对所述候选素材的主体信息进行语句划分,得到至少一个语句;
确定与所述至少一个语句各自对应的语句向量,得到至少一个语句向量;
确定所述至少一个语句向量彼此之间的第三相似度,得到至少一个第三相似度;
根据所述至少一个第三相似度,得到相似度矩阵;
将所述相似度矩阵转换为以语句为节点,以所述第三相似度为边的图结构;以及
利用摘要算法处理所述图结构,得到所述候选素材的摘要信息。
15. 根据权利要求14所述的装置,其中,所述第一获得模块,包括:
第一确定子模块,用于确定所述目标事件的至少一个目标对象;以及
第一获得子模块,用于基于事件知识图谱,根据所述至少一个目标对象,得到所述目标关联事件集。
16. 根据权利要求15所述的装置,其中,所述第一确定子模块,包括:
第一获得单元,用于对所述目标事件进行处理,得到至少一个候选对象;以及
第一确定单元,用于基于第一预定选择策略,从所述至少一个候选对象中确定所述至少一个目标对象。
17. 根据权利要求16所述的装置,其中,所述第一获得单元,包括:
第一获得子单元,用于对所述目标事件进行对象提取,得到至少一个核心对象;以及
第二获得子单元,用于基于对象知识图谱,根据所述至少一个核心对象,得到所述至少一个候选对象。
18. 根据权利要求15~17中任一项所述的装置,其中,所述第一获得子模块,包括:
第三获得子单元,用于基于所述事件知识图谱,根据所述至少一个目标对象,得到候选关联事件集,其中,所述候选关联事件集包括至少一个候选关联事件;以及
第一确定子单元,用于基于第二预定选择策略,从所述候选关联事件集中确定所述目标关联事件集。
19.根据权利要求18所述的装置,其中,所述第一确定子单元,用于:
确定所述候选关联事件集中每个候选关联事件与所述目标事件之间的关联度,得到至少一个第一关联度;以及
根据所述至少一个第一关联度,从所述候选关联事件集中确定所述目标关联事件集。
20. 根据权利要求19所述的装置,其中,所述根据所述至少一个第一关联度,从所述候选关联事件集中确定所述目标关联事件集,包括:
根据所述至少一个第一关联度,从所述候选关联事件集中确定第一候选关联事件子集;以及
根据所述第一候选关联事件子集中候选关联事件的发生时刻,从所述第一候选关联事件子集中确定所述目标关联事件集。
21.根据权利要求18所述的装置,其中,所述第一确定子单元,用于:
根据所述候选关联事件集中候选关联事件的发生时刻,从所述候选关联事件集中确定所述目标关联事件。
22.根据权利要求21所述的装置,其中,所述根据所述候选关联事件集中候选关联事件的发生时刻,从所述候选关联事件集中确定所述目标关联事件,包括:
根据所述候选关联事件集中候选关联事件的发生时刻,从所述候选关联事件集中确定第二候选关联事件子集;
确定所述第二候选关联事件子集中候选关联事件与所述目标事件之间的第二关联度,得到至少一个第二关联度;以及
根据所述至少一个第二关联度,从所述第二候选关联事件子集中确定所述目标关联事件集。
23.根据权利要求14所述的装置,其中,所述第三获得子模块,包括:
第四获得单元,用于利用事件抽取算法处理所述目标素材,得到所述目标素材的线索信息,其中,所述线索信息包括以下至少一项:事件、所述事件的发生时刻和与所述事件的参与者。
24. 根据权利要求14~17中任一项所述的装置,其中,所述生成模块,包括:
第四获得子模块,用于基于预定结构化处理策略,对所述至少一个候选素材进行处理,得到结构化处理结果;以及
生成子模块,用于根据所述预定文章模板、所述结构化处理结果以及与所述至少一个候选素材对应的主体信息和概要信息,生成所述目标文章。
25.根据权利要求24所述的装置,其中,所述第四获得子模块,包括:
第五获得单元,用于对所述至少一个候选素材进行分组,得到至少一个候选素材组,其中,不同所述候选素材组关联的对象彼此不同;
第六获得单元,用于针对所述每个候选素材组,基于预定排序策略,对所述候选素材组中的至少一个所述候选素材进行排序,得到排序结果;以及
第七获得单元,用于根据所述至少一个候选素材组各自的排序结果,得到所述结构化处理结果。
26.根据权利要求14~17中任一项所述的装置,还包括:
第三获得模块,用于响应于针对所述目标文章的编辑操作,根据所述编辑操作对所述目标文章进行编辑,得到编辑后的目标文章。
27. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~13中任一项所述的方法。
28.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~13中任一项所述的方法。
CN202210184161.5A 2022-02-25 2022-02-25 文章生成方法、装置、电子设备以及存储介质 Active CN114417808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210184161.5A CN114417808B (zh) 2022-02-25 2022-02-25 文章生成方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210184161.5A CN114417808B (zh) 2022-02-25 2022-02-25 文章生成方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN114417808A CN114417808A (zh) 2022-04-29
CN114417808B true CN114417808B (zh) 2023-04-07

Family

ID=81260759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210184161.5A Active CN114417808B (zh) 2022-02-25 2022-02-25 文章生成方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114417808B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853834A (zh) * 2014-03-12 2014-06-11 华东师范大学 基于文本结构分析的Web文档摘要的生成方法
CN104915335A (zh) * 2015-06-12 2015-09-16 百度在线网络技术(北京)有限公司 为主题文档集生成摘要的方法和装置
CN107168992A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的文章分类方法及装置、设备与可读介质
CN108920611A (zh) * 2018-06-28 2018-11-30 北京百度网讯科技有限公司 文章生成方法、装置、设备及存储介质
CN109408672A (zh) * 2018-12-14 2019-03-01 北京百度网讯科技有限公司 一种文章生成方法、装置、服务器及存储介质
CN110263312A (zh) * 2019-06-19 2019-09-20 北京百度网讯科技有限公司 文章生成方法、装置、服务器和计算机可读介质
CN110795553A (zh) * 2019-09-09 2020-02-14 腾讯科技(深圳)有限公司 一种摘要生成方法及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062496B2 (en) * 2003-02-12 2006-06-13 International Business Machines Corporation Automatic data abstraction generation using database schema and related objects
CN104536950B (zh) * 2014-12-11 2018-04-20 北京百度网讯科技有限公司 生成文本摘要的方法及装置
CN107943774A (zh) * 2017-11-20 2018-04-20 北京百度网讯科技有限公司 文章生成方法和装置
CN108829854B (zh) * 2018-06-21 2021-08-31 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN109635260B (zh) * 2018-11-09 2022-07-12 北京百度网讯科技有限公司 用于生成文章模板的方法、装置、设备和存储介质
CN110377891B (zh) * 2019-06-19 2023-01-06 北京百度网讯科技有限公司 事件分析文章的生成方法、装置、设备及计算机可读存储介质
CN113361240B (zh) * 2021-06-23 2024-01-19 北京百度网讯科技有限公司 用于生成目标文章的方法、装置、设备和可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853834A (zh) * 2014-03-12 2014-06-11 华东师范大学 基于文本结构分析的Web文档摘要的生成方法
CN104915335A (zh) * 2015-06-12 2015-09-16 百度在线网络技术(北京)有限公司 为主题文档集生成摘要的方法和装置
CN107168992A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的文章分类方法及装置、设备与可读介质
CN108920611A (zh) * 2018-06-28 2018-11-30 北京百度网讯科技有限公司 文章生成方法、装置、设备及存储介质
CN109408672A (zh) * 2018-12-14 2019-03-01 北京百度网讯科技有限公司 一种文章生成方法、装置、服务器及存储介质
CN110263312A (zh) * 2019-06-19 2019-09-20 北京百度网讯科技有限公司 文章生成方法、装置、服务器和计算机可读介质
CN110795553A (zh) * 2019-09-09 2020-02-14 腾讯科技(深圳)有限公司 一种摘要生成方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Trung Tran.etc."Text Generation from Abstract Semantic Representation for Summarizing Vietnamese Paragraphs Having Co-references".《2018 5th NAFOSTED Conference on Information and Computer Science (NICS)》.2019,第93-98页. *
缪湾湾."基于深度学习的摘要生成技术研究".《中国优秀硕士学位论文全文数据库信息科技辑》.2021,I138-901. *
马腾."基于深度学习的自动摘要生成系统研究与实现".《中国优秀硕士学位论文全文数据库信息科技辑》.2021, I138-614. *

Also Published As

Publication number Publication date
CN114417808A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110046236B (zh) 一种非结构化数据的检索方法及装置
CN112733042B (zh) 推荐信息的生成方法、相关装置及计算机程序产品
CN112148881B (zh) 用于输出信息的方法和装置
CN113079417B (zh) 生成弹幕的方法、装置、设备和存储介质
US9418058B2 (en) Processing method for social media issue and server device supporting the same
CN110717040A (zh) 词典扩充方法及装置、电子设备、存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN110245357B (zh) 主实体识别方法和装置
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
US20230214679A1 (en) Extracting and classifying entities from digital content items
CN112926298A (zh) 新闻内容识别方法、相关装置及计算机程序产品
CN115048523B (zh) 文本分类方法、装置、设备以及存储介质
CN114417808B (zh) 文章生成方法、装置、电子设备以及存储介质
CN116597443A (zh) 素材标签处理方法、装置、电子设备及介质
CN113868508B (zh) 写作素材查询方法、装置、电子设备和存储介质
CN115510212A (zh) 一种文本事件抽取方法、装置、设备及存储介质
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN113987026A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN111897910A (zh) 信息推送方法和装置
CN115878784B (zh) 基于自然语言理解的摘要生成方法、装置及电子设备
CN114490976B (zh) 对话摘要训练数据的生成方法、装置、设备及存储介质
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质
CN113360602A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN113849688A (zh) 资源处理方法、资源处理装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant