CN113705210A - 一种文章大纲生成方法、装置和用于生成文章大纲的装置 - Google Patents

一种文章大纲生成方法、装置和用于生成文章大纲的装置 Download PDF

Info

Publication number
CN113705210A
CN113705210A CN202110901707.XA CN202110901707A CN113705210A CN 113705210 A CN113705210 A CN 113705210A CN 202110901707 A CN202110901707 A CN 202110901707A CN 113705210 A CN113705210 A CN 113705210A
Authority
CN
China
Prior art keywords
title
paragraph
article
target
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110901707.XA
Other languages
English (en)
Inventor
龚能
孙嘉楠
徐竟达
涂曼姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202110901707.XA priority Critical patent/CN113705210A/zh
Publication of CN113705210A publication Critical patent/CN113705210A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文章大纲生成方法、装置和用于生成文章大纲的装置。所述方法包括:获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落;确定每篇参考文章的每个段落对应的候选标题;对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;根据所述全局标题连接图生成所述预设主题对应的文章大纲。本发明生成的文章大纲,能够充分涵盖符合预设主题的多篇文章中与预设主题相关的信息,提高了生成的文章大纲与预设主题的相关度;并且,本发明通过基于多篇参考文章的段落标题生成文章大纲,增强了生成的文章大纲的可信度,有利于提升写作辅助效果。

Description

一种文章大纲生成方法、装置和用于生成文章大纲的装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文章大纲生成方法、装置和用于生成文章大纲的装置。
背景技术
随着移动互联网技术的蓬勃发展,海量的信息聚集在各类信息流平台中,巨量的文章为读者提供了近乎无穷的选择,但对于文章的生产者而言,写作、发文的门槛降低了,但是从海量文章中脱颖而出的难度却越来越大。
目前通常是基于维基百科和论文的大纲文本训练分段模型,根据训练完成的分段模型确定文章的一级分段和段落标题,并根据段落标题生成文章大纲推荐给用户,辅助用户写作。
发明内容
本发明实施例提供一种文章大纲生成方法、装置和用于生成文章大纲的装置,可以提高生成的文章大纲与预设主题的相关度,增强文章大纲的可信度。
为了解决上述问题,本发明实施例公开了一种文章大纲生成方法,所述方法包括:
获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落;
确定每篇参考文章的每个段落对应的候选标题;
对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;
根据所述全局标题连接图生成所述预设主题对应的文章大纲。
可选地,所述对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图,包括:
对每个段落对应的各个候选标题进行合并处理,得到每个段落对应的目标标题;
按照段落之间的先后顺序依次连接属于同一篇参考文章的各个段落对应的目标标题,得到至少两个内部标题连接图,每一个内部标题连接图对应一篇参考文章;
根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图。
可选地,所述根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图,包括:
根据所述目标标题的语义对属于不同参考文章的各个目标标题进行聚类处理,得到各个目标标题所属的类簇;
连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图。
可选地,所述连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图,包括:
判断所述至少两个内部标题连接图的同一类簇中是否存在至少两个相同的目标标题;
若同一类簇中存在至少两个相同的目标标题,则对所述至少两个相同的目标标题进行合并,得到合并后的目标标题,并根据所述合并后的目标标题更新其所属类簇中的目标标题;
连接所述至少两个内部标题连接图的同一类簇中更新后的目标标题,得到所述预设主题对应的全局标题连接图。
可选地,所述根据所述全局标题连接图生成所述预设主题对应的文章大纲,包括:
基于社区发现算法抽取所述全局标题连接图中的目标子图;
根据所述目标子图生成所述预设主题对应的文章大纲。
可选地,所述候选标题包括第一候选标题和第二候选标题,所述确定每篇参考文章的每个段落对应的候选标题,包括:
针对每篇参考文章的每个段落,生成至少两个段落标题;
从每个段落的各个段落标题中确定第一候选标题,所述第一候选标题与其所属段落的其他段落标题之间的相似度满足第一预设条件;
确定与所述第一候选标题的相似度满足第二预设条件的第二候选标题。
可选地,所述从每个段落的各个段落标题中确定第一候选标题,包括:
计算同一段落的第一段落标题与其他段落标题的相似度之和,得到所述第一段落标题的相关指数,所述第一段落标题为其所属段落的至少两个段落标题中的任一段落标题;
若所述第一段落标题的相关指数大于其所属段落的其他段落标题的相关指数,则确定所述第一段落标题为第一候选标题。
可选地,所述第二预设条件包括:所述第二候选标题与所述第一候选标题的相似度小于第二段落标题与所述第一候选标题的相似度,所述第二段落标题为所述第一候选标题所属段落的至少两个段落标题中不属于候选标题的任一段落标题。
可选地,所述获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落,包括:
接收用户输入的预设主题和筛选条件,所述筛选条件包括文章类型、被引用次数、发表时间、文章阅读量、文章点赞量中的至少一项;
根据所述筛选条件查找满足所述预设主题的至少两篇参考文章;
基于预先训练的分段模型确定每篇参考文章的段落。
可选地,所述基于预先训练的分段模型确定每篇参考文章的段落之前,所述方法还包括:
基于双向自编码模型和条件随机场构建分段模型;
获取分段训练语料,所述分段训练语料包括样本文章以及所述样本文章对应的分段点;
根据所述分段训练语料对所述分段模型进行训练,直至所述分段模型满足收敛条件得到训练完成的分段模型。
另一方面,本发明实施例公开了一种文章大纲生成装置,所述装置包括:
参考文章获取模块,用于获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落;
候选标题确定模块,用于确定每篇参考文章的每个段落对应的候选标题;
标题连接图生成模块,用于对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;
文章大纲生成模块,用于根据所述全局标题连接图生成所述预设主题对应的文章大纲。
可选地,所述标题连接图生成模块,包括:
标题合并子模块,用于对每个段落对应的各个候选标题进行合并处理,得到每个段落对应的目标标题;
内部标题连接图生成子模块,用于按照段落之间的先后顺序依次连接属于同一篇参考文章的各个段落对应的目标标题,得到至少两个内部标题连接图,每一个内部标题连接图对应一篇参考文章;
全局标题连接图生成子模块,用于根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图。
可选地,所述全局标题连接图生成子模块,包括:
聚类处理单元,用于根据所述目标标题的语义对属于不同参考文章的各个目标标题进行聚类处理,得到各个目标标题所属的类簇;
全局标题连接图生成单元,用于连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图。
可选地,所述全局标题连接图生成单元,包括:
目标标题判断子单元,用于判断所述至少两个内部标题连接图的同一类簇中是否存在至少两个相同的目标标题;
目标标题合并子单元,用于若同一类簇中存在至少两个相同的目标标题,则对所述至少两个相同的目标标题进行合并,得到合并后的目标标题,并根据所述合并后的目标标题更新其所属类簇中的目标标题;
目标标题连接子单元,用于连接所述至少两个内部标题连接图的同一类簇中更新后的目标标题,得到所述预设主题对应的全局标题连接图。
可选地,所述文章大纲生成模块,包括:
目标子图抽取子模块,用于基于社区发现算法抽取所述全局标题连接图中的目标子图;
文章大纲生成子模块,用于根据所述目标子图生成所述预设主题对应的文章大纲。
可选地,所述候选标题包括第一候选标题和第二候选标题,所述候选标题确定模块,包括:
段落标题生成子模块,用于针对每篇参考文章的每个段落,生成至少两个段落标题;
第一候选标题确定子模块,用于从每个段落的各个段落标题中确定第一候选标题,所述第一候选标题与其所属段落的其他段落标题之间的相似度满足第一预设条件;
第二候选标题确定子模块,用于确定与所述第一候选标题的相似度满足第二预设条件的第二候选标题。
可选地,所述第一候选标题确定子模块,包括:
相关指数计算单元,用于计算同一段落的第一段落标题与其他段落标题的相似度之和,得到所述第一段落标题的相关指数,所述第一段落标题为其所属段落的至少两个段落标题中的任一段落标题;
第一候选标题确定单元,用于若所述第一段落标题的相关指数大于其所属段落的其他段落标题的相关指数,则确定所述第一段落标题为第一候选标题。
可选地,所述第二预设条件包括:所述第二候选标题与所述第一候选标题的相似度小于第二段落标题与所述第一候选标题的相似度,所述第二段落标题为所述第一候选标题所属段落的至少两个段落标题中不属于候选标题的任一段落标题。
可选地,所述参考文章获取模块,包括:
数据接收子模块,用于接收用户输入的预设主题和筛选条件,所述筛选条件包括文章类型、被引用次数、发表时间、文章阅读量、文章点赞量中的至少一项;
文章筛选子模块,用于根据所述筛选条件查找满足所述预设主题的至少两篇参考文章;
段落确定子模块,用于基于预先训练的分段模型确定每篇参考文章的段落。
可选地,所述参考文章获取模块还包括:
分段模块构建子模块,用于基于双向自编码模型和条件随机场构建分段模型;
训练语料获取子模块,用于获取分段训练语料,所述分段训练语料包括样本文章以及所述样本文章对应的分段点;
分段模型训练子模块,用于根据所述分段训练语料对所述分段模型进行训练,直至所述分段模型满足收敛条件得到训练完成的分段模型。
再一方面,本发明实施例公开了一种用于生成文章大纲的装置,所述装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如前述一个或多个所述的文章大纲生成方法的指令。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的文章大纲生成方法。
本发明实施例包括以下优点:
本发明实施例通过获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落,然后,进一步确定每篇参考文章的每个段落对应的候选标题;对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;最后,根据所述全局标题连接图生成所述预设主题对应的文章大纲。本发明实施例在生成文章大纲时,通过获取符合预设主题的多篇参考文章,并对每篇参考文章的段落标题进行聚类,得到包含所有参考文章的各个段落标题的全局标题连接图,最终基于所述全局标题连接图生成文章大纲以供用户参考,相比于现有技术中在多篇文章中筛选出一篇文章,基于筛选出的一篇文章生成文章大纲的方法,本发明生成的文章大纲,能够充分涵盖符合预设主题的多篇文章中与预设主题相关的信息,提高了生成的文章大纲与预设主题的相关度;并且,本发明通过基于多篇参考文章的段落标题生成文章大纲,增强了生成的文章大纲的可信度,有利于提升写作辅助效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种文章大纲生成方法实施例的步骤流程图;
图2是本发明的一种文章大纲生成装置实施例的结构框图;
图3是本发明的一种用于生成文章大纲的装置800的框图;
图4是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
参照图1,示出了本发明的一种语音处理方法实施例的步骤流程图,所述方法具体可以包括如下步骤:
步骤101、获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落。
步骤102、确定每篇参考文章的每个段落对应的候选标题。
步骤103、对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图。
步骤104、根据所述全局标题连接图生成所述预设主题对应的文章大纲。
本发明实施例提供的文章大纲生成方法,可应用于终端设备,也可以应用于服务器。其中,所述终端设备可以包括但不限于:智能终端、计算机、个人数字助理(PersonalDigital Assistant,PDA)、平板电脑、电子书阅读器、膝上型便携式计算机、车载设备、智能电视机、可穿戴设备等。
所述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、云通信、网络服务、中间件服务、内容分发网络(Content Delivery Network,CDN),以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,所述预设主题可以是所述终端设备和/或所述服务器对用户提交的写作需求进行分析得到的主题。用户提交的写作需求可以是文字信息,所述终端设备和/或所述服务器通过对所述文字信息进行语义分析,确定预设主题;或者,用户提交的写作需求也可以是语音信息,所述终端设备和/或所述服务器可以先通过内置的语音识别模型,将所述语音信息转换为文字信息,并进一步对转换后的文字信息进行语义分析得到所述预设主题;或者,用户提交的写作信息还可以是图片,所述终端设备和/或所述服务器通过对所述图片进行特征分析和文字识别,确定所述图片包含的内容,然后根据所述图片包含的内容确定预设主题,等等。
其中,所述参考文章可以是符合所述预设主题的任意类型的文章。例如,所述参考文章可以是符合所述预设主题的论文、新闻稿、公众号文章、论坛帖子、博客、网页文档等等。本发明实施例对参考文章的文章类型不做具体限定,只要所述参考文章符合所述预设主题即可。
本发明实施例在获取符合预设主题的参考文章时,可以预先构建文章素材数据库,从所述文章素材数据库中查找符合所述预设主题的参考文章。其中,所述文章素材数据库可以利用第三方系统提供的数据服务,例如各种论文数据库、文学数据库、科技数据库等等。具体的,可以通过网络爬虫技术从现有的媒体平台(包括文章检索平台、主流自媒体平台、微博、论坛等)收集免费数据,或者与第三方合作收集授权数据,或者直接利用第三方系统,还可以由技术人员定期上传文章素材,持续更新所述文章素材数据库。
对于所述文章素材数据库中的各篇文章,可以先对文章内容进行分析,确定文章主题并生成相应的主题标签,进而在获取参考文章时,可以直接基于各篇文章的主题标签与所述预设主题的相似度确定参考文章。
确定出符合预设主题的参考文章之后,进一步确定每篇文章的段落。具体的,可以基于预先训练的分段模型确定每篇文章的段落。所述分段模型可以选用本领域任意擅长进行分段的神经网络模型,对此,本发明实施例不做具体限定。
然后,确定每篇参考文章的每个段落对应的候选标题。具体的,可以对段落内容进行分析,抽取段落中的关键实体词(如地名、人名等命名实体词,或者其他关键词)以及主题词(如体育、娱乐、情感等),然后根据抽取的关键实体词和主题词生成段落标题,并在生成的多个标题选取预设数量的候选标题。其中,可以基于MMR(Maximal Marginal Relevance,最大边界相关算法)从生成的多个标题中选取候选标题。当然,也可以采用其他方法选取候选标题。
确定每篇参考文章的各个段落对应的候选标题之后,对所有参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图。其中,所述全局标题连接图由所有参考文章的各个段落对应的候选标题构成,根据所述候选标题生成所述全局标题连接图的各个节点,每一个候选标题对应一个节点,根据各个候选标题之间的关联关系连接各个相应节点,就可以得到所述全局标题连接图。
最后,根据全局标题连接图生成预设主题对应的文章大纲。具体的,抽取所述全局标题连接图中的重要子图,也即目标子图,根据目标子图中各个节点对应的标题生成文章大纲。
其中,所述目标子图包含多篇参考文章中相关度最高的段落标题,符合多篇参考文章的写作思路,因此基于目标子图生成的文章大纲能够同时涵盖多篇参考文章的内容,提高了生成的文章大纲与预设主题的相关度;并且,本发明通过基于多篇参考文章的段落标题生成文章大纲,增强了生成的文章大纲的可信度,有利于提升写作辅助效果。
在本发明的一种可选实施例中,步骤101所述获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落,包括:
步骤S11、接收用户输入的预设主题和筛选条件,所述筛选条件包括文章类型、被引用次数、发表时间、文章阅读量、文章点赞量中的至少一项;
步骤S12、根据所述筛选条件查找满足所述预设主题的至少两篇参考文章;
步骤S13、基于预先训练的分段模型确定每篇参考文章的段落。
用户在输入拟定的预设主题之后,还可以进一步根据实际需求和个人偏好,向终端设备和/或服务器提交筛选条件,进一步明确参考文章需要满足的要求。所述筛选条件可以包括文章类型、被引用次数、发表时间、文章阅读量、文章点赞量中的至少一项。其中,文章类型可以包括文章的发布类型,如论文(学术论文、学位论文、期刊论文等)、报刊杂志文章、公众号文章、论坛帖、新闻报道等;文章类型还可以报刊文章的写作类型,如记叙文、抒情文、议论文、说明文、应用文等等。
在本发明实施例中,可以预先对文章素材数据库中的文章进行分析,确定各篇文章对应的主题标签、类型标签、时间标签、热度标签等等,便于基于这些标签查找符合预设主题和筛选条件的参考文章。
查找出符合预设主题和筛选条件的参考文章之后,还需要进一步对参考文章进行分段,确定各篇参考文章的段落。具体的,可以基于预先训练的分段模型确定每篇文章的段落。所述分段模型可以选用本领域任意擅长进行分段的神经网络模型,对此,本发明实施例不做具体限定。
为了适用于各种类型的文章,提高文章分段结果的准确度,可以采用序列标注的方法,基于BERT(Bidirectional Encoder Representation from Transformers,双向自编码模型)和CRF(Conditional Random Field,条件随机场)构建分段模型,并对构建的分段模型进行训练,基于训练完成的分段模型对参考文章进行分段处理。
在本发明的一种可选实施例中,步骤S13所述基于预先训练的分段模型确定每篇参考文章的段落之前,所述方法还包括:
子步骤S131、基于双向自编码模型和条件随机场构建分段模型;
子步骤S132、获取分段训练语料,所述分段训练语料包括样本文章以及所述样本文章对应的分段点;
子步骤S133、根据所述分段训练语料对所述分段模型进行训练,直至所述分段模型满足收敛条件得到训练完成的分段模型。
其中,BERT使用遮蔽语言模型来实现预训练的深度双向表示。预训练BERT表示可以通过一个额外的输出层进行模型微调,适用于广泛任务的神经网络模型的构建,无需针对具体任务对网络架构进行大幅度的修改。条件随机场(CRF)是一个序列标注算法,也可以被看做是根据输入序列可以预测输入序列的判别式模型。根据BERT和CRF构建的分段模型,可以通过少量的标注数据进行训练,快速迁移到新的应用场景中,能够适用于各类文章的分段处理。
当然,在本发明实施例中,也可以选用其他擅长进行文章分段的神经网络模型,本发明实施例对此不做具体限定。
在本发明的一种可选实施例中,步骤102所述候选标题包括第一候选标题和第二候选标题,所述确定每篇参考文章的每个段落对应的候选标题,包括:
步骤S21、针对每篇参考文章的每个段落,生成至少两个段落标题;
步骤S22、从每个段落的各个段落标题中确定第一候选标题,所述第一候选标题与其所属段落的其他段落标题之间的相似度满足第一预设条件;
步骤S23、确定与所述第一候选标题的相似度满足第二预设条件的第二候选标题。
在生成段落标题时,如果仅依据段落自身的内容生成段落标题,得到的段落标题可能与段落的实际内容之间存在偏差,因此,在本发明实施例中,可以通过参考文章的全文内容确定参考文章的全文关键词,然后基于全文关键词和段落自身的内容生成段落标题,以提高段落标题的准确度。
参考文章的全文关键词往往有多个,并且,用于生成段落标题的标题生成模型也可以有多个,因而对于同一个段落,可以得到多个段落标题。得到的这些段落标题之间往往存在某些共同点或相似点,因此,为了避免数据冗余,提高处理效率,可以对得到的多个段落标题进行筛选,选取其中的部分标题作为候选标题,根据选取的候选标题生成文章大纲。其中,选取的候选标题的数目可以根据实际需求进行设置,例如,选取3个标题作为候选标题,本发明实施例对候选标题的个数不做具体限定。
为了保证最终生成的文章大纲的可信度,选取的候选标题要能够代表段落内容,因此,在本发明实施例中,基于段落标题之间的相似度确定候选标题。其中,第一候选标题为选取的第一个候选标题,确定第一候选标题之后,进一步基于段落标题与所述第一候选标题的相似度确定其他的候选标题,也即第二候选标题。
具体的,可以基于MMR(Maximal Marginal Relevance,最大边界相关算法)抽取候选标题。那么,所述第一预设条件为所述第一候选标题与其他段落标题的相似度之和最高,第二预设条件为第二候选标题与所述第一候选标题的相似度最低。这样在保证选取的候选标题能够代表段落内容的同时,还可以提高候选标题的多样性,从而在避免数据冗余的同时尽可能涵盖更多的信息,有利于提高最终生成的文章大纲的可信度。
当然,也可以采用其他的方式选取候选标题,第一预设条件和第二预设条件可以根据具体的候选标题选取方式确定,本发明实施例对此不做具体限定。
以基于MMR算法选取候选标题为例,步骤S22在本发明的一种可选实施例中,所述从每个段落的各个段落标题中确定第一候选标题,包括:
子步骤S221、计算同一段落的第一段落标题与其他段落标题的相似度之和,得到所述第一段落标题的相关指数,所述第一段落标题为其所属段落的至少两个段落标题中的任一段落标题;
子步骤S222、若所述第一段落标题的相关指数大于其所属段落的其他段落标题的相关指数,则确定所述第一段落标题为第一候选标题。
在确定第一候选标题时,先分别计算同一段落的每个段落标题与其他段落标题的相似度之和,得到各个段落标题的相关指数。然后,对各个段落标题的相关指数进行比较,确定相关指数最大的段落标题为第一候选标题。这样,就可以确定选取的第一候选标题与生成的各个段落标题之间的相关度最高,也即包含各个段落标题之间的共同点,从而可以最大限度的代表段落内容。
在本发明的一种可选实施例中,所述第二预设条件包括:所述第二候选标题与所述第一候选标题的相似度小于第二段落标题与所述第一候选标题的相似度,所述第二段落标题为所述第一候选标题所属段落的至少两个段落标题中不属于候选标题的任一段落标题。
选取能够表征段落内容的第一候选标题之后,为了进一步对第一候选标题进行信息补充,提升选取的候选标题的准确度,可以继续计算各个段落标题与第一候选标题的相似度,并选取第一候选标题的相似度最低的段落标题作为第二候选标题,从而提高候选标题的多样性。
在本发明的一种可选实施例中,步骤103所述对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图,包括:
步骤S31、对每个段落对应的各个候选标题进行合并处理,得到每个段落对应的目标标题;
步骤S32、按照段落之间的先后顺序依次连接属于同一篇参考文章的各个段落对应的目标标题,得到至少两个内部标题连接图,每一个内部标题连接图对应一篇参考文章;
步骤S33、根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图。
在每篇参考文章的各个段落的候选标题进行聚类处理时,为了降低数据处理量,提高数据处理效率,可以先对每个段落对应的各个候选标题进行合并处理,将多个候选标题合并为一个目标标题,合并后的目标标题包含改段落的各个候选标题的信息。具体的,可以抽取各个候选标题的共同特征,并对抽取的共同特征和各个候选标题的区别特征进行组合,生成符合语法语义的目标标题。
然后,对属于同一篇参考文章的目标标题按照相应段落在参考文章中的先后顺序,顺次进行连接,得到参考文章对应的内部标题连接图,每一篇参考文章对应一个内部标题连接图。具体的,可以在生成目标标题的同时,记录每个目标标题对应的段落位置信息以及所属的参考文章信息,从而基于各个目标标题对应的段落位置信息以及所属的参考文章信息,按照段落之间的先后顺序依次连接属于同一篇参考文章的各个段落对应的目标标题。
需要说明的是,所述内部标题连接图反映的是参考文章的各个目标标题之间的内部连接关系。所述全局标题连接图中不仅包含同属于一篇参考文章的各个目标标题之间的内部连接关系,还包含属于不同参考文章的各个目标标题之间的外部连接关系。因此,在生成内部标题连接图之后,还需要进一步对生成的各个内部标题连接图中的所有目标标题进行聚类处理,按照不同参考文章的各个目标标题所属的类簇确定目标标题之间的外部连接关系。
在本发明的一种可选实施例中,步骤S33所述根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图,包括:
子步骤S331、根据所述目标标题的语义对属于不同参考文章的各个目标标题进行聚类处理,得到各个目标标题所属的类簇;
子步骤S332、连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图。
在本发明实施例中,主要是根据目标标题的语义对属于不同参考文章的各个目标标题进行聚类处理,确定各个目标标题所属的类簇,然后将各个内部标题连接图中属于同一类簇的目标标题进行连接,就可以得到全局标题连接图。其中,所述全局标题连接图中同一类簇包含的各个目标标题之间的外部连接线的长度可以根据所述类簇中各个目标标题之间的相似度确定,例如,两个目标标题的相似度越高,它们之间的外部连接线越短,表示关系越紧密,等等。
在本发明的一种可选实施例中,子步骤S332所述连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图,包括:
步骤P11、判断所述至少两个内部标题连接图的同一类簇中是否存在至少两个相同的目标标题;
步骤P12、若同一类簇中存在至少两个相同的目标标题,则对所述至少两个相同的目标标题进行合并,得到合并后的目标标题,并根据所述合并后的目标标题更新其所属类簇中的目标标题;
步骤P13、连接所述至少两个内部标题连接图的同一类簇中更新后的目标标题,得到所述预设主题对应的全局标题连接图。
需要说明的是,在实际应用中,存在不同参考文章的目标标题相同的情况,例如,对于参考文章A,其对应有目标标题a1、a2、a3,对于参考文章B,其对应有目标标题b1、b2、b3、b4,其中,参考文章A的目标标题a2与参考文章的目标标题b3属于同一类簇,且目标标题a2与目标标题b3相同,那么,在本发明实施例中,为了简化全局标题连接图,避免数据冗余,可以对相同的目标标题a2与目标标题b3进行合并,生成一个新的目标标题,例如,可以将新生成的目标标题记为a2b3,然后再对同一类簇的各个目标标题进行连接,得到全局标题连接图。
在本发明的一种可选实施例中,步骤104所述根据所述全局标题连接图生成所述预设主题对应的文章大纲,包括:
步骤S41、基于社区发现算法抽取所述全局标题连接图中的目标子图;
步骤S42、根据所述目标子图生成所述预设主题对应的文章大纲。
其中,所述目标子图中包含多篇参考文章中相关度最高的段落标题,符合多篇参考文章的写作思路,从而使得基于目标子图生成的文章大纲能够同时涵盖多篇参考文章的内容,提高了生成的文章大纲与预设主题的相关度。可以基于社区发现算法抽取所述全局标题连接图中的目标子图。具体的,通过衡量所述全局标题连接图包含的各个子图中类簇内部的各个目标标题之间的相似度以及类簇外部的相似度,选取类簇内部的目标标题相似度高且类簇外部的目标标题相似度低的子图作为目标子图。
需要说明的是,目标子图中存在语义相似的目标标题,因此根据所述目标子图中的不同分支可以生成多个文章大纲。在实际应用中,可以将生成的多个文章大纲同时推荐给用户以供用户选择。
综上,本发明实施例在生成文章大纲时,通过获取符合预设主题的多篇参考文章,并对每篇参考文章的段落标题进行聚类,得到包含所有参考文章的各个段落标题的全局标题连接图,最终基于所述全局标题连接图生成文章大纲以供用户参考,相比于现有技术中在多篇文章中筛选出一篇文章,基于筛选出的一篇文章生成文章大纲的方法,本发明生成的文章大纲,能够充分涵盖符合预设主题的多篇文章中与预设主题相关的信息,提高了生成的文章大纲与预设主题的相关度;并且,本发明通过基于多篇参考文章的段落标题生成文章大纲,增强了生成的文章大纲的可信度,有利于提升写作辅助效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例
参照图2,示出了本发明的一种文章大纲生成装置实施例的结构框图,所述装置可以包括:
参考文章获取模块201,用于获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落;
候选标题确定模块202,用于确定每篇参考文章的每个段落对应的候选标题;
标题连接图生成模块203,用于对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;
文章大纲生成模块204,用于根据所述全局标题连接图生成所述预设主题对应的文章大纲。
可选地,所述标题连接图生成模块,包括:
标题合并子模块,用于对每个段落对应的各个候选标题进行合并处理,得到每个段落对应的目标标题;
内部标题连接图生成子模块,用于按照段落之间的先后顺序依次连接属于同一篇参考文章的各个段落对应的目标标题,得到至少两个内部标题连接图,每一个内部标题连接图对应一篇参考文章;
全局标题连接图生成子模块,用于根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图。
可选地,所述全局标题连接图生成子模块,包括:
聚类处理单元,用于根据所述目标标题的语义对属于不同参考文章的各个目标标题进行聚类处理,得到各个目标标题所属的类簇;
全局标题连接图生成单元,用于连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图。
可选地,所述全局标题连接图生成单元,包括:
目标标题判断子单元,用于判断所述至少两个内部标题连接图的同一类簇中是否存在至少两个相同的目标标题;
目标标题合并子单元,用于若同一类簇中存在至少两个相同的目标标题,则对所述至少两个相同的目标标题进行合并,得到合并后的目标标题,并根据所述合并后的目标标题更新其所属类簇中的目标标题;
目标标题连接子单元,用于连接所述至少两个内部标题连接图的同一类簇中更新后的目标标题,得到所述预设主题对应的全局标题连接图。
可选地,所述文章大纲生成模块,包括:
目标子图抽取子模块,用于基于社区发现算法抽取所述全局标题连接图中的目标子图;
文章大纲生成子模块,用于根据所述目标子图生成所述预设主题对应的文章大纲。
可选地,所述候选标题包括第一候选标题和第二候选标题,所述候选标题确定模块,包括:
段落标题生成子模块,用于针对每篇参考文章的每个段落,生成至少两个段落标题;
第一候选标题确定子模块,用于从每个段落的各个段落标题中确定第一候选标题,所述第一候选标题与其所属段落的其他段落标题之间的相似度满足第一预设条件;
第二候选标题确定子模块,用于确定与所述第一候选标题的相似度满足第二预设条件的第二候选标题。
可选地,所述第一候选标题确定子模块,包括:
相关指数计算单元,用于计算同一段落的第一段落标题与其他段落标题的相似度之和,得到所述第一段落标题的相关指数,所述第一段落标题为其所属段落的至少两个段落标题中的任一段落标题;
第一候选标题确定单元,用于若所述第一段落标题的相关指数大于其所属段落的其他段落标题的相关指数,则确定所述第一段落标题为第一候选标题。
可选地,所述第二预设条件包括:所述第二候选标题与所述第一候选标题的相似度小于第二段落标题与所述第一候选标题的相似度,所述第二段落标题为所述第一候选标题所属段落的至少两个段落标题中不属于候选标题的任一段落标题。
可选地,所述参考文章获取模块,包括:
数据接收子模块,用于接收用户输入的预设主题和筛选条件,所述筛选条件包括文章类型、被引用次数、发表时间、文章阅读量、文章点赞量中的至少一项;
文章筛选子模块,用于根据所述筛选条件查找满足所述预设主题的至少两篇参考文章;
段落确定子模块,用于基于预先训练的分段模型确定每篇参考文章的段落。
可选地,所述参考文章获取模块还包括:
分段模块构建子模块,用于基于双向自编码模型和条件随机场构建分段模型;
训练语料获取子模块,用于获取分段训练语料,所述分段训练语料包括样本文章以及所述样本文章对应的分段点;
分段模型训练子模块,用于根据所述分段训练语料对所述分段模型进行训练,直至所述分段模型满足收敛条件得到训练完成的分段模型。
综上,本发明实施例在生成文章大纲时,通过获取符合预设主题的多篇参考文章,并对每篇参考文章的段落标题进行聚类,得到包含所有参考文章的各个段落标题的全局标题连接图,最终基于所述全局标题连接图生成文章大纲以供用户参考,相比于现有技术中在多篇文章中筛选出一篇文章,基于筛选出的一篇文章生成文章大纲的方法,本发明生成的文章大纲,能够充分涵盖符合预设主题的多篇文章中与预设主题相关的信息,提高了生成的文章大纲与预设主题的相关度;并且,本发明通过基于多篇参考文章的段落标题生成文章大纲,增强了生成的文章大纲的可信度,有利于提升写作辅助效果。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于生成文章大纲的装置,所述装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
A11、获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落;
A12、确定每篇参考文章的每个段落对应的候选标题;
A13、对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;
A14、根据所述全局标题连接图生成所述预设主题对应的文章大纲。
可选地,所述对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图,包括:
对每个段落对应的各个候选标题进行合并处理,得到每个段落对应的目标标题;
按照段落之间的先后顺序依次连接属于同一篇参考文章的各个段落对应的目标标题,得到至少两个内部标题连接图,每一个内部标题连接图对应一篇参考文章;
根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图。
可选地,所述根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图,包括:
根据所述目标标题的语义对属于不同参考文章的各个目标标题进行聚类处理,得到各个目标标题所属的类簇;
连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图。
可选地,所述连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图,包括:
判断所述至少两个内部标题连接图的同一类簇中是否存在至少两个相同的目标标题;
若同一类簇中存在至少两个相同的目标标题,则对所述至少两个相同的目标标题进行合并,得到合并后的目标标题,并根据所述合并后的目标标题更新其所属类簇中的目标标题;
连接所述至少两个内部标题连接图的同一类簇中更新后的目标标题,得到所述预设主题对应的全局标题连接图。
可选地,所述根据所述全局标题连接图生成所述预设主题对应的文章大纲,包括:
基于社区发现算法抽取所述全局标题连接图中的目标子图;
根据所述目标子图生成所述预设主题对应的文章大纲。
可选地,所述候选标题包括第一候选标题和第二候选标题,所述确定每篇参考文章的每个段落对应的候选标题,包括:
针对每篇参考文章的每个段落,生成至少两个段落标题;
从每个段落的各个段落标题中确定第一候选标题,所述第一候选标题与其所属段落的其他段落标题之间的相似度满足第一预设条件的第一候选标题;
确定与所述第一候选标题的相似度满足第二预设条件的第二候选标题。
可选地,所述从每个段落的各个段落标题中确定第一候选标题,包括:
计算同一段落的第一段落标题与其他段落标题的相似度之和,得到所述第一段落标题的相关指数,所述第一段落标题为其所属段落的至少两个段落标题中的任一段落标题;
若所述第一段落标题的相关指数大于其所属段落的其他段落标题的相关指数,则确定所述第一段落标题为第一候选标题。
可选地,所述第二预设条件包括:所述第二候选标题与所述第一候选标题的相似度小于第二段落标题与所述第一候选标题的相似度,所述第二段落标题为所述第一候选标题所属段落的至少两个段落标题中不属于候选标题的任一段落标题。
可选地,所述获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落,包括:
接收用户输入的预设主题和筛选条件,所述筛选条件包括文章类型、被引用次数、发表时间、文章阅读量、文章点赞量中的至少一项;
根据所述筛选条件查找满足所述预设主题的至少两篇参考文章;
基于预先训练的分段模型确定每篇参考文章的段落。
可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
基于双向自编码模型和条件随机场构建分段模型;
获取分段训练语料,所述分段训练语料包括样本文章以及所述样本文章对应的分段点;
根据所述分段训练语料对所述分段模型进行训练,直至所述分段模型满足收敛条件得到训练完成的分段模型。
图3是根据一示例性实施例示出的一种用于生成文章大纲的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以语音处理装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1所示的文章大纲生成方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种文章大纲生成方法,所述方法包括:获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落;确定每篇参考文章的每个段落对应的候选标题;对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;根据所述全局标题连接图生成所述预设主题对应的文章大纲。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种文章大纲生成方法、一种文章大纲生成装置和一种用于生成文章大纲的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种文章大纲生成方法,其特征在于,所述方法包括:
获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落;
确定每篇参考文章的每个段落对应的候选标题;
对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;
根据所述全局标题连接图生成所述预设主题对应的文章大纲。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图,包括:
对每个段落对应的各个候选标题进行合并处理,得到每个段落对应的目标标题;
按照段落之间的先后顺序依次连接属于同一篇参考文章的各个段落对应的目标标题,得到至少两个内部标题连接图,每一个内部标题连接图对应一篇参考文章;
根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图,包括:
根据所述目标标题的语义对属于不同参考文章的各个目标标题进行聚类处理,得到各个目标标题所属的类簇;
连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图。
4.根据权利要求3所述的方法,其特征在于,所述连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图,包括:
判断所述至少两个内部标题连接图的同一类簇中是否存在至少两个相同的目标标题;
若同一类簇中存在至少两个相同的目标标题,则对所述至少两个相同的目标标题进行合并,得到合并后的目标标题,并根据所述合并后的目标标题更新其所属类簇中的目标标题;
连接所述至少两个内部标题连接图的同一类簇中更新后的目标标题,得到所述预设主题对应的全局标题连接图。
5.根据权利要求1所述的方法,其特征在于,所述根据所述全局标题连接图生成所述预设主题对应的文章大纲,包括:
基于社区发现算法抽取所述全局标题连接图中的目标子图;
根据所述目标子图生成所述预设主题对应的文章大纲。
6.根据权利要求1所述的方法,其特征在于,所述候选标题包括第一候选标题和第二候选标题,所述确定每篇参考文章的每个段落对应的候选标题,包括:
针对每篇参考文章的每个段落,生成至少两个段落标题;
从每个段落的各个段落标题中确定第一候选标题,所述第一候选标题与其所属段落的其他段落标题之间的相似度满足第一预设条件;
确定与所述第一候选标题的相似度满足第二预设条件的第二候选标题。
7.根据权利要求6所述的方法,其特征在于,所述从每个段落的各个段落标题中确定第一候选标题,包括:
计算同一段落的第一段落标题与其他段落标题的相似度之和,得到所述第一段落标题的相关指数,所述第一段落标题为其所属段落的至少两个段落标题中的任一段落标题;
若所述第一段落标题的相关指数大于其所属段落的其他段落标题的相关指数,则确定所述第一段落标题为第一候选标题。
8.根据权利要求6所述的方法,其特征在于,所述第二预设条件包括:所述第二候选标题与所述第一候选标题的相似度小于第二段落标题与所述第一候选标题的相似度,所述第二段落标题为所述第一候选标题所属段落的至少两个段落标题中不属于候选标题的任一段落标题。
9.根据权利要求1所述的方法,其特征在于,所述获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落,包括:
接收用户输入的预设主题和筛选条件,所述筛选条件包括文章类型、被引用次数、发表时间、文章阅读量、文章点赞量中的至少一项;
根据所述筛选条件查找满足所述预设主题的至少两篇参考文章;
基于预先训练的分段模型确定每篇参考文章的段落。
10.根据权利要求9所述的方法,其特征在于,所述基于预先训练的分段模型确定每篇参考文章的段落之前,所述方法还包括:
基于双向自编码模型和条件随机场构建分段模型;
获取分段训练语料,所述分段训练语料包括样本文章以及所述样本文章对应的分段点;
根据所述分段训练语料对所述分段模型进行训练,直至所述分段模型满足收敛条件得到训练完成的分段模型。
11.一种文章大纲生成装置,其特征在于,所述装置包括:
参考文章获取模块,用于获取符合预设主题的至少两篇参考文章并确定每篇参考文章的段落;
候选标题确定模块,用于确定每篇参考文章的每个段落对应的候选标题;
标题连接图生成模块,用于对所述至少两篇参考文章的每个段落对应的候选标题进行聚类处理,得到所述预设主题对应的全局标题连接图;
文章大纲生成模块,用于根据所述全局标题连接图生成所述预设主题对应的文章大纲。
12.根据权利要求11所述的装置,其特征在于,所述标题连接图生成模块,包括:
标题合并子模块,用于对每个段落对应的各个候选标题进行合并处理,得到每个段落对应的目标标题;
内部标题连接图生成子模块,用于按照段落之间的先后顺序依次连接属于同一篇参考文章的各个段落对应的目标标题,得到至少两个内部标题连接图,每一个内部标题连接图对应一篇参考文章;
全局标题连接图生成子模块,用于根据所述目标标题的语义对所述至少两个内部标题连接图中的各个目标标题进行聚类处理,得到所述预设主题对应的全局标题连接图。
13.根据权利要求12所述的装置,其特征在于,所述全局标题连接图生成子模块,包括:
聚类处理单元,用于根据所述目标标题的语义对属于不同参考文章的各个目标标题进行聚类处理,得到各个目标标题所属的类簇;
全局标题连接图生成单元,用于连接所述至少两个内部标题连接图中的属于同一类簇的各个目标标题,得到所述预设主题对应的全局标题连接图。
14.一种用于生成文章大纲的装置,其特征在于,所述装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1至10中任一所述的文章大纲生成方法的指令。
15.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至10中任一所述的文章大纲生成方法。
CN202110901707.XA 2021-08-06 2021-08-06 一种文章大纲生成方法、装置和用于生成文章大纲的装置 Pending CN113705210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110901707.XA CN113705210A (zh) 2021-08-06 2021-08-06 一种文章大纲生成方法、装置和用于生成文章大纲的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110901707.XA CN113705210A (zh) 2021-08-06 2021-08-06 一种文章大纲生成方法、装置和用于生成文章大纲的装置

Publications (1)

Publication Number Publication Date
CN113705210A true CN113705210A (zh) 2021-11-26

Family

ID=78651728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110901707.XA Pending CN113705210A (zh) 2021-08-06 2021-08-06 一种文章大纲生成方法、装置和用于生成文章大纲的装置

Country Status (1)

Country Link
CN (1) CN113705210A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069936A (zh) * 2023-02-28 2023-05-05 北京朗知网络传媒科技股份有限公司 一种数码传媒文章的生成方法和装置
CN116933751A (zh) * 2023-06-30 2023-10-24 北京百度网讯科技有限公司 文章生成方法、装置、电子设备及存储介质
CN117633214A (zh) * 2024-01-27 2024-03-01 北京澜舟科技有限公司 一种文章大纲生成方法、装置和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069936A (zh) * 2023-02-28 2023-05-05 北京朗知网络传媒科技股份有限公司 一种数码传媒文章的生成方法和装置
CN116933751A (zh) * 2023-06-30 2023-10-24 北京百度网讯科技有限公司 文章生成方法、装置、电子设备及存储介质
CN117633214A (zh) * 2024-01-27 2024-03-01 北京澜舟科技有限公司 一种文章大纲生成方法、装置和存储介质
CN117633214B (zh) * 2024-01-27 2024-04-19 北京澜舟科技有限公司 一种文章大纲生成方法、装置和存储介质

Similar Documents

Publication Publication Date Title
US10706094B2 (en) System and method for customizing a display of a user device based on multimedia content element signatures
CN105701254B (zh) 一种信息处理方法和装置、一种用于信息处理的装置
CN113705210A (zh) 一种文章大纲生成方法、装置和用于生成文章大纲的装置
US20170154104A1 (en) Real-time recommendation of reference documents
CN110232137B (zh) 一种数据处理方法、装置和电子设备
CN110008401B (zh) 关键词提取方法、关键词提取装置和计算机可读存储介质
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
CN108227950B (zh) 一种输入方法和装置
CN109961094B (zh) 样本获取方法、装置、电子设备及可读存储介质
CN109582869B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN109815396B (zh) 搜索词权重确定方法及装置
CN112784142A (zh) 一种信息推荐方法及装置
CN108345625B (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN112417318A (zh) 一种兴趣点的状态确定方法、装置、电子设备及介质
CN110929176A (zh) 一种信息推荐方法、装置及电子设备
CN110232181B (zh) 评论分析方法及装置
CN112307281A (zh) 一种实体推荐方法及装置
CN116186197A (zh) 话题推荐方法、装置、电子设备及存储介质
CN111246255B (zh) 视频推荐方法、装置、存储介质、终端及服务器
CN110110046B (zh) 同名实体推荐方法及装置
CN113435205A (zh) 语义解析方法及装置
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN113609380B (zh) 标签体系更新方法、搜索方法、装置以及电子设备
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN112825076B (zh) 一种信息推荐方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination