发明内容
为了解决上述问题,本申请提出了一种基于主题和时间线摘要的报告生成方法及设备,方法包括:
获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式;确定所述统一格式的新闻数据的基本信息,所述基本信息至少包括所述新闻的标题、所述新闻的发布时间、所述新闻的信息来源、所述新闻的文本内容;通过所述基本信息生成新闻主题,并根据所述基本信息确定所述新闻主题的重要等级,按照所述重要等级对所述主题进行排名;根据所述排名选取第一预设数量个所述新闻主题作为待发表主题,并为所述待发表主题生成对应的内容摘要,根据所述待发表主题与所述内容摘要生成今日简报。
在一个示例中,所述方法还包括:
确认所述预设领域的新闻数据库,所述新闻数据库存储有所述预设领域的所述新闻数据;确认用户选择的长期主题,通过信息检索引擎从所述新闻数据库中获取与所述长期主题相关的新闻文章组,所述长期主题对应的时间段超过预设时长;根据所述新闻文章组生成所述长期主题的内容摘要及时间线摘要,根据所述内容摘要与所述时间线摘要,生成所述长期主题的完整报告。
在一个示例中,根据所述新闻文章组生成所述长期主题的时间线摘要,具体包括:按照时间顺序从所述新闻数据库中抽取所述长期主题并构建时间线;使用波束搜索算法生成所述长期主题在各时间节点的时间线摘要。
在一个示例中,生成所述长期主题在所述时间节点的时间线摘要之后,所述方法还包括:使用注意力机制对所述时间线摘要进行压缩。
在一个示例中,所述获取预设领域当天各类新闻的新闻数据,对所述当天各类新闻的新闻数据进行预处理,将所述新闻数据转化为统一格式,具体包括:确认新闻数据的来源网站,使用爬虫框架获取所述来源网站内的所述新闻数据;通过识别所述新闻数据的内容,删除所述新闻数据中的重复文本,并将所述新闻数据转化为统一的文档格式。
在一个示例中,所述通过所述基本信息生成新闻主题,具体包括:确认管理人员预存的种子词集及预设聚类数目;使用半监督文本聚类算法Seeded-LDA,通过输入所述新闻数据的文本内容、所述种子词集、所述预设聚类数目,生成所述新闻数据的新闻主题。
在一个示例中,所述确定所述新闻主题的重要等级,具体包括:确认所述新闻主题对应的所述基本信息,根据所述新闻主题的标题、所述新闻的信息来源、所述新闻的文本内容分别对应的的重要性系数,计算所述新闻主题的重要性。
在一个示例中,所述为所述待发表主题生成对应的内容摘要,具体包括:确定来自所述信息检索引擎的若干篇新闻文章,使用基于BERT的编码器,通过对所述若干篇新闻文章以及输入的表示进行编码,得到所述若干个编码表示;通过使用基于所述BERT的解码器,对所述若干个编码表示进行解码,得到所述待发表主题的内容摘要;所述使用基于BERT的编码器之前,所述方法还包括:使用结构化查询语言数据服务SDS数据集对所述编码器和所述解码器进行预训练。
在一个示例中,为所述待发表主题生成对应的内容摘要之后,所述方法还包括:从所述新闻主题的内容摘要中提取关键字集;使用所述关键字集作为查询请求词,在所述信息检索引擎中获取与所述关键字集相关的图片,挑选排名前第二预设数量个图片作为候选图片;使用所述候选图片的视觉特征和所述候选图片标题中的语言特征提取所述候选图片的语义标签;计算所述候选图片的所述语义标签与所述关键字集的匹配度,选取匹配度最高的候选图片插入到所述今日简报对应的新闻主题中。
本申请还提供了一种基于主题和时间线摘要的报告生成设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式;确定所述统一格式的新闻数据的基本信息,所述基本信息至少包括所述新闻的标题、所述新闻的发布时间、所述新闻的信息来源、所述新闻的文本内容;通过所述基本信息生成新闻主题,并根据所述基本信息确定所述新闻主题的重要等级,按照所述重要等级对所述主题进行排名;根据所述排名选取第一预设数量个所述新闻主题作为待发表主题,并为所述待发表主题生成对应的内容摘要,根据所述待发表主题与所述内容摘要生成今日简报。
通过本申请提出的方法能够基于碎片化信息的主题及时间对碎片化信息进行整理,并按照时间线的方式排列,并且对每个信息给出摘要,从而提升用户对碎片化信息的接收能力。还能够将每天收集到的新闻进行异构数据预处理,转化为相同格式的新闻数据,并生成新闻主题,通过计算新闻主题的重要等级,将较为重要的新闻事件从众多信息中凸显出来,以使用户能够更加直观地查阅当天所发生的重要事件。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本申请实施例提供一种基于主题和时间线摘要的报告生成方法,包括:
S101:获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式。
如果想要生成当天新闻事件的简要报告,首先需要从预设的网站获取相关的新闻数据。在获取到各类新闻数据之后,由于新闻数据的来源不同,可能会存在异构数据,因此,首先需要将新闻数据中的异构数据进行预处理,将各类新闻数据转化为统一格式,以提升后续的文本处理速度。其中,数据来源网站可以是具有权威性的新闻网站等固定网址,预设领域可以是金融、教育等类别,统一格式可以是文本文档等有助于文本编辑的格式。
S102:确定所述统一格式的新闻数据的基本信息,所述基本信息至少包括所述新闻的标题、所述新闻的发布时间、所述新闻的信息来源、所述新闻的文本内容。
将各类的新闻数据转化为统一格式之后,还需要对新闻数据进行识别,确认新闻数据的各类基本信息。这里的基本信息至少应该包括:新闻数据的标题、发布时间、信息来源、文本内容。
S103:通过所述基本信息生成新闻主题,并根据所述基本信息确定所述新闻主题的重要等级,按照所述重要等级对所述主题进行排名。
在得到各类新闻数据的基本信息之后,需要根据基本信息生成该新闻事件的新闻主题,生成新闻主题之后,需要通过新闻主题的基本数据计算新闻主题的重要性,并根据新闻主题的重要性对新闻主题进行排名。
S104:根据所述排名选取第一预设数量个所述新闻主题作为待发表主题,并为所述待发表主题生成对应的内容摘要,根据所述待发表主题与所述内容摘要生成今日简报。
由于新闻数量过多,用户不可能查阅全部的新闻事件,因此,可以设定一个新闻数目,这里可以假定用户阅览的新闻主题数目为5个,此时可以根据之前计算的新闻主题的重要性排名,选取排名中前5个新闻主题作为待发表主题。得到待发表主题之后,还需要给待发表的新闻主题配上合适的内容摘要,然后将5个新闻主题与对应的内容摘要一起发表,生成今日简报,以使用户可以通过今日简报了解预设领域的今天发生的重大新闻事件。
在一个实施例中,有时只通过一天的今日简报是无法完全包括一些新闻事件的全部内容的,其可能还在后续的日子里有后续事件的发生,例如某项工程的进展、疾病的防控工作、国际局势的一系列变化等相关新闻就是由一系列的新闻事件组合而成。
因此,为了能够使用户清晰地查阅系列新闻,可以通过新闻的主题以及时间线摘要为系列新闻事件构造长期主题的完整报告。这里的长期主题所对应的时间段超过预设时长,比如持续时间超过一星期的工程建设进度。该报告比“今日简报”更完整的解释一个问题。因此,一个新闻事件的完整报告是由过去几个月与该发生相关的多个事件组成的,完整报告提供了关于每日问题的深入报告。如果用户要求提供有关某一新闻主题的更多信息,此时可以提供该新闻主题的完整报告。
提供完整报告首先需要确认预设的新闻数据库,该新闻数据库由获取的每天的新闻数据组成,将每天获取的新闻数据经过预处理转化为统一格式后,存储至新闻数据库中。然后要确认用户选择的长期主题,例如用户选择了工程建设进度,则需要通过信息检索引擎从新闻数据库中获取与长期主题相关的N篇新闻文章,然后根据N篇新闻文章生成长期主题的内容摘要以及时间线摘要,然后根据内容摘要以及时间线摘要,生成这一长期主题的完整报告,以向用户提供长期、完整的新闻事件经过。
在一个实施例中,通过新闻文章组生成长期主题的时间线摘要,可以通过时间顺序抽取该长期主题包含的各个新闻主题,并根据时间顺序构建时间线。再使用波束搜索算法生成长期主题在个时间点的时间线摘要。基于条件概率在每个时间步长为输入序列选择多个备选方案。多个备选方案的数量取决于一个称为波束宽度的参数。在每个时间步,波束搜索选择波束宽度个具有最高概率的最佳备选方案作为该时间步最可能的选择。通过波束搜索算法,提高了整个时间轴上的全局连贯性。
在一个实施例中,由于大多数现有方法都按原样显示提取的句子,导致摘要的可读性不高。基于此,为了提高摘要的简洁性和可读性,在生成长期主题在时间节点的时间线摘要之后,还可以通过注意力机制压缩时间线摘要中的句子。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。注意力机制可以利用人类视觉机制进行直观解释。例如,我们的视觉系统倾向于关注图像中辅助判断的部分信息,并忽略掉不相关的信息。同样,在涉及语言或视觉的问题中,输入的某些部分可能会比其他部分对决策更有帮助。通过使用注意力机制对时间线摘要进行优化,抽象地压缩了时间线摘要中的句子,提高了时间线摘要的可读性。
在一个实施例中,在获取预设领域的各类新闻数据时,首先需要确认新闻数据的来源网站,而不同领域的新闻数据获取自不同的来源网站,然后可以通过Scrapy爬虫框架获取来源网站内的新闻数据。Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。获取来源网站的新闻数据之后,通过识别新闻数据的文本内容,将重复文本删除后再将新闻数据转化为统一的文档格式。
在一个实施例中,通过新闻数据的基本信息生成新闻主题时,首先需要确认管理人员预存的种子词集以及预设的聚类数目,然后使用半监督文本聚类算法Seeded-LDA,通过输入新闻数据的文本内容、种子词集、预设聚类数目,生成新闻数据的新闻主题。其中,潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型是文本集合的生成概率模型。假设每个文本由话题的一个多项式分布表示,每个话题由单词的一个多项式分布表示,特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。先验分布的导入使LDA能够更好地应对话题模型学习的过拟合现象。而为了降低半监督聚类算法的数据稀疏度,借鉴了seeds集思想,Seeded-LDA算法将一直的少量文本标签转化为seeds集信息,根据seeds及信息初始化模型参数,有效降低了数据稀疏度,使得算法具有更好的聚类结果。
在一个实施例中,计算新闻主题的重要等级时,需要通过新闻主题的基本信息中的标题、信息来源、文本内容分别对应的重要性系数,计算该新闻主题的重要性。例如,某新闻主题的信息是由省内政府部门发布的,那么在信息来源方面对应的重要性就会比省外的娱乐媒体高。通过计算新闻主题的重要性,能够将较为重要的新闻事件从众多信息中凸显出来,以使用户能够更加直观地查阅当天所发生的重要事件。
在一个实施例中,为待发表主题生成对应的内容摘要时,首先需要通过信息检索引擎,获取与待发表主题相关的M篇新闻文章,然后使用基于BERT的编码器,通过对M篇新闻文章进行编码,得到M个编码表示,然后通过使用基于BERT的解码器,生成该待发表主题的摘要。
进一步地,虽然采用BERT作为编码器来实现性能的提高,但是数据的缺乏使得对数据的训练变得困难。为了解决这个问题,我们在使用BERT编码器及解码器之前用一个结构化查询语言数据服务(SQL Data Service,SDS)数据集对编码器和解码器进行预训练。
在一个实施例中,一些反映文本上下文的适当图像对于描述文本非常有帮助。因此,在生成每日简报时可以包括图像推荐,使得该图像在视觉上支持生成的摘要。基于此,在推荐图像时,首先需要从新闻主题的内容摘要
可以对通过信息检索引擎图片检索到的一组图片进行重新排序。首先从生成的摘要中提取一组关键字。关键字集用作从信息检索引擎中图片中获取相关图片的,并且在得到的各个图片中挑选相关度排名前若干位的图片成为推荐的候选对象。对于每个候选图像,使用图像本身的视觉特征和图像标题中的语言特征提取一组语义标签。然后,将候选图像以相似度分数的升序排列在查询关键词集和语义标签集之间。最后,将排名最高的图像作为推荐图像插入到报告中。
如图2所示,本申请实施例还提供了一种基于主题和时间线摘要的报告生成设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式;
确定所述统一格式的新闻数据的基本信息,所述基本信息至少包括所述新闻的标题、所述新闻的发布时间、所述新闻的信息来源、所述新闻的文本内容;
通过所述基本信息生成新闻主题,并根据所述基本信息确定所述新闻主题的重要等级,按照所述重要等级对所述主题进行排名;
根据所述排名选取第一预设数量个所述新闻主题作为待发表主题,并为所述待发表主题生成对应的内容摘要,根据所述待发表主题与所述内容摘要生成今日简报。
本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式;
确定所述统一格式的新闻数据的基本信息,所述基本信息至少包括所述新闻的标题、所述新闻的发布时间、所述新闻的信息来源、所述新闻的文本内容;
通过所述基本信息生成新闻主题,并根据所述基本信息确定所述新闻主题的重要等级,按照所述重要等级对所述主题进行排名;
根据所述排名选取第一预设数量个所述新闻主题作为待发表主题,并为所述待发表主题生成对应的内容摘要,根据所述待发表主题与所述内容摘要生成今日简报。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。