CN113254632B - 基于事件检测技术的时间线摘要自动生成方法 - Google Patents
基于事件检测技术的时间线摘要自动生成方法 Download PDFInfo
- Publication number
- CN113254632B CN113254632B CN202110437683.7A CN202110437683A CN113254632B CN 113254632 B CN113254632 B CN 113254632B CN 202110437683 A CN202110437683 A CN 202110437683A CN 113254632 B CN113254632 B CN 113254632B
- Authority
- CN
- China
- Prior art keywords
- sub
- event
- abstract
- document
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于事件检测技术的时间线摘要自动生成方法,包括:S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;S20、获取每个子事件文档集合的摘要;S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。以及,基于事件检测技术的时间线摘要自动生成装置,电子设备和存储介质。本发明具有能自动确定时间线摘要的长度,灵活性强,能够处理动态变化的新闻事件等优点。
Description
技术领域
本发明涉及自然语言处理领域。更具体地说,本发明涉及一种基于事件检测技术的时间线摘要自动生成方法。
背景技术
新闻事件时间线摘要自动生成是从长时间跨度的海量新闻文档中,识别关键日期或子事件,并为每个日期或子事件生成简短的描述,构建出带有时间戳的摘要集合,最终形成时间线摘要。时间线摘要自动生成在降低人工成本的同时,还能提升用户的阅读效率。
高质量的时间线摘要需要系统能够选取一组能够覆盖事件关键内容的日期或子事件(即时间线的长度),但是不同事件的关键子事件数量差异大,给时间线长度选带来难度。现有场景中时间线摘要生成采取两种策略:设置固定的时间线长度,即选择固定数量的关键日期或子事件,这样做忽略了事件发展的多样性;依赖专家知识设置时间线长度,这样做降低了系统的可扩展性。
发明内容
本发明的一个目的是提供一种基于事件检测技术的时间线摘要自动生成方法,以解决现有时间线摘要生成时忽略了事件发展的多样性和可扩展性低的问题。
为了实现根据本发明的目的和其它优点,提供了一种基于事件检测技术的时间线摘要自动生成方法,包括:
S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
S20、获取每个子事件文档集合的摘要;
S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
优选的是,所述的基于事件检测技术的时间线摘要自动生成方法,S10中,对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
S13、定义文档集合C中有n篇新闻文档{d1,d2,…,dn},文档图G中包含n个顶点{v1,v2,…,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中,获得子事件对应的文档集合。
优选的是,所述的基于事件检测技术的时间线摘要自动生成方法,S20中,使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要,具体包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
优选的是,所述的基于事件检测技术的时间线摘要自动生成方法,S30中,具体包括,
S31、对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
S32、计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零;
S33、获取S31中排序在前L′的子事件。
本发明还提供了一种基于事件检测技术的时间线摘要自动生成装置,包括,
事件检测模块,其用于将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
摘要生成模块,其用于生成每个子事件文档集合的摘要;
子事件筛选模块,其用于对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
时间线摘要构建模块,其用于获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
优选的是,所述的基于事件检测技术的时间线摘要自动生成装置,所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体聚类方法包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
S13、定义文档集合C中有n篇新闻文档{d1,d2,…,dn},文档图G中包含n个顶点{v1,v2,…,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中,获得子事件对应的文档集合。
优选的是,所述的基于事件检测技术的时间线摘要自动生成装置,所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要,具体生成方法包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
优选的是,所述的基于事件检测技术的时间线摘要自动生成装置,所述子事件筛选模块,具体包括,
重要性评分和排序模块,其用于对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
时间线摘要长度确定模块,其用于计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零;
重要子事件获取模块,其用于获取所述重要性评分和排序模块中排序在前L′的子事件。
本发明还提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述所述的方法。
本发明还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述所述的方法。
本发明至少包括以下有益效果:
本发明的方法能够根据新闻文本集合自动确定时间线摘要的长度,并生成时间线摘要,灵活性强,能够处理动态变化的新闻事件。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是根据本发明一个实施例所述方法的流程框架示意图;
图2是根据本发明一个实施例所述装置的示意图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
如图1所示,本发明提供一种基于事件检测技术的时间线摘要自动生成方法,包括:
S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件。
进一步的,S10中,对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合。具体包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型。
文档建模是将输入的文本向量化的过程,其中文本包括文档和句子。文档建模模型将输入变长文本转化为固定长度的特征表示,本发明选用DOC2VEC模型进行文档建模。DOC2VEC有两种训练方式,本发明选择了分布记忆的段落向量(Distributed Memory Modelof Paragraph Vectors,PV-DM)训练方式。用预构建的新闻文本集合训练DOC2VEC模型,得到适合的文档向量矩阵D的表达。
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达。
S13、定义文档集合C中有n篇新闻文档{d1,d2,…,dn},文档图G中包含n个顶点{v1,v2,…,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中进行聚类,获得子事件对应的文档集合。
马尔可夫聚类(Markov Chain Cluster)属于图聚类的一种,通过分析文档之间的关系构建出文档图,通过分析不同文档图之间的关系得到不同文档簇。本发明将每个文档簇对应一个子事件。马尔可夫聚类过程主要包含:Expansion(扩张)和Inflation(膨胀)两个关键操作,先将文档图转化为邻接矩阵,并标准化,再设置扩张时的参数e和膨胀时的参数r;扩张操作时,每次对矩阵进行e次幂方;膨胀操作时,每次对矩阵内元素进行r次幂方,再进行标准化;重复步骤扩张和膨胀,直到邻接矩阵达到稳定,最终将结果矩阵转化为聚簇;根据马尔聚类结果,得到子事件对应的文档集合,即簇中顶点对应的文档集合。
S14、分析所述子事件文档集合中文档的发布时间,选取出现次数最高的发布时间作为子事件的关键日,最终得到了新闻事件的子事件集合,集合中由多个子事件构成,每个子事件包含一个关键日期和文档集合,实现对所述新闻文本集合的事件检测与日期分析。
S20、获取每个子事件文档集合的摘要。
进一步的,S20中,使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要。具体包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数,如1、2、3;
S27、对生成的摘要进行去噪和去重。
S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件。
子事件筛选需要评估已有子事件重要性,选择固定数量(指时间线长度)的关键子事件输出。已有方法需要设置固定的时间线长度或依赖专家知识设置时间线长度,缺乏灵活性。本发明利用拐点检测的方法自动选取时间线长度。
进一步的,S30中,具体包括,
S31、对每个子事件进行重要性评分并按照重要程度进行排序(由大到小),重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数。
S32、计算不同时间线摘要长度L对应的选择置信度(Selection Confidence,SC),用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零,经过log平滑输出最终的选择置信度。
S33、获取S31中排序在前L′的子事件。
S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
进一步的,本发明对筛选出的前L′个的子事件进行分析,分析子事件日期和摘要内容,去除摘要内容高度相似的子事件,保留关键子事件及摘要,再按照日期先后顺序对去重后的摘要进行排序,输出带有时间戳的摘要序列。
本发明的方法能够根据新闻文本集合自动确定时间线摘要的长度,并生成时间线摘要,有效克服了现有时间线摘要生成时忽略了事件发展的多样性和可扩展性低的问题,灵活性强,能够处理动态变化的新闻事件。
本发明还提供了一种基于事件检测技术的时间线摘要自动生成装置,如图2所示,包括,
事件检测模块,其用于将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
摘要生成模块,其用于生成每个子事件文档集合的摘要;
子事件筛选模块,其用于对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
时间线摘要构建模块,其用于获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
其中,所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体聚类方法包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
S13、定义文档集合C中有n篇新闻文档{d1,d2,…,dn},文档图G中包含n个顶点{v1,v2,…,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中,获得子事件对应的文档集合。
所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要,具体生成方法包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
所述子事件筛选模块,具体包括,
重要性评分和排序模块,其用于对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
时间线摘要长度确定模块,其用于计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零;
重要子事件获取模块,其用于获取所述重要性评分和排序模块中排序在前L′的子事件。
本发明还提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述所述的方法。
本发明还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述所述的方法。
上述装置、电子设备和存储介质是基于与基于事件检测技术的时间线摘要自动生成方法相同的发明构思得到,具体可参考方法部分的描述。
实施例1:
采用本发明所述的方法自动生成“N号房”事件的时间线摘要,结果如下:
日期 | 子事件摘要(以标题代替较长的摘要内容) |
2020-03-23 | N号房赵博士身份公开 |
2020-04-09 | 韩国数十万人请愿更换“N号房”法官 |
2020-04-17 | 韩国“N号房”18岁共犯被示众 |
2020-04-29 | 韩国“N号房”主犯首次出庭受审 |
2020-05-18 | N号房创建人被公开示众 |
2020-06-05 | 韩国“N号房”创建人被检方拘留起诉 |
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (8)
1.基于事件检测技术的时间线摘要自动生成方法,其特征在于,包括:
S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
S20、获取每个子事件文档集合的摘要;
S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列;
S30中,具体包括,
S31、对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
S32、计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用是保证log内值大于零;
S33、获取S31中排序在前L′的子事件。
2.如权利要求1所述的基于事件检测技术的时间线摘要自动生成方法,其特征在于,S10中,对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
3.如权利要求1所述的基于事件检测技术的时间线摘要自动生成方法,其特征在于,S20中,使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要,具体包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
4.基于事件检测技术的时间线摘要自动生成装置,其特征在于,包括,
事件检测模块,其用于将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
摘要生成模块,其用于生成每个子事件文档集合的摘要;
子事件筛选模块,其用于对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
时间线摘要构建模块,其用于获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列;
所述子事件筛选模块,具体包括,
重要性评分和排序模块,其用于对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
时间线摘要长度确定模块,其用于计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用是保证log内值大于零;
重要子事件获取模块,其用于获取所述重要性评分和排序模块中排序在前L′的子事件。
5.如权利要求4所述的基于事件检测技术的时间线摘要自动生成装置,其特征在于,所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体聚类方法包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
6.如权利要求4所述的基于事件检测技术的时间线摘要自动生成装置,其特征在于,所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要,具体生成方法包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
7.电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-3中任一项所述的方法。
8.存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1-3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437683.7A CN113254632B (zh) | 2021-04-22 | 2021-04-22 | 基于事件检测技术的时间线摘要自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437683.7A CN113254632B (zh) | 2021-04-22 | 2021-04-22 | 基于事件检测技术的时间线摘要自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254632A CN113254632A (zh) | 2021-08-13 |
CN113254632B true CN113254632B (zh) | 2022-07-22 |
Family
ID=77221318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110437683.7A Active CN113254632B (zh) | 2021-04-22 | 2021-04-22 | 基于事件检测技术的时间线摘要自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254632B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722194B (zh) * | 2022-03-15 | 2023-05-09 | 电子科技大学 | 一种基于摘要生成算法的突发事件时间序列自动构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
CN105190604A (zh) * | 2013-03-20 | 2015-12-23 | 微软技术许可有限责任公司 | 在协作创作环境中跟踪改变 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7577651B2 (en) * | 2005-04-28 | 2009-08-18 | Yahoo! Inc. | System and method for providing temporal search results in response to a search query |
EP2954431B1 (en) * | 2012-12-14 | 2019-07-31 | Robert Bosch GmbH | System and method for event summarization using observer social media messages |
US11080318B2 (en) * | 2013-06-27 | 2021-08-03 | Kodak Alaris Inc. | Method for ranking and selecting events in media collections |
-
2021
- 2021-04-22 CN CN202110437683.7A patent/CN113254632B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
CN105190604A (zh) * | 2013-03-20 | 2015-12-23 | 微软技术许可有限责任公司 | 在协作创作环境中跟踪改变 |
Also Published As
Publication number | Publication date |
---|---|
CN113254632A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN111738589B (zh) | 基于内容推荐的大数据项目工作量评估方法、装置及设备 | |
CN102411621A (zh) | 一种基于云模型的中文面向查询的多文档自动文摘方法 | |
JP5458815B2 (ja) | マルチメディア検索システム | |
CN101887460A (zh) | 一种文献质量评估方法及应用 | |
CN109508460B (zh) | 基于主题聚类的无监督作文跑题检测方法及系统 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN112434134B (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN103544307A (zh) | 一种不依赖文档库的多搜索引擎自动化对比评测方法 | |
CN112668838A (zh) | 一种基于自然语言解析的评分标准词库建立方法及装置 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN113254632B (zh) | 基于事件检测技术的时间线摘要自动生成方法 | |
CN118195560A (zh) | 一种基于专业人才的多维度数据匹配方法及系统 | |
CN117763126A (zh) | 知识检索方法、设备、存储介质及装置 | |
CN117435489A (zh) | 基于需求文档自动分析软件功能点方法及系统 | |
CN109615018B (zh) | 用户个性化行为评价方法、装置、计算机设备和存储介质 | |
CN112286799A (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN110096708B (zh) | 一种定标集确定方法及装置 | |
CN110413985B (zh) | 一种相关文本片段搜索方法及装置 | |
Aliyanto et al. | Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
CN111209375B (zh) | 一种通用的条款与文档匹配方法 | |
CN111339287B (zh) | 摘要生成方法及装置 | |
CN113901793A (zh) | 结合rpa和ai的事件抽取方法及装置 | |
CN115114916A (zh) | 用户反馈数据的分析方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |