CN113254632A - 基于事件检测技术的时间线摘要自动生成方法 - Google Patents

基于事件检测技术的时间线摘要自动生成方法 Download PDF

Info

Publication number
CN113254632A
CN113254632A CN202110437683.7A CN202110437683A CN113254632A CN 113254632 A CN113254632 A CN 113254632A CN 202110437683 A CN202110437683 A CN 202110437683A CN 113254632 A CN113254632 A CN 113254632A
Authority
CN
China
Prior art keywords
sub
event
abstract
document
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110437683.7A
Other languages
English (en)
Other versions
CN113254632B (zh
Inventor
陈志鹏
刘春阳
张旭
王鹏
李熙
李倩
毛乾任
虞世城
李建欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN202110437683.7A priority Critical patent/CN113254632B/zh
Publication of CN113254632A publication Critical patent/CN113254632A/zh
Application granted granted Critical
Publication of CN113254632B publication Critical patent/CN113254632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明公开了基于事件检测技术的时间线摘要自动生成方法,包括:S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;S20、获取每个子事件文档集合的摘要;S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。以及,基于事件检测技术的时间线摘要自动生成装置,电子设备和存储介质。本发明具有能自动确定时间线摘要的长度,灵活性强,能够处理动态变化的新闻事件等优点。

Description

基于事件检测技术的时间线摘要自动生成方法
技术领域
本发明涉及自然语言处理领域。更具体地说,本发明涉及一种基于事件检测技术的时间线摘要自动生成方法。
背景技术
新闻事件时间线摘要自动生成是从长时间跨度的海量新闻文档中,识别关键日期或子事件,并为每个日期或子事件生成简短的描述,构建出带有时间戳的摘要集合,最终形成时间线摘要。时间线摘要自动生成在降低人工成本的同时,还能提升用户的阅读效率。
高质量的时间线摘要需要系统能够选取一组能够覆盖事件关键内容的日期或子事件(即时间线的长度),但是不同事件的关键子事件数量差异大,给时间线长度选带来难度。现有场景中时间线摘要生成采取两种策略:设置固定的时间线长度,即选择固定数量的关键日期或子事件,这样做忽略了事件发展的多样性;依赖专家知识设置时间线长度,这样做降低了系统的可扩展性。
发明内容
本发明的一个目的是提供一种基于事件检测技术的时间线摘要自动生成方法,以解决现有时间线摘要生成时忽略了事件发展的多样性和可扩展性低的问题。
为了实现根据本发明的目的和其它优点,提供了一种基于事件检测技术的时间线摘要自动生成方法,包括:
S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
S20、获取每个子事件文档集合的摘要;
S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
优选的是,所述的基于事件检测技术的时间线摘要自动生成方法,S10中,对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
S13、定义文档集合C中有n篇新闻文档{d1,d2,…,dn},文档图G中包含n个顶点{v1,v2,…,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:
Figure BDA0003033713130000021
其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中,获得子事件对应的文档集合。
优选的是,所述的基于事件检测技术的时间线摘要自动生成方法,S20中,使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要,具体包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
优选的是,所述的基于事件检测技术的时间线摘要自动生成方法,S30中,具体包括,
S31、对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
S32、计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:
Figure BDA0003033713130000031
其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零;
S33、获取S31中排序在前L′的子事件。
本发明还提供了一种基于事件检测技术的时间线摘要自动生成装置,包括,
事件检测模块,其用于将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
摘要生成模块,其用于生成每个子事件文档集合的摘要;
子事件筛选模块,其用于对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
时间线摘要构建模块,其用于获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
优选的是,所述的基于事件检测技术的时间线摘要自动生成装置,所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体聚类方法包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
S13、定义文档集合C中有n篇新闻文档{d1,d2,…,dn},文档图G中包含n个顶点{v1,v2,…,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:
Figure BDA0003033713130000041
其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中,获得子事件对应的文档集合。
优选的是,所述的基于事件检测技术的时间线摘要自动生成装置,所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要,具体生成方法包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
优选的是,所述的基于事件检测技术的时间线摘要自动生成装置,所述子事件筛选模块,具体包括,
重要性评分和排序模块,其用于对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
时间线摘要长度确定模块,其用于计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:
Figure BDA0003033713130000051
其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零;
重要子事件获取模块,其用于获取所述重要性评分和排序模块中排序在前L′的子事件。
本发明还提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述所述的方法。
本发明还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述所述的方法。
本发明至少包括以下有益效果:
本发明的方法能够根据新闻文本集合自动确定时间线摘要的长度,并生成时间线摘要,灵活性强,能够处理动态变化的新闻事件。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是根据本发明一个实施例所述方法的流程框架示意图;
图2是根据本发明一个实施例所述装置的示意图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
如图1所示,本发明提供一种基于事件检测技术的时间线摘要自动生成方法,包括:
S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件。
进一步的,S10中,对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合。具体包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型。
文档建模是将输入的文本向量化的过程,其中文本包括文档和句子。文档建模模型将输入变长文本转化为固定长度的特征表示,本发明选用DOC2VEC模型进行文档建模。DOC2VEC有两种训练方式,本发明选择了分布记忆的段落向量(Distributed Memory Modelof Paragraph Vectors,PV-DM)训练方式。用预构建的新闻文本集合训练DOC2VEC模型,得到适合的文档向量矩阵D的表达。
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达。
S13、定义文档集合C中有n篇新闻文档{d1,d2,…,dn},文档图G中包含n个顶点{v1,v2,…,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:
Figure BDA0003033713130000061
其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中进行聚类,获得子事件对应的文档集合。
马尔可夫聚类(Markov Chain Cluster)属于图聚类的一种,通过分析文档之间的关系构建出文档图,通过分析不同文档图之间的关系得到不同文档簇。本发明将每个文档簇对应一个子事件。马尔可夫聚类过程主要包含:Expansion(扩张)和Inflation(膨胀)两个关键操作,先将文档图转化为邻接矩阵,并标准化,再设置扩张时的参数e和膨胀时的参数r;扩张操作时,每次对矩阵进行e次幂方;膨胀操作时,每次对矩阵内元素进行r次幂方,再进行标准化;重复步骤扩张和膨胀,直到邻接矩阵达到稳定,最终将结果矩阵转化为聚簇;根据马尔聚类结果,得到子事件对应的文档集合,即簇中顶点对应的文档集合。
S14、分析所述子事件文档集合中文档的发布时间,选取出现次数最高的发布时间作为子事件的关键日,最终得到了新闻事件的子事件集合,集合中由多个子事件构成,每个子事件包含一个关键日期和文档集合,实现对所述新闻文本集合的事件检测与日期分析。
S20、获取每个子事件文档集合的摘要。
进一步的,S20中,使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要。具体包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数,如1、2、3;
S27、对生成的摘要进行去噪和去重。
S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件。
子事件筛选需要评估已有子事件重要性,选择固定数量(指时间线长度)的关键子事件输出。已有方法需要设置固定的时间线长度或依赖专家知识设置时间线长度,缺乏灵活性。本发明利用拐点检测的方法自动选取时间线长度。
进一步的,S30中,具体包括,
S31、对每个子事件进行重要性评分并按照重要程度进行排序(由大到小),重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数。
S32、计算不同时间线摘要长度L对应的选择置信度(Selection Confidence,SC),用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:
Figure BDA0003033713130000081
其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零,经过log平滑输出最终的选择置信度。
S33、获取S31中排序在前L′的子事件。
S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
进一步的,本发明对筛选出的前L′个的子事件进行分析,分析子事件日期和摘要内容,去除摘要内容高度相似的子事件,保留关键子事件及摘要,再按照日期先后顺序对去重后的摘要进行排序,输出带有时间戳的摘要序列。
本发明的方法能够根据新闻文本集合自动确定时间线摘要的长度,并生成时间线摘要,有效克服了现有时间线摘要生成时忽略了事件发展的多样性和可扩展性低的问题,灵活性强,能够处理动态变化的新闻事件。
本发明还提供了一种基于事件检测技术的时间线摘要自动生成装置,如图2所示,包括,
事件检测模块,其用于将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
摘要生成模块,其用于生成每个子事件文档集合的摘要;
子事件筛选模块,其用于对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
时间线摘要构建模块,其用于获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
其中,所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体聚类方法包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
S13、定义文档集合C中有n篇新闻文档{d1,d2,…,dn},文档图G中包含n个顶点{v1,v2,…,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:
Figure BDA0003033713130000091
其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中,获得子事件对应的文档集合。
所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要,具体生成方法包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
所述子事件筛选模块,具体包括,
重要性评分和排序模块,其用于对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
时间线摘要长度确定模块,其用于计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:
Figure BDA0003033713130000101
其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零;
重要子事件获取模块,其用于获取所述重要性评分和排序模块中排序在前L′的子事件。
本发明还提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述所述的方法。
本发明还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述所述的方法。
上述装置、电子设备和存储介质是基于与基于事件检测技术的时间线摘要自动生成方法相同的发明构思得到,具体可参考方法部分的描述。
实施例1:
采用本发明所述的方法自动生成“N号房”事件的时间线摘要,结果如下:
日期 子事件摘要(以标题代替较长的摘要内容)
2020-03-23 N号房赵博士身份公开
2020-04-09 韩国数十万人请愿更换“N号房”法官
2020-04-17 韩国“N号房”18岁共犯被示众
2020-04-29 韩国“N号房”主犯首次出庭受审
2020-05-18 N号房创建人被公开示众
2020-06-05 韩国“N号房”创建人被检方拘留起诉
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (10)

1.基于事件检测技术的时间线摘要自动生成方法,其特征在于,包括:
S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
S20、获取每个子事件文档集合的摘要;
S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
2.如权利要求1所述的基于事件检测技术的时间线摘要自动生成方法,其特征在于,S10中,对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
S13、定义文档集合C中有n篇新闻文档{d1,d2,...,dn},文档图G中包含n个顶点{v1,v2,...,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:
Figure FDA0003033713120000011
其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中,获得子事件对应的文档集合。
3.如权利要求1所述的基于事件检测技术的时间线摘要自动生成方法,其特征在于,S20中,使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要,具体包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
4.如权利要求1所述的基于事件检测技术的时间线摘要自动生成方法,其特征在于,S30中,具体包括,
S31、对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
S32、计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:
Figure FDA0003033713120000021
其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零;
S33、获取S31中排序在前L′的子事件。
5.基于事件检测技术的时间线摘要自动生成装置,其特征在于,包括,
事件检测模块,其用于将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;
摘要生成模块,其用于生成每个子事件文档集合的摘要;
子事件筛选模块,其用于对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;
时间线摘要构建模块,其用于获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。
6.如权利要求5所述的基于事件检测技术的时间线摘要自动生成装置,其特征在于,所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类,根据聚类结果,得到子事件对应的文档集合,具体聚类方法包括,
S11、采用DOC2VEC模型进行文档建模,并用预构建的新闻文档集合训练DOC2VEC模型;
S12、将所述新闻文档集合输入训练后的DOC2VEC模型中,获得文档的向量表达;
S13、定义文档集合C中有n篇新闻文档{d1,d2,...,dn},文档图G中包含n个顶点{v1,v2,...,vn},每个顶点代表一个文档,使用DOC2VEC向量表示,文档图G中的边eij表示顶点vi和vj之间存在关联,即需要满足vi和vj两顶点对应的文档di和dj发布时间小于时间窗口window,文档图G中每条边对应的权重为wij,计算公式为:
Figure FDA0003033713120000031
其中,veci表示文档di的DOC2VEC向量,vecj表示dj的DOC2VEC向量;将文档图G中的顶点和边输入马尔可夫聚类模型中,获得子事件对应的文档集合。
7.如权利要求5所述的基于事件检测技术的时间线摘要自动生成装置,其特征在于,所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要,具体生成方法包括,
S21、对所述每个子事件文档集合进行分句,使用DOC2VEC模型,获取句子向量;
S22、将所述每个子事件文档集合中的所有句子向量求和,作为中心向量;
S23、以所述中心向量为第一候选向量,计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度,选择与所述第一候选向量相似度最高的句子加入到摘要中;
S24、将所述中心向量与已生成摘要的句子向量求和,作为第二候选向量;
S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度,选择与所述第二候选向量相似度最高的句子加入到摘要中;
S26、重复S24和S25,直到生成长度为k的摘要,k为常数;
S27、对生成的摘要进行去噪和去重。
8.如权利要求5所述的基于事件检测技术的时间线摘要自动生成装置,其特征在于,所述子事件筛选模块,具体包括,
重要性评分和排序模块,其用于对每个子事件进行重要性评分并按照重要程度进行排序,重要性评分计算公式为:fevent(e)=cnte(de),其中,e表示待评估子事件,de表示待评估子事件的关键日期,cnte表示统计de在待评估子事件对应的子事件文档集合的文档中出现的次数;
时间线摘要长度确定模块,其用于计算不同时间线摘要长度L对应的选择置信度,用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度,选择置信度计算公式为:
Figure FDA0003033713120000041
其中,L为候选的时间线摘要长度,fevent(ei)为fevent排序为i的子事件的重要性评分,α为常数,其作用时保证log内值大于零;
重要子事件获取模块,其用于获取所述重要性评分和排序模块中排序在前L′的子事件。
9.电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-4中任一项所述的方法。
10.存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1-4中任一项所述的方法。
CN202110437683.7A 2021-04-22 2021-04-22 基于事件检测技术的时间线摘要自动生成方法 Active CN113254632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110437683.7A CN113254632B (zh) 2021-04-22 2021-04-22 基于事件检测技术的时间线摘要自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110437683.7A CN113254632B (zh) 2021-04-22 2021-04-22 基于事件检测技术的时间线摘要自动生成方法

Publications (2)

Publication Number Publication Date
CN113254632A true CN113254632A (zh) 2021-08-13
CN113254632B CN113254632B (zh) 2022-07-22

Family

ID=77221318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110437683.7A Active CN113254632B (zh) 2021-04-22 2021-04-22 基于事件检测技术的时间线摘要自动生成方法

Country Status (1)

Country Link
CN (1) CN113254632B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722194A (zh) * 2022-03-15 2022-07-08 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248073A1 (en) * 2005-04-28 2006-11-02 Rosie Jones Temporal search results
CN102646114A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于突破点的新闻话题时间线摘要生成方法
US20140172427A1 (en) * 2012-12-14 2014-06-19 Robert Bosch Gmbh System And Method For Event Summarization Using Observer Social Media Messages
US20150006523A1 (en) * 2013-06-27 2015-01-01 Kodak Alaris Inc. Method for ranking and selecting events in media collections
CN105190604A (zh) * 2013-03-20 2015-12-23 微软技术许可有限责任公司 在协作创作环境中跟踪改变

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248073A1 (en) * 2005-04-28 2006-11-02 Rosie Jones Temporal search results
CN102646114A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于突破点的新闻话题时间线摘要生成方法
US20140172427A1 (en) * 2012-12-14 2014-06-19 Robert Bosch Gmbh System And Method For Event Summarization Using Observer Social Media Messages
CN105190604A (zh) * 2013-03-20 2015-12-23 微软技术许可有限责任公司 在协作创作环境中跟踪改变
US20150006523A1 (en) * 2013-06-27 2015-01-01 Kodak Alaris Inc. Method for ranking and selecting events in media collections

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722194A (zh) * 2022-03-15 2022-07-08 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法
CN114722194B (zh) * 2022-03-15 2023-05-09 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法

Also Published As

Publication number Publication date
CN113254632B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN105868178A (zh) 一种基于短语主题建模的多文档自动摘要生成方法
CN110457450B (zh) 基于神经网络模型的答案生成方法及相关设备
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
EP3968245A1 (en) Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus
JP2019082841A (ja) 生成プログラム、生成方法及び生成装置
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN113254632B (zh) 基于事件检测技术的时间线摘要自动生成方法
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN112668838A (zh) 一种基于自然语言解析的评分标准词库建立方法及装置
CN109615018B (zh) 用户个性化行为评价方法、装置、计算机设备和存储介质
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN110929509A (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和系统
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
CN111339287B (zh) 摘要生成方法及装置
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
CN111209375B (zh) 一种通用的条款与文档匹配方法
KR20190082453A (ko) 기계학습 모델링을 위한 신규 학습 콘텐츠 분석 방법, 장치 및 컴퓨터 프로그램
CN110413956B (zh) 一种基于bootstrapping的文本相似度计算方法
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN114282875A (zh) 流程审批确定性规则和语义自学习结合判定方法及装置
JP2002269120A (ja) 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant