CN116361468B - 一种事件脉络生成方法、电子设备和存储介质 - Google Patents
一种事件脉络生成方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116361468B CN116361468B CN202310347374.XA CN202310347374A CN116361468B CN 116361468 B CN116361468 B CN 116361468B CN 202310347374 A CN202310347374 A CN 202310347374A CN 116361468 B CN116361468 B CN 116361468B
- Authority
- CN
- China
- Prior art keywords
- topic
- event
- list
- text
- topics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 73
- 238000004140 cleaning Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 13
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种事件脉络生成方法、电子设备和存储介质,方法包括:首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。
Description
技术领域
本发明涉及自然语言处理领域,特别是涉及一种事件脉络生成方法、电子设备和存储介质。
背景技术
近年来,互联网生态经历了高速发展,数字信息呈爆炸式增长。与此同时,互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。繁杂、海量的信息给人们对知识的学习和使用带来了难整合、难查找、难理解等问题。在信息检索领域,面向事件的检索已经成为用户从网络中获取感兴趣事件的一种主要途径。如何从大量新闻中获得某个事件的发展时间线或发展脉络,对于快速获取信息,了解事件的前因后果是非常有必要的。
现有的事件脉络生成方法,通常使用TF-IDF、LDA方法或深度学习方法提取文档信息,然后使用KMeans、层次聚类等聚类方法对文档进行聚类,获得话题或事件的划分。现有的文档提取方法较为简单,没有充分提取文档中的信息,用聚类进行话题或事件划分时,没有对聚类结果进行清洗和优化,不能很好地划分话题或事件,导致话题、事件聚合错误,对事件脉络的生成也会有很大影响。已有的话题或事件名生成方法,主要通过抽取关键词或摘要或抽取主谓宾等结构获得,关键词没有顺序,不能表示话题或事件的主要内容,摘要太长,主谓宾结构语义连贯性较差。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供了一种事件脉络生成方法,所述方法包括如下步骤:
S100,对待聚类文本中的每个文本进行预处理,并获取预处理后的每个文本的特征向量和关键词;
S200,基于所有文本的特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题,每个话题包括至少一个文本;
S300,基于话题和文本之间的关键词相同数量以及文本和话题的话题描述特征向量之间的相似度,对得到的多个话题进行清洗处理,得到清洗处理后的多个清洗话题;
S400,基于话题之间的关键词相同数量和话题描述特征向量之间的相似度对多个清洗话题进行合并处理,得到合并处理后的多个合并话题;
S500,获取多个合并话题中的每个话题的初始事件列表,其中,每个话题的初始事件列表通过对该话题中的所有文本对应的事件描述中相同的事件描述进行合并得到,每个文本的事件描述通过设定事件描述生成模型生成;
S600,对于每个话题的初始事件列表,基于事件之间的关键词相同数量和事件的事件描述向量之间的相似度,对该话题中的事件进行合并,得到每个话题合并后的合并事件列表;
S700,基于文本的特征向量之间的相似度获取每个合并事件列表中的每个事件的子事件列表;
S800,输出每个事件的事件脉络,其中,每个事件脉络包括按照文本发布时间由早到晚进行排序的多个排序子事件,并且,每个排序子事件中的文本按照发布时间由早到晚的顺序进行排序。
本发明实施例还提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如前述方法。
本发明实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
本发明实施例提供的事件脉络生成方法,首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的事件脉络生成方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种事件脉络生成方法,如图1所示,所述方法可包括如下步骤:
S100,对待聚类文本中的每个文本进行预处理,并获取预处理后的每个文本的特征向量和关键词。
在本发明实施例中,文本可为新闻文本,也可为其它类型的文本。文本可通过用户输入获取。
在本发明实施例中,对文本的预处理可包括:去掉乱码和特殊字符、繁体转简体等。
在本发明实施例中,可通过现有的关键词提取方法获取每个文本的关键词。在一个示意性实施例中,本发明通过TextRank算法获取每个文本的关键词和每个关键词对应的权重。关键词的数量h可基于实际需要进行设置,在一个示例中,h=7。
在本发明实施例中,可通过现有的特征提取方法获取每个文本的特征向量。在一个示意性实施例中,可通过CoSENT提取文本的特征向量。由于有的文本过长且过长的文本对相似度检索的准确率有影响,因此本发明采用文本标题加文本内容的前N段作为新闻的表示,输入CoSENT模型,得到每个文本的特征。N可以设置为0,1,2等,0为只使用标题。
S200,基于所有文本的特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题,即得到多个话题,每个话题包括至少一个文本。
由于用户输入的文本有可能有重复,因此,在进行聚类之前,本发明对待聚类文本为进行去重处理。在本发明实施例中,可采用基于文本相似度和规则的方法进行去重。具体地,对于每个文本,依次计算它与爬取的其他文本的相似度,如果相似度超过设定的相似度阈值,且两个文本的标题中相同字的比例超过设定的比例阈值,则认为是重复文本,然后选择发布时间最近的文本存入待聚类文本库。在本发明实施例中,文本a和b之间的相似度可通过下述公式获取:
其中,Ta和Tb分别为文本a和b的特征向量,||Ta||和||Tb||分别为Ta和Tb的模。
在本发明实施例中,相似度的阈值可以设置高一些,比如0.95,标题中相同字的比例阈值可以设置为0.5或0.6等。
在本发明实施例中,可以采用多种聚类算法进行聚类,本发明选择DBSCAN算法。DBSCAN算法不需要指定聚类个数,只需要指定邻域半径和邻域半径内最少的数据点数。
本领域技术人员知晓,基于所有文本的特征向量,利用DBSCAN算法进行聚类,得到对应的聚类结果可为现有技术。
S300,基于话题和文本之间的关键词相同数量以及文本和话题的话题描述特征向量之间的相似度,对得到的多个话题进行清洗处理,得到清洗处理后的多个清洗话题。
在本发明实施例中,任一文本的话题描述特征向量通过如下步骤获取:
S310,将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述。
在本发明实施例中,话题描述生成模型可为T5或BART预训练生成模型。话题描述生成模型的训练步骤包括:
(1)构建数据集
对于聚类后的所有话题,人工选择若干话题进行数据集标注。对于选择的每个话题,随机选择若干篇文本,人工生成它们的话题描述,每个新闻对应一个话题描述,描述相同话题的新闻,其对应的话题描述也尽可能相同。将每篇新闻的标题作为生成模型的输入,人工生成的话题描述作为模型的真实值构建训练数据集。如果文本没有标题,可使用文本的第一段作为模型的输入。
在本发明实施例中,话题描述可以认为是当前文本对应的话题或主题信息。
(2)模型训练
将训练数据集中的每个文本的标题或第一段输入到预训练生成模型中进行训练,得到对应的预测结果,将预测结果和人工标注的真实值计算损失来训练模型参数,得到训练好的话题描述生成模型。
在得到训练好的话题描述生成模型后,依次将待聚类的每个文本的标题或第一段输入训练好的话题描述生成模型中,得到每个文本的话题描述。
S311,将任一文本的话题描述输入到设定话题描述特征生成模型中,得到对应的话题描述特征向量。
在本发明实施例中,采用CoSENT模型来获取每个文本的话题描述特征向量。将每个文本的话题描述输入到CoSENT模型中,即可得到每个文本的话题描述特征向量。
在本发明实施例中,任一话题的特征向量为该话题中所有文本的特征向量的平均值,即话题i的特征向量hij为话题i中的第j个文本Tij对应的特征向量,f(i)为话题i中的文本数量。
在本发明实施例中,任一话题的话题描述特征向量为该话题对应的所有话题描述中生成频次最大的话题描述对应的话题描述特征向量。
由于不同文本的话题描述可能相同,因此,将任一话题中的所有文本对应的话题描述进行合并处理,然后获取合并处理后的话题描述中的每个话题描述的生成频次,将生成频次最大的话题描述作为该话题的话题描述,对应的话题描述特征向量作为该话题的话题描述特征向量。例如,如果3个文本生成了某个话题描述,则该话题描述的生成频次为3。
进一步地,S300可具体包括:
S301,获取第p次清洗处理对应的当前待清洗话题中的任一话题中的任一文本以及任一话题的关键词和话题描述特征向量;p的取值为1到C0,C0为预设清洗次数。
在发明实施例中,C0可基于实际需要设置,优选,C0≤3,更优选,C0=2。对于当前待清洗话题的任一文本和任一话题的话题描述特征向量可参照前述实施例获取得到。
S302,对于当前待清洗话题中的话题i中的第j个文本Tij,分别获取gp(i,j)和STp ij,如果gp(i,j)≥D1p,并且STp ij≥D2p,则将Tij保留在话题i中,执行S308;否则,执行S303;其中,gp(i,j)为第p次清洗处理时Tij和话题i之间的关键词相同的数量,STp ij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前待清洗话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值。
在本发明实施例中,话题描述特征向量之间相似度可通过现有相似度算法获取,例如余弦相似度等。
在本发明实施例中,每次清洗处理对应的第一设定阈值和第二设定阈值可以不同,也可以不相同,可基于实际需要进行设置。在本发明实施例中,可以组合设置第一设定阈值与第二设定阈值的值,比如第一设定阈值设置为2,同时第二设定阈值设置为0.88,或者第一设定阈值设置为3,同时第二设定阈值设置为0.8,或者第一设定阈值设置为4,同时第二设定阈值设置为0.75,或者第一设定阈值设置为5,同时第二设定阈值设置为0.65,就是关键词相同的个数较大时,相似度可以相对较低。另外,为了保证清洗结果的质量,如果当前文本或当前话题的话题描述中出现人名或地名等实体词,为了保证当前话题中描述的是相同或相似话题,相应的阈值应该比正常的阈值更大,比如可以设置第二设定阈值为0.96等。
S303,获取话题描述相似度集STij={ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij},STs ij为Tij的话题描述特征向量和当前待清洗话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度,s的取值为1到k-1;执行S304。
S304,将STij按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STCij={STC1 ij,STC2 ij,…,STCw ij,…,STCm ij},STCw ij为STCij中的第w个相似度,w的取值为1到m;执行S305。m可基于实际需要进行设置,例如,m=5。
S305,获取关键词相同数量集gij={g1 ij,g2 ij,…,gw ij,…,gm ij},gw ij为Tij和话题w之间的关键词相同的数量;执行S306。
S306,获取maxA=max{(STC1 ij+g1 ij),(STC2 ij+g2 ij),…,(STCw ij+gw ij),…,(STCm ij+gm ij)}对应的话题作为Tij的候选合并话题,并且,如果maxA对应的关键词相同数量大于D1p,并且话题描述相似度大于D2p,则将Tij合并到对应的候选合并话题中并从原话题中删除,否则,执行S307。
S307,为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,执行S308。
S308,设置j=j+1,如果j≤f(i),执行S302,否则,设置i=i+1,如果i≤k,执行S302,如果i>k,执行S310。
S310,设置p=p+1,如果p≤C0,执行S301;否则,得到清洗处理后的H个清洗话题,并执行S400。S400,基于话题之间的关键词相同数量和话题描述特征向量之间的相似度对多个清洗话题进行合并处理,得到合并处理后的多个合并话题。
在本发明实施例中,S400可具体包括:
S410,基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S,并获取S中的任一话题u对应的关键词、话题描述和话题描述特征向量,u的取值为1到H。
S420,基于话题之间的关键词相同的数量和话题的话题描述特征向量之间的相似度对S进行合并处理,得到合并处理后的多个合并话题。
其中,S420可具体包括:
S421,获取g(u,v)和Suv,如果g(u,v)≥D3并且S1uv≥D4,则将话题u和话题v进行合并,执行S423;否则,执行S422;其中,话题v为当前合并话题列表中的第v个话题,g(u,v)为话题u与话题v之间的关键词相同的数量,Suv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度,v的取值为1到n,n为当前合并话题列表中的话题数量;D3为第三设定阈值,D4为第四设定阈值;合并话题列表中的初始值为Null。
在本发明实施例中,话题u和话题v合并后得到话题的话题描述为话题v的话题描述,特征向量是话题u和话题v的特征向量的平均值。
本领域技术人员知晓,当u=1时,由于当前合并话题列表中的话题数量为Null,所以,会将话题1加入到当前合并话题列表中。
在本发明实施例中,第三设定阈值和第四设定阈值可以与第一设定阈值和第二设定阈值做相同的设置,或者选择更大的阈值。另外,为了保证合并结果的质量,如果两个话题的话题描述中任意一个出现人名或地名等实体词,为了保证合并后话题中描述的是相同或相似话题,相应的阈值应该比正常的阈值更大,比如可以设置第四设定阈值为0.96等。
S422,设置v=v+1,如果v≤n,执行S421,否则,将话题u作为新话题加入到当前合并话题列表中并设置n=n+1;执行S423。
S423,设置u=u+1,如果u≤H,执行S421,否则,执行S424。
S424,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量小于小于设定数量阈值例如小于3个,则将该话题从当前话题列表中删除;得到合并处理后的多个合并话题,并执行S500。
S500,获取多个合并话题中的每个话题的初始事件列表,其中,每个话题的初始事件列表通过对该话题中的所有文本对应的事件描述中相同的事件描述进行合并得到。
在本发明实施例中,对于每个合并话题,基于前述内容分别生成新的话题关键词、话题描述和话题描述向量。
对于每个合并话题,首先对于每个话题中的每个文本,生成对应的事件描述,接着,合并相同事件描述,得到该话题对应的初始事件列表。
在本发明实施例中,任一文本的事件描述通过设定事件描述生成模型生成。在一个示意性实施例中,事件描述生成模型可为T5或BART等预训练生成模型。首先构建数据集,然后基于该数据集训练T5或BART模型,最后生成每个文本对应的事件描述。
(1)数据集构建
对于用户输入的所有文本,随机选择若干文本,进行标注。对于选择的每个文本,人工生成它的事件描述。这里与话题描述有一定区别,事件描述更细化,描述的是文本对应的事件。将每个文本的标题作为生成模型的输入,人工生成的事件描述作为模型的真实值构建训练数据集。如果文本没有标题,使用文本的第一段作为模型的输入。
(2)模型训练
将训练数据集中的每个文本的标题或第一段输入到预训练生成模型中进行训练,得到对应的预测结果,将预测结果和人工标注的真实值计算损失来训练模型参数,得到训练好的事件描述生成模型。
在得到训练好的事件描述生成模型后,依次将每个文本的标题或第一段输入训练好的事件描述生成模型中,得到每个文本的事件描述。
S600,对于每个话题的初始事件列表,基于事件之间的关键词相同数量和事件的事件描述向量之间的相似度,对该话题中的事件进行合并,得到每个话题合并后的合并事件列表。
在本发明实施例中,事件的事件描述向量基于CoSENT模型获取得到,具体地,将每个事件的事件描述输入到CoSENT模型中,得到每个事件对应的事件描述向量。
在本发明实施例中,每个事件的关键词为其中每个文本的关键词出现的权重的总和,取其中出现权重最大的7个关键词作为当前事件的关键词。具体地,如果某个关键词只在一个文本中出现,则该关键词的权重为在该文本中的权重。如果某个关键词在多个文本中出现,该关键词的权重为该关键词在多个文本中的权重之和,例如,关键词a在3个文本中出现,则关键词a的权重为b1+b2+b3,其中,b1至b3分别为关键词a在3个文本中的权重。
进一步地,S600可具体包括:
S610,将每个初始事件列表中的事件按照文本数量递减的方式进行排序,得到排序后的初始事件排序列表。具体地,获取每个初始事件列表中的每个事件中的文本数量,然后按照文本数量大小逆序排序。
S620,对于当前处理的初始排序列表,获取qcd和SIcd,如果qcd≥D5并且SIcd≥D6,则将事件c和事件d进行合并,即将事件c中的文本并入事件d中,执行S640;否则,执行S630;其中,事件c为当前初始事件排序列表中的第c个事件,事件d为当前合并事件列表中的第d个事件,qcd为事件c与事件d之间的关键词相同的数量,SIcd为事件c的事件描述特征向量和事件d的事件描述特征向量之间的相似度,c的取值为1到Q,Q为当前初始事件排序列表中的事件数量,d的取值为1到G,G为当前合并事件列表中的事件数量;D5为第五设定阈值,D6为第六设定阈值;合并事件列表中的初始值为Null。
在本发明实施例中,事件c和事件d合并后得到事件的事件描述为事件d的事件描述,特征向量是事件中所有文本的特征向量的平均值。
本领域技术人员知晓,当c=1时,由于当前合并事件列表中的事件数量为Null,所以,会将事件1加入到当前合并事件列表中。
在本发明实施例中,第五设定阈值和第六设定阈值可以与第三设定阈值和第四设定阈值做相同的设置,或者选择更大的阈值。另外,为了保证合并结果的质量,如果两个事件的事件描述中任意一个出现人名或地名等实体词,为了保证合并后事件中描述的是相同或相似事件,相应的阈值应该比正常的阈值更大,比如可以设置第六设定阈值为0.96等。
S630,设置d=d+1,如果d≤G,执行S620,否则,将事件c作为新事件加入到当前合并事件列表中并设置G=G+1,执行S640。
S640,设置c=c+1,如果c≤Q,执行S620,否则,得到当前初始事件排序列表对应的合并事件列表,并退出对当前初始事件排序列表的合并控制程序。
通过S610至S640,能够得到每个话题的初始事件排序列表的合并事件列表。此外,对于合并事件列表后的每个事件,可参照前述内容重新计算事件的关键词和事件描述。
S700,基于文本的特征向量之间的相似度获取每个合并事件列表中的每个事件的子事件列表。
在本发明实施例中,S700可具体包括:
S710,将每个合并事件列表中的事件按照文本数量递减的方式进行排序,得到排序后的合并事件排序列表。
S720,对于当前处理的合并事件排序列表中的任一事件t中的任一文本x,获取对应的特征相似度集STx t={STx1 t,STx2 t,…,STxz t,…,STxg(t) t},STxz t为事件t中的第x个文本的特征向量和事件t对应的当前子事件列表中的第z个子事件的特征向量之间的相似度;x的取值为2到h(t),h(t)为事件t中的文本数量,z的取值为1到g(t),g(t)为事件t对应的当前子事件列表中的子事件的数量;事件t对应的当前子事件列表的初始值为事件t中的第一个文本。t的取值为1到Y,Y为当前处理的合并事件排序列表中的事件数量。在本发明实施例中,每个子事件的特征向量为所包含的所有文本的特征向量的平均值。
在本发明实施例中,STxz t可基于现有的相似度算法获取,例如余弦相似度。
S730,如果maxSTx t对应的相似度大于D7,则将文本x加入maxSTx t对应的子事件中,maxSTx t=max{STx1 t,STx2 t,…,STxz t,…,STxg(t) t},执行S740;否则,将文本x作为新的子事件加入到事件t对应的当前子事件列表中并设置g(t)=g(t)+1,执行S740;D7为第七设定阈值;
在本发明实施例中,D7可基于实际需要进行设置,在一个示意性实施例中,D7可为0.87等。
S740,设置x=x+1,如果x≤h(t),执行S720,否则,执行S750;
S750,设置t=t+1,如果t≤Y,执行S720,否则,得到当前合并事件列表对应的子事件列表,并退出对当前合并事件排序列表的子事件列表生成程序。
通过S720至S750,可得到每个事件的最终的子事件列表。
S800,输出每个事件的事件脉络,其中,每个事件脉络包括按照文本发布时间由早到晚的排序进行排序的多个排序子事件,并且,每个排序子事件中的文本按照发布时间由早到晚的顺序进行排序。对每个事件的子事件列表,按照新闻的发布时间,对每个子事件中的新闻进行排序。然后对事件中的所有子事件,按照每个子事件的新闻中最早的发布时间进行排序,最后按照发布时间输出事件的所有子事件列表,作为该事件的事件脉络。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。
Claims (9)
1.一种事件脉络生成方法,其特征在于,所述方法包括如下步骤:
S100,对待聚类文本中的每个文本进行预处理,并获取预处理后的每个文本的特征向量和关键词;
S200,基于所有文本的特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题,每个话题包括至少一个文本;
S300,基于话题和文本之间的关键词相同数量以及文本和话题的话题描述特征向量之间的相似度,对得到的多个话题进行清洗处理,得到清洗处理后的多个清洗话题;
S400,基于话题之间的关键词相同数量和话题描述特征向量之间的相似度对多个清洗话题进行合并处理,得到合并处理后的多个合并话题;
S500,获取多个合并话题中的每个话题的初始事件列表,其中,每个话题的初始事件列表通过对该话题中的所有文本对应的事件描述中相同的事件描述进行合并得到,每个文本的事件描述通过设定事件描述生成模型生成;
S600,对于每个话题的初始事件列表,基于事件之间的关键词相同数量和事件的事件描述向量之间的相似度,对该话题中的事件进行合并,得到每个话题合并后的合并事件列表;
S700,基于文本的特征向量之间的相似度获取每个合并事件列表中的每个事件的子事件列表;
S800,输出每个事件的事件脉络,其中,每个事件脉络包括按照文本发布时间由早到晚进行排序的多个排序子事件,并且,每个排序子事件中的文本按照发布时间由早到晚的顺序进行排序;
其中,S300具体包括:
S301,获取第p次清洗处理对应的当前待清洗话题中的任一话题中的任一文本以及任一话题的关键词和话题描述特征向量;p的取值为1到C0,C0为预设清洗次数;
S302,对于当前待清洗话题中的话题i中的第j个文本Tij,分别获取gp(i,j)和STp ij,如果gp(i,j)≥D1p,并且STp ij≥D2p,则将Tij保留在话题i中,执行S308;否则,执行S303;其中,gp(i,j)为第p次清洗处理时Tij和话题i之间的关键词相同的数量,STp ij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前待清洗话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值;
S303,获取话题描述相似度集STij={ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij},STs ij为Tij的话题描述特征向量和当前待清洗话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度,s的取值为1到k-1;执行S304;
S304,将STij按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STCij={STC1 ij,STC2 ij,…,STCw ij,…,STCm ij},STCw ij为STCij中的第w个相似度,w的取值为1到m;执行S305;
S305,获取关键词相同数量集gij={g1 ij,g2 ij,…,gw ij,…,gm ij},gw ij为Tij和话题w之间的关键词相同的数量;执行S306;
S306,获取maxA=max{(STC1 ij+g1 ij),(STC2 ij+g2 ij),…,(STCw ij+gw ij),…,(STCm ij+gm ij)}
对应的话题作为Tij的候选合并话题,并且,如果maxA对应的关键词相同数量大于D1p,并且话题描述相似度大于D2p,则将Tij合并到对应的候选合并话题中并从原话题中删除,否则,执行S307;
S307,为Tij创建一个新话题并从原话题中删除,并将Tij加入到对应的新话题中,设置k=k+1,执行S308;
S308,设置j=j+1,如果j≤f(i),执行S302,否则,设置i=i+1,如果i≤k,执行S302,如果i>k,执行S310;
S310,设置p=p+1,如果p≤C0,执行S301;否则,得到清洗处理后的H个清洗话题,并执行S400。
2.根据权利要求1所述的方法,其特征在于,任一文本的话题描述特征向量通过如下步骤获取:
S310,将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述;
S311,将任一文本的话题描述输入到设定话题描述特征生成模型中,得到对应的话题描述特征向量;
任一话题的特征向量为该话题中所有文本的特征向量的平均值;
任一话题的话题描述特征向量为该话题对应的所有话题描述中生成频次最大的话题描述对应的话题描述特征向量。
3.根据权利要求1所述的方法,其特征在于,S400具体包括:
S410,基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S,并获取S中的任一话题u对应的关键词、话题描述和话题描述特征向量,u的取值为1到H;
S420,基于话题之间的关键词相同的数量和话题的话题描述特征向量之间的相似度对S进行合并处理,得到合并处理后的多个合并话题;
其中,S420具体包括:
S421,获取g(u,v)和Suv,如果g(u,v)≥D3并且S1uv≥D4,则将话题u和话题v进行合并,执行S423;否则,执行S422;其中,话题v为当前合并话题列表中的第v个话题,g(u,v)为话题u与话题v之间的关键词相同的数量,Suv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度,v的取值为1到n,n为当前合并话题列表中的话题数量;D3为第三设定阈值,D4为第四设定阈值;合并话题列表中的初始值为Null;
S422,设置v=v+1,如果v≤n,执行S421,否则,将话题u作为新话题加入到当前合并话题列表中并设置n=n+1;执行S423;
S423,设置u=u+1,如果u≤H,执行S421,否则,执行S424;
S424,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量小于设定数量阈值,则将该话题从当前话题列表中删除;得到合并处理后的多个合并话题,并执行S500。
4.根据权利要求1所述的方法,其特征在于,S600具体包括:
S610,将每个初始事件列表中的事件按照文本数量递减的方式进行排序,得到排序后的初始事件排序列表;
S620,对于当前处理的初始排序列表,获取qcd和SIcd,如果qcd≥D5并且SIcd≥D6,则将事件c和事件d进行合并,执行S640;否则,执行S630;其中,事件c为当前初始事件排序列表中的第c个事件,事件d为当前合并事件列表中的第d个事件,qcd为事件c与事件d之间的关键词相同的数量,SIcd为事件c的事件描述特征向量和事件d的事件描述特征向量之间的相似度,c的取值为1到Q,Q为当前初始事件排序列表中的事件数量,d的取值为1到G,G为当前合并事件列表中的事件数量;D5为第五设定阈值,D6为第六设定阈值;合并事件列表中的初始值为Null;
S630,设置d=d+1,如果d≤G,执行S620,否则,将事件c作为新事件加入到当前合并事件列表中并设置G=G+1,执行S640;
S640,设置c=c+1,如果c≤Q,执行S620,否则,得到当前初始事件排序列表对应的合并事件列表,并退出对当前初始事件排序列表的合并控制程序。
5.根据权利要求1所述的方法,其特征在于,S700具体包括:
S710,将每个合并事件列表中的事件按照文本数量递减的方式进行排序,得到排序后的合并事件排序列表;
S720,对于当前处理的合并事件排序列表中的任一事件t中的任一文本x,获取对应的特征相似度集STx t={STx1 t,STx2 t,…,STxz t,…,STxg(t) t},STxz t为事件t中的第x个文本的特征向量和事件t对应的当前子事件列表中的第z个子事件的特征向量之间的相似度;x的取值为2到h(t),h(t)为事件t中的文本数量,z的取值为1到g(t),g(t)为事件t对应的当前子事件列表中的子事件的数量;事件t对应的当前子事件列表的初始值为事件t中的第一个文本;t的取值为1到Y,Y为当前处理的合并事件排序列表中的事件数量;
S730,如果maxSTx t对应的相似度大于D7,则将文本x加入maxSTx t对应的子事件中,maxSTx t=max{STx1 t,STx2 t,…,STxz t,…,STxg(t) t},执行S740;否则,将文本x作为新的子事件加入到事件t对应的当前子事件列表中并设置g(t)=g(t)+1,执行S740;D7为第七设定阈值;
S740,设置x=x+1,如果x≤h(t),执行S720,否则,执行S750;
S750,设置t=t+1,如果t≤Y,执行S720,否则,得到当前合并事件列表对应的子事件列表,并退出对当前合并事件排序列表的子事件列表生成程序。
6.根据权利要求2所述的方法,其特征在于,所述话题描述生成模型和事件描述生成模型为训练后的T5或BART预训练模型,所述话题描述特征生成模型为CoSENT模型,所述事件描述特征生成模型为CoSENT模型。
7.根据权利要求1所述的方法,其特征在于,通过CoSENT模型获取每个文本的特征向量。
8.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项的所述方法。
9.一种电子设备,其特征在于,包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347374.XA CN116361468B (zh) | 2023-04-03 | 2023-04-03 | 一种事件脉络生成方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347374.XA CN116361468B (zh) | 2023-04-03 | 2023-04-03 | 一种事件脉络生成方法、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361468A CN116361468A (zh) | 2023-06-30 |
CN116361468B true CN116361468B (zh) | 2024-05-03 |
Family
ID=86907690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310347374.XA Active CN116361468B (zh) | 2023-04-03 | 2023-04-03 | 一种事件脉络生成方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361468B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382276A (zh) * | 2018-12-29 | 2020-07-07 | 中国科学院信息工程研究所 | 一种事件发展脉络图生成方法 |
US10757061B1 (en) * | 2016-08-18 | 2020-08-25 | Hrl Laboratories, Llc | Cross-modal event summarization system based on network of networks representations |
CN113420153A (zh) * | 2021-08-23 | 2021-09-21 | 人民网科技(北京)有限公司 | 一种基于话题库和事件库的专题制作方法、装置及设备 |
CN114265932A (zh) * | 2021-12-10 | 2022-04-01 | 国家计算机网络与信息安全管理中心广东分中心 | 一种融入深度语义关系分类的事件脉络生成方法及系统 |
CN114579733A (zh) * | 2022-02-28 | 2022-06-03 | 广州启生信息技术有限公司 | 一种主题脉落的生成方法和系统 |
CN115033668A (zh) * | 2022-08-12 | 2022-09-09 | 清华大学 | 故事脉络构建方法、装置、电子设备和存储介质 |
WO2023040516A1 (zh) * | 2021-09-18 | 2023-03-23 | 腾讯科技(深圳)有限公司 | 一种事件整合方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
CN115878761A (zh) * | 2023-03-02 | 2023-03-31 | 湖南蚁坊软件股份有限公司 | 事件脉络生成方法、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10372822B2 (en) * | 2016-06-03 | 2019-08-06 | International Business Machines Corporation | Automated timeline completion using event progression knowledge base |
-
2023
- 2023-04-03 CN CN202310347374.XA patent/CN116361468B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10757061B1 (en) * | 2016-08-18 | 2020-08-25 | Hrl Laboratories, Llc | Cross-modal event summarization system based on network of networks representations |
CN111382276A (zh) * | 2018-12-29 | 2020-07-07 | 中国科学院信息工程研究所 | 一种事件发展脉络图生成方法 |
CN113420153A (zh) * | 2021-08-23 | 2021-09-21 | 人民网科技(北京)有限公司 | 一种基于话题库和事件库的专题制作方法、装置及设备 |
WO2023040516A1 (zh) * | 2021-09-18 | 2023-03-23 | 腾讯科技(深圳)有限公司 | 一种事件整合方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
CN114265932A (zh) * | 2021-12-10 | 2022-04-01 | 国家计算机网络与信息安全管理中心广东分中心 | 一种融入深度语义关系分类的事件脉络生成方法及系统 |
CN114579733A (zh) * | 2022-02-28 | 2022-06-03 | 广州启生信息技术有限公司 | 一种主题脉落的生成方法和系统 |
CN115033668A (zh) * | 2022-08-12 | 2022-09-09 | 清华大学 | 故事脉络构建方法、装置、电子设备和存储介质 |
CN115878761A (zh) * | 2023-03-02 | 2023-03-31 | 湖南蚁坊软件股份有限公司 | 事件脉络生成方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116361468A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN111190997B (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN111414479A (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN113297369B (zh) | 基于知识图谱子图检索的智能问答系统 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN112347223B (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
JPWO2018230551A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112149410A (zh) | 语义识别方法、装置、计算机设备和存储介质 | |
CN110717038A (zh) | 对象分类方法及装置 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN113515589B (zh) | 数据推荐方法、装置、设备以及介质 | |
CN116304063B (zh) | 一种简单的情感知识增强提示调优的方面级情感分类方法 | |
US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN115544999A (zh) | 一种面向领域的并行大规模文本查重方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
CN116361468B (zh) | 一种事件脉络生成方法、电子设备和存储介质 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |