CN114357022A

CN114357022A - 一种基于事件关系发现的媒体内容关联挖掘方法

Info

Publication number: CN114357022A
Application number: CN202111590575.XA
Authority: CN
Inventors: 郑晨烨; 孙剑
Original assignee: China Television Information Technology Beijing Co ltd
Current assignee: China Television Information Technology Beijing Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-15
Anticipated expiration: 2041-12-23
Also published as: CN114357022B

Abstract

本发明提供一种基于事件关系发现的媒体内容关联挖掘方法，包括：构建媒体内容库；构建并训练媒体内容事件抽取模型，对媒体内容库中的各条媒体内容包含的事件进行识别和抽取；对各条事件包含的事件元素进行识别和抽取；基于抽取到的事件和事件元素，构造媒体内容事件关联图；使用基于事件的内容关系挖掘模块，挖掘媒体内容之间的关系，包括：顺承关系、相关关系、因果关系和补充关系。本发明抽取媒体内容中的事件和事件元素，挖掘媒体内容之间多种类型的关联关系，并依据媒体内容之间的关系类型合理有效的组织关联内容，从不同角度对目标媒体内容进行描述和信息扩充，为用户展示脉络清晰、可解释性强的关联内容清单，提升用户阅读体验。

Description

一种基于事件关系发现的媒体内容关联挖掘方法

技术领域

本发明属于信息检索技术领域，具体涉及一种基于事件关系发现的媒体内容关联挖掘方法。

背景技术

现有媒体内容关联挖掘方法一般分为两类：1、通过自然语言处理、图像识别等方法学习得到媒体内容对应的语义特征，通过计算媒体内容的语义相似性获得媒体内容的关联内容。2、基于媒体内容标签挖掘媒体内容之间的关联关系。

上述方法存在的问题为：一方面，采用语义信息相似度挖掘关联关系，只能挖掘到语义相似的关联内容，忽略了语义不相似，但逻辑上具有联系的关联内容。另一方面，使用媒体内容标签建立媒体内容之间的关联，媒体内容标签体系的建立需要耗费大量人力资源或出现标签繁杂，标签没有针对性的问题，进而挖掘到的关联内容具有局限性，无法挖掘到媒体内容之间更深层次的关系。最后，上述两类挖掘方法得到的关联内容之间的关系是单一的，无向的，不加区分的，导致内容间的关联关系可解释性差，无法对目标内容的关联内容进行脉络清晰，可解释性强的组织。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于事件关系发现的媒体内容关联挖掘方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于事件关系发现的媒体内容关联挖掘方法，包括以下步骤：

步骤1，构建媒体内容库；所述媒体内容库存储多条媒体内容；

使用主题抽取模型，对各条所述媒体内容进行主题抽取，得到每条媒体内容的主题标签及由多个主题词构成的主题词集合，其中，对于媒体内容C_u，其主题词集合表示为

N_w为媒体内容C_u的主题词数量；

步骤2，构建并训练媒体内容事件抽取模型，采用所述媒体内容事件抽取模型，对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取，共抽取到N个事件，形成事件集合V＝{ent₁，ent₂，...，ent_N}；

对各条所述事件包含的事件元素进行识别和抽取，得到每个所述事件包含的事件元素；

步骤3，基于抽取到的事件和事件元素，构造媒体内容事件关联图；

所述媒体内容事件关联图为无向有权图，表示为：G_ent＝(V，E)；其中，V代表事件集合，事件集合V中的每个事件，作为媒体内容事件关联图的一个节点；E∈V×V，代表无向有权图的边集合，具体的，对于事件ent_i和事件ent_j，其中，i＝1，2，...，N，j＝1，2，...，N，i≠j，如果事件ent_i和事件ent_j之间具有共有的事件元素，则事件ent_i和事件ent_j之间相连接具有边e_ij，并且，边e_ij的权重

其中，

代表事件ent_i包含的事件元素集合；

代表事件ent_j包含的事件元素集合；

代表事件ent_i和事件ent_j的共有的事件元素的数量；如果事件ent_i和事件ent_j之间不具有共有的事件元素，则事件ent_i和事件ent_j之间不相互连接，即：不具有边；

步骤4，使用基于事件的内容关系挖掘模块，挖掘媒体内容之间的关系；媒体内容之间的关系包括：顺承关系和相关关系；

步骤4.1，挖掘媒体内容之间的顺承关系：

步骤4.1.1，以媒体内容C_u为被研究的媒体内容，根据媒体内容之间共有主题词数量，计算媒体内容C_u与媒体内容库中其他每条媒体内容的相似度；

其中，对于媒体内容库中其他每条媒体内容，表示为媒体内容C_v，采用下式，计算媒体内容C_u与媒体内容C_v的相似度sim_uv：

其中：

代表媒体内容C_v的主题词集合；

代表媒体内容C_u和媒体内容C_v的共有主题词数量；

步骤4.1.2，预设置相似度阈值θ；

从媒体内容库中，选择出所有与媒体内容C_u的相似度大于相似度阈值θ的媒体内容C_v，形成相似媒体内容集合；

步骤4.1.3，将相似媒体内容集合中的各个媒体内容，按发布时间映射到时间轴上，并在时间轴上，利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类，得到按时间排列的m个聚类中心，各个聚类中心对应的媒体内容依次表示为：C_u1，C_u2，...，C_um；C_u1，C_u2，...，C_um代表媒体内容的主要脉络，代表媒体内容C_u的顺承关系；

其中，聚类算法具体为：

将时间轴上每个媒体内容作为一个聚类，然后，不断将距离最小的两个聚类合并，直到满足迭代中止条件；

其中：对于任意两个聚类，表示为：类L₁与类L₂，类L₁与类L₂之间的距离dist₁₂计算公式为：

其中：

为类L₁中的媒体内容数量；

为类L₂中的媒体内容数量；

代表类L₁中的任意媒体内容；

代表类L₂中的任意媒体内容；

代表

和

在时间轴上的距离；

步骤4.2，挖掘媒体内容之间的相关关系：

步骤4.2.1，基于媒体内容事件关联图G_ent，构造邻接矩阵A_G∈R^N×N；邻接矩阵A_G为N行N列矩阵，表示如下：

其中：

邻接矩阵A_G中第i行第j列元素A_ij的值，为事件ent_i和事件ent_j的共有事件元素的数量，即w_ij；当i＝j时，A₁₁＝A₂₂＝…＝A_NN＝0；

A_i1 A_i2...A_iN，称为事件ent_i的邻域结构特征信息A_i；因此，A_i＝A_i1 A_i2…A_iN；

步骤4.2.2，构造语义特征向量集合H＝{H₁，H₂，...，H_N}；其中，H₁代表事件ent₁的语义特征向量，H₂代表事件ent₂的语义特征向量，依此类推，H_N代表事件ent_N的语义特征向量；

对于任意事件ent_i，通过以下公式，得到其语义特征向量Hi：

其中：

事件ent_i具有K个事件元素e₁，e₂，...，e_K，形成事件元素集合

对事件元素e₁，e₂，...，e_K分别通过语义模型向量化，得到对应的事件元素向量

通过对事件元素向量

加和平均，得到事件ent_i的语义特征向量Hi；

步骤4.2.3，构建图表示学习模型；所述图表示学习模型包括G层图卷积网络，分别表示为：第1层图卷积网络，第2层图卷积网络，...，第G层图卷积网络；

采用训练事件样本，对图表示学习模型进行训练，得到训练完成的图表示学习模型；

具体训练方法为：

步骤S1，构建训练样本库；

所述训练样本库包括多个训练事件样本，每个训练事件样本具有邻域结构特征信息和语义特征向量；

各个训练事件样本构成训练样本内容事件关联图G′；

将当前的训练事件样本表示为ent_I，其邻域结构特征信息为A_I，语义特征向量为H_I；

步骤S2，将训练事件样本ent_I的邻域结构特征信息A_I和语义特征向量HI输入到所述图表示学习模型，输出训练事件样本ent_I的表示向量R_I，方法为：

步骤S2.1，令x＝1；

步骤S2.2，通过下式，得到训练事件样本ent_I的第x层表示向量

其中：

σ代表sigmod激活函数；

代表输出

时第x层图卷积网络的第1网络权重参数；

代表输出

时第x层图卷积网络的第2网络权重参数；

代表输出

时第x层图卷积网络的第3网络权重参数；

代表训练事件样本ent_I的第x-1层表示向量；

代表训练事件样本ent_I的0阶邻域表示向量；

为训练事件样本ent_I的x阶邻域表示向量，通过下式计算：

含义为：

在训练样本内容事件关联图G′中，获得训练事件样本ent_I的所有x阶邻域事件，由此形成训练事件样本ent_I的x阶邻域事件集合

其中，W代表训练事件样本ent_I的x阶邻域事件的事件数量；训练事件样本ent_I的x阶邻域事件是指：在训练事件样本的媒体内容事件关联图中，训练事件样本ent_I连续经过x条边后到达的事件；

表集合

内的事件样本数量；

|A_I|代表训练事件样本ent_I的邻域结构特征信息A_I的模；

A_Iy代表训练事件样本ent_I和其x阶邻域事件ent_I[y]的共有事件元素的数量；

代表训练事件样本ent_I的x-1阶邻域表示向量；当x＝1时，

H_y代表训练事件样本ent_I的语义特征向量；

步骤S2.3，判断x是否等于G；如果等于，则执行步骤S2.4；如果不等于，则令x＝x+1，返回执行步骤S2.2；

步骤S2.4，输出训练事件样本ent_I的第G层表示向量

称为训练事件样本ent_I的表示向量R_I，即：

步骤S3，构造图表示学习模型的损失函数为

其中：

σ代表sigmod激活函数；

代表输出R_I时采用的图卷积网络的第1网络权重参数的集合；

代表输出R_I时采用的图卷积网络的第2网络权重参数的集合；

代表输出R_I时采用的图卷积网络的第3网络权重参数的集合；

代表训练事件样本ent_I的表示向量R_I的转秩；

Rq代表训练事件样本ent_I在训练样本内容事件关联图G′随机游走采样得到的正样本事件ent_q的表示向量；其中，正样本事件是指：预设置边数量阈值ψ，与训练事件样本ent_I的边距离数小于边数量阈值ψ的事件；反之为负样本事件；

P_n代表训练事件样本ent_I在训练样本内容事件关联图G′随机游走采样得到负样本的概率分布；

p代表服从负样本的概率分布P_n得到的负样本事件；

为所有负样本的期望；

Rp代表负样本事件p的表示向量；

代表采样得到的所有负样本事件的数量；

步骤S4，图卷积网络一共包括G*3个网络权重参数，

将任意一个网络权重参数表示为：

其中，c1＝1，2，...，G；c2＝1，2，3，采用下式，计算网络权重参数

的梯度下降距离

判断是否每个网络权重参数

的梯度下降距离

均小于设定阈值ω；如果是，则对图表示学习模型的训练结束，执行步骤S5；否则，采用下式，得到每个网络权重参数

的更新值

采用网络权重参数的更新值，更新图表示学习模型，然后，读取训练样本库中新的训练事件样本，返回步骤S2，继续对图表示学习模型进行训练；

步骤S5，输出训练完成的图表示学习模型；

步骤4.2.4，对于步骤1构建的媒体内容库，将其对应的邻接矩阵A_G和语义特征向量集合H输入到图表示学习模型，图表示学习模型输出每个事件对应的表示向量，由于媒体内容库共包括N个事件，由此得到N个表示向量R₁，R₂，...，R_N，形成表示向量集合；

对于媒体内容库中被研究的媒体内容C_u，包含U个事件，表示为：ent_u1，ent_u2，...，ent_uU；

对于每个事件ent_uV，V＝1，2，...，U，通过图表示学习模型得到事件ent_uV的表示向量R_uV，计算事件ent_uV的表示向量R_uV与表示向量集合中其他每个表示向量的距离，由此得到事件ent_uV与事件集合V＝{ent₁，ent₂，...，ent_N}中其他每个事件的相似度，按照相似度对事件集合V中其他N-1个事件进行排序，选取相似度最高的N_sim个事件，构成事件ent_uV的相关事件集合

根据事件与媒体内容之间的关系，得到相关事件集合

所属的媒体内容集合；

媒体内容集合包含的各个媒体内容，为与媒体内容C_u具有相关关系的相关媒体内容。

优选的，媒体内容之间的关系还包括因果关系；

采用以下方法，挖掘媒体内容之间的因果关系：

步骤5.1，构建训练样本库；采用训练样本库中的各个训练事件样本，对因果事件识别模板进行训练，得到训练完成的因果事件识别模板；

具体训练方法为：

步骤5.1.1，构建训练样本：

利用语言中的因果引导词，从媒体内容库中的媒体内容中抽取出具有因果属性的所有事件，表示为：事件S_c；

对事件S_c的核心动词进行语义分析，通过核心动词所属的类别，作为事件S_c的事件标签ent^c；其中，事件标签ent^c包括因事件标签或果事件标签，用于标识事件S_c的因果属性，即：标识事件S_c为因事件或果事件；

步骤5.1.2，将{S_c，ent^c}作为训练样本，对因果事件识别模板进行训练，得到训练完成的因果事件识别模板；

步骤5.2，对于媒体内容库中被研究的媒体内容C_u，包含U个事件ent_u1，ent_u2，...，ent_uU；

采用训练完成的因果事件识别模板对U个事件进行识别，识别出所有的因事件和所有的果事件；

步骤5.3，对于步骤5.2识别出的每个因事件，表示为S_c[0]，在媒体内容事件关联图G_ent中检索到对应的事件，表示为：ent_c[0]；其中，事件ent_c[0]为因事件S_c[0]的事件实例；

在媒体内容事件关联图G_ent中，抽取事件ent_c[0]的

阶邻域图结构

所述事件ent_c[0]的

阶邻域图结构

是指：与事件ent_c[0]的边距离数量小于等于

的事件形成的事件关联子图；

在

阶邻域图结构

中，基于因果事件识别模板，判断是否存在果事件，如果不存在，则代表媒体内容库中不存在事件ent_c[0]的果事件；如果存在，将识别到的果事件表示为事件ent_c[1]：

计算事件ent_c[0]和事件ent_c[1]的加权最短距离dist₀₁；

设定最短路径阈值为θ；如果dist₀₁＜θ，则确定事件ent_c[0]和事件ent_c[1]具有因果关系，因此，事件ent_c[1]所属的媒体内容，与媒体内容C_u具有因果关系；否则，代表媒体内容库中不存在事件ent_c[0]的果事件；

步骤5.4，对于步骤5.2识别出的每个果事件，基于媒体内容事件关联图G_ent，检索是否存在因事件；

步骤5.5，由此得到媒体内容库中，与媒体内容C_u具有因果关系的媒体内容。

优选的，媒体内容之间的关系还包括补充关系；

采用以下方法，挖掘媒体内容之间的补充关系：

步骤6.1，使用事件元素检索百科内容，建立事件元素与百科内容之间的补充关系；

步骤6.2，对于媒体内容库中被研究的媒体内容C_u，包含Y₁个事件元素；计算每个事件元素在媒体内容库中的出现次数，作为每个事件元素的重要程度权重；

步骤6.3，将Y₁个事件元素按重要程度权重从大到小排序，选择排序在前的Y₂个事件元素，作为用于检索的事件元素；

步骤6.4，对于选择的Y₂个事件元素中的每个事件元素，作为检索词检索步骤6.1建立的事件元素与百科内容之间的补充关系，得到每个事件元素关联的百科内容；

由此得到Y₂个事件元素关联的所有百科内容，为与媒体内容C_u具有补充关系的百科内容。

优选的，还包括：

针对不同业务类型的媒体内容，基于媒体内容间的关联关系编写相应的内容组织模板，并设置每种关联关系对应的关联媒体内容的比例；

向每种关联关系对应的内容组织模板中，加入检索到的关联媒体内容，由此得到与目标媒体内容相关联的关联媒体内容列表。

本发明提供的一种基于事件关系发现的媒体内容关联挖掘方法具有以下优点：

本发明提供一种基于事件关系发现的媒体内容关联挖掘方法，以及基于媒体内容间关联关系的内容组织方法，该方法能够挖掘媒体内容之间的浅层和深层的关联关系，同时明确关联关系的类型，并按照关联关系类型对媒体内容进行合理有效的组织，为用户展示脉络清晰、可解释性强的关联内容清单。

附图说明

图1为本发明提供的一种基于事件关系发现的媒体内容关联挖掘方法的整体架构示意图；

图2为本发明提供的媒体内容事件关联图的原理图；

图3为本发明提供的实现媒体内容-时间轴映射示意图；

图4为本发明提供的边距离数的含义图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于事件关系发现的媒体内容关联挖掘方法，本发明抽取媒体内容中的事件和事件元素，挖掘媒体内容之间多种类型的关联关系，并依据媒体内容之间的关系类型合理有效的组织关联内容，从不同角度对目标媒体内容进行描述和信息扩充，为用户展示脉络清晰、可解释性强的关联内容清单，提升用户阅读体验。

本发明提供一种基于事件关系发现的媒体内容关联挖掘方法，参考图1，包括以下步骤：

N_W为媒体内容C_u的主题词数量；

在构建媒体内容库时，通过数据预处理模块对相关媒体内容扩充和清洗，得到加入到媒体内容库的媒体内容，扩展媒体内容库。具体可采用以下方式：

步骤1.1数据扩展：

使用LDA主题抽取模型，对媒体内容库中的媒体内容进行主题抽取，得到每条媒体内容的主题标签及其对应的主题词集合。使用媒体内容对应的主题词集合作为检索词，在互联网上采集相关的媒体内容。

步骤1.2媒体内容处理：

将采集到的媒体内容转化为文本类型，媒体内容库存储三类数据类型：视频，音频和图文，针对视频类媒体内容，使用文字识别技术识别视频中的涉及文本；针对音频，使用音频识别技术得到音频涉及的文本，针对图文类媒体内容，抽取出正文内容。

步骤1.3数据清洗。

去除得到的文本中的标点、数字、乱码和停止词，得到处理后的媒体内容。

在具体实现上，媒体内容事件抽取模型，主要使用深度学习模型识别媒体内容中的事件，并对事件对应的事件元素进行抽取识别。

具体的，构建并训练媒体内容事件抽取模型，媒体内容事件抽取模型使用BERT预训练模型对文本进行向量化，然后使用MLP+LR构建事件多分类网络，使用bi-lstm和CRF构建事件元素标注网络。将上述两个任务网络进行联合训练，得到所有媒体内容包含的事件集合V＝{ent₁，ent₂，...，ent_N}和每个事件对应的事件元素集合。针对每个事件元素，基于其在媒体内容库中的出现频数计算其重要程度，

其中

为事件元素a_j在C_i中的出现频数，n_w为C_i中所有名词的数量。

其中，

代表事件ent_i包含的事件元素集合；

代表事件ent_j包含的事件元素集合；

该过程如图2所示。具体的，媒体内容库一共抽取得到N个事件，形成事件集合V；每个事件包括多个事件元素。利用事件元素和其在事件中的共现情况，构成一个无向有权图G_ent＝(V，E)，即媒体内容事件关联图。

其中：V＝{ent₁，ent₂，...，ent_N}为节点集合，其中每个节点代表一个事件，N为媒体内容库中所有事件的数量。E∈V×V为无向有权图G_ent的边集合，e_ij表示事件ent_i和事件ent_j之间的边，其权重为

即ent_i和ent_j共有事件元素的个数，若没有共有事件元素，两个事件节点之间没有边。

步骤4，使用基于事件的内容关系挖掘模块，挖掘媒体内容之间的关系；

媒体内容之间的关系包括：顺承关系、相关关系、因果关系和补充关系；下面对这四种关系的挖掘方法详细介绍：

(一)顺承关系

步骤4.1，挖掘媒体内容之间的顺承关系：

主要思路为：根据媒体内容库中的各媒体内容的主题词度量媒体内容之间的相似度，将相似度大于设定阈值的媒体内容划分为同一媒体内容集合。将媒体内容集合中的媒体内容按照发布时间映射到时间轴上，并在时间轴上利用层次聚类算法，找到媒体内容发展的主要脉络及其代表媒体内容，这些媒体内容之间的关系即媒体内容之间的顺承关系。

其中：

代表媒体内容C_v的主题词集合；

代表媒体内容C_u和媒体内容C_v的共有主题词数量；

步骤4.1.2，预设置相似度阈值θ；

步骤4.1.3，将相似媒体内容集合中的各个媒体内容，按发布时间映射到时间轴上，参考图3，并在时间轴上，利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类，得到按时间排列的m个聚类中心，各个聚类中心对应的媒体内容依次表示为：C_u1，C_u2，...，C_um；C_u1，C_u2，...，C_um代表媒体内容的主要脉络，代表媒体内容C_u的顺承关系；

其中，聚类算法具体为：

其中：

为类L₁中的媒体内容数量；

为类L₂中的媒体内容数量；

代表类L₁中的任意媒体内容；

代表类L₂中的任意媒体内容；

代表

和

在时间轴上的距离；

(二)相关关系

基于步骤3得到的媒体内容事件关联图G_ent，计算事件之间的相关度，得到媒体内容之间的相关关系。

步骤4.2，挖掘媒体内容之间的相关关系：

其中：

对于任意事件ent_i，通过以下公式，得到其语义特征向量H_i：

其中：

通过对事件元素向量

加和平均，得到事件ent_i的语义特征向量H_i；

具体训练方法为：

步骤S1，构建训练样本库；

各个训练事件样本构成训练样本内容事件关联图G′；

步骤S2，将训练事件样本ent_I的邻域结构特征信息A_I和语义特征向量H_I输入到所述图表示学习模型，输出训练事件样本ent_I的表示向量R_I，方法为：

步骤S2.1，令x＝1；

步骤S2.2，通过下式，得到训练事件样本ent_I的第x层表示向量

其中：

σ代表sigmod激活函数；

代表输出

时第x层图卷积网络的第1网络权重参数；

代表输出

时第x层图卷积网络的第2网络权重参数；

代表输出

时第x层图卷积网络的第3网络权重参数；

代表训练事件样本ent_I的第x-1层表示向量；

代表训练事件样本ent_I的0阶邻域表示向量；

为训练事件样本ent_I的x阶邻域表示向量，通过下式计算：

含义为：

代表集合

内的事件样本数量；

|A_I|代表训练事件样本ent_I的邻域结构特征信息A_I的模；

代表训练事件样本ent_I的x-1阶邻域表示向量；当x＝1时，

H_y代表训练事件样本ent_I的语义特征向量；

本发明中，在每一层的学习中都引入邻域结构特征信息A_I，防止在学习过程中，邻域结构特征信息A_I随着模型网络层数的增加而减少。

步骤S2.4，输出训练事件样本ent_I的第G层表示向量

称为训练事件样本ent_I的表示向量R_I，即：

步骤S3，构造图表示学习模型的损失函数为

其中：

σ代表sigmod激活函数；

代表输出R_I时采用的图卷积网络的第1网络权重参数的集合；

代表输出R_I时采用的图卷积网络的第2网络权重参数的集合；

代表输出R_I时采用的图卷积网络的第3网络权重参数的集合；

代表训练事件样本ent_I的表示向量R_I的转秩；

其中，正样本事件和负样本事件的理解如下：在训练样本内容事件关联图G′中，距离近的事件之间具有相似的向量表示。因此，与训练事件样本ent_I的边距离数较远的事件样本，为负样本事件；反之，与训练事件样本ent_I的边距离数较少的事件样本，为负样本事件。参考图4，边距离数的含义为：例如对于事件ent1，与事件ent₂、ent₃、ent₄的边距离数均为1。事件ent₁和ent₅的边距离数为2。

p代表服从负样本的概率分布P_n得到的负样本事件；

为所有负样本的期望；

R_p代表负样本事件p的表示向量；

代表采样得到的所有负样本事件的数量；

步骤S4，图卷积网络一共包括G*3个网络权重参数，

将任意一个网络权重参数表示为：

的梯度下降距离

判断是否每个网络权重参数

的梯度下降距离

的更新值

步骤S5，输出训练完成的图表示学习模型；

对于媒体内容库中被研究的媒体内容C_u，包含U个事件，表示为：ent_u1，ent_u2，…，ent_uU；

根据事件与媒体内容之间的关系，得到相关事件集合

所属的媒体内容集合；

(三)因果关系

媒体内容之间的关系还包括因果关系；

采用以下方法，挖掘媒体内容之间的因果关系：

具体训练方法为：

步骤5.1.1，构建训练样本：

利用语言中的因果引导词，从媒体内容库中的媒体内容中抽取出具有因果属性的所有事件，表示为：事件S_c；此处的事件S_c可以为因事件，也可以为果事件。

步骤5.2，对于媒体内容库中被研究的媒体内容C_u，包含U个事件ent_u1，ent_u2，…，ent_uU；

在媒体内容事件关联图G_ent中，抽取事件ent_c[0]的

阶邻域图结构

所述事件ent_c[0]的

阶邻域图结构

是指：与事件ent_c[0]的边距离数量小于等于

的事件形成的事件关联子图；

在

阶邻域图结构

计算事件ent_c[0]和事件ent_c[1]的加权最短距离dist₀₁；

下面介绍一个实施例：

首先，对媒体内容库中的媒体内容的因果关系进行挖掘，得到训练事件样本。为事件因果关系识别提供先验知识。

具体的，以语言中的因果引导词为基础编写因果事件抽取模板，如，……导致……，用于从媒体内容库中的媒体内容中抽取因事件和果事件。然后使用依存分析抽取因/果事件的核心动词，通过verbnet找到核心动词所属类别，作为该因/果事件的事件标签，得到一系列因事件和事件标签的对应关系，或果事件和事件标签的对应关系，作为训练样本。

然后，采用训练样本，对因果事件识别模板进行训练，得到训练完成的因果事件识别模板；

采用因果事件识别模板，基于媒体内容事件关联图G_ent，得到与被研究的媒体内容C_u具有因果关系的媒体内容。

(四)补充关系

媒体内容之间的关系还包括补充关系；

采用以下方法，挖掘媒体内容之间的补充关系：

步骤6.1，使用事件元素检索百科内容，建立事件元素与百科内容之间的补充关系；即背景知识。

还包括：

针对不同业务类型的媒体内容，如新闻报道，文艺节目等，基于媒体内容间的关联关系编写相应的内容组织模板，如新闻报道模板可设置为(补充关系，顺承关系，因果关系)，并设置每种关联关系对应的关联媒体内容的比例；

本发明提供一种基于事件关系发现的媒体内容关联挖掘方法，通过基于事件关系发现的媒体内容关联挖掘系统实现。基于事件关系发现的媒体内容关联挖掘系统，包括以下五个功能模块：数据预处理模块，媒体内容事件抽取模型，媒体内容事件关联图构建模块，基于事件的内容关系挖掘模块和关联内容组织模块。

数据预处理模块，主要负责对相关媒体内容扩充和媒体内容清洗；得到加入到媒体内容库的媒体内容；从而构建得到媒体内容库。

媒体内容事件抽取模型，主要使用深度学习模型识别媒体内容中的事件，并对事件对应的事件元素进行抽取识别。

媒体内容事件关联图构建模块，主要基于事件之间的共有事件元素，构建一个无向有权的事件关联图；

基于事件的内容关系挖掘模块，主要负责挖掘媒体内容之间的4类关联关系，然后通过事件和媒体内容之间的关系，得到媒体内容之间的关联关系；该模块通过文本重要度排序和时间聚类挖掘事件之间的顺承关系；该模块通过因果模式抽取和加权最短路径算法挖掘事件之间的因果关系；该模块基于媒体内容事件关联图进行关系挖掘，使用图计算模型挖掘事件之间的深层相关关系；该模块使用实体链接模型建立事件元素和百科内容之间的关系，挖掘媒体内容之间的补充关系。

关联内容组织模块，主要负责对媒体内容对应的关联内容进行合理有效的组织，关联内容组织模块根据媒体内容事件之间的关联关系类型，组织关联媒体内容。

本发明提供一种基于事件关系发现的媒体内容关联挖掘方法，具有以下优点：

1、本发明抽取媒体内容中包含的事件及事件元素，并根据事件元素共现情况，构建事件关联图，充分挖掘媒体内容之间的浅层和深层的关联关系，创新性地利用媒体内容和事件关系建立媒体内容之间的关联，并明确媒体内容之间的关系类型。

2、本发明创新地定义了媒体内容之间的4种关系类型，包括顺承关系，相关关系，因果关系，补充关系，并针对各关系类型设计挖掘方法进行关系挖掘。实现全方面挖掘关联内容。其中顺承关系可以为用户展示目标媒体内容随时间发展的脉络，相关关系可以为用户提供以目标媒体内容为中心的扩展内容，因果关系可以为用户展示目标媒体内容发生的前因后果，补充关系为用户提供阅读媒体内容所需的背景信息。

3、本发明利用主题相似计算和层次聚类算法构建了媒体内容顺承关系挖掘方法。

4、本发明针对媒体内容相关关系挖掘设计了图表示学习模型，对事件关联图中的事件的语义和结构信息进行学习，可以在捕捉事件语义信息的同时，捕捉到更多结构信息，利用事件相似性挖掘内容相关关系。

5、本发明基于事件关联图设计因果关系发现方法，发现媒体内容之间的因果关系。

6、本发明通过计算事件元素的重要程度挖掘媒体内容的补充关系。

7、本发明创新性地根据媒体内容之间的关联类型，设计模板组织内容，对目标媒体内容的关联内容进行组织，为用户提供更全面、更有条理的，解释性强的关联内容清单。让用户从不同角度了解当前观看内容，提升用户体验，为平台留存更多用户资源。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。