CN114357022A - 一种基于事件关系发现的媒体内容关联挖掘方法 - Google Patents

一种基于事件关系发现的媒体内容关联挖掘方法 Download PDF

Info

Publication number
CN114357022A
CN114357022A CN202111590575.XA CN202111590575A CN114357022A CN 114357022 A CN114357022 A CN 114357022A CN 202111590575 A CN202111590575 A CN 202111590575A CN 114357022 A CN114357022 A CN 114357022A
Authority
CN
China
Prior art keywords
event
ent
media content
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111590575.XA
Other languages
English (en)
Other versions
CN114357022B (zh
Inventor
郑晨烨
孙剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Television Information Technology Beijing Co ltd
Original Assignee
China Television Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Television Information Technology Beijing Co ltd filed Critical China Television Information Technology Beijing Co ltd
Priority to CN202111590575.XA priority Critical patent/CN114357022B/zh
Publication of CN114357022A publication Critical patent/CN114357022A/zh
Application granted granted Critical
Publication of CN114357022B publication Critical patent/CN114357022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,包括:构建媒体内容库;构建并训练媒体内容事件抽取模型,对媒体内容库中的各条媒体内容包含的事件进行识别和抽取;对各条事件包含的事件元素进行识别和抽取;基于抽取到的事件和事件元素,构造媒体内容事件关联图;使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系,包括:顺承关系、相关关系、因果关系和补充关系。本发明抽取媒体内容中的事件和事件元素,挖掘媒体内容之间多种类型的关联关系,并依据媒体内容之间的关系类型合理有效的组织关联内容,从不同角度对目标媒体内容进行描述和信息扩充,为用户展示脉络清晰、可解释性强的关联内容清单,提升用户阅读体验。

Description

一种基于事件关系发现的媒体内容关联挖掘方法
技术领域
本发明属于信息检索技术领域,具体涉及一种基于事件关系发现的媒体内容关联挖掘方法。
背景技术
现有媒体内容关联挖掘方法一般分为两类:1、通过自然语言处理、图像识别等方法学习得到媒体内容对应的语义特征,通过计算媒体内容的语义相似性获得媒体内容的关联内容。2、基于媒体内容标签挖掘媒体内容之间的关联关系。
上述方法存在的问题为:一方面,采用语义信息相似度挖掘关联关系,只能挖掘到语义相似的关联内容,忽略了语义不相似,但逻辑上具有联系的关联内容。另一方面,使用媒体内容标签建立媒体内容之间的关联,媒体内容标签体系的建立需要耗费大量人力资源或出现标签繁杂,标签没有针对性的问题,进而挖掘到的关联内容具有局限性,无法挖掘到媒体内容之间更深层次的关系。最后,上述两类挖掘方法得到的关联内容之间的关系是单一的,无向的,不加区分的,导致内容间的关联关系可解释性差,无法对目标内容的关联内容进行脉络清晰,可解释性强的组织。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,包括以下步骤:
步骤1,构建媒体内容库;所述媒体内容库存储多条媒体内容;
使用主题抽取模型,对各条所述媒体内容进行主题抽取,得到每条媒体内容的主题标签及由多个主题词构成的主题词集合,其中,对于媒体内容Cu,其主题词集合表示为
Figure BDA0003428962140000021
Nw为媒体内容Cu的主题词数量;
步骤2,构建并训练媒体内容事件抽取模型,采用所述媒体内容事件抽取模型,对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取,共抽取到N个事件,形成事件集合V={ent1,ent2,...,entN};
对各条所述事件包含的事件元素进行识别和抽取,得到每个所述事件包含的事件元素;
步骤3,基于抽取到的事件和事件元素,构造媒体内容事件关联图;
所述媒体内容事件关联图为无向有权图,表示为:Gent=(V,E);其中,V代表事件集合,事件集合V中的每个事件,作为媒体内容事件关联图的一个节点;E∈V×V,代表无向有权图的边集合,具体的,对于事件enti和事件entj,其中,i=1,2,...,N,j=1,2,...,N,i≠j,如果事件enti和事件entj之间具有共有的事件元素,则事件enti和事件entj之间相连接具有边eij,并且,边eij的权重
Figure BDA0003428962140000022
Figure BDA0003428962140000023
其中,
Figure BDA0003428962140000025
代表事件enti包含的事件元素集合;
Figure BDA0003428962140000026
代表事件entj包含的事件元素集合;
Figure BDA0003428962140000024
代表事件enti和事件entj的共有的事件元素的数量;如果事件enti和事件entj之间不具有共有的事件元素,则事件enti和事件entj之间不相互连接,即:不具有边;
步骤4,使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系;媒体内容之间的关系包括:顺承关系和相关关系;
步骤4.1,挖掘媒体内容之间的顺承关系:
步骤4.1.1,以媒体内容Cu为被研究的媒体内容,根据媒体内容之间共有主题词数量,计算媒体内容Cu与媒体内容库中其他每条媒体内容的相似度;
其中,对于媒体内容库中其他每条媒体内容,表示为媒体内容Cv,采用下式,计算媒体内容Cu与媒体内容Cv的相似度simuv
Figure BDA0003428962140000031
其中:
Figure BDA0003428962140000032
代表媒体内容Cv的主题词集合;
Figure BDA0003428962140000033
代表媒体内容Cu和媒体内容Cv的共有主题词数量;
步骤4.1.2,预设置相似度阈值θ;
从媒体内容库中,选择出所有与媒体内容Cu的相似度大于相似度阈值θ的媒体内容Cv,形成相似媒体内容集合;
步骤4.1.3,将相似媒体内容集合中的各个媒体内容,按发布时间映射到时间轴上,并在时间轴上,利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类,得到按时间排列的m个聚类中心,各个聚类中心对应的媒体内容依次表示为:Cu1,Cu2,...,Cum;Cu1,Cu2,...,Cum代表媒体内容的主要脉络,代表媒体内容Cu的顺承关系;
其中,聚类算法具体为:
将时间轴上每个媒体内容作为一个聚类,然后,不断将距离最小的两个聚类合并,直到满足迭代中止条件;
其中:对于任意两个聚类,表示为:类L1与类L2,类L1与类L2之间的距离dist12计算公式为:
Figure BDA0003428962140000034
其中:
Figure BDA0003428962140000041
为类L1中的媒体内容数量;
Figure BDA0003428962140000042
为类L2中的媒体内容数量;
Figure BDA0003428962140000043
代表类L1中的任意媒体内容;
Figure BDA0003428962140000044
代表类L2中的任意媒体内容;
Figure BDA0003428962140000045
代表
Figure BDA0003428962140000046
Figure BDA0003428962140000047
在时间轴上的距离;
步骤4.2,挖掘媒体内容之间的相关关系:
步骤4.2.1,基于媒体内容事件关联图Gent,构造邻接矩阵AG∈RN×N;邻接矩阵AG为N行N列矩阵,表示如下:
Figure BDA0003428962140000048
其中:
邻接矩阵AG中第i行第j列元素Aij的值,为事件enti和事件entj的共有事件元素的数量,即wij;当i=j时,A11=A22=…=ANN=0;
Ai1 Ai2...AiN,称为事件enti的邻域结构特征信息Ai;因此,Ai=Ai1 Ai2…AiN
步骤4.2.2,构造语义特征向量集合H={H1,H2,...,HN};其中,H1代表事件ent1的语义特征向量,H2代表事件ent2的语义特征向量,依此类推,HN代表事件entN的语义特征向量;
对于任意事件enti,通过以下公式,得到其语义特征向量Hi:
Figure BDA0003428962140000049
其中:
事件enti具有K个事件元素e1,e2,...,eK,形成事件元素集合
Figure BDA00034289621400000410
Figure BDA0003428962140000055
对事件元素e1,e2,...,eK分别通过语义模型向量化,得到对应的事件元素向量
Figure BDA0003428962140000051
通过对事件元素向量
Figure BDA0003428962140000052
加和平均,得到事件enti的语义特征向量Hi;
步骤4.2.3,构建图表示学习模型;所述图表示学习模型包括G层图卷积网络,分别表示为:第1层图卷积网络,第2层图卷积网络,...,第G层图卷积网络;
采用训练事件样本,对图表示学习模型进行训练,得到训练完成的图表示学习模型;
具体训练方法为:
步骤S1,构建训练样本库;
所述训练样本库包括多个训练事件样本,每个训练事件样本具有邻域结构特征信息和语义特征向量;
各个训练事件样本构成训练样本内容事件关联图G′;
将当前的训练事件样本表示为entI,其邻域结构特征信息为AI,语义特征向量为HI
步骤S2,将训练事件样本entI的邻域结构特征信息AI和语义特征向量HI输入到所述图表示学习模型,输出训练事件样本entI的表示向量RI,方法为:
步骤S2.1,令x=1;
步骤S2.2,通过下式,得到训练事件样本entI的第x层表示向量
Figure BDA0003428962140000053
Figure BDA0003428962140000054
其中:
σ代表sigmod激活函数;
Figure BDA0003428962140000061
代表输出
Figure BDA0003428962140000062
时第x层图卷积网络的第1网络权重参数;
Figure BDA0003428962140000063
代表输出
Figure BDA0003428962140000064
时第x层图卷积网络的第2网络权重参数;
Figure BDA0003428962140000065
代表输出
Figure BDA0003428962140000066
时第x层图卷积网络的第3网络权重参数;
Figure BDA0003428962140000067
代表训练事件样本entI的第x-1层表示向量;
Figure BDA0003428962140000068
Figure BDA0003428962140000069
代表训练事件样本entI的0阶邻域表示向量;
Figure BDA00034289621400000610
为训练事件样本entI的x阶邻域表示向量,通过下式计算:
Figure BDA00034289621400000611
含义为:
在训练样本内容事件关联图G′中,获得训练事件样本entI的所有x阶邻域事件,由此形成训练事件样本entI的x阶邻域事件集合
Figure BDA00034289621400000612
其中,W代表训练事件样本entI的x阶邻域事件的事件数量;训练事件样本entI的x阶邻域事件是指:在训练事件样本的媒体内容事件关联图中,训练事件样本entI连续经过x条边后到达的事件;
Figure BDA00034289621400000617
表集合
Figure BDA00034289621400000618
内的事件样本数量;
|AI|代表训练事件样本entI的邻域结构特征信息AI的模;
AIy代表训练事件样本entI和其x阶邻域事件entI[y]的共有事件元素的数量;
Figure BDA00034289621400000613
代表训练事件样本entI的x-1阶邻域表示向量;当x=1时,
Figure BDA00034289621400000614
Hy代表训练事件样本entI的语义特征向量;
步骤S2.3,判断x是否等于G;如果等于,则执行步骤S2.4;如果不等于,则令x=x+1,返回执行步骤S2.2;
步骤S2.4,输出训练事件样本entI的第G层表示向量
Figure BDA00034289621400000615
称为训练事件样本entI的表示向量RI,即:
Figure BDA00034289621400000616
步骤S3,构造图表示学习模型的损失函数为
Figure BDA0003428962140000071
Figure BDA0003428962140000072
其中:
σ代表sigmod激活函数;
Figure BDA0003428962140000073
代表输出RI时采用的图卷积网络的第1网络权重参数的集合;
Figure BDA0003428962140000074
代表输出RI时采用的图卷积网络的第2网络权重参数的集合;
Figure BDA0003428962140000075
代表输出RI时采用的图卷积网络的第3网络权重参数的集合;
Figure BDA0003428962140000076
代表训练事件样本entI的表示向量RI的转秩;
Rq代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到的正样本事件entq的表示向量;其中,正样本事件是指:预设置边数量阈值ψ,与训练事件样本entI的边距离数小于边数量阈值ψ的事件;反之为负样本事件;
Pn代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到负样本的概率分布;
p代表服从负样本的概率分布Pn得到的负样本事件;
Figure BDA0003428962140000077
为所有负样本的期望;
Rp代表负样本事件p的表示向量;
Figure BDA00034289621400000713
代表采样得到的所有负样本事件的数量;
步骤S4,图卷积网络一共包括G*3个网络权重参数,
Figure BDA0003428962140000078
Figure BDA0003428962140000079
将任意一个网络权重参数表示为:
Figure BDA00034289621400000710
其中,c1=1,2,...,G;c2=1,2,3,采用下式,计算网络权重参数
Figure BDA00034289621400000711
的梯度下降距离
Figure BDA00034289621400000712
Figure BDA0003428962140000081
判断是否每个网络权重参数
Figure BDA0003428962140000082
的梯度下降距离
Figure BDA0003428962140000083
均小于设定阈值ω;如果是,则对图表示学习模型的训练结束,执行步骤S5;否则,采用下式,得到每个网络权重参数
Figure BDA0003428962140000084
的更新值
Figure BDA0003428962140000085
Figure BDA0003428962140000086
采用网络权重参数的更新值,更新图表示学习模型,然后,读取训练样本库中新的训练事件样本,返回步骤S2,继续对图表示学习模型进行训练;
步骤S5,输出训练完成的图表示学习模型;
步骤4.2.4,对于步骤1构建的媒体内容库,将其对应的邻接矩阵AG和语义特征向量集合H输入到图表示学习模型,图表示学习模型输出每个事件对应的表示向量,由于媒体内容库共包括N个事件,由此得到N个表示向量R1,R2,...,RN,形成表示向量集合;
对于媒体内容库中被研究的媒体内容Cu,包含U个事件,表示为:entu1,entu2,...,entuU
对于每个事件entuV,V=1,2,...,U,通过图表示学习模型得到事件entuV的表示向量RuV,计算事件entuV的表示向量RuV与表示向量集合中其他每个表示向量的距离,由此得到事件entuV与事件集合V={ent1,ent2,...,entN}中其他每个事件的相似度,按照相似度对事件集合V中其他N-1个事件进行排序,选取相似度最高的Nsim个事件,构成事件entuV的相关事件集合
Figure BDA0003428962140000087
根据事件与媒体内容之间的关系,得到相关事件集合
Figure BDA0003428962140000088
所属的媒体内容集合;
媒体内容集合包含的各个媒体内容,为与媒体内容Cu具有相关关系的相关媒体内容。
优选的,媒体内容之间的关系还包括因果关系;
采用以下方法,挖掘媒体内容之间的因果关系:
步骤5.1,构建训练样本库;采用训练样本库中的各个训练事件样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
具体训练方法为:
步骤5.1.1,构建训练样本:
利用语言中的因果引导词,从媒体内容库中的媒体内容中抽取出具有因果属性的所有事件,表示为:事件Sc
对事件Sc的核心动词进行语义分析,通过核心动词所属的类别,作为事件Sc的事件标签entc;其中,事件标签entc包括因事件标签或果事件标签,用于标识事件Sc的因果属性,即:标识事件Sc为因事件或果事件;
步骤5.1.2,将{Sc,entc}作为训练样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
步骤5.2,对于媒体内容库中被研究的媒体内容Cu,包含U个事件entu1,entu2,...,entuU
采用训练完成的因果事件识别模板对U个事件进行识别,识别出所有的因事件和所有的果事件;
步骤5.3,对于步骤5.2识别出的每个因事件,表示为Sc[0],在媒体内容事件关联图Gent中检索到对应的事件,表示为:entc[0];其中,事件entc[0]为因事件Sc[0]的事件实例;
在媒体内容事件关联图Gent中,抽取事件entc[0]
Figure BDA0003428962140000093
阶邻域图结构
Figure BDA0003428962140000091
所述事件entc[0]
Figure BDA0003428962140000094
阶邻域图结构
Figure BDA0003428962140000092
是指:与事件entc[0]的边距离数量小于等于
Figure BDA0003428962140000102
的事件形成的事件关联子图;
Figure BDA0003428962140000103
阶邻域图结构
Figure BDA0003428962140000101
中,基于因果事件识别模板,判断是否存在果事件,如果不存在,则代表媒体内容库中不存在事件entc[0]的果事件;如果存在,将识别到的果事件表示为事件entc[1]
计算事件entc[0]和事件entc[1]的加权最短距离dist01
设定最短路径阈值为θ;如果dist01<θ,则确定事件entc[0]和事件entc[1]具有因果关系,因此,事件entc[1]所属的媒体内容,与媒体内容Cu具有因果关系;否则,代表媒体内容库中不存在事件entc[0]的果事件;
步骤5.4,对于步骤5.2识别出的每个果事件,基于媒体内容事件关联图Gent,检索是否存在因事件;
步骤5.5,由此得到媒体内容库中,与媒体内容Cu具有因果关系的媒体内容。
优选的,媒体内容之间的关系还包括补充关系;
采用以下方法,挖掘媒体内容之间的补充关系:
步骤6.1,使用事件元素检索百科内容,建立事件元素与百科内容之间的补充关系;
步骤6.2,对于媒体内容库中被研究的媒体内容Cu,包含Y1个事件元素;计算每个事件元素在媒体内容库中的出现次数,作为每个事件元素的重要程度权重;
步骤6.3,将Y1个事件元素按重要程度权重从大到小排序,选择排序在前的Y2个事件元素,作为用于检索的事件元素;
步骤6.4,对于选择的Y2个事件元素中的每个事件元素,作为检索词检索步骤6.1建立的事件元素与百科内容之间的补充关系,得到每个事件元素关联的百科内容;
由此得到Y2个事件元素关联的所有百科内容,为与媒体内容Cu具有补充关系的百科内容。
优选的,还包括:
针对不同业务类型的媒体内容,基于媒体内容间的关联关系编写相应的内容组织模板,并设置每种关联关系对应的关联媒体内容的比例;
向每种关联关系对应的内容组织模板中,加入检索到的关联媒体内容,由此得到与目标媒体内容相关联的关联媒体内容列表。
本发明提供的一种基于事件关系发现的媒体内容关联挖掘方法具有以下优点:
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,以及基于媒体内容间关联关系的内容组织方法,该方法能够挖掘媒体内容之间的浅层和深层的关联关系,同时明确关联关系的类型,并按照关联关系类型对媒体内容进行合理有效的组织,为用户展示脉络清晰、可解释性强的关联内容清单。
附图说明
图1为本发明提供的一种基于事件关系发现的媒体内容关联挖掘方法的整体架构示意图;
图2为本发明提供的媒体内容事件关联图的原理图;
图3为本发明提供的实现媒体内容-时间轴映射示意图;
图4为本发明提供的边距离数的含义图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,本发明抽取媒体内容中的事件和事件元素,挖掘媒体内容之间多种类型的关联关系,并依据媒体内容之间的关系类型合理有效的组织关联内容,从不同角度对目标媒体内容进行描述和信息扩充,为用户展示脉络清晰、可解释性强的关联内容清单,提升用户阅读体验。
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,参考图1,包括以下步骤:
步骤1,构建媒体内容库;所述媒体内容库存储多条媒体内容;
使用主题抽取模型,对各条所述媒体内容进行主题抽取,得到每条媒体内容的主题标签及由多个主题词构成的主题词集合,其中,对于媒体内容Cu,其主题词集合表示为
Figure BDA0003428962140000121
NW为媒体内容Cu的主题词数量;
在构建媒体内容库时,通过数据预处理模块对相关媒体内容扩充和清洗,得到加入到媒体内容库的媒体内容,扩展媒体内容库。具体可采用以下方式:
步骤1.1数据扩展:
使用LDA主题抽取模型,对媒体内容库中的媒体内容进行主题抽取,得到每条媒体内容的主题标签及其对应的主题词集合。使用媒体内容对应的主题词集合作为检索词,在互联网上采集相关的媒体内容。
步骤1.2媒体内容处理:
将采集到的媒体内容转化为文本类型,媒体内容库存储三类数据类型:视频,音频和图文,针对视频类媒体内容,使用文字识别技术识别视频中的涉及文本;针对音频,使用音频识别技术得到音频涉及的文本,针对图文类媒体内容,抽取出正文内容。
步骤1.3数据清洗。
去除得到的文本中的标点、数字、乱码和停止词,得到处理后的媒体内容。
步骤2,构建并训练媒体内容事件抽取模型,采用所述媒体内容事件抽取模型,对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取,共抽取到N个事件,形成事件集合V={ent1,ent2,...,entN};
对各条所述事件包含的事件元素进行识别和抽取,得到每个所述事件包含的事件元素;
在具体实现上,媒体内容事件抽取模型,主要使用深度学习模型识别媒体内容中的事件,并对事件对应的事件元素进行抽取识别。
具体的,构建并训练媒体内容事件抽取模型,媒体内容事件抽取模型使用BERT预训练模型对文本进行向量化,然后使用MLP+LR构建事件多分类网络,使用bi-lstm和CRF构建事件元素标注网络。将上述两个任务网络进行联合训练,得到所有媒体内容包含的事件集合V={ent1,ent2,...,entN}和每个事件对应的事件元素集合。针对每个事件元素,基于其在媒体内容库中的出现频数计算其重要程度,
Figure BDA0003428962140000131
其中
Figure BDA0003428962140000132
为事件元素aj在Ci中的出现频数,nw为Ci中所有名词的数量。
步骤3,基于抽取到的事件和事件元素,构造媒体内容事件关联图;
所述媒体内容事件关联图为无向有权图,表示为:Gent=(V,E);其中,V代表事件集合,事件集合V中的每个事件,作为媒体内容事件关联图的一个节点;E∈V×V,代表无向有权图的边集合,具体的,对于事件enti和事件entj,其中,i=1,2,...,N,j=1,2,...,N,i≠j,如果事件enti和事件entj之间具有共有的事件元素,则事件enti和事件entj之间相连接具有边eij,并且,边eij的权重
Figure BDA0003428962140000133
Figure BDA0003428962140000134
其中,
Figure BDA0003428962140000135
代表事件enti包含的事件元素集合;
Figure BDA0003428962140000136
代表事件entj包含的事件元素集合;
Figure BDA0003428962140000137
代表事件enti和事件entj的共有的事件元素的数量;如果事件enti和事件entj之间不具有共有的事件元素,则事件enti和事件entj之间不相互连接,即:不具有边;
该过程如图2所示。具体的,媒体内容库一共抽取得到N个事件,形成事件集合V;每个事件包括多个事件元素。利用事件元素和其在事件中的共现情况,构成一个无向有权图Gent=(V,E),即媒体内容事件关联图。
其中:V={ent1,ent2,...,entN}为节点集合,其中每个节点代表一个事件,N为媒体内容库中所有事件的数量。E∈V×V为无向有权图Gent的边集合,eij表示事件enti和事件entj之间的边,其权重为
Figure BDA0003428962140000141
即enti和entj共有事件元素的个数,若没有共有事件元素,两个事件节点之间没有边。
步骤4,使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系;
媒体内容之间的关系包括:顺承关系、相关关系、因果关系和补充关系;下面对这四种关系的挖掘方法详细介绍:
(一)顺承关系
步骤4.1,挖掘媒体内容之间的顺承关系:
主要思路为:根据媒体内容库中的各媒体内容的主题词度量媒体内容之间的相似度,将相似度大于设定阈值的媒体内容划分为同一媒体内容集合。将媒体内容集合中的媒体内容按照发布时间映射到时间轴上,并在时间轴上利用层次聚类算法,找到媒体内容发展的主要脉络及其代表媒体内容,这些媒体内容之间的关系即媒体内容之间的顺承关系。
步骤4.1.1,以媒体内容Cu为被研究的媒体内容,根据媒体内容之间共有主题词数量,计算媒体内容Cu与媒体内容库中其他每条媒体内容的相似度;
其中,对于媒体内容库中其他每条媒体内容,表示为媒体内容Cv,采用下式,计算媒体内容Cu与媒体内容Cv的相似度simuv
Figure BDA0003428962140000151
其中:
Figure BDA0003428962140000152
代表媒体内容Cv的主题词集合;
Figure BDA0003428962140000153
代表媒体内容Cu和媒体内容Cv的共有主题词数量;
步骤4.1.2,预设置相似度阈值θ;
从媒体内容库中,选择出所有与媒体内容Cu的相似度大于相似度阈值θ的媒体内容Cv,形成相似媒体内容集合;
步骤4.1.3,将相似媒体内容集合中的各个媒体内容,按发布时间映射到时间轴上,参考图3,并在时间轴上,利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类,得到按时间排列的m个聚类中心,各个聚类中心对应的媒体内容依次表示为:Cu1,Cu2,...,Cum;Cu1,Cu2,...,Cum代表媒体内容的主要脉络,代表媒体内容Cu的顺承关系;
其中,聚类算法具体为:
将时间轴上每个媒体内容作为一个聚类,然后,不断将距离最小的两个聚类合并,直到满足迭代中止条件;
其中:对于任意两个聚类,表示为:类L1与类L2,类L1与类L2之间的距离dist12计算公式为:
Figure BDA0003428962140000154
其中:
Figure BDA0003428962140000155
为类L1中的媒体内容数量;
Figure BDA0003428962140000156
为类L2中的媒体内容数量;
Figure BDA0003428962140000157
代表类L1中的任意媒体内容;
Figure BDA0003428962140000161
代表类L2中的任意媒体内容;
Figure BDA0003428962140000162
代表
Figure BDA0003428962140000163
Figure BDA0003428962140000164
在时间轴上的距离;
(二)相关关系
基于步骤3得到的媒体内容事件关联图Gent,计算事件之间的相关度,得到媒体内容之间的相关关系。
步骤4.2,挖掘媒体内容之间的相关关系:
步骤4.2.1,基于媒体内容事件关联图Gent,构造邻接矩阵AG∈RN×N;邻接矩阵AG为N行N列矩阵,表示如下:
Figure BDA0003428962140000165
其中:
邻接矩阵AG中第i行第j列元素Aij的值,为事件enti和事件entj的共有事件元素的数量,即wij;当i=j时,A11=A22=…=ANN=0;
Ai1 Ai2...AiN,称为事件enti的邻域结构特征信息Ai;因此,Ai=Ai1 Ai2…AiN
步骤4.2.2,构造语义特征向量集合H={H1,H2,...,HN};其中,H1代表事件ent1的语义特征向量,H2代表事件ent2的语义特征向量,依此类推,HN代表事件entN的语义特征向量;
对于任意事件enti,通过以下公式,得到其语义特征向量Hi
Figure BDA0003428962140000166
其中:
事件enti具有K个事件元素e1,e2,...,eK,形成事件元素集合
Figure BDA0003428962140000167
Figure BDA0003428962140000171
对事件元素e1,e2,...,eK分别通过语义模型向量化,得到对应的事件元素向量
Figure BDA0003428962140000172
通过对事件元素向量
Figure BDA0003428962140000173
加和平均,得到事件enti的语义特征向量Hi
步骤4.2.3,构建图表示学习模型;所述图表示学习模型包括G层图卷积网络,分别表示为:第1层图卷积网络,第2层图卷积网络,...,第G层图卷积网络;
采用训练事件样本,对图表示学习模型进行训练,得到训练完成的图表示学习模型;
具体训练方法为:
步骤S1,构建训练样本库;
所述训练样本库包括多个训练事件样本,每个训练事件样本具有邻域结构特征信息和语义特征向量;
各个训练事件样本构成训练样本内容事件关联图G′;
将当前的训练事件样本表示为entI,其邻域结构特征信息为AI,语义特征向量为HI
步骤S2,将训练事件样本entI的邻域结构特征信息AI和语义特征向量HI输入到所述图表示学习模型,输出训练事件样本entI的表示向量RI,方法为:
步骤S2.1,令x=1;
步骤S2.2,通过下式,得到训练事件样本entI的第x层表示向量
Figure BDA0003428962140000174
Figure BDA0003428962140000175
其中:
σ代表sigmod激活函数;
Figure BDA0003428962140000181
代表输出
Figure BDA0003428962140000182
时第x层图卷积网络的第1网络权重参数;
Figure BDA0003428962140000183
代表输出
Figure BDA0003428962140000184
时第x层图卷积网络的第2网络权重参数;
Figure BDA0003428962140000185
代表输出
Figure BDA0003428962140000186
时第x层图卷积网络的第3网络权重参数;
Figure BDA0003428962140000187
代表训练事件样本entI的第x-1层表示向量;
Figure BDA0003428962140000188
Figure BDA0003428962140000189
代表训练事件样本entI的0阶邻域表示向量;
Figure BDA00034289621400001810
为训练事件样本entI的x阶邻域表示向量,通过下式计算:
Figure BDA00034289621400001811
含义为:
在训练样本内容事件关联图G′中,获得训练事件样本entI的所有x阶邻域事件,由此形成训练事件样本entI的x阶邻域事件集合
Figure BDA00034289621400001812
其中,W代表训练事件样本entI的x阶邻域事件的事件数量;训练事件样本entI的x阶邻域事件是指:在训练事件样本的媒体内容事件关联图中,训练事件样本entI连续经过x条边后到达的事件;
Figure BDA00034289621400001813
代表集合
Figure BDA00034289621400001814
内的事件样本数量;
|AI|代表训练事件样本entI的邻域结构特征信息AI的模;
AIy代表训练事件样本entI和其x阶邻域事件entI[y]的共有事件元素的数量;
Figure BDA00034289621400001815
代表训练事件样本entI的x-1阶邻域表示向量;当x=1时,
Figure BDA00034289621400001816
Hy代表训练事件样本entI的语义特征向量;
本发明中,在每一层的学习中都引入邻域结构特征信息AI,防止在学习过程中,邻域结构特征信息AI随着模型网络层数的增加而减少。
步骤S2.3,判断x是否等于G;如果等于,则执行步骤S2.4;如果不等于,则令x=x+1,返回执行步骤S2.2;
步骤S2.4,输出训练事件样本entI的第G层表示向量
Figure BDA0003428962140000191
称为训练事件样本entI的表示向量RI,即:
Figure BDA0003428962140000192
步骤S3,构造图表示学习模型的损失函数为
Figure BDA0003428962140000193
Figure BDA0003428962140000194
其中:
σ代表sigmod激活函数;
Figure BDA0003428962140000195
代表输出RI时采用的图卷积网络的第1网络权重参数的集合;
Figure BDA0003428962140000196
代表输出RI时采用的图卷积网络的第2网络权重参数的集合;
Figure BDA0003428962140000197
代表输出RI时采用的图卷积网络的第3网络权重参数的集合;
Figure BDA0003428962140000198
代表训练事件样本entI的表示向量RI的转秩;
Rq代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到的正样本事件entq的表示向量;其中,正样本事件是指:预设置边数量阈值ψ,与训练事件样本entI的边距离数小于边数量阈值ψ的事件;反之为负样本事件;
其中,正样本事件和负样本事件的理解如下:在训练样本内容事件关联图G′中,距离近的事件之间具有相似的向量表示。因此,与训练事件样本entI的边距离数较远的事件样本,为负样本事件;反之,与训练事件样本entI的边距离数较少的事件样本,为负样本事件。参考图4,边距离数的含义为:例如对于事件ent1,与事件ent2、ent3、ent4的边距离数均为1。事件ent1和ent5的边距离数为2。
Pn代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到负样本的概率分布;
p代表服从负样本的概率分布Pn得到的负样本事件;
Figure BDA0003428962140000201
为所有负样本的期望;
Rp代表负样本事件p的表示向量;
Figure BDA00034289621400002013
代表采样得到的所有负样本事件的数量;
步骤S4,图卷积网络一共包括G*3个网络权重参数,
Figure BDA0003428962140000202
Figure BDA0003428962140000203
将任意一个网络权重参数表示为:
Figure BDA0003428962140000204
其中,c1=1,2,...,G;c2=1,2,3,采用下式,计算网络权重参数
Figure BDA0003428962140000205
的梯度下降距离
Figure BDA0003428962140000206
Figure BDA0003428962140000207
判断是否每个网络权重参数
Figure BDA0003428962140000208
的梯度下降距离
Figure BDA0003428962140000209
均小于设定阈值ω;如果是,则对图表示学习模型的训练结束,执行步骤S5;否则,采用下式,得到每个网络权重参数
Figure BDA00034289621400002010
的更新值
Figure BDA00034289621400002011
Figure BDA00034289621400002012
采用网络权重参数的更新值,更新图表示学习模型,然后,读取训练样本库中新的训练事件样本,返回步骤S2,继续对图表示学习模型进行训练;
步骤S5,输出训练完成的图表示学习模型;
步骤4.2.4,对于步骤1构建的媒体内容库,将其对应的邻接矩阵AG和语义特征向量集合H输入到图表示学习模型,图表示学习模型输出每个事件对应的表示向量,由于媒体内容库共包括N个事件,由此得到N个表示向量R1,R2,...,RN,形成表示向量集合;
对于媒体内容库中被研究的媒体内容Cu,包含U个事件,表示为:entu1,entu2,…,entuU
对于每个事件entuV,V=1,2,...,U,通过图表示学习模型得到事件entuV的表示向量RuV,计算事件entuV的表示向量RuV与表示向量集合中其他每个表示向量的距离,由此得到事件entuV与事件集合V={ent1,ent2,...,entN}中其他每个事件的相似度,按照相似度对事件集合V中其他N-1个事件进行排序,选取相似度最高的Nsim个事件,构成事件entuV的相关事件集合
Figure BDA0003428962140000211
根据事件与媒体内容之间的关系,得到相关事件集合
Figure BDA0003428962140000212
所属的媒体内容集合;
媒体内容集合包含的各个媒体内容,为与媒体内容Cu具有相关关系的相关媒体内容。
(三)因果关系
媒体内容之间的关系还包括因果关系;
采用以下方法,挖掘媒体内容之间的因果关系:
步骤5.1,构建训练样本库;采用训练样本库中的各个训练事件样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
具体训练方法为:
步骤5.1.1,构建训练样本:
利用语言中的因果引导词,从媒体内容库中的媒体内容中抽取出具有因果属性的所有事件,表示为:事件Sc;此处的事件Sc可以为因事件,也可以为果事件。
对事件Sc的核心动词进行语义分析,通过核心动词所属的类别,作为事件Sc的事件标签entc;其中,事件标签entc包括因事件标签或果事件标签,用于标识事件Sc的因果属性,即:标识事件Sc为因事件或果事件;
步骤5.1.2,将{Sc,entc}作为训练样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
步骤5.2,对于媒体内容库中被研究的媒体内容Cu,包含U个事件entu1,entu2,…,entuU
采用训练完成的因果事件识别模板对U个事件进行识别,识别出所有的因事件和所有的果事件;
步骤5.3,对于步骤5.2识别出的每个因事件,表示为Sc[0],在媒体内容事件关联图Gent中检索到对应的事件,表示为:entc[0];其中,事件entc[0]为因事件Sc[0]的事件实例;
在媒体内容事件关联图Gent中,抽取事件entc[0]
Figure BDA0003428962140000224
阶邻域图结构
Figure BDA0003428962140000221
所述事件entc[0]
Figure BDA0003428962140000225
阶邻域图结构
Figure BDA0003428962140000222
是指:与事件entc[0]的边距离数量小于等于
Figure BDA0003428962140000226
的事件形成的事件关联子图;
Figure BDA0003428962140000227
阶邻域图结构
Figure BDA0003428962140000223
中,基于因果事件识别模板,判断是否存在果事件,如果不存在,则代表媒体内容库中不存在事件entc[0]的果事件;如果存在,将识别到的果事件表示为事件entc[1]
计算事件entc[0]和事件entc[1]的加权最短距离dist01
设定最短路径阈值为θ;如果dist01<θ,则确定事件entc[0]和事件entc[1]具有因果关系,因此,事件entc[1]所属的媒体内容,与媒体内容Cu具有因果关系;否则,代表媒体内容库中不存在事件entc[0]的果事件;
步骤5.4,对于步骤5.2识别出的每个果事件,基于媒体内容事件关联图Gent,检索是否存在因事件;
步骤5.5,由此得到媒体内容库中,与媒体内容Cu具有因果关系的媒体内容。
下面介绍一个实施例:
首先,对媒体内容库中的媒体内容的因果关系进行挖掘,得到训练事件样本。为事件因果关系识别提供先验知识。
具体的,以语言中的因果引导词为基础编写因果事件抽取模板,如,……导致……,用于从媒体内容库中的媒体内容中抽取因事件和果事件。然后使用依存分析抽取因/果事件的核心动词,通过verbnet找到核心动词所属类别,作为该因/果事件的事件标签,得到一系列因事件和事件标签的对应关系,或果事件和事件标签的对应关系,作为训练样本。
然后,采用训练样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
采用因果事件识别模板,基于媒体内容事件关联图Gent,得到与被研究的媒体内容Cu具有因果关系的媒体内容。
(四)补充关系
媒体内容之间的关系还包括补充关系;
采用以下方法,挖掘媒体内容之间的补充关系:
步骤6.1,使用事件元素检索百科内容,建立事件元素与百科内容之间的补充关系;即背景知识。
步骤6.2,对于媒体内容库中被研究的媒体内容Cu,包含Y1个事件元素;计算每个事件元素在媒体内容库中的出现次数,作为每个事件元素的重要程度权重;
步骤6.3,将Y1个事件元素按重要程度权重从大到小排序,选择排序在前的Y2个事件元素,作为用于检索的事件元素;
步骤6.4,对于选择的Y2个事件元素中的每个事件元素,作为检索词检索步骤6.1建立的事件元素与百科内容之间的补充关系,得到每个事件元素关联的百科内容;
由此得到Y2个事件元素关联的所有百科内容,为与媒体内容Cu具有补充关系的百科内容。
还包括:
针对不同业务类型的媒体内容,如新闻报道,文艺节目等,基于媒体内容间的关联关系编写相应的内容组织模板,如新闻报道模板可设置为(补充关系,顺承关系,因果关系),并设置每种关联关系对应的关联媒体内容的比例;
向每种关联关系对应的内容组织模板中,加入检索到的关联媒体内容,由此得到与目标媒体内容相关联的关联媒体内容列表。
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,通过基于事件关系发现的媒体内容关联挖掘系统实现。基于事件关系发现的媒体内容关联挖掘系统,包括以下五个功能模块:数据预处理模块,媒体内容事件抽取模型,媒体内容事件关联图构建模块,基于事件的内容关系挖掘模块和关联内容组织模块。
数据预处理模块,主要负责对相关媒体内容扩充和媒体内容清洗;得到加入到媒体内容库的媒体内容;从而构建得到媒体内容库。
媒体内容事件抽取模型,主要使用深度学习模型识别媒体内容中的事件,并对事件对应的事件元素进行抽取识别。
媒体内容事件关联图构建模块,主要基于事件之间的共有事件元素,构建一个无向有权的事件关联图;
基于事件的内容关系挖掘模块,主要负责挖掘媒体内容之间的4类关联关系,然后通过事件和媒体内容之间的关系,得到媒体内容之间的关联关系;该模块通过文本重要度排序和时间聚类挖掘事件之间的顺承关系;该模块通过因果模式抽取和加权最短路径算法挖掘事件之间的因果关系;该模块基于媒体内容事件关联图进行关系挖掘,使用图计算模型挖掘事件之间的深层相关关系;该模块使用实体链接模型建立事件元素和百科内容之间的关系,挖掘媒体内容之间的补充关系。
关联内容组织模块,主要负责对媒体内容对应的关联内容进行合理有效的组织,关联内容组织模块根据媒体内容事件之间的关联关系类型,组织关联媒体内容。
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,具有以下优点:
1、本发明抽取媒体内容中包含的事件及事件元素,并根据事件元素共现情况,构建事件关联图,充分挖掘媒体内容之间的浅层和深层的关联关系,创新性地利用媒体内容和事件关系建立媒体内容之间的关联,并明确媒体内容之间的关系类型。
2、本发明创新地定义了媒体内容之间的4种关系类型,包括顺承关系,相关关系,因果关系,补充关系,并针对各关系类型设计挖掘方法进行关系挖掘。实现全方面挖掘关联内容。其中顺承关系可以为用户展示目标媒体内容随时间发展的脉络,相关关系可以为用户提供以目标媒体内容为中心的扩展内容,因果关系可以为用户展示目标媒体内容发生的前因后果,补充关系为用户提供阅读媒体内容所需的背景信息。
3、本发明利用主题相似计算和层次聚类算法构建了媒体内容顺承关系挖掘方法。
4、本发明针对媒体内容相关关系挖掘设计了图表示学习模型,对事件关联图中的事件的语义和结构信息进行学习,可以在捕捉事件语义信息的同时,捕捉到更多结构信息,利用事件相似性挖掘内容相关关系。
5、本发明基于事件关联图设计因果关系发现方法,发现媒体内容之间的因果关系。
6、本发明通过计算事件元素的重要程度挖掘媒体内容的补充关系。
7、本发明创新性地根据媒体内容之间的关联类型,设计模板组织内容,对目标媒体内容的关联内容进行组织,为用户提供更全面、更有条理的,解释性强的关联内容清单。让用户从不同角度了解当前观看内容,提升用户体验,为平台留存更多用户资源。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (4)

1.一种基于事件关系发现的媒体内容关联挖掘方法,其特征在于,包括以下步骤:
步骤1,构建媒体内容库;所述媒体内容库存储多条媒体内容;
使用主题抽取模型,对各条所述媒体内容进行主题抽取,得到每条媒体内容的主题标签及由多个主题词构成的主题词集合,其中,对于媒体内容Cu,其主题词集合表示为
Figure FDA0003428962130000011
Nw为媒体内容Cu的主题词数量;
步骤2,构建并训练媒体内容事件抽取模型,采用所述媒体内容事件抽取模型,对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取,共抽取到N个事件,形成事件集合V={ent1,ent2,...,entN};
对各条所述事件包含的事件元素进行识别和抽取,得到每个所述事件包含的事件元素;
步骤3,基于抽取到的事件和事件元素,构造媒体内容事件关联图;
所述媒体内容事件关联图为无向有权图,表示为:Gent=(V,E);其中,V代表事件集合,事件集合V中的每个事件,作为媒体内容事件关联图的一个节点;E∈V×V,代表无向有权图的边集合,具体的,对于事件enti和事件entj,其中,i=1,2,...,N,j=1,2,...,N,i≠j,如果事件enti和事件entj之间具有共有的事件元素,则事件enti和事件entj之间相连接具有边eij,并且,边eij的权重
Figure FDA0003428962130000012
Figure FDA0003428962130000013
其中,
Figure FDA0003428962130000014
代表事件enti包含的事件元素集合;
Figure FDA0003428962130000015
代表事件entj包含的事件元素集合;
Figure FDA0003428962130000016
代表事件enti和事件entj的共有的事件元素的数量;如果事件enti和事件entj之间不具有共有的事件元素,则事件enti和事件entj之间不相互连接,即:不具有边;
步骤4,使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系;媒体内容之间的关系包括:顺承关系和相关关系;
步骤4.1,挖掘媒体内容之间的顺承关系:
步骤4.1.1,以媒体内容Cu为被研究的媒体内容,根据媒体内容之间共有主题词数量,计算媒体内容Cu与媒体内容库中其他每条媒体内容的相似度;
其中,对于媒体内容库中其他每条媒体内容,表示为媒体内容Cv,采用下式,计算媒体内容Cu与媒体内容Cv的相似度simuv
Figure FDA0003428962130000021
其中:
Figure FDA0003428962130000022
代表媒体内容Cv的主题词集合;
Figure FDA0003428962130000023
代表媒体内容Cu和媒体内容Cv的共有主题词数量;
步骤4.1.2,预设置相似度阈值θ;
从媒体内容库中,选择出所有与媒体内容Cu的相似度大于相似度阈值θ的媒体内容Cv,形成相似媒体内容集合;
步骤4.1.3,将相似媒体内容集合中的各个媒体内容,按发布时间映射到时间轴上,并在时间轴上,利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类,得到按时间排列的m个聚类中心,各个聚类中心对应的媒体内容依次表示为:Cu1,Cu2,...,Cum;Cu1,Cu2,...,Cum代表媒体内容的主要脉络,代表媒体内容Cu的顺承关系;
其中,聚类算法具体为:
将时间轴上每个媒体内容作为一个聚类,然后,不断将距离最小的两个聚类合并,直到满足迭代中止条件;
其中:对于任意两个聚类,表示为:类L1与类L2,类L1与类L2之间的距离dist12计算公式为:
Figure FDA0003428962130000031
其中:
Figure FDA0003428962130000032
为类L1中的媒体内容数量;
Figure FDA0003428962130000033
为类L2中的媒体内容数量;
Figure FDA0003428962130000034
代表类L1中的任意媒体内容;
Figure FDA0003428962130000035
代表类L2中的任意媒体内容;
Figure FDA0003428962130000036
代表
Figure FDA0003428962130000037
Figure FDA0003428962130000038
在时间轴上的距离;
步骤4.2,挖掘媒体内容之间的相关关系:
步骤4.2.1,基于媒体内容事件关联图Gent,构造邻接矩阵AG∈RN×N;邻接矩阵AG为N行N列矩阵,表示如下:
Figure FDA0003428962130000039
其中:
邻接矩阵AG中第i行第j列元素Aij的值,为事件enti和事件entj的共有事件元素的数量,即wij;当i=j时,A11=A22=…=ANN=0;
Ai1 Ai2…AiN,称为事件enti的邻域结构特征信息Ai;因此,Ai=Ai1 Ai2…AiN
步骤4.2.2,构造语义特征向量集合H={H1,H2,...,HN};其中,H1代表事件ent1的语义特征向量,H2代表事件ent2的语义特征向量,依此类推,HN代表事件entN的语义特征向量;
对于任意事件enti,通过以下公式,得到其语义特征向量Hi
Figure FDA0003428962130000041
其中:
事件enti具有K个事件元素e1,e2,...,eK,形成事件元素集合
Figure FDA0003428962130000042
Figure FDA0003428962130000043
对事件元素e1,e2,...,eK分别通过语义模型向量化,得到对应的事件元素向量
Figure FDA0003428962130000044
通过对事件元素向量
Figure FDA0003428962130000045
加和平均,得到事件enti的语义特征向量Hi
步骤4.2.3,构建图表示学习模型;所述图表示学习模型包括G层图卷积网络,分别表示为:第1层图卷积网络,第2层图卷积网络,...,第G层图卷积网络;
采用训练事件样本,对图表示学习模型进行训练,得到训练完成的图表示学习模型;
具体训练方法为:
步骤S1,构建训练样本库;
所述训练样本库包括多个训练事件样本,每个训练事件样本具有邻域结构特征信息和语义特征向量;
各个训练事件样本构成训练样本内容事件关联图G′;
将当前的训练事件样本表示为entI,其邻域结构特征信息为AI,语义特征向量为HI
步骤S2,将训练事件样本entI的邻域结构特征信息AI和语义特征向量HI输入到所述图表示学习模型,输出训练事件样本entI的表示向量RI,方法为:
步骤S2.1,令x=1;
步骤S2.2,通过下式,得到训练事件样本entI的第x层表示向量
Figure FDA0003428962130000046
Figure FDA0003428962130000051
其中:
σ代表sigmod激活函数;
Figure FDA0003428962130000052
代表输出
Figure FDA0003428962130000053
时第x层图卷积网络的第1网络权重参数;
Figure FDA0003428962130000054
代表输出
Figure FDA0003428962130000055
时第x层图卷积网络的第2网络权重参数;
Figure FDA0003428962130000056
代表输出
Figure FDA0003428962130000057
时第x层图卷积网络的第3网络权重参数;
Figure FDA0003428962130000058
代表训练事件样本entI的第x-1层表示向量;
Figure FDA0003428962130000059
Figure FDA00034289621300000510
代表训练事件样本entI的0阶邻域表示向量;
Figure FDA00034289621300000517
为训练事件样本entI的x阶邻域表示向量,通过下式计算:
Figure FDA00034289621300000511
含义为:
在训练样本内容事件关联图G′中,获得训练事件样本entI的所有x阶邻域事件,由此形成训练事件样本entI的x阶邻域事件集合
Figure FDA00034289621300000512
其中,W代表训练事件样本entI的x阶邻域事件的事件数量;训练事件样本entI的x阶邻域事件是指:在训练事件样本的媒体内容事件关联图中,训练事件样本entI连续经过x条边后到达的事件;
Figure FDA00034289621300000516
代表集合
Figure FDA00034289621300000515
内的事件样本数量;
|AI|代表训练事件样本entI的邻域结构特征信息AI的模;
AIy代表训练事件样本entI和其x阶邻域事件entI[y]的共有事件元素的数量;
Figure FDA00034289621300000513
代表训练事件样本entI的x-1阶邻域表示向量;当x=1时,
Figure FDA00034289621300000514
Hy代表训练事件样本entI的语义特征向量;
步骤S2.3,判断x是否等于G;如果等于,则执行步骤S2.4;如果不等于,则令x=x+1,返回执行步骤S2.2;
步骤S2.4,输出训练事件样本entI的第G层表示向量
Figure FDA0003428962130000061
称为训练事件样本entI的表示向量RI,即:
Figure FDA0003428962130000062
步骤S3,构造图表示学习模型的损失函数为
Figure FDA0003428962130000063
Figure FDA0003428962130000064
其中:
σ代表sigmod激活函数;
Figure FDA0003428962130000065
代表输出RI时采用的图卷积网络的第1网络权重参数的集合;
Figure FDA0003428962130000066
代表输出RI时采用的图卷积网络的第2网络权重参数的集合;
Figure FDA0003428962130000067
代表输出RI时采用的图卷积网络的第3网络权重参数的集合;
Figure FDA0003428962130000068
代表训练事件样本entI的表示向量RI的转秩;
Rq代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到的正样本事件entq的表示向量;其中,正样本事件是指:预设置边数量阈值ψ,与训练事件样本entI的边距离数小于边数量阈值ψ的事件;反之为负样本事件;
Pn代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到负样本的概率分布;
p代表服从负样本的概率分布Pn得到的负样本事件;
Figure FDA0003428962130000069
为所有负样本的期望;
Rp代表负样本事件p的表示向量;
Figure FDA00034289621300000610
代表采样得到的所有负样本事件的数量;
步骤S4,图卷积网络一共包括G*3个网络权重参数,
Figure FDA0003428962130000071
Figure FDA0003428962130000072
将任意一个网络权重参数表示为:
Figure FDA0003428962130000073
其中,c1=1,2,...,G;c2=1,2,3,采用下式,计算网络权重参数
Figure FDA0003428962130000074
的梯度下降距离
Figure FDA0003428962130000075
Figure FDA0003428962130000076
判断是否每个网络权重参数
Figure FDA0003428962130000077
的梯度下降距离
Figure FDA0003428962130000078
均小于设定阈值ω;如果是,则对图表示学习模型的训练结束,执行步骤S5;否则,采用下式,得到每个网络权重参数
Figure FDA0003428962130000079
的更新值
Figure FDA00034289621300000710
Figure FDA00034289621300000711
采用网络权重参数的更新值,更新图表示学习模型,然后,读取训练样本库中新的训练事件样本,返回步骤S2,继续对图表示学习模型进行训练;
步骤S5,输出训练完成的图表示学习模型;
步骤4.2.4,对于步骤1构建的媒体内容库,将其对应的邻接矩阵AG和语义特征向量集合H输入到图表示学习模型,图表示学习模型输出每个事件对应的表示向量,由于媒体内容库共包括N个事件,由此得到N个表示向量R1,R2,...,RN,形成表示向量集合;
对于媒体内容库中被研究的媒体内容Cu,包含U个事件,表示为:entu1,entu2,…,entuU
对于每个事件entuV,V=1,2,...,U,通过图表示学习模型得到事件entuV的表示向量RuV,计算事件entuV的表示向量RuV与表示向量集合中其他每个表示向量的距离,由此得到事件entuV与事件集合V={ent1,ent2,...,entN}中其他每个事件的相似度,按照相似度对事件集合V中其他N-1个事件进行排序,选取相似度最高的Nsim个事件,构成事件entuV的相关事件集合
Figure FDA00034289621300000712
根据事件与媒体内容之间的关系,得到相关事件集合
Figure FDA0003428962130000081
所属的媒体内容集合;
媒体内容集合包含的各个媒体内容,为与媒体内容Cu具有相关关系的相关媒体内容。
2.根据权利要求1所述的基于事件关系发现的媒体内容关联挖掘方法,其特征在于,媒体内容之间的关系还包括因果关系;
采用以下方法,挖掘媒体内容之间的因果关系:
步骤5.1,构建训练样本库;采用训练样本库中的各个训练事件样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
具体训练方法为:
步骤5.1.1,构建训练样本:
利用语言中的因果引导词,从媒体内容库中的媒体内容中抽取出具有因果属性的所有事件,表示为:事件Sc
对事件Sc的核心动词进行语义分析,通过核心动词所属的类别,作为事件Sc的事件标签entc;其中,事件标签entc包括因事件标签或果事件标签,用于标识事件Sc的因果属性,即:标识事件Sc为因事件或果事件;
步骤5.1.2,将{Sc,entc}作为训练样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
步骤5.2,对于媒体内容库中被研究的媒体内容Cu,包含U个事件entu1,entu2,...,entuU
采用训练完成的因果事件识别模板对U个事件进行识别,识别出所有的因事件和所有的果事件;
步骤5.3,对于步骤5.2识别出的每个因事件,表示为Sc[0],在媒体内容事件关联图Gent中检索到对应的事件,表示为:entc[0];其中,事件entc[0]为因事件Sc[0]的事件实例;
在媒体内容事件关联图Gent中,抽取事件entc[0]的m阶邻域图结构
Figure FDA0003428962130000091
所述事件entc[0]的m阶邻域图结构
Figure FDA0003428962130000092
是指:与事件entc[0]的边距离数量小于等于m的事件形成的事件关联子图;
在m阶邻域图结构
Figure FDA0003428962130000093
中,基于因果事件识别模板,判断是否存在果事件,如果不存在,则代表媒体内容库中不存在事件entc[0]的果事件;如果存在,将识别到的果事件表示为事件entc[1]
计算事件entc[0]和事件entc[1]的加权最短距离dist01
设定最短路径阈值为θ;如果dist01<θ,则确定事件entc[0]和事件entc[1]具有因果关系,因此,事件entc[1]所属的媒体内容,与媒体内容Cu具有因果关系;否则,代表媒体内容库中不存在事件entc[0]的果事件;
步骤5.4,对于步骤5.2识别出的每个果事件,基于媒体内容事件关联图Gent,检索是否存在因事件;
步骤5.5,由此得到媒体内容库中,与媒体内容Cu具有因果关系的媒体内容。
3.根据权利要求2所述的基于事件关系发现的媒体内容关联挖掘方法,其特征在于,媒体内容之间的关系还包括补充关系;
采用以下方法,挖掘媒体内容之间的补充关系:
步骤6.1,使用事件元素检索百科内容,建立事件元素与百科内容之间的补充关系;
步骤6.2,对于媒体内容库中被研究的媒体内容Cu,包含Y1个事件元素;计算每个事件元素在媒体内容库中的出现次数,作为每个事件元素的重要程度权重;
步骤6.3,将Y1个事件元素按重要程度权重从大到小排序,选择排序在前的Y2个事件元素,作为用于检索的事件元素;
步骤6.4,对于选择的Y2个事件元素中的每个事件元素,作为检索词检索步骤6.1建立的事件元素与百科内容之间的补充关系,得到每个事件元素关联的百科内容;
由此得到Y2个事件元素关联的所有百科内容,为与媒体内容Cu具有补充关系的百科内容。
4.根据权利要求3所述的基于事件关系发现的媒体内容关联挖掘方法,其特征在于,还包括:
针对不同业务类型的媒体内容,基于媒体内容间的关联关系编写相应的内容组织模板,并设置每种关联关系对应的关联媒体内容的比例;
向每种关联关系对应的内容组织模板中,加入检索到的关联媒体内容,由此得到与目标媒体内容相关联的关联媒体内容列表。
CN202111590575.XA 2021-12-23 2021-12-23 一种基于事件关系发现的媒体内容关联挖掘方法 Active CN114357022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111590575.XA CN114357022B (zh) 2021-12-23 2021-12-23 一种基于事件关系发现的媒体内容关联挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111590575.XA CN114357022B (zh) 2021-12-23 2021-12-23 一种基于事件关系发现的媒体内容关联挖掘方法

Publications (2)

Publication Number Publication Date
CN114357022A true CN114357022A (zh) 2022-04-15
CN114357022B CN114357022B (zh) 2024-05-07

Family

ID=81100850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111590575.XA Active CN114357022B (zh) 2021-12-23 2021-12-23 一种基于事件关系发现的媒体内容关联挖掘方法

Country Status (1)

Country Link
CN (1) CN114357022B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033668A (zh) * 2022-08-12 2022-09-09 清华大学 故事脉络构建方法、装置、电子设备和存储介质
CN116456289A (zh) * 2023-06-13 2023-07-18 安徽创瑞信息技术有限公司 一种富媒体信息处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966917A (zh) * 2020-07-10 2020-11-20 电子科技大学 一种基于预训练语言模型的事件检测与摘要方法
CN112364141A (zh) * 2020-11-05 2021-02-12 天津大学 基于图神经网络的科学文献关键内容潜在关联挖掘方法
CN113051927A (zh) * 2021-03-11 2021-06-29 天津大学 基于多模态图卷积神经网络的社交网络突发事件检测方法
US20210209472A1 (en) * 2020-03-27 2021-07-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for determining causality, electronic device and storage medium
CN113761337A (zh) * 2020-12-31 2021-12-07 国家计算机网络与信息安全管理中心 基于事件隐式要素与显式联系的事件预测方法和装置
CN113779190A (zh) * 2021-07-20 2021-12-10 中国科学院自动化研究所 事件因果关系识别方法、装置、电子设备与存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210209472A1 (en) * 2020-03-27 2021-07-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for determining causality, electronic device and storage medium
CN111966917A (zh) * 2020-07-10 2020-11-20 电子科技大学 一种基于预训练语言模型的事件检测与摘要方法
CN112364141A (zh) * 2020-11-05 2021-02-12 天津大学 基于图神经网络的科学文献关键内容潜在关联挖掘方法
CN113761337A (zh) * 2020-12-31 2021-12-07 国家计算机网络与信息安全管理中心 基于事件隐式要素与显式联系的事件预测方法和装置
CN113051927A (zh) * 2021-03-11 2021-06-29 天津大学 基于多模态图卷积神经网络的社交网络突发事件检测方法
CN113779190A (zh) * 2021-07-20 2021-12-10 中国科学院自动化研究所 事件因果关系识别方法、装置、电子设备与存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033668A (zh) * 2022-08-12 2022-09-09 清华大学 故事脉络构建方法、装置、电子设备和存储介质
CN116456289A (zh) * 2023-06-13 2023-07-18 安徽创瑞信息技术有限公司 一种富媒体信息处理方法及系统
CN116456289B (zh) * 2023-06-13 2023-08-15 安徽创瑞信息技术有限公司 一种富媒体信息处理方法及系统

Also Published As

Publication number Publication date
CN114357022B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN109635171B (zh) 一种新闻节目智能标签的融合推理系统和方法
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN108681574A (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN111339269A (zh) 模板自动生成的知识图谱问答训练及应用服务系统
CN114357022A (zh) 一种基于事件关系发现的媒体内容关联挖掘方法
CN113553429A (zh) 一种规范化标签体系构建及文本自动标注方法
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN112668463B (zh) 一种基于场景识别的中文手语翻译方法及系统
CN108170678A (zh) 一种文本实体抽取方法与系统
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN116127099A (zh) 基于图卷积网络的联合文本增强的表实体与类型注释方法
CN111027622A (zh) 图片标签生成方法、装置、计算机设备及存储介质
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN113961678A (zh) 一种基于事理图谱的智能对话方法和装置
CN108241609B (zh) 排比句识别方法及系统
CN116089644A (zh) 一种融合多模态特征的事件检测方法
CN113361615B (zh) 基于语义相关性的文本分类方法
Chae et al. Uncertainty-based visual question answering: estimating semantic inconsistency between image and knowledge base

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant