CN114357022A - 一种基于事件关系发现的媒体内容关联挖掘方法 - Google Patents
一种基于事件关系发现的媒体内容关联挖掘方法 Download PDFInfo
- Publication number
- CN114357022A CN114357022A CN202111590575.XA CN202111590575A CN114357022A CN 114357022 A CN114357022 A CN 114357022A CN 202111590575 A CN202111590575 A CN 202111590575A CN 114357022 A CN114357022 A CN 114357022A
- Authority
- CN
- China
- Prior art keywords
- event
- ent
- media content
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000005065 mining Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 154
- 230000001364 causal effect Effects 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 95
- 238000010586 diagram Methods 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 19
- 235000013399 edible fruits Nutrition 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000008520 organization Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000000295 complement effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000000153 supplemental effect Effects 0.000 abstract description 5
- 238000007781 pre-processing Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,包括:构建媒体内容库;构建并训练媒体内容事件抽取模型,对媒体内容库中的各条媒体内容包含的事件进行识别和抽取;对各条事件包含的事件元素进行识别和抽取;基于抽取到的事件和事件元素,构造媒体内容事件关联图;使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系,包括:顺承关系、相关关系、因果关系和补充关系。本发明抽取媒体内容中的事件和事件元素,挖掘媒体内容之间多种类型的关联关系,并依据媒体内容之间的关系类型合理有效的组织关联内容,从不同角度对目标媒体内容进行描述和信息扩充,为用户展示脉络清晰、可解释性强的关联内容清单,提升用户阅读体验。
Description
技术领域
本发明属于信息检索技术领域,具体涉及一种基于事件关系发现的媒体内容关联挖掘方法。
背景技术
现有媒体内容关联挖掘方法一般分为两类:1、通过自然语言处理、图像识别等方法学习得到媒体内容对应的语义特征,通过计算媒体内容的语义相似性获得媒体内容的关联内容。2、基于媒体内容标签挖掘媒体内容之间的关联关系。
上述方法存在的问题为:一方面,采用语义信息相似度挖掘关联关系,只能挖掘到语义相似的关联内容,忽略了语义不相似,但逻辑上具有联系的关联内容。另一方面,使用媒体内容标签建立媒体内容之间的关联,媒体内容标签体系的建立需要耗费大量人力资源或出现标签繁杂,标签没有针对性的问题,进而挖掘到的关联内容具有局限性,无法挖掘到媒体内容之间更深层次的关系。最后,上述两类挖掘方法得到的关联内容之间的关系是单一的,无向的,不加区分的,导致内容间的关联关系可解释性差,无法对目标内容的关联内容进行脉络清晰,可解释性强的组织。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,包括以下步骤:
步骤1,构建媒体内容库;所述媒体内容库存储多条媒体内容;
步骤2,构建并训练媒体内容事件抽取模型,采用所述媒体内容事件抽取模型,对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取,共抽取到N个事件,形成事件集合V={ent1,ent2,...,entN};
对各条所述事件包含的事件元素进行识别和抽取,得到每个所述事件包含的事件元素;
步骤3,基于抽取到的事件和事件元素,构造媒体内容事件关联图;
所述媒体内容事件关联图为无向有权图,表示为:Gent=(V,E);其中,V代表事件集合,事件集合V中的每个事件,作为媒体内容事件关联图的一个节点;E∈V×V,代表无向有权图的边集合,具体的,对于事件enti和事件entj,其中,i=1,2,...,N,j=1,2,...,N,i≠j,如果事件enti和事件entj之间具有共有的事件元素,则事件enti和事件entj之间相连接具有边eij,并且,边eij的权重 其中,代表事件enti包含的事件元素集合;代表事件entj包含的事件元素集合;代表事件enti和事件entj的共有的事件元素的数量;如果事件enti和事件entj之间不具有共有的事件元素,则事件enti和事件entj之间不相互连接,即:不具有边;
步骤4,使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系;媒体内容之间的关系包括:顺承关系和相关关系;
步骤4.1,挖掘媒体内容之间的顺承关系:
步骤4.1.1,以媒体内容Cu为被研究的媒体内容,根据媒体内容之间共有主题词数量,计算媒体内容Cu与媒体内容库中其他每条媒体内容的相似度;
其中,对于媒体内容库中其他每条媒体内容,表示为媒体内容Cv,采用下式,计算媒体内容Cu与媒体内容Cv的相似度simuv:
其中:
步骤4.1.2,预设置相似度阈值θ;
从媒体内容库中,选择出所有与媒体内容Cu的相似度大于相似度阈值θ的媒体内容Cv,形成相似媒体内容集合;
步骤4.1.3,将相似媒体内容集合中的各个媒体内容,按发布时间映射到时间轴上,并在时间轴上,利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类,得到按时间排列的m个聚类中心,各个聚类中心对应的媒体内容依次表示为:Cu1,Cu2,...,Cum;Cu1,Cu2,...,Cum代表媒体内容的主要脉络,代表媒体内容Cu的顺承关系;
其中,聚类算法具体为:
将时间轴上每个媒体内容作为一个聚类,然后,不断将距离最小的两个聚类合并,直到满足迭代中止条件;
其中:对于任意两个聚类,表示为:类L1与类L2,类L1与类L2之间的距离dist12计算公式为:
其中:
步骤4.2,挖掘媒体内容之间的相关关系:
步骤4.2.1,基于媒体内容事件关联图Gent,构造邻接矩阵AG∈RN×N;邻接矩阵AG为N行N列矩阵,表示如下:
其中:
邻接矩阵AG中第i行第j列元素Aij的值,为事件enti和事件entj的共有事件元素的数量,即wij;当i=j时,A11=A22=…=ANN=0;
Ai1 Ai2...AiN,称为事件enti的邻域结构特征信息Ai;因此,Ai=Ai1 Ai2…AiN;
步骤4.2.2,构造语义特征向量集合H={H1,H2,...,HN};其中,H1代表事件ent1的语义特征向量,H2代表事件ent2的语义特征向量,依此类推,HN代表事件entN的语义特征向量;
对于任意事件enti,通过以下公式,得到其语义特征向量Hi:
其中:
步骤4.2.3,构建图表示学习模型;所述图表示学习模型包括G层图卷积网络,分别表示为:第1层图卷积网络,第2层图卷积网络,...,第G层图卷积网络;
采用训练事件样本,对图表示学习模型进行训练,得到训练完成的图表示学习模型;
具体训练方法为:
步骤S1,构建训练样本库;
所述训练样本库包括多个训练事件样本,每个训练事件样本具有邻域结构特征信息和语义特征向量;
各个训练事件样本构成训练样本内容事件关联图G′;
将当前的训练事件样本表示为entI,其邻域结构特征信息为AI,语义特征向量为HI;
步骤S2,将训练事件样本entI的邻域结构特征信息AI和语义特征向量HI输入到所述图表示学习模型,输出训练事件样本entI的表示向量RI,方法为:
步骤S2.1,令x=1;
其中:
σ代表sigmod激活函数;
含义为:
在训练样本内容事件关联图G′中,获得训练事件样本entI的所有x阶邻域事件,由此形成训练事件样本entI的x阶邻域事件集合其中,W代表训练事件样本entI的x阶邻域事件的事件数量;训练事件样本entI的x阶邻域事件是指:在训练事件样本的媒体内容事件关联图中,训练事件样本entI连续经过x条边后到达的事件;
|AI|代表训练事件样本entI的邻域结构特征信息AI的模;
AIy代表训练事件样本entI和其x阶邻域事件entI[y]的共有事件元素的数量;
步骤S2.3,判断x是否等于G;如果等于,则执行步骤S2.4;如果不等于,则令x=x+1,返回执行步骤S2.2;
其中:
σ代表sigmod激活函数;
Rq代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到的正样本事件entq的表示向量;其中,正样本事件是指:预设置边数量阈值ψ,与训练事件样本entI的边距离数小于边数量阈值ψ的事件;反之为负样本事件;
Pn代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到负样本的概率分布;
p代表服从负样本的概率分布Pn得到的负样本事件;
Rp代表负样本事件p的表示向量;
采用网络权重参数的更新值,更新图表示学习模型,然后,读取训练样本库中新的训练事件样本,返回步骤S2,继续对图表示学习模型进行训练;
步骤S5,输出训练完成的图表示学习模型;
步骤4.2.4,对于步骤1构建的媒体内容库,将其对应的邻接矩阵AG和语义特征向量集合H输入到图表示学习模型,图表示学习模型输出每个事件对应的表示向量,由于媒体内容库共包括N个事件,由此得到N个表示向量R1,R2,...,RN,形成表示向量集合;
对于媒体内容库中被研究的媒体内容Cu,包含U个事件,表示为:entu1,entu2,...,entuU;
对于每个事件entuV,V=1,2,...,U,通过图表示学习模型得到事件entuV的表示向量RuV,计算事件entuV的表示向量RuV与表示向量集合中其他每个表示向量的距离,由此得到事件entuV与事件集合V={ent1,ent2,...,entN}中其他每个事件的相似度,按照相似度对事件集合V中其他N-1个事件进行排序,选取相似度最高的Nsim个事件,构成事件entuV的相关事件集合
媒体内容集合包含的各个媒体内容,为与媒体内容Cu具有相关关系的相关媒体内容。
优选的,媒体内容之间的关系还包括因果关系;
采用以下方法,挖掘媒体内容之间的因果关系:
步骤5.1,构建训练样本库;采用训练样本库中的各个训练事件样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
具体训练方法为:
步骤5.1.1,构建训练样本:
利用语言中的因果引导词,从媒体内容库中的媒体内容中抽取出具有因果属性的所有事件,表示为:事件Sc;
对事件Sc的核心动词进行语义分析,通过核心动词所属的类别,作为事件Sc的事件标签entc;其中,事件标签entc包括因事件标签或果事件标签,用于标识事件Sc的因果属性,即:标识事件Sc为因事件或果事件;
步骤5.1.2,将{Sc,entc}作为训练样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
步骤5.2,对于媒体内容库中被研究的媒体内容Cu,包含U个事件entu1,entu2,...,entuU;
采用训练完成的因果事件识别模板对U个事件进行识别,识别出所有的因事件和所有的果事件;
步骤5.3,对于步骤5.2识别出的每个因事件,表示为Sc[0],在媒体内容事件关联图Gent中检索到对应的事件,表示为:entc[0];其中,事件entc[0]为因事件Sc[0]的事件实例;
计算事件entc[0]和事件entc[1]的加权最短距离dist01;
设定最短路径阈值为θ;如果dist01<θ,则确定事件entc[0]和事件entc[1]具有因果关系,因此,事件entc[1]所属的媒体内容,与媒体内容Cu具有因果关系;否则,代表媒体内容库中不存在事件entc[0]的果事件;
步骤5.4,对于步骤5.2识别出的每个果事件,基于媒体内容事件关联图Gent,检索是否存在因事件;
步骤5.5,由此得到媒体内容库中,与媒体内容Cu具有因果关系的媒体内容。
优选的,媒体内容之间的关系还包括补充关系;
采用以下方法,挖掘媒体内容之间的补充关系:
步骤6.1,使用事件元素检索百科内容,建立事件元素与百科内容之间的补充关系;
步骤6.2,对于媒体内容库中被研究的媒体内容Cu,包含Y1个事件元素;计算每个事件元素在媒体内容库中的出现次数,作为每个事件元素的重要程度权重;
步骤6.3,将Y1个事件元素按重要程度权重从大到小排序,选择排序在前的Y2个事件元素,作为用于检索的事件元素;
步骤6.4,对于选择的Y2个事件元素中的每个事件元素,作为检索词检索步骤6.1建立的事件元素与百科内容之间的补充关系,得到每个事件元素关联的百科内容;
由此得到Y2个事件元素关联的所有百科内容,为与媒体内容Cu具有补充关系的百科内容。
优选的,还包括:
针对不同业务类型的媒体内容,基于媒体内容间的关联关系编写相应的内容组织模板,并设置每种关联关系对应的关联媒体内容的比例;
向每种关联关系对应的内容组织模板中,加入检索到的关联媒体内容,由此得到与目标媒体内容相关联的关联媒体内容列表。
本发明提供的一种基于事件关系发现的媒体内容关联挖掘方法具有以下优点:
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,以及基于媒体内容间关联关系的内容组织方法,该方法能够挖掘媒体内容之间的浅层和深层的关联关系,同时明确关联关系的类型,并按照关联关系类型对媒体内容进行合理有效的组织,为用户展示脉络清晰、可解释性强的关联内容清单。
附图说明
图1为本发明提供的一种基于事件关系发现的媒体内容关联挖掘方法的整体架构示意图;
图2为本发明提供的媒体内容事件关联图的原理图;
图3为本发明提供的实现媒体内容-时间轴映射示意图;
图4为本发明提供的边距离数的含义图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,本发明抽取媒体内容中的事件和事件元素,挖掘媒体内容之间多种类型的关联关系,并依据媒体内容之间的关系类型合理有效的组织关联内容,从不同角度对目标媒体内容进行描述和信息扩充,为用户展示脉络清晰、可解释性强的关联内容清单,提升用户阅读体验。
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,参考图1,包括以下步骤:
步骤1,构建媒体内容库;所述媒体内容库存储多条媒体内容;
在构建媒体内容库时,通过数据预处理模块对相关媒体内容扩充和清洗,得到加入到媒体内容库的媒体内容,扩展媒体内容库。具体可采用以下方式:
步骤1.1数据扩展:
使用LDA主题抽取模型,对媒体内容库中的媒体内容进行主题抽取,得到每条媒体内容的主题标签及其对应的主题词集合。使用媒体内容对应的主题词集合作为检索词,在互联网上采集相关的媒体内容。
步骤1.2媒体内容处理:
将采集到的媒体内容转化为文本类型,媒体内容库存储三类数据类型:视频,音频和图文,针对视频类媒体内容,使用文字识别技术识别视频中的涉及文本;针对音频,使用音频识别技术得到音频涉及的文本,针对图文类媒体内容,抽取出正文内容。
步骤1.3数据清洗。
去除得到的文本中的标点、数字、乱码和停止词,得到处理后的媒体内容。
步骤2,构建并训练媒体内容事件抽取模型,采用所述媒体内容事件抽取模型,对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取,共抽取到N个事件,形成事件集合V={ent1,ent2,...,entN};
对各条所述事件包含的事件元素进行识别和抽取,得到每个所述事件包含的事件元素;
在具体实现上,媒体内容事件抽取模型,主要使用深度学习模型识别媒体内容中的事件,并对事件对应的事件元素进行抽取识别。
具体的,构建并训练媒体内容事件抽取模型,媒体内容事件抽取模型使用BERT预训练模型对文本进行向量化,然后使用MLP+LR构建事件多分类网络,使用bi-lstm和CRF构建事件元素标注网络。将上述两个任务网络进行联合训练,得到所有媒体内容包含的事件集合V={ent1,ent2,...,entN}和每个事件对应的事件元素集合。针对每个事件元素,基于其在媒体内容库中的出现频数计算其重要程度,其中为事件元素aj在Ci中的出现频数,nw为Ci中所有名词的数量。
步骤3,基于抽取到的事件和事件元素,构造媒体内容事件关联图;
所述媒体内容事件关联图为无向有权图,表示为:Gent=(V,E);其中,V代表事件集合,事件集合V中的每个事件,作为媒体内容事件关联图的一个节点;E∈V×V,代表无向有权图的边集合,具体的,对于事件enti和事件entj,其中,i=1,2,...,N,j=1,2,...,N,i≠j,如果事件enti和事件entj之间具有共有的事件元素,则事件enti和事件entj之间相连接具有边eij,并且,边eij的权重 其中,代表事件enti包含的事件元素集合;代表事件entj包含的事件元素集合;代表事件enti和事件entj的共有的事件元素的数量;如果事件enti和事件entj之间不具有共有的事件元素,则事件enti和事件entj之间不相互连接,即:不具有边;
该过程如图2所示。具体的,媒体内容库一共抽取得到N个事件,形成事件集合V;每个事件包括多个事件元素。利用事件元素和其在事件中的共现情况,构成一个无向有权图Gent=(V,E),即媒体内容事件关联图。
其中:V={ent1,ent2,...,entN}为节点集合,其中每个节点代表一个事件,N为媒体内容库中所有事件的数量。E∈V×V为无向有权图Gent的边集合,eij表示事件enti和事件entj之间的边,其权重为即enti和entj共有事件元素的个数,若没有共有事件元素,两个事件节点之间没有边。
步骤4,使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系;
媒体内容之间的关系包括:顺承关系、相关关系、因果关系和补充关系;下面对这四种关系的挖掘方法详细介绍:
(一)顺承关系
步骤4.1,挖掘媒体内容之间的顺承关系:
主要思路为:根据媒体内容库中的各媒体内容的主题词度量媒体内容之间的相似度,将相似度大于设定阈值的媒体内容划分为同一媒体内容集合。将媒体内容集合中的媒体内容按照发布时间映射到时间轴上,并在时间轴上利用层次聚类算法,找到媒体内容发展的主要脉络及其代表媒体内容,这些媒体内容之间的关系即媒体内容之间的顺承关系。
步骤4.1.1,以媒体内容Cu为被研究的媒体内容,根据媒体内容之间共有主题词数量,计算媒体内容Cu与媒体内容库中其他每条媒体内容的相似度;
其中,对于媒体内容库中其他每条媒体内容,表示为媒体内容Cv,采用下式,计算媒体内容Cu与媒体内容Cv的相似度simuv:
其中:
步骤4.1.2,预设置相似度阈值θ;
从媒体内容库中,选择出所有与媒体内容Cu的相似度大于相似度阈值θ的媒体内容Cv,形成相似媒体内容集合;
步骤4.1.3,将相似媒体内容集合中的各个媒体内容,按发布时间映射到时间轴上,参考图3,并在时间轴上,利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类,得到按时间排列的m个聚类中心,各个聚类中心对应的媒体内容依次表示为:Cu1,Cu2,...,Cum;Cu1,Cu2,...,Cum代表媒体内容的主要脉络,代表媒体内容Cu的顺承关系;
其中,聚类算法具体为:
将时间轴上每个媒体内容作为一个聚类,然后,不断将距离最小的两个聚类合并,直到满足迭代中止条件;
其中:对于任意两个聚类,表示为:类L1与类L2,类L1与类L2之间的距离dist12计算公式为:
其中:
(二)相关关系
基于步骤3得到的媒体内容事件关联图Gent,计算事件之间的相关度,得到媒体内容之间的相关关系。
步骤4.2,挖掘媒体内容之间的相关关系:
步骤4.2.1,基于媒体内容事件关联图Gent,构造邻接矩阵AG∈RN×N;邻接矩阵AG为N行N列矩阵,表示如下:
其中:
邻接矩阵AG中第i行第j列元素Aij的值,为事件enti和事件entj的共有事件元素的数量,即wij;当i=j时,A11=A22=…=ANN=0;
Ai1 Ai2...AiN,称为事件enti的邻域结构特征信息Ai;因此,Ai=Ai1 Ai2…AiN;
步骤4.2.2,构造语义特征向量集合H={H1,H2,...,HN};其中,H1代表事件ent1的语义特征向量,H2代表事件ent2的语义特征向量,依此类推,HN代表事件entN的语义特征向量;
对于任意事件enti,通过以下公式,得到其语义特征向量Hi:
其中:
步骤4.2.3,构建图表示学习模型;所述图表示学习模型包括G层图卷积网络,分别表示为:第1层图卷积网络,第2层图卷积网络,...,第G层图卷积网络;
采用训练事件样本,对图表示学习模型进行训练,得到训练完成的图表示学习模型;
具体训练方法为:
步骤S1,构建训练样本库;
所述训练样本库包括多个训练事件样本,每个训练事件样本具有邻域结构特征信息和语义特征向量;
各个训练事件样本构成训练样本内容事件关联图G′;
将当前的训练事件样本表示为entI,其邻域结构特征信息为AI,语义特征向量为HI;
步骤S2,将训练事件样本entI的邻域结构特征信息AI和语义特征向量HI输入到所述图表示学习模型,输出训练事件样本entI的表示向量RI,方法为:
步骤S2.1,令x=1;
其中:
σ代表sigmod激活函数;
含义为:
在训练样本内容事件关联图G′中,获得训练事件样本entI的所有x阶邻域事件,由此形成训练事件样本entI的x阶邻域事件集合其中,W代表训练事件样本entI的x阶邻域事件的事件数量;训练事件样本entI的x阶邻域事件是指:在训练事件样本的媒体内容事件关联图中,训练事件样本entI连续经过x条边后到达的事件;
|AI|代表训练事件样本entI的邻域结构特征信息AI的模;
AIy代表训练事件样本entI和其x阶邻域事件entI[y]的共有事件元素的数量;
本发明中,在每一层的学习中都引入邻域结构特征信息AI,防止在学习过程中,邻域结构特征信息AI随着模型网络层数的增加而减少。
步骤S2.3,判断x是否等于G;如果等于,则执行步骤S2.4;如果不等于,则令x=x+1,返回执行步骤S2.2;
其中:
σ代表sigmod激活函数;
Rq代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到的正样本事件entq的表示向量;其中,正样本事件是指:预设置边数量阈值ψ,与训练事件样本entI的边距离数小于边数量阈值ψ的事件;反之为负样本事件;
其中,正样本事件和负样本事件的理解如下:在训练样本内容事件关联图G′中,距离近的事件之间具有相似的向量表示。因此,与训练事件样本entI的边距离数较远的事件样本,为负样本事件;反之,与训练事件样本entI的边距离数较少的事件样本,为负样本事件。参考图4,边距离数的含义为:例如对于事件ent1,与事件ent2、ent3、ent4的边距离数均为1。事件ent1和ent5的边距离数为2。
Pn代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到负样本的概率分布;
p代表服从负样本的概率分布Pn得到的负样本事件;
Rp代表负样本事件p的表示向量;
采用网络权重参数的更新值,更新图表示学习模型,然后,读取训练样本库中新的训练事件样本,返回步骤S2,继续对图表示学习模型进行训练;
步骤S5,输出训练完成的图表示学习模型;
步骤4.2.4,对于步骤1构建的媒体内容库,将其对应的邻接矩阵AG和语义特征向量集合H输入到图表示学习模型,图表示学习模型输出每个事件对应的表示向量,由于媒体内容库共包括N个事件,由此得到N个表示向量R1,R2,...,RN,形成表示向量集合;
对于媒体内容库中被研究的媒体内容Cu,包含U个事件,表示为:entu1,entu2,…,entuU;
对于每个事件entuV,V=1,2,...,U,通过图表示学习模型得到事件entuV的表示向量RuV,计算事件entuV的表示向量RuV与表示向量集合中其他每个表示向量的距离,由此得到事件entuV与事件集合V={ent1,ent2,...,entN}中其他每个事件的相似度,按照相似度对事件集合V中其他N-1个事件进行排序,选取相似度最高的Nsim个事件,构成事件entuV的相关事件集合
媒体内容集合包含的各个媒体内容,为与媒体内容Cu具有相关关系的相关媒体内容。
(三)因果关系
媒体内容之间的关系还包括因果关系;
采用以下方法,挖掘媒体内容之间的因果关系:
步骤5.1,构建训练样本库;采用训练样本库中的各个训练事件样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
具体训练方法为:
步骤5.1.1,构建训练样本:
利用语言中的因果引导词,从媒体内容库中的媒体内容中抽取出具有因果属性的所有事件,表示为:事件Sc;此处的事件Sc可以为因事件,也可以为果事件。
对事件Sc的核心动词进行语义分析,通过核心动词所属的类别,作为事件Sc的事件标签entc;其中,事件标签entc包括因事件标签或果事件标签,用于标识事件Sc的因果属性,即:标识事件Sc为因事件或果事件;
步骤5.1.2,将{Sc,entc}作为训练样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
步骤5.2,对于媒体内容库中被研究的媒体内容Cu,包含U个事件entu1,entu2,…,entuU;
采用训练完成的因果事件识别模板对U个事件进行识别,识别出所有的因事件和所有的果事件;
步骤5.3,对于步骤5.2识别出的每个因事件,表示为Sc[0],在媒体内容事件关联图Gent中检索到对应的事件,表示为:entc[0];其中,事件entc[0]为因事件Sc[0]的事件实例;
计算事件entc[0]和事件entc[1]的加权最短距离dist01;
设定最短路径阈值为θ;如果dist01<θ,则确定事件entc[0]和事件entc[1]具有因果关系,因此,事件entc[1]所属的媒体内容,与媒体内容Cu具有因果关系;否则,代表媒体内容库中不存在事件entc[0]的果事件;
步骤5.4,对于步骤5.2识别出的每个果事件,基于媒体内容事件关联图Gent,检索是否存在因事件;
步骤5.5,由此得到媒体内容库中,与媒体内容Cu具有因果关系的媒体内容。
下面介绍一个实施例:
首先,对媒体内容库中的媒体内容的因果关系进行挖掘,得到训练事件样本。为事件因果关系识别提供先验知识。
具体的,以语言中的因果引导词为基础编写因果事件抽取模板,如,……导致……,用于从媒体内容库中的媒体内容中抽取因事件和果事件。然后使用依存分析抽取因/果事件的核心动词,通过verbnet找到核心动词所属类别,作为该因/果事件的事件标签,得到一系列因事件和事件标签的对应关系,或果事件和事件标签的对应关系,作为训练样本。
然后,采用训练样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
采用因果事件识别模板,基于媒体内容事件关联图Gent,得到与被研究的媒体内容Cu具有因果关系的媒体内容。
(四)补充关系
媒体内容之间的关系还包括补充关系;
采用以下方法,挖掘媒体内容之间的补充关系:
步骤6.1,使用事件元素检索百科内容,建立事件元素与百科内容之间的补充关系;即背景知识。
步骤6.2,对于媒体内容库中被研究的媒体内容Cu,包含Y1个事件元素;计算每个事件元素在媒体内容库中的出现次数,作为每个事件元素的重要程度权重;
步骤6.3,将Y1个事件元素按重要程度权重从大到小排序,选择排序在前的Y2个事件元素,作为用于检索的事件元素;
步骤6.4,对于选择的Y2个事件元素中的每个事件元素,作为检索词检索步骤6.1建立的事件元素与百科内容之间的补充关系,得到每个事件元素关联的百科内容;
由此得到Y2个事件元素关联的所有百科内容,为与媒体内容Cu具有补充关系的百科内容。
还包括:
针对不同业务类型的媒体内容,如新闻报道,文艺节目等,基于媒体内容间的关联关系编写相应的内容组织模板,如新闻报道模板可设置为(补充关系,顺承关系,因果关系),并设置每种关联关系对应的关联媒体内容的比例;
向每种关联关系对应的内容组织模板中,加入检索到的关联媒体内容,由此得到与目标媒体内容相关联的关联媒体内容列表。
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,通过基于事件关系发现的媒体内容关联挖掘系统实现。基于事件关系发现的媒体内容关联挖掘系统,包括以下五个功能模块:数据预处理模块,媒体内容事件抽取模型,媒体内容事件关联图构建模块,基于事件的内容关系挖掘模块和关联内容组织模块。
数据预处理模块,主要负责对相关媒体内容扩充和媒体内容清洗;得到加入到媒体内容库的媒体内容;从而构建得到媒体内容库。
媒体内容事件抽取模型,主要使用深度学习模型识别媒体内容中的事件,并对事件对应的事件元素进行抽取识别。
媒体内容事件关联图构建模块,主要基于事件之间的共有事件元素,构建一个无向有权的事件关联图;
基于事件的内容关系挖掘模块,主要负责挖掘媒体内容之间的4类关联关系,然后通过事件和媒体内容之间的关系,得到媒体内容之间的关联关系;该模块通过文本重要度排序和时间聚类挖掘事件之间的顺承关系;该模块通过因果模式抽取和加权最短路径算法挖掘事件之间的因果关系;该模块基于媒体内容事件关联图进行关系挖掘,使用图计算模型挖掘事件之间的深层相关关系;该模块使用实体链接模型建立事件元素和百科内容之间的关系,挖掘媒体内容之间的补充关系。
关联内容组织模块,主要负责对媒体内容对应的关联内容进行合理有效的组织,关联内容组织模块根据媒体内容事件之间的关联关系类型,组织关联媒体内容。
本发明提供一种基于事件关系发现的媒体内容关联挖掘方法,具有以下优点:
1、本发明抽取媒体内容中包含的事件及事件元素,并根据事件元素共现情况,构建事件关联图,充分挖掘媒体内容之间的浅层和深层的关联关系,创新性地利用媒体内容和事件关系建立媒体内容之间的关联,并明确媒体内容之间的关系类型。
2、本发明创新地定义了媒体内容之间的4种关系类型,包括顺承关系,相关关系,因果关系,补充关系,并针对各关系类型设计挖掘方法进行关系挖掘。实现全方面挖掘关联内容。其中顺承关系可以为用户展示目标媒体内容随时间发展的脉络,相关关系可以为用户提供以目标媒体内容为中心的扩展内容,因果关系可以为用户展示目标媒体内容发生的前因后果,补充关系为用户提供阅读媒体内容所需的背景信息。
3、本发明利用主题相似计算和层次聚类算法构建了媒体内容顺承关系挖掘方法。
4、本发明针对媒体内容相关关系挖掘设计了图表示学习模型,对事件关联图中的事件的语义和结构信息进行学习,可以在捕捉事件语义信息的同时,捕捉到更多结构信息,利用事件相似性挖掘内容相关关系。
5、本发明基于事件关联图设计因果关系发现方法,发现媒体内容之间的因果关系。
6、本发明通过计算事件元素的重要程度挖掘媒体内容的补充关系。
7、本发明创新性地根据媒体内容之间的关联类型,设计模板组织内容,对目标媒体内容的关联内容进行组织,为用户提供更全面、更有条理的,解释性强的关联内容清单。让用户从不同角度了解当前观看内容,提升用户体验,为平台留存更多用户资源。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (4)
1.一种基于事件关系发现的媒体内容关联挖掘方法,其特征在于,包括以下步骤:
步骤1,构建媒体内容库;所述媒体内容库存储多条媒体内容;
步骤2,构建并训练媒体内容事件抽取模型,采用所述媒体内容事件抽取模型,对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取,共抽取到N个事件,形成事件集合V={ent1,ent2,...,entN};
对各条所述事件包含的事件元素进行识别和抽取,得到每个所述事件包含的事件元素;
步骤3,基于抽取到的事件和事件元素,构造媒体内容事件关联图;
所述媒体内容事件关联图为无向有权图,表示为:Gent=(V,E);其中,V代表事件集合,事件集合V中的每个事件,作为媒体内容事件关联图的一个节点;E∈V×V,代表无向有权图的边集合,具体的,对于事件enti和事件entj,其中,i=1,2,...,N,j=1,2,...,N,i≠j,如果事件enti和事件entj之间具有共有的事件元素,则事件enti和事件entj之间相连接具有边eij,并且,边eij的权重 其中,代表事件enti包含的事件元素集合;代表事件entj包含的事件元素集合;代表事件enti和事件entj的共有的事件元素的数量;如果事件enti和事件entj之间不具有共有的事件元素,则事件enti和事件entj之间不相互连接,即:不具有边;
步骤4,使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系;媒体内容之间的关系包括:顺承关系和相关关系;
步骤4.1,挖掘媒体内容之间的顺承关系:
步骤4.1.1,以媒体内容Cu为被研究的媒体内容,根据媒体内容之间共有主题词数量,计算媒体内容Cu与媒体内容库中其他每条媒体内容的相似度;
其中,对于媒体内容库中其他每条媒体内容,表示为媒体内容Cv,采用下式,计算媒体内容Cu与媒体内容Cv的相似度simuv:
其中:
步骤4.1.2,预设置相似度阈值θ;
从媒体内容库中,选择出所有与媒体内容Cu的相似度大于相似度阈值θ的媒体内容Cv,形成相似媒体内容集合;
步骤4.1.3,将相似媒体内容集合中的各个媒体内容,按发布时间映射到时间轴上,并在时间轴上,利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类,得到按时间排列的m个聚类中心,各个聚类中心对应的媒体内容依次表示为:Cu1,Cu2,...,Cum;Cu1,Cu2,...,Cum代表媒体内容的主要脉络,代表媒体内容Cu的顺承关系;
其中,聚类算法具体为:
将时间轴上每个媒体内容作为一个聚类,然后,不断将距离最小的两个聚类合并,直到满足迭代中止条件;
其中:对于任意两个聚类,表示为:类L1与类L2,类L1与类L2之间的距离dist12计算公式为:
其中:
步骤4.2,挖掘媒体内容之间的相关关系:
步骤4.2.1,基于媒体内容事件关联图Gent,构造邻接矩阵AG∈RN×N;邻接矩阵AG为N行N列矩阵,表示如下:
其中:
邻接矩阵AG中第i行第j列元素Aij的值,为事件enti和事件entj的共有事件元素的数量,即wij;当i=j时,A11=A22=…=ANN=0;
Ai1 Ai2…AiN,称为事件enti的邻域结构特征信息Ai;因此,Ai=Ai1 Ai2…AiN;
步骤4.2.2,构造语义特征向量集合H={H1,H2,...,HN};其中,H1代表事件ent1的语义特征向量,H2代表事件ent2的语义特征向量,依此类推,HN代表事件entN的语义特征向量;
对于任意事件enti,通过以下公式,得到其语义特征向量Hi:
其中:
步骤4.2.3,构建图表示学习模型;所述图表示学习模型包括G层图卷积网络,分别表示为:第1层图卷积网络,第2层图卷积网络,...,第G层图卷积网络;
采用训练事件样本,对图表示学习模型进行训练,得到训练完成的图表示学习模型;
具体训练方法为:
步骤S1,构建训练样本库;
所述训练样本库包括多个训练事件样本,每个训练事件样本具有邻域结构特征信息和语义特征向量;
各个训练事件样本构成训练样本内容事件关联图G′;
将当前的训练事件样本表示为entI,其邻域结构特征信息为AI,语义特征向量为HI;
步骤S2,将训练事件样本entI的邻域结构特征信息AI和语义特征向量HI输入到所述图表示学习模型,输出训练事件样本entI的表示向量RI,方法为:
步骤S2.1,令x=1;
其中:
σ代表sigmod激活函数;
含义为:
在训练样本内容事件关联图G′中,获得训练事件样本entI的所有x阶邻域事件,由此形成训练事件样本entI的x阶邻域事件集合其中,W代表训练事件样本entI的x阶邻域事件的事件数量;训练事件样本entI的x阶邻域事件是指:在训练事件样本的媒体内容事件关联图中,训练事件样本entI连续经过x条边后到达的事件;
|AI|代表训练事件样本entI的邻域结构特征信息AI的模;
AIy代表训练事件样本entI和其x阶邻域事件entI[y]的共有事件元素的数量;
步骤S2.3,判断x是否等于G;如果等于,则执行步骤S2.4;如果不等于,则令x=x+1,返回执行步骤S2.2;
其中:
σ代表sigmod激活函数;
Rq代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到的正样本事件entq的表示向量;其中,正样本事件是指:预设置边数量阈值ψ,与训练事件样本entI的边距离数小于边数量阈值ψ的事件;反之为负样本事件;
Pn代表训练事件样本entI在训练样本内容事件关联图G′随机游走采样得到负样本的概率分布;
p代表服从负样本的概率分布Pn得到的负样本事件;
Rp代表负样本事件p的表示向量;
采用网络权重参数的更新值,更新图表示学习模型,然后,读取训练样本库中新的训练事件样本,返回步骤S2,继续对图表示学习模型进行训练;
步骤S5,输出训练完成的图表示学习模型;
步骤4.2.4,对于步骤1构建的媒体内容库,将其对应的邻接矩阵AG和语义特征向量集合H输入到图表示学习模型,图表示学习模型输出每个事件对应的表示向量,由于媒体内容库共包括N个事件,由此得到N个表示向量R1,R2,...,RN,形成表示向量集合;
对于媒体内容库中被研究的媒体内容Cu,包含U个事件,表示为:entu1,entu2,…,entuU;
对于每个事件entuV,V=1,2,...,U,通过图表示学习模型得到事件entuV的表示向量RuV,计算事件entuV的表示向量RuV与表示向量集合中其他每个表示向量的距离,由此得到事件entuV与事件集合V={ent1,ent2,...,entN}中其他每个事件的相似度,按照相似度对事件集合V中其他N-1个事件进行排序,选取相似度最高的Nsim个事件,构成事件entuV的相关事件集合
媒体内容集合包含的各个媒体内容,为与媒体内容Cu具有相关关系的相关媒体内容。
2.根据权利要求1所述的基于事件关系发现的媒体内容关联挖掘方法,其特征在于,媒体内容之间的关系还包括因果关系;
采用以下方法,挖掘媒体内容之间的因果关系:
步骤5.1,构建训练样本库;采用训练样本库中的各个训练事件样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
具体训练方法为:
步骤5.1.1,构建训练样本:
利用语言中的因果引导词,从媒体内容库中的媒体内容中抽取出具有因果属性的所有事件,表示为:事件Sc;
对事件Sc的核心动词进行语义分析,通过核心动词所属的类别,作为事件Sc的事件标签entc;其中,事件标签entc包括因事件标签或果事件标签,用于标识事件Sc的因果属性,即:标识事件Sc为因事件或果事件;
步骤5.1.2,将{Sc,entc}作为训练样本,对因果事件识别模板进行训练,得到训练完成的因果事件识别模板;
步骤5.2,对于媒体内容库中被研究的媒体内容Cu,包含U个事件entu1,entu2,...,entuU;
采用训练完成的因果事件识别模板对U个事件进行识别,识别出所有的因事件和所有的果事件;
步骤5.3,对于步骤5.2识别出的每个因事件,表示为Sc[0],在媒体内容事件关联图Gent中检索到对应的事件,表示为:entc[0];其中,事件entc[0]为因事件Sc[0]的事件实例;
计算事件entc[0]和事件entc[1]的加权最短距离dist01;
设定最短路径阈值为θ;如果dist01<θ,则确定事件entc[0]和事件entc[1]具有因果关系,因此,事件entc[1]所属的媒体内容,与媒体内容Cu具有因果关系;否则,代表媒体内容库中不存在事件entc[0]的果事件;
步骤5.4,对于步骤5.2识别出的每个果事件,基于媒体内容事件关联图Gent,检索是否存在因事件;
步骤5.5,由此得到媒体内容库中,与媒体内容Cu具有因果关系的媒体内容。
3.根据权利要求2所述的基于事件关系发现的媒体内容关联挖掘方法,其特征在于,媒体内容之间的关系还包括补充关系;
采用以下方法,挖掘媒体内容之间的补充关系:
步骤6.1,使用事件元素检索百科内容,建立事件元素与百科内容之间的补充关系;
步骤6.2,对于媒体内容库中被研究的媒体内容Cu,包含Y1个事件元素;计算每个事件元素在媒体内容库中的出现次数,作为每个事件元素的重要程度权重;
步骤6.3,将Y1个事件元素按重要程度权重从大到小排序,选择排序在前的Y2个事件元素,作为用于检索的事件元素;
步骤6.4,对于选择的Y2个事件元素中的每个事件元素,作为检索词检索步骤6.1建立的事件元素与百科内容之间的补充关系,得到每个事件元素关联的百科内容;
由此得到Y2个事件元素关联的所有百科内容,为与媒体内容Cu具有补充关系的百科内容。
4.根据权利要求3所述的基于事件关系发现的媒体内容关联挖掘方法,其特征在于,还包括:
针对不同业务类型的媒体内容,基于媒体内容间的关联关系编写相应的内容组织模板,并设置每种关联关系对应的关联媒体内容的比例;
向每种关联关系对应的内容组织模板中,加入检索到的关联媒体内容,由此得到与目标媒体内容相关联的关联媒体内容列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111590575.XA CN114357022B (zh) | 2021-12-23 | 2021-12-23 | 一种基于事件关系发现的媒体内容关联挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111590575.XA CN114357022B (zh) | 2021-12-23 | 2021-12-23 | 一种基于事件关系发现的媒体内容关联挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357022A true CN114357022A (zh) | 2022-04-15 |
CN114357022B CN114357022B (zh) | 2024-05-07 |
Family
ID=81100850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111590575.XA Active CN114357022B (zh) | 2021-12-23 | 2021-12-23 | 一种基于事件关系发现的媒体内容关联挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357022B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033668A (zh) * | 2022-08-12 | 2022-09-09 | 清华大学 | 故事脉络构建方法、装置、电子设备和存储介质 |
CN116456289A (zh) * | 2023-06-13 | 2023-07-18 | 安徽创瑞信息技术有限公司 | 一种富媒体信息处理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966917A (zh) * | 2020-07-10 | 2020-11-20 | 电子科技大学 | 一种基于预训练语言模型的事件检测与摘要方法 |
CN112364141A (zh) * | 2020-11-05 | 2021-02-12 | 天津大学 | 基于图神经网络的科学文献关键内容潜在关联挖掘方法 |
CN113051927A (zh) * | 2021-03-11 | 2021-06-29 | 天津大学 | 基于多模态图卷积神经网络的社交网络突发事件检测方法 |
US20210209472A1 (en) * | 2020-03-27 | 2021-07-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for determining causality, electronic device and storage medium |
CN113761337A (zh) * | 2020-12-31 | 2021-12-07 | 国家计算机网络与信息安全管理中心 | 基于事件隐式要素与显式联系的事件预测方法和装置 |
CN113779190A (zh) * | 2021-07-20 | 2021-12-10 | 中国科学院自动化研究所 | 事件因果关系识别方法、装置、电子设备与存储介质 |
-
2021
- 2021-12-23 CN CN202111590575.XA patent/CN114357022B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210209472A1 (en) * | 2020-03-27 | 2021-07-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for determining causality, electronic device and storage medium |
CN111966917A (zh) * | 2020-07-10 | 2020-11-20 | 电子科技大学 | 一种基于预训练语言模型的事件检测与摘要方法 |
CN112364141A (zh) * | 2020-11-05 | 2021-02-12 | 天津大学 | 基于图神经网络的科学文献关键内容潜在关联挖掘方法 |
CN113761337A (zh) * | 2020-12-31 | 2021-12-07 | 国家计算机网络与信息安全管理中心 | 基于事件隐式要素与显式联系的事件预测方法和装置 |
CN113051927A (zh) * | 2021-03-11 | 2021-06-29 | 天津大学 | 基于多模态图卷积神经网络的社交网络突发事件检测方法 |
CN113779190A (zh) * | 2021-07-20 | 2021-12-10 | 中国科学院自动化研究所 | 事件因果关系识别方法、装置、电子设备与存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033668A (zh) * | 2022-08-12 | 2022-09-09 | 清华大学 | 故事脉络构建方法、装置、电子设备和存储介质 |
CN116456289A (zh) * | 2023-06-13 | 2023-07-18 | 安徽创瑞信息技术有限公司 | 一种富媒体信息处理方法及系统 |
CN116456289B (zh) * | 2023-06-13 | 2023-08-15 | 安徽创瑞信息技术有限公司 | 一种富媒体信息处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114357022B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635171B (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN109543034B (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
CN105279495A (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN111339269A (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN114357022A (zh) | 一种基于事件关系发现的媒体内容关联挖掘方法 | |
CN113553429A (zh) | 一种规范化标签体系构建及文本自动标注方法 | |
CN114661872B (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN106874397B (zh) | 一种面向物联网设备的自动语义标注方法 | |
CN112668463B (zh) | 一种基于场景识别的中文手语翻译方法及系统 | |
CN108170678A (zh) | 一种文本实体抽取方法与系统 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN116127099A (zh) | 基于图卷积网络的联合文本增强的表实体与类型注释方法 | |
CN111027622A (zh) | 图片标签生成方法、装置、计算机设备及存储介质 | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
CN113961678A (zh) | 一种基于事理图谱的智能对话方法和装置 | |
CN108241609B (zh) | 排比句识别方法及系统 | |
CN116089644A (zh) | 一种融合多模态特征的事件检测方法 | |
CN113361615B (zh) | 基于语义相关性的文本分类方法 | |
Chae et al. | Uncertainty-based visual question answering: estimating semantic inconsistency between image and knowledge base |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |