CN109992784A

CN109992784A - 一种融合多模态信息的异构网络构建和距离度量方法

Info

Publication number: CN109992784A
Application number: CN201910277644.8A
Authority: CN
Inventors: 李建欣; 宁元星; 彭浩; 龚其然; 李晨; 胡春明
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-07-09
Anticipated expiration: 2039-04-08
Also published as: CN109992784B

Abstract

本发明提出一种融合多模态信息的异构网络构建和距离度量方法，包括以下步骤，步骤1，事件的信息提取，将事件进行分词，并将分词结果进行类别划分；步骤2，将提取的所述分词结果构建为异构信息网络，其中的结点为所述关键词；步骤3，通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵S(i,j)，所述S(i,j)为表示事件i与事件j的相似度；步骤4，利用PP_GCN训练得到不同相似度矩阵的系数；步骤5，利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。

Description

一种融合多模态信息的异构网络构建和距离度量方法

技术领域

本发明涉及异构信息网络，主要涉及到一种融合多模态信息的异构网络构建和距离度量方法。

背景技术

异构信息网络是一种结点和链接类型不同的图结构，现实中很多问题都可以建模为异构信息网络，例如社交媒体事件挖掘。不同于传统网络，异构信息网络明确区分网络中的结点类型和链接类型，即结点可以关联不同类型信息，结点间可以建立不同链接关系，结点和链接都可以附加不同属性。甚至，结点和链接通常附加时间信息，从而反映信息网络的动态性。例如，微博用户之间形成相互交流、发布、分享、关注、转发、评论、点赞等行为，以及推文包括时间、地点和关键词等多类型结点。因此，异构网络的研究和发展具有很重要的作用。

然而，现有技术中没有针对事件的异构信息网络表示学习方法，而且社交媒体事件组成异构信息网络复杂且具有动态性，一方面体现在需要针对HIN设计监督和无监督类型的算法，以及针对在线数据的，特别在基于监督meta-path的random walk等算法，也就是一阶马尔可夫链，不能很好的表达HIN中结点之间的邻近性(proximity)，另一方面，现在做的事件相似度比较方面效果使用文本整体内容的embedding进行事件比较的，准确度和速度方面都有所欠缺。

发明内容

针对以上问题，本发明提出一种融合多模态信息的异构网络构建和距离度量方法，这种方式上不再整体比较两个事件的内容，而是从事件中提取entity(实体)，word(词)，topic(主题)来进行事件的相似度比较。

本发明包括以下步骤：步骤1，事件的信息提取，将事件进行分词，并将分词结果进行类别划分；步骤2，将提取的所述分词结果构建为异构信息网络，其中的结点为所述关键词；步骤3，通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵；步骤4，利用PP_GCN训练得到不同相似度矩阵的系数；步骤5，利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。

该方法有以下优势：在事件检测中可以达到更好的准确率，本发明在事件信息的提取中不同于之前的工作只做基于语义上的事件比较，本发明提取了实体词，主题信息进行事件检测，这样充分应用了事件的信息，可以达到更好的准确率；由于本发明只是从事件中提取出关键词进行信息处理，因此本发明的系统比现有技术可以达到更高的准确率；算法多参数可调，可根据需求设置，算法内部耦合性低，可移植性好。

附图说明

图1为本发明的整体流程图；

图2-a、图2-b、图2-c为一实施例的搜索展示图；

图3为本发明的异构信息网络图；

图4所示为pair wise GCN的参数训练图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示为整体流程图，本发明包括以下步骤：步骤1，事件的信息提取，将事件进行分词，并将分词结果进行类别划分；步骤2，将提取的所述分词结果构建为异构信息网络，其中的结点为所述关键词；步骤3，通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵；步骤4，利用PP_GCN训练得到不同相似度矩阵的系数；步骤5，利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。

在所述步骤1中，将事件进行分词，去停用词处理，之后将提取的词语进行类别划分，包括实体，关键词，主题，用户，用所述提取词来代表事件：主体topic是直接存在的，实体entity可以在实体知识图谱中进行查找，如果关键词能够在知识图谱中找到，那么这个词就是实体，否则就是关键词word

搜索实体北京，可查到如图2-a；如图2-b，搜索word，就无法在实体知识图谱中找到

本发明要将之前获得的不同类别的关键词构建为HIN(异构信息网络)，：事件分词后的结果分为4类结点(event，entity，word，topic)，这些结点之间的边表示它们之间的联系。

实体-实体(entity-entity)：可以在复旦的实体知识图谱中直接获得，在知识图谱中通过搜索一个实体，会找到其他和它所有相关的实体。

关键词-关键词(word-word)：词与词之间的关系通过近义词获得，如果两个词是近义词，那么这两个词之间就存在一条边

主题(topic-topic)：相关主题之间会添加一条边

实体-关键词(entity-word)：在复旦的信息知识图谱中通过查找一个实体，能够得到它的相关知识，本发明将这些语句进行分词，去停用词，就可以获得实体entity与关键词word之间的关系

entity-topic，word-topic：前一步过程就可以获得每个事件的主题topic，实体entity与关键词word，因为每个事件所拥有的主题是固定的，比如新闻类，娱乐类，军事类，那么这个事件中的实体与关键词自然就和这个主题相联系，直接建立边即可。

所述构建的异构信息网络大致为如图3所示。

meta path是异构网络中不同类别结点之间构成的路径，所述路径模拟语义信息，是一条包含关系序列的路径。Meta path定义在network Schema T＝(A,R)上，具体形式为：

其中A₁，A₂，A_l+1表示不同类别的结点，正如上面提到的entity，word，topic一样，R₁表示它们之间的关系。

meta-path中事件的相似度采用：

|{P_x→y：P_x→y∈P}|表示事件x到事件y的路径条数。

计算出任意两个事件之间的相似度，所述计算出的相似度构建为矩阵S，其中S(i,j)表示第i个事件与第j个事件之间的相似度。

所述PP_GCN是指pair wise GCN，即将数据分为两两一组作为输入，如：事件1与事件4，label(标签)是0或1，0表示这两个事件不相似，1表示这两个事件相似，具体输入为两个事件各自按照不同meta_path得到的相似度矩阵，在GCN中训练，在这个过程中保存准确率最高时的Wi参数。

如图4所示为pair wise GCN的参数训练图。PP_GCN训练是将数据分为两两一组作为输入，所述输入为两个事件各自按照不同meta-path得到的相似度矩阵，用pair-wise的GCN方法来进行训练获得W_i，所述W_i是加权求和的权重参数，将事件两两组合形成训练数据，两个事件属于同一类则设定标签为1，否则为0，然后放入GCN中进行训练。

接下来meta path得到多个相似度矩阵进行合并，所述合并采用加权求和的方式：

所述k为meta_path的条数，首先训练W_i参数，采用pair-wise的GCN方法来进行训练获得W_i，采用pair-wise可以增大数据集，提高训练准确率，将事件两两组合形成训练数据，两个事件属于同一类则设定标签为1，否则为0，然后放入GCN中进行训练，获得W_i后查找相似度就直接在相似度矩阵中进行查找。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种融合多模态信息的异构网络构建和距离度量方法，其特征在于，包括以下步骤，步骤1，事件的信息提取，将事件进行分词，并将分词结果进行类别划分；步骤2，将提取的所述分词结果构建为异构信息网络，其中的结点为所述关键词；步骤3，通过设置异构网络中不同类别结点之间构成的路径得到相似度矩阵；步骤4，利用PP_GCN训练得到不同相似度矩阵的系数；步骤5，利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。

2.如权利要求1所述的方法，其特征在于，在所述步骤1中，将事件进行分词，去停用词处理，之后将提取的词语进行类别划分，包括实体，关键词，主题，用户，用所述提取的词语词表示事件：实体是直接存在的，主题在实体知识图谱中进行查找，如果所述分词结果能够在知识图谱中找到，则其就是实体，否则就是关键词。

3.如权利要求2所述的方法，其特征在于，在所述步骤2中，将步骤1获得的不同类别的分词结果构建为异构信息网络，结点为所述不同类别的分词结果，分为4类，所述4类为事件，实体，关键词，主题。

4.如权利要求3所述的方法，其特征在于，所述异构信息网络的结构关系包括：word-word，topic-topic，entity-word，entity-topic，word-topic；所述word-word关系中，词与词之间的关系通过近义词获得，如果两个词是近义词，则这两个词之间添加一条边；所述topic-topic关系中，相关主题之间会添加一条边；所述entity-word关系中，通过查找一个实体，能够得到所述实体的相关知识，将所述相关知识的语句进行分词，去停用词，获得实体与关键词之间的关系；所述entity-topic和所述word-topic中，在步骤1中获得每个事件的主题，实体与关键词，直接将主题、实体、关键词之间建立关系。

5.如权利要求4所述的方法，其特征在于，在所述步骤3中，设置异构网络中不同类别结点之间构成的路径得到事件相识度的方式为，构建meta-path路径，所述meta-path路径具体形式为：

其中A₁，A₂，...A_l+1表示不同类别的结点,R₁表示所述结点之间的关系，所述l为正整数，；

所述meta-path路径中事件的相似度为：

|{P_x→y：P_x→y∈P}|表示事件x到事件y的路径条数，

计算出任意两个事件之间的相似度，所述计算出的相似度构建为相似度矩阵S(i,j)，所述S(i,j)表示第i个事件与第j个事件之间的相似度，i，j均为正整数。

6.如权利要求5所述的方法，其特征在于，在所述步骤4中，所述PP_GCN训练是将数据分为两两一组作为输入，所述输入为两个事件各自按照不同meta-path得到的相似度矩阵，用pair-wise的GCN方法来进行训练获得W_i，所述W_i是加权求和的权重参数，将事件两两组合形成训练数据，两个事件属于同一类则设定标签为1，否则为0，然后放入GCN中进行训练。

7.如权利要求6所述的方法，其特征在于，在所述步骤5中，对相似度矩阵进行合并的方式为，采用加权求和的方式