CN110969187A

CN110969187A - 一种图谱迁移的语义分析方法

Info

Publication number: CN110969187A
Application number: CN201911045787.2A
Authority: CN
Inventors: 周正斌; 陆文斌; 张应福; 王波; 王耀; 花福军
Original assignee: Creative Information Technology Co ltd
Current assignee: Creative Information Technology Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-04-07
Anticipated expiration: 2039-10-30
Also published as: CN110969187B

Abstract

本发明公开了一种图迁移的语义分析方法，包括如下步骤：场景图提取，利用单帧图片文本描述生成场景图模型；空间图提取，利用单帧图片生成空间图模型；模型训练预测，通过输入图和输出文本训练神经网络，并对测试集进行预测；所述模型训练预测通过图卷积网络和长短期记忆网络进行训练。本发明能适应视频中物体在空间和行为的变化，并做出正确的描述。

Description

一种图谱迁移的语义分析方法

技术领域

本发明涉及语义分析方法领域，尤其涉及一种图迁移的语义分析方法。

背景技术

随着通信技术和互联网技术的急速发展，越来越多的信息充斥着人们的生活，信息的载体也逐渐从传统的文本转变为内容更丰富的图片和视频。但是更多新信息也隐藏着隐患，暴力、色情等也混入其中影响着人们尤其是青少年的学习与生活；其次在以内容极为丰富的视频为主要信息载体的快时代，智力、视觉等障碍人士很难理解到其主要的信息。因此，拥有高效、准确的语义理解与分析方法，不仅视频分类、检索和摘要生成等任务能得到支持，而且能排除网络上的不良隐患，同时又能提供周到的服务。

语义理解与分析，目前的方法集中在以下几个方面：

(1)基于语言模型的方法

基于语言模型的语义理解与分析的基本原理是，基于命名实体识别(NER)中的判别式模型条件随机场(ConditionalRandom Field)预测得到主谓宾(SVO)三元组，然后通过将其语义表征到句子上，则生成了一句描述。

这种方法的优点在于对短小视频的处理速度快，对于常规行为的准确率很高。缺点在于对长视频或复杂场景的视频不能很好的进行行为追踪，并且执着于主谓宾结构容易遗失环境信息。

(2)基于视频特征的方法

基于视频特征的方法不同于2D特征，它主要对视频中的行为和活动进行识别，一般采用3D卷积(C3D)或双流方法，如图3所示。

不同于语言模型得到的主谓宾结构，虽然该方法对于生成语义理解描述更加有利，但是视频特征需要判断视频中行为实体的具体行为。

(3)基于音频特征的方法

基于音频特征的方法不同于前两种方法，可以通过背景音判断环境或场景，也可以通过判断讲话内容了解到视频特征无法判断的行为或更深层次的信息。

但此方法依赖于音频质量，例如体育比赛不能像视频或图像特征判断出具体内容。

(4)基于融合特征的方法

基于融合特征的基本思想是将视频特征和音频特征融合编码得到一个上下文，则解码阶段每个时刻的输出单词需要用到不同的上下文，但是通常会用到注意力机制。

一种基本应用是解码时对于某个时刻的隐状态计算与编码时所有时刻的输出的相似度，需要进行softmax得到权重注意力，用权重与编码时所有时刻的输出相乘才能得到最终的上下文。

发明内容

本发明的目的在于实现一种图迁移的准确语义分析的方法，需要适应视频素材的多个场景，提高分析的准确率和效率。

一种图迁移的语义分析方法，包括如下步骤：

场景图提取，利用单帧图片文本描述生成场景图模型；

空间图提取，利用单帧图片生成空间图模型；

模型训练预测，通过输入图和输出文本训练神经网络，并对测试集进行预测；

所述模型训练预测通过图卷积网络和长短期记忆网络进行训练。

进一步地，所述场景图提取，包括如下步骤：

S11：对单帧图片文本描述进行依存句法分析；

S12：得到单帧图片文本描述的依存关系，生成图片的场景图模型： M₁＝{(Subject₁,Relationship₁,Receptor₁),(Subject₂,Relationship₂,Receptor₂)...(Subject_k,Relationship_k,Receptor_k)}

其中，Subject为主体，Receptor为受体，Relationship为主体与受体间的关系，k为三元组数量。

进一步地，所述空间图提取，包括如下步骤：

S21：使用图卷积网络得到单帧图片中物体的类别和坐标；

S22：根据物体所标注的物体的坐标计算得到空间图模型：

M₂＝{(Subject₁,Distance₁,Receptor₁),(Subject₂,Distanc₂,Receptor₂)...(Subject_l,Distance_l,Receptor_l)}

其中，Subject为主体，Receptor为受体，Distance为主体与受体的距离，l为三元组数量。

进一步地，所述计算得到空间图模型包含如下子步骤：

S221：初始化n阶无向完全图G＝(V，E)，V＝{v₁，v₂...v_n}，E＝{e₁，e₂...e_(n-1)n/2}，其中，n为物体总数，V为点集，E为边集，v₁，v₂...v_n为各物体，e₁，e₂...e_(n-1)n/2为距离，初始为正无穷；

S222：输入步骤S21的结果，对于点v_i，v_j，其中i，j∈{1，2...n}，i≠j：

其中，Union_ij表示v_i和v_j的并区域的面积，Whole_ij表示覆盖了v_i和v_j的最小矩形区域的面积；

S223：根据物体坐标框中心点关系，由下至上、由左至右、由左下至右上或由右下至左上，基于S222的结果，将v_i和v_j的连边e_m由一条权值为UoW_ij的有向边代替；

S224：对所有点v_i，v_j，其中i，j∈{1，2...n}，i≠j进行S223的操作，直到G中无无向边结束。

进一步地，所述模型训练预测，包括如下步骤：

S31：构建一个图卷积网络N1，包含5个图卷积层，层与层之间为平均池化层；构建一个图卷积网络N2，包含5个图卷积层，层与层之间为平均池化层；构建一个两层栈式长短期记忆网络N3；在N3之前，构建一个拼接层，拼接N1和N2输出的嵌入向量；

S32：模型的训练集为场景图提取和空间图提取生成的图模型M1和M2，以及对视频的参考描述D，使用Adam算法对模型进行训练模型训练完毕后将模型进行保存；

S33：对视频的所有单帧图片及单帧图片文本描述进行测试，得到该视频的描述；

进一步地，所述步骤S33包括以下步骤：

S331：对一个新的视频的所有单帧图片及单帧图片进行文本描述，将文本描述和图片分别进行场景图提取和空间图提取，得到场景图模型和空间图模型；

S332：载入所述图卷积网络和长短期记忆网络模型中已经保存好的模型，输入场景图模型和空间图模型，得到若干个单词；

S333：对于一个新的视频的所有单帧图片及单帧图片文本描述，经过得到的若干个视频描述单词，直接拼接得到完整的视频描述。

本发明的有益效果是：

(1)网络使用了场景图和空间图作为输入，相比于基本视频特征能更好的解释行为实体之间的关系以及关系的变化；

(2)图卷积网络(GCN)局部参数共享并且感受域正比于层数，在节点分类与边预测更有优势，在编码场景图和空间图后得到的嵌入向量包含更多的其他局部信息；

附图说明

图1为本发明一种图迁移的语义分析的流程图；

图2为本发明一种图迁移的语义分析的结构框图；

图3是基于视频特征方法实现语义分析的结构框图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

具体实施例如图1所示，一种图迁移的语义分析方法，包括如下步骤：

场景图提取，利用单帧图片文本描述生成场景图模型；

空间图提取，利用单帧图片生成空间图模型；

进一步地，所述场景图提取，包括如下步骤：

S11：对单帧图片文本描述进行依存句法分析；

进一步地，所述空间图提取，包括如下步骤：

S21：使用图卷积网络得到单帧图片中物体的类别和坐标；

S22：根据物体所标注的物体的坐标计算得到空间图模型：

进一步地，所述计算得到空间图模型包含如下子步骤：

进一步地，所述模型训练预测，包括如下步骤：

进一步地，所述步骤S33包括以下步骤：

图2为本发明一种图迁移的语义分析的结构框图，包括以下步骤：

S1：输入层为预先处理得到的场景图模型M_1t和空间图模型M_2t，其中t表示视频的时刻；

S2：图卷积网络(GCN)层输入为预先处理得到的场景图模型M_1t和空间图模型M_2t，分别在图卷积神经网络中进行计算，将计算得到的向量vec_Scene，t和vec_Space，t进行连接(concatenate)并输出新的向量vec_t；

S3：长短期记忆网络(LSTM)层依次输入由各图卷积网络(GCN)层输出得到的向量vec₁，vec₂...vec_n，其中n表示视频的总帧数；计算并输出单词word₁，word₂...word_m，其中m表示单词个数；

S4：输出层将单词word₁，word₂...word_m拼接成句子。

所述LSTM层包括如下子步骤：

S31：一开始先由底层长短期记忆网络(LSTM)接受帧序列并进行编码，而第二层的长短期记忆网络(LSTM)接受第一层的隐含状态h,并将其与零填充符相连然后编码，这个过程不计算损失值；

S32：在所有帧都输出隐含状态后，第二层长短期记忆网络(LSTM)送入起始符<BOS>，促使其开始将受到的隐藏状态解码成单词序列；

S33：解码阶段进行训练时，在已经知道帧序列的隐藏状态及之前输出的单词的条件下，计算得到预测句子的对数似然性,训练目标就是使得相似性到达最大值。

S34：整个训练数据集上使用随机梯度下降算法进行优化，从而使得长短期记忆网络 (LSTM)学习更合适的隐含状态h；同时明确表示句子结束的符号<EOS>，这使得模型能够满足不同长度的输出。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种图迁移的语义分析方法，其特征在于，包括如下步骤：

场景图提取，利用单帧图片文本描述生成场景图模型；

空间图提取，利用单帧图片生成空间图模型；

2.根据权利要求1所述的一种图迁移的语义分析方法，其特征在于，所述场景图提取，包括如下步骤：

S11：对单帧图片文本描述进行依存句法分析；

S12：得到单帧图片文本描述的依存关系，生成图片的场景图模型：M₁＝{(Subject₁，Relationship₁，Receptor₁)，(Subject₂，Relationship₂，Receptor₂)...(Subject_k，Relationship_k，Receptor_k)}

3.根据权利要求1所述的一种图迁移的语义分析方法，其特征在于，所述空间图提取，包括如下步骤：

S21：使用图卷积网络得到单帧图片中物体的类别和坐标；

S22：根据物体所标注的物体的坐标计算得到空间图模型：

M₂＝{(Subject₁，Distance₁，Receptor₁)，(Subject₂，Distanc₂，Receptor₂)...(Subject_l，Distance_l，Receptor_l)}

其中，Subject为主体，Receptor为受体，Distance为主体与受体的距离，1为三元组数量。

4.根据权利要求3所述的一种图迁移的语义分析方法，其特征在于，所述计算得到空间图模型包含如下子步骤：

S221：初始化n阶无向完全图G＝(V，E)，V＝{v₁，v₂…v_n}，E＝{e₁，e₂…e_(n-1)n/2}，其中，n为物体总数，V为点集，E为边集，v₁，v₂…v_n为各物体，e₁，e₂…e_(n-1)n/2为距离，初始为正无穷；

S222：输入步骤S21的结果，对于点v_i，v_j，其中i，j∈{1，2…n}，i≠j：

S224：对所有点v_i，v_j，其中i，j∈{1，2…n}，i≠j进行S223的操作，直到G中无无向边结束。

5.根据权利要求1所述的一种图迁移的语义分析方法，其特征在于，所述模型训练预测，包括如下步骤：

S33：对视频的所有单帧图片及单帧图片文本描述进行测试，得到该视频的描述。

6.根据权利要求1所述的一种图迁移的语义分析方法，其特征在于，所述步骤S33包括以下步骤：