CN111222000A

CN111222000A - 一种基于图卷积神经网络的图像分类方法及系统

Info

Publication number: CN111222000A
Application number: CN201911420143.7A
Authority: CN
Inventors: 李旦; 梁庆中; 孙晨鹏; 赵东阳; 陈仁谣
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02
Anticipated expiration: 2039-12-31
Also published as: CN111222000B

Abstract

本发明提供一种基于图卷积神经网络的图像分类方法及系统，具体包括：用爬虫根据图像标签在网络上爬取图像对应一段文本信息；对所述文本信息预处理，得到词语；计算词语与词语之间的PMI值、图像与词语之间的TF‑IDF值；根据所述PMI值和TF‑IDF成图，构成图像与词语作为结点的图结构数据；利用图卷积神经网络对图结构数据进行处理，得到图像分类结果；本发明的有益效果是：在原有的图像数据上，为每张图像添加对应的文本描述信息，利用图卷积神经网络提高图像分类准确率。

Description

一种基于图卷积神经网络的图像分类方法及系统

技术领域

本发明涉及图像分类领域，尤其涉及一种基于图卷积神经网络的图像分类方法及系统。

背景技术

随着计算机网络的不断发展，人们每天从互联网获得大量的信息，这些信息包含了文本信息、图像信息、音频信息、视频信息等等，如何更好地获取人们感兴趣的信息，就需要对这些信息进行分类。目前针对文本信息的分类技术相对来说比较成熟，但其他三类信息的分类技术却有所欠缺，于是本人提出一种基于图卷积神经网络的图像分类方法。

现有的图像分类方法大都局限于如何更有效地利用图像本身的视觉信息，却忽略了引入外部信息来丰富文本信息的想法，这样导致文本分类准确率不。

发明内容

本发明的目的在于针对上述技术缺陷，提供一种基于图卷积神经网络的图像分类方法及系统，具体包括以下步骤：

S1：获取训练用的图像数据集，图像数据集中包含多张图像，每张图像有一个与之对应的文本标签；

S2：使用爬虫在网络上爬取与每个文本标签对应的一段文本；

S3：用自然语言处理工具对爬取到的文本进行预处理，得到与爬取到的文本相关的不同词语；

S4：计算所有词语间的PMI值，代表词语间的贡献强度；

S5：计算图像与词语间的TF-IDF值，代表图像与词语间的关联强度；

S6：根据得到的PMI值与TF-IDF值成图，得到图结构数据；

S7：利用BERT模型，得到每个词语的向量表示，作为词语结点的初始特征向量；

S8：利用卷积神经网络对图像提取特征，得到特征向量表示，作为图像结点的初始特征向量；

S9：利用图卷积神经网络对得到的所述图结构数据训练，并对最终得到的图像结点特征向量进行分类，达到图像分类的目的。

进一步地，步骤S2中，使用爬虫在网络上爬取与每个文本标签对应的一段文本时，只保留一段相关文本。

进一步地，步骤S3中，所述预处理依次包括：分词处理，除去标点和停用词。

进一步地，步骤S4中，计算PMI值的公式为：

上式中，#W(i,j)表示语料中同时包含词语i与词语j的滑动窗口数目，#W表示滑动窗口的总数，#W(i)表示包含词语i的滑动窗口的数目。

进一步地，步骤S5中，计算TF-IDF值的具体公式为：

TF-IDF＝TF×IDF

上式中，m为某个图像中词语i出现的次数，n为该图像这个所有词语的数目；p为图像总数，q为包含词语i的图像数目。

进一步地，步骤S6中根据得到的PMI值与TF-IDF值成图，具体为：若两个词语间的PMI值大于0则代表两个词语的结点间有一条连边，边的权重即为PMI值；若图像与词语间的TF-IDF值大于0，则代表图像与词语的结点间有一条连边，边的权重即为TF-IDF值。

进一步地，步骤S6中得到的图结构数据，只包含词语结点和图像结点。

进一步地，步骤S7和S8中获取的所述词语结点的初始特征向量与图像结点的初始特征向量维度相同。

步骤S9中利用图卷积神经网络对得到的所述图结构数据训练，训练过程的输入具体包括：图结构数据的邻接矩阵，其大小为N×N，N为图结构数据中的节点数目；词语结点和图像结点的特征向量矩阵，其大小为N×D，其中D为初始特征向量的维度；在步骤S9经过图卷积神经网络的训练后，得到每个图像结点的最终向量表示，再经过一层全连接层，得到每个图像结点的预测类别。

一种基于图卷积神经网络的图像分类系统，包括：

数据集获取模块，用于获取训练用的图像数据集，图像数据集中包含多张图像，每张图像有一个与之对应的文本标签；

爬虫爬取信息模块，用于使用爬虫在网络上爬取与每个文本标签对应的一段文本；

无用信息滤除模块，用于用自然语言处理工具对爬取到的文本进行预处理，得到与爬取到的文本相关的不同词语；

PMI值计算模块，用于计算所有词语间的PMI值，代表词语间的贡献强度；

TF-IDF值计算模块，用于计算图像与词语间的TF-IDF值，代表图像与词语间的关联强度；

数据成图模块，用于根据得到的PMI值与TF-IDF值成图，得到图结构数据；

BERT获取词向量模块，用于利用BERT模型，得到每个词语的向量表示，作为词语结点的初始特征向量；

卷积神经网络获取图像向量模块，用于利用卷积神经网络对图像提取特征，得到特征向量表示，作为图像结点的初始特征向量；

图卷积神经网络分类模块，用于利用图卷积神经网络对得到的所述图结构数据训练，并对最终得到的图像结点特征向量进行分类，达到图像分类的目的。

本发明提供的技术方案带来的有益效果是：在原有的图像数据上，为每张图像添加对应的文本描述信息，利用图卷积神经网络提高图像分类准确率。

附图说明

图1为本发明实施例中一种基于图卷积神经网络的图像分类方法的流程图；

图2为本发明实施例中一种基于图卷积神经网络的图像分类方法步骤说明图；

图3为本发明实施例中一种基于图卷积神经网络的图像分类系统的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

本发明实施例提供了一种基于图卷积神经网络的图像分类方法及系统。

请参考图1和图2，是本发明具体实施方式中一种基于图卷积神经网络的图像分类方法的流程图，具体包括：

S1：获取训练用的图像数据集，图像数据集中包含多张图像，每张图像有一个与之对应的文本标签；对于任意一张图像，对应的文本标签就是其类别

S2：使用爬虫在网络上爬取与每个文本标签对应的一段文本，只需要保留一段相关文本；

S3：用自然语言处理工具对爬取到的文本进行预处理，滤除无用的信息，得到与爬取到的文本相关的不同词语；无用信息包括停用词、标定符号以及HTML标签等；停用词如英语单词中的“a”、“the”等，标点符号如“！”、“，”、“。”等，HTML标签如“<br></br>”等；

S4：计算所有词语间的PMI值，代表词语间的贡献强度；

S5：计算图像(文档)与词语间的TF-IDF值，代表图像与词语间的关联强度；

计算TF-IDF值的具体公式为：

TF-IDF＝TF×IDF

S6：根据得到的PMI值与TF-IDF值成图，得到图结构数据；也就是若两个词语间的PMI值大于0则代表两个词语的结点间有一条连边，边的权重即为PMI值；若文档与词语间的TF_IDF值大于0，则代表文档(图像)与词语的结点间有一条连边，边的权重即为TF_IDF值。其中文档结点与其对应图像结点用同一个结点表示，因为文档信息是为了将图像与词语连接起来，即图结构数据中只有词语结点与图像结点。

S7：利用BERT模型，得到每个词语的向量表示，作为词语结点的初始特征向量；BERT是预训练好的模型，直接调用即可，如词语love，可以得到其向量表达为：

[-1.2312,0.9934,1.3987,5.7573,-8.2221,......,8.6543]

请参考图3，图3是本发明实施例中一种基于图卷积神经网络的图像分类系统的结构图，一种基于图卷积神经网络的图像分类系统，具体包括：

数据集获取模块31，用于获取训练用的图像数据集，图像数据集中包含多张图像，每张图像有一个与之对应的文本标签；

爬虫爬取信息模块32，用于使用爬虫在网络上爬取与每个文本标签对应的一段文本；

无用信息滤除模块33，用于用自然语言处理工具对爬取到的文本进行预处理，得到与爬取到的文本相关的不同词语；

PMI值计算模块34，用于计算所有词语间的PMI值，代表词语间的贡献强度；

TF-IDF值计算模块35，用于计算图像与词语间的TF-IDF值，代表图像与词语间的关联强度；

数据成图模块36，用于根据得到的PMI值与TF-IDF值成图，得到图结构数据；

ERT获取词向量模块37，用于利用BERT模型，得到每个词语的向量表示，作为词语结点的初始特征向量；

卷积神经网络获取图像向量模块38，用于利用卷积神经网络对图像提取特征，得到特征向量表示，作为图像结点的初始特征向量。

图卷积神经网络分类模块39，用于利用图卷积神经网络对得到的所述图结构数据训练，并对最终得到的图像结点特征向量进行分类，达到图像分类的目的。

爬虫爬取信息模块32中，使用爬虫在网络上爬取与每个文本标签对应的一段文本时，只保留一段相关文本。

无用信息滤除模块33中，所述预处理依次包括：分词处理，除去标点和停用词。

PMI值计算模块34中，计算PMI值的公式为：

TF-IDF值计算模块35中，计算TF-IDF值的具体公式为：

TF-IDF＝TF×IDF

数据成图模块36中，根据得到的PMI值与TF-IDF值成图，具体为：若两个词语间的PMI值大于0则代表两个词语的结点间有一条连边，边的权重即为PMI值；若图像与词语间的TF-IDF值大于0，则代表图像与词语的结点间有一条连边，边的权重即为TF-IDF值。

数据成图模块36中，得到的图结构数据，只包含词语结点和图像结点。

BERT获取词向量模块37和卷积神经网络获取图像向量模块38中，获取的所述词语结点的初始特征向量与图像结点的初始特征向量维度相同。

图卷积神经网络分类模块39中，利用图卷积神经网络对得到的所述图结构数据训练，训练过程的输入具体包括：图结构数据的邻接矩阵，其大小为N×N，N为图结构数据中的节点数目；词语结点和图像结点的初始特征向量矩阵，其大小为N×D，其中D为初始特征向量的维度；图卷积神经网络分类模块39中经过图卷积神经网络的训练后，得到每个图像结点的最终向量表示，再经过一层全连接层，得到每个图像结点的预测类别。

本发明的有益效果是：在原有的图像数据上，为每张图像添加对应的文本描述信息，利用图卷积神经网络提高图像分类准确率。

在本文中，所涉及的前、后、上、下等方位词是以附图中各装置位于图中以及设备相互之间的位置来定义的，只是为了表达技术方案的清楚及方便。应当理解，所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图卷积神经网络的图像分类方法，其特征在于：具体包括以下步骤：

S4：计算所有词语间的PMI值，代表词语间的贡献强度；

S6：根据得到的PMI值与TF-IDF值成图，得到图结构数据；

S9：利用图卷积神经网络、所述词语结点的初始特征向量和所述图像结点的初始特征向量对得到的所述图结构数据训练，并对最终得到的图像结点特征向量进行分类，达到图像分类的目的。

2.如权利要求1所述的一种基于图卷积神经网络的图像分类方法，其特征在于：步骤S2中，使用爬虫在网络上爬取与每个文本标签对应的一段文本时，只保留一段相关文本。

3.如权利要求1所述的一种基于图卷积神经网络的图像分类方法，其特征在于：步骤S3中，所述预处理依次包括：分词处理，除去标点和停用词。

4.如权利要求1所述的一种基于图卷积神经网络的图像分类方法，其特征在于：步骤S4中，计算PMI值的公式为：

5.如权利要求4所述的一种基于图卷积神经网络的图像分类方法，其特征在于：步骤S5中，计算TF-IDF值的具体公式为：

TF-IDF＝TF×IDF

6.如权利要求1所述的一种基于图卷积神经网络的图像分类方法，其特征在于：步骤S6中根据得到的PMI值与TF-IDF值成图，具体为：若两个词语间的PMI值大于0则代表两个词语的结点间有一条连边，边的权重即为PMI值；若图像与词语间的TF-IDF值大于0，则代表图像与词语的结点间有一条连边，边的权重即为TF-IDF值。

7.如权利要求1所述的一种基于图卷积神经网络的图像分类方法，其特征在于：步骤S6中得到的图结构数据，只包含词语结点和图像结点。

8.如权利要求1所述的一种基于图卷积神经网络的图像分类方法及系统，其特征在于：步骤S7和S8中获取的所述词语结点的初始特征向量与图像结点的初始特征向量维度相同。

9.如权利要求1所述的一种基于图卷积神经网络的图像分类方法，其特征在于：步骤S9中利用图卷积神经网络对得到的所述图结构数据训练，训练过程的输入具体包括：图结构数据的邻接矩阵，其大小为N×N，N为图结构数据中的节点数目；词语结点和图像结点的初始特征向量矩阵，其大小为N×D，其中D为初始特征向量的维度；在步骤S9经过图卷积神经网络的训练后，得到每个图像结点的最终向量表示，再经过一层全连接层，得到每个图像结点的预测类别。

10.一种基于图卷积神经网络的图像分类系统，应用于任意一种所述的基于图卷积神经网络的图像分类方法，其特征在于：一种基于图卷积神经网络的图像分类系统，具体包括：