CN104657375A

CN104657375A - 一种图文主题描述方法、装置以及系统

Info

Publication number: CN104657375A
Application number: CN201310589757.4A
Authority: CN
Inventors: 张媛; 董师师; 陈小军
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2015-05-27
Anticipated expiration: 2033-11-20
Also published as: CN104657375B

Abstract

本发明适用于移动终端技术领域，提供了一种图文主题描述方法及装置，包括：获取未标注的图文并茂文档，所述图文并茂文档包括图片和文字；对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息，所述图文信息包括图片特征元素以及文本单词；根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率，所述主题模型包括第一主题模型和第二主题模型；对所述概率从高到低进行排序，选取排名前若干个文本单词作为描述所述图片的文本单词。在本实施例中，避免了出现现有技术只对图文并存文档进行单侧的主题描述，导致描述得到的结果有效性偏低的情况，从而提高了主题描述的有效性和描述效率。

Description

一种图文主题描述方法、装置以及系统

技术领域

本发明属于移动终端技术领域，尤其涉及一种图文主题描述方法、装置以及系统。

背景技术

凭借着科技的迅猛发展，人类社会向信息化、数字化、网络化不断推进，而计算机技术以及互联网的兴起使各种信息的传播速度大大加快，人们可以访问和获取的数据量呈现出爆炸式的增长。但是海量的数据在带给人们各种便利的同时，也带来了极大的问题，即人们如何在浩如烟海的数据中找到自己真正需要的信息。因此准确、充分地表达数据以及对数据背后隐含信息的挖掘变得十分重要。

隐藏语义描述，即Latent Semantic Analysis，是较早出现的隐藏语义挖掘模型。该模型通过将高维向量映射到潜在语义空间，即将文档-词的映射关系变换成文档-语义-词的关系，来实现降维，从而挖掘文本中词语的一词多义、一义多词的隐含信息。模型通过线性代数的一系列运算实现语义维度的抽取，得到低维语义空间的文档信息，即语义信息的浓缩，从而压缩数据存储所占用的空间，同时降低噪声对文档集合的影响。

随后有了主题模型的出现，及Topic Models。所谓主题，就是指隐含语义描述的语义维度。根据给定的文档集合不同，文档所表达的隐含主题就不同。主题模型的表现形式是一系列具有隐含关系的词语，与该主题关系越密切的词语出现的可能性就越大。主题通过对语料集合的概括、抽象及压缩，实现信息的抽取和语义的降维。利用主题模型不但可以描述出某个主题下词的分布，还可以描述出给定任意一篇文档其中的主题分布，这对文档的自动归类有着极其重要的意义。因此，主题模型诞生之后，凭借其有效性及可扩展性，被广泛的应用于实际的文本挖掘任务中。

然而，由于现有的主题模型只适用于对单一格式的对象（如纯文本或纯图像）进行主题描述，当描述图文并茂的文档时，依然只会对图文并茂的文档中的单侧进行主题描述，如只描述图文并茂的文档中的图像，或只描述图文并茂的文档中的文档，由于描述的数据不够全面，因此描述得到的结果有效性偏低。

发明内容

本发明实施例的目的在于提供一种图文主题描述方法，旨在解决现有技术只对图文并存文档进行单侧的主题描述，导致描述得到的结果有效性偏低的问题。

本发明实施例是这样实现的，一种图文主题描述方法，包括：

获取未标注的图文并茂文档，所述图文并茂文档包括图片和文字；

对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息，所述图文信息包括图片特征元素以及文本单词；

根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率，所述主题模型包括第一主题模型和第二主题模型；

对所述概率从高到低进行排序，选取排名前若干个文本单词作为描述所述图片的文本单词。

本发明实施例的另一目的在于提供一种图文主题描述装置，包括：

获取单元，用于获取未标注的图文并茂文档，所述图文并茂文档包括图片和文字；

预处理单元，用于对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息，所述图文信息包括图片特征元素以及文本单词；

生成单元，用于根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率，所述主题模型包括第一主题模型和第二主题模型；

选取单元，用于对所述概率从高到低进行排序，选取排名前若干个文本单词作为描述所述图片的文本单词。

在本发明实施例中，根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率，所述主题模型包括第一主题模型和第二主题模型；对所述概率从高到低进行排序，选取排名前若干个文本单词作为描述所述图片的文本单词，以完成对图文信息的描述，从而完成了对图文并存文档的主题描述，避免了出现现有技术只对图文并存文档进行单侧的主题描述，导致描述得到的结果有效性偏低的情况，从而提高了主题描述的有效性和描述效率。

附图说明

图1是本发明实施例提供的图文主题描述方法的实现流程图；

图2是本发明实施例提供的对文本单词的概率进行排序的较佳示意图;

图3是本发明实施例在实际应用中的较佳结构框图；

图4是本发明实施例提供的图文主题描述装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

图1示出了本发明实施例提供的一种图文主题描述方法的实现流程，详述如下：

在步骤S101中，获取未标注的图文并茂文档，所述图文并茂文档包括图片和文字；

在本实施例中，未标注的图文并茂文档表示不具备标注字符串的图文并茂文档，所述标注字符串包括但不限于标注词。例如，上传到网站上不带有标注词的图文并茂文档，该类文档即表示未标注的图文并茂文档。

在本实施例中，获取未标注的图文并茂文档，所述图文并茂文档包括图片和文字，可采用现有技术的任一种方式获取，如通过上网的方式获取，或通过本地数据库导入的方式获取。

在步骤S102中，对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息，所述图文信息包括图片特征元素以及文本单词；

在本实施例中，对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息，所述图文信息包括图片特征元素以及文本单词，包括：

采用预设的图像特征提取方式，对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息中的图片特征元素，所述图像特征提取方式包括SIFT提取方式；

采用预设的文本特征提取方式，对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息中的文本单词，所述文本特征提取方式包括分词方式。

在本实施例中，图像特征提取方式包括但不限于SIFT提取方式，也可以采用现有的其它图像特征提取方式。如Fourier变换法、小波变换法、最小二乘法、边界方向直方图法等。

优选地，本发明采用SIFT特征符，将每幅图片表示成一个特征点的集合，每个特征点由一个128维浮点数组表示，应用k-means聚类实现特征点的归并。然后类比文本文档的处理，将特征点看成图片中的词汇，统计图片中特征点出现的频率，并建立多个特征点与一个文档的对应关系，最后映射到特征点-文档的词频矩阵中。进一步地，通过聚类k-means的方式，将类似的特征点采用聚类的方式化为同类，使得图片经过归并后，可以实现对特征点-文档词频矩阵的降维作用，从而可将特征点直接映射到特征点-文档对应的词频矩阵中，从而便于后续调用。

在本实施例中，文本特征提取方式包括但不限于分词方式。具体地，根据分词技术将文本分割成若干个单词，然后统计出每个文档中所出现单词的词频，并建立多个单词与一个文档的对应关系，最后映射到单词-文档的词频矩阵中，以便于后续调用。

在本实施例中，需要进行说明的是，以预设格式的矩阵存储图片特征元素以及文本单词，且图片特征元素以及文本单词存储在同一个矩阵上，为便于后续的说明，该矩阵以字母C表示。

在步骤S103中，根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率，所述主题模型包括第一主题模型和第二主题模型；

在本实施例中，主题模型包括第一主题模型和第二主题模型。

作为本发明的一个优选实施例，在所述根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率之前，包括：

建立第一主题模型：

所述第一主题模型如下：

其中，C表示存储图文信息中图片特征元素以及文本单词的矩阵，α是狄利克雷分布的参数，π表示列向量，代表一组主题分布发生的概率，参数矩阵θ中表示文本主题y生成图片主题z的概率；参数矩阵表示文本主题y对应文本描述t的概率；参数矩阵β中表示图片主题z对应图片特征元素s的概率。

具体地，当i、j分别表示参数矩阵的行数和列数时，参数矩阵θ中元素θ_ij表示文本主题y_i生成图片主题z_j的概率；参数矩阵中元素表示文本主题y_i对应文本描述t_j的概率；参数矩阵β中元素β_ij表示图片主题z_i对应图片特征元素s_j的概率。

在本实施例中，主题模型定义文档由两部分构成，第一部分是图片特征元素s，第二部分是文本单词t，y表示文本主题信息的随机变量，z表示主题信息的随机变量。此外，由于一篇文本的生成过程就是重复的从词汇表中选取单词的过程，因此文本的生成过程服从多项式分布。因此，可将图片隐含的主题看做文本隐含信息的抽象，即图片主题z由文本主题y生成，并服从参数为θ的多项式分布。此外，与经典主题模型LDA相同，主题共存模型也基于主题及单词词序无关的“词袋假设”。现有无法有效对图文并存文档进行主题描述，导致描述得到的结果有效性偏低的问题。

将图文混合结构文档抽象成主题模型，其文档的生成过程如下：

（1）选择π，π服从Dirichlet(α)分布，π是列向量，代表一组主题分布发生的概率，α是狄利克雷分布的参数；

（2）对文本t中的M个词元素中的每一个:

（a）选择文本主题y_m，y_m服从Multinomial(π)多项式分布，y_m代表当前选择的文本主题；

（b）根据y_m主题下的多项分布选择文本词汇t_m，其中是记录某个文本主题下生成某个单词的概率的参数矩阵；

（3）对图片s中的L个特征元素中的每一个:

（a）根据图片主题y及参数θ的多项式分布p(z_l|y,θ)选择图片主题z_l；

（b）根据z_l主题下的多项分布p(s_l|z_l,β)选择图片特征元素s_l，其中β是记录某个图片主题下生成某个图片特征元素的概率的参数矩阵。

在本实施例中，对于参数矩阵θ、参数矩阵参数矩阵β，无法直接求解，本方案采用Gibbs抽样法对参数进行求解。Gibbs抽样是计算LDA主题模型参数的一种数学实现方法。通过蒙特卡罗方法，采用类积分方法，通过大量的循环随机抽样，利用上一次计算结果作为先验概率，之后再计算后验概率，根据贝叶斯和统计学相关理论，在循环次数足够多的时候其计算结果将逼近真实值，从而可求出参数矩阵θ、参数矩阵参数矩阵β，以便于后续将参数矩阵θ、参数矩阵参数矩阵β代入第二主题模型，算出参数矩阵s|t的值。

建立第二主题模型：

所述第二主题模型如下：

在本实施例中，参数矩阵s|t表示描述图片s所有文本单词t的概率，也就是每个图片中对应文本描述的所有单词的概率，参数矩阵θ表示文本主题y生成图片主题z的概率；参数矩阵表示文本主题y对应文本描述t的概率；参数矩阵β中表示图片主题z对应图片特征元素s的概率。

其中，当i、j分别表示参数矩阵的行数和列数时，参数矩阵θ中元素θ_ij表示文本主题y_i生成图片主题z_j的概率；参数矩阵中元素表示文本主题y_i对应文本描述t_j的概率；参数矩阵β中元素β_ij表示图片主题z_i对应图片特征元素s_j的概率。

在本实施例中，根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率，包括：

根据预先建立的主题模型中的第一主题模型以及所述图文信息，生成参数矩阵θ、参数矩阵以及参数矩阵β，所述参数矩阵θ表示文本主题y生成图片主题z的概率，所述参数矩阵表示文本主题y对应文本描述t的概率，所述参数矩阵β中表示图片主题z对应图片特征元素s的概率；

根据预先建立的主题模型中的第二主题模型，以及生成的参数矩阵θ、参数矩阵以及参数矩阵β，生成描述所述图片的所有文本单词的概率s|t。

在本实施例中，在第二主题模型中，代入第一主题模型求出的参数矩阵θ、参数矩阵参数矩阵β，算出参数矩阵s|t的值，从而得出描述图片s所有文本单词t的概率。

在本实施例中，通过第一主题模型可对图文并茂的文档进行主题描述，由于描述的数据全面，因此描述得到的结果有效性会有所提高。

在步骤S104中，对所述概率从高到低进行排序，选取排名前若干个文本单词作为描述所述图片的文本单词。

在本实施例中，通过排序函数对描述所述图片的所有文本单词的概率进行排序。选取排名前若干个文本单词，文本单词的个数可以为用户自设，也可以通过系统默认，在此不做限制。从而可以选取排名前若干个文本单词作为描述所述图片的文本单词。

参考图2，图2示出了对描述图片的所有文本单词的概率进行排序的较佳示意图。

由于以往的主题模型只适用于对单一格式的对象（如纯文本或纯图像）进行主题描述，无法对混合格式的文档，尤其是图文并茂的文档进行主题描述。同时，与此相关的图片检索技术则主要通过标签的识别或人工标注等外部信息进行匹配，近年来出现的基于图像内部特征如颜色、形状、纹理等内部特征匹配的方法对图像的识别率有了较大改善，然而多为基于特征层的机械匹配，缺乏对图像与之详细描述文本信息的关联与学习过程，因此对图片隐藏语义的挖掘程度还不是特别深入。

本发明通过对互联网上的图文信息自动提取出主题，将图片信息自动与文本信息关联，对混合结构文档的挖掘提出了一种新思路，同时可应用与图片信息的检索，将图片的检索自动转化为对其对应文本描述信息的检索，使图片的检索的结果更具有语义相关性。

实施例2

图3示出了本发明实施例在实际应用中的较佳结构框图，详述如下：

31，数据采集模块；

为了增强模型的实用性，使其能够适用于真实数据，本发明采用爬虫技术从互联网获取图文混合结构的文档作为实验样本。为了达到主题提取的效果，并使主题类别尽量丰富且有区分度，本发明采用爬虫从旅游风景网站、动植物及海洋知识等网站、图文新闻等网站自动抽取图文混合结构的页面，并对页面解析抽取其中的图文信息。

32，数据预处理模块；

图片特征提取

对于图片，本发明采用SIFT算法来实现特征的提取。SIFT算法是Lowe在总结了现有基于不变量技术的特征检测方法基础上，提出的一种基于尺度空间的图像局部特征描述算法。本发明采用SIFT特征符，将每幅图片表示成一个特征点的集合，每个特征点由一个128维浮点数组表示，应用k-means聚类实现特征点的归并。然后类比文本文档的处理，将特征点看成图片中的词汇，统计图片中特征点出现的频率，并映射到特征点-文档的词频矩阵中。增加k-means聚类这一步骤的目的是由于采用SIFT提取出的特征几乎都是不一样的，如果直接映射到特征点-文档对应的词频矩阵中，则矩阵过于稀疏，很难达到提取主题的目的，因此本发明将类似的特征点采用聚类的方式化为同类，使得图片经过归并后，可以实现对特征点-文档词频矩阵的降维作用。

文本特征提取

对于文本，本发明采用分词技术将文本分割成若干个词，然后统计出每个文档中所出现单词的词频，然后映射到词汇-文档的词频矩阵中。

33，图文主题建模模块；

将图文混合结构文档抽象成异构主题模型，其文档的生成过程如下：

（2）对文本t中的M个词元素中的每一个:

（3）对图片s中的L个特征元素中的每一个:

对于参数θ，z无法直接求解，本方案采用Gibbs抽样法对参数进行求解。Gibbs抽样是计算LDA主题模型参数的一种数学实现方法。通过蒙特卡罗方法，采用类积分方法，通过大量的循环随机抽样，利用上一次计算结果作为先验概率，之后再计算后验概率，根据贝叶斯和统计学相关理论，在循环次数足够多的时候其计算结果将逼近真实值。

34，图文主题抽取模块。

对于数据集合中的图片，通过如下步骤获得其对应主题的文本描述：

通过参数z，即记录某一图片中包含某一图片主题的概率的参数矩阵，将图片主题按概率大小排序，获得某一图片中概率较大的若干个图片主题。

通过参数θ，即记录文本主题生成图片主题的概率的参数矩阵，获取某一图片主题对应文本主题的后验概率，并将其排序，获取某一图片主题所对应的概率较大的若干个文本主题。

通过参数即记录某个文本主题下生成某个单词的概率的参数矩阵，将概率按大小排序，获取（2）中文本主题所对应的概率较大的若干词汇，即对主题的文本描述。

实施例3

图4示出了本发明实施例提供的一种图文主题描述装置的结构框图，该装置可以运行于具备触摸屏的各种终端，为了便于说明，仅示出了与本实施例相关的部分。

参照图4，该图文主题描述装置，包括：

获取单元41，用于获取未标注的图文并茂文档，所述图文并茂文档包括图片和文字；

预处理单元42，用于对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息，所述图文信息包括图片特征元素以及文本单词；

生成单元43，用于根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率，所述主题模型包括第一主题模型和第二主题模型；

选取单元44，用于对所述概率从高到低进行排序，选取排名前若干个文本单词作为描述所述图片的文本单词。

进一步地，在该装置中，所述预处理单元，包括：

图片特征提取单元，用于采用预设的图像特征提取方式，对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息中的图片特征元素，所述图像特征提取方式包括SIFT提取方式；

文本特征提取单元，用于采用预设的文本特征提取方式，对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息中的文本单词，所述文本特征提取方式包括分词方式。

进一步地，在该装置中，还包括第一建立单元以及第二建立单元，所述第一建立单元用于建立第一主题模型，

所述第一主题模型如下：

其中，参数矩阵C表示存储图文信息中图片特征元素以及文本单词的矩阵，α是狄利克雷分布的参数，π表示列向量，代表一组主题分布发生的概率，参数矩阵θ中表示文本主题y生成图片主题z的概率；参数矩阵表示文本主题y对应文本描述t的概率；参数矩阵β中表示图片主题z对应图片特征元素s的概率；

所述第二建立单元用于建立第二主题模型，

所述第二主题模型如下：

其中，参数矩阵s|t表示描述图片s所有文本单词t的概率，参数矩阵θ表示文本主题y生成图片主题z的概率；参数矩阵表示文本主题y对应文本描述t的概率；参数矩阵β中表示图片主题z对应图片特征元素s的概率。

进一步地，在该装置中，所述生成单元，包括：

第一生成单元，用于根据预先建立的主题模型中的第一主题模型以及所述图文信息，生成参数矩阵θ、参数矩阵以及参数矩阵β，所述参数矩阵θ表示文本主题y生成图片主题z的概率，所述参数矩阵表示文本主题y对应文本描述t的概率，所述参数矩阵β中表示图片主题z对应图片特征元素s的概率；

本发明实施例提供的装置可以应用在前述对应的方法实施例一、二中，详情参见上述实施例一、二的描述，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图文主题描述方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对获取到的未标注的图文并茂文档进行预处理，获取所述未标注的图文并茂文档的图文信息，所述图文信息包括图片特征元素以及文本单词，包括：

3.如权利要求1所述的方法，其特征在于，在所述根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率之前，包括：

建立第一主题模型，

所述第一主题模型如下：

其中，参数矩阵C表示存储图文信息中图片特征元素以及文本单词的矩阵，α是狄利克雷分布的参数，π表示列向量，代表一组主题分布发生的概率，参数矩阵θ中表示文本主题y生成图片主题z的概率；参数矩阵表示文本主题y对应文本描述t的概率；参数矩阵β中表示图片主题z对应图片特征元素s的概率。

4.如权利要求1所述的方法，其特征在于，在所述根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率之前，还包括：

建立第二主题模型，

所述第二主题模型如下：

5.如权利要求1所述的方法，其特征在于，所述根据预先建立的主题模型以及所述图文信息，生成描述所述图片的所有文本单词的概率，包括：

6.一种图文主题描述装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述预处理单元，包括：

8.如权利要求6所述的装置，其特征在于，还包括第一建立单元以及第二建立单元，所述第一建立单元用于建立第一主题模型，

所述第一主题模型如下：

所述第二建立单元用于建立第二主题模型，

所述第二主题模型如下：

9.如权利要求6所述的装置，其特征在于，所述生成单元，包括：

10.一种图文主题描述系统，其特征在于包括权利要求6至9任意一项所述的装置。