CN104951554B

CN104951554B - 为风景照配上符合其意境的诗句的方法

Info

Publication number: CN104951554B
Application number: CN201510376739.7A
Authority: CN
Inventors: 莫凡; 赖百胜; 张政; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2018-03-06
Anticipated expiration: 2035-06-29
Also published as: CN104951554A

Abstract

本发明公开了一种为风景照配上符合其意境的诗句的方法。该方法包括：根据识别物体的差异，把用户输入的同一张风景照分别输入到三种不同的分类器中；紧接着得到一组标签，并且根据分类结果的置信度对这些标签进行排序，排序靠前的标签，在搜索诗句时会优先满足；然后每个标签在映射表中查找关键字，接着利用关键字在搜索引擎中进行诗句搜索；最后对搜索到的诗句进行标签过滤，把意境相反的诗句给过滤掉，再用LDA进行主题加权，把主题最符合风景照意境的诗句输出到图像上。本发明结合了图像处理和自然语言处理这两个领域的先进技术，与以往的方法相比能够得到更符合风景照意境的诗句。

Description

为风景照配上符合其意境的诗句的方法

技术领域

本发明属于图像处理和自然语言处理的交叉技术领域，具体涉及一种为风景照配上符合其意境的诗句的方法。

背景技术

现今，社交网络非常火爆，用户已经逐渐不满足于在朋友圈等社交平台上发送文字状态。用户为了获取更多的赞，提升自己在朋友中的影响力，通常选择发送图片状态。如果能为图片配上符合其意境的诗句，直接写进图片中，那么这种配好诗句的图片上传到朋友圈等社交平台上，必定能获取朋友们更多的关注和点赞。

对于为图片配上符合其意境的诗句这样一个通用框架，要实现显然不太现实，训练图片的获取是及其困难的，计算资源的消耗也是及其巨大的。俗话说“读万卷书，行万里路。”古代大家通常喜欢在游历祖国大江南北的同时进行诗歌创作。可以这么说，旅游某种程度上就是诗歌的代名词。所以本发明以风景照为切入点，用户输入一张风景照，本发明能自动为图片配上符合其意境的诗句。

当今旅游社交也如雨后春笋般涌现，用户可以在旅游社交平台上发旅游照片进行交友。国外例如英国社交化旅游主题分享平台Wayn，成立于2005年，现在用户已达2000万。国内如捡人网，2013年9月1日上线，是中国第一个专注于旅游社交的网站，于2014年11月拿到了1000万A轮投资。旅游社交对于结交新朋友的帮助是巨大的，而上传照片效果的好坏直接影响到新朋友的结交。如果在照片中嵌入符合其意境的诗句，那么必将产生非常积极的影响。综上所述，本发明的前景是非常巨大的。

百度公司做过类似的为图片配诗的应用，但由于切入点不对，识别的物体过多，导致识别准确率太低；并且不能很好地利用诗句中潜藏的主题信息，诗句没有充分过滤，导致最后出来的诗句和图片的意境不太相符。

发明内容

本发明的目的在于克服上述现有技术的不足，充分利用风景照中的不同特征，选择不同的分类器，从而得到更为精确的标签组合；并且充分利用诗句中潜藏的主题信息，对诗句进行了充分过滤，最终为风景照配上了更符合其意境的诗句。

本发明的目的是通过以下技术方案来实现的：一种为风景照配上符合其意境的诗句的方法，包括以下步骤：

(1)训练图片的选取，具体为：首先对诗句语料库进行单词统计，选出词频排在前500名并且表达具象的词组形成集合A；然后根据风景照数据集中的标注信息，统计出现的物体类别，选择出现频率排在前30的物体单词形成集合B；取集合C＝A∩B作为要识别的物体集合；建立整体意境的标签集合D，包括春、夏、秋、冬、白天、傍晚、黑夜、晴天、雨天；将集合C中的行人和笑脸提取出来建立行人和笑脸的标签集合E，此时，C中已经没有行人和笑脸标签；将标签集合C、D、E中的标签作为关键字从网上自动爬取训练图片；

(2)根据步骤1中爬取的标签集合C中的图片训练KNN分类器，根据标签集合D中的图片训练SVM分类器，根据标签集合E中的图片训练级联分类器，获得这些分类器的参数；将用户输入的风景照分别输入到三类分类器中进行分类，产生若干标签，并按重要性对这些标签进行排序；

(3)通过搜索引擎将步骤2识别出的标签转化为诗句，并对诗句进行主题过滤和加权，具体包括以下子步骤：

(3.1)建立关键字映射表：首先根据步骤1中对诗句语料库的词频统计，找出词频排在前2000位的词，然后标签集合C、D、E中的每个标签分别在这些词中寻找相对应的关键字，这样就形成了一张映射表；根据映射表将标签映射到关键字，一个标签对应一个或者多个关键字，如果是多个关键字，随机选择一个关键字；

(3.2)诗句筛选，包括以下子步骤：

(3.2.1)初始诗句的获取：得到关键字后，将这些关键字输入到搜索引擎进行搜索，最开始使用所有的标签映射出的关键字，重复5次随机选择关键字，直到有搜索结果返回；若5次随机选择后仍然没有结果，删掉排在最后的标签，再次重复上述过程，直到有结果返回；

(3.2.2)标签过滤：首先根据步骤1中对诗句语料库的词频统计，找出词频排在前5000位的词，然后标签集合C、D、E中的每个标签分别在这些词中寻找意境相反的关键字，这样就形成了一张相反意境映射表；根据相反意境映射表将所有识别到标签映射到多个关键字，然后利用这些关键字过滤搜索引擎返回的一组初始诗句，把意境相反的诗句给过滤掉；

(3.2.3)主题加权：采用LDA(Latent Dirichlet Allocation)模型来进行诗词主题分类；利用吉布斯采样学习到LDA模型中的一个参数矩阵，这个参数矩阵描述了某首诗归到不同主题下的概率，为D×K维，其中D表示诗的总数目，K表示主题数；赋予每个主题和风景照的匹配权重w₁～w_K，那么每首诗的总匹配权重可以由以下公式算出：

每首诗的总匹配权重越大，被选中的概率越大，这样避免了随机选择诗句时主题可能和风景照不相关的弊端，最终为风景照配上了符合其意境的诗句。

进一步地，所述步骤2中，利用KNN分类器识别出用户输入的风景照属于标签集合C中的标签，包括以下子步骤：

(a)超像素分割：使用过分割的方法将用户输入的图片分割成超像素，以超像素为单位进行识别；

(b)超像素特征提取：将RGB直方图+LBP(Local Binary Pattern)作为超像素特征，其中RGB直方图描述了超像素的颜色信息，LBP描述了超像素的纹理和边缘信息；

(c)分类识别获得标签：将训练数据输入到KNN分类器，首先，利用所有的训练数据构造一个KD树，对每个需要分类的超像素，在训练数据中去寻找与它特征最相近的超像素，并且将这些寻找到的超像素中占比最多的标签赋给需要分类的超像素；根据与最近邻的距离来计算分类的置信度，设置阈值，将置信度低于阈值的超像素过滤掉，不赋给标签；对用户输入的图像中的每个超像素进行分类后，统计每个标签占的比重，将比重高的标签排在标签列表的前面。

进一步地，所述步骤2中，利用SVM分类器识别出用户输入的风景照属于标签集合D中的标签，具体为：将RGB直方图和BoW(Bag of Word)特征作为用户输入的整幅图像的特征；将整幅图像的特征输入到训练好的季节的SVM分类器中，识别出初夏秋冬四种季节；将整幅图像的特征输入到训练好的天气的SVM分类器中，识别出晴天雨天两种天气；将整幅图像的特征输入到训练好的时间的SVM分类器中，识别出白天傍晚黑夜三种时间。

进一步地，所述步骤2中，利用级联分类器识别出用户输入的风景照属于标签集合E中的标签，具体为：通过级联分类器+Haar特征检测笑脸，通过级联分类器+HOG特征检测行人。

本发明具有的有益效果是：充分利用风景照中的不同特征，选择不同的分类器，从而得到更为精确的标签组合；并且充分利用诗句中潜藏的主题信息，对诗句进行了充分过滤，从而为风景照配上了更符合其意境的诗句，最终极大地提升了用户体验。

附图说明

图1为超像素分割结果图；

图2为笑脸识别示意图；

图3为分类器和搜索引擎的流程图；

图4为通过本发明方法对风景照配诗的效果图1；

图5为通过本发明方法对风景照配诗的效果图2；

图6为通过本发明方法对风景照配诗的效果图3。

具体实施方式

下面结合附图与实施例对本发明作进行进一步说明。

本发明结合了图像处理领域和自然语言处理领域的交叉技术，具体涉及一种为风景照配上符合其意境的诗句的方法，包括如下步骤：

(1)训练图片的选取

首先对诗句语料库进行暴力单词统计，所述诗句词料库为自然语言处理领域公开的数据集。以唐诗为例，因为唐诗以五言和七言居多，并且断句大多是2/2/1(五言)和2/2/2/1(七言)，由于单个字没有太多语义信息，所以在这里选取了2个字的单词作为统计。对于“白日依山尽”，暴力分词直接拆解成“白日”，“日依”，“依山”，“山尽”。由于“日依”和“山尽”是无意义的单词，在整个唐诗语料库的统计过程中，出现极少；而有意义的单词“白日”和“依山”出现的次数较多，所以无意义的单词不会影响到有意义单词的排序。

统计完之后，选出词频排在前500名并且是表达具象的词组形成集合A。然后根据风景照数据集中的标注信息，统计出现的物体类别，选择出现频率排在前30的物体单词形成集合B。所述风景照数据集为图像处理领域公开的数据集。取集合C＝A∩B作为要识别的物体集合，一共有树木、黄叶、山、白云等十多类。

在唐诗中，季节(春夏秋冬)，时间(白天傍晚黑夜)，天气(晴天雨天)对意境的影响很明显，所以我们除了对物体进行识别，还会对图片的整体意境进行识别。以此建立整体意境的标签集合D，包括春、夏、秋、冬、白天、傍晚、黑夜、晴天、雨天。

风景照中除了风景物体，人也会经常出现，所以将C中的行人和笑脸提取出来建立行人和笑脸的标签集合E。此时，C中已经没有行人和笑脸标签。

得到了要识别的标签集合C、D、E，接下来就是用这些标签作为关键字去网上自动爬取训练图片。

(2)通过分类器对标签集合C、D、E进行识别，其中分类器有KNN，SVM和级联分类器三种，它们是按照不同的任务来进行选择的。KNN负责标签集合C的识别，同一个类别的物体，差异可能会比较大，比如花会有各种颜色，水会有各种纹理。这导致了分类边界并不规则，如果使用参数化的分类器，效果会受到影响，因此对于标签集合C，使用KNN分类器。而对于标签集合D的识别，如天气的识别，考虑到这种情况特征的一致性，可以使用SVM进行分类。而对于标签集合E的识别，可以选用快速有效的级联分类器。首先根据步骤1中爬取的标签集合C中的图片训练KNN分类器，根据标签集合D中的图片训练SVM分类器，根据标签集合E中的图片训练级联分类器，获得这些分类器的参数，接着将用户输入的风景照分别输入到三类分类器中进行分类，产生若干标签。具体如下：

(2.1)利用KNN分类器识别出用户输入的风景照属于标签集合C中的标签

(2.1.1)超像素分割

对于局部区域的识别，首先使用过分割的方法将用户输入的图片分割成超像素，以超像素为单位进行识别。过分割将图像分割成位置相邻且外观相似的块，如图1所示。使用超像素的好处是可以将分类的数据量减少，并且得到比较规整的分类结果。在本实施例中，将每幅输入的图像首先调整到200×150的分辨率，然后将图像分割成50个超像素，进行局部区域的识别。

(2.1.2)超像素特征提取

将RGB直方图+LBP(Local Binary Pattern)作为超像素特征，其中RGB直方图描述了超像素的颜色信息，LBP描述了超像素的纹理和边缘信息。RGB直方图是非常常用的特征，它统计每个颜色通道取值的分布，RGB每个通道直方图的维数为256。对于LBP，它在每一个像素都有一个0至255的描述，代表此像素的局部边缘特征，它对每个像素点的8邻域计算一个8bit的描述。我们将每个超像素中各个像素点的LBP描述进行直方图统计，从而对每个超像素获得一个256维的特征。因此每个超像素的RGB直方图+LBP特征一共有1024维。

(2.1.3)分类识别获得标签

将训练数据输入到KNN分类器。首先，我们利用所有的训练数据构造一个KD树，以便求最近邻时可以快速计算。对每个需要分类的超像素，在训练数据中去寻找与它特征最相近的超像素，并且将这些寻找到的超像素中占比最多的标签赋给需要分类的超像素。

对用户输入的图像中的每个超像素进行分类后，统计每个标签占的比重，将比重高的标签排在标签列表的前面，在搜索诗句时优先满足。根据与最近邻的距离来计算分类的置信度，显然，与最近邻的距离越近，分类的置信度越高。设置阈值，将置信度低于阈值的超像素过滤掉，不将其加入计算标签比重的过程中，这样输出的标签更加准确。

(2.2)利用SVM分类器识别出用户输入的风景照属于标签集合D中的标签

除了标签集合C中的标签，我们还希望得到标签集合D中整体意境的标签，比如天气情况，季节等标签，这样可以配出不那么直接的诗句。比如可以通过识别出来的“春天”标签，得到描写春天的诗句。为了达到这个目的，需要对整幅图像进行特征提取。这里我们将RGB直方图和BoW(Bag of Word)特征作为用户输入的整幅图像的特征。

考虑到标签集合D识别中场景类内差别比较小，将整幅图像的特征输入到训练好的季节的SVM分类器中，识别出初夏秋冬四种季节，将整幅图像的特征输入到训练好的天气的SVM分类器中，识别出晴天雨天两种天气，将整幅图像的特征输入到训练好的时间的SVM分类器中，识别出白天傍晚黑夜三种时间。

(2.3)利用级联分类器识别出用户输入的风景照属于标签集合E中的标签

考虑到用户喜欢上传一些有人的图像，比如到风景区旅游时所拍的图像，或者用户的自拍照。用户会希望能够识别出人来。我们特别增加了行人和笑脸的识别。级联分类器+Haar特征非常适用于笑脸的检测，而级联分类器+HOG特征非常适用于行人的检测。这样，用户上传自拍照时，自己的笑容也能被识别出来，如图2所示。

(3.1)建立关键字映射表

需要注意的是，分类器输出的标签是比较笼统的，而要用来搜索的关键字是比较具体的。比如说，分类器输出了“大海”标签，但是不能直接将大海作为关键字进行搜索，而需要使用唐诗中具体描写大海的词语，比如“沧海”，“四海”,“海上”等。为此，需要建立的一张映射表，首先根据步骤1中对唐诗语料库的词频统计，找出词频排在前2000位的词，然后标签集合C、D、E中的每个标签分别在这些词中寻找相对应的关键字，这样就形成了一张映射表。根据映射表将标签映射到关键字，一个标签对应一个或者多个关键字，如果是多个关键字，随机选择一个关键字。

(3.2)诗句筛选

(3.2.1)初始诗句的获取

得到关键字后，我们将这些关键字输入到搜索引擎进行搜索，最开始使用所有的标签映射出的关键字，重复5次随机选择关键字，直到有搜索结果返回；若5次随机选择后仍然没有结果，删掉排在最后的标签，再次重复上述过程，直到有结果返回。

(3.2.2)标签过滤：对于与识别的标签意境相反的关键字，是不能出现在诗句中，以免影响诗句的意境。比如说分类器得到了“春天”的标签，但是搜索诗句中“春天”的标签并没有用到，那么得到的诗句中可能有“天寒”等关键字，这样会影响诗句的效果。首先根据步骤1中对唐诗语料库的词频统计，找出词频排在前5000位的词，然后标签集合C、D、E中的每个标签分别在这些词中寻找意境相反的关键字，这样就形成了一张相反意境映射表；根据相反意境映射表将所有识别到的标签映射到多个关键字，然后利用这些关键字过滤搜索引擎返回的一组初始诗句，把意境相反的诗句给过滤掉。

(3.2.3)主题加权

关键字过滤之后有时还是有很多诗句，这些诗句有可能是唐诗十大类别(兴寄诗、爱情诗、赠行送别诗、友人诗、边塞诗、游子羁旅诗、咏物写景诗、抒情哲理诗、山水田园诗、讽喻诗)中的一种。而我们把配诗的焦点放在了风景照上，唐诗中的山水田园诗和咏物写景诗的意境显然比讽喻诗和爱情诗更适合风景照。这里采用LDA(Latent DirichletAllocation)模型来进行诗词主题分类。

这个模型可以用来非监督地识别大规模文档集中潜藏的主题信息。利用吉布斯采样可以学习到LDA模型的两个参数矩阵(用D表示诗的总数目，这里一共有41068首唐诗；K表示主题数，这里一共是10个主题；M表示字的总数，重复出现的也只算一个字，这里一共有6515个字)，一个是描述某首诗归到不同主题下的概率，D×K维；另一个是描述某个主题下不同字出现的概率，K×M维。这里我们只用到了D×K维的参数矩阵，如下表所示：

表1：诗和主题的D×K维参数矩阵

D×K维

1

2

3

4

5

6

7

8

9

10

第1首

P(k₁|d₁)

P(k₂|d₁)

P(k₃|d₁)

P(k₄|d₁)

P(k₅|d₁)

P(k₆|d₁)

P(k₇|d₁)

P(k₈|d₁)

P(k₉|d₁)

P(k₁₀|d₁)

第2首

……

第D‐1首

第D首

假设主题1～10分别代表讽喻诗、爱情诗、友人诗、兴寄诗、抒情哲理诗、赠行送别诗、游子羁旅诗、边塞诗、咏物写景诗、山水田园诗。我们赋予每个主题和风景照的匹配权重w₁～w₁₀分别为0.1～1(等差数列)。那么每首诗的总匹配权重可以由以下公式算出：

分类器和搜索引擎的流程图如图3所示。

对网上下载的风景照利用本发明方法进行识别，识别效果如图4‐6所示，总体来说，分类器的结果可以把风景照中占比比较多的类别识别出来，并且配出的诗也符合意境。

Claims

1.一种为风景照配上符合其意境的诗句的方法，其特征在于，包括如下步骤：

(2)根据步骤(1)中爬取的标签集合C中的图片训练KNN分类器，根据标签集合D中的图片训练SVM分类器，根据标签集合E中的图片训练级联分类器，获得这些分类器的参数；将用户输入的风景照分别输入到三类分类器中进行分类，产生若干标签，并按重要性对这些标签进行排序；

(3)通过搜索引擎将步骤(2)识别出的标签转化为诗句，并对诗句进行主题过滤和加权，具体包括以下子步骤：

(3.1)建立关键字映射表：首先根据步骤(1)中对诗句语料库的词频统计，找出词频排在前2000位的词，然后标签集合C、D、E中的每个标签分别在这些词中寻找相对应的关键字，这样就形成了一张映射表；根据映射表将标签映射到关键字，一个标签对应一个或者多个关键字，如果是多个关键字，随机选择一个关键字；

(3.2)诗句筛选，包括以下子步骤：

(3.2.2)标签过滤：首先根据步骤(1)中对诗句语料库的词频统计，找出词频排在前5000位的词，然后标签集合C、D、E中的每个标签分别在这些词中寻找意境相反的关键字，这样就形成了一张相反意境映射表；根据相反意境映射表将所有识别到标签映射到多个关键字，然后利用这些关键字过滤搜索引擎返回的一组初始诗句，把意境相反的诗句给过滤掉；

(3.2.3)主题加权：采用LDA模型来进行诗词主题分类；利用吉布斯采样学习到LDA模型中的一个参数矩阵，这个参数矩阵描述了某首诗归到不同主题下的概率，为D×K维，其中D表示诗的总数目，K表示主题数；赋予每个主题和风景照的匹配权重w₁～w_K，那么每首诗的总匹配权重可以由以下公式算出：

<mrow> <mi>W</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&times;</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>k</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中P(k_i|d_j)为第j首诗d_j归到第i个主题k_i的条件概率；0＜j≤D，0＜i≤K；

2.根据权利要求1所述的一种为风景照配上符合其意境的诗句的方法，其特征在于，所述步骤(2)中，利用KNN分类器识别出用户输入的风景照属于标签集合C中的标签，包括以下子步骤：

(b)超像素特征提取：将RGB直方图以及LBP作为超像素特征，其中RGB直方图描述了超像素的颜色信息，LBP描述了超像素的纹理和边缘信息；

3.根据权利要求1所述的一种为风景照配上符合其意境的诗句的方法，其特征在于，所述步骤(2)中，利用SVM分类器识别出用户输入的风景照属于标签集合D中的标签，具体为：将RGB直方图和BoW特征作为用户输入的整幅图像的特征；将整幅图像的特征输入到训练好的季节的SVM分类器中，识别出初夏秋冬四种季节；将整幅图像的特征输入到训练好的天气的SVM分类器中，识别出晴天雨天两种天气；将整幅图像的特征输入到训练好的时间的SVM分类器中，识别出白天傍晚黑夜三种时间。

4.根据权利要求1所述的一种为风景照配上符合其意境的诗句的方法，其特征在于，所述步骤(2)中，利用级联分类器识别出用户输入的风景照属于标签集合E中的标签，具体为：通过级联分类器以及Haar特征检测笑脸，通过级联分类器以及HOG特征检测行人。