CN110032658A

CN110032658A - 基于图像分析的文本匹配方法、装置、设备及存储介质

Info

Publication number: CN110032658A
Application number: CN201910208496.4A
Authority: CN
Inventors: 成明
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-07-19

Abstract

本发明属于图像识别领域，公开了一种基于图像分析的文本匹配方法、装置、设备及存储介质，该方法包括：获取输入图像，所述输入图像包括图像信息；基于预设图像类型对所述输入图像进行分类，获取所述输入图像的分类标签；将所述输入图像的分类标签和/或所述输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本；获取每一所述待选文本形成待选文本列表，输出所述待选文本列表。本发明提供的技术方案可以获得与输入图像相关性强的文本，顺利为输入图像匹配上合适的文本进行描述，提高用户在网络分享相关内容的效率。

Description

基于图像分析的文本匹配方法、装置、设备及存储介质

技术领域

本发明属于图像识别领域，更具体地说，是涉及一种基于图像分析的文本匹配方法、装置、设备及存储介质。

背景技术

随着社交网络和自媒体的发展，人们越会越倾向于将自己所拍摄的图像分享到网络上，并配上一些文字来描述当时的情景或者心情。在这个过程中，人们希望能快速将图像配上一段优美或贴切的文字然后分享出去，然而在短时间内往往难以进行良好的构思，导致难以顺利地将图像分享出去，影响社交的效率和用户的体验。

综上，目前难以根据用户输入的图像匹配相关性强的文本，影响用户在社交网络的分享效率。

发明内容

本发明实施例提供一种基于图像分析的文本匹配方法、装置、设备及存储介质，以解决目前难以根据图像匹配相关性强的文本的问题。

一种基于图像分析的文本匹配方法，包括：

获取输入图像，所述输入图像包括图像信息；

基于预设图像类型对所述输入图像进行分类，获取所述输入图像的分类标签；

将所述输入图像的分类标签和/或所述输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本；

获取每一所述待选文本形成待选文本列表，输出所述待选文本列表。

一种基于图像分析的文本匹配装置，包括：

图像获取模块，用于获取输入图像，所述输入图像包括图像信息；

标签获取模块，用于基于预设图像类型对所述输入图像进行分类，获取所述输入图像的分类标签；

文本获取模块，用于将所述输入图像的分类标签和/或所述输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本；

列表输出模块，用于获取每一所述待选文本形成待选文本列表，输出所述待选文本列表。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于图像分析的文本匹配方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于图像分析的文本匹配方法。

上述基于图像分析的文本匹配方法、装置、计算机设备及存储介质，通过获取输入图像，输入图像包括图像信息；然后基于预设图像类型对输入图像进行分类，获取输入图像的分类标签；接着将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本；最后获取每一待选文本形成待选文本列表，输出待选文本列表。通过获取输入图像的分类标签和图像信息，根据输入图像的分类标签和图像信息获取匹配的文本，可以获得与输入图像相关性强的文本，从而顺利为输入图像匹配上合适的文本进行描述，提高用户在网络分享相关内容的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于图像分析的文本匹配方法的一应用环境示意图；

图2是本发明一实施例中基于图像分析的文本匹配方法的一流程图；

图3是本发明一实施例中基于图像分析的文本匹配方法的另一流程图；

图4是本发明一实施例中基于图像分析的文本匹配方法的另一流程图；

图5是本发明一实施例中基于图像分析的文本匹配方法的另一流程图；

图6是本发明一实施例中基于图像分析的文本匹配方法的另一流程图；

图7是本发明一实施例中基于图像分析的文本匹配方法的另一流程图；

图8是本发明一实施例中基于图像分析的文本匹配装置的一原理框图；

图9是本发明一实施例中基于图像分析的文本匹配装置中标签获取模块的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的基于图像分析的文本匹配方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信，服务端通过客户端获取输入图像，输入图像包括图像信息；然后服务端基于预设图像类型对输入图像进行分类，获取输入图像的分类标签；接着服务端将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本；最后服务端将每一待选文本形成待选文本列表，输出待选文本列表至客户端。其中，客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于图像分析的文本匹配方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取输入图像，输入图像包括图像信息。

具体地，服务端可以通过客户端获取用户的输入图像，输入图像包括图像信息。可选地，用户可以通过客户端拍摄一张照片，或者选取一张已拍摄好的照片上传至客户端，服务端再通过客户端获取这些照片作为输入图像。例如，用户通过微信客户端拍摄一张照片上传，服务端获取上传的照片作为输入图像。其中，图像信息可以包括输入图像的时间信息、地点信息或天气信息等至少一项。可选地，时间信息可以通过读取输入图像的时间记录来获取，或者在客户端拍摄照片时获取相应的时间信息；地点信息可以通过读取输入图像的地点记录来获取，或者可以在客户端拍摄照片时通过客户端的定位信息获取；天气信息可以由时间信息和地点信息通过网络查询得到。

S20：基于预设图像类型对输入图像进行分类，获取输入图像的分类标签。

其中，预设图像类型可以根据实际情况进行具体设定。例如，预设图像类型可以为图像内容分类，对输入图像进行图像内容分类，将图像内容可以分类人物、风景、动物、植物等图像类型。又例如，预设图像类型可以为色彩分类，对输入图像进行色彩分类，将输入图像分为黄色、红色、橙色、绿色、紫色、蓝色和黑色等图像类型。进一步地，预设图像类型可以为情绪分类，通过将输入图像将色彩分类与情绪进行对应，得到以情绪进行分类形式的图像类型，例如将红色对应活泼、生动等类型，将橙色对应富丽、炫耀等类型，将黄色对应快乐、希望等类型。

可选地，服务端根据预设图像类型对输入图像进行分类获取分类标签的过程可以为：首先建立图像识别模型，例如通过卷积神经网络建立图像识别模型，然后获取图像训练样本，并对图像训练样本进行预设图像类型的批注，再将批注后的图像训练样本输入至图像识别模型中进行训练，从而得到图像分类模型。在得到基于预设图像类型的图像分类模型后，服务端将输入图像输入至图像分类模型中，即可以得到输入图像相应的分类标签。

S30：将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本。

其中，预设语料库是指预先设置于服务端的用于与输入图像的分类标签或输入图像的图像信息进行匹配的文本的数据库。可选地，可以预先收集大量的与心情、情感或情景表述相关的文本存储于服务端作为预设语料库。

具体地，服务端首先将预设语料库中的文本进行分词得到词条，再将分词后的词条与输入图像的分类标签或输入图像的图像信息进行相似度计算，若相似度达到预设匹配度阈值，则选取相似度达到预设匹配度阈值的词条对应的文本作为待选文本。其中，相似度的计算可以用编辑距离、余弦相似度、KMP算法、RK算法等算法来计算。输入图像的图像信息与文本分词后的词条进行匹配时，可以先将分词后的词条与图像信息都表示为向量的形式，再计算两者之间的向量相似度。可选地，服务端也可以将输入图像的分类标签与输入图像的图像信息一起与预设语料库的文本进行匹配，根据匹配的结果选取待选文本。

S40：获取每一待选文本形成待选文本列表，输出待选文本列表。

具体地，服务端将符合预设匹配度阈值的文本作为待选文本，并将这些待选文本形成列表的形式作为待选文本列表，最后将待选文本列表输出至客户端供用户进行选择。当待选文本列表只有一个待选文本时，直接返回该待选文本。

在图2对应的实施例中，通过获取输入图像，输入图像包括图像信息；然后基于预设图像类型对输入图像进行分类，获取输入图像的分类标签；接着将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本；最后获取每一待选文本形成待选文本列表，输出待选文本列表。通过获取输入图像的分类标签和图像信息，根据输入图像的分类标签和图像信息获取匹配的文本，可以获得与输入图像相关性强的文本，从而顺利为输入图像匹配上合适的文本进行描述，提高用户在网络分享相关内容的效率。

在一实施例中，如图3所示，在步骤S20中，即基于预设图像类型对输入图像进行分类，获取输入图像的分类标签，具体可以包括以下步骤：

S21：获取输入图像中每一像素的亮度值，并根据每一像素的亮度值获取输入图像的亮度均值。

可选地，输入图像中每一像素的亮度值可以由位图(Bitmap)得到，其中，位图又称栅格图或点阵图，是使用像素阵列(Pixel-array/Dot-matrix点阵)来表示的图像。具体地，服务端通过位图算法将输入图像中的RGB格式转换为YUV格式，再获取其中的Y值作为输入图像中每一像素的亮度值。

具体地，服务端根据位图获取输入图像中每一像素的亮度值，再根据获取每一像素的亮度值计算输入图像的亮度均值。

S22：将输入图像的亮度均值与预设亮度分类表进行匹配，根据匹配的结果获取输入图像的亮度类型。

其中，预设亮度分类表是指根据不同亮度进行分类的表格，亮度分类例如是根据亮度将图像分为明亮、中等、昏暗等类型。

具体地，当服务端获取到输入图像的亮度均值后，将输入图像的亮度均值与预设亮度分类表中的值进行匹配，判断输入图像的亮度均值属于预设亮度分类表中哪个数值范围，再根据匹配的结果获取输入图像的亮度类型。可以理解，服务端可以将得到的输入图像的亮度类型作为输入图像的其中一个分类标签。

S23：根据输入图像的亮度类型和基于情绪分类的预设图像类型获取输入图像的情绪类型，将情绪类型作为输入图像的第一情绪分类标签。

可选地，基于情绪分类的预设图像类型包括亮度类型与情绪分类的映射表，当服务端获取到输入图像的亮度类型后，将亮度类型与该映射表进行对应，可以得到输入图像对应的情绪类型，再将输入图像对应的情绪类型作为输入图像的第一情绪分类标签。其中，亮度类型与情绪分类的映射表可以根据需要进行具体设定，例如将明亮亮度对应快乐、兴奋、轻快等积级情绪，将中等亮度对应平和、平静、自然等中性情绪，将昏暗亮度对应抑郁、悲伤、沮丧等消极情绪。

在图3对应的实施例中，通过获取输入图像的每一像素的亮度值，并根据每一像素的亮度值取获取输入图像的亮度均值；然后将输入图像的亮度均值与预设亮度分类表进行匹配，根据匹配的结果获取输入图像的亮度类型；最后根据输入图像的亮度类型和基于情绪分类的预设图像类型获取输入图像的情绪类型，将情绪类型作为输入图像的第一情绪分类标签。通过获取输入图像的亮度类型，再根据输入图像的亮度类型进行相应的情绪分类，可以得到输入图像的情绪分类标签，从而为输入图像与文本的匹配提供相关依据。

在一实施例中，如图4所示，在步骤S20中，即基于预设图像类型对输入图像进行分类，获取输入图像的分类标签，具体可以包括以下步骤：

S21’：基于预设图像类型构建图像色彩分类模型。

其中，图像色彩分类模型可以采用神经网络模型进行构建，例如深度学习网络、卷积神经网络或递归神经网络等。可选地，本实施例的图像色彩分类模型可以用卷积神经网络(Convolutional Neural Network，简称CNN)进行建立，通过CNN来建立图像色彩分类模型，由于CNN的神经网络中采用池化层，所以可以很大地减少运算量，同时可以防止过拟合，能较快速得到图像色彩分类模型。

具体地，服务端首先设置CNN相应的卷积核、卷积层、池化层和全连接层，建立初始图像色彩分类模型。其中，CNN的卷积核、卷积层和池化层的个数可以根据实际需要设定，这里不做具体限定。然后服务端获取一定数量的图像作为训练样本，根据预设图像类型对应的色彩分类对这些训练样本进行批注，再将批注好的训练样本输入到初始图像色彩分类模型进行训练，得到最终的图像色彩分类模型。其中，预设图像类型对应的色彩分类可以是将输入图像分为黄色、红色、橙色、绿色、紫色、蓝色和黑色等色彩。

S22’：将输入图像输入至图像色彩分类模型中，获取输入图像的色彩分类结果。

具体地，服务端将输入图像输入至步骤S21’训练好的图像色彩分类模型中，获取图像色彩分类模型对输入图像的色彩识别的色彩分类结果。可以理解，服务端可以将得到的输入图像的色彩分类结果作为输入图像的其中一个分类标签。

S23’：基于输入图像的色彩分类结果和预设色彩情绪映射表获取输入图像的第二情绪分类标签。

其中，预设色彩情绪映射表是指将色彩与情绪进行对应的映射表。可选地，映射表中的色彩与预设图像类型的色彩分类对应；而色彩与情绪的对应关系可以如表所示：

表1预设色彩情绪映射表

色彩	情绪
		红色	活泼、生动
橙色	富丽、炫耀
		黄色	快乐、希望
绿色	温柔、宁静
		蓝色	镇静、平和
紫色	安定、平静
		白色	明快、平淡

应理解，表1只是作为示例而不以此为限，实际可以根据需要进行具体设定，某个色彩对应的情绪结果可以为多个(表中为两个)，也可以是不同的色彩对应一个以上的相同情绪，例如将红色、黄色对应的情绪中有一个共同的情绪为快乐。

具体地，服务端将获取的色彩分类结果与预设色彩情绪映射表进行匹配，根据匹配的色彩获取预设色彩情绪映射表的相应情绪结果作为第二情绪分类标签。

在图4对应的实施例中，基于预设图像类型构建图像色彩分类模型，然后将输入图像输入至图像色彩分类模型中，获取输入图像的色彩分类结果，最后基于输入图像的色彩分类结果和预设色彩情绪映射表获取输入图像的第二情绪分类标签。通过建立图像色彩分类模型，可以根据输入图像快速得到输入图像的色彩分类结果。同样地，可以基于预设图像类型建立其它的分类模型，从而得到其它的分类结果，并将得到的分类结果作为输入图像的分类标签。进一步地，通过对输入图像的色彩分类结果与情绪进行对应，从而可以将输入图像与用户希望表达的情感更好地关联起来，更好地与文本进行匹配。

在一实施例中，如图5所示，在步骤S30之前，即在将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本的步骤之前，本实施例提供的基于图像分析的文本匹配方法还可以包括以下步骤：

S51：对预设语料库的文本进行分词和去停用词预处理，得到预处理后的词条。

其中，分词是指对预设语料库中的文本进行中文分词，可选地，分词可以用自然语言处理来(NLP)完成，工具上可以用结巴(jieba)分词工具进行分词。停用词是指将预设语料库中的对文本内容识别意义不大但出现频率很高的词条、符号、标点及乱码等去掉，如“这、的、和、会、为”等词条几乎出现在任何一个文本中，但是它们对这个文本所表达的意思几乎没有任何贡献。可选地，可以使用预设的停用词列表来剔除预设语料库中的文本的停用词：对每一个词条，判断该词条是否位于预设的停用词列表中，如果是则将该词条从词条串中删除。其中，预设的停用词列表可以根据实际需要进行设定，这里不做具体限定。

具体地，服务端对预设语料库的文本进行分词和去停用词处理，得到预处理后的词条，以方便与输入图像的分类标签或图像信息进行匹配。

S52：获取预处理后的每一词条的词频。

可以理解，词条的重要度与词条在一个文本中出现的次数成正比。在一个给定的文本中，词频(termfrequency,TF)的计算可以将某个词条在一个文本出现的次数除以该文本的总词条数。例如若预设语料库中其中一个文本有100个词条，其中“快乐”这一词条出现了5次，那么“快乐”这一词条在该文本中的TF值(词频)就是5/100＝0.05。

具体地，服务端根据词频的计算方法获取预处理后的每一词条的词频，以衡量每一词条在该文本中的重要性。

S53：将词频达到预设频率阈值的词条作为文本关键词。

其中，预设频率阈值可以根据实际需要进行具体设定，例如，为10％、15％、20％等。

具体地，服务端对每一预处理后的词条的词频进行计算后对预处理后的词条的词频进行判断，若预处理后的词条的词频达到预设频率阈值，则将该词条作为相应文本的文本关键词。

可选地，服务端也可以选取词频最高的前几个词条作为文本关键词，例如选取词频最高的前五名的词条作为文本关键词。

在一个具体的实施例中，服务端也可以根据自然语言处理对词条的统计结果选取关键词，具体地，服务端对一个文本的词条进行统计，计算其中与情感相关的词条，并统计该文本的总体情感倾向，再根据统计出来的该文本的总体情感倾向选取相应的词条作为文本关键词。例如一个文本中包含“开心、快乐、轻松、愉悦”等词条，自然语言处理可以将该文本总体情感倾向为积级、阳光，再选取这些积级、阳光情感同类的词条(开心、快乐、轻松、愉悦)作为文本关键词。

在图5对应的实施例中，通过对预设语料库的文本进行分词和去停用词处理，得到预处理后的词条；再获取预处理后的词条的词频；最后若预处理后的词条的词频达到预设频率阈值，则将预处理后的词条作为文本关键词。通过对预设语料库的文本提取文本关键词，可以使输入图像的分类标签或图像信息更好、更快地与预设语料库中的文本进行匹配，提高输入图像与文本的匹配效率。

在一实施例中，如图6所示，在步骤S30中，即将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本，具体可以包括以下步骤：

S31：将输入图像的分类标签与文本关键词表示为向量形式。

具体地，服务端输入图像的分类标签和文本关键词用词向量表示为向量的形式。其中，词向量(word embedding)是指将词条表示为向量的形式，可以方便词条之间的向量相似度计算。

优选地，服务端可以采用word2vec模型将输入图像的分类标签与文本关键词表示为向量形式。其中，word2vec模型是谷歌2013年提出的词嵌入模型，实际上是一种浅显的神经网络模型，包括两种神经网络结构，分别是CBOW和Skip-gram。具体地，服务端可以预先获取词条的训练样本，然后将词条的训练样本输入至word2vec模型中进行训练，训练完成之后的word2vec模型就可用来映射每个词条到一个向量。应理解，采用word2vec模型将词条表示为向量时，词条之间的相关性可以更好地体现。

S32：计算输入图像的分类标签与文本关键词的向量相似度。

具体地，服务端将输入图像的分类标签和文本关键词表示为向量形式后，可以用欧几里得距离算法、曼哈顿距离算法、明可夫斯基距离算法或者余弦相似度算法计算两者之间的向量相似度。

在一个具体的实施方式中，服务端也可以不将词条表示为向量的形式，而是用编辑距离来评估输入图像的分类标签与文本关键词的相似度。其中，编辑距离又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，而许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

S33：若输入图像的分类标签与文本关键词的向量相似度达到预设相似度阈值，则获取文本关键词对应的文本作为待选文本。

其中，预设相似度可以根据实际需要进行设定，这里不做具体限定，例如可以为80％、85％、90％。可选地，当采用编辑距离来评估输入图像的分类标签与文本关键词的相似度时，可以用编辑距离为2以内作为输入图像的分类标签与文本关键词相似的依据。

具体地，服务端对输入图像的分类标签与文本关键词的相似度的计算结果进行判断，若输入图像的分类标签与文本关键词的相似度达到预设相似度阈值，则将该文本关键词所在的文本作为待选文本。

在图6对应的实施例中，通过将输入图像的分类标签与文本关键词表示为向量形式，再计算输入图像的分类标签与文本关键词的向量相似度，若输入图像的分类标签与文本关键词的向量相似度达到预设相似度阈值，则获取文本关键词对应的文本作为待选文本。通过计算输入图像的分类标签与文本关键词的向量相似度，可以为输入图像匹配适当的文本，从而为输入图像顺利匹配上相关性强的文本，提高用户在社交网络分享相关内容的效率。

在一实施例中，如图7所示，图像信息包括输入图像的时间信息、地点信息和天气信息，在步骤S30中，即将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本，具体可以包括以下步骤：

S31’：将输入图像的分类标签、时间信息、地点信息和天气信息与文本关键词转换为向量形式。

具体地，服务端将图像信息中的时间信息、地点信息和天气信息和输入图像的分类标签一起与文本关键词进行匹配。其中，时间信息可以为星期几、几月几日、早晨、中午、黄昏或者节日(如国庆节)等信息；地点信息可以为具体城市、旅游景点或商家地名等信息；天气信息可以为晴天、多云、阴天或下雨等信息。

具体地，服务端将输入图像的分类标签、时间信息、地点信息和天气信息和文本关键词转换为向量形式。其中，转换为向量形式的方法与前述实施例相同，这里不再赘述。

S32’：分别获取输入图像的分类标签、时间信息、地点信息和天气信息与文本关键词的向量相似度。

具体地，服务端分别计算输入图像的分类标签、时间信息、地点信息和天气信息与文本关键词之间的向量相似度，可以得到输入图像多个维度的向量相似度。

S33’：基于预设权重和向量相似度获取文本关键词与输入图像的相关度。

其中，预设权重可以根据实际需要进行具体设定，这里不做具体限定，例如，输入图像的分类标签、时间信息、地点信息和天气信息的预设权重可以设为：0.5、0.1、0.1、0.3。相关度是指文本关键词所对应的文本与输入图像的相关程度。

具体地，服务端根据获得的向量相似度计算结果和预设权重计算文本关键词与输入图像的相关度。例如，输入图像的分类标签、时间信息、地点信息和天气信息的向量相似度分别为：80％、20％、10％、60％，相应的预设权重为0.5、0.1、0.1、0.3，则文本关键词与输入图像的相关度为：

80％*0.5+20％*0.1+10％*0.1+60％*0.3＝25％。

S34’：若相关度达到预设相关度阈值，则获取文本关键词对应的文本作为待选文本。

其中，预设相关度阈值可以根据实际需要进行具体设定，这里不做具体限定，例如可以为30％、40％、50％等。

具体地，服务端根据文本关键词与输入图像的相关度进行判断，若文本关键词与输入图像的相关度达到预设相关度阈值，则选取该文本关键词对应的文本作为待选文本。

在图7对应的实施例中，通过将输入图像的分类标签、时间信息、地点信息和天气信息与文本关键词转换为向量形式；然后分别获取输入图像的分类标签、时间信息、地点信息和天气信息与文本关键词的向量相似度；接着基于预设权重和向量相似度获取文本关键词与输入图像的相关度；最后若相关度达到预设相关度阈值，则获取文本关键词对应的文本作为待选文本。通过输入图像的分类标签、时间信息、地点信息和天气信息，可以使输入图像在更多维度上与文本关键词进行匹配，得到相关性更强的文本，提高根据输入图像获取相关文本的精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于图像分析的文本匹配装置，该基于图像分析的文本匹配装置与上述实施例中基于图像分析的文本匹配方法一一对应。如图8所示，该基于图像分析的文本匹配装置包括图像获取模块10、标签获取模块20、文本获取模块30和文本获取模块40。各功能模块详细说明如下：

图像获取模块10，用于获取输入图像，输入图像包括图像信息；

标签获取模块20，用于基于预设图像类型对输入图像进行分类，获取输入图像的分类标签；

文本获取模块30，用于将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本；

列表输出模块40，用于获取每一待选文本形成待选文本列表，输出待选文本列表。

进一步地，如图9所示，标签获取模块20包括亮度均值获取单元21、亮度类型获取单元22和情绪标签获取单元23。

亮度均值获取单元21，用于获取输入图像中每一像素的亮度值，并根据每一像素的亮度值获取输入图像的亮度均值；

亮度类型获取单元22，用于将输入图像的亮度均值与预设亮度分类表进行匹配，根据匹配的结果获取输入图像的亮度类型；

情绪标签获取单元23，用于根据输入图像的亮度类型和基于情绪分类的预设图像类型获取输入图像的情绪类型，将情绪类型作为输入图像的第一情绪分类标签。

进一步地，标签获取模块20还用于：

基于预设图像类型构建图像色彩分类模型；

将输入图像输入至图像色彩分类模型中，获取输入图像的色彩分类结果；

基于输入图像的色彩分类结果和预设色彩情绪映射表获取输入图像的第二情绪分类标签。

进一步地，本实施例提供的基于图像分析的文本匹配装置还包括关键词获取模块，其中，关键词获取模块用于：

对预设语料库的文本进行分词和去停用词预处理，得到预处理后的词条；

获取预处理后的每一词条的词频；

将词频达到预设频率阈值的词条作为文本关键词。

进一步地，文本获取模块30用于：

将输入图像的分类标签与文本关键词表示为向量形式；

计算输入图像的分类标签与文本关键词的向量相似度；

若输入图像的分类标签与文本关键词的向量相似度达到预设相似度阈值，则获取文本关键词对应的文本作为待选文本。

进一步地，图像信息包括输入图像的时间信息、地点信息和天气信息，文本获取模块30还用于：

将输入图像的分类标签、时间信息、地点信息和天气信息与文本关键词转换为向量形式；

分别获取输入图像的分类标签、时间信息、地点信息和天气信息与文本关键词的向量相似度；

基于预设权重和向量相似度获取文本关键词与输入图像的相关度；

若相关度达到预设相关度阈值，则获取文本关键词对应的文本作为待选文本。

关于基于图像分析的文本匹配装置的具体限定可以参见上文中对于基于图像分析的文本匹配方法的限定，在此不再赘述。上述基于图像分析的文本匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储输入图像、图像信息、预设语料库的文本和预设色彩情绪映射表等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图像分析的文本匹配方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取输入图像，输入图像包括图像信息；

基于预设图像类型对输入图像进行分类，获取输入图像的分类标签；

将输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本；

获取每一待选文本形成待选文本列表，输出待选文本列表。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取输入图像，输入图像包括图像信息；

获取每一待选文本形成待选文本列表，输出待选文本列表。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像分析的文本匹配方法，其特征在于，包括：

获取输入图像，所述输入图像包括图像信息；

2.如权利要求1所述的基于图像分析的文本匹配方法，其特征在于，所述基于预设图像类型对所述输入图像进行分类，获取所述输入图像的分类标签，包括：

获取所述输入图像中每一像素的亮度值，并根据每一所述像素的亮度值获取所述输入图像的亮度均值；

将所述输入图像的亮度均值与预设亮度分类表进行匹配，根据匹配的结果获取所述输入图像的亮度类型；

根据所述输入图像的亮度类型和基于情绪分类的所述预设图像类型获取所述输入图像的情绪类型，将所述情绪类型作为所述输入图像的第一情绪分类标签。

3.如权利要求1所述的基于图像分析的文本匹配方法，其特征在于，所述基于预设图像类型对所述输入图像进行分类，获取所述输入图像的分类标签，包括：

基于预设图像类型构建图像色彩分类模型；

将所述输入图像输入至所述图像色彩分类模型中，获取所述输入图像的色彩分类结果；

基于所述输入图像的色彩分类结果和预设色彩情绪映射表获取所述输入图像的第二情绪分类标签。

4.如权利要求1所述的基于图像分析的文本匹配方法，其特征在于，在所述将所述输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本的步骤之前，所述基于图像分析的文本匹配方法还包括：

对所述预设语料库的文本进行分词和去停用词预处理，得到预处理后的词条；

获取所述预处理后的每一词条的词频；

将词频达到预设频率阈值的词条作为文本关键词。

5.如权利要求4所述的基于图像分析的文本匹配方法，其特征在于，所述将所述输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本，包括：

将所述输入图像的分类标签与所述文本关键词表示为向量形式；

计算所述输入图像的分类标签与所述文本关键词的向量相似度；

若所述输入图像的分类标签与所述文本关键词的向量相似度达到预设相似度阈值，则获取所述文本关键词对应的文本作为待选文本。

6.如权利要求4所述的基于图像分析的文本匹配方法，其特征在于，所述图像信息包括所述输入图像的时间信息、地点信息和天气信息；

所述将所述输入图像的分类标签和/或输入图像的图像信息与预设语料库中的每一文本进行匹配，并基于预设匹配度阈值获取待选文本，还包括：

将所述输入图像的所述分类标签、所述时间信息、所述地点信息和所述天气信息与所述文本关键词转换为向量形式；

分别获取所述输入图像的所述分类标签、所述时间信息、所述地点信息和所述天气信息与所述文本关键词的向量相似度；

基于预设权重和所述向量相似度获取所述文本关键词与所述输入图像的相关度；

若所述相关度达到预设相关度阈值，则获取所述文本关键词对应的文本作为待选文本。

7.一种基于图像分析的文本匹配装置，其特征在于，包括：

8.如权利要求7所述的基于图像分析的文本匹配装置，其特征在于，所述标签获取模块包括亮度均值获取单元、亮度类型获取单元和情绪标签获取单元；

所述亮度均值获取单元，用于获取所述输入图像中每一像素的亮度值，并根据每一所述像素的亮度值获取所述输入图像的亮度均值；

所述亮度类型获取单元，用于将所述输入图像的亮度均值与预设亮度分类表进行匹配，根据匹配的结果获取所述输入图像的亮度类型；

所述情绪标签获取单元，用于根据所述输入图像的亮度类型和基于情绪分类的所述预设图像类型获取所述输入图像的情绪类型，将所述情绪类型作为所述输入图像的第一情绪分类标签。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于图像分析的文本匹配方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于图像分析的文本匹配方法。