CN111797265A

CN111797265A - 一种基于多模态技术的拍照命名方法与系统

Info

Publication number: CN111797265A
Application number: CN202010616803.5A
Authority: CN
Inventors: 沈之锐; 张美珍
Original assignee: Shaoguan Qizhi Information Technology Co ltd
Current assignee: Shaoguan Qizhi Information Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-20

Abstract

于深度学习的Image captioning技术实现端到端文本生成，将照片转化为描述文本；通过照片中的图像，分析图像中人物或事物的情感，并自动生成情感描述；通过地理位置服务，获取照相时的地理位置和时间；主动获取语音输入，并实现语音到文本的转换，通过结巴分词工具，获得人物或者事物名称；将上述四种模态的数据，处理成文本，通过依存句法分析，进行实体替换，最后合并起来，形成照片的标题；记录所述标题中的人物或事物以及其对应的图像语音信息，在下次拍照时复用。本发明引入多模态输入以使系统生成的文本包含更多对拍照情景的准确描述，而为图片自动生成的描述文本能是用户更方便快速的搜索到想要的图片。

Description

一种基于多模态技术的拍照命名方法与系统

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于多模态技术的拍照命名方法与系统。

背景技术

目前大部分手机拍摄的照片，系统都会根据拍摄时间自动进行命名。当用户需要查找特定内容的照片时，如果不记得确切拍摄时间则必须逐张图片打开去查看，操作起来十分不便。本专利希望发明一个系统，在自动命名的过程中，引入图像描述生成技术imagecaption。通过对图片内容的分析自动生成和图片内容相关的命名，以便于用户对照片的搜索。

发明专利CN201810644268.7一种图片标题生成方法、装置和计算机可读存储介质, 结合视觉检测器和语言建模的方法实现对图片标题的自动生成。该方法首先利用多实例学习，训练得到一个视觉检测器，该检测器不但可以从图片中提取可能的单词，而且可以把单词对应到具体的图片局部区域。在提取出可能的单词之后，基于神经网络中流行的编码器-解码器框架进行语言模型建模。其中编码器一般为卷积神经网络(ConvolutionalNeural Network，CNN)，可选取网络中的全连接层或卷积层的输出作为编码之后的图片特征，解码器一般为循环神经网络(Recurrent Neural Network，RNN)，用于图片标题序列的生成。

现有的方案能生成和图片内容相关的文本序列，但在生成文本的过程中，仅仅对图片像素数据信息进行建模，而忽略了拍照情景中例如具体地理位置、用户当时心情等多模态上下文信息，因而无法生成有意义，有情感的标题。本发明结合拍照时，拍照者的语音输入，以及地理位置，能够更好的将固定的景物，与拍照心情和人物固定名字结合，使命名更加有趣。名称更加具有当前情境的照片价值。

发明内容

本发明提供了一种基于多模态技术的拍照命名方法与系统用于在拍摄照片后，自动为照片命名，使用户看名称就能知道时间地点人物事情，无需预览就可以迅速获取照片信息。

本发明提供了一种基于多模态技术的拍照命名方法与系统，主要包括以下步骤：

基于深度学习的Image captioning技术实现端到端文本生成，将照片转化为描述文本；通过照片中的图像，分析图像中人物或事物的情感，并自动生成情感描述；通过地理位置服务，获取照相时的地理位置和时间；主动获取语音输入，并实现语音到文本的转换，通过结巴分词工具，获得人物或者事物名称；将上述四种模态的数据，处理成文本，通过依存句法分析，进行实体替换，最后合并起来，形成照片的标题；记录所述标题中的人物或事物以及其对应的图像语音信息，在下次拍照时复用。

进一步可选地，如上所述的方法中，所述基于深度学习的Image captioning技术实现端到端文本生成，将照片转化为描述文本，主要包括：

将图像中检测到的目标映射得到相应的向量，再将向量映射到文字词序列；将所述词序列转化为正常语序的句子，基于seq2seq的机器翻译框架，将原序列的词对的位置按语序重新排列，生成符合语法规则的文本。

进一步可选地，如上所述的方法中，所述通过照片中的图像，分析图像中人物或事物的情感，并自动生成情感描述，主要包括：

获取所述描述性文本，使用结巴分词工具进行分词，进行词向量化，输入到预先训练好的短文本情感分析神经网络模型中，模型经过对句子的词语的时间序列分析，能输出句子属于不同情感倾向的概率，取概率最大的情感倾向作为描述文本的情感。

采用基于局部结构特征提取Gabor算法提取人脸的特征信息；根据所述提取的人脸的特征信息，将所述特征信息通过预先训练好的表情分类模型以识别人脸的表情分类，获取人脸表情对应的情感。

将所述描述文本的情感和人脸表情对应的情感进行融合，包括：对所述描述文本的情感词进行情感强度值计算，获得文本情感强度值；通过在表情知识库中匹配人脸表情对应的情感强度值，获得人脸表情情感强度；将文本情感强度值和人脸表情情感强度进行数值转换成分数，按分数进行相加，得到总体情感极性，作为照片的最终情感描述。

进一步可选地，如上所述的方法中，所述通过地理位置服务，获取照相时的地理位置和时间，主要包括：

获取用户设备的GPS信号读取权限，系统通过创建位置服务的LocationManager，调用方法得到地理位置，设置监听，监听位置变化信息，从而获取用户实时位置；并通过网络获取当前时间，做为照片拍摄的时间。

进一步可选地，如上所述的方法中，所述主动获取语音输入，并实现语音到文本的转换，通过结巴分词工具，获得人物或者事物名称，主要包括：

对获取的语音转换成的描述文本进行数据预处理，采用结巴分词工具进行分词，将分词后的结果输入到预先训练好的命名实体识别模型，进行命名实体识别，通过命名实体识别出来的人名或物名。

进一步可选地，如上所述的方法中，所述将上述四种模态的数据，处理成文本，通过依存句法分析，进行实体替换，最后合并起来，形成照片的标题，主要包括：

通过角色语义标注技术，分析出主谓宾、实事与受事属性，所述角色语义标注技术采用哈工大的LTP工具进行句法分析和角色语义标注处理；通过句法分析工具获得SBV主语、VOB宾语；在角色语义标注中，获得LOC 地点标签，TMP 时间标签；通过替换上述识别出的时间、地点、人物、事情，获得完整的描述性标题；所述标题描述采用‘时间地点人物事情’四要素进行描写；

进一步可选地，如上所述的方法中，所述记录所述标题中的人物或事物以及其对应的图像语音信息，在下次拍照时复用，主要包括：

将以前照相过程中，获取的人名、地名、存储起来，当拍照无法获取人名或地名时，从数据库查询照相目标对象所对应的人名或者地名，作为所述目标对象的人名地名，自动生成照片标题。

本发明提供了一种基于多模态技术的拍照命名系统，所述系统包括：

照片图片的文本生成模块，用于通过深度学习技术根据图像生成文本；

语音名称实体获取模块，用于通过主动的语音获取名称信息，融合到标题中；

情感信息获取模块，用于分析生成文本的情感信息和图像人物表情情感信息；

多模态数据融合模块，用于将时间地点人物事情多个因素融合在一起，生成标题。

复用模块，用于对有用信息进行复用，提高信息利用率和计算效率。

本发明实施例提供的技术方案可以包括以下有益效果：

基于image caption技术生成准确的图片内容文本描述，建模过程中引入多模态输入以使系统生成的文本包含更多对拍照情景的准确描述，而为图片自动生成的描述文本能是用户更方便快速的搜索到想要的图片。

附图说明

图1为本发明的基于多模态技术的拍照命名方法实施例的流程图。

图2为本发明的基于多模态技术的拍照命名系统实施例的结构图。

图3为本发明的image caption图片生成文本的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的一种基于多模态技术的拍照命名方法的流程图。如图1所示，本实施例一种基于多模态技术的拍照命名方法具体可以包括如下步骤：

步骤101，基于深度学习的Image captioning技术实现端到端文本生成，将图片转化为描述文本。

Image Caption即图像描述，目的是从图片中自动生成一段描述性文字。本系统分两步实现图像描述的任务：第一步是image2txt，即将图像中检测到的目标映射得到相应的向量，再将这些向量映射到文字。这一步基于Encoder-Decoder结构，先将图像转化成像素值序列的形式，输入到vgg16形式的卷积神经网络Encoder，Encoder从图像中提取出相应的视觉特征以向量的形式输出。Encoder输出会作为Decoder的输入，Decoder将该特征解码成输出序列，Decoder每步的输出是单词表中所有单词的概率。值得一提的是，这一步除了使用图像信息作为输入，同时也将主动采集的用户语音描述数据的文本作为输入，以辅助模型更好的提取图中的关键信息。Image2txt的最终输出就是每步中概率最高的词组成的词序列；第二步是将词序列转化为正常语序的句子，这一步基于seq2seq的机器翻译框架，将原序列的词对的位置按合理的语序重新排列，生成符合语法规则的文本。

步骤102，通过地理位置服务，获取照相时的地理位置，通过网络获取时间。

拍照之前，系统需要获取用户设备的GPS信号读取权限，系统通过创建位置服务的LocationManager，调用方法得到地理位置，设置监听，监听位置变化信息，从而获取用户实时位置，并将实时位置信息在之后给照片命名的步骤中加入到描述性文本内。

例如，将步骤二生成的图片描述“两个小女孩在玩乐高玩具”，结合获取的位置为“红太阳幼儿园”，将照片的描述改为“两个小女孩在红太阳幼儿园玩乐高玩具”。

另一方面，拍照的同时也获取拍照的时间。

步骤103，主动获取语音输入，并实现语音到文本的转换

拍照前，通过麦克风提醒用户说出描述性文本或对话，获取所述描述性对话的语音信息；检测所述语音信息的语言类型；获取与所述语言类型匹配的语音标准化模型，并利用所述语音标准化模型对所述语音信息进行处理，生成标准化语音信息；获取与所述语言类型匹配的语音转化文本模型，并利用所述语音转化文本模型对所述标准化语音信息进行处理，生成文本信息。生成的所述文本信息作为照片情境性的描述。

步骤104，通过获取的语音，转化为文本，通过结巴分词工具，获得人名。

对获取的语音转换成的描述文本进行数据预处理，引用结巴分词工具进行分词，得到分词结果，将分词后的结果输入到预先训练好的命名实体识别模型，进行命名实体识别，通过命名实体识别出来的人名或物名，替换描述文本中的实体。将分词获取的地址信息替换为照片的地址。例如，将步骤二生成的图片描述“一个穿着黑色衬衫的男人在弹吉他”，结合拍照时语音为“明明在弹吉他”，通过命名实体识别模型识别时“明明”是人名，再结合人物表情分析，则将照片的描述改为“明明穿着黑色衬衫在开心地弹吉他”。

步骤105，通过照片中的图像，分析图像中人物或事物的情感，并描述文中的情感。

将步骤101得到的描述性文本，使用结巴分词工具进行分词，实现级别的嵌入式向量化，输入到预先训练好的短文本情感分析神经网络模型中，模型经过对句子的词语的时间序列分析，能输出句子属于不同情感倾向的概率，取概率最大的情感倾向作为描述文本的情感，加到图片描述性文本中。例如，在“两个小女孩在玩乐高玩具”的图像中，对步骤2自动生成的描述性文本进行分词和向量化等预处理操作后，输入到短文本情感分析神经网络模型中，输出的概率最大的情感是开心，因此照片拍摄的情感倾向是开心的。

步骤106，获取人脸的情感特征，获得情感词。对描述文本进行分析，将情感内容加在动词前。

从所述照片中捕捉人脸，采用基于局部结构特征提取Gabor算法提取人脸的特征信息；根据所述提取的人脸的特征信息，将所述特征信息通过预先训练好的表情分类模型以识别人脸的表情分类，人脸表情对应的情感词。

将步骤105的描述文本中分析出的文本情感和此处人脸情感特征进行融合。对所述描述文本的情感词进行情感强度值计算，获得文本情感强度值；通过在表情知识库中匹配人脸表情对应的情感强度值，获得人脸表情情感强度；将文本情感强度值和人脸表情情感强度进行数值转换成分数，按分数进行相加，得到总体情感极性，作为照片的最终情感描述。

例如，描述文本中‘微笑’的情感值分数是30分，人脸特征中图像是笑容，属于大笑的笑容，情感强度为强烈。它通过人工标注好的，包含了关于人脸表情与情感强度分值之间的对应关系的知识库。图片表情的情感强度的表示技术，由人工情感专家皮卡德（Picard）教授在《情感计算》中进行描述，在本领域属于公知技术，不展开描述。接下去，通过获取人脸表情的情感强度值，可以获得情感对应的分数，例如大笑的分值为50分。因此最终整张图画的情感表示为30+50=80分，属于“非常开心”的情感倾向。

对描述文本进行分词和词性标注，从所分的词中提取出词性为动词的词，在原描述性文本中获取所述动词的位置，将融合得到的情感词加到所述动词之前。例如“明明正在非常开心的唱歌”

步骤107，将多个模态的数据，通过生成的方法转化为文本，通过角色语义标注技术，进行实体替换，最后合并起来，形成照片的标题描述，标题描述采用‘时间地点人物事情’四要素进行描写。

对图片通过Image captioning技术获得图片描述“一个小孩正在一个房子里玩玩具”，通过角色语义标注技术，可以分析出主谓宾、实事与受事等属性，所述角色语义标注技术可以采用哈工大的LTP工具进行句法分析和角色语义标注处理。例如样例所示的，可以获得主语‘一个小孩’，谓语“玩玩具”，地点“在房子里”通过句法分析获得的这些数据都会有标注信息。只需要将句法分析工具获得的标注SBV获得主语、VOB获得宾语。在角色语义标注中，LOC 表示地点，TMP 表示时间。通过替换工具识别出的时间地点人物事情，就可以获得一个非常完整的描述性标题。

最终的效果，例如将步骤二生成的图片描述“一个小孩正在一个房子里玩玩具”结合给他拍照者的语音，“明明，看过来” ，还有地理位置获取得到“红太阳幼儿园”，时间是早上8点，人物表情分析是开心的，从描述性文本分析的情感也是开心的，因此最终变成“一大早，明明就在幼儿园里开心的玩玩具”作为这张照片的标题。

步骤108，记录所述标题中的人物或事物以及其对应的图像语音信息，在下次拍照时复用。当用户提示了一次名称之后，记录这些图像与名称之间的关系，在下一次拍照相同的人物或事物时，自动生成个性化的名称。

将以前照相过程中，获取的人名、地名、存储起来，当再次拍照无法获取人名或地名时，从数据库查询照相对象所对应的人名或者地名，作为项目的人名地名，自动生成照片名称。当在一次照相过程中，用户针对一个人物叫出了他的名字，系统抽取出所述人物的名字之后，记录下该名称，存储到手机或者相机里的数据库中。当下一次识别出该人物，但是用户并没有再次叫出名字时，通过搜索该人物对于的名字，就能在照片名称中添加该人物的名字。相同的道理，很多时候用户的拍照地址都是固定的，例如家里会拍摄很多张照片。当系统识别出家里的摆设和场景时，即使用户断网没有连接LBS地理位置信息服务，也可以进行地理位置的命名。

因此当已经被分析出来的数据特征已经被分类或者获取到了名称，在下次需要分析相同内容的数据时，可以直接调用存储在数据库中的结果。从而节省了计算量，并且可以在不再获得相关输入的时候，也能搜索过往的输入，以便输出相应的名称，依然能够实现照片的自动化个性化命名。

用于实现本发明进行信息控制的程序，可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、python、C++，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施例所述方法的部分步骤。

而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于多模态技术的拍照命名方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其中，所述基于深度学习的Image captioning技术实现端到端文本生成，将照片转化为描述文本，主要包括：

3.根据权利要求1所述的方法，其中，所述通过照片中的图像，分析图像中人物或事物的情感，并自动生成情感描述，主要包括：

4.根据权利要求1所述的方法，其中，所述通过地理位置服务，获取照相时的地理位置和时间，主要包括：

5.根据权利要求1所述的方法，其中，所述主动获取语音输入，并实现语音到文本的转换，通过结巴分词工具，获得人物或者事物名称，主要包括：

6.根据权利要求1所述的方法，其中，所述将上述四种模态的数据，处理成文本，通过依存句法分析，进行实体替换，最后合并起来，形成照片的标题，主要包括：

通过角色语义标注技术，分析出主谓宾、实事与受事属性，所述角色语义标注技术采用哈工大的LTP工具进行句法分析和角色语义标注处理；通过句法分析工具获得SBV主语、VOB宾语；在角色语义标注中，获得LOC 地点标签，TMP 时间标签；通过替换上述识别出的时间、地点、人物、事情，获得完整的描述性标题；所述标题描述采用‘时间地点人物事情’四要素进行描写。

7.根据权利要求1所述的方法，其中，所述记录所述标题中的人物或事物以及其对应的图像语音信息，在下次拍照时复用，主要包括：

8.一种基于多模态技术的拍照命名系统，其特征在于，所述系统包括：

多模态数据融合模块，用于将时间地点人物事情多个因素融合在一起，生成标题;