CN105989067B - 从图片生成文本摘要的方法、用户设备及训练服务器 - Google Patents

从图片生成文本摘要的方法、用户设备及训练服务器 Download PDF

Info

Publication number
CN105989067B
CN105989067B CN201510068418.0A CN201510068418A CN105989067B CN 105989067 B CN105989067 B CN 105989067B CN 201510068418 A CN201510068418 A CN 201510068418A CN 105989067 B CN105989067 B CN 105989067B
Authority
CN
China
Prior art keywords
layer
abstract
vector
parameter
convolution layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510068418.0A
Other languages
English (en)
Other versions
CN105989067A (zh
Inventor
陈嘉
曾嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510068418.0A priority Critical patent/CN105989067B/zh
Publication of CN105989067A publication Critical patent/CN105989067A/zh
Application granted granted Critical
Publication of CN105989067B publication Critical patent/CN105989067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供从图片生成文本摘要的方法、用户设备及训练服务器,以至少解决现有技术中从图片生成文本摘要的方法通用性差、网络依赖性强的问题。方法包括:用户设备获取数字图像;所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;所述用户设备输出所述文本摘要。本发明适用于图片内容辨识技术领域。

Description

从图片生成文本摘要的方法、用户设备及训练服务器
技术领域
本发明涉及图片内容辨识技术,尤其涉及从图片生成文本摘要的方法、用户设备及训练服务器。
背景技术
随着数码相机、手机摄像头、谷歌眼镜等智能设备的不断发展,图像数据开始呈现指数式爆炸增长。用户通常需要输入文本信息来查找与其相关的图片信息,或者输入图片信息来查找与之相关的文本信息或类似图片。然而,由于图片数据量大、内容复杂,因此使用文字或图片查找对应或类似图片时需要对大量的数据进行检索,面临着数据量大以及存储计算复杂度高的技术难题。虽然通过文字摘要信息来表达图片信息可以提升检索速度,但是由于视觉信息和文字信息是人类对自然界的两种截然不同的认知,因此通过文字准确、快速并清晰的描述相关图片并不容易。即,如何将视觉信息转化为相关的文字信息是机器学习领域的一大难题。
现有技术中,有如下两种将视觉信息转化为相关的文字信息的方案:
第一,在提供图片搜索功能的网站或服务器,以图片搜索图片的方式,从数据库中搜索出与该照片相近似的图片,并得到该相似图片的来源网址。然后,统计所有相近似图片来源网址上的文字信息,提取其中出现次数最多的文字为关键字,并以该关键字为搜索条件到搜索网站或服务器搜索文字信息后,将该文字信息在图片上注解。
第二,在提供图片搜索功能的网站或服务器,以图片搜索图片的方式,从数据库中搜索出与该照片相近似的图片,进而用该搜索到的图片已有的标签为关键字,查询诗句后输出。
虽然上述两种方案均可以将视觉信息转化为相关的文字信息,但是,仍存在如下问题:第一,均依赖于图片画面的相似性为前提,对于画面不相似但语义相似的画面无法处理,通用性较差;第二,均需要相关设备联网,网络依赖性较强。
发明内容
本发明实施例提供从图片生成文本摘要的方法、用户设备及训练服务器,以至少解决现有技术中从图片生成文本摘要的方法通用性差、网络依赖性强的问题,能够增强通用性,减少网络依赖性。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种从图片生成文本摘要的方法,所述方法包括:
用户设备获取数字图像;
所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;
所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;
所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;
所述用户设备输出所述文本摘要。
在第一方面第一种可能的实现方式中,结合第一方面,所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N ≥1,N为整数。
在第一方面第二种可能的实现方式中,结合第一方面第一种可能的实现方式,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
在第一方面第三种可能的实现方式中,结合第一方面第二种可能的实现方式,所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,包括:
所述用户设备将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过摘要向量卷积层 T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
在第一方面第四种可能的实现方式中,结合第一方面至第一方面第三种可能的实现方式,所述用户设备输出所述文本摘要,包括:
所述用户设备通过所述用户设备的显示模块输出所述文本摘要;
或者,
所述用户设备通过所述用户设备的语音模块输出所述文本摘要。
第二方面,提供一种从图片生成文本摘要的方法,所述方法包括:
训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;
所述训练服务器向用户设备发送所述训练好的摘要模型。
在第二方面第一种可能的实现方式中,结合第二方面,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
在第二方面第二种可能的实现方式中,结合第二方面第一种可能的实现方式,所述训练服务器训练摘要模型,获得训练好的摘要模型,包括:
所述训练服务器构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层;
所述训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和 Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数;
所述训练服务器构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层;
所述训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和 Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数;
所述训练服务器构建所述图像向量卷积层X1与所述摘要向量卷积层 T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,d表示所述第二全连接层 F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数; Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数;
所述训练服务器构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层;
所述训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数;
所述训练服务器构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层;
所述训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和 Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数;
所述训练服务器构建所述图像向量卷积层X2与所述摘要向量卷积层 T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、 Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层 F2的输出层与所述第一全连接层F2之间的面向摘要的第十六神经元参数。
在第二方面第三种可能的实现方式中,结合第二方面第二种可能的实现方式,所述训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,包括:
所述训练服务器以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1;
所述训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和 Wy1,d,包括:
所述训练服务器以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2 为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1 <1;
所述训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层 F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,包括:
所述训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差
α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+
γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2
为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、 Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d, (W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
在第二方面第四种可能的实现方式中,结合第二方面第三种可能的实现方式,所述训练服务器对所述第一五层神经网络进行训练,获得参数 Wx2,u和Wx2,d,包括:
所述训练服务器以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2 <1;
所述训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和 Wy2,d,包括:
所述训练服务器以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2 <1;
所述训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和 Wf2y,d,包括:
所述训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差
α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+
γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2
为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、 Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d, (W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d), y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
在第二方面第五种可能的实现方式中,结合第二方面第四种可能的实现方式,
α1=β1=γ1=α2=β2=γ2=0.5。
第三方面,提供一种用户设备,所述用户设备包括:获取单元、处理单元、生成单元、转化单元、以及输出单元;
所述获取单元,用于获取数字图像;
所述处理单元,用于将所述数字图像进行预处理,得到所述数字图像的图像向量X;
所述生成单元,用于将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;
所述转化单元,用于将所述摘要向量转化为所述数字图像的文本摘要;
所述输出单元,用于输出所述文本摘要。
在第三方面第一种可能的实现方式中,结合第三方面,所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N ≥1,N为整数。
在第三方面第二种可能的实现方式中,结合第三方面第一种可能的实现方式,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
在第三方面第三种可能的实现方式中,结合第三方面第二种可能的实现方式,所述生成单元具体用于:
将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X 经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
在第三方面第四种可能的实现方式中,结合第三方面至第三方面第三种可能的实现方式,所述输出单元具体用于:
通过所述用户设备的显示模块输出所述文本摘要;
或者,
通过所述用户设备的语音模块输出所述文本摘要。
第四方面,提供一种训练服务器,所述训练服务器包括训练单元、发送单元;
所述训练单元,用于训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;
所述发送单元,用于向用户设备发送所述训练好的摘要模型。
在第四方面第一种可能的实现方式中,结合第四方面,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
在第四方面第二种可能的实现方式中,结合第四方面第一种可能的实现方式,所述训练单元具体用于:
构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层;
对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数;
构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层;
对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数;
构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1 和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中, W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数; W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数; Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数;
构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层;
对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数;
构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层;
对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数;
构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2 进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层 F1之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2 的输出层与所述第一全连接层F1之间的面向图像的第十四神经元参数; Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向摘要的第十六神经元参数。
在第四方面第三种可能的实现方式中,结合第四方面第二种可能的实现方式,所述训练单元具体用于:
以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1 <1;
所述训练单元具体用于:
以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1;
所述训练单元具体用于:
根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差
α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+
γ1‖f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2
为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、 Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d, (W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
在第四方面第四种可能的实现方式中,结合第四方面第三种可能的实现方式,所述训练单元具体用于:
以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1;
所述训练单元具体用于:
以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1;
所述训练单元具体用于:
根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差
α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+
γ2‖f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)‖2
为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、 Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d, (W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),
y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
在第四方面第五种可能的实现方式中,结合第四方面第四种可能的实现方式,
α1=β1=γ1=α2=β2=γ2=0.5。
本发明实施例提供从图片生成文本摘要的方法、用户设备及训练服务器,包括:用户设备获取数字图像;所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;所述用户设备将所述图像向量X 输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;所述用户设备输出所述文本摘要。基于本发明实施例的上述方案,一方面,本发明实施例中,从图片生成文本摘要时,用户设备直接将数字图像转化为图像向量,进而将图像向量输入到预先训练好的摘要模型,即可生成所述数字图像的文本摘要。该过程与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,本发明实施例中,从图片生成文本摘要时,可以根据预先训练好的摘要模型生成所述数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的从图片生成文本摘要的方法流程示意图一;
图2为本发明实施例提供的摘要模型结构示意图;
图3为本发明实施例提供的N=2时的摘要模型结构示意图;
图4为本发明实施例提供的从图片生成文本摘要的方法流程示意图二;
图5为本发明实施例提供的第一三层神经网络结构示意图;
图6为本发明实施例提供的第二三层神经网络结构示意图;
图7为本发明实施例提供的三层神经网络的优化模型结构示意图;
图8为本发明实施例提供的第一五层神经网络结构示意图;
图9为本发明实施例提供的第二五层神经网络结构示意图;
图10为本发明实施例提供的用户设备结构示意图一;
图11为本发明实施例提供的训练服务器结构示意图一;
图12为本发明实施例提供的用户设备结构示意图二;
图13为本发明实施例提供的训练服务器结构示意图二。
具体实施方式
为了下述各实施例的描述清楚简洁,首先给出相关概念的简要介绍:
神经网络:
神经网络分为生物神经网络与人工神经网络(Artificial Neural Networks,简称:ANNs),本发明实施例中的神经网络具体为人工神经网络。人工神经网络也简称为神经网络(Neural Networks,简称:NNs) 或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。该神经网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
第二,多层深度神经网络:
多层深度神经网络是指有多个(>=2)输入层、隐藏层和输出层叠加起来,构成的一个多层次的神经网络。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
实施例一、
本发明实施例提供一种从图片生成文本摘要的方法,如图1所示,包括:
S101、用户设备获取数字图像。
S102、用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X。
S103、用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的。
S104、用户设备将所述摘要向量转化为所述数字图像的文本摘要。
S105、用户设备输出所述文本摘要。
具体的,本发明实施例步骤S101中,用户设备可以对特定场景进行实时拍摄,产生数字图像;也可以从预先存储的图像库中获取数字图像,本发明实施例对此不作具体限定。
具体的,本发明实施例步骤S102中,用户设备将获取到的数字图像进行预处理,得到该数字图像的图像向量X。其中,该图像向量X可以为一个k维向量,比如X=[0,0,1.2,0,2.45,0,0,0,34…0,45,0, 0,91],本发明实施例对该图像向量的形式不作具体限定。
具体的,本发明实施例步骤S103中,预先训练好的摘要模型为用户设备从训练服务器下载训练好的摘要模型时,训练服务器发送给用户设备的。该预先训练好的摘要模型可以如图2所示,包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N ≥1,N为整数。
需要说明的是,该多层深度神经网络模型中包含N个图像向量卷积层与N个摘要向量卷积层,其中,N越大,该预先训练好的摘要模型越精确;N越小,该预先训练好的摘要模型的训练成本越低。通常,在训练服务器训练摘要模型时,会综合考虑模型的精确性与训练成本两个因素,确定出合适的N后,进而建立神经网络进行训练,本发明实施例对N个取值不作具体限定。
优选的,若N=2,则该预先训练好的摘要模型可以如图3所示,包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量(步骤S103)具体包括:
所述用户设备将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
其中,假设所有的文本标签形成一个集合T={t1,t2,...,tn},则该摘要向量Y表示为一个基于文本标签集合T的n维词频向量t。
示例性的,假设有5个文本标签组成的集合T,则每个文本摘要是个 5维度的向量,每个值表示文本标签出现的次数,称之为词频。比如,假设5个文本标签分别为:“猫”,“天空”,“高楼”,“老鼠”,“地铁”,则摘要向量[1,0,0,2,0]表示的图片中“猫”的词频为1,“老鼠”的词频为2,“天空”、“高楼”、“地铁”的词频均为0。
需要说明的是,上述仅是示例性的提供一种摘要向量,当然,还可能存在其它可能的摘要向量表征形式。比如,可以表示为归一化后的摘要向量。即,上述示例中的摘要向量[1,0,0,2,0]可以归一化为[1/3,0,0,2/3,0],表示图片中包含“猫”的可能性为1/3,包含“老鼠”的可能性为2/3,包含“天空”、“高楼”、“地铁”的可能性为0。本发明实施例对该摘要向量的形式不作具体限定。
具体的,考虑到摘要向量仅是文本摘要的一种数学表征形式,并不易于用户理解,因此本发明实施例步骤S104中,用户设备需要将摘要向量转化为数字图像的文本摘要。比如,上述示例中的摘要向量[1,0,0,2,0]对应的数字图像的文本摘要可以为老鼠。
具体的,本发明实施例步骤S105中,用户设备输出所述文本摘要具体可以通过以下两种方式实现:
方式一:用户设备通过该用户设备的显示模块输出所述文本摘要;
方式二:用户设备通过该用户设备的语音模块输出所述文本摘要。
即,一种可能的实现方式中,用户设备可以直接将文本摘要显示给用户;一种可能的实现方式中,用户设备可以将文本摘要信息转换成语音后通过语音输出。
其中,利用从文本到语音(Text-to-speech,简称:TTS)技术可以将文本摘要信息转换成语音。TTS技术是人机对话的一部分,让机器能够说话。它在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可按秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS 技术可以帮助有视觉障碍的人阅读计算机上的信息,或者只是简单的用来增加文本文档的可读性。
可以理解的是,除了上述列举的用户设备输出文本摘要的实现方式,还可能存在其它可能的实现方式,本发明实施例对此不作具体限定。
需要说明的是,本发明实施例中,用户设备将训练好的摘要模型从训练服务器下载到客户端后,还可以进行“低频度”更新。即,利用用户自己标注好的数据对该摘要模型进行参数更新。这样,当不同用户使用相似的图片,可能会产生出略有不同的文本摘要,可以理解为是一种“个性化”的从图片生成文本摘要的过程。本发明实施例对此不作具体限定。
本发明实施例提供一种从图片生成文本摘要的方法,包括:用户设备获取数字图像;所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;所述用户设备输出所述文本摘要。基于本发明实施例的上述方案,一方面,本发明实施例中,从图片生成文本摘要时,用户设备直接将数字图像转化为图像向量,进而将图像向量输入到预先训练好的摘要模型,即可生成所述数字图像的文本摘要。该过程与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,本发明实施例中,从图片生成文本摘要时,可以根据预先训练好的摘要模型生成所述数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例二、
本发明实施例提供一种从图片生成文本摘要的方法,如图4所示,包括:
S401、训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
S402、训练服务器向用户设备发送所述训练好的摘要模型。
具体的,本发明实施例步骤S401中,训练服务器训练摘要模型,得到训练好的摘要模型,该训练好的摘要模型可以如图2所示,此处不再赘述。
其中,该多层深度神经网络模型可以将多态的高纬度信息(例如图像或者摘要信息)映射到一个共同的低纬度空间,从而实现快速有效的检索。
可以理解的是,高维度定义为向量的长度很长,例如图像的每个像素值作为一个维度,则尺寸500*500大小的图像维度至少是250000。低纬度的定义为向量长度较短,例如标签集合T,一般只有几千个标签。因此,将高纬度信息映射到低纬度空间,可以实现快速有效的检索。
优选的,若N=2,则所述多层深度神经网络模型可以如图3所示,包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,若所述多层深度神经网络模型可以如图3所示,则训练服务器训练摘要模型,获得训练好的摘要模型(步骤S401)具体可以包括:
S401a、训练服务器构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层。
具体的,该第一三层神经网络可以如图5所示。
S401b、训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数。
具体的,步骤S401b具体可以通过如下方式实现:
训练服务器以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1。
其中,训练服务器可以利用无标签训练数据和梯度下降迭代的方法对第一三层神经网络进行训练,目标为α1||f(x,Wx1,u,Wx1,d)-x||2,从而获得参数Wx1,u和Wx1,d
需要说明的是,梯度下降迭代为一种优化参数的方法,例如重建图像和原始图像的误差就是梯度的一种度量,通过对目标函数求倒数,得到更新参数的方程,该方程的主要变量就是上述误差。通过更新参数,可以使得下一次参数更新后误差向小的方向变化。
S401c、训练服务器构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层。
具体的,该第二三层神经网络可以如图6所示。
S401d、训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数。
具体的,步骤S401d具体可以通过如下方式实现:
训练服务器以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1。
其中,训练服务器可以利用无标签训练数据和梯度下降迭代的方法对第二三层神经网络进行训练,目标为β1||f(y,Wy1,u,Wy1,d)-y||2,从而获得参数Wy1,u和Wy1,d
S401e、训练服务器构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、 Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数。
具体的,三层神经网络的优化模型可以如图7所示。步骤S401e具体可以通过如下方式实现:
训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差
α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+
γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2
为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、 Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d), 0<γ1<1。
其中,训练服务器可以利用{图像向量,摘要向量}对和梯度下降迭代的方法对图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,目标为
α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+
γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2
S401f、训练服务器构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层。
具体的,该第一五层神经网络可以如图8所示。
S401g、训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2 的输出层与所述图像向量卷积层X2之间的第十神经元参数。
具体的,步骤S401g具体可以通过如下方式实现:
训练服务器以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1。
其中,训练服务器可以利用无标签训练数据和梯度下降迭代的方法对第一五层神经网络进行训练,目标为α2||f(x1,Wx2,u,Wx2,d)-x||2,从而获得参数Wx2,u和Wx2,d
S401h、训练服务器构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层。
具体的,该第二三层神经网络可以如图9所示。
S401i、训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2 的输出层与所述摘要向量卷积层T2之间的第十二神经元参数。
具体的,步骤S401i具体可以通过如下方式实现:
训练服务器以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1。
S401j、训练服务器构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、 Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向摘要的第十六神经元参数。
具体的,五层神经网络的优化模型可以如图3所示。步骤S401j具体可以通过如下方式实现:
训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差
α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+
γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2
为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、 Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d, (W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d), y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
其中,训练服务器可以利用{图像向量,摘要向量}对和梯度下降迭代的方法对图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,目标为
α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+
γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2
具体的,本发明实施例中,重建误差的系数α1、β1、γ1、α2、β2、γ2 为大于0小于1的实数。优选的,α1=β1=γ1=α2=β2=γ2=0.5。
需要说明的是,上述仅是示例性的提供一种训练服务器训练摘要模型,获得如图3所示的多层深度神经网络模型的具体实现,当然,也可能存在其它的实现方法,本发明实施例对此不作具体限定。
本发明实施例提供一种从图片生成文本摘要的方法,包括:训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N 个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N 为整数;训练服务器向用户设备发送所述训练好的摘要模型。基于本发明实施例的上述方案,训练服务器可以训练摘要模型,并将该训练好的摘要模型发送给用户设备。这样,用户设备可以根据该摘要模型从图片生成文本摘要。一方面,由于用户设备从图片生成文本摘要时,可以根据预先训练好的摘要模型生成数字图像的文本摘要,与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,由于用户设备从图片生成数字图像的文本摘要时,可以根据预先训练好的摘要模型生成文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例三、
本发明实施例提供一种用户设备100,具体如图10所示,所述用户设备100包括:获取单元101、处理单元102、生成单元103、转化单元 104、以及输出单元105。
所述获取单元101,用于获取数字图像。
所述处理单元102,用于将所述数字图像进行预处理,得到所述数字图像的图像向量X。
所述生成单元103,用于将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备100的。
所述转化单元104,用于将所述摘要向量转化为所述数字图像的文本摘要。
所述输出单元105,用于输出所述文本摘要。
具体的,所述预先训练的摘要模型可以包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N ≥1,N为整数。
优选的,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述生成单元103具体用于:
将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X 经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
进一步的,所述输出单元105具体用于:
通过所述用户设备100的显示模块输出所述文本摘要;
或者,
通过所述用户设备100的语音模块输出所述文本摘要。
具体的,通过本发明实施例提供的用户设备100从图片生成文本摘要的方法可参考实施例一的描述,本发明实施例在此不再赘述。
本发明实施例提供一种用户设备,包括:获取单元获取数字图像;处理单元将所述数字图像进行预处理,得到所述数字图像的图像向量X;生成单元将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;转化单元将所述摘要向量转化为所述数字图像的文本摘要;输出单元输出所述文本摘要。基于本发明实施例的上述方案,一方面,本发明实施例中,从图片生成文本摘要时,用户设备直接将数字图像转化为图像向量,进而将图像向量输入到预先训练好的摘要模型,即可生成所述数字图像的文本摘要。该过程与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,本发明实施例中,从图片生成文本摘要时,可以根据预先训练好的摘要模型生成所述数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例四、
本发明实施例提供一种训练服务器110,具体如图11所示,所述训练服务器110包括训练单元111、发送单元112。
所述训练单元111,用于训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
所述发送单元112,用于向用户设备发送所述训练好的摘要模型。
优选的,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述训练单元111具体用于:
构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层。
对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数。
构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层。
对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数。
构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1 和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中, W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数; W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数; Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数。
构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层。
对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数。
构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层。
对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数。
构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2 进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层 F1之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2 的输出层与所述第一全连接层F1之间的面向图像的第十四神经元参数; Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向摘要的第十六神经元参数。
进一步的,所述训练单元111具体用于:
以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1 <1。
所述训练单元111具体用于:
以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1。
所述训练单元111具体用于:
根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差
α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+
γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2
为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、 Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d, (W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),0<γ1<1。
进一步的,所述训练单元111具体用于:
以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1。
所述训练单元111具体用于:
以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1。
所述训练单元111具体用于:
根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差
α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+
γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2
为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、 Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d, (W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d), y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
优选的,α1=β1=γ1=α2=β2=γ2=0.5。
具体的,通过本发明实施例提供的训练服务器110从图片生成文本摘要的方法可参考实施例一的描述,本发明实施例在此不再赘述。
本发明实施例提供一种训练服务器,包括:训练单元训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;发送单元向用户设备发送所述训练好的摘要模型。基于本发明实施例的上述方案,训练服务器可以训练摘要模型,并将该训练好的摘要模型发送给用户设备。这样,用户设备可以根据该摘要模型从图片生成文本摘要。一方面,由于用户设备从图片生成文本摘要时,可以根据预先训练好的摘要模型生成数字图像的文本摘要,与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,由于用户设备从图片生成数字图像的文本摘要时,可以根据预先训练好的摘要模型生成文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例五、
本发明实施例提供一种用户设备120,具体如图12所示,包括处理器121、输出接口122、通信接口125、存储器123和总线124。
其中,所述处理器121具体可以是一个中央处理器(Central Processing Unit,简称:CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称:ASIC)等,本发明实施例对此不作具体限定。
所述存储器123具体可以包含高速随机存取存储器(Random Access Memory,简称:RAM),也可能包含非易失性存储器(non-volatile memory),例如至少一个磁盘存储器,本发明实施例对此不作具体限定。
所述总线124具体可以是工业标准体系结构(Industry Standard Architecture,简称:ISA)总线、外部设备互连(Peripheral Component Interconnect,简称:PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称:EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
所述总线124,用于所述处理器121,所述输出接口122、所述通信接口125、所述存储器123之间的连接通信。
所述输出接口122,用于所述用户设备120的输出。
所述通信接口125,用于所述用户设备120与外部的通信。
所述处理器121,用于调用所述存储器123中存储的程序代码1231,执行下述操作:
获取数字图像。
将所述数字图像进行预处理,得到所述数字图像的图像向量X。
将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备120,由所述用户设备通过所述通信接口125获取的。
将所述摘要向量转化为所述数字图像的文本摘要。
通过所述输出接口122输出所述文本摘要。
具体的,所述预先训练的摘要模型可以包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N ≥1,N为整数。
优选的,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述处理器121具体用于:
将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X 经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
进一步的,所述通过所述输出接口122输出所述文本摘要,包括:
通过所述用户设备120的显示模块输出所述文本摘要;
或者,
通过所述用户设备120的语音模块输出所述文本摘要。
具体的,通过本发明实施例提供的用户设备120从图片生成文本摘要的方法可参考实施例一的描述,本发明实施例在此不再赘述。
本发明实施例提供一种用户设备,包括:用户设备获取数字图像,将所述数字图像进行预处理,得到所述数字图像的图像向量X,将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,并将所述摘要向量转化为所述数字图像的文本摘要后,输出所述文本摘要。基于本发明实施例的上述方案,一方面,本发明实施例中,从图片生成文本摘要时,用户设备直接将数字图像转化为图像向量,进而将图像向量输入到预先训练好的摘要模型,即可生成所述数字图像的文本摘要。该过程与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,本发明实施例中,从图片生成文本摘要时,可以根据预先训练好的摘要模型生成所述数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例六、
本发明实施例提供一种训练服务器130,具体如图13所示,所述训练服务器130包括处理器131、通信接口132、存储器133和总线134。
其中,所述处理器131具体可以是一个CPU,或者是ASIC等,本发明实施例对此不作具体限定。
所述存储器133具体可以包含RAM,也可能包含非易失性存储器 (non-volatilememory),例如至少一个磁盘存储器,本发明实施例对此不作具体限定。
所述总线134具体可以是ISA总线、PCI总线或EISA总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
所述总线134,用于所述处理器131,所述通信接口132、所述存储器133之间的连接通信。
所述通信接口132,用于所述训练服务器130与外部的通信。
所述处理器131,用于调用所述存储器133中的存储的程序代码 1331,执行下述操作:
训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N 个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
通过所述通信接口132向用户设备发送所述训练好的摘要模型。
优选的,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述处理器131具体用于:
构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层。
对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数。
构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层。
对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数。
构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1 和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中, W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数; W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数; Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数。
构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层。
对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数。
构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层。
对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数。
构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2 进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层 F1之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2 的输出层与所述第一全连接层F1之间的面向图像的第十四神经元参数; Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向摘要的第十六神经元参数。
进一步的,所述处理器131具体用于:
以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1 <1。
所述处理器131具体用于:
以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1。
所述处理器131具体用于:
根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差
α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+
γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2
为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、 Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d, (W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
进一步的,所述处理器131具体用于:
以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1。
所述处理器131具体用于:
以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1。
所述处理器131具体用于:
根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差
α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+
γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2
为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、 Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d, (W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d), y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
优选的,α1=β1=γ1=α2=β2=γ2=0.5。
具体的,通过本发明实施例提供的训练服务器130从图片生成文本摘要的方法可参考实施例一的描述,本发明实施例在此不再赘述。
本发明实施例提供一种训练服务器,包括:训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;向用户设备发送所述训练好的摘要模型。基于本发明实施例的上述方案,训练服务器可以训练摘要模型,并将该摘要模型发送给用户设备。这样,用户设备可以根据该摘要模型从图片生成文本摘要。一方面,由于用户设备从图片生成文本摘要时,可以根据预先训练好的摘要模型生成数字图像的文本摘要,与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,由于用户设备从图片生成文本摘要时,可以根据预先训练好的摘要模型生成数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种从图片生成文本摘要的方法,其特征在于,所述方法包括:
训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;
所述训练服务器向用户设备发送所述训练好的摘要模型;
若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连;
所述训练服务器训练摘要模型,获得训练好的摘要模型,包括:
所述训练服务器构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层;
所述训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数;
所述训练服务器构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层;
所述训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数;
所述训练服务器构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数;
所述训练服务器构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层;
所述训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数;
所述训练服务器构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层;
所述训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数;
所述训练服务器构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向摘要的第十六神经元参数。
2.根据权利要求1所述的方法,其特征在于,所述训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,包括:
所述训练服务器以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,||||表示标准差,0<α1<1;
所述训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,包括:
所述训练服务器以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1;
所述训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,包括:
所述训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),0<γ1<1。
3.根据权利要求2所述的方法,其特征在于,所述训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,包括:
所述训练服务器以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1;
所述训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,包括:
所述训练服务器以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1;
所述训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,包括:
所述训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差
α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2
为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
4.根据权利要求3所述的方法,其特征在于,
α1=β1=γ1=α2=β2=γ2=0.5。
5.一种训练服务器,其特征在于,所述训练服务器包括训练单元、发送单元;
所述训练单元,用于训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;
所述发送单元,用于向用户设备发送所述训练好的摘要模型;
若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连;
所述训练单元具体用于:
构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层;
对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数;
构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层;
对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数;
构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数;
构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层;
对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数;
构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层;
对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数;
构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向摘要的第十六神经元参数。
6.根据权利要求5所述的训练服务器,其特征在于,所述训练单元具体用于:
以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,||||表示标准差,0<α1<1;
所述训练单元具体用于:
以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1;
所述训练单元具体用于:
根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
7.根据权利要求6所述的训练服务器,其特征在于,所述训练单元具体用于:
以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1;
所述训练单元具体用于:
以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1;
所述训练单元具体用于:
根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差
α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2
为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
8.根据权利要求7所述的训练服务器,其特征在于,
α1=β1=γ1=α2=β2=γ2=0.5。
CN201510068418.0A 2015-02-09 2015-02-09 从图片生成文本摘要的方法、用户设备及训练服务器 Active CN105989067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510068418.0A CN105989067B (zh) 2015-02-09 2015-02-09 从图片生成文本摘要的方法、用户设备及训练服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510068418.0A CN105989067B (zh) 2015-02-09 2015-02-09 从图片生成文本摘要的方法、用户设备及训练服务器

Publications (2)

Publication Number Publication Date
CN105989067A CN105989067A (zh) 2016-10-05
CN105989067B true CN105989067B (zh) 2019-09-03

Family

ID=57041609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510068418.0A Active CN105989067B (zh) 2015-02-09 2015-02-09 从图片生成文本摘要的方法、用户设备及训练服务器

Country Status (1)

Country Link
CN (1) CN105989067B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484913B (zh) * 2016-10-26 2021-09-07 腾讯科技(深圳)有限公司 一种目标图片确定的方法以及服务器
WO2018170671A1 (en) * 2017-03-20 2018-09-27 Intel Corporation Topic-guided model for image captioning system
CN106997387B (zh) * 2017-03-28 2019-08-09 中国科学院自动化研究所 基于文本-图像匹配的多模态自动文摘方法
CN107169031B (zh) * 2017-04-17 2020-05-19 广东工业大学 一种基于深度表达的图片素材推荐方法
CN107016439A (zh) * 2017-05-09 2017-08-04 重庆大学 基于cr2神经网络的图像‑文本双编码机理实现模型
CN108388942A (zh) * 2018-02-27 2018-08-10 四川云淞源科技有限公司 基于大数据的信息智能处理方法
CN110349424A (zh) * 2019-06-28 2019-10-18 京东数字科技控股有限公司 一种基于车路协同的路侧系统
CN113673349B (zh) * 2021-07-20 2022-03-11 广东技术师范大学 基于反馈机制的图像生成中文文本方法、系统及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007099496A1 (en) * 2006-03-03 2007-09-07 Koninklijke Philips Electronics N.V. Method and device for automatic generation of summary of a plurality of images
CN104239461A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 提取图片摘要的方法和装置
CN104331437A (zh) * 2014-10-24 2015-02-04 百度在线网络技术(北京)有限公司 生成图片描述信息的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007099496A1 (en) * 2006-03-03 2007-09-07 Koninklijke Philips Electronics N.V. Method and device for automatic generation of summary of a plurality of images
CN104239461A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 提取图片摘要的方法和装置
CN104331437A (zh) * 2014-10-24 2015-02-04 百度在线网络技术(北京)有限公司 生成图片描述信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Translating Videos to Natural Language Using Deep Recurrent Neural Networks;Subhashini Venugopalan等;《Computer Science》;20141219;第3-6页

Also Published As

Publication number Publication date
CN105989067A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN105989067B (zh) 从图片生成文本摘要的方法、用户设备及训练服务器
CN107861938B (zh) 一种poi文案生成方法及装置,电子设备
CN109033068A (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN108460396A (zh) 负采样方法和装置
CN108416028A (zh) 一种搜索内容资源的方法、装置及服务器
CN108121800A (zh) 基于人工智能的信息生成方法和装置
CN111694940A (zh) 一种用户报告的生成方法及终端设备
CN110245228A (zh) 确定文本类别的方法和装置
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN109376775A (zh) 在线新闻多模态情感分析方法
US9129216B1 (en) System, method and apparatus for computer aided association of relevant images with text
CN110223358A (zh) 可视图案设计方法、训练方法、装置、系统及存储介质
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN110321544A (zh) 用于生成信息的方法和装置
CN115953521B (zh) 远程数字人渲染方法、装置及系统
CN110209875A (zh) 用户内容画像确定方法、访问对象推荐方法和相关装置
KR20220147545A (ko) 이미지 편집 모델의 트레이닝 방법 및 이미지 편집 방법
CN110245310A (zh) 一种对象的行为分析方法、装置及存储介质
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
CN108874789A (zh) 语句的生成方法、装置、存储介质和电子装置
CN111651989B (zh) 命名实体识别方法和装置、存储介质及电子装置
CN110413882A (zh) 信息推送方法、装置及设备
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN112528039A (zh) 词语处理方法、装置、设备及存储介质
CN108876422A (zh) 用于信息推广的方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant