CN111767395B - 基于图片的摘要生成方法与系统 - Google Patents

基于图片的摘要生成方法与系统 Download PDF

Info

Publication number
CN111767395B
CN111767395B CN202010622157.3A CN202010622157A CN111767395B CN 111767395 B CN111767395 B CN 111767395B CN 202010622157 A CN202010622157 A CN 202010622157A CN 111767395 B CN111767395 B CN 111767395B
Authority
CN
China
Prior art keywords
image
feature
picture
layer
preset format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010622157.3A
Other languages
English (en)
Other versions
CN111767395A (zh
Inventor
党升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010622157.3A priority Critical patent/CN111767395B/zh
Publication of CN111767395A publication Critical patent/CN111767395A/zh
Application granted granted Critical
Publication of CN111767395B publication Critical patent/CN111767395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图片的摘要生成方法,包括:接收摘要生成指令,摘要生成指令包括待处理图片;对待处理图片进行预处理,得到预设格式的图片;将预设格式的图片输入至图像特征提取器中,以通过图像特征提取器提取出预设格式的图片中的图像特征向量;获取先验知识数据,将预设格式的图片与先验知识数据输入至文本特征提取器中,以通过文本特征提取器提取出预设格式中的文本特征向量;将图像特征向量、文本特征向量与先验知识数据输入至图像摘要生成器中,以通过图像摘要生成器生成预设格式的图片的目标图像摘要,并将目标图像摘要上传至区块链中进行保存。本发明的有益效果在于:提高了摘要生成的效率与精确度。

Description

基于图片的摘要生成方法与系统
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种基于图片的摘要生成方法与系统。
背景技术
自动摘要是利用计算机系统自动实现文本分析、内容归纳和摘要自动生成的技术,可以按或用户的要求以简洁的形式表达原文的主要内容。自动摘要技术能够有效地帮助或用户从检索到的文章中寻找感兴趣的内容,提高阅读速度和质量。该技术可以将文档压缩为更为简洁的表达,并且保证涵盖原始文档有价值的主题。
传统的自动摘要技术一般是单模态摘要,即输入全部为文本。然而在实际情况中,因为种种原因,很多文本数据是以图片的格式存在,在很多情况下并不需要图片的全部文字信息,只需要其中的摘要信息。然而为了达到目的,一般需要先通过工具将图片转成文字然后再通过摘要生成模型得到摘要。这个转换过程需要人工操作,降低了摘要生成的效率与准确度,同时也耗费了不必要的资源。
发明内容
有鉴于此,本发明实施例的目的是提供一种基于图片的摘要生成方法与系统,提高了摘要生成的效率与准确度。
为实现上述目的,本发明实施例提供了一种基于图片的摘要生成方法,包括:
接收摘要生成指令,所述摘要生成指令包括待处理图片;
对所述待处理图片进行预处理,得到预设格式的图片;
将所述预设格式的图片输入至图像特征提取器中,以通过所述图像特征提取器提取出所述预设格式的图片中的图像特征向量;
获取先验知识数据,将所述预设格式的图片与所述先验知识数据输入至文本特征提取器中,以通过所述文本特征提取器提取出所述预设格式中的文本特征向量;
将所述图像特征向量、所述文本特征向量与所述先验知识数据输入至图像摘要生成器中,以通过所述图像摘要生成器生成所述预设格式的图片的目标图像摘要。
进一步地,所述图像特征提取器包括第一卷积层与第一池化层,所述将所述预设格式的图片输入至图像特征提取器中,以通过所述图像特征提取器提取出所述预设格式的图片中的图像特征向量包括:
将所述预设格式的图片输入至所述第一卷积层,以通过所述第一卷积层根据预设的特征卷积核对所述预设格式的图片进行过滤处理,输出第一目标特征图像;
将所述第一目标特征图像输入至所述第一池化层,以通过所述第一池化层对所述第一目标特征图像进行最大池化处理,得到第二目标特征图像;
对所述第二图像特征进行向量转化,输出所述目标特征图像向量。
进一步地,将所述预设格式的图片输入至所述第一卷积层,以通过所述第一卷积层根据预设的特征卷积核对所述预设格式的图片进行过滤处理,输出第一目标特征图像包括:
将所述预设格式的图片输入至所述第一卷积层中,根据卷积公式与所述预设的特征卷积核对所述预设格式的图片进行过滤处理;
根据激活函数对过滤处理后的预设格式的图片进行特收敛,输出第一目标特征图像。
进一步地,所述卷积公式为:
o=(i-k+2*p)/s+1;
其中,i表示预设格式的图片的尺寸;k表示特征卷积核的大小;s表示步长;p表示填充大小;o表示第一目标特征图像的尺寸。
进一步地,所述文本特征提取器包括第二卷积层与第二池化层,所述获取先验知识数据,将所述预设格式的图片与所述先验知识数据输入至文本特征提取器中,以通过所述文本特征提取器提取出所述预设格式中的文本特征向量包括:
将所述预设格式的图片输入至所述第二卷积层,以通过所述第二卷积层对所述预设格式的图片进行过滤处理,得到第一文本特征;
将所述第一文本特征输入至所述第二池化层,以通过所述第二池化层对所述第一文本特征进行最大池化处理,并通过所述政务知识数据进行筛选,得到第二文本特征;
对所述第二文本特征进行向量转化,输出所述文本特征向量。
进一步地,所述图像摘要生成器包括多层特征生成层,所述将所述图像特征向量、所述文本特征向量与所述先验知识数据输入至图像摘要生成器中,以通过所述图像摘要生成器生成所述预设格式的图片的目标图像摘要包括:
将所述图像特征向量与所述文本特征向量输入至所述图像摘要生成器中,通过所述图像摘要生成器的第一层特征生成层生成第一个特征字;
将所述第一个特征字与第一层特征生成层的中间结果输入到图像摘要生成器中,通过所述图像摘要生成器的第二层特征生成层生成第二个特征字;
当所述图像摘要生成器将所述图像特征向量与所述文本特征向量生成特征句子时,停止循环输入;
通过将所述先验知识作为所述图像摘要生成器的注意力机制,对所述特征句子进行校正,得到目标图像摘要,并将所述目标图像摘要上传至区块链中。
为实现上述目的,本发明实施例还提供了一种基于图片的摘要生成系统,包括:
接收模块,用于接收摘要生成指令,所述摘要生成指令包括待处理图片;
预处理模块,用于对所述待处理图片进行预处理,得到预设格式的图片;
第一提取模块,用于将所述预设格式的图片输入至图像特征提取器中,以通过所述图像特征提取器提取出所述预设格式的图片中的图像特征向量;
第二提取模块,用于获取先验知识数据,将所述预设格式的图片与所述先验知识数据输入至文本特征提取器中,以通过所述文本特征提取器提取出所述预设格式中的文本特征向量;
生成模块,用于将所述图像特征向量、所述文本特征向量与所述先验知识数据输入至图像摘要生成器中,以通过所述图像摘要生成器生成所述预设格式的图片的目标图像摘要。
进一步地,所述生成模块还用于:
将所述图像特征向量与所述文本特征向量输入至所述图像摘要生成器中,通过所述图像摘要生成器的第一层特征生成层生成第一个特征字;
将所述第一个特征字与第一层特征生成层的中间结果输入到图像摘要生成器中,通过所述图像摘要生成器的第二层特征生成层生成第二个特征字;
当所述图像摘要生成器将所述图像特征向量与所述文本特征向量生成特征句子时,停止循环输入,其中,所述图像摘要生成器包括多层特征生成层;
通过将所述先验知识作为所述图像摘要生成器的注意力机制,对所述特征句子进行校正,得到目标图像摘要,并将所述目标图像摘要上传至区块链中。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于图片的摘要生成方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于图片的摘要生成方法的步骤。
本发明实施例提供的基于图片的摘要生成方法与系统,通过对待处理图片进行预处理得到预设格式的图片,再将预设格式的图片分别进行图像特征提取与文本特征提取,进一步进行向量转化,得到文本特征向量与图像特征向量;最后通过对两向量进行摘要生成,得到图像摘要。有效的解决了图片数据提取摘要的问题,且摘要生成时加入了政务知识数据作为Attention注意力机制输入,使得输出的摘要更贴近政务需求。
附图说明
图1为本发明基于图片的摘要生成方法实施例一的流程图。
图2为本发明基于图片的摘要生成方法实施例一中步骤S140的流程图。
图3为本发明基于图片的摘要生成方法实施例一中步骤S141的流程图。
图4为本发明基于图片的摘要生成方法实施例一中步骤S160的流程图。
图5为本发明基于图片的摘要生成方法实施例一中步骤S180的流程图。
图6为本发明基于图片的摘要生成系统实施例二的程序模块示意图。
图7为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,示出了本发明实施例一之基于图片的摘要生成方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,接收摘要生成指令,所述摘要生成指令包括待处理图片。
具体地,摘要生成指令是用户基于待处理图片的摘要生成请求得到的,待处理图片为存储有政务相关信息的图片,该待处理图片中可以包括有图片信息与文字信息。
步骤S120,对所述待处理图片进行预处理,得到预设格式的图片。
具体地,预处理包括但不限于对待处理图片进行去噪处理、图片大小的旋转、缩放、裁剪、灰度处理以及格式转化等;接收的待处理图片的格式不确定,统一将其转化为本发明处理操作时,需要的格式,例如:jpg格式。
步骤S140,将所述预设格式的图片输入至图像特征提取器中,以通过所述图像特征提取器提取出所述预设格式的图片中的图像特征向量。
具体地,图像特征提取器是基于深度学习神经网络进行构建,通过CNN卷积、Pool池化操作提取出目标特征图像,使用向量输出目标特征图像向量。
示例性地,所述图像特征提取器包括第一卷积层与第一池化层,参阅图2,所述步骤S140进一步包括:
步骤S141,将所述预设格式的图片输入至所述第一卷积层,以通过所述第一卷积层根据预设的特征卷积核对所述预设格式的图片进行过滤处理,输出第一目标特征图像。
具体地,预设格式的图片数据是一个固定大小的像素点,如256*256大小的图片,就是256*256个像素点组成的,每个像素点都是0-255的一个值代表灰度值,将预设格式的图片表示成一个256*256大小的张量。通过第一卷积层的卷积操作,对张量进行卷积,卷积又称作滤波器,特征卷积核为需要的特征的张量,通过卷积可以过滤出原张量中的重要信息。
示例性地,参阅图3,所述步骤S141进一步包括:
步骤S141A,将所述预设格式的图片输入至所述第一卷积层中,根据卷积公式与所述预设的特征卷积核对所述预设格式的图片进行过滤处理。
具体地,通过第一卷积层的卷积操作,对张量进行卷积,卷积又称作滤波器,特征卷积核为需要的特征的张量,通过卷积可以过滤出原张量中的重要信息。
步骤S141B,根据激活函数对过滤处理后的预设格式的图片进行特收敛,输出第一目标特征图像。
具体地,通过relu激活函数对过滤处理后的预设格式的图片的尺寸进行收敛,得到第一图像特征。在进行图像特征提取时,由于relu激活函数在反向传播求误差梯度时间,计算量相对大;对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度爆炸的情况,便于训练数据,过滤出实际所需特征。
示例性地,卷积原理的计算公式如下:
o=(i-k+2*p)/s+1,
其中,i为预设格式的图片的尺寸;k为特征卷积核的大小;s为步长;p为填充大小;o为第一目标特征图像的尺寸。
具体地,卷积核的填充大小代表感受野的大小,卷积核的步长度代表提取的精度:例如:填充大小为3的卷积核,如果步长为1,那么相邻步感受野之间就会有重复区域;如果步长为2,那么相邻感受野(特征图上的一个点对应输入图上的区域)不会重复,也不会有覆盖不到的地方;如果步长为3,那么相邻步感受野之间会有一道大小为1的缝隙,从某种程度来说,这样就遗漏了原图的信息,直观上理解是不好的。
步骤S142,将所述第一目标特征图像输入至所述第一池化层,以通过所述第一池化层对所述第一目标特征图像进行最大池化处理,得到第二目标特征图像。
具体地,最大池化操作,取第一目标特征图像上的区域内的最大值,当作输出,如图片为4*4大小的输入,使用2*2大小的核进行池化后,输出结果为2*2的图形。经过relu激活函数预测出图片所属的特征,得到第二图像特征通过卷积处理,提取出图片张量中的重要信息,然后再进行池化操作,只留下重要信息,即第二图像特征。
步骤S143,对所述第二图像特征进行向量转化,输出所述目标特征图像向量。
具体地,通过对第二图像特征进行向量转化,得到目标特征图像向量。可以使用one-hot等编码进行向量转化。
步骤S160,获取先验知识数据,将所述预设格式的图片与所述先验知识数据输入至文本特征提取器中,以通过所述文本特征提取器提取出所述预设格式中的文本特征向量。
具体地,先验知识数据可以为政务知识数据,包括有大量政务知识相关的数据,文本特征提取器由深度学习神经网络构建,通过CNN卷积、Pool池化操作提取出预设格式的图片中与政务知识相关的政务文本特征,使用向量输出与政务相关的文本特征向量。
示例性地,所述文本特征提取器包括第二卷积层与第二池化层,参阅图4,所述步骤S160进一步包括:
步骤S161,将所述预设格式的图片输入至所述第二卷积层,以通过所述第二卷积层对所述预设格式的图片进行过滤处理,得到第一文本特征。
具体地,通过对第二卷积层中的卷积核特征进行设置,以将预设格式的图片输入时,只过滤出文字部分,将其他部分的特征削弱,得到第一文本特征。
步骤S162,将所述第一文本特征输入至所述第二池化层,以通过所述第二池化层对所述第一文本特征进行最大池化处理,并通过所述政务知识数据进行筛选,得到第二文本特征。
具体地,将第一文本特征通过第二池化层进一步提取,提取出第一文本特征中的最大特征,可以理解为将第一文本特征进行压缩,但特征不变。且通过relu激活函数与政务知识数据进行收敛,以输出与政务相关的政务文本特征。可以理解为,对文本特征进行权值收敛,将第一文本特征中权值偏向于政务知识数据的政务文本特征进行筛选,得到第二文本特征,输出的可以为关键词或者关键字或者关键句子。
步骤S163,对所述第二文本特征进行向量转化,输出所述文本特征向量。
具体地,将第二文本特征的文字特征转化为向量形式,得到文本特征向量。可以使用one-hot等编码进行向量转化。
步骤S180,将所述图像特征向量、所述文本特征向量与所述先验知识数据输入至图像摘要生成器中,以通过所述图像摘要生成器生成所述预设格式的图片的目标图像摘要。
具体地,将图像特征向量和文本特征向量一同输出到图像摘要生成器,摘要生成器有RNN循环神经网络构成,先生成第一个字,再将第一个字的特征输入生成第二个字,依次类推,生成一个完整的句子,并使用先验知识数据,作为Attention注意力机制输入,目的在于将摘要生成更贴近政务知识的要求。
示例性地,所述图像摘要生成器包括多层特征生成层,参阅图5,所述步骤S180进一步包括:
步骤S181,将所述图像特征向量与所述文本特征向量输入至所述图像摘要生成器中,通过所述图像摘要生成器的第一层特征生成层生成第一个特征字。
具体地,通过RNN循环神经网络训练构成的图像摘要生成器,将图像特征向量与文本特征向量生成第一个特征字,即计算出两个特征向量组合得到的词向量。
步骤S182,将所述第一个特征字与第一层特征生成层的中间结果输入到图像摘要生成器中,通过所述图像摘要生成器的第二层特征生成层生成第二个特征字。
具体地,再将第一个字的特征与第一次循环的中间结果输入到摘要生成器生成第二个字。
步骤S183,当所述图像摘要生成器将所述图像特征向量与所述文本特征向量生成特征句子时,停止循环输入。
具体地,循环执行步骤S181与步骤S182,直到生成一个完整的特征句子。
步骤S184,通过将所述先验知识作为所述图像摘要生成器的注意力机制,对所述特征句子进行校正,得到目标图像摘要,并将所述目标图像摘要上传至区块链中。
具体地,将先验知识作为图像摘要生成器的注意力机制,对生成的特征句子与先验知识进行相似度计算,以将生成的特征词转化为政务词,并将这些特征词进行组合,输出贴近政务知识的目标图像摘要的特征句子。将目标图像摘要上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该目标图像摘要,以便查证目标图像摘要是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。可以理解的,整个图像处理以及摘要生成过程通过神经网络构建串联训练,生成一个图像摘要模型,在图像摘要模型中输入预设格式的图像,直接输出目标图像摘要。
实施例二
请继续参阅6,示出了本发明基于图片的摘要生成系统实施例二的程序模块示意图。在本实施例中,基于图片的摘要生成系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于图片的摘要生成方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于图片的摘要生成系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
接收模块200,用于接收摘要生成指令,所述摘要生成指令包括待处理图片。
具体地,待处理图片为存储有政务相关信息的图片,该待处理图片中可以包括有图片信息与文字信息。
预处理模块202,用于对所述待处理图片进行预处理,得到预设格式的图片。
具体地,预处理包括但不限于对待处理图片进行去噪处理、图片大小的旋转、缩放、裁剪、灰度处理以及格式转化等;接收的待处理图片的格式不确定,统一将其转化为本发明处理操作时,需要的格式,例如:jpg格式。
第一提取模块204,用于将所述预设格式的图片输入至图像特征提取器中,以通过所述图像特征提取器提取出所述预设格式的图片中的图像特征向量。
具体地,图像特征提取器是基于深度学习神经网络进行构建,通过CNN卷积、Pool池化操作提取出目标特征图像,使用向量输出目标特征图像向量。
示例性地,所述图像特征提取器包括第一卷积层与第一池化层,所述第一提取模块204还用于:
将所述预设格式的图片输入至所述第一卷积层,以通过所述第一卷积层根据预设的特征卷积核对所述预设格式的图片进行过滤处理,输出第一目标特征图像。
具体地,预设格式的图片数据是一个固定大小的像素点,如256*256大小的图片,就是256*256个像素点组成的,每个像素点都是0-255的一个值代表灰度值,将预设格式的图片表示成一个256*256大小的张量。通过第一卷积层的卷积操作,对张量进行卷积,卷积又称作滤波器,特征卷积核为需要的特征的张量,通过卷积可以过滤出原张量中的重要信息。
示例性地,所述第一提取模块204还用于:
将所述预设格式的图片输入至所述第一卷积层中,根据卷积公式与所述预设的特征卷积核对所述预设格式的图片进行过滤处理。
具体地,通过第一卷积层的卷积操作,对张量进行卷积,卷积又称作滤波器,特征卷积核为需要的特征的张量,通过卷积可以过滤出原张量中的重要信息。
根据激活函数对过滤处理后的预设格式的图片进行特收敛,输出第一目标特征图像。
具体地,通过relu激活函数对过滤处理后的预设格式的图片的尺寸进行收敛,得到第一图像特征。在进行图像特征提取时,由于relu激活函数在反向传播求误差梯度时间,计算量相对大;对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度爆炸的情况,便于训练数据,过滤出实际所需特征。
示例性地,卷积原理的计算公式如下:
o=(i-k+2*p)/s+1,
其中,i为预设格式的图片的尺寸;k为特征卷积核的大小;s为步长;p为填充大小;o为第一目标特征图像的尺寸。
具体地,卷积核的填充大小代表感受野的大小,卷积核的步长度代表提取的精度:例如:填充大小为3的卷积核,如果步长为1,那么相邻步感受野之间就会有重复区域;如果步长为2,那么相邻感受野(特征图上的一个点对应输入图上的区域)不会重复,也不会有覆盖不到的地方;如果步长为3,那么相邻步感受野之间会有一道大小为1的缝隙,从某种程度来说,这样就遗漏了原图的信息,直观上理解是不好的。
将所述第一目标特征图像输入至所述第一池化层,以通过所述第一池化层对所述第一目标特征图像进行最大池化处理,得到第二目标特征图像。
具体地,最大池化操作,取第一目标特征图像上的区域内的最大值,当作输出,如图片为4*4大小的输入,使用2*2大小的核进行池化后,输出结果为2*2的图形。经过relu激活函数预测出图片所属的特征,得到第二图像特征通过卷积处理,提取出图片张量中的重要信息,然后再进行池化操作,只留下重要信息,即第二图像特征。
对所述第二图像特征进行向量转化,输出所述目标特征图像向量。
具体地,通过对第二图像特征进行向量转化,得到目标特征图像向量。
第二提取模块206,用于获取先验知识数据,将所述预设格式的图片与所述先验知识数据输入至文本特征提取器中,以通过所述文本特征提取器提取出所述预设格式中的文本特征向量。
具体地,先验知识数据可以为政务知识数据,文本特征提取器由深度学习神经网络构建,通过CNN卷积、Pool池化操作提取出预设格式的图片中与政务知识相关的政务文本特征,使用向量输出与政务相关的文本特征向量。
示例性地,所述文本特征提取器包括第二卷积层与第二池化层,所述第二提取模块206还用于:
将所述预设格式的图片输入至所述第二卷积层,以通过所述第二卷积层对所述预设格式的图片进行过滤处理,得到第一文本特征。
具体地,通过对第二卷积层中的卷积核特征进行设置,以将预设格式的图片输入时,只过滤出文字部分,将其他部分的特征削弱,得到第一文本特征。
将所述第一文本特征输入至所述第二池化层,以通过所述第二池化层对所述第一文本特征进行最大池化处理,并通过所述政务知识数据进行筛选,得到第二文本特征。
具体地,将第一文本特征通过池化层进一步提取,提取出第一文本特征中的最大特征,可以理解为将第一文本特征进行压缩,但特征不变。且通过relu激活函数与政务知识数据进行收敛,以输出与政务相关的政务文本特征。可以理解为,对第一文本特征进行权值收敛,将第一文本特征中权值偏向于政务知识数据的政务文本特征进行筛选,得到第二文本特征,输出的可以为关键词或者关键字或者关键句子。
对所述第二文本特征进行向量转化,输出所述文本特征向量。
具体地,将第二文本特征的文字特征转化为向量形式,得到文本特征向量。可以使用one-hot等编码进行向量转化。
生成模块208,用于将所述图像特征向量、所述文本特征向量与所述先验知识数据输入至图像摘要生成器中,以通过所述图像摘要生成器生成所述预设格式的图片的目标图像摘要。
具体地,具体地,将图像特征向量和文本特征向量一同输出到图像摘要生成器,摘要生成器有RNN循环神经网络构成,先生成第一个字,再将第一个字的特征输入生成第二个字,依次类推,生成一个完整的句子,并使用先验知识数据作为Attention注意力机制输入,目的在于将摘要生成更贴近政务知识的要求。
示例性地,所述生成模块208还用于:
将所述图像特征向量与所述文本特征向量输入至所述图像摘要生成器中,通过所述图像摘要生成器的第一层特征生成层生成第一个特征字。
具体地,通过RNN循环神经网络训练构成的图像摘要生成器,将图像特征向量与文本特征向量生成第一个特征字,即计算出两个特征向量组合得到的词向量。
将所述第一个特征字与第一层特征生成层的中间结果输入到图像摘要生成器中,通过所述图像摘要生成器的第二层特征生成层生成第二个特征字。
具体地,再将第一个字的特征与第一次循环的中间结果输入到摘要生成器生成第二个字。
当所述图像摘要生成器将所述图像特征向量与所述文本特征向量生成特征句子时,停止循环输入,其中,所述图像摘要生成器包括多层特征生成层。
具体地,循环上述循环步骤,直到生成一个完整的特征句子。
通过将所述先验知识作为所述图像摘要生成器的注意力机制,对所述特征句子进行校正,得到目标图像摘要。
具体地,将先验知识作为图像摘要生成器的注意力机制,对生成的特征句子与先验知识进行相似度计算,以将生成的特征词转化为政务词,并将这些特征词进行组合,输出贴近政务知识的目标图像摘要的特征句子。将目标图像摘要上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该目标图像摘要,以便查证目标图像摘要是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。可以理解的,整个图像处理以及摘要生成过程通过神经网络构建串联训练,生成一个图像摘要模型,在图像摘要模型输入预设格式的图像,直接输出目标图像摘要。
实施例三
参阅图7,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图7所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于图片的摘要生成系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的基于图片的摘要生成系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于图片的摘要生成系统20,以实现实施例一的基于图片的摘要生成方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是,图7仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述基于图片的摘要生成系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图6示出了所述实现基于图片的摘要生成系统20实施例二的程序模块示意图,该实施例中,所述基于图片的摘要生成系统20可以被划分为接收模块200、预处理模块202、第一提取模块204、第二提取模块206以及生成模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于图片的摘要生成系统20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于图片的摘要生成系统20,被处理器执行时实现实施例一的基于图片的摘要生成方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于图片的摘要生成方法,其特征在于,包括:
接收摘要生成指令,所述摘要生成指令包括待处理图片;
对所述待处理图片进行预处理,得到预设格式的图片;
将所述预设格式的图片输入至图像特征提取器中,以通过所述图像特征提取器提取出所述预设格式的图片中的图像特征向量;
获取先验知识数据,将所述预设格式的图片与所述先验知识数据输入至文本特征提取器中,以通过所述文本特征提取器提取出所述预设格式中的文本特征向量;
将所述图像特征向量、所述文本特征向量与所述先验知识数据输入至图像摘要生成器中,获取所述图像摘要生成器生成的目标图像摘要;
所述先验知识数据为政务知识数据,所述文本特征提取器包括第二卷积层与第二池化层,所述获取先验知识数据,将所述预设格式的图片与所述先验知识数据输入至文本特征提取器中,以通过所述文本特征提取器提取出所述预设格式中的文本特征向量包括:
将所述预设格式的图片输入至所述第二卷积层,以通过所述第二卷积层对所述预设格式的图片进行过滤处理,得到第一文本特征;
将所述第一文本特征输入至所述第二池化层,以通过所述第二池化层对所述第一文本特征进行最大池化处理,并通过所述政务知识数据进行筛选,得到第二文本特征;
对所述第二文本特征进行向量转化,输出所述文本特征向量;
所述图像摘要生成器包括多层特征生成层,所述将所述图像特征向量、所述文本特征向量与所述先验知识数据输入至图像摘要生成器中,获取所述图像摘要生成器生成的目标图像摘要包括:
将所述图像特征向量与所述文本特征向量输入至所述图像摘要生成器中,通过所述图像摘要生成器的第一层特征生成层生成第一个特征字;
将所述第一个特征字与第一层特征生成层的中间结果输入到图像摘要生成器中,通过所述图像摘要生成器的第二层特征生成层生成第二个特征字;
当所述图像摘要生成器将所述图像特征向量与所述文本特征向量生成特征句子时,停止循环输入;
通过将所述先验知识作为所述图像摘要生成器的注意力机制,对所述特征句子进行校正,得到目标图像摘要,并将所述目标图像摘要上传至区块链中。
2.根据权利要求1所述的摘要生成方法,其特征在于,所述图像特征提取器包括第一卷积层与第一池化层,所述将所述预设格式的图片输入至图像特征提取器中,以通过所述图像特征提取器提取出所述预设格式的图片中的图像特征向量包括:
将所述预设格式的图片输入至所述第一卷积层,以通过所述第一卷积层根据预设的特征卷积核对所述预设格式的图片进行过滤处理,输出第一目标特征图像;
将所述第一目标特征图像输入至所述第一池化层,以通过所述第一池化层对所述第一目标特征图像进行最大池化处理,得到第二目标特征图像;
对所述第二目标特征图像进行向量转化,输出所述图像特征向量。
3.根据权利要求2所述的摘要生成方法,其特征在于,将所述预设格式的图片输入至所述第一卷积层,以通过所述第一卷积层根据预设的特征卷积核对所述预设格式的图片进行过滤处理,输出第一目标特征图像包括:
将所述预设格式的图片输入至所述第一卷积层中,根据卷积公式与所述预设的特征卷积核对所述预设格式的图片进行过滤处理;
根据激活函数对过滤处理后的预设格式的图片进行特收敛,输出第一目标特征图像。
4.根据权利要求3所述的摘要生成方法,其特征在于,所述卷积公式为:
o=(i-k+2*p)/s+1;
其中,i表示预设格式的图片的尺寸;k表示特征卷积核的大小;s表示步长;p表示填充大小;o表示第一目标特征图像的尺寸。
5.一种基于图片的摘要生成系统,其特征在于,包括:
接收模块,用于接收摘要生成指令,所述摘要生成指令包括待处理图片;
预处理模块,用于对所述待处理图片进行预处理,得到预设格式的图片;
第一提取模块,用于将所述预设格式的图片输入至图像特征提取器中,以通过所述图像特征提取器提取出所述预设格式的图片中的图像特征向量;
第二提取模块,用于获取先验知识数据,将所述预设格式的图片与所述先验知识数据输入至文本特征提取器中,以通过所述文本特征提取器提取出所述预设格式中的文本特征向量;
生成模块,用于将所述图像特征向量、所述文本特征向量与所述先验知识数据输入至图像摘要生成器中,获取所述图像摘要生成器生成的图片的目标图像摘要;
所述先验知识数据为政务知识数据,所述文本特征提取器包括第二卷积层与第二池化层,所述第二提取模块,还用于:将所述预设格式的图片输入至所述第二卷积层,以通过所述第二卷积层对所述预设格式的图片进行过滤处理,得到第一文本特征;将所述第一文本特征输入至所述第二池化层,以通过所述第二池化层对所述第一文本特征进行最大池化处理,并通过所述政务知识数据进行筛选,得到第二文本特征;对所述第二文本特征进行向量转化,输出所述文本特征向量;
所述图像摘要生成器包括多层特征生成层,所述生成模块,还用于:将所述图像特征向量与所述文本特征向量输入至所述图像摘要生成器中,通过所述图像摘要生成器的第一层特征生成层生成第一个特征字;将所述第一个特征字与第一层特征生成层的中间结果输入到图像摘要生成器中,通过所述图像摘要生成器的第二层特征生成层生成第二个特征字;当所述图像摘要生成器将所述图像特征向量与所述文本特征向量生成特征句子时,停止循环输入;通过将所述先验知识作为所述图像摘要生成器的注意力机制,对所述特征句子进行校正,得到目标图像摘要,并将所述目标图像摘要上传至区块链中。
6.根据权利要求5所述的摘要生成系统,其特征在于,所述生成模块还用于:
将所述图像特征向量与所述文本特征向量输入至所述图像摘要生成器中,通过所述图像摘要生成器的第一层特征生成层生成第一个特征字;
将所述第一个特征字与第一层特征生成层的中间结果输入到图像摘要生成器中,通过所述图像摘要生成器的第二层特征生成层生成第二个特征字;
当所述图像摘要生成器将所述图像特征向量与所述文本特征向量生成特征句子时,停止循环输入,其中,所述图像摘要生成器包括多层特征生成层;
通过将所述先验知识作为所述图像摘要生成器的注意力机制,对所述特征句子进行校正,得到目标图像摘要,并将所述目标图像摘要上传至区块链中。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4中任一项所述的基于图片的摘要生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-4中任一项所述的基于图片的摘要生成方法的步骤。
CN202010622157.3A 2020-06-30 2020-06-30 基于图片的摘要生成方法与系统 Active CN111767395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010622157.3A CN111767395B (zh) 2020-06-30 2020-06-30 基于图片的摘要生成方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010622157.3A CN111767395B (zh) 2020-06-30 2020-06-30 基于图片的摘要生成方法与系统

Publications (2)

Publication Number Publication Date
CN111767395A CN111767395A (zh) 2020-10-13
CN111767395B true CN111767395B (zh) 2023-12-26

Family

ID=72723306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010622157.3A Active CN111767395B (zh) 2020-06-30 2020-06-30 基于图片的摘要生成方法与系统

Country Status (1)

Country Link
CN (1) CN111767395B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891015A (zh) * 2021-09-16 2022-01-04 平安养老保险股份有限公司 基于人工智能的图像处理方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331437A (zh) * 2014-10-24 2015-02-04 百度在线网络技术(北京)有限公司 生成图片描述信息的方法和装置
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9063936B2 (en) * 2011-12-30 2015-06-23 Verisign, Inc. Image, audio, and metadata inputs for keyword resource navigation links
US9477759B2 (en) * 2013-03-15 2016-10-25 Google Inc. Question answering using entity references in unstructured data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331437A (zh) * 2014-10-24 2015-02-04 百度在线网络技术(北京)有限公司 生成图片描述信息的方法和装置
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法

Also Published As

Publication number Publication date
CN111767395A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN115203380B (zh) 基于多模态数据融合的文本处理系统及其方法
CN113312500B (zh) 一种面向大坝安全运行的事件图谱构建方法
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN109871736B (zh) 自然语言描述信息的生成方法及装置
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN114241459B (zh) 一种驾驶员身份验证方法、装置、计算机设备及存储介质
CN118115622B (zh) 图像生成模型的处理方法、装置、设备、存储介质及产品
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN111767395B (zh) 基于图片的摘要生成方法与系统
CN116266259A (zh) 图像文字结构化输出方法、装置、电子设备和存储介质
Pajot et al. Unsupervised adversarial image inpainting
CN113537416A (zh) 基于生成式对抗网络的文本转换图像的方法及相关设备
CN117635275A (zh) 基于大数据的智能电商运营商品管理平台及方法
CN111325068A (zh) 基于卷积神经网络的视频描述方法及装置
CN116186312A (zh) 用于数据敏感信息发现模型的多模态数据增强方法
CN117009577A (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN114549816A (zh) 文本识别方法、装置、设备及存储介质
CN116401664B (zh) 一种恶意代码分类方法、装置、电子设备及存储介质
CN116721284B (zh) 一种基于图增强的图像分类方法、装置、设备及介质
CN118153129B (zh) 基于微调大模型的工件三维模型生成方法、设备及介质
CN112329925B (zh) 模型生成方法、特征提取方法、装置及电子设备
CN113572913B (zh) 图像加密方法、装置、介质及电子设备
US20240078430A1 (en) Disentangled wasserstein autoencoder for protein engineering
CN112580658B (zh) 图像语义描述方法、装置、计算设备及计算机存储介质
Khalilollahi et al. JPEG Steganalysis Using the Relations Between DCT Coefficients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant