CN115186119B

CN115186119B - 基于图文结合的图片处理方法、系统和可读存储介质

Info

Publication number: CN115186119B
Application number: CN202211091963.8A
Authority: CN
Inventors: 陈京华; 王旭辉
Original assignee: Shenzhen SDMC Technology Co Ltd
Current assignee: Shenzhen SDMC Technology Co Ltd
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2022-12-06
Anticipated expiration: 2042-09-07
Also published as: CN115186119A; WO2024051029A1; EP4357939A4; EP4357939A1

Abstract

本发明公开的一种基于图文结合的图片处理方法、系统和可读存储介质，其中方法包括：基于预设的深度学习网络添加图片元数据得到图文数据库，其中，对于所述图片元数据的处理包括：获取所述图片元数据的预设编辑区域内的主动编辑数据进行加密和/或只读保护，并对所述主动编辑数据进行存储；通过网站爬虫和公共语义数据库连接，补充预设模型对所述图片元数据进行对抗学习以完善语义描述以及图像特征表述；获取用户检索关键字，基于所述图文数据库利用所述检索关键字进行检索以得到用户所需图片并输出给用户。本发明可以处理比如视频、图片更深度地检索，解决多用户时大量数据生成和检索的计算问题，方便用户检查对应图片文件内容的情况。

Description

基于图文结合的图片处理方法、系统和可读存储介质

技术领域

本发明涉及数据处理技术领域，更具体的，涉及一种基于图文结合的图片处理方法、系统和可读存储介质。

背景技术

近年来，具有网络短视频、图文多媒体功能的移动终端业务，每个人手里都有大量的数据无法便捷地搜索个人的图片和视频，而许多人文字表达能力有限，记忆却主要依赖于形象化的内容，主要是用图片和视频更为快捷，现有的搜索引擎主要基于文字搜索，但同时手机的功能虽然越来越多，但终究只是用作控制设备，对于改善人们记录和检索的生产效率帮助有限，主要依赖于网络上的公共数据去检索，在具体的功能上并不一定有出色的表现，

同时作为通用设备没有给对应的专用设备提供算力和软件的支持。因此需要充分挖掘手机和电脑的搜索功能，以便提高用户体验。

发明内容

本发明的目的是提供一种基于图文结合的图片处理方法、系统和可读存储介质，可以处理比如视频、图片更深度地检索，解决多用户时大量数据生成和检索的计算问题，方便用户检查对应图片文件内容的情况。

本发明第一方面提供了一种基于图文结合的图片处理方法，包括以下步骤：

基于预设的深度学习网络添加图片元数据得到图文数据库，其中，对于所述图片元数据的处理包括：

获取所述图片元数据的预设编辑区域内的主动编辑数据进行加密和/或只读保护，并对所述主动编辑数据进行存储；

通过网站爬虫和公共语义数据库连接，补充预设模型对所述图片元数据进行对抗学习以完善语义描述以及图像特征表述；

获取用户检索关键字，基于所述图文数据库利用所述检索关键字进行检索以得到用户所需图片并输出给用户。

本方案中，所述基于预设的深度学习网络添加图片元数据得到图文数据库，具体包括：

基于预设的深度学习网络对图片进行深度学习，结合所述图片元数据得到目标数据段以及图像光学特征向量数据库，其中，所述目标数据段包括以文字描述的图像景物描写、情节描写以及动作语义；

基于所述目标数据段以及所述图像光学特征向量数据库得到所述图文数据库，并建立图片格式的映射关系。

本方案中，所述获取所述图片元数据的预设编辑区域内的主动编辑数据进行加密和/或只读保护，并对所述主动编辑数据进行存储，具体包括：

基于所述图片元数据对应的所述预设编辑区域获取所述主动编辑数据，其中，所述主动编辑数据由人工预先进行编辑填入对应的所述预设编辑区域；

基于所述主动编辑数据对语义描述以及图像特征表述进行补充，并对所述主动编辑数据加密和/或只读保护，存储的方式包括云端离线下载和/或本地下载。

本方案中，所述通过网站爬虫和公共语义数据库连接，补充预设模型对所述图片元数据进行对抗学习以完善语义描述以及图像特征表述，具体包括：

通过网站爬虫和公共语义数据库连接，补充所述预设模型对所述图片元数据进行再学习以提供所述对抗学习；

根据所述对抗学习后的权重比完善语义描述以及图像特征表述，并在出现相似度指标时，对所述图片元数据关联一个参考标记。

本方案中，所述方法还包括从视频数据中获取图文数据库，具体包括：

基于所述视频数据采集视频中的语义数据，其中，所述语义数据包括自带语义以及情绪语义；

若所述视频数据为公共网站上的视频，则从关联的网页、弹幕中采集语义描述信息；

基于每个视频关键帧结合所述语义描述信息获取所述视频关键帧对应的图文数据，以得到所述图文数据库，其中，所述图文数据包括所述视频关键帧对应的文字和图片。

本方案中，所述方法还包括利用预设的朗读装置对从视频文件中获取的所述图文数据进行多媒体类型朗读。

本发明第二方面还提供一种基于图文结合的图片处理系统，包括存储器和处理器，所述存储器中包括基于图文结合的图片处理方法程序，所述基于图文结合的图片处理方法程序被所述处理器执行时实现如下步骤：

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括机器的一种基于图文结合的图片处理方法程序，所述基于图文结合的图片处理方法程序被处理器执行时，实现如上述任一项所述的一种基于图文结合的图片处理方法的步骤。

本发明公开的一种基于图文结合的图片处理方法、系统和可读存储介质，可以处理比如视频、图片更深度地检索，解决多用户时大量数据生成和检索的计算问题，方便用户检查对应图片文件内容的情况；另外，本发明充分发挥各个智能设备和云计算的深度学习功能，同时还通过适配转换新的数据格式下载到本地，将预览摘要信息的文件给旧的存储设备，协作完成之后还能使得该存储设备独立工作，能够被传统的搜索引擎或者小的文本搜索引擎进行检索，适应力强。

附图说明

图1示出了本发明一种基于图文结合的图片处理方法的流程图；

图2示出了本发明一种基于图文结合的图片处理方法的流程图；

图3示出了本发明一种基于图文结合的图片处理系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本申请一种基于图文结合的图片处理方法的流程图。

如图1所示，本申请公开了一种基于图文结合的图片处理方法，包括以下步骤：

S101，基于预设的深度学习网络添加图片元数据得到图文数据库，其中，对于所述图片元数据的处理包括；

S102，获取所述图片元数据的预设编辑区域内的主动编辑数据进行加密和/或只读保护，并对所述主动编辑数据进行存储；

S103，通过网站爬虫和公共语义数据库连接，补充预设模型对所述图片元数据进行对抗学习以完善语义描述以及图像特征表述；

S104，获取用户检索关键字，基于所述图文数据库利用所述检索关键字进行检索以得到用户所需图片并输出给用户。

需要说明的是，于本实施例中，基于预设的所述深度学习网络在对图片进行深度学习时，添加所述图片元数据以得到所述图文数据库，其中，添加的图片元数据需要事先进行处理，处理的方式包括：获取所述图片元数据的预设编辑区域内的主动编辑数据进行加密和/或只读保护，并对所述主动编辑数据进行存储以及通过网站爬虫和公共语义数据库连接，补充预设模型对所述图片元数据进行对抗学习以完善语义描述以及图像特征表述。

进一步地，在对所述图片元数据处理的过程中利用了两步，第一步是人工编辑修改，通过获取人工修改的所述主动编辑数据对语义描述以及图像特征表述进行补充；第二步是深度学习自动生成，通过网站爬虫采集公共领域的网页信息或类似图片的数据进行情绪语义、动作语义、静物语义等的补全以及图像特征表述，在得到所述图文数据库后，获取用户检索关键字，基于所述图文数据库利用所述检索关键字进行检索以得到用户所需图片并输出给用户。

根据本发明实施例，所述基于预设的深度学习网络添加图片元数据得到图文数据库，具体包括：

需要说明的是，于本实施例中，对图片元数据进行深度学习，存储与图片内容相关的图像景物描写，情节描写以及动作语义作为所述目标数据段，图片经过深度学习可以得到所述图像光学特征向量数据库，基于所述目标数据段以及所述图像光学特征向量数据库得到所述图文数据库，进而基于所述图文数据库建立图片格式的映射关系，其中，图片格式在映射时，最好只保留一个格式，并且保留的格式与传统格式兼容即可。

根据本发明实施例，所述获取所述图片元数据的预设编辑区域内的主动编辑数据进行加密和/或只读保护，并对所述主动编辑数据进行存储，具体包括：

需要说明的是，于本实施例中，所述图片元数据中存在人工数据编辑区域，即所述预设编辑区域，通过获取对应区域内的所述主动编辑数据可将人工编辑的数据内容进行获取，获取到所述主动编辑数据后，可利用对应的数据内容对语义描述以及图像特征表述进行补充，优选地，在获取到所述主动编辑数据后，对其进行加密保护或者只读保护，避免人工输入的数据被篡改，对其进行存储时可以采用云端离线下载或者本地下载的方式进行存储。

根据本发明实施例，所述通过网站爬虫和公共语义数据库连接，补充预设模型对所述图片元数据进行对抗学习以完善语义描述以及图像特征表述，具体包括：

需要说明的是，于本实施例中，提出一种被动监测添加方式，具体通过网站爬虫和公共语义数据库连接，补充相应模型对图片进行再学习，提供对抗学习，完善情绪语义和一些第三方角度的学习模型，根据权重完善语义描述和图像特征表述，此外更好的是当出现相似度的指标时，尽量关联一个可参考的标记，存储在本地，便于离线搜索引用。因为机器的理解是基于文本的，而人类的推理和情感上的理解在具体使用时会有所区别，所以需要将一些显性的对比的数据来源做出批注，用于人理解其中的生成逻辑，更方便引用，降低用户的检索成本。

根据本发明实施例，所述方法还包括从视频数据中获取图文数据库，具体包括：

基于每个视频关键帧结合所述语义描述信息获取所述视频关键帧对应的图文数据，以得到所述图文数据库，其中，所述图文数据包括所述视频关键帧对应的文字和图片。所述情绪语义，可以用来进一步细分一些情感描述性的限制条件，更好的区分不同的图片和视频片段。

需要说明的是，于本实施例中，针对视频数据可以采集图像中自带的语义、情绪语义先自动分类，对于公共网站上的视频则从关联的网页、弹幕中采集描述信息，分别按字幕时间轴、音频关键段落采样等脱水后转换成关键帧描述、评论信息，为文档的提取文字和图片摘要，简单地获取时间轴作为进度、每个关键帧的抽取可识别的文字和形象，进行语义学习，用于在智能音箱可以简单了解文件内容，方便用户可以后续独立使用有限能力的设备打开文件，类似于电影分片段分画面解说，优选地，这一功能可以方便盲人朋友能够通过任何一个设备把任何带有多媒体文档变成有图像解读的摘要文件，也能方便一些老的设备用有限的软件去打开文件。

根据本发明实施例，所述方法还包括利用预设的朗读装置对从视频文件中获取的所述图文数据进行多媒体类型朗读。

需要说明的是，于本实施例中，所述朗读装置例如多媒体类型朗读模块，可以根据所述图文数据进行多媒体类型朗读播放任务，比如文本、图片、文档，语音朗读播放功能用于生成音频，优选地，朗读部分主要选取有对抗学习多源头（图片对应的光学特征、第三方评论、如果来自于视频，则根据图像内容摘要找到视频内容）融合的说明内容，或者通过生成导航信息用于提示跳转到关联一些第三方专业解说内容。

进一步地，于发明又一实施例中，如图2所示，所述方法还包括步骤S105，根据用户提交的文字和/或图片元数据，基于所述图文数据库进行匹配输出所述用户所需图片。

需要说明的是，在S101~S104步骤后，可以扩展出步骤S105，其中，步骤S105中根据用户提交搜索的文字和/或图片进行查找，找到所述图文数据库中匹配的图片摘要所对应的图片作为所述用户所需图片，且对于这类图片，可以执行数据临时特征抽取和学习，若是公开的图片则根据充分搜索公开数据，标记图片搜索频率，若达到高频搜索阈值，建立图文数据库的多源知识图谱，其中，所述高频搜索阈值为人为设定，在实际操作过程中可以根据需要修改阈值参数；而对应的搜索频率可以作为强化某些热点图像数据的深度理解触发条件。

值得一提的是，所述获取用户检索关键字，基于所述图文数据库利用所述检索关键字进行检索以得到用户所需图片并输出给用户，具体包括：

规避隐私数据，基于用户的搜索内容获取所述检索关键字；

基于所述检索关键字匹配所述图文数据库得到用户所需图片。

需要说明的是，于本实施例中，规避隐私数据的步骤为上传语义信息（即用户的搜索内容）时抹除姓名、身材等隐私信息、上传光学特征矢量数据进行分解比对，比如具体的身高只保留比例信息，不存储绝对数值；人像数据不全部一次性都交给服务器比对，数据支持端到端加密，以摘要信息的渐进模糊搜索代替全部数据的匹配检索，需要上传全部数据进行匹配时经过用户同意，确保服务器使用的是公开的数据和用户授权的数据。

值得一提的是，所述方法还包括利用预设的预览模块生成多媒体预览文件。

需要说明的是，于本实施例中，所述方法还包括利用预先设置的所述预览模块接收预览请求生成图文结合的新的多媒体文件对应的所述预览文件。

值得一提的是，所述方法还包括将数据上报至云平台以供查询。

需要说明的是，于本实施例中，得到图文数据库后，将对应的数据上报到云平台，以供在做查询的时候，会使用离线跟云端实时做统一整合，做到本地算力和云端算力进行合理协作，将离线数据覆盖实时数据以节省存储空间。

图3示出了本发明一种基于图文结合的图片处理系统的框图。

如图3所示，本发明公开了一种基于图文结合的图片处理系统，包括存储器和处理器，所述存储器中包括基于图文结合的图片处理方法程序，所述基于图文结合的图片处理方法程序被所述处理器执行时实现如下步骤：

规避隐私数据，基于用户的搜索内容获取所述检索关键字；

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括一种基于图文结合的图片处理方法程序，所述基于图文结合的图片处理方法程序被处理器执行时，实现如上述任一项所述的一种基于图文结合的图片处理方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于图文结合的图片处理方法，其特征在于，包括以下步骤：

获取用户检索关键字，基于所述图文数据库利用所述检索关键字进行检索以得到用户所需图片并输出给用户；

其中，所述基于预设的深度学习网络添加图片元数据得到图文数据库，具体包括：

基于所述目标数据段以及所述图像光学特征向量数据库得到所述图文数据库，并建立图片格式的映射关系；

其中，所述通过网站爬虫和公共语义数据库连接，补充预设模型对所述图片元数据进行对抗学习以完善语义描述以及图像特征表述，具体包括：

2.根据权利要求1所述的一种基于图文结合的图片处理方法，其特征在于，所述获取所述图片元数据的预设编辑区域内的主动编辑数据进行加密和/或只读保护，并对所述主动编辑数据进行存储，具体包括：

3.根据权利要求1所述的一种基于图文结合的图片处理方法，其特征在于，所述方法还包括从视频数据中获取图文数据库，具体包括：

4.根据权利要求3所述的一种基于图文结合的图片处理方法，其特征在于，所述方法还包括利用预设的朗读装置对从视频文件中获取的所述图文数据进行多媒体类型朗读。

5.一种基于图文结合的图片处理系统，其特征在于，包括存储器和处理器，所述存储器中包括基于图文结合的图片处理方法程序，所述基于图文结合的图片处理方法程序被所述处理器执行时实现如下步骤：

6.根据权利要求5所述的一种基于图文结合的图片处理系统，其特征在于，所述获取所述图片元数据的预设编辑区域内的主动编辑数据进行加密和/或只读保护，并对所述主动编辑数据进行存储，具体包括：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种基于图文结合的图片处理方法程序，所述基于图文结合的图片处理方法程序被处理器执行时，实现如权利要求1至4中任一项所述的一种基于图文结合的图片处理方法的步骤。