CN113672754B - 图像获取方法、装置、电子设备及存储介质 - Google Patents

图像获取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113672754B
CN113672754B CN202110846488.XA CN202110846488A CN113672754B CN 113672754 B CN113672754 B CN 113672754B CN 202110846488 A CN202110846488 A CN 202110846488A CN 113672754 B CN113672754 B CN 113672754B
Authority
CN
China
Prior art keywords
text information
picture
image
video frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110846488.XA
Other languages
English (en)
Other versions
CN113672754A (zh
Inventor
李新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110846488.XA priority Critical patent/CN113672754B/zh
Publication of CN113672754A publication Critical patent/CN113672754A/zh
Application granted granted Critical
Publication of CN113672754B publication Critical patent/CN113672754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例提供了一种图像获取方法、装置、电子设备及存储介质。方法包括:获取第一文字信息;根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧;将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧。因此,在本公开的实施例中,剔除第一图片和/或第一视频帧中,与第一文字信息不相关的无效区域,仅保留与第一文字信息匹配的有效区域,能够让用户直观的在多个相关图片和/或视频帧中选择与第一文字信息最匹配的图片和/或视频帧。

Description

图像获取方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种图像获取方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,多媒体数据急速增加,比如:文本、图像、视频等。每种数据都可以看成一种单一的模态,在同一模态数据中进行检索等相对简单,而在跨模态的数据中进行相关任务却很复杂。
在该领域中,最常见的就是基于文本检索图片,用户通过输入关键词便可以搜索到相关的图片,因为这些图片均有相关的文字标签,所以这类图文搜索是基于文本语义相似度检索的方法,相对简单。而对于短视频场景,可以通过关键词搜索到相关主题的短视频,因为这些视频均有相关的文字标签,而无法搜索到短视频中的相关视频帧。并且,检索到的图片上可能有部分区域与关键词语义不符合,导致用户不能直观的在多个相关图片中选择最匹配的图片。
发明内容
本公开提供一种图像获取方法、装置、电子设备及存储介质,以解决相关技术中检索到的图片上可能有部分区域与关键词语义不符合,导致用户不能直观的在多个相关图片中选择最匹配的图片的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种图像获取方法,所述方法包括:
获取第一文字信息;
根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧;
将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧。
在一种可能实施方式中,所述根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧,包括:
根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,所述至少一个第二视频包含多个第二视频帧;
从所述至少一个第二图片和/或至少一个第二视频中,筛选出满足预设条件的第一图片和/或第一视频帧。
在一种可能实施方式中,所述预设条件包括:目标对象中不包含文字信息和/或所述目标对象的图像质量高于预设图像质量;
其中,所述目标对象为第一图片和/或第一视频帧。
在一种可能实施方式中,所述根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,包括:
根据所述第一文字信息,搜索得到与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频;和/或
根据第二文字信息,搜索得到与所述第二文字信息相关的至少一个第二图片和/或至少一个第二视频;
其中,所述第二文字信息是通过对所述第一文字信息进行相关词语变换后得到的相关文字信息。
在一种可能实施方式中,所述将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧,包括:
将所述第一图片和/或第一视频帧输入至所述图像裁剪模型中进行无效区域的裁剪剔除,得到剔除无效区域后的目标图片和/或目标视频帧。
在一种可能实施方式中,在所述将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧之前,所述方法还包括:
获取样本图像数据集;
将所述样本图像数据集输入至神经网络模型中进行图像裁剪,得到每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征;
将每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征经过所述神经网络模型的全连接层进行处理,得到裁剪结果预测值;
根据所述裁剪效果预测值与预设裁剪效果值的差值,对所述神经网络模型进行模型训练,得到训练后的图像裁剪模型。
根据本公开实施例的第二方面,提供一种图像获取装置,所述装置包括:
信息获取模块,被配置为获取第一文字信息;
图像筛选模块,被配置为根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧;
图像裁剪模块,被配置为将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧。
在一种可能实施方式中,所述图像筛选模块,具体被配置为:
根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,所述至少一个第二视频包含多个第二视频帧;
从所述至少一个第二图片和/或至少一个第二视频中,筛选出满足预设条件的第一图片和/或第一视频帧。
在一种可能实施方式中,所述预设条件包括:目标对象中不包含文字信息和/或所述目标对象的图像质量高于预设图像质量;
其中,所述目标对象为第一图片和/或第一视频帧。
在一种可能实施方式中,所述图像筛选模块在根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频时,具体被配置为:
根据所述第一文字信息,搜索得到与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频;和/或
根据第二文字信息,搜索得到与所述第二文字信息相关的至少一个第二图片和/或至少一个第二视频;
其中,所述第二文字信息是通过对所述第一文字信息进行相关词语变换后得到的相关文字信息。
在一种可能实施方式中,所述图像裁剪模块,具体被配置为:
利将所述第一图片和/或第一视频帧输入至所述图像裁剪模型中进行无效区域的裁剪剔除,得到剔除无效区域后的目标图片和/或目标视频帧。
在一种可能实施方式中,所述装置还包括:
模型训练模块,被配置为:
获取样本图像数据集;
将所述样本图像数据集输入至神经网络模型中进行图像裁剪,得到每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征;
将每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征经过所述神经网络模型的全连接层进行处理,得到裁剪结果预测值;
根据所述裁剪效果预测值与预设裁剪效果值的差值,对所述神经网络模型进行模型训练,得到训练后的图像裁剪模型。
根据本公开实施例的第三方面,提供一种电子设备,该电子设备包括:
处理器;
用于存储该处理器可执行指令的存储器;
其中,该处理器被配置为执行所述指令,以实现本公开提供的图像获取方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述第一方面所述的图像获取方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本公开提供的图像获取方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开的实施例提供的技术方案,能够获取第一文字信息,并根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧,并将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧。由此可见,本公开的实施例,能够高效准确的在海量图片和/或视频中搜索到与第一文字信息匹配的高质量的第一图片和/或第一视频帧,并利用图像裁剪模型裁剪出与第一文字信息相匹配的目标图片和/或目标视频帧,从而剔除第一图片和/或第一视频帧中,与第一文字信息不相关的无效区域,仅保留与第一文字信息匹配的有效区域,能够让用户直观的在多个相关图片和/或视频帧中选择与第一文字信息最匹配的图片和/或视频帧。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种图像获取方法的流程图;
图2是根据一示例性实施例示出的另一种图像获取方法的流程图;
图3是根据一示例性实施例示出的图像裁剪模型的训练示意图;
图4是根据一示例性实施例示出的另一种图像获取方法的流程图;
图5是根据一示例性实施例示出的一种图像获取装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图;
图7是根据一示例性实施例示出的另一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种图像获取方法的流程图,如图1所示,该图像可以是图片也可以是视频帧图像。上述图像获取方法,包括以下步骤。
在步骤S11中,获取第一文字信息。
具体的,基于用户在其使用的终端的检索/搜索页面中输入的主题词、关键词、关键字等,由此可以获取第一文字信息。其中,所述第一文字信息指的是用户输入的主题词、关键字、关键词等信息。
在步骤S12中,根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧。
具体的,在获取到第一文字信息之后,可以根据该第一文字信息,得到与第一文字信息相关的图片和/或视频;其中,一个视频是由多个视频帧组成的。然后从上述与第一文字信息相关的图片和/或视频中筛选出满足预设条件的图片和/或视频帧,即第一图片和/或第一视频帧。其中,预设条件可以作为筛选图片或视频帧的质量、规格、类型等的预先设置的条件,该预设条件可以根据需要进行设定。
例如,如果根据第一文字信息得到与第一文字信息相关的多个图片的情况下,从上述多个图片中筛选出满足预设条件的第一图片,该第一图片为与所述第一文字信息相关的多个图片中的其中至少一个图片。如果根据第一文字信息得到与第一文字信息相关的视频的情况下,从上述视频中筛选出满足预设条件的第一视频帧,该第一视频帧为与所述第一文字信息相关的视频中的多个视频帧中的至少一个帧图像。
在步骤S13中,将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧。
具体的,将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行裁剪,由此得到裁剪后的目标图片和/或目标视频帧。换句话说,利用图像裁剪模型裁剪并剔除第一图片和/或第一视频帧的部分区域,由此得到剔除部分区域后的目标图片和/或目标视频帧。其中,目标图片是第一图片利用图像裁剪模型剔除自身部分区域后得到的图片,目标视频帧是第一视频帧利用图像裁剪模型剔除自身部分区域后得到的帧图像。
由上述步骤S11至S13可知,本公开的实施例,能够获取第一文字信息,并根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧,并将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧。由此可见,本公开的实施例,能够高效准确的在海量图片和/或视频中搜索到与第一文字信息匹配的高质量的第一图片和/或第一视频帧,并利用图像裁剪模型裁剪出与第一文字信息相匹配的目标图片和/或目标视频帧,从而剔除第一图片和/或第一视频帧中,与第一文字信息不相关的无效区域,仅保留与第一文字信息匹配的有效区域,能够让用户直观的在多个相关图片和/或视频帧中选择与第一文字信息最匹配的图片和/或视频帧。
另外,本公开上述实施方式可以是针对于短视频中的主题词配图场景,短视频中会有很多垂类,比如:美食、才艺、穿搭等,本公开上述的图像获取方法可以从海量短视频中,为这些垂类搜索并裁减出至少一个匹配的图像的方法,从而在应用中展现出多种模态的显示。
图2是根据一示例性实施例示出的一种图像获取方法的流程图。如图2所示,该图像获取方法,包括以下步骤S21至步骤S23。
步骤S21:获取第一文字信息。
具体的,基于用户在其使用的终端的检索/搜索页面中输入的主题词、关键词、关键字等,由此可以获取第一文字信息。其中,所述第一文字信息指的是用户输入的主题词、关键字、关键词等信息。
步骤S22:根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧。
具体的,在获取到第一文字信息之后,可以根据该第一文字信息,得到与第一文字信息相关的图片和/或视频;其中,一个视频是由多个视频帧组成的。然后从上述与第一文字信息相关的图片和/或视频中筛选出满足预设条件的图片和/或视频帧,即第一图片和/或第一视频帧。其中,预设条件可以作为筛选图片或视频帧的质量、规格、类型等的预先设置的条件,该预设条件可以根据需要进行设定。
例如,如果根据第一文字信息得到与第一文字信息相关的多个图片的情况下,从上述多个图片中筛选出满足预设条件的第一图片,该第一图片为与所述第一文字信息相关的多个图片中的其中至少一个图片。如果根据第一文字信息得到与第一文字信息相关的视频的情况下,从上述视频中筛选出满足预设条件的第一视频帧,该第一视频帧为与所述第一文字信息相关的视频中的多个视频帧中的至少一个帧图像。
步骤S23:将所述第一图片和/或第一视频帧输入至所述图像裁剪模型中进行无效区域的裁剪剔除,得到剔除无效区域后的目标图片和/或目标视频帧。
具体的,第一图片和/或第一视频帧作为图像裁剪模型的输入数据输入至该模型中,利用图像裁剪模型,对所述第一图片和/或第一视频帧中的无效区域进行裁剪,并剔除该无效区域,由此可以得到仅保留有效区域的目标图片和/或目标视频帧。换句话说,利用图像裁剪模型裁剪并剔除第一图片和/或第一视频帧的部分非重要区域,由此得到剔除部分非重要区域后的目标图片和/或目标视频帧。其中,目标图片是第一图片利用图像裁剪模型剔除自身与第一文字信息匹配度较低的区域后得到的图片,目标视频帧是第一视频帧利用图像裁剪模型剔除自身与第一文字信息匹配度较低的区域后得到的帧图像。其中,所述图像裁剪模型是用于裁剪图片或视频帧的部分非重要区域、仅保留较重要区域的模型。
由上述步骤S21至S23可知,本公开的实施例,能够获取第一文字信息,并根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧,并将所述第一图片和/或第一视频帧输入至图像裁剪模型中,利用所述图像裁剪模型,将所述第一图片和/或第一视频帧中的无效区域进行裁剪剔除,得到剔除无效区域后的目标图片和/或目标视频帧。由此可见,本公开的实施例,能够高效准确的在海量图片和/或视频中搜索到与第一文字信息匹配的高质量的第一图片和/或第一视频帧,并利用图像裁剪模型裁剪出与第一文字信息相匹配的目标图片和/或目标视频帧,从而剔除第一图片和/或第一视频帧中,与第一文字信息不相关的无效区域,仅保留与第一文字信息匹配的有效区域,能够让用户直观的在多个相关图片和/或视频帧中选择与第一文字信息最匹配的图片和/或视频帧。
在一种可能的实施方式中,在步骤S12中根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧,具体可以包括:
根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,所述至少一个第二视频包含多个第二视频帧;
从所述至少一个第二图片和/或至少一个第二视频中,筛选出满足预设条件的第一图片和/或第一视频帧。
具体的,在获取第一文字信息之后,可以根据第一文字信息,检索或者搜索与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,其中,每一个第二视频中均包含有多个视频帧,即第二视频帧。然后从检索或者搜索得到的至少一个第二图片和/或至少一个第二视频中,筛选出符合预设条件的第一图片和/或第一视频帧。换句话说,将至少一个第二图片和/或至少一个第二视频进行筛选,将不符合预设条件的第二图片和/或第二视频中的视频帧筛除,保留符合预设条件的第二图片和/或第二视频中的视频帧,即保留下来的符合预设条件的第二图片和/或第二视频中的视频帧即为第一图片和/或第一视频帧,预设条件的设定可以过滤掉不符合要求的图片和/或视频帧,高效准确的在海量图片和/或视频中搜索到与第一文字信息匹配的高质量的第一图片和/或第一视频帧。
在一种可能的实施方式中,所述预设条件可以包括:目标对象中不包含文字信息和/或所述目标对象的图像质量高于预设图像质量等;
其中,所述目标对象为第一图片和/或第一视频帧。
具体的,以预设条件包括:目标对象中不包含文字信息以及所述目标对象的图像质量高于预设图像质量为例进行说明。在获取第一文字信息之后,可以根据第一文字信息,检索或者搜索与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,其中,每一个第二视频中均包含有多个视频帧,即第二视频帧。然后从检索或者搜索得到的至少一个第二图片和/或至少一个第二视频中,筛选出不包含文字信息的第二图片和/或第二视频帧,该筛选方法可以是基于深度学习的文字区域检测算法对第二图片和/或第二视频帧进行过滤,剔除包含文字信息的第二图片和/或第二视频帧。并且,还可以对筛选出的不包含文字信息的第二图片和/或第二视频帧进一步筛选,将图像质量高于预设图像质量的第二图片和/或第二视频帧保留,剔除图像质量低于或等于预设图像质量的第二图片和/或第二视频帧,由此保留下来的第二图片和/或第二视频帧即为第一图片和/或第一视频帧。其中,预设图像质量为预先设定的图像清晰度、图像对比度等指标的预设阈值,可以根据需要进行设定。
其中,图像质量是用来衡量图像的清晰度、对比度等指标的,通过衡量上述指标对第二图片和/或第二视频帧进行过滤,保留优质的第二图片和/或第二视频帧。
需要说明的是,对于第二图片和/或第二视频帧的筛选不区分先后顺序,可以先筛选出图像质量较高的第二图片和/或第二视频帧,再筛选不包含文字信息的第二图片和/或第二视频帧,也可以仅筛选出图像质量较高的第二图片和/或第二视频帧,也可以仅筛选出不包含文字信息的第二图片和/或第二视频帧,在此不做具体限定。
例如:根据第一文字信息,获取与第一文字信息相关的2个第二视频,分别为视频A和视频B。其中,视频A包含视频帧A1、视频帧A2、视频帧A3以及视频帧A4;视频B包含视频帧B1、视频帧B2以及视频帧B3。视频帧A1不包含文字、且清晰度高于预设清晰度,视频帧A2不包含文字、且清晰度高于预设清晰度,视频帧A3不包含文字、且清晰度低于预设清晰度,视频帧A4包含文字、且清晰度低于预设清晰度;视频帧B1包含文字、且清晰度高于预设清晰度,视频帧B2不包含文字、且清晰度高于预设清晰度,视频帧B3不包含文字、且清晰度低于预设清晰度。如果预设条件为不包含文字信息以及图像清晰度高于预设清晰度,则只有视频帧A1、视频帧A2、视频帧B2满足预设条件,即视频帧A1、视频帧A2、视频帧B2为满足预设条件的第一视频帧。
在一种可能的实施方式中,上述根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频的步骤,具体可以包括:
根据所述第一文字信息,搜索得到与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频;和/或
根据第二文字信息,搜索得到与所述第二文字信息相关的至少一个第二图片和/或至少一个第二视频;
其中,所述第二文字信息是通过对所述第一文字信息进行相关词语变换后得到的相关文字信息。
具体的,可以根据第一文字信息搜索与第一文字信息相关的至少一个第二图片和/或至少一个第二视频。也可以对第一文字信息进行相关词语变换,得到与第一文字信息相关的第二文字信息,根据第二文字信息搜索与第二文字信息相关的至少一个第二图片和/或至少一个第二视频。其中,可以设定为第二文字信息的搜索范围大于第一文字信息的搜索范围,比如:第二文字信息内容是第一文字信息内容的其中一部分。
例如:第一文字信息是:歌手A的歌曲,第二文字信息可以为:歌手A,由此根据第二文字信息不仅可以搜索到关于歌手A的歌曲视频,还可以搜索到关于歌手A的综艺视频、舞蹈视频、穿搭图像等,由此获取的第二图片和/或第二视频的数量更多。
并且,如果第一文字信息与第二文字信息不是包含关系,即第二文字信息内容不是第一文字信息内容的其中一部分,第一文字信息与第二文字信息有部分重叠内容,则可以根据第一文字信息搜索与第一文字信息相关的第二图片和/或第二视频,并根据第二文字信息搜索与第二文字信息相关的第二图片和/或第二视频。例如:第一文字信息为:演员B的电视剧,第二文字信息为:演员B的剧照,根据第一文字信息可以搜索到演员B参演过的电视剧,根据第二文字信息可以搜索到演员B参演过的电视剧的剧照,由此可以搜索到更多关于演员B的内容,使得搜索到的第二图片和/或第二视频的数量更多。
在一种可能的实施方式中,在所述步骤S13将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧之前,所述方法还可以包括以下内容:
获取样本图像数据集;
将所述样本图像数据集输入至神经网络模型中进行图像裁剪,得到每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征;
将每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征经过所述神经网络模型的全连接层进行处理,得到裁剪结果预测值;
根据所述裁剪效果预测值与预设裁剪结果值的差值,对所述神经网络模型进行模型训练,得到训练后的图像裁剪模型。
具体的,图像裁剪模型的训练过程为:首先需要构造了一个图片数据的集合,即样本图像数据集,如:包含一万张图片的数据集,每张图片都按主题词至少含有5个不同的候选裁剪方式,并且根据衡量标准,给每种裁剪方式提供一个1到5的分数,分数越高代表裁剪结果越好。具体模型结构如图3所示,首先获取样本图像数据集中的图片31,然后将该图片输入至一个轻量级的神经网络模型32(如:移动端模型Mobilenet)中进行图像裁剪,得到该图片的图像特征33,将图像特征33分为有效区域的第一图像特征34以及无效区域的第二图像特征35。对有效区域和无效区域进行建模,即对感兴趣区域(Region of Interest,RoI)和被丢弃区域(Region of Discard,RoD)进行建模,然后将两个区域的图像特征进行拟合,得到拟合后的图像特征36;然后拟合后的图像特征36经过神经网络模型的全连接层37进行处理,最后输出一个裁剪效果预测值,即一个分数值;拟合裁剪效果预测值与预设裁剪效果值的分数差值,经过梯度反传不断的训练优化此模型,最后得到一个优质的感兴趣区域裁剪模型,即图像裁剪模型。在使用该图像裁剪模型时,将第一图片和/或第一视频帧传给该模型,能稳定地输出一个视觉上令人较感兴趣的裁剪结果,即目标图片和/或目标视频帧。需要说明的是,图3中的全连接层37的数量仅为示例。区域裁剪从本质上来说是图像裁剪,从图片或视频某一帧中裁剪出与主题词相关的图片区域,通过图像裁剪模型进行区域裁剪,既能满足裁剪鲁棒性,同时又能满足高效的需求。
在一种可能的实施方式中,如果候选的目标图片和/或目标视频帧的数量为多个,可以将目标图片和/或目标视频帧发送至图像审核模块进行图像审核,选出用户所需的目标图片和/或目标视频。其中,该图像审核模块可以是根据用户需要进行人工审核,也可以是根据用户需要进行自动审核,在此不做具体限定。
如图4所示,下面通过一具体实施例对上述图像获取方法过程进行阐述:
步骤41,获取第一文字信息。
步骤42,根据所述第一文字信息,搜索与所述第一文字信息相关的5个第二视频,分别是视频A1、视频A2、视频A3、视频A4以及视频A5。
步骤43,对5个第二视频中的每一个第二视频的视频帧进行文字检索,剔除包含文字的视频帧,保留不包含文字的10个视频帧,即得到视频帧B1~视频帧B10。
步骤44,对视频帧B1~视频帧B10的10个视频帧进行图像质量检测,剔除图像质量等于或低于预设图像质量的视频帧,保留图像质量高于预设图像质量的视频帧,即得到视频帧B1、视频帧B4以及视频帧B7;得到视频帧B1、视频帧B4以及视频帧B7均为第一视频帧。
步骤45,将视频帧B1、视频帧B4以及视频帧B7输入至图像裁剪模型中,经过对每一个视频帧进行图像裁剪,对应得到一个目标视频帧;即视频帧B1经过图像裁剪之后得到目标视频帧B1,视频帧B4经过图像裁剪之后得到目标视频帧B4,视频帧B7经过图像裁剪之后得到目标视频帧B7。
步骤46,将目标视频帧B1、目标视频帧B4以及目标视频帧B7图送至图像审核模块进行图像审核,最终得到一个最匹配的图像,即从目标视频帧B1、目标视频帧B4以及目标视频帧B7中选择一个作为最匹配图像。
综上所述,本公开的实施例,根据主题词(即第一文字信息和/或第二文字信息),从海量图片和/或视频中获取最相关图像的方法,可以最大化的利用短视频,为不同的场景提供候选图;并且,预设条件的设定可以过滤掉不符合要求的图片和/或视频帧;图像裁剪模型可以从图片和/或视频帧中获取最匹配的有效区域,提供丰富的候选结果,为应用搜索栏目提供较好的视觉效果;其中轻量化的神经网络结构,可以不仅使得裁剪高效,同时也不会损失裁剪精度。
图5是根据一示例性实施例示出的一种图像获取装置框图。参照图5,该图像获取装置50包括信息获取模块51、图像筛选模块52和图像裁剪模块53。
信息获取模块51,被配置为获取第一文字信息;
图像筛选模块52,被配置为根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧;
图像裁剪模块53,被配置为将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧。
在一种可能的实施方式中,所述图像筛选模块52,具体被配置为:
根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,所述至少一个第二视频包含多个第二视频帧;
从所述至少一个第二图片和/或至少一个第二视频中,筛选出满足预设条件的第一图片和/或第一视频帧。
在一种可能的实施方式中,所述预设条件包括:目标对象中不包含文字信息和/或所述目标对象的图像质量高于预设图像质量;
其中,所述目标对象为第一图片和/或第一视频帧。
在一种可能的实施方式中,所述图像筛选模块42在根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频时,具体被配置为:
根据所述第一文字信息,搜索得到与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频;和/或
根据第二文字信息,搜索得到与所述第二文字信息相关的至少一个第二图片和/或至少一个第二视频;
其中,所述第二文字信息是通过对所述第一文字信息进行相关词语变换后得到的相关文字信息。
在一种可能的实施方式中,所述图像裁剪模块53,具体被配置为:
将所述第一图片和/或第一视频帧输入至所述图像裁剪模型中进行无效区域的裁剪剔除,得到剔除无效区域后的目标图片和/或目标视频帧。
在一种可能的实施方式中,所述装置还包括:
模型训练模块,被配置为:
获取样本图像数据集;
将所述样本图像数据集输入至神经网络模型中进行图像裁剪,得到每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征;
将每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征经过所述神经网络模型的全连接层进行处理,得到裁剪结果预测值;
根据所述裁剪效果预测值与预设裁剪效果值的差值,对所述神经网络模型进行模型训练,得到训练后的图像裁剪模型。
综上所述,本公开的实施例,根据主题词(即第一文字信息和/或第二文字信息),从海量图片和/或视频中获取最相关图像的方法,可以最大化的利用短视频,为不同的场景提供候选图;并且,预设条件的设定可以过滤掉不符合要求的图片和/或视频帧;图像裁剪模型可以从图片和/或视频帧中获取最匹配的有效区域,提供丰富的候选结果,为应用搜索栏目提供较好的视觉效果;其中轻量化的神经网络结构,可以不仅使得裁剪高效,同时也不会损失裁剪精度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种电子设备的框图。参照图6,该电子设备包括:
处理器610;
用于存储所述处理器可执行指令的存储器620;
其中,所述处理器被配置为执行所述指令,以实现上述所述图像获取方法。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器610执行以完成上述图像获取方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
电子设备700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口712,传感器组件714,以及通信组件716。
处理组件702通常控制电子设备700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当电子设备700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为电子设备700提供各个方面的状态评估。例如,传感器组件714可以检测到电子设备700的打开/关闭状态,组件的相对定位,例如所述组件为电子设备700的显示器和小键盘,传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变,用户与电子设备700接触的存在或不存在,电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述图像获取方法。在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述所述的图像获取方法。
此外,在此提供的图像获取方案不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的信息提取方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
综上所述,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种图像获取方法,其特征在于,所述方法包括:
获取第一文字信息;
根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的目标对象;所述预设条件包括:所述目标对象中不包含文字信息和/或所述目标对象的图像质量高于预设图像质量;其中,所述目标对象为第一图片和/或第一视频帧;
将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧;
所述方法还包括:
获取样本图像数据集;
将所述样本图像数据集输入至神经网络模型中进行图像裁剪,得到每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征;
将每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征经过所述神经网络模型的全连接层进行处理,得到裁剪效果预测值;
根据所述裁剪效果预测值与预设裁剪效果值的差值,对所述神经网络模型进行模型训练,得到训练后的图像裁剪模型。
2.根据权利要求1所述的图像获取方法,其特征在于,所述根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的第一图片和/或第一视频帧,包括:
根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,所述至少一个第二视频包含多个第二视频帧;
从所述至少一个第二图片和/或至少一个第二视频中,筛选出满足预设条件的第一图片和/或第一视频帧。
3. 根据权利要求2所述的图像获取方法,其特征在于,所述根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,包括:
根据所述第一文字信息,搜索得到与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频;和/或
根据第二文字信息,搜索得到与所述第二文字信息相关的至少一个第二图片和/或至少一个第二视频;
其中,所述第二文字信息是通过对所述第一文字信息进行相关词语变换后得到的相关文字信息。
4.根据权利要求1所述的图像获取方法,其特征在于,所述将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧,包括:
将所述第一图片和/或第一视频帧输入至所述图像裁剪模型中进行无效区域的裁剪剔除,得到剔除无效区域后的目标图片和/或目标视频帧。
5.一种图像获取装置,其特征在于,所述装置包括:
信息获取模块,被配置为获取第一文字信息;
图像筛选模块,被配置为根据所述第一文字信息,从与所述第一文字信息相关的图片和/或视频中,筛选出满足预设条件的目标对象;所述预设条件包括:所述目标对象中不包含文字信息和/或所述目标对象的图像质量高于预设图像质量;其中,所述目标对象为第一图片和/或第一视频帧;
图像裁剪模块,被配置为将所述第一图片和/或第一视频帧输入至图像裁剪模型中进行区域裁剪,得到裁剪后的目标图片和/或目标视频帧;
所述装置还包括:
模型训练模块,被配置为:
获取样本图像数据集;
将所述样本图像数据集输入至神经网络模型中进行图像裁剪,得到每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征;
将每一样本图像数据的有效区域的第一图像特征以及无效区域的第二图像特征经过所述神经网络模型的全连接层进行处理,得到裁剪效果预测值;
根据所述裁剪效果预测值与预设裁剪效果值的差值,对所述神经网络模型进行模型训练,得到训练后的图像裁剪模型。
6.根据权利要求5所述的图像获取装置,其特征在于,所述图像筛选模块,具体被配置为:
根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频,所述至少一个第二视频包含多个第二视频帧;
从所述至少一个第二图片和/或至少一个第二视频中,筛选出满足预设条件的第一图片和/或第一视频帧。
7. 根据权利要求6所述的图像获取装置,其特征在于,所述图像筛选模块在根据所述第一文字信息,获取与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频时,具体被配置为:
根据所述第一文字信息,搜索得到与所述第一文字信息相关的至少一个第二图片和/或至少一个第二视频;和/或
根据第二文字信息,搜索得到与所述第二文字信息相关的至少一个第二图片和/或至少一个第二视频;
其中,所述第二文字信息是通过对所述第一文字信息进行相关词语变换后得到的相关文字信息。
8.根据权利要求5所述的图像获取装置,其特征在于,所述图像裁剪模块,具体被配置为:
将所述第一图片和/或第一视频帧输入至所述图像裁剪模型中进行无效区域的裁剪剔除,得到剔除无效区域后的目标图片和/或目标视频帧。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的图像获取方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至4中任一项所述的图像获取方法。
CN202110846488.XA 2021-07-26 2021-07-26 图像获取方法、装置、电子设备及存储介质 Active CN113672754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110846488.XA CN113672754B (zh) 2021-07-26 2021-07-26 图像获取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110846488.XA CN113672754B (zh) 2021-07-26 2021-07-26 图像获取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113672754A CN113672754A (zh) 2021-11-19
CN113672754B true CN113672754B (zh) 2024-02-09

Family

ID=78540209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110846488.XA Active CN113672754B (zh) 2021-07-26 2021-07-26 图像获取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113672754B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133956A (zh) * 2014-07-25 2014-11-05 小米科技有限责任公司 处理图片的方法及装置
CN108961362A (zh) * 2017-05-27 2018-12-07 阿里巴巴集团控股有限公司 一种网络图片的生成方法与装置
CN111090762A (zh) * 2019-12-19 2020-05-01 京东方科技集团股份有限公司 图像获取方法、装置、电子设备及存储介质
CN112784110A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 关键帧确定方法、装置、电子设备和可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI244005B (en) * 2001-09-13 2005-11-21 Newsoft Technology Corp Book producing system and method and computer readable recording medium thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133956A (zh) * 2014-07-25 2014-11-05 小米科技有限责任公司 处理图片的方法及装置
CN108961362A (zh) * 2017-05-27 2018-12-07 阿里巴巴集团控股有限公司 一种网络图片的生成方法与装置
CN111090762A (zh) * 2019-12-19 2020-05-01 京东方科技集团股份有限公司 图像获取方法、装置、电子设备及存储介质
CN112784110A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 关键帧确定方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN113672754A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN106557768B (zh) 对图片中的文字进行识别的方法及装置
US11520824B2 (en) Method for displaying information, electronic device and system
CN108932253B (zh) 多媒体搜索结果展示方法及装置
CN107526744B (zh) 一种基于搜索的信息展示方法和装置
CN109614482B (zh) 标签的处理方法、装置、电子设备及存储介质
US11523170B2 (en) Method for displaying videos, and storage medium and electronic device thereof
CN115176456B (zh) 内容操作方法、装置、终端及存储介质
CN105302315A (zh) 图片处理方法及装置
CN111553372B (zh) 一种训练图像识别网络、图像识别搜索的方法及相关装置
KR20200110642A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
CN106409317B (zh) 梦话提取方法、装置及用于提取梦话的装置
CN110781323A (zh) 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN110764627B (zh) 一种输入方法、装置和电子设备
CN107491453B (zh) 一种识别作弊网页的方法及装置
CN113873165A (zh) 拍照方法、装置和电子设备
CN112887615B (zh) 拍摄的方法及装置
CN111629270A (zh) 一种候选项确定方法、装置及机器可读介质
CN112381091B (zh) 视频内容识别方法、装置、电子设备及存储介质
CN111241844A (zh) 一种信息推荐方法及装置
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN112598016A (zh) 图像分类方法及装置、通信设备及存储介质
CN110175293B (zh) 一种确定新闻脉络的方法、装置及电子设备
CN112199565A (zh) 数据时效识别方法及装置
CN113672754B (zh) 图像获取方法、装置、电子设备及存储介质
CN110399468B (zh) 一种数据处理方法、装置和用于数据处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant