CN111460206A - 图像处理方法、装置、电子设备和计算机可读存储介质 - Google Patents

图像处理方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111460206A
CN111460206A CN202010260503.8A CN202010260503A CN111460206A CN 111460206 A CN111460206 A CN 111460206A CN 202010260503 A CN202010260503 A CN 202010260503A CN 111460206 A CN111460206 A CN 111460206A
Authority
CN
China
Prior art keywords
image
entity
information
entities
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010260503.8A
Other languages
English (en)
Other versions
CN111460206B (zh
Inventor
程洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010260503.8A priority Critical patent/CN111460206B/zh
Publication of CN111460206A publication Critical patent/CN111460206A/zh
Priority to US17/180,307 priority patent/US20210311985A1/en
Priority to EP21159653.1A priority patent/EP3889802A1/en
Priority to JP2021030712A priority patent/JP7121819B2/ja
Priority to KR1020210032189A priority patent/KR102609616B1/ko
Application granted granted Critical
Publication of CN111460206B publication Critical patent/CN111460206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/235Update request formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施例涉及一种图像处理方法、装置、电子设备和计算机可读存储介质,涉及人工智能领域。该方法可以包括从参考图像信息库中获取与目标图像相匹配的参考图像的描述信息。该方法进一步包括从参考图像的描述信息中确定至少一个实体,该至少一个实体标识与所述参考图像相关联的对象。此外,该方法可以进一步包括基于至少一个实体,生成目标图像的描述信息。本公开的技术方案可以充分根据不断更新的图像和信息源来提供准确的描述信息,从而有效节约了人力资源成本,并且显著提升了用户体验。

Description

图像处理方法、装置、电子设备和计算机可读存储介质
技术领域
本公开的实施例主要涉及人工智能领域,并且更具体地,涉及用于图像处理的方法、装置、电子设备和计算机可读存储介质。
背景技术
针对通过网络浏览所看到的图像或者生活中所见的事物,用户可能存在利用图像进行搜索以便进一步了解所见图像信息或事物的描述信息(诸如,名称)的需求。具体地,当用户发现一面不知道国家的国旗、不知道名称的建筑物、绘画作品、名人等等时,需要基于已知的图像确定该图像的描述信息,并将该描述信息作为答案反馈给用户。传统的确定图像的描述信息的方式通常不能应对图像和/或信息源的快速发展变化(例如,实时变化的互联网知识更新),而是局限于固定或特定的知识集合,由此导致图像的描述信息不够具体。
发明内容
根据本公开的示例实施例,提供了一种用于图像处理的方案。
在本公开的第一方面中,提供了一种图像处理方法。该方法可以包括从参考图像信息库中获取与目标图像相匹配的参考图像的描述信息。该方法进一步包括从参考图像的描述信息中确定至少一个实体,该至少一个实体标识与所述参考图像相关联的对象。并且,该方法可以进一步包括基于至少一个实体,生成目标图像的描述信息。
在本公开的第二方面中,提供了一种图像处理装置,包括:参考图像描述信息获取模块,被配置为从参考图像信息库中获取与目标图像相匹配的参考图像的描述信息;实体确定模块,被配置为从所述参考图像的描述信息中确定至少一个实体,所述至少一个实体标识与所述参考图像相关联的对象;以及目标图像描述信息生成模块,被配置为基于所述至少一个实体生成所述目标图像的描述信息。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的实施例的用于图像处理的过程的流程图;
图3示出了根据本公开的实施例的用于生成目标图像的描述信息的过程的流程图;
图4示出了根据本公开的实施例的用于生成目标图像的描述信息的另一过程的流程图;
图5示出了根据本公开的实施例的用于处理目标图像的装置的框图;以及
图6示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在基于图像确定该图像的描述信息的过程中,通常可以通过训练分类模型的方式,来利用训练好的分类模型确定用户要搜索的图像的描述信息。然而,由于互联网的知识更新是实时变化发展的,故需要不断基于新的知识来训练分类模型,这通常需要较大的人力资源成本。
此外,还可以通过简单搜索的方式,收集词库及其对应的图像,当其中一个图像与用户期望搜索的图像匹配时,该图像对应的词库即被选择作为答案反馈给用户。然而,这种方式仍然无法应对实时更新的互联网知识,除非付出较大的人力资源成本。另外,由于词库通常只涉及较为笼统的实体名词,故还可能导致确定的描述信息不够具体。
根据本公开的实施例,提出一种图像处理的改进方案。在该方案中,通过利用与用户输入的目标图像相匹配的参考图像所在网页的文本信息提取相关的实体来描述目标图像。具体地,可以先获取基于图像源和/或信息源而构建的参考图像信息库,在参考图像信息库中至少包括参考图像及其描述信息。通过将目标图像与参考图像信息库中的参考图像进行比较,可以找到与目标图像相匹配的参考图像,进而可以进一步确定该参考图像的描述信息。继而,可以从确定的描述信息中获取至少一个实体,并基于该至少一个实体来确定目标图像的描述信息。以此方式,可以充分根据不断更新的图像和信息源来提供准确的描述信息,从而有效节约了人力资源成本,并且显著提升了用户体验。
图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在该示例环境100中,目标图像110可以是用户输入的要进行搜索的图像,例如可以是用户通过对网络上的图像进行复制或截图而得到的图像,或者是用户对某对象拍摄的照片。作为另外的示例,目标图像110还可以是某个图像处理系统所自动获取的网络图像或者外部存储设备中的图像,以用于后续的描述信息的生成。上述示例仅是描述本公开,而非对本公开的具体限定。
如图1所示,为了确定目标图像110的描述信息,目标图像110被输入至计算设备120。在一些实施列中,计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。
在一些实施例中,计算设备120可以位于云端,其用于从与之通信连接的参考图像信息库130中获取与目标图像110相匹配的参考图像的描述信息,并基于该参考图像的描述信息确定目标图像110的描述信息140。参考图像信息库130中包含多个参考图像及其对应的描述信息。如图1所示,作为示例,参考图像信息库130中包含多个信息组132、134和136,并且每个信息组均存储有一个参考图像及其对应的描述信息。参考图像的描述信息可以包括参考图像的文本信息和结构化信息中的至少一项。
作为示例,如图1所示,当计算设备120从多个信息组132、134和136中找到与目标图像110匹配的参考图像151时,会从相应的信息组中获取参考图像151的描述信息,并从该描述信息中提取多个实体,例如,实体1、实体2、实体3等。此外,计算设备120还从这些实体中统计出其各自的多个特征参数,例如,特征参数A、特征参数B、特征参数C等。
经过计算设备120的处理,可以基于上述实体和特征参数确定目标图像110的描述信息140,并将其作为处理结果反馈给用户。作为示例,描述信息140可用于描述目标图像110中所涉及的对象的具体名称,从而满足用户期望获知该目标图像110的相关知识信息的需求。
应当理解,图1示出的环境仅是示例性的,而非对本公开的具体限定。
图2示出了根据本公开的实施例的用于图像处理的过程200的流程图。在某些实施例中,方法200可以在图6示出的设备中实现。现参照图1描述根据本公开实施例的用于处理目标图像110的过程200。为了便于理解,在下文描述中提及的具体数据均是示例性的,并不用于限定本公开的保护范围。
在202,计算设备120可以从参考图像信息库130中获取与目标图像110相匹配的参考图像的描述信息。作为示例,如图1所示,如果确定信息组134中的参考图像与目标图像110匹配,则从信息组134中获取相应的描述信息。根据本公开的实施例,参考图像的描述信息可以包括参考图像的文本信息和结构化信息中的至少一项。由此,可以将参考图像及其所有相关文本信息进行关联,为后续的提取实体词的过程提供条件。作为示例,可以通过诸如网络爬虫的知识获取技术,对互联网上的所有内容进行抓取,提取网页中的图像、图像周边的文本信息以及网页的结构化信息,诸如<title>tag的文字内容、特定网站的可见标题等。图像周边的文本信息和网页的结构化信息构成参考图像的描述信息。上述信息均对应地存储在参考图像信息库130中,并基于诸如网络爬虫的知识获取技术进行实时或定期更新。参考图像信息库130的图像称为参考图像,该图像所在的网页称为图像源(或称为“源文件”)。
在某些实施例中,在接收到目标图像110之后,计算设备120可以提取目标图像110的特征向量,并将提取的特征向量与参考图像信息库130中的各图像的特征向量进行比对。当在参考图像信息库130中找到匹配度大于预定阈值的图像时,将该图像确定为参考图像,并获取与该参考图像相对应的描述信息。应理解,上述确定参考图像的方式仅是示例性的,而非对本公开的具体限定。例如,除参考图像的描述信息之外,还而可以获取该图像所在的图像源。以此方式,可以快速确定与目标图像110相匹配的参考图像及其描述信息,从而为接下来针对该参考图像的描述信息的处理过程提供条件。
在204,计算设备120可以从上述参考图像的描述信息中确定至少一个实体,该至少一个实体标识了与参考图像相关联的对象。作为示例,可以利用命名实体识别(NER)技术从参考图像的描述信息中获取至少一个实体。作为示例,参考图像的描述信息即为参考图像的文本信息和结构化信息。可以通过NER技术从这些信息中提取多个实体,例如,多个实体名词,从而形成候选的实体名词集合。以此方式,可以不必人工介入地获取与目标图像110相关的实体词作为候选。
优选地,这些实体名词可以在上述进行网页抓取存储的时候使用NER进行提取并存储。备选地或附加地,这些实体名词也可以在被确定为参考图像的实体后使用NER进行提取。
在206,计算设备120可以基于上述至少一个实体,生成目标图像110的描述信息140。应理解,生成的描述信息140与上述参考图像的描述信息完全不同。上述参考图像的描述信息包含图像周边的文本信息和网页的结构化信息,而描述信息140可能仅包含一个或多个实体词,用于对目标图像110进行简单描述。还应理解,计算设备120可以通过多种方式来确定目标图像110的描述信息140。例如,图3示出了根据本公开的实施例的用于生成目标图像110的描述信息140的过程300的流程图。为了便于理解,在下文描述中提及的具体过程均是示例性的,并不用于限定本公开的保护范围。
在302,当确定有多个实体时,计算设备120可以基于参考图像信息库130,确定这些实体的特征参数。这些实体的特征参数可以包括其所在图像源的内容中被展现的次数、针对该图像源的内容的浏览次数、针对该图像源的内容的点击次数、这些实体在图像源的内容中的出现次数、以及与这些实体在其图像源的内容中的位置对应的权重中的至少一个参数。
在304,计算设备120可以从上述多个实体确定至少一组实体,该至少一组实体中的实体是相同的。作为示例,在确定了多个参考图像及其描述信息后,可以从这些描述信息中确定多个实体。由于各参考图像的相关性,确定的多个实体中存在相同的实体。因此可以将相同的实体确定为一组实体。
在306,计算设备120可以确定上述至少一组实体的相应特征参数的统计结果。作为示例,计算设备120可以确定上述一组实体的相应特征参数的统计结果,诸如,总和、均值等的统计信息。例如,可以计算该一组实体所在图像源的内容中被展现的次数之和、这些实体在图像源的内容中的出现次数之和、以及与这些实体在其图像源的内容中的位置对应的权重的均值等。应理解,上述计算方式仅是示例性的,并非用于限制本公开。
之后,计算设备120可以基于上述统计结果生成目标图像110的描述信息140。以此方式,可以将人工标注的工作仅主要集中于描述信息生成模型的训练环节,从而降低了人力资源成本。应理解,可以通过多种方式生成描述信息140。作为示例,在308,确定上述至少一组实体标识目标图像110中的对象的正确程度。应理解,正确程度可以用于指示上述至少一组实体与目标图像110中的对象的匹配程度,或者指示上述至少一组实体正确标识目标图像110中的对象概率等。作为示例,可以通过训练一个打分模型来实现此过程。例如,使用基于该特征训练的梯度提升迭代决策树(GBDT)算法对各实体是否与目标图像110中的对像相关进行打分。打分越高,说明实体与目标图像110中的对象越匹配,或者实体正确标识目标图像110中的对象的概率越大。
之后,在310,计算设备120可以从上述至少一组实体中选择一组目标实体,与该组目标实体相对应的正确程度高于阈值程度。作为示例,可以基于各实体的打分选择较高或最高分的实体。如果最高分实体词的得分低于设定的阈值,则判定为本次搜索中没有正确的实体,否则输出较高或最高分实体。进而,在312,计算设备120可以基于该组目标实体,生成目标图像110的描述信息140。
以上述方式,可以基于经训练的打分模型从与多个参考图像关联的描述信息中确定与目标图像110最为相关的实体词,从而可以为用户提供目标图像110的最确切的描述信息140。此外,由于将人工标注的工作仅主要集中于打分模型的训练环节,从而降低了人力资源成本。
此外,计算设备120还可以通过以下方式来确定目标图像110的描述信息140。图4示出了根据本公开的实施例的用于生成目标图像110的描述信息140的另一过程400的流程图。为了便于理解,在下文描述中提及的具体过程均是示例性的,并不用于限定本公开的保护范围。
在402,当确定有多个实体时,计算设备120可以基于参考图像信息库130,确定这些实体的特征参数。这些实体的特征参数可以包括其所在图像源的内容中被展现的次数、针对该图像源的内容的浏览次数、针对该图像源的内容的点击次数、这些实体在图像源的内容中的出现次数、以及与这些实体在其图像源的内容中的位置对应的权重中的至少一个参数。
在404,计算设备120可以基于上述特征参数,确定这些实体中的每个实体标识目标图像110中的对象的正确程度。作为示例,可以通过训练一个深度学习模型来实现此过程。例如,使用长短期记忆网络(LSTM)或者诸如Transformer模型等的序列模型基于每个实体的特征参数预测各实体命中目标图像110中的对象的概率。
在406,计算设备120可以从上述多个实体中选择目标实体,与该目标实体相对应的正确程度高于阈值程度。作为示例,可以选出命中概率较高或最高的实体。如果较高或最高的命中概率低于设定的阈值,则判定为本次搜索中没有正确的实体,否则输出较高或最高命中概率实体。进而,在408,计算设备120可以基于该目标实体,生成目标图像110的描述信息140。
以上述方式,可以基于经训练的学习模型从与多个参考图像关联的描述信息中确定与目标图像110最为相关的实体词,从而可以为用户提供目标图像110的最确切的描述信息140。此外,由于将人工标注的工作仅主要集中于学习模型的训练环节,从而降低了人力资源成本。
附加地,在一些实施例中,计算设备120还可以更新参考图像信息库130。这一更新过程可以通过多种方式来实现。在一个实施例中,计算设备120可以获取网络图像、用户输入图像以及外部存储设备中的图像等各种补充图像信息,并基于这样的补充图像信息来更新参考图像信息库130。网络图像例如可以是通过互联网或其他网络来获取的存储在网络设备上的图像。用户输入图像例如可以是用户通过手机、相机等终端设备拍摄并发送给计算设备120的图像。外部存储设备中的图像例如可以是移动存储设备、云存储设备等中所存储的图像。具体地,可以定期或随时更新参考图像信息库。例如,可以基于网络图像、用户输入图像、以及外部存储设备中的图像来更新参考图像信息库。在确定描述信息的整个过程中,创建和更新参考图像信息库的过程可以通过诸如网络爬虫的知识获取技术来自动、定期实现。而基于确定的实体生成目标图像的描述信息的过程可以通过人工训练的模型来实现。以此方式,可以基于不断发展变化和快速更新的互联网的知识集合来更新参考图像信息库,而无需不必要的人工干预。
在某些实施例中,可以通过如下方式确定特征参数。首先,计算设备120可以从参考图像信息库130中确定与参考图像的图像源有关的信息。之后,计算设备120可以基于与该参考图像的图像源有关的信息,确定这些实体的特征参数。这些实体的特征参数可以包括其所在图像源的内容中被展现的次数、针对该图像源的内容的浏览次数、针对该图像源的内容的点击次数、这些实体在图像源的内容中的出现次数、与这些实体在其图像源的内容中的位置对应的权重、实体与目标图像的匹配程度、实体所在图像源的内容与目标图像的匹配程度中的至少一个参数。以此方式,可以通过不同维度检测各个实体与目标图像110的相关性,从而为确定确切的描述信息140提供较为全面的评价体系。应理解,上述确定特征参数的方式仅是示例性的,并不用于限制本公开的范围。
应理解,本公开的图像处理方式相对于传统识图方式的优势在于,每当网络中出现新的实体信息(诸如,新明星、新建筑、新产品等)时,本公开的图像处理方式无需如传统识图方式那样重新人工训练识图模型。原因在于,本公开利用了诸如网络爬虫的知识获取技术来更新参考图像信息库130,并且利用训练好的模型来从参考图像的描述信息中提取实体,以及利用训练好的模型来基于实体的统计结果来生成目标图像110的描述信息140。本公开中所有的模型均无需在每次出现新的实体信息时重新训练。由此,可以在不进行过多人工干预的前提下充分涵盖不断更新的互联网的知识集合从而为用户确定准确的描述信息,从而节约了人力资源成本,并且提升了用户体验。
图5示出了根据本公开的实施例的用于处理目标图像110的装置500的框图。如图5所示,装置500可以包括:参考图像描述信息获取模块502,被配置为从参考图像信息库中获取与目标图像相匹配的参考图像的描述信息;实体确定模块504,被配置为从参考图像的描述信息中确定至少一个实体,至少一个实体标识与参考图像相关联的对象;以及目标图像描述信息生成模块506,被配置为基于至少一个实体生成目标图像的描述信息。
在某些实施例中,装置500可以包括:补充图像信息获取模块(未示出),被配置为获取补充图像信息,补充图像信息包括以下至少一项的描述信息:网络图像,用户输入图像,以及外部存储设备中的图像;以及参考图像信息库更新模块(未示出),被配置为基于补充图像信息来更新参考图像信息库。
在某些实施例中,实体确定模块504可以包括:实体获取模块(未示出),被配置为利用命名实体识别技术从参考图像的描述信息中获取至少一个实体。
在某些实施例中,至少一个实体包括多个实体,并且其中目标图像描述信息生成模块506可以包括:第二梯度数据确定模块(未示出),被配置为确定与所述第二识别模型相关联的第二目标函数的梯度数据;第二扰动数据确定模块(未示出),被配置为基于所述第二目标函数的梯度数据与所述第二识别模型的学习速率,确定所述第二扰动数据;以及第二加法模块(未示出),被配置为通过将所述第二扰动数据加入所述第一候选对抗样本中,生成所述第二候选对抗样本。
某些实施例中,至少一个实体包括多个实体,并且其中目标图像描述信息生成模块506可以包括:特征参数确定模块(未示出),被配置为基于所述参考图像信息库,确定所述多个实体的特征参数;实体组确定模块(未示出),被配置为从所述多个实体确定至少一组实体,所述至少一组实体中的实体是相同的;统计结果确定模块(未示出),被配置为确定所述至少一组实体的相应特征参数的统计结果;正确程度确定模块(未示出),被配置为基于所述统计结果,确定所述至少一组实体标识所述目标图像中的对象的正确程度;目标实体组选择模块(未示出),被配置为从所述至少一组实体中选择一组目标实体,与所述一组目标实体相对应的正确程度高于阈值程度;以及描述信息生成模块(未示出),被配置为基于所述一组目标实体,生成所述目标图像的描述信息。
某些实施例中,至少一个实体包括多个实体,并且其中目标图像描述信息生成模块506可以包括:特征参数确定模块(未示出),被配置为基于所述参考图像信息库,确定所述多个实体的特征参数;正确程度确定模块(未示出),被配置为基于所述特征参数,确定所述多个实体中的每个实体标识所述目标图像中的对象的正确程度;目标实体选择模块(未示出),被配置为从所述多个实体中选择目标实体,与所述目标实体相对应的正确程度高于阈值程度;以及描述信息生成模块(未示出),被配置为基于所述目标实体,生成所述目标图像的描述信息。
在某些实施例中,特征参数确定模块包括:图像源相关信息确定模块(未示出),被配置为从所述参考图像信息库中确定与所述参考图像的图像源有关的信息;特征参数信息确定模块(未示出),被配置为基于与所述参考图像的图像源有关的信息,确定以下中的至少一项:所述至少一个实体所在所述图像源的内容中被展现的次数;针对所述图像源的内容的浏览次数;针对所述图像源的内容的点击次数;所述至少一个实体在所述图像源的内容中的出现次数;与所述至少一个实体在所述图像源的内容中的位置对应的权重;所述至少一个实体与所述目标图像的匹配程度;以及所述至少一个实体所在所述图像源的内容与所述目标图像的匹配程度。
在某些实施例中,描述信息包括参考图像的文本信息和结构化信息中的至少一项。
图6示出了能够实施本公开的多个实施例的计算设备600的框图。设备600可以用于实现图1的计算设备120。如图所示,设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线504。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元601执行上文所描述的各个方法和处理,例如过程200、300和400。例如,在一些实施例中,过程200、300和400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU 601执行时,可以执行上文描述的过程200、300和400的一个或多个步骤。备选地,在其他实施例中,CPU601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程200、300和400。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种图像处理方法,包括:
从参考图像信息库中获取与目标图像相匹配的参考图像的描述信息;
从所述参考图像的描述信息中确定至少一个实体,所述至少一个实体标识与所述参考图像相关联的对象;以及
基于所述至少一个实体,生成所述目标图像的描述信息。
2.根据权利要求1所述的方法,还包括:
获取补充图像信息,所述补充图像信息包括以下至少一项的描述信息:网络图像,用户输入图像,以及外部存储设备中的图像;以及
基于所述补充图像信息来更新所述参考图像信息库。
3.根据权利要求1所述的方法,其中确定所述至少一个实体包括:
利用命名实体识别技术从所述参考图像的描述信息中获取所述至少一个实体。
4.根据权利要求1所述的方法,其中所述至少一个实体包括多个实体,并且其中生成所述目标图像的描述信息包括:
基于所述参考图像信息库,确定所述多个实体的特征参数;
从所述多个实体确定至少一组实体,所述至少一组实体中的实体是相同的;
确定所述至少一组实体的相应特征参数的统计结果;以及
基于所述统计结果生成所述目标图像的描述信息。
5.根据权利要求4所述的方法,其中基于所述统计结果生成所述目标图像的描述信息包括:
基于所述统计结果,确定所述至少一组实体标识所述目标图像中的对象的正确程度;
从所述至少一组实体中选择一组目标实体,与所述一组目标实体相对应的正确程度高于阈值程度;以及
基于所述一组目标实体,生成所述目标图像的描述信息。
6.根据权利要求1所述的方法,其中至少一个实体包括多个实体,并且其中生成所述目标图像的描述信息包括:
基于所述参考图像信息库,确定所述多个实体的特征参数;
基于所述特征参数,确定所述多个实体中的每个实体标识所述目标图像中的对象的正确程度;
从所述多个实体中选择目标实体,与所述目标实体相对应的正确程度高于阈值程度;以及
基于所述目标实体,生成所述目标图像的描述信息。
7.根据权利要求4至6中任一项所述的方法,其中确定所述特征参数包括:
从所述参考图像信息库中确定与所述参考图像的图像源有关的信息;
基于与所述参考图像的图像源有关的信息,确定以下中的至少一项:
所述至少一个实体所在所述图像源的内容被展现的次数;
针对所述图像源的内容的浏览次数;
针对所述图像源的内容的点击次数;
所述至少一个实体在所述图像源的内容中的出现次数;
与所述至少一个实体在所述图像源的内容中的位置对应的权重;
所述至少一个实体与所述目标图像的匹配程度;以及
所述至少一个实体所在所述图像源的内容与所述目标图像的匹配程度。
8.根据权利要求1所述的方法,其中所述描述信息包括所述参考图像的文本信息和结构化信息中的至少一项。
9.一种图像处理装置,包括:
参考图像描述信息获取模块,被配置为从参考图像信息库中获取与目标图像相匹配的参考图像的描述信息;
实体确定模块,被配置为从所述参考图像的描述信息中确定至少一个实体,所述至少一个实体标识与所述参考图像相关联的对象;以及
目标图像描述信息生成模块,被配置为基于所述至少一个实体生成所述目标图像的描述信息。
10.根据权利要求9所述的装置,还包括:
补充图像信息获取模块,被配置为获取补充图像信息,所述补充图像信息包括以下至少一项的描述信息:网络图像,用户输入图像,以及外部存储设备中的图像;以及
参考图像信息库更新模块,被配置为基于所述补充图像信息来更新所述参考图像信息库。
11.根据权利要求9所述的装置,其中所述实体确定模块包括:
实体获取模块,被配置为利用命名实体识别技术从所述参考图像的描述信息中获取所述至少一个实体。
12.根据权利要求9所述的装置,其中所述至少一个实体包括多个实体,并且其中所述目标图像描述信息生成模块包括:
特征参数确定模块,被配置为基于所述参考图像信息库,确定所述多个实体的特征参数;
实体组确定模块,被配置为从所述多个实体确定至少一组实体,所述至少一组实体中的实体是相同的;
统计结果确定模块,被配置为确定所述至少一组实体的相应特征参数的统计结果;以及
描述信息生成模块,被配置为基于所述统计结果生成所述目标图像的描述信息。
13.根据权利要求12所述的装置,其中所述描述信息生成模块包括:
正确程度确定模块,被配置为基于所述统计结果,确定所述至少一组实体标识所述目标图像中的对象的正确程度;
目标实体组选择模块,被配置为从所述至少一组实体中选择一组目标实体,与所述一组目标实体相对应的正确程度高于阈值程度;以及
信息生成模块,被配置为基于所述一组目标实体,生成所述目标图像的描述信息。
14.根据权利要求9所述的装置,其中至少一个实体包括多个实体,并且其中所述目标图像描述信息生成模块包括:
特征参数确定模块,被配置为基于所述参考图像信息库,确定所述多个实体的特征参数;
正确程度确定模块,被配置为基于所述特征参数,确定所述多个实体中的每个实体标识所述目标图像中的对象的正确程度;
目标实体选择模块,被配置为从所述多个实体中选择目标实体,与所述目标实体相对应的正确程度高于阈值程度;以及
描述信息生成模块,被配置为基于所述目标实体,生成所述目标图像的描述信息。
15.根据权利要求12至14中任一项所述的装置,其中所述特征参数确定模块包括:
图像源相关信息确定模块,被配置为从所述参考图像信息库中确定与所述参考图像的图像源有关的信息;
特征参数信息确定模块,被配置为基于与所述参考图像的图像源有关的信息,确定以下中的至少一项:
所述至少一个实体所在所述图像源的内容被展现的次数;
针对所述图像源的内容的浏览次数;
针对所述图像源的内容的点击次数;
所述至少一个实体在所述图像源的内容中的出现次数;
与所述至少一个实体在所述图像源的内容中的位置对应的权重;
所述至少一个实体与所述目标图像的匹配程度;以及
所述至少一个实体所在所述图像源的内容与所述目标图像的匹配程度。
16.根据权利要求9所述的装置,其中所述描述信息包括所述参考图像的文本信息和结构化信息中的至少一项。
17.一种电子设备,所述电子设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-8任一项所述的方法。
CN202010260503.8A 2020-04-03 2020-04-03 图像处理方法、装置、电子设备和计算机可读存储介质 Active CN111460206B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010260503.8A CN111460206B (zh) 2020-04-03 2020-04-03 图像处理方法、装置、电子设备和计算机可读存储介质
US17/180,307 US20210311985A1 (en) 2020-04-03 2021-02-19 Method and apparatus for image processing, electronic device, and computer readable storage medium
EP21159653.1A EP3889802A1 (en) 2020-04-03 2021-02-26 Method and apparatus for image processing, electronic device, computer readable storage medium, and computer program product
JP2021030712A JP7121819B2 (ja) 2020-04-03 2021-02-26 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
KR1020210032189A KR102609616B1 (ko) 2020-04-03 2021-03-11 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010260503.8A CN111460206B (zh) 2020-04-03 2020-04-03 图像处理方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111460206A true CN111460206A (zh) 2020-07-28
CN111460206B CN111460206B (zh) 2023-06-23

Family

ID=71683614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010260503.8A Active CN111460206B (zh) 2020-04-03 2020-04-03 图像处理方法、装置、电子设备和计算机可读存储介质

Country Status (5)

Country Link
US (1) US20210311985A1 (zh)
EP (1) EP3889802A1 (zh)
JP (1) JP7121819B2 (zh)
KR (1) KR102609616B1 (zh)
CN (1) CN111460206B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117357928B (zh) * 2023-12-08 2024-04-12 广州泽力医药科技有限公司 一种基于物联网的植物提取方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287670A (ja) * 2003-03-20 2004-10-14 Dainippon Printing Co Ltd 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
CN102902821A (zh) * 2012-11-01 2013-01-30 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
JP2016167236A (ja) * 2015-03-10 2016-09-15 富士ゼロックス株式会社 画像処理装置及びプログラム
CN108229578A (zh) * 2018-01-25 2018-06-29 海南大学 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
WO2018203098A1 (en) * 2017-05-05 2018-11-08 Mastercard Technologies Canada ULC Systems and methods for distinguishing among human users and software robots
CN108921894A (zh) * 2018-06-08 2018-11-30 百度在线网络技术(北京)有限公司 对象定位方法、装置、设备和计算机可读存储介质
CN109635277A (zh) * 2018-11-13 2019-04-16 北京合享智慧科技有限公司 一种获取实体信息的方法及相关装置
CN109933647A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 确定描述信息的方法、装置、电子设备和计算机存储介质
CN110188230A (zh) * 2019-05-30 2019-08-30 中煤航测遥感集团有限公司 基于语义的图像检索方法及装置
CN110728724A (zh) * 2019-10-21 2020-01-24 深圳创维-Rgb电子有限公司 一种图像显示方法、装置、终端及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5215B2 (zh) * 1971-09-06 1977-01-05
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
CN101542531B (zh) * 2007-06-14 2012-12-19 松下电器产业株式会社 图像识别装置及图像识别方法
US9171018B2 (en) * 2012-01-17 2015-10-27 Google Inc. System and method for associating images with semantic entities
US9489401B1 (en) * 2015-06-16 2016-11-08 My EyeSpy PTY Ltd. Methods and systems for object recognition
US11372914B2 (en) * 2018-03-26 2022-06-28 Microsoft Technology Licensing, Llc Image annotation
US20200004815A1 (en) * 2018-06-29 2020-01-02 Microsoft Technology Licensing, Llc Text entity detection and recognition from images

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287670A (ja) * 2003-03-20 2004-10-14 Dainippon Printing Co Ltd 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
CN102902821A (zh) * 2012-11-01 2013-01-30 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
JP2016167236A (ja) * 2015-03-10 2016-09-15 富士ゼロックス株式会社 画像処理装置及びプログラム
WO2018203098A1 (en) * 2017-05-05 2018-11-08 Mastercard Technologies Canada ULC Systems and methods for distinguishing among human users and software robots
CN108229578A (zh) * 2018-01-25 2018-06-29 海南大学 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
CN108921894A (zh) * 2018-06-08 2018-11-30 百度在线网络技术(北京)有限公司 对象定位方法、装置、设备和计算机可读存储介质
CN109635277A (zh) * 2018-11-13 2019-04-16 北京合享智慧科技有限公司 一种获取实体信息的方法及相关装置
CN109933647A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 确定描述信息的方法、装置、电子设备和计算机存储介质
CN110188230A (zh) * 2019-05-30 2019-08-30 中煤航测遥感集团有限公司 基于语义的图像检索方法及装置
CN110728724A (zh) * 2019-10-21 2020-01-24 深圳创维-Rgb电子有限公司 一种图像显示方法、装置、终端及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KRAISAK KESORN: "Semantic representation of text captions to aid sport image retrieval", 《IEEE》 *
SANQIANG ZHAO: "Informative Image Captioning with External Sources of Information", 《CORNELL UNIVERSITY LIBRARY》 *
SANQIANG ZHAO: "Informative Image Captioning with External Sources of Information", 《CORNELL UNIVERSITY LIBRARY》, 20 June 2019 (2019-06-20), pages 1 - 10 *
边前卫: "三维模型检索中模型查询接口及特征提取算法研究", 《中国博士学位论文全文数据库》 *

Also Published As

Publication number Publication date
JP2021163477A (ja) 2021-10-11
KR102609616B1 (ko) 2023-12-04
CN111460206B (zh) 2023-06-23
US20210311985A1 (en) 2021-10-07
EP3889802A1 (en) 2021-10-06
JP7121819B2 (ja) 2022-08-18
KR20210124033A (ko) 2021-10-14

Similar Documents

Publication Publication Date Title
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
CN106708929B (zh) 视频节目的搜索方法和装置
CN111460250A (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN107291774B (zh) 错误样本识别方法和装置
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN111126054A (zh) 确定相似文本的方法、装置、存储介质及电子设备
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
CN107766498A (zh) 用于生成信息的方法和装置
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN111460206B (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN117034949A (zh) 咨询工单的分类方法、装置、电子设备及存储介质
CN116719915A (zh) 智能问答方法、装置、设备及存储介质
CN116383382A (zh) 敏感信息的识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant