CN113641857A - 视觉媒体个性化搜索方法和装置 - Google Patents

视觉媒体个性化搜索方法和装置 Download PDF

Info

Publication number
CN113641857A
CN113641857A CN202110928309.7A CN202110928309A CN113641857A CN 113641857 A CN113641857 A CN 113641857A CN 202110928309 A CN202110928309 A CN 202110928309A CN 113641857 A CN113641857 A CN 113641857A
Authority
CN
China
Prior art keywords
visual
information
semantic
visual media
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110928309.7A
Other languages
English (en)
Inventor
王成军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN202110928309.7A priority Critical patent/CN113641857A/zh
Publication of CN113641857A publication Critical patent/CN113641857A/zh
Priority to PCT/KR2022/011785 priority patent/WO2023018150A1/en
Priority to US17/887,235 priority patent/US20230050371A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Abstract

本申请公开了一种视觉媒体个性化搜索方法和装置,包括:对用户的视觉媒体查询文本进行语义分析,得到其中包含的视觉语义信息、时间信息和/或地点信息;将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,得到所述视觉媒体的查询相似度;所述视觉媒体为图像或视频;所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息;基于所述查询相似度,生成相应的视觉媒体查询结果。采用本申请,可以满足用户的个性化搜索视觉媒体需求。

Description

视觉媒体个性化搜索方法和装置
技术领域
本发明涉及计算机应用技术,特别是涉及一种视觉媒体个性化搜索方法和装置。
背景技术
随着智能终端设备拍摄功能的广泛应用,人们对智能终端设备的相册检索需求也越来越高,希望能够进行个性化的视觉媒体搜索(包括图片和视频的搜索)。例如,用户输入查询语句“查找女儿去年生日照片”,即可从相册中查找出相应的照片显示给用户。
针对上述个性化视觉媒体搜索需求,发明人在实现本申请的过程中通过研究发现:现有的视觉媒体搜索方案无法满足上述个性化的查询需求。具体原因如下:
现有的视觉媒体查询方案仅是基于图像的语义信息进行搜索,搜索时无法识别出图像的用户个性化信息。出于保护用户隐私的原因,在进行用于语义搜索的服务端模型训练时,不适合基于用户的个性化信息进行训练和识别,从而无法获得能够基于图像内容识别用户个性化信息的搜索模型,从而无法满足用户的个性化查询需求。例如,现有的视觉媒体查询方案可以从图像中识别出拍摄主体是个女孩,但是无法识别出拍摄主体与当前查询用户之间的关系,这样,就无法满足类似“查找女儿去年生日照片”这种个性化搜索需求。
发明内容
有鉴于此,本发明的主要目的在于提供一种视觉媒体个性化搜索方法和装置,可以满足用户的个性化搜索视觉媒体的需求。
为了达到上述目的,本发明实施例提出的技术方案为:
一种视觉媒体个性化搜索方法,包括:
对用户的视觉媒体查询文本进行语义分析,得到其中包含的视觉语义信息、时间信息和/或地点信息;
将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,得到所述视觉媒体的查询相似度;所述视觉媒体为图像或视频;所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息;
基于所述查询相似度,生成相应的视觉媒体查询结果。
较佳地,所述将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配包括:
如果所述语义分析的结果包含视觉语义信息,则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度;
如果所述语义分析的结果包含时间信息,则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配,得到所述视觉媒体的时间语义相似度;
如果所述语义分析的结果包含地点信息,则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配,得到所述视觉媒体的地点语义相似度;
基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度,按照加权计算方法,得到所述视觉媒体的查询相似度。
较佳地,当所述视觉媒体的视觉语义个性信息包含高维语义向量时,所述将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配包括:
基于所述语义分析得到的视觉语义信息,生成相应的高维语义向量;将转换得到的高维语义向量,与所述视觉媒体的视觉语义个性信息中的高维语义向量,进行相似度匹配,得到所述视觉媒体的第一视觉语义相似度;
如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息,并且所述视觉媒体的视觉语义个性信息包含个性标签信息,则将所述个性描述信息与所述个性标签信息,进行相似度匹配,得到所述视觉媒体的第二视觉语义相似度;
如果所述视觉媒体存在所述第二视觉语义相似度,则基于所述第一视觉语义相似度和第二视觉语义相似度,按照加权计算方法,得到所述视觉媒体的视觉语义相似度;否则,将所述第一视觉语义相似度,作为所述视觉媒体的视觉语义相似度。
较佳地,当所述视觉媒体的视觉语义个性信息仅包含文本信息时,所述将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配包括:
将所述语义分析得到的视觉语义信息,与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度。
较佳地,所述方法进一步包括:
智能终端设备在拍摄完所述视觉媒体后,基于当前登录用户的预设个性数据库,为所述视觉媒体生成所述属性数据,包括:
如果所述视觉媒体为照片,则基于该照片生成对应的视觉语义;
如果所述视觉媒体为视频,则基于该视频的关键帧生成对应的视觉语义;
基于所述视觉语义,查询当前登录用户的第一个性数据库,以识别所述视觉媒体中的拍摄对象与所述登录用户的关系,如果识别成功,则将识别出的所述关系作为个性标签,与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息;否则,将所述视觉语义保存为所述视觉媒体的视觉语义个性信息;所述第一个性数据库包括通讯数据库和/或图库;
基于所述视觉媒体的拍摄地点,查询当前登录用户的第二个性数据库,以识别所述拍摄地点与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄地点共同保存为所述视觉媒体的地点个性信息;否则,将所述拍摄地点保存为所述视觉媒体的地点个性信息;所述第二个性数据库包括地点个性数据库;
基于所述视觉媒体的拍摄时间,查询当前登录用户的第三个性数据库,以识别所述时间信息与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄时间共同保存为所述视觉媒体的时间个性信息;否则,将所述拍摄时间保存为所述视觉媒体的时间个性信息;所述第三个性数据库包括时间个性数据库。
本发明实施例还提出了一种视觉媒体个性化搜索装置,包括:
语义分析模块,用于对用户的视觉媒体查询文本进行语义分析,得到其中包含的视觉语义信息、时间信息和/或地点信息;
匹配模块,用于将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,得到所述视觉媒体的查询相似度;所述视觉媒体为图像或视频;所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息;
结果生成模块,用于基于所述查询相似度,生成相应的视觉媒体查询结果。
较佳地,所述匹配模块,具体用于将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,包括:
如果所述语义分析的结果包含视觉语义信息,则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度;
如果所述语义分析的结果包含时间信息,则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配,得到所述视觉媒体的时间语义相似度;
如果所述语义分析的结果包含地点信息,则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配,得到所述视觉媒体的地点语义相似度;
基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度,按照加权计算方法,得到所述视觉媒体的查询相似度。
较佳地,所述匹配模块,具体用于当所述视觉媒体的视觉语义个性信息包含高维语义向量时,将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,包括:
基于所述语义分析得到的视觉语义信息,生成相应的高维语义向量;将转换得到的高维语义向量,与所述视觉媒体的视觉语义个性信息中的高维语义向量,进行相似度匹配,得到所述视觉媒体的第一视觉语义相似度;
如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息,并且所述视觉媒体的视觉语义个性信息包含个性标签信息,则将所述个性描述信息与所述个性标签信息,进行相似度匹配,得到所述视觉媒体的第二视觉语义相似度;
如果所述视觉媒体存在所述第二视觉语义相似度,则基于所述第一视觉语义相似度和第二视觉语义相似度,按照加权计算方法,得到所述视觉媒体的视觉语义相似度;否则,将所述第一视觉语义相似度,作为所述视觉媒体的视觉语义相似度。
较佳地,所述匹配模块,具体用于当所述视觉媒体的视觉语义个性信息仅包含文本信息时,将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,包括:
将所述语义分析得到的视觉语义信息,与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度。
较佳地,所述装置进一步包括:
视觉媒体属性生成模块,用于在智能终端设备拍摄完所述视觉媒体后,基于当前登录用户的预设个性数据库,为所述视觉媒体生成所述属性数据,包括:
如果所述视觉媒体为照片,则基于该照片生成对应的视觉语义;
如果所述视觉媒体为视频,则基于该视频的关键帧生成对应的视觉语义;
基于所述视觉语义,查询当前登录用户的第一个性数据库,以识别所述视觉媒体中的拍摄对象与所述登录用户的关系,如果识别成功,则将识别出的所述关系作为个性标签,与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息;否则,将所述视觉语义保存为所述视觉媒体的视觉语义个性信息;所述第一个性数据库包括通讯数据库和/或图库;
基于所述视觉媒体的拍摄地点,查询当前登录用户的第二个性数据库,以识别所述拍摄地点与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄地点共同保存为所述视觉媒体的地点个性信息;否则,将所述拍摄地点保存为所述视觉媒体的地点个性信息;所述第二个性数据库包括地点个性数据库;
基于所述视觉媒体的拍摄时间,查询当前登录用户的第三个性数据库,以识别所述时间信息与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄时间共同保存为所述视觉媒体的时间个性信息;否则,将所述拍摄时间保存为所述视觉媒体的时间个性信息;所述第三个性数据库包括时间个性数据库。
本发明实施例还提供了一种视觉媒体个性化搜索的电子设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的视觉媒体个性化搜索方法。
本发明实施例还提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的视觉媒体个性化搜索方法。
综上所述,本发明提出的视觉媒体个性化搜索方法和装置,在进行视觉媒体个性化搜索时,先对用户的视觉媒体查询文本进行语义分析,得到其中包含的多种用于个性化搜索的信息,包括视觉语义信息、时间信息和/或地点信息,然后基于这些信息,对指定搜索范围内的每个视觉媒体的相应属性数据进行语义相似度匹配,得到各视觉媒体的查询相似度,最后利用这些视觉媒体的查询相似度,生成相应的视觉媒体查询结果。如此,在进行视觉媒体搜索时不再仅是基于图像的语义信息进行搜索,同时还充分利用了用户的个性信息进行搜索匹配,从而可以满足用户的个性化搜索视觉媒体需求。
附图说明
图1为本发明实施例的方法流程示意图;
图2为基于本发明实施例实现的一种为用户拍摄的照片生成属性数据的过程示意图;
图3为基于本发明实施例实现的一种图片搜索过程示意图;
图4为基于本发明实施例实现的另一种为用户拍摄的照片生成属性数据的过程示意图;
图5为基于本发明实施例实现的另一种图片搜索过程示意图;
图6为本发明实施例的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1为本发明实施例的视觉媒体个性化搜索方法流程示意图,如图1所示,该实施例主要包括:
步骤101、对用户的视觉媒体查询文本进行语义分析,得到其中包含的视觉语义信息、时间信息和/或地点信息。
本步骤,与现有搜索方案所不同的是,在对用户的视觉媒体查询文本进行语义分析时,不再仅局限于获取搜索目标图像的语义信息,还需要获取用户的个性信息,例如,目标图像中的人物和用户的关系(如妻子、女儿等关系)、目标图像的拍摄时间对于用户而言所具有的特殊性(如结婚纪念日、宝宝出生日)、目标图像的拍摄时间对于用户而言所具有的特殊性(如家、公司、旅游地等)。这样,视觉媒体查询文本可以携带更多个性化的信息,如可以为“查询宝宝周岁时的照片”,从而可以充分利用用户的个性信息进行搜索匹配,因此,可以满足用户的个性化搜索视觉媒体需求,并提高了视觉媒体搜索的灵活性和智能化。
步骤102、将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,得到所述视觉媒体的查询相似度;所述视觉媒体为图像或视频;所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息。
本步骤,用于基于步骤101中对视觉媒体查询文本进行语义分析的结果,进行语义相似度匹配,以得到指定搜索范围内各视觉媒体与当前视觉媒体查询文本的匹配度(即上述查询相似度)。
这里,指定搜索范围内各视觉媒体的属性数据需要包括视觉语义个性信息、时间个性信息和/或地点个性信息,以便与视觉媒体查询文本进行个性化匹配。
对于所述搜索范围,本领域技术人员可根据实际需要选择。例如该搜索范围可以是用户设备的本地相册或者是用户在本地相册中选择的部分视觉媒体,也可以是用户上传至云端的视觉媒体相册等,不限于上述。为了较好的保护用户隐私,较佳地,所述搜索范围位于用户设备本地。
在一种实施方式中,对于指定搜索范围内各视觉媒体的属性数据,可以在用户设备拍摄完照片时,基于用户设备本地的个性化信息生成,具体如下:
智能终端设备在拍摄完所述视觉媒体后,基于当前登录用户的预设个性数据库,为所述视觉媒体生成所述属性数据,包括:
步骤y1、如果所述视觉媒体为照片,则基于该照片生成对应的视觉语义;如果所述视觉媒体为视频,则基于该视频的关键帧生成对应的视觉语义。
步骤y2、基于所述视觉语义,查询当前登录用户的第一个性数据库,以识别所述视觉媒体中的拍摄对象与所述登录用户的关系,如果识别成功,则将识别出的所述关系作为个性标签,与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息;否则,将所述视觉语义保存为所述视觉媒体的视觉语义个性信息;所述第一个性数据库包括通讯数据库和/或图库。
具体地,上述通讯数据库可以由智能终端设备上的通讯录应用程序生成。上述图库可以由智能终端设备上的图库应用程序生成,该图库应用程序支持用户对图像中的人物添加个性标签,如好友、家人、同事等个性信息。但不限于上述应用程序,只要能提供拍摄对象与用户之间关系信息的应用程序均可。
步骤y2中,当基于所述视觉语义,查询当前登录用户的第一个性数据库,识别出所述视觉媒体中的拍摄对象与所述登录用户的关系时,需要将识别出的所述关系作为个性标签,与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息,以使得视觉媒体的视觉语义个性信息包含有个性信息。在具体实现时:将识别出的所述关系作为个性标签,与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息时,可以采用纯文本的形式保存,也可以利用不同的域分别保存。
当采用纯文本的形式时,可以采用在一般的非个性化的视觉语义中进行增加个性标签或将相应图像主体替换为个性标签的方式,生成具有个性标签的视觉语义,并且也可以将视觉语义转换为相同含义但描述方式不同的文本信息,将这些视觉语义信息合并保存为视觉媒体的视觉语义个性信息。例如,对于非个性化的视觉语义“两个人一起烛光晚餐”,通过个性识别,获知其中的“两个人”为当前用户“我”和“妻子”,此时,可以基于“两个人一起烛光晚餐”,得到多种视觉语义:1、我和妻子一起烛光晚餐;2、两个人一起烛光晚餐;两个人一起吃饭。将这些视觉语义保存为相应视觉媒体的视觉语义个性信息。
当利用不同的域分别保存不同的视觉语义个性信息时,可以以高维语义向量的形式保存非个性化的视觉语义,以文本标签的形式保存个性标签,两者保存在不同域中。
步骤y3、基于所述视觉媒体的拍摄地点,查询当前登录用户的第二个性数据库,以识别所述拍摄地点与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄地点共同保存为所述视觉媒体的地点个性信息;否则,将所述拍摄地点保存为所述视觉媒体的地点个性信息;所述第二个性数据库包括地点个性数据库。
所述地点个性数据库可以由智能终端设备上的导航应用程序生成,该导航应用程序允许用户为不同地点设置个性标签。但不限于导航应用程序,只要能提供地点个性信息的应用程序均可。
步骤y4、基于所述视觉媒体的拍摄时间,查询当前登录用户的第三个性数据库,以识别所述时间信息与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄时间共同保存为所述视觉媒体的时间个性信息;否则,将所述拍摄时间保存为所述视觉媒体的时间个性信息;所述第三个性数据库包括时间个性数据库。
具体地,所述时间个性数据库可以由智能终端设备上的日历应用程序生成,该日历应用程序允许用户为不同时间、日期设置个性标签,如生日、结婚纪念日等。但不限于此,只要能提供时间个性信息的应用程序均可。
上述步骤y2~y4没有时间顺序。
利用上述步骤y1~y4,可以在用户拍摄照片或录制视频时,基于用户设备上存储的个性数据库(即上述第一个性数据库、第二个性数据库和第三个性数据库)为用户拍摄的照片或视频生成属性数据,使得该属性数据中不仅包含图像本身的语义信息,还包含用户的个性信息,以支持个性搜索。
具体地,步骤102中在将所述语义分析的结果与视觉媒体的属性数据进行语义相似度匹配时,先将所述语义分析得到的不同类型的信息,分别与视觉媒体的相应属性数据进行语义相似度匹配,然后再将视觉媒体的所有语义相似度值,按照加权方法计算得到一个总的语义相似度作为视觉媒体的查询相似度。相应的,在一种实施方式中,可以采用下述方法将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配:
如果所述语义分析的结果包含视觉语义信息,则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度。
如果所述语义分析的结果包含时间信息,则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配,得到所述视觉媒体的时间语义相似度。
如果所述语义分析的结果包含地点信息,则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配,得到所述视觉媒体的地点语义相似度;
基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度,按照加权计算方法,得到所述视觉媒体的查询相似度。
在实际应用中,在将上述将语义分析结果中的视觉语义信息与视觉媒体的视觉语义个性信息进行相似度匹配时,可以考虑视觉媒体的视觉语义个性信息中是否包含高维语义向量,如果是,则需要在进行相似度匹配前,先基于语义分析得到的视觉语义信息生成相应的高维语义向量,以便与视觉媒体的高维语义向量进行匹配。相应的,在一种实施方式中,当所述视觉媒体的视觉语义个性信息包含高维语义向量时,可以采用下述方法将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配:
步骤x1、基于所述语义分析得到的视觉语义信息,生成相应的高维语义向量;将转换得到的高维语义向量,与所述视觉媒体的视觉语义个性信息中的高维语义向量,进行相似度匹配,得到所述视觉媒体的第一视觉语义相似度;
如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息,并且所述视觉媒体的视觉语义个性信息包含个性标签信息,则将所述个性描述信息与所述个性标签信息,进行相似度匹配,得到所述视觉媒体的第二视觉语义相似度。
步骤x2、如果所述视觉媒体存在所述第二视觉语义相似度,则基于所述第一视觉语义相似度和第二视觉语义相似度,按照加权计算方法,得到所述视觉媒体的视觉语义相似度;否则,将所述第一视觉语义相似度,作为所述视觉媒体的视觉语义相似度。
在一种实施方式中,当视觉媒体的视觉语义个性信息仅包含文本信息(即视觉媒体的视觉语义个性信息为纯文本信息,如个性标签)时,可以直接将语义分析得到的视觉语义信息,与视觉媒体的视觉语义个性信息进行相似度匹配,得到该视觉媒体的视觉语义相似度。
步骤103、基于所述查询相似度,生成相应的视觉媒体查询结果。
本步骤用于基于步骤102得到的各视觉媒体的查询相似度,进一步生成相应的查询结果。具体地可以是按照预设的查询策略生成相应的结果,例如,可以按照查询相似度进行排序,选择其他相似度达到一定阈值的视觉媒体作为查询结果进行显示,也可以按照查询相似度的降序显示所有视觉媒体等,不限于上述实施方式。
基于上述实施例可以看出,上述视觉媒体个性化搜索方法在进行视觉媒体个性化搜索时,不再仅是基于图像的语义信息进行搜索,同时还充分利用了用户的个性信息进行搜索匹配,可以满足用户的个性化搜索视觉媒体需求。下面结合几种具体应用场景对上述方法的具体实现进行详细说明。
场景1:图2为采用本发明实施例实现的一种为用户拍摄的照片生成属性数据的过程示意图,如图2所示,该过程包括:
1.用户使用照相机应用,拍照生成新图片。
2.后台生成图片对应的非个性化的视觉语义(采用图像标注技术),时间信息(拍照时间)以及地点信息(GPS)。
3.分析个性化的语义并生成标签保存,包括个性化的视觉语义,时间语义和地点语义。1)视觉语义:通过人脸识别得到实体(如图2中的妻子和我),并通过自然语言处理(NLP)中的命名实体识别技术来在非个性化的视觉语义加入个性化信息。例如,“两个人一起烛光晚餐”转换成“我和妻子一起烛光晚餐”。2)时间语义:通过分析日历等其它应用的数据库得到3)地点语义:通过分用户常用地点等数据库来判断。
4.非个性化的原始语义和个性化的标签会被保存起来,供查询使用。
场景2:图3为采用本发明实施例实现的一种图片搜索过程示意图,如图3所示,该过程包括:
1.输入查询文本或者语音识别出来的查询文本。
2.对输入的查询文本进行意图识别,抽取相关的线索,包括视觉语义线索、时间线索、地点线索。
3.搜索语义最相似的图片。利用图像线索搜索视觉语义域,利用时间线索搜索时间和时间标签域,利用地点线索搜索地点和地点标签域。
4.基于上一步得到的图像视觉语义相似度、时间语义相似度和地点语义相似度,加权之后得到最后的相似度结果并排序输出。
场景3:图4为基于本发明实施例实现的另一种为用户拍摄的照片生成属性数据的过程示意图,该过程与图2所示的方法相似,所不同的是:将图像的视觉语义分开存储。即利用高维语义向量表示一般的非个性视觉语义和使用文本标签表示个性化标签。其中,一般的非个性化的图像视觉语义是通过OpenAI CLIP Model等技术,生成高维语义向量并保存;通过人脸识别后得到的个性化图像视觉语义后保存在另一个域,这样,对于不同用户的个性化视觉语义,可以保存在不同标签中,从而可以满足不同用户的个性化搜索需求。
场景4:图5为基于本发明实施例实现的另一种图片搜索过程示意图,该过程是在采用场景3中的方法生成照片属性数据的基础上,进行图片搜索的方法示意图,如图5所示,该过程包括:
1.输入查询文本或者语音识别出来的查询文本。
2.对输入的查询文本进行意图识别,抽取相关的线索,包括视觉语义线索、时间线索、地点线索。
3、利用视觉语义线索搜索视觉语义域,利用时间线索搜索时间和时间标签域,利用地点线索搜索地点和地点标签域。
其中,时间和地点的搜索方法与上述场景2中的过程一致。与上述场景2所不同的是,图像线索搜索方法,具体为:
先对图像线索做命名实体识别,然后抽取识别出来的人物实体作为个性化视觉线索,将视觉语义线索分成一般视觉线索和个性化视觉线索两部分;分别计算各部分的相似度。1)一般视觉线索通过OpenAI CLIP Model等技术生成高维语义向量,然后,计算向量之间的相似度。2)个性化视觉线索在属性数据的视觉语义个性标签域中搜索并计算相似度。最后,对两部分的相似度加权计算,得到最后的视觉语义相似度。
4.基于上一步得到的图像视觉语义相似度、时间语义相似度和地点语义相似度,加权之后得到最后的相似度结果并排序输出。
上述场景1~4以照片为例为本申请实施例的具体实现进行了示例性说明。在实际应用中,基于视频的实现与上述场景类似,所不同的是视频场景中是基于关键帧的图像生成属性数据,并基于关键帧的属性数据进行相似度匹配,在此不再示例性说明。
与上述方法实施例相对应,本发明实施例还提出了一种视觉媒体个性化搜索装置,如图6所示包括:
语义分析模块601,用于对用户的视觉媒体查询文本进行语义分析,得到其中包含的视觉语义信息、时间信息和/或地点信息;
匹配模块602,用于将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,得到所述视觉媒体的查询相似度;所述视觉媒体为图像或视频;所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息;
结果生成模块603,用于基于所述查询相似度,生成相应的视觉媒体查询结果。
在一种实施方式中,所述匹配模块602,具体用于将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,包括:
如果所述语义分析的结果包含视觉语义信息,则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度;
如果所述语义分析的结果包含时间信息,则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配,得到所述视觉媒体的时间语义相似度;
如果所述语义分析的结果包含地点信息,则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配,得到所述视觉媒体的地点语义相似度;
基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度,按照加权计算方法,得到所述视觉媒体的查询相似度。
在一种实施方式中,所述匹配模块602,具体用于当所述视觉媒体的视觉语义个性信息包含高维语义向量时,将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,包括:
基于所述语义分析得到的视觉语义信息,生成相应的高维语义向量;将转换得到的高维语义向量,与所述视觉媒体的视觉语义个性信息中的高维语义向量,进行相似度匹配,得到所述视觉媒体的第一视觉语义相似度;
如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息,并且所述视觉媒体的视觉语义个性信息包含个性标签信息,则将所述个性描述信息与所述个性标签信息,进行相似度匹配,得到所述视觉媒体的第二视觉语义相似度;
如果所述视觉媒体存在所述第二视觉语义相似度,则基于所述第一视觉语义相似度和第二视觉语义相似度,按照加权计算方法,得到所述视觉媒体的视觉语义相似度;否则,将所述第一视觉语义相似度,作为所述视觉媒体的视觉语义相似度。
在一种实施方式中,所述匹配模块602,具体用于当所述视觉媒体的视觉语义个性信息仅包含文本信息时,将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,包括:
将所述语义分析得到的视觉语义信息,与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度。
在一种实施方式中,所述装置进一步包括:
视觉媒体属性生成模块(图中未示),用于在智能终端设备拍摄完所述视觉媒体后,基于当前登录用户的预设个性数据库,为所述视觉媒体生成所述属性数据,包括:
如果所述视觉媒体为照片,则基于该照片生成对应的视觉语义;
如果所述视觉媒体为视频,则基于该视频的关键帧生成对应的视觉语义;
基于所述视觉语义,查询当前登录用户的第一个性数据库,以识别所述视觉媒体中的拍摄对象与所述登录用户的关系,如果识别成功,则将识别出的所述关系作为个性标签,与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息;否则,将所述视觉语义保存为所述视觉媒体的视觉语义个性信息;所述第一个性数据库包括通讯数据库和/或图库;
基于所述视觉媒体的拍摄地点,查询当前登录用户的第二个性数据库,以识别所述拍摄地点与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄地点共同保存为所述视觉媒体的地点个性信息;否则,将所述拍摄地点保存为所述视觉媒体的地点个性信息;所述第二个性数据库包括地点个性数据库;
基于所述视觉媒体的拍摄时间,查询当前登录用户的第三个性数据库,以识别所述时间信息与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄时间共同保存为所述视觉媒体的时间个性信息;否则,将所述拍摄时间保存为所述视觉媒体的时间个性信息;所述第三个性数据库包括时间个性数据库。
根据上述视觉媒体个性化搜索方法实施例,本申请实施例实现了一种视觉媒体个性化搜索的设备,包括处理器和存储器;所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的视觉媒体个性化搜索方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述视觉媒体个性化搜索实施方式中任一实施方式的功能。
其中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。
本申请实施例实现了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上所述的视觉媒体个性化搜索的步骤。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种视觉媒体个性化搜索方法,其特征在于,包括:
对用户的视觉媒体查询文本进行语义分析,得到其中包含的视觉语义信息、时间信息和/或地点信息;
将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,得到所述视觉媒体的查询相似度;所述视觉媒体为图像或视频;所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息;
基于所述查询相似度,生成相应的视觉媒体查询结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配包括:
如果所述语义分析的结果包含视觉语义信息,则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度;
如果所述语义分析的结果包含时间信息,则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配,得到所述视觉媒体的时间语义相似度;
如果所述语义分析的结果包含地点信息,则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配,得到所述视觉媒体的地点语义相似度;
基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度,按照加权计算方法,得到所述视觉媒体的查询相似度。
3.根据权利要求2所述的方法,其特征在于,当所述视觉媒体的视觉语义个性信息包含高维语义向量时,所述将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配包括:
基于所述语义分析得到的视觉语义信息,生成相应的高维语义向量;将转换得到的高维语义向量,与所述视觉媒体的视觉语义个性信息中的高维语义向量,进行相似度匹配,得到所述视觉媒体的第一视觉语义相似度;
如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息,并且所述视觉媒体的视觉语义个性信息包含个性标签信息,则将所述个性描述信息与所述个性标签信息,进行相似度匹配,得到所述视觉媒体的第二视觉语义相似度;
如果所述视觉媒体存在所述第二视觉语义相似度,则基于所述第一视觉语义相似度和第二视觉语义相似度,按照加权计算方法,得到所述视觉媒体的视觉语义相似度;否则,将所述第一视觉语义相似度,作为所述视觉媒体的视觉语义相似度。
4.根据权利要求2所述的方法,其特征在于,当所述视觉媒体的视觉语义个性信息仅包含文本信息时,所述将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配包括:
将所述语义分析得到的视觉语义信息,与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
智能终端设备在拍摄完所述视觉媒体后,基于当前登录用户的预设个性数据库,为所述视觉媒体生成所述属性数据,包括:
如果所述视觉媒体为照片,则基于该照片生成对应的视觉语义;
如果所述视觉媒体为视频,则基于该视频的关键帧生成对应的视觉语义;
基于所述视觉语义,查询当前登录用户的第一个性数据库,以识别所述视觉媒体中的拍摄对象与所述登录用户的关系,如果识别成功,则将识别出的所述关系作为个性标签,与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息;否则,将所述视觉语义保存为所述视觉媒体的视觉语义个性信息;所述第一个性数据库包括通讯数据库和/或图库;
基于所述视觉媒体的拍摄地点,查询当前登录用户的第二个性数据库,以识别所述拍摄地点与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄地点共同保存为所述视觉媒体的地点个性信息;否则,将所述拍摄地点保存为所述视觉媒体的地点个性信息;所述第二个性数据库包括地点个性数据库;
基于所述视觉媒体的拍摄时间,查询当前登录用户的第三个性数据库,以识别所述时间信息与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄时间共同保存为所述视觉媒体的时间个性信息;否则,将所述拍摄时间保存为所述视觉媒体的时间个性信息;所述第三个性数据库包括时间个性数据库。
6.一种视觉媒体个性化搜索装置,其特征在于,包括:
语义分析模块,用于对用户的视觉媒体查询文本进行语义分析,得到其中包含的视觉语义信息、时间信息和/或地点信息;
匹配模块,用于将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,得到所述视觉媒体的查询相似度;所述视觉媒体为图像或视频;所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息;
结果生成模块,用于基于所述查询相似度,生成相应的视觉媒体查询结果。
7.根据权利要求6所述的装置,其特征在于,所述匹配模块,具体用于将所述语义分析的结果,与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配,包括:
如果所述语义分析的结果包含视觉语义信息,则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配,得到所述视觉媒体的视觉语义相似度;
如果所述语义分析的结果包含时间信息,则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配,得到所述视觉媒体的时间语义相似度;
如果所述语义分析的结果包含地点信息,则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配,得到所述视觉媒体的地点语义相似度;
基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度,按照加权计算方法,得到所述视觉媒体的查询相似度。
8.根据权利要求6所述的装置,其特征在于,所述装置进一步包括:
视觉媒体属性生成模块,用于在智能终端设备拍摄完所述视觉媒体后,基于当前登录用户的预设个性数据库,为所述视觉媒体生成所述属性数据,包括:
如果所述视觉媒体为照片,则基于该照片生成对应的视觉语义;
如果所述视觉媒体为视频,则基于该视频的关键帧生成对应的视觉语义;
基于所述视觉语义,查询当前登录用户的第一个性数据库,以识别所述视觉媒体中的拍摄对象与所述登录用户的关系,如果识别成功,则将识别出的所述关系作为个性标签,与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息;否则,将所述视觉语义保存为所述视觉媒体的视觉语义个性信息;所述第一个性数据库包括通讯数据库和/或图库;
基于所述视觉媒体的拍摄地点,查询当前登录用户的第二个性数据库,以识别所述拍摄地点与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄地点共同保存为所述视觉媒体的地点个性信息;否则,将所述拍摄地点保存为所述视觉媒体的地点个性信息;所述第二个性数据库包括地点个性数据库;
基于所述视觉媒体的拍摄时间,查询当前登录用户的第三个性数据库,以识别所述时间信息与当前登录用户的关联信息,如果识别成功,则将所得到的关联信息作为个性标签,与所述拍摄时间共同保存为所述视觉媒体的时间个性信息;否则,将所述拍摄时间保存为所述视觉媒体的时间个性信息;所述第三个性数据库包括时间个性数据库。
9.一种视觉媒体个性化搜索的电子设备,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至5中任一项所述的视觉媒体个性化搜索方法。
10.一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如权利要求1至5中任一项所述的视觉媒体个性化搜索方法。
CN202110928309.7A 2021-08-13 2021-08-13 视觉媒体个性化搜索方法和装置 Pending CN113641857A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110928309.7A CN113641857A (zh) 2021-08-13 2021-08-13 视觉媒体个性化搜索方法和装置
PCT/KR2022/011785 WO2023018150A1 (en) 2021-08-13 2022-08-08 Method and device for personalized search of visual media
US17/887,235 US20230050371A1 (en) 2021-08-13 2022-08-12 Method and device for personalized search of visual media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110928309.7A CN113641857A (zh) 2021-08-13 2021-08-13 视觉媒体个性化搜索方法和装置

Publications (1)

Publication Number Publication Date
CN113641857A true CN113641857A (zh) 2021-11-12

Family

ID=78421382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110928309.7A Pending CN113641857A (zh) 2021-08-13 2021-08-13 视觉媒体个性化搜索方法和装置

Country Status (2)

Country Link
CN (1) CN113641857A (zh)
WO (1) WO2023018150A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431855B (zh) * 2023-06-13 2023-10-20 荣耀终端有限公司 图像检索方法和相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100205202A1 (en) * 2009-02-11 2010-08-12 Microsoft Corporation Visual and Textual Query Suggestion
CN107832286A (zh) * 2017-09-11 2018-03-23 远光软件股份有限公司 智能交互方法、设备及存储介质
CN110019852A (zh) * 2017-12-27 2019-07-16 上海全土豆文化传播有限公司 多媒体资源搜索方法和装置
KR20200009888A (ko) * 2018-07-20 2020-01-30 신수연 다중 메타데이터 분석기반의 관계형 개인화 태그생성 및 추천 방법
CN111400607A (zh) * 2020-06-04 2020-07-10 浙江口碑网络技术有限公司 搜索内容输出方法、装置、计算机设备及可读存储介质
CN111966781A (zh) * 2020-06-28 2020-11-20 北京百度网讯科技有限公司 数据查询的交互方法及装置、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738069B1 (ko) * 2004-10-04 2007-07-10 삼성전자주식회사 디지털 사진 앨범의 카테고리 기반 클러스터링 방법 및시스템
AU2011358100B2 (en) * 2011-02-03 2016-07-07 Facebook, Inc. Systems and methods for image-to-text and text-to-image association
CN107145519B (zh) * 2017-04-10 2020-07-03 浙江大学 一种基于超图的图像检索与标注方法
KR102230120B1 (ko) * 2018-12-28 2021-03-22 고려대학교 산학협력단 사용자 단말에서의 사진 검색 방법 및 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100205202A1 (en) * 2009-02-11 2010-08-12 Microsoft Corporation Visual and Textual Query Suggestion
CN107832286A (zh) * 2017-09-11 2018-03-23 远光软件股份有限公司 智能交互方法、设备及存储介质
CN110019852A (zh) * 2017-12-27 2019-07-16 上海全土豆文化传播有限公司 多媒体资源搜索方法和装置
KR20200009888A (ko) * 2018-07-20 2020-01-30 신수연 다중 메타데이터 분석기반의 관계형 개인화 태그생성 및 추천 방법
CN111400607A (zh) * 2020-06-04 2020-07-10 浙江口碑网络技术有限公司 搜索内容输出方法、装置、计算机设备及可读存储介质
CN111966781A (zh) * 2020-06-28 2020-11-20 北京百度网讯科技有限公司 数据查询的交互方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2023018150A1 (en) 2023-02-16

Similar Documents

Publication Publication Date Title
US9430719B2 (en) System and method for providing objectified image renderings using recognition information from images
US8649572B2 (en) System and method for enabling the use of captured images through recognition
US7809192B2 (en) System and method for recognizing objects from images and identifying relevancy amongst images and information
US7809722B2 (en) System and method for enabling search and retrieval from image files based on recognized information
Jain et al. Content without context is meaningless
CN111465918B (zh) 在预览界面中显示业务信息的方法及电子设备
CN113378061B (zh) 一种信息搜索方法、装置、计算机设备及存储介质
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
Tuytelaars et al. Naming people in news videos with label propagation
CN106611015B (zh) 标签的处理方法及装置
Li et al. Interactive multimodal visual search on mobile device
WO2019137391A1 (zh) 对视频进行分类匹配的方法、装置和挑选引擎
CN111639228B (zh) 视频检索方法、装置、设备及存储介质
US20240037142A1 (en) Systems and methods for filtering of computer vision generated tags using natural language processing
EP3308300A1 (en) Determining image captions
CN113272803A (zh) 从电子装置检索智能信息的方法和设备
CN109241299A (zh) 多媒体资源搜索方法、装置、存储介质及设备
CN112069326A (zh) 知识图谱的构建方法、装置、电子设备及存储介质
CN112926300A (zh) 图像搜索方法、图像搜索装置及终端设备
CN110209759B (zh) 自动识别书页的方法及装置
US20230050371A1 (en) Method and device for personalized search of visual media
CN108009251A (zh) 一种图像文件搜索方法及装置
CN104866627A (zh) 一种照片信息的搜索系统和搜索方法
CN113641857A (zh) 视觉媒体个性化搜索方法和装置
CN110169055A (zh) 一种生成镜头信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination