CN112883218A - 一种图文联合表征的搜索方法、系统、服务器和存储介质 - Google Patents

一种图文联合表征的搜索方法、系统、服务器和存储介质 Download PDF

Info

Publication number
CN112883218A
CN112883218A CN201911198749.0A CN201911198749A CN112883218A CN 112883218 A CN112883218 A CN 112883218A CN 201911198749 A CN201911198749 A CN 201911198749A CN 112883218 A CN112883218 A CN 112883218A
Authority
CN
China
Prior art keywords
text
image
embedding
information
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911198749.0A
Other languages
English (en)
Inventor
杜嘉
黑马
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Bud Information Technology Suzhou Co ltd
Original Assignee
Smart Bud Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Bud Information Technology Suzhou Co ltd filed Critical Smart Bud Information Technology Suzhou Co ltd
Priority to CN201911198749.0A priority Critical patent/CN112883218A/zh
Priority to PCT/CN2020/131223 priority patent/WO2021104274A1/zh
Publication of CN112883218A publication Critical patent/CN112883218A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明实施例公开了一种图文联合表征的搜索方法、系统、设备和存储介质。该图文联合表征的搜索方法包括:接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;根据所述第三距离显示搜索结果,本发明实施例实现了提高搜索的准确性和多样性。

Description

一种图文联合表征的搜索方法、系统、服务器和存储介质
技术领域
本发明实施例涉及搜索技术,尤其涉及一种图文联合表征的搜索方法、系统、服务器和存储介质。
背景技术
随着互联网技术的高速发展和多媒体设备的日益更新和应用,搜索越来越成为人们生活中必不可少的一种获取信息的途径。
但如果想要对一个事物有一个完整的认知,需要了解到这一事物的文字信息和图像信息,但面向大众的搜索方式中,只能通过文字搜索到文字或者通过图像搜索到图像,图像信息和文本信息是分开的,用户无法通过自己仅了解到的文字信息或者图像信息进一步搜索到对应的图像信息或者文字信息,无法产生对一个事物的完整认知。
此外,当使用图像信息搜索时,不同概念下的某些事物可能看起来彼此相似,如冰箱和盒子,而同一概念下的其他事物可能会出现很大差异,如风扇和无叶片风扇,用户通常会获得大量视觉上相似但概念上无关的结果,事物的概念之间的内在相似性的问题仍未得到解决。
发明内容
本发明实施例提供了一种图文联合表征的搜索方法、系统、服务器和存储介质,以实现提高搜索的准确性和多样性。
为达此目的,本发明实施例提供了一种图文联合表征的搜索方法、系统、服务器和存储介质,该图文联合表征的搜索方法包括:
接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
根据所述第一距离、第二距离或第三距离显示搜索结果。
进一步的,所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括:
获取预先存储的多个目标文档的第二图像信息和/或第二文本信息;
利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;
利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;
根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
进一步的,所述根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,以及根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征包括:
利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征,利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
进一步的,所述搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。
进一步的,所述搜索结果为一个或多个专利文档的全部信息、局部信息或局部组合信息,所述局部信息可以是关键词、图档、语句、段落和分类号中的一种,所述局部组合信息至少包括图档和关键词。
进一步的,当所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息时,所述多个专利文档的全部信息、局部信息或局部组合信息的显示按所述第一距离、第二距离或第三距离的大小进行排序。
进一步的,所述根据所述第一距离、第二距离或第三距离显示搜索结果之后包括:
根据所述第一距离、第二距离或第三距离生成所述第一描述信息的分类信息,所述分类信息可以为专利分类号。
进一步的,所述搜索结果为一个或多个专利文档和搜索对象之间的相关度的展示图,所述相关度的展示通过所述第二概念特征的坐标位置进行确定。
进一步的,所述搜索结果为多个专利文档的代表图矩阵,所述代表图矩阵中的每个代表图按所述第一距离、第二距离或第三距离的大小进行位置排列。
进一步的,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。
进一步的,所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征,包括:
利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;
利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;
利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;
利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
另一方面,本发明实施例还提供了一种图文联合表征的搜索系统,该图文联合表征的搜索系统包括:
信息接收模块,用于接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
特征提取模块,用于所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
距离计算模块,用于所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
结果显示模块,用于根据所述第一距离、第二距离或第三距离显示搜索结果。
一方面,本发明实施例还提供了一种图文联合表征库的生成方法和系统,该图文联合表征库的生成方法包括:
获取多个目标文档的第一图像信息和第一文本信息;
利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;
根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
进一步的,所述根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征包括:
利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
进一步的,所述目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。
进一步的,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。
进一步的,所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征,包括:
利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;
利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;
利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;
利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
另一方面,本发明实施例还提供了一种图文联合表征库的生成系统,该图文联合表征库的生成系统包括:
信息获取模块,用于获取多个目标文档的第一图像信息和第一文本信息;
特征提取模块,用于利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
特征生成模块,用于根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;
表征库建立模块,用于根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
一方面,本发明实施例还提供了一种图文联合表征的分类推荐方法,该图文联合表征的分类推荐方法包括:
接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
进一步的,所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括:
获取预先存储的第二图像信息和第二文本信息;
利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;
利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;
根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
进一步的,所述根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,以及根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征包括:
利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征,利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
进一步的,所述一个或多个推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。
进一步的,所述推荐结果为一个或多个推荐对象的分类号。
进一步的,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。
进一步的,所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征,包括:
利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;
利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;
利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;
利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
另一方面,本发明实施例还提供了一种图文联合表征的分类推荐系统,该图文联合表征的分类推荐系统包括:
信息接收模块,用于接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
特征提取模块,用于所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
距离计算模块,用于所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
结果显示模块,用于根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
另一方面,本发明实施例还提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例提供的方法。
又一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例提供的方法。
本发明实施例通过利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;根据所述第三距离显示搜索结果,解决了用户无法通过自己仅了解到的文字信息或者图像信息进一步搜索到对应的图像信息或者文字信息,以及事物的概念之间存在的内在相似性的问题,实现了提高搜索的准确性和多样性的效果。
附图说明
图1是本发明实施例一提供的图文联合表征的搜索方法的方法流程图;
图2是本发明实施例一提供的图文联合表征的搜索界面的示意图;
图3是本发明实施例一提供的图文联合表征的公共空间的示意图;
图4是本发明实施例一提供的图文联合表征的代表图矩阵的示意图;
图5是本发明实施例一提供的图文联合表征的坐标图的示意图;
图6是本发明实施例一提供的图文联合表征的坐标图的示意图;
图7是本发明实施例二提供的图文联合表征的搜索方法的方法流程图;
图8是本发明实施例三提供的图文联合表征的搜索系统的结构示意图;
图9是本发明实施例四提供的图文联合表征库的生成方法的方法流程图;
图10是本发明实施例五提供的图文联合表征库的生成系统的结构示意图;
图11是本发明实施例六提供的图文联合表征的分类推荐方法的方法流程图;
图12是本发明实施例六提供的图文联合表征的分类推荐方法的方法流程图;
图13是本发明实施例一提供的图文联合表征的分类推荐系统的结构示意图;
图14为本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一概念嵌入特征称为第二概念嵌入特征,且类似地,可将第二概念嵌入特征称为第一概念嵌入特征。第一概念嵌入特征和第二概念嵌入特征两者都是概念嵌入特征,但其不是同一概念嵌入特征。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
如图1所示,本发明实施例一提供了一种图文联合表征的搜索方法,该搜索方法包括:
S110、接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息。
本实施例中,搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种,这些搜索对象中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息,示例性的,若搜索对象是专利文档,那么专利文档中应当包括有文字和附图,即第一图像信息和第一文本信息。
具体的,如图2所示,当用户需要进行搜索时,可以在第一边框201中输入搜索对象的第一描述信息的第一文本信息,点击第二边框202以上传搜索对象的第一描述信息的第一图像信息,上传后的第一图像信息将显示在第一显示区207,用户可以通过点击第三边框203开始图文联合表征的搜索,也可以通过点击第四边框204,只通过第一图像信息进行搜索。其中,用户输入的第一文本信息和上传的第一图像信息都可以为多个。此外,用户可以通过点击第五边框205清除输入的所有第一描述信息,通过点击第六边框206选择自己搜索的侧重点,例如选择概念、文字或图像等。
S120、所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
本实施例中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。其中,图像神经网络可以使用如在ImageNet或Google Open Image上预先训练的ResNet或MobileNet,文本神经网络可以使用word2vec、GloVe、或BERT等,经过图像神经网络和文本神经网络的嵌入,可以将图像和文本嵌入在两个不同的向量空间中,还需要通过多层感知器或图卷积网络,即图像映射神经网络和文本映射神经网络将不同向量空间中的图像嵌入和文本嵌入桥接到同一个公共空间中,以得到位于同一公共空间的第一图像嵌入特征和第一文本嵌入特征。
具体的,若用户输入的搜索对象的第一描述信息中只包括了第一图像信息,则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征,即公共空间中的一个坐标点;若用户输入的搜索对象的第一描述信息中只包括了第一文本信息,则利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征,即公共空间中的一个坐标点;若用户输入的搜索对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息,则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,得到第一图像嵌入特征和第一文本嵌入特征,即公共空间中的两个坐标点。经过上述操作之后,第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来,根据预先训练的神经网络模型,就可以找出第一图像信息和第一文本信息之间的关系。
如图3所示,在公共空间中,第一图像信息经过第一模型的训练就得到了第一图像嵌入特征,即第一坐标点301,第一文本信息经过第二模型的训练就得到了第一文本嵌入特征,即第二坐标点302,即在同一个公共空间中可以将第一图像信息和第一文本信息表示出来并得到它们之间的关系。此外,因为语义的不同,用户在输入多种国家的语言时,得到的第一文本嵌入特征,如第三坐标点303、第四坐标点304和第五坐标点305与第一坐标点301的距离都会有所不同。
S130、所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离。
本实施例中,在用户搜索之前,可以预先建立好图文联合表征库,示例性的,若用户需要搜索专利文档,那么在用户搜索之前可以预先建立好目标文档库,即全部已公开专利文档的图文联合表征库,在该库中的所有专利文档都已转换为第二概念嵌入特征,即公共空间中的坐标点。
具体的,若用户输入的搜索对象的第一描述信息中只包括了第一图像信息,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离,即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第一距离;若用户输入的搜索对象的第一描述信息中只包括了第一文本信息,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离,即公共空间中第一文本嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第二距离;若用户输入的搜索对象的第一描述信息中既包括了第一图像信息又包括了第一文本信息,则可以通过以下几种方式计算第三距离:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离,即公共空间中第一概念嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离,即公共空间中第一文本像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离,其中第二概念嵌入特征的坐标点和第一图像嵌入特征的距离小于预设值;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离,即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离,其中第二概念嵌入特征的坐标点和第一文本嵌入特征的距离小于预设值。
其中,第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征的方式可以是,利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
优选的,在第三模型训练过程中使用相对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征,将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征,即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。
在一具体实施方式中,可以采用2万个外观专利的数据生成目标文档库,并采用随机选择的1040个外观专利数据作为训练测试集,使用第三模型进行训练,实验结果表明,采用相对铰链损失函数和绝对铰链损失函数的加权相比于其他损失函数的计算方式而言,得到的搜索结果更接近用户输入的搜索对象。
S140、根据所述第一距离、第二距离或第三距离显示搜索结果。
本实施例中,搜索结果的显示方式可以为:第一距离、第二距离或第三距离小于预设值的目标文档作为搜索结果在显示界面中予以显示。其中,显示的方式可以为只显示目标文档的文字信息,或者只显示目标文档的图像信息,或者同时显示目标文档的文字信息和图像信息。
进一步的,所述搜索结果为一个或多个专利文档的全部信息、局部信息或局部组合信息,所述局部信息可以是关键词、图档、语句、段落和分类号中的一种,所述局部组合信息至少包括图档和关键词。当所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息时,所述多个专利文档的全部信息、局部信息或局部组合信息的显示按所述第一距离、第二距离或第三距离的大小进行排序,具体为距离越小,则对应的专利文档越靠前显示。
具体的,如图2所示,搜索结果在第二显示区211显示,按上述顺序显示每一个专利,示例性的,在第一区域208显示对应专利的图档,在第一区域208上方的第二区域209显示对应专利的关键字,其中,在第二区域209中还可以显示相似度,相似度可以根据第一距离、第二距离或第三距离得到。
此外,用户可以从搜索结果中选择一个目标专利,从而根据用户选择目标专利推荐更多与该目标专利概念相似的搜索结果,示例性的,用户在搜索结果中点击某个目标专利的第一区域208下方的第三区域210,则根据该选择的目标专利及其概念相似性进行另一查询,并以类似概念显示更多结果。
一实施例中,所述搜索结果为多个专利文档的代表图矩阵,所述代表图矩阵中的每个代表图按所述第一距离、第二距离或第三距离的大小进行位置排列。具体的,如图4所示,搜索结果可以为多个专利文档中的摘要附图或代表图按顺序排列的代表图矩阵,第一距离、第二距离或第三距离越小,则在代表图矩阵中该专利文档对应的摘要附图或代表图越靠前显示。
一实施例中,所述搜索结果为一个或多个专利文档和搜索对象之间的相关度的展示图,所述相关度的展示通过所述第二概念特征的坐标位置进行确定,即所述相关度通过所述第二概念特征在公共空间中的坐标进行确定。具体的,如图5所示,搜索结果可以为坐标图,用户输入的搜索对象转换为第一概念嵌入特征对应的坐标点代表该坐标图的原点,搜索结果中的每一个专利文档的第二概念特征的坐标点在该坐标图中显示,由此可以十分清晰的判断一个或多个专利文档和搜索对象之间的相关度。此外,该展示图支持用户交互,例如用户可以通过将鼠标停留在每一个坐标点,或者通过其他方式查看该专利文档的简略信息,例如浮现出该坐标点对应的专利文档的标题信息、图像信息或分类信息,进一步的,用户还可以通过点击坐标图501中的每一个坐标点,将在坐标图501的第一区域502显示该专利文档的详细信息,当然也不限定第一区域502位于坐标图501的右侧,还可以是其他便于显示的位置。
进一步的,用户可以将该坐标图501进行放大,放大后该坐标图将会变为显示如图6中的第二区域601和第三区域602所示的放大图。具体的,当接收到用户选择展示图中的某一区域或多个区域时,还可以将选择区域范围内的展示图进行放大显示,得到如图6所示的展示图,该放大后的散点图能够清晰地展示在原散点图中较密集的散点区域。当然,该放大显示的展示图中同样支持上述的用户交互。
S150、根据所述第一距离、第二距离或第三距离生成所述第一描述信息的分类信息,所述分类信息可以为专利分类号。
本实施例中,在搜索结果的界面上还可以进一步显示第一描述信息的推荐分类信息。示例性的,可以取所述第一距离、第二距离或第三距离小于预设值的目标文档作为参考对象,获取这些参考对象的分类信息,比如专利分类号,选择参考对象共同专利分类号出现频次排名靠前一个或多个专利分类号作为第一描述信息的分类信息并显示在搜索结果的界面中,若每个专利分类号都只存在一个或出现频次相同,选择第一距离、第二距离或第三距离的距离最小的目标文档对应的专利分类号作为第一描述信息的分类信息并显示在搜索结果的界面中。
一实施例中,用户可以输入不相关联的第一描述信息,示例性的,用户输入的第一描述信息包括第一图像信息和第一文本信息,其中第一图像信息为“飞机”的图像,第一文本信息为“汽车”,将第一图像信息和第一文本信息转换为第一概念嵌入特征后计算与预先存储的第二概念嵌入特征的第三距离,就可以得到与第一图像信息为“飞机”的图像且第一文本信息为“汽车”最相关的目标文档,这对于有一些模糊的创新想法的用户是十分有帮助的。
本发明实施例通过利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;根据所述第三距离显示搜索结果,解决了用户无法通过自己仅了解到的文字信息或者图像信息进一步搜索到对应的图像信息或者文字信息,以及事物的概念之间存在的内在相似性的问题,实现了提高搜索的准确性和多样性的效果。
实施例二
如图7所示,本发明实施例二提供了一种图文联合表征的搜索方法,本发明实施例二是在本发明实施例一的基础上进一步的优化,其中,所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括:
S210、获取预先存储的多个目标文档的第二图像信息和/或第二文本信息;
S220、利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;
S230、利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;
S240、根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
本实施例中,获取第二概念嵌入特征的方式和本发明实施例一中获取第一概念嵌入特征的方式相同,具体可以为先利用预先训练的图像神经网络提取所述第二图像信息的第二图像向量;利用预先训练的图像映射神经网络将所述第二图像向量映射到图文联合嵌入的公共空间中,变换为第二图像嵌入特征;利用预先训练的文本神经网络提取所述第二文本信息的第二文本向量;利用预先训练的文本映射神经网络将所述第二文本向量映射到所述图文联合嵌入的公共空间中,变换为第二文本嵌入特征。最后利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数,优选的,在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第二概念嵌入特征。
实施例三
如图8所示,本发明实施例三提供了一种图文联合表征的搜索系统100,本发明实施例三所提供的图文联合表征的搜索系统100可执行本发明任意实施例所提供的图文联合表征的搜索方法,具备执行方法相应的功能模块和有益效果。该搜索系统100包括信息接收模块110、特征提取模块120、距离计算模块130和结果显示模块140。
具体的,信息接收模块110用于接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;特征提取模块120用于所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;距离计算模块130用于所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;结果显示模块140用于根据所述第一距离、第二距离或第三距离显示搜索结果。
本实施例中,特征提取模块120还用于获取预先存储的多个目标文档的第二图像信息和/或第二文本信息;利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
距离计算模块130具体用于利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征,利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
本实施例中,搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。搜索结果为一个或多个专利文档的全部信息、局部信息或局部组合信息,所述局部信息可以是关键词、图档、语句、段落和分类号中的一种,所述局部组合信息至少包括图档和关键词。当所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息时,所述多个专利文档的全部信息、局部信息或局部组合信息的显示按所述第一距离、第二距离或第三距离的大小进行排序。
进一步的,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。特征提取模块具体用于利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
可选的,搜索结果为一个或多个专利文档和搜索对象之间的相关度的展示图,所述相关度的展示通过所述第二概念特征的坐标位置进行确定。可选的,搜索结果为多个专利文档的代表图矩阵,所述代表图矩阵中的每个代表图按所述第一距离、第二距离或第三距离的大小进行位置排列。
进一步的,该图文联合表征的搜索系统100还包括分类生成模块150,该分类生成模块150用于根据所述第一距离、第二距离或第三距离生成所述第一描述信息的分类信息,所述分类信息可以为专利分类号。
实施例四
如图9所示,本发明实施例四提供了一种图文联合表征库的生成方法,该生成方法包括:
S310、获取多个目标文档的第一图像信息和第一文本信息。
本实施例中,所述目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种,这些目标文档中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息,示例性的,若目标文档是专利文档,那么专利文档中应当包括文字和附图,即第一图像信息和第一文本信息。
S320、利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
本实施例中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。其中,图像神经网络可以使用如在ImageNet或Google Open Image上预先训练的ResNet或MobileNet,文本神经网络可以使用word2vec、GloVe、或BERT等,经过图像神经网络和文本神经网络的嵌入,可以将图像和文本嵌入在两个不同的向量空间中,还需要通过多层感知器或图卷积网络,即图像映射神经网络和文本映射神经网络将不同向量空间中的图像嵌入和文本嵌入桥接到同一个公共空间中,以得到位于同一公共空间的第一图像嵌入特征和第一文本嵌入特征。
具体的,首先利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,得到第一图像嵌入特征和第一文本嵌入特征,即公共空间中的两个坐标点。经过上述操作之后,第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来,根据预先训练的神经网络模型,就可以找出第一图像信息和第一文本信息之间的关系。
S330、根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征。
本实施例中,可以利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征。其中,用户可以选择只通过第一图像嵌入特征来生成第一概念嵌入特征,那么第一图像嵌入特征在公共空间代表的坐标点即为第一概念嵌入特征在公共空间代表的坐标点;用户也可以选择只通过第一文本嵌入特征来生成第一概念嵌入特征,那么第一文本嵌入特征在公共空间代表的坐标点即为第一概念嵌入特征在公共空间代表的坐标点;用户还可以选择通过第一图像嵌入特征和第一文本嵌入特征来生成第一概念嵌入特征,则通过预先训练的第三模型将第一图像嵌入特征和第一文本嵌入特征在公共空间生成新的坐标点,该坐标点即为第一概念嵌入特征在公共空间代表的坐标点。
所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数,优选的,在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征,即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。
本发明实施例步骤S310-步骤S330更具体的实现方法可参考本发明实施例一。
S340、根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
本实施例中,当将多个目标文档全部转换为第一概念嵌入特征后,即公共空间中包括多个目标文档对应的坐标点,相当于多个目标文档的图文联合表征库已完成建立,此时用户可以通过本发明实施例一的方法,在该图文联合表征库中进行搜索,因目标文档已经转换为第一概念嵌入特征,此时通过同样的方法将用户输入的信息转换为对应的概念嵌入特征,在公共空间中就可以计算与用户输入的信息对应的概念嵌入特征距离小于预设值的第一概念嵌入特征,与之对应的目标文档即为用户可能需要搜索的目标文档。
本发明实施例通过获取多个目标文档的第一图像信息和第一文本信息;利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库,解决了用户无法通过自己仅了解到的文字信息或者图像信息进一步搜索到对应的图像信息或者文字信息,以及事物的概念之间存在的内在相似性的问题,实现了提高搜索的准确性和多样性的效果。
实施例五
如图10所示,本发明实施例五提供了一种图文联合表征库的生成系统200,本发明实施例五所提供的图文联合表征库的生成系统200可执行本发明任意实施例所提供的图文联合表征库的生成方法,具备执行方法相应的功能模块和有益效果。该生成系统包括信息获取模块210、特征提取模块220、特征生成模块230和表征库建立模块240。
具体的,信息获取模块210用于获取多个目标文档的第一图像信息和第一文本信息;特征提取模块220用于利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;特征生成模块230用于根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;表征库建立模块240用于根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
本实施例中,目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。
特征生成模块230具体用于利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
进一步的,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。特征提取模块220具体用于利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
实施例六
如图11所示,本发明实施例六提供了一种图文联合表征的分类推荐方法,该分类推荐方法包括:
S410、接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息。
本实施例中,推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种,这些推荐对象中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息,示例性的,若推荐对象是专利文档,那么专利文档中必然包括法律规定应当有的文字和附图,即第一图像信息和第一文本信息。
S420、所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
本实施例中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。其中,图像神经网络可以使用如在ImageNet或Google Open Image上预先训练的ResNet或MobileNet,文本神经网络可以使用word2vec、GloVe、或BERT等,经过图像神经网络和文本神经网络的嵌入,可以将图像和文本嵌入在两个不同的向量空间中,还需要通过多层感知器或图卷积网络,即图像映射神经网络和文本映射神经网络将不同向量空间中的图像嵌入和文本嵌入桥接到同一个公共空间中,以得到位于同一公共空间的第一图像嵌入特征和第一文本嵌入特征。
具体的,若用户输入的推荐对象的第一描述信息中只包括了第一图像信息,则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征,即公共空间中的一个坐标点;若用户输入的推荐对象的第一描述信息中只包括了第一文本信息,则利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征,即公共空间中的一个坐标点;若用户输入的推荐对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息,则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,得到第一图像嵌入特征和第一文本嵌入特征,即公共空间中的两个坐标点。经过上述操作之后,第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来,根据预先训练的神经网络模型,就可以找出第一图像信息和第一文本信息之间的关系。
S430、所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离。
本实施例中,在用户推荐之前,可以预先建立好图文联合表征库,示例性的,若用户需要推荐专利文档,那么在用户推荐之前可以预先建立好目标文档,即全部已公开专利文档的图文联合表征库,在该库中的所有专利文档都已转换为第二概念嵌入特征,即公共空间中的坐标点。
具体的,若用户输入的推荐对象的第一描述信息中只包括了第一图像信息,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离,即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第一距离;若用户输入的推荐对象的第一描述信息中只包括了第一文本信息,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离,即公共空间中第一文本嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第二距离;若用户输入的推荐对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息,则可以通过:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离,即公共空间中第一概念嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离,即公共空间中第一文本像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离,其中第二概念嵌入特征的坐标点和第一图像嵌入特征的距离小于预设值;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离,即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离,其中第二概念嵌入特征的坐标点和第一文本嵌入特征的距离小于预设值。
其中,第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征的方式可以是利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数,优选的,在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征,将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征,即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。
本发明实施例步骤S410-步骤S430更具体的实现方法可参考本发明实施例一。
S440、根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
本实施例中,推荐结果的显示方式可以为:第一距离、第二距离或第三距离的距离越小,则第一距离、第二距离或第三距离对应的目标文档在推荐结果的界面中越靠前显示,距离最小的目标文档在第一个显示。其中,显示的方式可以为只显示目标文档的文字信息,或者只显示目标文档的图像信息,或者同时显示目标文档的文字信息和图像信息。
进一步的,推荐结果可以为一个或多个推荐对象的分类号,一实施例中,用户可以将专利文档作为推荐对象输入,取第一距离、第二距离或第三距离最小的对应的目标文档的专利分类号,选择相同专利分类号最多的专利分类号显示在推荐结果的界面中,若每个专利分类号都只存在一个,选择第一距离、第二距离或第三距离的距离最小的目标文档对应的专利分类号显示在推荐结果的界面中。
本发明实施例通过利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;根据所述第三距离显示所述一个或多个推荐对象的推荐结果,解决了用户无法通过自己仅了解到的文字信息或者图像信息进一步获得对应的相似图像信息或者文字信息,以及事物的概念之间存在的内在相似性的问题,实现了提高用户获取信息的用户体验的效果。
实施例七
如图12所示,本发明实施例七提供了一种图文联合表征的分类推荐方法,本发明实施例七是在本发明实施例六的基础上进一步的优化,其中,所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括:
S510、获取预先存储的第二图像信息和第二文本信息。
S520、利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征。
S530、利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征。
S540、根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
本实施例中,获取第二概念嵌入特征的方式和本发明实施例六中获取第一概念嵌入特征的方式相同,具体可以为先利用预先训练的图像神经网络提取所述第二图像信息的第二图像向量;利用预先训练的图像映射神经网络将所述第二图像向量映射到图文联合嵌入的公共空间中,变换为第二图像嵌入特征;利用预先训练的文本神经网络提取所述第二文本信息的第二文本向量;利用预先训练的文本映射神经网络将所述第二文本向量映射到所述图文联合嵌入的公共空间中,变换为第二文本嵌入特征。最后利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数,优选的,在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第二概念嵌入特征。
实施例八
如图13所示,本发明实施例八提供了一种图文联合表征的分类推荐系统300,本发明实施例八所提供的图文联合表征的分类推荐系统300可执行本发明任意实施例所提供的图文联合表征的分类推荐方法,具备执行方法相应的功能模块和有益效果。该分类推荐系统300包括信息接收模块310、特征提取模块320、距离计算模块330和结果显示模块340。
具体的,信息接收模块310用于接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;特征提取模块320用于所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;距离计算模块330用于所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;结果显示模块340用于根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
本实施例中,特征提取模块320还用于获取预先存储的第二图像信息和第二文本信息;利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
距离计算模块330具体用于利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征,利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
本实施例中,所述一个或多个推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。所述推荐结果为一个或多个推荐对象的分类号。
进一步的,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。特征提取模块320具体用于利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
实施例九
图14为本发明实施例九提供的一种服务器的结构示意图。图14示出了适于用来实现本发明实施方式的示例性服务器12的框图。图14显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图14所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图14未显示,通常称为“硬盘驱动器”)。尽管图14中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个信息介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序信息,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及信息备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及信息处理,例如实现本发明实施例所提供的图文联合表征的搜索方法:
接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
根据所述第一距离、第二距离或第三距离显示搜索结果。
或图文联合表征库的生成方法:
获取多个目标文档的第一图像信息和第一文本信息;
利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;
根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
或一种图文联合表征的分类推荐方法:
接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
实施例十
本发明实施例十还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所提供的图文联合表征的搜索方法:
接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
根据所述第一距离、第二距离或第三距离显示搜索结果。
或图文联合表征库的生成方法:
获取多个目标文档的第一图像信息和第一文本信息;
利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;
根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
或一种图文联合表征的分类推荐方法:
接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包括或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的信息信号,其中承载了计算机可读的程序代码。这种传播的信息信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包括的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种图文联合表征的搜索方法,其特征在于,包括:
接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
根据所述第一距离、第二距离或第三距离显示搜索结果。
2.根据权利要求1所述的搜索方法,其特征在于,所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括:
获取预先存储的多个目标文档的第二图像信息和/或第二文本信息;
利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;
利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;
根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
3.根据权利要求2所述的搜索方法,其特征在于,所述根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,以及所述根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征包括:
利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征,利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
4.一种图文联合表征的搜索系统,其特征在于,包括:
信息接收模块,用于接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
特征提取模块,用于所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
距离计算模块,用于所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
结果显示模块,用于根据所述第一距离、第二距离或第三距离显示搜索结果。
5.一种图文联合表征库的生成方法,其特征在于,包括:
获取多个目标文档的第一图像信息和第一文本信息;
利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;
根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
6.一种图文联合表征库的生成系统,其特征在于,包括:
信息获取模块,用于获取多个目标文档的第一图像信息和第一文本信息;
特征提取模块,用于利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
特征生成模块,用于根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;
表征库建立模块,用于根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
7.一种图文联合表征的分类推荐方法,其特征在于,包括:
接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
8.一种图文联合表征的分类推荐系统,其特征在于,包括:
信息接收模块,用于接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;
特征提取模块,用于所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
距离计算模块,用于所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和所述第一临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和所述第二临时距离小于预设值的目标文档的第二概念嵌入特征之间的第三距离;
结果显示模块,用于根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3,5,7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3,5,7中任一所述的方法。
CN201911198749.0A 2019-11-29 2019-11-29 一种图文联合表征的搜索方法、系统、服务器和存储介质 Pending CN112883218A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911198749.0A CN112883218A (zh) 2019-11-29 2019-11-29 一种图文联合表征的搜索方法、系统、服务器和存储介质
PCT/CN2020/131223 WO2021104274A1 (zh) 2019-11-29 2020-11-24 图文联合表征的搜索方法、系统、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911198749.0A CN112883218A (zh) 2019-11-29 2019-11-29 一种图文联合表征的搜索方法、系统、服务器和存储介质

Publications (1)

Publication Number Publication Date
CN112883218A true CN112883218A (zh) 2021-06-01

Family

ID=76038401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911198749.0A Pending CN112883218A (zh) 2019-11-29 2019-11-29 一种图文联合表征的搜索方法、系统、服务器和存储介质

Country Status (2)

Country Link
CN (1) CN112883218A (zh)
WO (1) WO2021104274A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782722A (zh) * 2022-04-29 2022-07-22 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN115858941A (zh) * 2023-02-16 2023-03-28 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701173A (zh) * 2016-01-05 2016-06-22 中国电影科学技术研究所 一种基于外观设计专利的多模态图像检索方法
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109992676A (zh) * 2019-04-01 2019-07-09 中国传媒大学 一种跨媒体资源检索方法及检索系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273517B (zh) * 2017-06-21 2021-07-23 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107633259B (zh) * 2017-08-21 2020-03-31 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN108399409B (zh) * 2018-01-19 2019-06-18 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701173A (zh) * 2016-01-05 2016-06-22 中国电影科学技术研究所 一种基于外观设计专利的多模态图像检索方法
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109992676A (zh) * 2019-04-01 2019-07-09 中国传媒大学 一种跨媒体资源检索方法及检索系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782722A (zh) * 2022-04-29 2022-07-22 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN114782722B (zh) * 2022-04-29 2023-02-03 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN115858941A (zh) * 2023-02-16 2023-03-28 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
WO2021104274A1 (zh) 2021-06-03

Similar Documents

Publication Publication Date Title
US11188831B2 (en) Artificial intelligence system for real-time visual feedback-based refinement of query results
CN107256267B (zh) 查询方法和装置
US7548936B2 (en) Systems and methods to present web image search results for effective image browsing
CN108334627B (zh) 新媒体内容的搜索方法、装置和计算机设备
US8577882B2 (en) Method and system for searching multilingual documents
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN111125435B (zh) 视频标签的确定方法、装置和计算机设备
US8243988B1 (en) Clustering images using an image region graph
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN109241319B (zh) 一种图片检索方法、装置、服务器和存储介质
US11023503B2 (en) Suggesting text in an electronic document
CN109408829B (zh) 文章可读性确定方法、装置、设备和介质
US20210166014A1 (en) Generating document summary
US9507805B1 (en) Drawing based search queries
Wang et al. Similarity-based visualization of large image collections
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN109952571A (zh) 基于上下文的图像搜索结果
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
US20230368503A1 (en) Self-supervised audio-visual learning for correlating music and video
CN110737824A (zh) 内容查询方法和装置
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination