CN102270234A - 一种图像搜索方法及其搜索引擎 - Google Patents

一种图像搜索方法及其搜索引擎 Download PDF

Info

Publication number
CN102270234A
CN102270234A CN2011102174771A CN201110217477A CN102270234A CN 102270234 A CN102270234 A CN 102270234A CN 2011102174771 A CN2011102174771 A CN 2011102174771A CN 201110217477 A CN201110217477 A CN 201110217477A CN 102270234 A CN102270234 A CN 102270234A
Authority
CN
China
Prior art keywords
picture
node
image
search
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102174771A
Other languages
English (en)
Inventor
王之越
赵长海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN2011102174771A priority Critical patent/CN102270234A/zh
Publication of CN102270234A publication Critical patent/CN102270234A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提出一种图像搜索方法及其搜索引擎。所述方法通过将获得的图片进行全网爬取,获取相似图像,从相似图像的来源网页提取出图片的上下文和主题信息,最后根据图像语义特征和图像视觉特征,综合给出图像的搜索结果。图像搜索引擎包括获取模块、一次搜索模块、二次搜索模块、分词模块和确定模块,获取模块获得源图片,一次搜索模块获得相似图片集,二次搜索模块建立相似图片集网页信息的数据结构,分词模块对图片上下文标注位权,提取最长短语并标注词权,确定模块提取核心主题词,并爬取相关图片信息。本发明提供的一种更全面地利用图像搜索主题信息和相关图像的搜索引擎及搜索方法,用户可以根据不同场景产生不同的需求,并且达到特定的效果。

Description

一种图像搜索方法及其搜索引擎
技术领域
本发明涉及互联网搜索引擎技术,具体设计一种图像搜索引擎方法及其搜索引擎。
背景技术
一般的图像搜索引擎都基于两种方式,一是基于文字搜索图像,二是基于图像视觉特征搜索相似图像。第一种方式不能满足用户仅有图片来源时的搜索需求,第二种方式的搜索结果仅匹配相似图像,实用中的搜索结果和原图相似度极高,如搜索一张新闻人物的图片,可以得出互联网中同样人物、同一地点、同一动作的图片,而仅是来源网站的不同,但无法进一步了解图片主题所包含的深层信息。所以,想要通过图像获得该图像所包含的深层信息,如图像相关主题信息或者相关图像,利用目前的图像搜索引擎无法获得好的效果。
发明内容
本发明针对目前图像搜索引擎中只能搜索相似图像的不足,提出了一种图像搜索方法及其搜索引擎。
本发明的一种图像搜索方法,具体包括如下步骤:
步骤101:获得要进行搜索的源图片;
步骤102:从全网搜索与源图片相似的图片,获得相似图片集;所述的相似图片指在视觉特征上具有共性的图片;
步骤103:根据相似图片集,得出图片的核心主题词;
步骤104:根据得到的图片的核心主题词,爬取相关图片信息,并根据图像相似算法,去除相似图片,留下相关图片;所述的相关图片指的是语义特征上具有共性的图片。
步骤103具体还包括如下步骤:
步骤201:建立相似图片集的网页信息的数据结构,将相似图片集中的每张图片的网页信息都存储在该数据结构中;
步骤202:针对相似图片集中的每张图片,根据该图片来源的网页地址,爬取来源网页的HTML,生成HTML树,并从HTML树中提取图片上文和图片下文;
步骤203:对提取的每张图片的图片上文和图片下文标注位权;
步骤204:对每张图片的图片上文和图片下文的语段进行分析,通过最长短语划分法提取出最长短语,并对提取出来的最长短语标注词权,获得图片的核心主题词。
本发明的一种图像搜索引擎包括:获取模块、一次搜索模块、二次搜索模块、分词模块和确定模块。
所述的获取模块获得要进行搜索的源图片并将源图片传送给一次搜索模块;
所述的一次搜索模块根据源图片获得相似图片集,并将相似图片集传送给二次搜索模块,所述的相似图片指在视觉特征上具有共性的图片;
所述的二次搜索模块建立相似图片集的网页信息的数据结构,针对相似图片集中的每张图片,根据该图片来源的网页地址,爬取来源网页的HTML,生成HTML树,并从HTML树中提取图片上文和图片下文;
所述的分词模块对二次搜索模块提取出每张图片的图片上文和图片下文标注位权,并对每张图片的图片上文和图片下文的语段进行分析,通过最长短语划分法提取出最长短语,并对提取出来的最长短语标注词权,将提取出来的最长短语存入最长短语的数据结构中;
所述的确定模块用于对提取出来的所有最长短语,依据最长短语的位权与词权乘积从大到小的顺序进行排序,在删除网络常见短语后,将前1-5个最长短语作为图片的核心主题词,并根据图片的核心主题词,爬取相关图片信息,根据图像相似算法去除相似图片,留下相关图片,所述的相关图片指的是语义特征上具有共性的图片。
本发明的优点与积极效果在于:本发明实现了图像的主题信息提取功能,提供的一种更全面地利用图像搜索主题信息和相关图像的搜索引擎及搜索方法,此外本发明还能提供相关图像结果和主题的详细维基百科信息,用户可以根据不同场景产生不同的需求,并且达到特定的效果。
附图说明
图1是本发明的图像搜索方法的流程图;
图2是本发明的图像搜索方法的具体实施例示意图;
图3是本发明的图像搜索引擎的结构示意图;
图4是本发明实施例中所提交的用于搜索的源图片;
图5是根据图4所示的源图片得到的相似图片集;
图6是本发明实施例相似图片集生成的HTML树的结构示意图;
图7是最长短语划分法的一个实施例示意图;
图8是搜索结果得到的相关图片集。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
如图1所示,本发明的图像搜索引擎方法包括:
步骤101:获得要进行搜索的源图片。具体地,源图片可以是通过本地上传获得,也可以通过提交图片网址(URL)来获得,也可以通过电脑摄像头拍摄获得等。
步骤102:从全网搜索与提供的源图片相似的图片,获得相似图片集。具体地,获取相似图片集的方法是采用现有技术的图像搜索引擎和图像相似度算法得到的。相似图片指在视觉特征上具有共性的图片。现有技术的图像搜索引擎和图像相似度算法是先把图像划分为小块,并且对每一小块进行直方图分析和边缘提取,再对已划分的多块图像的直方图数组和边缘向量求出方差,当方差小于一定值时,认为两幅图片相似。
如图5所示,为本发明的一个实施例,图5所示的为根据图4的源图片所得到的相似图片集。其中,图片的整体色彩、纹理、结构等基本图像特征都是相似的,即满足视觉特征上具有共性的特点,区别在于,由于不同的图像来源于不同的网站,所以其大小、引用网址会有不同。
步骤103:根据相似图片集,得出图片主题。具体地,通过相似图片集中每个图片的URL,进入网页,对相似图片的上、下文语段进行主题提取,提取后,将所有主题词进行频率统计,出现率最高的五个词语作为图片的核心主题词。
步骤104:得出图片的核心主题词后,沿用现有的图片搜索引擎,爬取相关图片信息,并且根据图像相似算法,去除相似图片,使得留下相关图片。如图8所示,本发明实施例中,经步骤104得到的结果图片与图4所示的源图片具有共同的语义“马云,阿里巴巴”,但不具有图像处理学的色彩、纹理、结构等相似特征。所述的相关图片指的是语义特征上具有共性的图片。
如图2所示,步骤103中具体根据相似图片集,得到图片的核心主题词的过程如下:步骤201:建立相似图片集的网页信息的数据结构。相似图片集中的每一张图片的网页信息都存储在统一的数据结构中。所述的建立的统一的图片的网页信息的数据结构包括如下数据项:图片缓存地址、目标图片地址、图片来源的网页地址(URL)、图片来源的解析主机(Host)、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号、图片文件名、图片上文以及图片下文。所述的图片的网页信息存储的数据结构如表1所示。
表1存储网页信息的数据结构
  图片缓存地址   目标图片地址
  图片来源URL   图片来源Host
  目标图片宽   目标图片高
  图片格式类型   文件大小
  来源网页标题   图片摘要
  图片序号   图片文件名
  图片上文   图片下文
在采用现有技术的图像搜索引擎和图像相似度算法后,每一张图片对应的数据结构中应填写了这些项的内容:图片缓存地址、目标图片地址、图片来源URL、图片来源Host、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号和图片文件名。图片上文和图片下文的内容还没有提取,内容为空。
步骤202:根据相似图片集中的“图片来源URL”,爬取来源网页的HTML(Hyper TextMark-up Language,超文本标记语言),生成HTML树。生成的HTML树中,每一个节点对应网页中一个基本元素。已知HTML语言中,包含有“<img>”标签的即是图片节点。利用正则表达式,对HTML树的“目标图片”节点进行分析,提取图片的上、下文。图片上、下文的提取方法是一样的,以提取图片上文为例说明提取的流程如下:
如图6所示,N(img)为目标图片节点,N(p)为文本节点。超文本链接节点用N(a)表示,当前遍历的节点指针用N(now)表示。
步骤1:将N(now)指向N(img)。
步骤2:搜索N(now)的前邻节点集,遍历前邻节点集以及前邻节点集中的节点的子树,从中寻找N(p),遍历顺序是:在前邻节点集按照从右侧子树向左侧子树的顺序,即从右到左的顺序依次遍历节点及该节点的子树,在遍历某个节点的子树时,先访问根结点,然后仍然按照由右侧子树向左侧子树的顺序进行遍历,若有N(p)则进入步骤5,若无N(p)则进入步骤3。所述的前邻节点集定义为:在HTML树中查找某节点M的父节点,按照从左到右的顺序得出该父节点的第一层子节点的集合Φ,集合Φ中位于该节点M之前的节点,称为前邻节点集。
步骤3:返回N(now)的父节点,该父节点记为N(F),寻找是否存在N(p),若有N(p)或N(F)为HTML树的根节点则进入步骤5,否则进入步骤4;
步骤4:搜索N(F)的前邻节点集,遍历该前邻节点集以及该前邻节点集中的节点的子树,从中寻找N(p),遍历顺序是:在前邻节点集中按照从右侧子树向左侧子树的顺序,即从右到左的顺序依次遍历节点及该节点的子树,在遍历前邻节点集中的某个节点的子树时,先访问该子树的根结点,然后仍然按照由右侧子树向左侧子树的顺序遍历。例如所述的前邻节点集中的某节点为N(F′),进入N(F′)遍历该节点N(F′)的子树,按照从右侧子树向左侧子树的顺序遍历N(F′)的子树,寻找N(p)。若N(F)的前邻节点集以及该前邻节点集中的节点的子树中有N(p)则进入步骤5,若无N(p)则将N(F)标记为新的N(now),并进入步骤3。
步骤5:搜索结束。
搜索时,跳过N(a),一般把超文本链接作为噪声去除,但并不去除链接中含有的文字属性。
如图6所示,目标图片节点N(img)位于节点8,上文文本节点N(p)位于节点5。首先,N(now)将指向节点8,搜索节点8的前邻节点集,集合为空。接着,返回N(img)的父节点4,标记为N(F)。在N(F)中仍不包含文本节点N(p)。搜索N(F)的前邻节点集2,3,在2中递归搜索到文本节点N(p),搜索结束。
同样的方法可以得到图片下文,只需将前邻节点集换成后邻节点集,并且在后邻节点集以及后邻节点集中的节点的子树中寻找N(p)时,采用的遍历顺序为:在后邻节点集中按照从左到右的顺序依次遍历节点及该节点的子树,在遍历某个节点的子树时,先访问作为根节点的该节点,然后按照由左侧子树向右侧子树的顺序遍历。所述的后邻节点集的定义为:在HTML树中查找某节点M的父节点,按照从左到右的顺序得出该父节点的第一层子节点集合Φ,集合Φ位于该节点M之后的节点组成后邻节点集。
得出图片的上、下文之后,存入相似图片集中各图片的数据结构中。
步骤203:标注位权。位权是针对文本节点N(p)而言的。在HTML树中,位权=图片节点N(img)到文本节点N(p)的遍历节点个数-遍历过程中试探不正确的叶子节点个数。
如图6,图片节点N(img)到文本节点N(p)遍历了节点4,3,7,2,6,5,共6个节点,而遍历过程中试探不正确的子节点包括6,7,共2个节点,故图6中N(p)的位权为4。步骤204:标注词权。词权针对单个词语的词性进行标记,并不受该词在上下语段中位置的影响。进入每个图片上文和图片下文的语段进行分析,沿用现有技术的中英文分词方法和本发明的最长短语划分法提取出主要名词和特殊分类名词如人名、地名、商标、型号,并标以不同的词权。所述的中英文分词方法是采用最大熵模型,根据预设词语库,逐个遍历句子中的词语,并对词性组合进行评分,对于句尾不能单独成词的组合方式进行扣分,取出最适合的分词方式。
本发明的最长短语划分法流程如下:
步骤A:采用中英文分词方法把语段划分为粒度较细的词语,并分别标注词性;
步骤B:对语段进行前序遍历和后序遍历两次遍历,使用预先设定的语法库对词性进行贪心算法,在不符合匹配点处标记断点;所述的贪心算法是指,在对问题求解时,总是做出在当前看来是最好的选择,也就是说,不从整体最优上加以考虑,它所做出的仅是在某种意义上的局部最优解。
步骤C:对两次遍历后得到的最长短语取并集,提取出最长短语,以共同出现的最高频词性标记。
如图7所示,根据最大熵模型,可以将“中国人民广播电台”划分为“中国/人民/广播/电台/”,并标注词性,ns为地理名词,na为机构名词,n为普通名词。此时粒度较细,需再进行最长短语划分。先进行前序遍历,从“中国”一词开始遍历至“电台”,由于“中国人民”一词的词性组合“ns+n”满足语法库中预设的匹配,而“中国人民广播”一词的词性组合“ns+n+n”不满足语法库中预设的匹配,故在“广播”一词处标记可能断点。再进行后序遍历,方法基本同前序遍历,只需从“电台”一词开始遍历至“中国”即可,由于“广播电台”(“n+na”),“人民广播电台”(“n+n+na”),“中国人民广播电台”(ns+n+n+na)都满足语法库中预设的匹配,故“中国人民广播电台”是后序遍历时认为的最长短语。最后,将两次遍历得到的最长短语取并集,得出“中国人民广播电台”一词为该句中的一个最长短语。最长短语划分法结束。
对所有最长短语进行词权标注,依据最长短语的位权与词权乘积从大到小的顺序进行排序,整理得到词权的排序表,每个最长短语的数据结构如表2所示,包括:最长短语的内容,词性,词频和最长短语的位置。通过删除网络常见短语,滤去噪声,最后根据相似图片集的规模大小,提取出前1-5个核心词,作为图片的主题。
表2
  最长短语   词性   词频   位置
图3是利用本发明实施例的搜索装置的主要结构图,参照该图,该搜索装置主要包括:获取模块301、一次搜索模块302、二次搜索模块303、分词模块304和确定模块305。
获取模块301获取源图片传送给一次搜索模块302,一次搜索模块302根据源图片得到相似图片集,并将相似图片集传送给二次搜索模块303,二次搜索模块303建立相似图片集中每张图片的网页信息数据结构,并根据每张图片的图片来源的网页地址,进入图片来源的网页进行爬取HTML,生成HTML树,从HTML树中提前图片的上、下文。分词模块304根据每张图片的图片上、下文得出图像的主题词集合。确定模块305。
获取模块301用于获得要进行搜索的源图片,具体地,该源图片获取可以是本地上传,提交图片网址(URL),通过电脑摄像头拍摄等。
一次搜索模块302用于根据源图片得到相似图片集,具体地,获取相似图片集的方法是采用的现有技术的图像搜索引擎和图像相似度算法得到。相似图片指在视觉特征上具有共性的图片。现有技术的图像搜索引擎和图像相似度算法是先把图像划分小块,并且对每一小块进行直方图分析和边缘提取,再对已划分的多块图像的直方图数组和边缘向量求出方差。当方差小于一定值时,认为两图相似。
二次搜索模块303用于根据相似图片集得到来源网页集,具体地,首先建立网页信息数据结构,将相似图片集中的每张图片的网页信息存入该数据结构;其次,根据相似图片集中每张图片的来源网页URL,进入网页爬取HTML,生成HTML树,并且对HTML树进行图片上、下文提取,将提取的图片上文和图片下文存入所述的网页信息的数据结构中。所建立的网页信息的数据结构包括的数据项为:图片缓存地址、目标图片地址、图片来源的网页地址、图片来源的解析主机、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号、图片文件名、图片上文以及图片下文。
分词模块304用于根据上、下文得出图像的主题词集合,首先建立最长短语的数据结构,然后对图片上、下文通过采用最大熵模型的中英文分词方法进行语段划分,并标注划分得到的每个词语的词性,再对语段分别进行前序遍历和后序遍历,使用预先设定的语法库对词性进行贪心算法,在不符合匹配点处标记断点,在两次遍历后将得到的最长短语取并集,得出最长短语,存入最长短语的数据结构,以共同出现的最高频词性标记。
确定模块305用于得出图片的核心主题词,具体是对最长短语的数据结构中的各最长短语计算位权×词权的值,并按照位权×词权的值从大到小的顺序进行排序,并将得出的前一到五位词语作为图片的核心主题词。并根据图片的核心主题词,爬取相关图片信息,根据图像相似算法去除相似图片,留下相关图片,所述的相关图片指的是语义特征上具有共性的图片。所述的位权=图片节点到文本节点所遍历的节点个数-遍历过程中试探不正确的叶子节点个数。所述的图片节点、文本节点以及遍历过程中试探不正确的叶子节点都为HTML树中的节点,所述的文本节点指代表图片上文或者图片下文的节点。
以上所述是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种图像搜索方法,其特征在于,具体包括如下步骤:
步骤101:获得要进行搜索的源图片;
步骤102:从全网搜索与源图片相似的图片,获得相似图片集;所述的相似图片指在视觉特征上具有共性的图片;
步骤103:根据相似图片集,得出图片的核心主题词;本步骤具体包括如下过程:
步骤201:建立相似图片集的网页信息的数据结构,将相似图片集中的每张图片的网页信息都存储在该数据结构中;
步骤202:针对相似图片集中的每张图片,根据该图片来源的网页地址,爬取来源网页的HTML,生成HTML树,并从HTML树中提取图片上文和图片下文;
步骤203:对提取的每张图片的图片上文和图片下文标注位权;
步骤204:对每张图片的图片上文和图片下文的语段进行分析,通过最长短语划分法提取出最长短语,并对提取出来的最长短语标注词权,获得图片的核心主题词;
步骤104:根据得到的图片的核心主题词,爬取相关图片信息,并根据图像相似算法,去除相似图片,留下相关图片;所述的相关图片指的是语义特征上具有共性的图片。
2.根据权利要求1所述的一种图像搜索方法,其特征在于,步骤201所述的网页信息的数据结构包括的数据项为:图片缓存地址、目标图片地址、图片来源的网页地址、图片来源的解析主机、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号、图片文件名、图片上文以及图片下文。
3.根据权利要求1所述的一种图像搜索方法,其特征在于,步骤202中所述的从HTML树中提取图片上文的具体方法是:
步骤1:将N(now)指向N(img);其中,N(now)表示当前遍历的节点指针,N(img)表示目标图片节点;
步骤2:搜索N(now)的前邻节点集,在前邻节点集中顺序寻找N(p),若有N(p)则进入步骤5,若无N(p)则进入步骤3;其中,N(p)表示文本节点;所述的前邻节点集定义为:在HTML树中查找某节点M的父节点,按照从左到右的顺序得出该父节点的第一层子节点的集合Φ,集合Φ中位于该节点M之前的节点组成了前邻节点集;
步骤3:返回N(now)的父节点,该父节点记为N(F),寻找是否存在N(p),若有N(p)或N(F)为HTML树的根节点则进入步骤5,否则进入步骤4;
步骤4:搜索N(F)的前邻节点集,在该前邻节点集中顺序寻找N(p),若有N(p)则进入步骤5,若无则将N(F)标记为新的N(now),进入步骤3执行;
步骤5:搜索结束;
在上述搜索过程中,跳过超文本链接节点N(a);
所述的步骤2与步骤4中在前邻节点集中顺序寻找N(p)的遍历顺序是:按照从右到左的顺序,依次遍历前邻节点集中的节点及该节点的子树,对子树的遍历按照先访问根结点,然后由右侧子树向左侧子树的顺序进行遍历;
步骤202中所述的从HTML树中提取图片下文的方法与提取图片上文的方法相同,不同之处在于将前邻节点集换成后邻节点集,并且在后邻节点集中顺序寻找N(p)的遍历顺序是:在后邻节点集按照从左到右的顺序依次遍历节点及该节点的子树,在遍历某个节点的子树时,先访问该子树的根节点,然后再按照由左侧子树向右侧子树的顺序遍历;所述的后邻节点集为:在HTML树中查找某节点M的父节点,按照从左到右的顺序得出该父节点的第一层子节点集合Φ,集合Φ位于该节点M之后的节点组成后邻节点集。
4.根据权利要求1所述的一种图像搜索方法,其特征在于,步骤203所述的位权的具体确定方法为:位权=图片节点到文本节点所遍历的节点个数-遍历过程中试探不正确的叶子节点个数;所述的图片节点、文本节点以及遍历过程中试探不正确的子节点都为HTML树中的节点,所述的文本节点指代表图片上文或者图片下文的节点。
5.根据权利要求1所述的一种图像搜索方法,其特征在于,步骤204所述的最长短语划分法具体为:
步骤A:采用中英文分词方法把语段划分为粒度较细的词语,并分别标注词性;所述的中英文分词方法采用最大熵模型;
步骤B:对语段分别进行前序遍历和后序遍历,并在遍历过程中使用预先设定的语法库对词性进行贪心算法,在不符合匹配点处标记断点;
步骤C:从两次遍历后得到的最长短语取并集,提取出最长短语,以两次遍历共同出现的最高频词性为该最长短语进行标记。
6.根据权利要求1所述的一种图像搜索方法,其特征在于,步骤204所述的对提取出来的最长短语标注词权,获得图片的核心主题词的具体方法是:对所有最长短语进行词权标注,并依据最长短语的位权与词权乘积从大到小的顺序进行排序,每个最长短语的数据结构包括的数据项有:最长短语的内容、词性、词频和最长短语的位置,然后通过删除网络常见短语,最后提取出前1-5个最长短语作为图片的主题。
7.应用权利要求1所述的一种图像搜索方法的图像搜索引擎,其特征在于,所述的图像搜索引擎包括:获取模块、一次搜索模块、二次搜索模块、分词模块和确定模块;
所述的获取模块获得要进行搜索的源图片并将源图片传送给一次搜索模块;
所述的一次搜索模块根据源图片获得相似图片集,并将相似图片集传送给二次搜索模块,所述的相似图片指在视觉特征上具有共性的图片;
所述的二次搜索模块建立相似图片集的网页信息的数据结构,针对相似图片集中的每张图片,根据该图片来源的网页地址,爬取来源网页的HTML,生成HTML树,并从HTML树中提取图片上文和图片下文;
所述的分词模块对二次搜索模块提取出每张图片的图片上文和图片下文标注位权,并对每张图片的图片上文和图片下文的语段进行分析,通过最长短语划分法提取出最长短语,并对提取出来的最长短语标注词权,将提取出来的最长短语存入最长短语的数据结构中;
所述的确定模块用于对提取出来的所有最长短语,依据最长短语的位权与词权乘积从大到小的顺序进行排序,在删除网络常见短语后,将前1-5个最长短语作为图片的核心主题词,并根据图片的核心主题词,爬取相关图片信息,根据图像相似算法去除相似图片,留下相关图片,所述的相关图片指的是语义特征上具有共性的图片。
8.根据权利要求7所述的一种图像搜索引擎,其特征在于,所述的二次搜索模块所建立的网页信息的数据结构包括的数据项为:图片缓存地址、目标图片地址、图片来源的网页地址、图片来源的解析主机、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号、图片文件名、图片上文以及图片下文。
9.根据权利要求7所述的一种图像搜索引擎,其特征在于,所述的分词模块,对图片上文和图片下文标注位权,所述的位权=图片节点到文本节点所遍历的节点个数-遍历过程中试探不正确的叶子节点个数;所述的图片节点、文本节点以及遍历过程中试探不正确的叶子节点都为HTML树中的节点,所述的文本节点指代表图片上文或者图片下文的节点。
CN2011102174771A 2011-08-01 2011-08-01 一种图像搜索方法及其搜索引擎 Pending CN102270234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102174771A CN102270234A (zh) 2011-08-01 2011-08-01 一种图像搜索方法及其搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102174771A CN102270234A (zh) 2011-08-01 2011-08-01 一种图像搜索方法及其搜索引擎

Publications (1)

Publication Number Publication Date
CN102270234A true CN102270234A (zh) 2011-12-07

Family

ID=45052539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102174771A Pending CN102270234A (zh) 2011-08-01 2011-08-01 一种图像搜索方法及其搜索引擎

Country Status (1)

Country Link
CN (1) CN102270234A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609458A (zh) * 2012-01-12 2012-07-25 北京搜狗信息服务有限公司 一种图片推荐方法和装置
CN102682095A (zh) * 2012-04-27 2012-09-19 百度在线网络技术(北京)有限公司 用于配对图片搜索的方法和提供配对图片的搜索系统
CN102902821A (zh) * 2012-11-01 2013-01-30 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
CN102902737A (zh) * 2012-09-12 2013-01-30 西安交通大学 一种网络图像自主收集与筛选方法
CN103106239A (zh) * 2012-12-10 2013-05-15 江苏乐买到网络科技有限公司 一种图像中对象的识别方法和装置
CN103186532A (zh) * 2011-12-27 2013-07-03 腾讯科技(北京)有限公司 网页中关键图片的抓取方法和装置
CN103425715A (zh) * 2012-05-25 2013-12-04 百度在线网络技术(北京)有限公司 一种确定图片文本标注的方法和系统
CN103425644A (zh) * 2012-05-14 2013-12-04 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN103744970A (zh) * 2014-01-10 2014-04-23 北京奇虎科技有限公司 一种确定图片的主题词的方法及装置
CN103793434A (zh) * 2012-11-02 2014-05-14 北京百度网讯科技有限公司 一种基于内容的图片搜索方法和装置
CN104090929A (zh) * 2014-06-23 2014-10-08 吕志雪 一种个性化图片推荐方法及装置
CN104106065A (zh) * 2012-02-10 2014-10-15 国际商业机器公司 演示搜索结果的在上下文中的显示
CN104268283A (zh) * 2014-10-21 2015-01-07 浪潮集团有限公司 一种自动解析互联网网页的方法
CN103646074B (zh) * 2013-12-11 2017-06-23 北京奇虎科技有限公司 一种确定图片簇描述文本核心词的方法及装置
CN107832338A (zh) * 2017-10-12 2018-03-23 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
CN108874853A (zh) * 2018-04-02 2018-11-23 焦点科技股份有限公司 一种构造人脸图库的方法
CN109033385A (zh) * 2018-07-27 2018-12-18 百度在线网络技术(北京)有限公司 图片检索方法、装置、服务器及存储介质
CN109743521A (zh) * 2018-12-25 2019-05-10 深圳云天励飞技术有限公司 视频数据传输方法、装置、电子设备和存储介质
CN109753609A (zh) * 2018-08-29 2019-05-14 百度在线网络技术(北京)有限公司 一种多意图查询方法、装置以及终端
CN110955792A (zh) * 2019-12-13 2020-04-03 云粒智慧科技有限公司 一种基于图片的搜索方法、装置、电子设备及存储介质
CN111382341A (zh) * 2020-03-23 2020-07-07 湖南城市学院 一种基于大数据的科技信息资源检索查询系统及方法
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146263A (ja) * 2006-12-07 2008-06-26 Fuji Xerox Co Ltd 画像処理装置及びプログラム
CN101329677A (zh) * 2008-05-07 2008-12-24 裴亚军 基于图像内容的图像搜索引擎
WO2010102515A1 (en) * 2009-03-11 2010-09-16 Hong Kong Baptist University Automatic and semi-automatic image classification, annotation and tagging through the use of image acquisition parameters and metadata
US20100250588A1 (en) * 2009-03-30 2010-09-30 Casio Computer Co., Ltd. Image searching system and image searching method
CN101853295A (zh) * 2010-05-28 2010-10-06 天津大学 一种图像检索方法
US20110173528A1 (en) * 2004-09-22 2011-07-14 Yonatan Zunger Determining Semantically Distinct Regions of a Document

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110173528A1 (en) * 2004-09-22 2011-07-14 Yonatan Zunger Determining Semantically Distinct Regions of a Document
JP2008146263A (ja) * 2006-12-07 2008-06-26 Fuji Xerox Co Ltd 画像処理装置及びプログラム
CN101329677A (zh) * 2008-05-07 2008-12-24 裴亚军 基于图像内容的图像搜索引擎
WO2010102515A1 (en) * 2009-03-11 2010-09-16 Hong Kong Baptist University Automatic and semi-automatic image classification, annotation and tagging through the use of image acquisition parameters and metadata
US20100250588A1 (en) * 2009-03-30 2010-09-30 Casio Computer Co., Ltd. Image searching system and image searching method
CN101853295A (zh) * 2010-05-28 2010-10-06 天津大学 一种图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈涛: "基于网页关联特征的互联网图像自动标注系统", 《中国优秀硕士学位论文全文数据库》, 26 June 2007 (2007-06-26), pages 15 - 40 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186532B (zh) * 2011-12-27 2019-05-10 腾讯科技(北京)有限公司 网页中关键图片的抓取方法和装置
CN103186532A (zh) * 2011-12-27 2013-07-03 腾讯科技(北京)有限公司 网页中关键图片的抓取方法和装置
CN102609458B (zh) * 2012-01-12 2015-08-05 北京搜狗信息服务有限公司 一种图片推荐方法和装置
CN102609458A (zh) * 2012-01-12 2012-07-25 北京搜狗信息服务有限公司 一种图片推荐方法和装置
CN104106065B (zh) * 2012-02-10 2017-12-08 国际商业机器公司 用于演示搜索结果的在上下文中的显示的方法和系统
CN104106065A (zh) * 2012-02-10 2014-10-15 国际商业机器公司 演示搜索结果的在上下文中的显示
CN102682095B (zh) * 2012-04-27 2015-06-10 百度在线网络技术(北京)有限公司 用于配对图片搜索的方法和提供配对图片的搜索系统
CN102682095A (zh) * 2012-04-27 2012-09-19 百度在线网络技术(北京)有限公司 用于配对图片搜索的方法和提供配对图片的搜索系统
CN103425644A (zh) * 2012-05-14 2013-12-04 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN103425644B (zh) * 2012-05-14 2016-04-06 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN103425715A (zh) * 2012-05-25 2013-12-04 百度在线网络技术(北京)有限公司 一种确定图片文本标注的方法和系统
CN103425715B (zh) * 2012-05-25 2016-06-29 百度在线网络技术(北京)有限公司 一种确定图片文本标注的方法和系统
CN102902737A (zh) * 2012-09-12 2013-01-30 西安交通大学 一种网络图像自主收集与筛选方法
CN102902737B (zh) * 2012-09-12 2015-08-05 西安交通大学 一种网络图像自主收集与筛选方法
CN102902821B (zh) * 2012-11-01 2015-08-12 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
CN102902821A (zh) * 2012-11-01 2013-01-30 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
CN103793434A (zh) * 2012-11-02 2014-05-14 北京百度网讯科技有限公司 一种基于内容的图片搜索方法和装置
CN103106239A (zh) * 2012-12-10 2013-05-15 江苏乐买到网络科技有限公司 一种图像中对象的识别方法和装置
CN103646074B (zh) * 2013-12-11 2017-06-23 北京奇虎科技有限公司 一种确定图片簇描述文本核心词的方法及装置
CN103744970A (zh) * 2014-01-10 2014-04-23 北京奇虎科技有限公司 一种确定图片的主题词的方法及装置
CN104090929A (zh) * 2014-06-23 2014-10-08 吕志雪 一种个性化图片推荐方法及装置
CN104268283A (zh) * 2014-10-21 2015-01-07 浪潮集团有限公司 一种自动解析互联网网页的方法
US11741094B2 (en) 2017-10-12 2023-08-29 Beijing Jingdong Shangke Information Technology Co., Ltd. Method and system for identifying core product terms
WO2019072098A1 (zh) * 2017-10-12 2019-04-18 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
CN107832338A (zh) * 2017-10-12 2018-03-23 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
CN107832338B (zh) * 2017-10-12 2020-02-07 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
CN108874853A (zh) * 2018-04-02 2018-11-23 焦点科技股份有限公司 一种构造人脸图库的方法
CN108874853B (zh) * 2018-04-02 2019-08-02 焦点科技股份有限公司 一种构造人脸图库的方法
CN109033385A (zh) * 2018-07-27 2018-12-18 百度在线网络技术(北京)有限公司 图片检索方法、装置、服务器及存储介质
CN109033385B (zh) * 2018-07-27 2021-08-27 百度在线网络技术(北京)有限公司 图片检索方法、装置、服务器及存储介质
US11210334B2 (en) 2018-07-27 2021-12-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, server and storage medium for image retrieval
CN109753609A (zh) * 2018-08-29 2019-05-14 百度在线网络技术(北京)有限公司 一种多意图查询方法、装置以及终端
CN109743521B (zh) * 2018-12-25 2021-10-08 深圳云天励飞技术有限公司 视频数据传输方法、装置、电子设备和存储介质
CN109743521A (zh) * 2018-12-25 2019-05-10 深圳云天励飞技术有限公司 视频数据传输方法、装置、电子设备和存储介质
CN110955792A (zh) * 2019-12-13 2020-04-03 云粒智慧科技有限公司 一种基于图片的搜索方法、装置、电子设备及存储介质
CN111382341A (zh) * 2020-03-23 2020-07-07 湖南城市学院 一种基于大数据的科技信息资源检索查询系统及方法
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113033193B (zh) * 2021-01-20 2024-04-16 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法

Similar Documents

Publication Publication Date Title
CN102270234A (zh) 一种图像搜索方法及其搜索引擎
CN106354861B (zh) 电影标签自动标引方法及自动标引系统
CN102156737B (zh) 一种中文网页主题内容的提取方法
CN102253979B (zh) 基于视觉的web页面萃取方法
CN109582945B (zh) 文章生成方法、装置及存储介质
CN109033358A (zh) 新闻聚合与智能实体关联的方法
CN104598577B (zh) 一种网页正文的提取方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
WO2015172567A1 (zh) 一种互联网信息搜索聚合呈现方法
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN106021392A (zh) 一种新闻关键信息的提取方法及系统
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN104462540B (zh) 网页信息抽取方法
CN102306201B (zh) 一种网页标题分析的方法和系统
CN102955771A (zh) 中文单字串模式和词缀模式的新词自动识别技术及系统
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN103699591A (zh) 一种基于示例页面的网页正文提取方法
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN103530429A (zh) 一种网页正文抽取的方法
CN104679783A (zh) 一种网络搜索方法和装置
CN100447793C (zh) 基于视觉特征的页面查询接口抽取方法
JP2005063432A (ja) マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111207