CN102270234A

CN102270234A - 一种图像搜索方法及其搜索引擎

Info

Publication number: CN102270234A
Application number: CN2011102174771A
Authority: CN
Inventors: 王之越; 赵长海
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-08-01
Filing date: 2011-08-01
Publication date: 2011-12-07

Abstract

本发明提出一种图像搜索方法及其搜索引擎。所述方法通过将获得的图片进行全网爬取，获取相似图像，从相似图像的来源网页提取出图片的上下文和主题信息，最后根据图像语义特征和图像视觉特征，综合给出图像的搜索结果。图像搜索引擎包括获取模块、一次搜索模块、二次搜索模块、分词模块和确定模块，获取模块获得源图片，一次搜索模块获得相似图片集，二次搜索模块建立相似图片集网页信息的数据结构，分词模块对图片上下文标注位权，提取最长短语并标注词权，确定模块提取核心主题词，并爬取相关图片信息。本发明提供的一种更全面地利用图像搜索主题信息和相关图像的搜索引擎及搜索方法，用户可以根据不同场景产生不同的需求，并且达到特定的效果。

Description

一种图像搜索方法及其搜索引擎

技术领域

本发明涉及互联网搜索引擎技术，具体设计一种图像搜索引擎方法及其搜索引擎。

背景技术

一般的图像搜索引擎都基于两种方式，一是基于文字搜索图像，二是基于图像视觉特征搜索相似图像。第一种方式不能满足用户仅有图片来源时的搜索需求，第二种方式的搜索结果仅匹配相似图像，实用中的搜索结果和原图相似度极高，如搜索一张新闻人物的图片，可以得出互联网中同样人物、同一地点、同一动作的图片，而仅是来源网站的不同，但无法进一步了解图片主题所包含的深层信息。所以，想要通过图像获得该图像所包含的深层信息，如图像相关主题信息或者相关图像，利用目前的图像搜索引擎无法获得好的效果。

发明内容

本发明针对目前图像搜索引擎中只能搜索相似图像的不足，提出了一种图像搜索方法及其搜索引擎。

本发明的一种图像搜索方法，具体包括如下步骤：

步骤101：获得要进行搜索的源图片；

步骤102：从全网搜索与源图片相似的图片，获得相似图片集；所述的相似图片指在视觉特征上具有共性的图片；

步骤103：根据相似图片集，得出图片的核心主题词；

步骤104：根据得到的图片的核心主题词，爬取相关图片信息，并根据图像相似算法，去除相似图片，留下相关图片；所述的相关图片指的是语义特征上具有共性的图片。

步骤103具体还包括如下步骤：

步骤201：建立相似图片集的网页信息的数据结构，将相似图片集中的每张图片的网页信息都存储在该数据结构中；

步骤202：针对相似图片集中的每张图片，根据该图片来源的网页地址，爬取来源网页的HTML，生成HTML树，并从HTML树中提取图片上文和图片下文；

步骤203：对提取的每张图片的图片上文和图片下文标注位权；

步骤204：对每张图片的图片上文和图片下文的语段进行分析，通过最长短语划分法提取出最长短语，并对提取出来的最长短语标注词权，获得图片的核心主题词。

本发明的一种图像搜索引擎包括：获取模块、一次搜索模块、二次搜索模块、分词模块和确定模块。

所述的获取模块获得要进行搜索的源图片并将源图片传送给一次搜索模块；

所述的一次搜索模块根据源图片获得相似图片集，并将相似图片集传送给二次搜索模块，所述的相似图片指在视觉特征上具有共性的图片；

所述的二次搜索模块建立相似图片集的网页信息的数据结构，针对相似图片集中的每张图片，根据该图片来源的网页地址，爬取来源网页的HTML，生成HTML树，并从HTML树中提取图片上文和图片下文；

所述的分词模块对二次搜索模块提取出每张图片的图片上文和图片下文标注位权，并对每张图片的图片上文和图片下文的语段进行分析，通过最长短语划分法提取出最长短语，并对提取出来的最长短语标注词权，将提取出来的最长短语存入最长短语的数据结构中；

所述的确定模块用于对提取出来的所有最长短语，依据最长短语的位权与词权乘积从大到小的顺序进行排序，在删除网络常见短语后，将前1-5个最长短语作为图片的核心主题词，并根据图片的核心主题词，爬取相关图片信息，根据图像相似算法去除相似图片，留下相关图片，所述的相关图片指的是语义特征上具有共性的图片。

本发明的优点与积极效果在于：本发明实现了图像的主题信息提取功能，提供的一种更全面地利用图像搜索主题信息和相关图像的搜索引擎及搜索方法，此外本发明还能提供相关图像结果和主题的详细维基百科信息，用户可以根据不同场景产生不同的需求，并且达到特定的效果。

附图说明

图1是本发明的图像搜索方法的流程图；

图2是本发明的图像搜索方法的具体实施例示意图；

图3是本发明的图像搜索引擎的结构示意图；

图4是本发明实施例中所提交的用于搜索的源图片；

图5是根据图4所示的源图片得到的相似图片集；

图6是本发明实施例相似图片集生成的HTML树的结构示意图；

图7是最长短语划分法的一个实施例示意图；

图8是搜索结果得到的相关图片集。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

如图1所示，本发明的图像搜索引擎方法包括：

步骤101：获得要进行搜索的源图片。具体地，源图片可以是通过本地上传获得，也可以通过提交图片网址(URL)来获得，也可以通过电脑摄像头拍摄获得等。

步骤102：从全网搜索与提供的源图片相似的图片，获得相似图片集。具体地，获取相似图片集的方法是采用现有技术的图像搜索引擎和图像相似度算法得到的。相似图片指在视觉特征上具有共性的图片。现有技术的图像搜索引擎和图像相似度算法是先把图像划分为小块，并且对每一小块进行直方图分析和边缘提取，再对已划分的多块图像的直方图数组和边缘向量求出方差，当方差小于一定值时，认为两幅图片相似。

如图5所示，为本发明的一个实施例，图5所示的为根据图4的源图片所得到的相似图片集。其中，图片的整体色彩、纹理、结构等基本图像特征都是相似的，即满足视觉特征上具有共性的特点，区别在于，由于不同的图像来源于不同的网站，所以其大小、引用网址会有不同。

步骤103：根据相似图片集，得出图片主题。具体地，通过相似图片集中每个图片的URL，进入网页，对相似图片的上、下文语段进行主题提取，提取后，将所有主题词进行频率统计，出现率最高的五个词语作为图片的核心主题词。

步骤104：得出图片的核心主题词后，沿用现有的图片搜索引擎，爬取相关图片信息，并且根据图像相似算法，去除相似图片，使得留下相关图片。如图8所示，本发明实施例中，经步骤104得到的结果图片与图4所示的源图片具有共同的语义“马云，阿里巴巴”，但不具有图像处理学的色彩、纹理、结构等相似特征。所述的相关图片指的是语义特征上具有共性的图片。

如图2所示，步骤103中具体根据相似图片集，得到图片的核心主题词的过程如下：步骤201：建立相似图片集的网页信息的数据结构。相似图片集中的每一张图片的网页信息都存储在统一的数据结构中。所述的建立的统一的图片的网页信息的数据结构包括如下数据项：图片缓存地址、目标图片地址、图片来源的网页地址(URL)、图片来源的解析主机(Host)、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号、图片文件名、图片上文以及图片下文。所述的图片的网页信息存储的数据结构如表1所示。

表1存储网页信息的数据结构

图片缓存地址	目标图片地址
		图片来源URL	图片来源Host
目标图片宽	目标图片高
		图片格式类型	文件大小
来源网页标题	图片摘要
		图片序号	图片文件名
图片上文	图片下文

在采用现有技术的图像搜索引擎和图像相似度算法后，每一张图片对应的数据结构中应填写了这些项的内容：图片缓存地址、目标图片地址、图片来源URL、图片来源Host、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号和图片文件名。图片上文和图片下文的内容还没有提取，内容为空。

步骤202：根据相似图片集中的“图片来源URL”，爬取来源网页的HTML(Hyper TextMark-up Language，超文本标记语言)，生成HTML树。生成的HTML树中，每一个节点对应网页中一个基本元素。已知HTML语言中，包含有“＜img＞”标签的即是图片节点。利用正则表达式，对HTML树的“目标图片”节点进行分析，提取图片的上、下文。图片上、下文的提取方法是一样的，以提取图片上文为例说明提取的流程如下：

如图6所示，N(img)为目标图片节点，N(p)为文本节点。超文本链接节点用N(a)表示，当前遍历的节点指针用N(now)表示。

步骤1：将N(now)指向N(img)。

步骤2：搜索N(now)的前邻节点集，遍历前邻节点集以及前邻节点集中的节点的子树，从中寻找N(p)，遍历顺序是：在前邻节点集按照从右侧子树向左侧子树的顺序，即从右到左的顺序依次遍历节点及该节点的子树，在遍历某个节点的子树时，先访问根结点，然后仍然按照由右侧子树向左侧子树的顺序进行遍历，若有N(p)则进入步骤5，若无N(p)则进入步骤3。所述的前邻节点集定义为：在HTML树中查找某节点M的父节点，按照从左到右的顺序得出该父节点的第一层子节点的集合Φ，集合Φ中位于该节点M之前的节点，称为前邻节点集。

步骤3：返回N(now)的父节点，该父节点记为N(F)，寻找是否存在N(p)，若有N(p)或N(F)为HTML树的根节点则进入步骤5，否则进入步骤4；

步骤4：搜索N(F)的前邻节点集，遍历该前邻节点集以及该前邻节点集中的节点的子树，从中寻找N(p)，遍历顺序是：在前邻节点集中按照从右侧子树向左侧子树的顺序，即从右到左的顺序依次遍历节点及该节点的子树，在遍历前邻节点集中的某个节点的子树时，先访问该子树的根结点，然后仍然按照由右侧子树向左侧子树的顺序遍历。例如所述的前邻节点集中的某节点为N(F′)，进入N(F′)遍历该节点N(F′)的子树，按照从右侧子树向左侧子树的顺序遍历N(F′)的子树，寻找N(p)。若N(F)的前邻节点集以及该前邻节点集中的节点的子树中有N(p)则进入步骤5，若无N(p)则将N(F)标记为新的N(now)，并进入步骤3。

步骤5：搜索结束。

搜索时，跳过N(a)，一般把超文本链接作为噪声去除，但并不去除链接中含有的文字属性。

如图6所示，目标图片节点N(img)位于节点8，上文文本节点N(p)位于节点5。首先，N(now)将指向节点8，搜索节点8的前邻节点集，集合为空。接着，返回N(img)的父节点4，标记为N(F)。在N(F)中仍不包含文本节点N(p)。搜索N(F)的前邻节点集2，3，在2中递归搜索到文本节点N(p)，搜索结束。

同样的方法可以得到图片下文，只需将前邻节点集换成后邻节点集，并且在后邻节点集以及后邻节点集中的节点的子树中寻找N(p)时，采用的遍历顺序为：在后邻节点集中按照从左到右的顺序依次遍历节点及该节点的子树，在遍历某个节点的子树时，先访问作为根节点的该节点，然后按照由左侧子树向右侧子树的顺序遍历。所述的后邻节点集的定义为：在HTML树中查找某节点M的父节点，按照从左到右的顺序得出该父节点的第一层子节点集合Φ，集合Φ位于该节点M之后的节点组成后邻节点集。

得出图片的上、下文之后，存入相似图片集中各图片的数据结构中。

步骤203：标注位权。位权是针对文本节点N(p)而言的。在HTML树中，位权＝图片节点N(img)到文本节点N(p)的遍历节点个数-遍历过程中试探不正确的叶子节点个数。

如图6，图片节点N(img)到文本节点N(p)遍历了节点4，3，7，2，6，5，共6个节点，而遍历过程中试探不正确的子节点包括6，7，共2个节点，故图6中N(p)的位权为4。步骤204：标注词权。词权针对单个词语的词性进行标记，并不受该词在上下语段中位置的影响。进入每个图片上文和图片下文的语段进行分析，沿用现有技术的中英文分词方法和本发明的最长短语划分法提取出主要名词和特殊分类名词如人名、地名、商标、型号，并标以不同的词权。所述的中英文分词方法是采用最大熵模型，根据预设词语库，逐个遍历句子中的词语，并对词性组合进行评分，对于句尾不能单独成词的组合方式进行扣分，取出最适合的分词方式。

本发明的最长短语划分法流程如下：

步骤A：采用中英文分词方法把语段划分为粒度较细的词语，并分别标注词性；

步骤B：对语段进行前序遍历和后序遍历两次遍历，使用预先设定的语法库对词性进行贪心算法，在不符合匹配点处标记断点；所述的贪心算法是指，在对问题求解时，总是做出在当前看来是最好的选择，也就是说，不从整体最优上加以考虑，它所做出的仅是在某种意义上的局部最优解。

步骤C：对两次遍历后得到的最长短语取并集，提取出最长短语，以共同出现的最高频词性标记。

如图7所示，根据最大熵模型，可以将“中国人民广播电台”划分为“中国/人民/广播/电台/”，并标注词性，ns为地理名词，na为机构名词，n为普通名词。此时粒度较细，需再进行最长短语划分。先进行前序遍历，从“中国”一词开始遍历至“电台”，由于“中国人民”一词的词性组合“ns+n”满足语法库中预设的匹配，而“中国人民广播”一词的词性组合“ns+n+n”不满足语法库中预设的匹配，故在“广播”一词处标记可能断点。再进行后序遍历，方法基本同前序遍历，只需从“电台”一词开始遍历至“中国”即可，由于“广播电台”(“n+na”)，“人民广播电台”(“n+n+na”)，“中国人民广播电台”(ns+n+n+na)都满足语法库中预设的匹配，故“中国人民广播电台”是后序遍历时认为的最长短语。最后，将两次遍历得到的最长短语取并集，得出“中国人民广播电台”一词为该句中的一个最长短语。最长短语划分法结束。

对所有最长短语进行词权标注，依据最长短语的位权与词权乘积从大到小的顺序进行排序，整理得到词权的排序表，每个最长短语的数据结构如表2所示，包括：最长短语的内容，词性，词频和最长短语的位置。通过删除网络常见短语，滤去噪声，最后根据相似图片集的规模大小，提取出前1-5个核心词，作为图片的主题。

表2

最长短语

词性

词频

位置

图3是利用本发明实施例的搜索装置的主要结构图，参照该图，该搜索装置主要包括：获取模块301、一次搜索模块302、二次搜索模块303、分词模块304和确定模块305。

获取模块301获取源图片传送给一次搜索模块302，一次搜索模块302根据源图片得到相似图片集，并将相似图片集传送给二次搜索模块303，二次搜索模块303建立相似图片集中每张图片的网页信息数据结构，并根据每张图片的图片来源的网页地址，进入图片来源的网页进行爬取HTML，生成HTML树，从HTML树中提前图片的上、下文。分词模块304根据每张图片的图片上、下文得出图像的主题词集合。确定模块305。

获取模块301用于获得要进行搜索的源图片，具体地，该源图片获取可以是本地上传，提交图片网址(URL)，通过电脑摄像头拍摄等。

一次搜索模块302用于根据源图片得到相似图片集，具体地，获取相似图片集的方法是采用的现有技术的图像搜索引擎和图像相似度算法得到。相似图片指在视觉特征上具有共性的图片。现有技术的图像搜索引擎和图像相似度算法是先把图像划分小块，并且对每一小块进行直方图分析和边缘提取，再对已划分的多块图像的直方图数组和边缘向量求出方差。当方差小于一定值时，认为两图相似。

二次搜索模块303用于根据相似图片集得到来源网页集，具体地，首先建立网页信息数据结构，将相似图片集中的每张图片的网页信息存入该数据结构；其次，根据相似图片集中每张图片的来源网页URL，进入网页爬取HTML，生成HTML树，并且对HTML树进行图片上、下文提取，将提取的图片上文和图片下文存入所述的网页信息的数据结构中。所建立的网页信息的数据结构包括的数据项为：图片缓存地址、目标图片地址、图片来源的网页地址、图片来源的解析主机、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号、图片文件名、图片上文以及图片下文。

分词模块304用于根据上、下文得出图像的主题词集合，首先建立最长短语的数据结构，然后对图片上、下文通过采用最大熵模型的中英文分词方法进行语段划分，并标注划分得到的每个词语的词性，再对语段分别进行前序遍历和后序遍历，使用预先设定的语法库对词性进行贪心算法，在不符合匹配点处标记断点，在两次遍历后将得到的最长短语取并集，得出最长短语，存入最长短语的数据结构，以共同出现的最高频词性标记。

确定模块305用于得出图片的核心主题词，具体是对最长短语的数据结构中的各最长短语计算位权×词权的值，并按照位权×词权的值从大到小的顺序进行排序，并将得出的前一到五位词语作为图片的核心主题词。并根据图片的核心主题词，爬取相关图片信息，根据图像相似算法去除相似图片，留下相关图片，所述的相关图片指的是语义特征上具有共性的图片。所述的位权＝图片节点到文本节点所遍历的节点个数-遍历过程中试探不正确的叶子节点个数。所述的图片节点、文本节点以及遍历过程中试探不正确的叶子节点都为HTML树中的节点，所述的文本节点指代表图片上文或者图片下文的节点。

以上所述是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种图像搜索方法，其特征在于，具体包括如下步骤：

步骤101：获得要进行搜索的源图片；

步骤103：根据相似图片集，得出图片的核心主题词；本步骤具体包括如下过程：

步骤204：对每张图片的图片上文和图片下文的语段进行分析，通过最长短语划分法提取出最长短语，并对提取出来的最长短语标注词权，获得图片的核心主题词；

2.根据权利要求1所述的一种图像搜索方法，其特征在于，步骤201所述的网页信息的数据结构包括的数据项为：图片缓存地址、目标图片地址、图片来源的网页地址、图片来源的解析主机、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号、图片文件名、图片上文以及图片下文。

3.根据权利要求1所述的一种图像搜索方法，其特征在于，步骤202中所述的从HTML树中提取图片上文的具体方法是：

步骤1：将N(now)指向N(img)；其中，N(now)表示当前遍历的节点指针，N(img)表示目标图片节点；

步骤2：搜索N(now)的前邻节点集，在前邻节点集中顺序寻找N(p)，若有N(p)则进入步骤5，若无N(p)则进入步骤3；其中，N(p)表示文本节点；所述的前邻节点集定义为：在HTML树中查找某节点M的父节点，按照从左到右的顺序得出该父节点的第一层子节点的集合Φ，集合Φ中位于该节点M之前的节点组成了前邻节点集；

步骤4：搜索N(F)的前邻节点集，在该前邻节点集中顺序寻找N(p)，若有N(p)则进入步骤5，若无则将N(F)标记为新的N(now)，进入步骤3执行；

步骤5：搜索结束；

在上述搜索过程中，跳过超文本链接节点N(a)；

所述的步骤2与步骤4中在前邻节点集中顺序寻找N(p)的遍历顺序是：按照从右到左的顺序，依次遍历前邻节点集中的节点及该节点的子树，对子树的遍历按照先访问根结点，然后由右侧子树向左侧子树的顺序进行遍历；

步骤202中所述的从HTML树中提取图片下文的方法与提取图片上文的方法相同，不同之处在于将前邻节点集换成后邻节点集，并且在后邻节点集中顺序寻找N(p)的遍历顺序是：在后邻节点集按照从左到右的顺序依次遍历节点及该节点的子树，在遍历某个节点的子树时，先访问该子树的根节点，然后再按照由左侧子树向右侧子树的顺序遍历；所述的后邻节点集为：在HTML树中查找某节点M的父节点，按照从左到右的顺序得出该父节点的第一层子节点集合Φ，集合Φ位于该节点M之后的节点组成后邻节点集。

4.根据权利要求1所述的一种图像搜索方法，其特征在于，步骤203所述的位权的具体确定方法为：位权＝图片节点到文本节点所遍历的节点个数-遍历过程中试探不正确的叶子节点个数；所述的图片节点、文本节点以及遍历过程中试探不正确的子节点都为HTML树中的节点，所述的文本节点指代表图片上文或者图片下文的节点。

5.根据权利要求1所述的一种图像搜索方法，其特征在于，步骤204所述的最长短语划分法具体为：

步骤A：采用中英文分词方法把语段划分为粒度较细的词语，并分别标注词性；所述的中英文分词方法采用最大熵模型；

步骤B：对语段分别进行前序遍历和后序遍历，并在遍历过程中使用预先设定的语法库对词性进行贪心算法，在不符合匹配点处标记断点；

步骤C：从两次遍历后得到的最长短语取并集，提取出最长短语，以两次遍历共同出现的最高频词性为该最长短语进行标记。

6.根据权利要求1所述的一种图像搜索方法，其特征在于，步骤204所述的对提取出来的最长短语标注词权，获得图片的核心主题词的具体方法是：对所有最长短语进行词权标注，并依据最长短语的位权与词权乘积从大到小的顺序进行排序，每个最长短语的数据结构包括的数据项有：最长短语的内容、词性、词频和最长短语的位置，然后通过删除网络常见短语，最后提取出前1-5个最长短语作为图片的主题。

7.应用权利要求1所述的一种图像搜索方法的图像搜索引擎，其特征在于，所述的图像搜索引擎包括：获取模块、一次搜索模块、二次搜索模块、分词模块和确定模块；

8.根据权利要求7所述的一种图像搜索引擎，其特征在于，所述的二次搜索模块所建立的网页信息的数据结构包括的数据项为：图片缓存地址、目标图片地址、图片来源的网页地址、图片来源的解析主机、目标图片宽、目标图片高、图片格式类型、文件大小、来源网页标题、图片摘要、图片序号、图片文件名、图片上文以及图片下文。

9.根据权利要求7所述的一种图像搜索引擎，其特征在于，所述的分词模块，对图片上文和图片下文标注位权，所述的位权＝图片节点到文本节点所遍历的节点个数-遍历过程中试探不正确的叶子节点个数；所述的图片节点、文本节点以及遍历过程中试探不正确的叶子节点都为HTML树中的节点，所述的文本节点指代表图片上文或者图片下文的节点。