CN100414548C

CN100414548C - 综合利用图像及文字信息的搜索系统及搜索方法

Info

Publication number: CN100414548C
Application number: CNB2006100963921A
Authority: CN
Inventors: 虞正华
Original assignee: NANJING SEEKPAI INFORMATION TECHNOLOGY Co Ltd
Current assignee: Shanghai Bokang Intelligent Information Technology Co., Ltd.
Priority date: 2006-09-22
Filing date: 2006-09-22
Publication date: 2008-08-27
Anticipated expiration: 2026-09-22
Also published as: CN1952935A

Abstract

本发明涉及一种搜索系统及搜索方法，是一种综合利用图像及文字信息的搜索系统及搜索方法。包括：终端、服务器、文字输入模块、图像分析引擎、文字指令解析模块、搜索引擎、无线通信链路。将终端拍摄的图片及文字输入模块输入的文字通过无线通信链路送到服务器，对用户输入的文字指令进行解析，用限定性关键词在一个基于文字的图像搜索引擎中搜索图像，分析输入图像内容获得特征向量，结合特征向量以及描述性关键词及其权重在一个基于图像内容的搜索引擎中进行搜索，产生输出给用户的搜索结果。本发明可使搜索结果与用户输入信息匹配得更好，不会导致信息浪费，从而使搜索结果更准确。

Description

综合利用图像及文字信息的搜索系统及搜索方法

技术领域

本发明涉及一种搜索系统及搜索方法，具体的说，是一种综合利用图像及文字信息的搜索系统及搜索方法。

背景技术

通过一个移动终端，例如移动电话，掌上电脑，对远端的服务器的内容进行搜索，是一种新型的搜索方式。根据输入查询方式的不同，现有的移动图像的搜索有三种方式。最常见的移动搜索是采用文字搜索的方式。在这种方式中，数据库中的图像采用人工或自动的方法用文字进行标注，而搜索通过文字的匹配进行。但是很多时候，只用文字难以描述搜索的对象。在移动电话的应用中，输入大量文字也不方便。

另一种移动搜索的方式是采用图像搜索的界面。采用自动图像识别的方法，可以方便用户输入检索的目标。MOBOT公司及NEVEN VISION公司都推出过这方面的服务。但是他们都还是针对一些特殊的应用，例如广告推广，这种情况下的图片数据库是比较小的，待识别的对象也是有限的。另一方面来说，在很长的一段时间内，对于很广泛的图像，例如互联网图片库，完全自动图像识别的方法的准确率尚有不足之处。另外，如果待搜索的数据库很大，那么搜索需花费的时间也可能很长。

最近的研究提出了第三种方式，即文字与图像相结合的搜索方式。Tom Yeh等人提出跟据用户上传的图片，首先在一个精简的图片集中进行基于图像内容的图像搜索，然后根据搜索到的图片，导出关键词，再根据这些关键词在一个文字搜索引擎(例如GOOGLE)中进行基于文字的图像搜索，然后从文字搜索得到的图片中，再进行基于图像内容的图像搜索，最终得到结果。Xin Fan等人提出了另一种文字与图像相结合的搜索方式。在他们的方案中，首先利用用户上传的文字在一个文字搜索引擎(例如GOOGLE)中进行基于文字的图像搜索，然后在文字搜索的结果中，进行基于图像内容的图像搜索，从而得到搜索结果。

在以上的两个文字与图像相结合的搜索方式，一个共同的缺点是虽然他们利用了文字及图像信息，但是他们在具体每一步搜索的过程中，图像与文字的信息是分开单独使用的。例如，在进行基于图像内容的图像搜索的时候，前述方法完全没有利用文字信息。这并不是最有效的方式。举一个简单的例子，用户上传一张汽车的照片，并附两个搜索关键词：“汽车”，“红色”，如果采用Xin Fan等人的方法，用“汽车”，“红色”作为关键词在文字搜索引擎搜索，就会导致两个问题。第一个问题是因为文字搜索引擎依靠的是相关页面的文字描述，如果页面只有“汽车”而没有“红色”这两个文字，汽车的图像就会漏掉，虽然它们也是红色的。第二个问题是虽然用户指定了搜索的特征“红色”，但是这信息没有用到基于图像内容的图像搜索过程中，所以该信息被浪费了。

发明内容

本发明的目的在于提出一种可使搜索结果与用户输入信息匹配得更好，不会导致信息浪费的综合利用图像及文字信息的搜索系统及搜索方法。

本发明的目的可以通过以下技术方案来实现：

综合利用图像及文字信息的搜索系统，包括：

终端，终端内设置有图像采集模块，用以采集或获得图像；

服务器，获得搜索的结果；

文字输入模块，提供文字搜索指令；

图像分析引擎，分析用户输入的图像内容；

文字指令解析模块，解析用户输入的文字；

搜索引擎，同时利用图像内容及文字指令进行搜索；

无线通信链路，在终端和服务器之间传送搜索指令及图象的内容，并传送从服务器获得搜索的结果。

本发明的综合利用图像及文字信息的搜索方法，包括以下步骤：

(1)将终端拍摄的图片及文字输入模块输入的文字指令通过无线通信链路送到服务器；

(2)对用户通过输入模块输入的文字指令进行解析，解析结果包括至少两部分关键词，一部分为限定性的关键词，用以限定搜索对象的范围，而另一部分为描述性的关键词，用以描述搜索对象的外部特征；

(3)用限定性关键词在一个基于文字的图像搜索引擎中搜索图像；

(4)在步骤(3)搜索得到的图像集中，结合用户上传的图像内容以及描述性关键词及其权重在一个基于图像内容的搜索引擎中进行搜索；

(5)根据步骤(4)的搜索结果，产生输出给用户的搜索结果。

本发明的综合利用图像及文字信息的搜索方法，还可以按以下步骤进行：

(1)对终端拍摄的图片提取特征向量，对用户输入的文字指令进行解析及提取输入文字指令的特征向量，用户输入文字指令的解析结果包括至少两部分关键词，一为限定性的关键词，用以限定搜索对象的范围，而另一部分为描述性的关键词，用以描述搜索对象的外部特征；

(2)将对步骤(1)提取的图片特征向量和文字特征向量以及对用户输入的文字指令进行解析所得的限定性关键词、描述性关键词及其权重通过无线通信链路发送到服务器；

(4)在步骤(3)搜索得到的图像集中，结合传送到服务器的特征向量以及描述性关键词及其权重在一个基于图像内容的搜索引擎中进行搜索；

(5)根据步骤(4)的搜索结果，产生输出给用户的搜索结果。

本发明的目的还以可以通过以下技术措施来进一步实现：

前述的综合利用图像及文字信息的搜索系统，其中所述终端为移动终端(例如移动电话，掌上电脑)或互联网终端(例如个人计算机)，终端内设置有摄像头或图片存储空间。

前述的综合利用图像及文字信息的搜索系统，其中所述文字输入模块的文字输入方式为键盘输入方式，或者通过麦克风录入用户话音的语音识别方式。

前述的综合利用图像及文字信息的搜索系统，其中述图像分析引擎驻留于服务器中，或驻留于终端中，或部分驻留于终端中，部分驻留于服务器中。

前述的综合利用图像及文字信息的搜索系统，其中所述无线通信链路包括彩信(MMS)、电子邮件(EMAIL)以及无线应用通讯协议(WAP)。

前述的综合利用图像及文字信息的搜索方法，还可以包括重复图像判别步骤，所述重复图像判别步骤对输入的图像与已经处理过的其它图像进行重复图像对比，如果确认是重复图像，则根据以前识别的结果获得本次识别的结果，如果不是重复图像，则用限定性关键词在一个基于文字的图像搜索引擎中搜索图像。

前述的综合利用图像及文字信息的搜索方法，其中对用户输入的文字指令进行解析的方法为以下两种方法之一：①把名词作为限定性关键词，把形容词作为描述性关键词；②对所有词汇事先做一个查找表，把输入词汇映射到相应的限定性关键词和描述性关键词。

前述的综合利用图像及文字信息的搜索方法，其中基于文字的图像搜索引擎的实现方法为以下两种方法之一：①利用现有的公共图像搜索引擎，把限定性关键词输入给这些公共图像搜索引擎，得到满足搜索条件的图像；②通过构筑自有的检索系统，在这个检索系统中，把图像的关键词以及相关图像的地址放到数据库中，根据关键词查找图像。

前述的综合利用图像及文字信息的搜索方法，其中基于图像内容的搜索包括：

①对用户上传的图像内容提取特征向量，即提取输入查询图像中的颜色，纹理，及形状特征向量；

②对基于文字的图像检索引擎得到一组候选图像在特征向量数据库中查找，得到这些候选图像的特征向量；

③结合①和②中得到的特征向量以及描述性关键词及权重，进行排序并选择结果。

本发明的优点为：本发明有机地综合利用了文字及图像内容信息进行搜索。通过分析输入文字提取限定性关键词进行基于文字的图像搜索的方法，可以有效缩小待搜索图像的范围，提高搜索的准确性。通过分析输入文字提取描述性关键词的方式，把描述性的关键词和输入图像同时运用于基于图像内容的图像搜索引擎，根据描述性的关键词来调整基于图像内容的图像搜索引擎内部的参数，从而使结果与用户的输入匹配得更好，不会使用户输入的信息浪费，搜索效果更全面、更准确。

附图说明

图1为本发明的系统框图。

图2为本发明实施例一的流程图。

图3为本发明实施例二的流程图。

图4为本发明基于图像内容的检索的流程图。

具体实施方式

本发明提出了一个综合利用图像及文字信息的搜索系统，其系统框图如图1所示，包括一个终端和一个服务器，终端有内置的摄像头或图片存储空间以采集或获得图像，一个文字输入界面以提供搜索的指令，一个图像分析引擎以分析图像的内容，一个文字指令解析模块，一个搜索引擎同时利用图像内容及文字指令进行搜索，一个通信链路在终端和服务器之间传送搜索指令及图像的内容，另一个通信链路从服务器获得搜索的结果。本发明的终端包括移动终端(例如移动电话，掌上电脑)以及普通互联网终端(例如个人计算机)等。用于查询的图片可以通过终端内置的摄像头采集，终端也可内置图片存储空间，用于查询的图片从该空间中选取。文字输入界面可以采用键盘的输入方式，或者可以通过麦克风录入用户的话音，然后通过语音识别的方式获得用户输入的指令。图像分析引擎可以包括以下功能：检测识别图像中的人脸，文字，提取图像整体的或各个区域的颜色，纹理，形状特征，检测图像中的局部特征点并提取特征点的特征信息(例如使用SIFT-Scale Invariant Feature Transform尺度不变特征变换算法)，或者对图像进行频域变换(例如小波变换，傅立叶变换)等。图像分析引擎可以驻留于服务器中，或驻留于终端中，或部分驻留于终端中，部分驻留于服务器中。无线通信链路包括彩信(MMS)，电子邮件(EMAIL)以及无线应用通讯协议(WAP)。

实施例一

本发明实施例一发流程图如图2所示，综合利用图像及文字信息的搜索方法，按以下步骤进行：

1.将终端拍摄的图片及文字输入模块输入的文字通过无线通信链路送到服务器。

2.输入的图像与已经处理过的其它图像进行重复图像对比，如果确认是重复图像，则可以根据以前识别的结果获得本次识别的结果；如果不是，则进行下面的步骤。

3.对用户输入的文字指令进行解析，解析的结果包括至少两部分关键词，一部分为限定性的关键词，用以限定搜索对象的范围，而另一部分为描述性的关键词，用以描述搜索对象的外部特征。解析可以有多种实现方法，最简单的一个例子是把名词作为限定性关键词，把形容词作为描述性关键词。另外一个方法是对所有词汇事先做一个查找表，把输入词汇映射到相应的限定性关键词和描述性关键词。例如用户如果输入“花纹”这个查找词汇，那么可以把限定性关键词设为“花纹”以及“图案”(其中也包括把输入关键词扩展到内容相关的限定性关键词)，而把描述性关键词设为“纹理”。每个描述性关键词也可以附带一个权重系数用于基于内容的图像搜索。

3.用限定性关键词在一个基于文字的图像搜索引擎中搜索图像。

4.在文字搜索得到的图像集中，结合用户上传的图像内容以及描述性关键词及其权重进行搜索。由于本系统是个广泛的图像搜索系统，包括多种图像特征，因此如果得到描述性关键词及其权重，那么可以据此选择合适的图像特征作为搜索识别的依据。比如说，如果用户搜索的是人脸，那么可以100％的基于人脸特征。如果用户搜索的是可口可乐的商标，那么可以加权混合形状以及颜色(红色)的特征。

5.根据步骤4的搜索结果，产生输出给用户的搜索结果。这包括直接输出图像给用户，或者把与输出图像相关的链接发给用户等。

重复图像识别是一个可选模块，用以判断上传的图片是否已经上传过了。如果上传的照片非重复照片，则需要解析输入的查询文字。

本实施例用三种图像特征：颜色，纹理以及形状。在解析查询文字的时候，对于每个搜索词，利用以下形式的查找表：

上表中限定性关键词根据同义或包容性语义的物体名扩展。各个描述性关键词的权重根据各个特征对识别该物体的重要性确定，例如对于查询词“汽车”来说，形状是很重要的，但是汽车有各种各样的颜色，所以颜色通常是不重要的，除非用户特别指定颜色。当用户的输入指定了特征的属性时，则填入″某某特征″栏。例如，如果用户输入“红色”查询词，则得到如下的限定性关键词和描述性关键词：

如果用户输入多组查询词，则将他们各自得到的限定性关键词和描述性关键词结合在一起。缺省的组合方式为“与”，而如果用户输入了组合的方式，如“或”，则根据用户的指令进行组合。

例如，如果用户输入“汽车红色”查询词，则得到如下的限定性关键词和描述性关键词：

基于文字的图像检索引擎的一种实现方式是利用现有的公共图象搜索引擎如谷歌(GOOGLE)，雅虎(YAHOO)，百度等。把限定性关键词输入给这些公共图象搜索引擎，则可以得到满足搜索条件的图像。另外，我们也可以通过构筑自有的检索系统来实现。在这个系统中，把图像的关键词以及相关图像的地址放到数据库中，从而根据关键词可以查到图像。也可以对数据库建立索引以实现快速查找。

基于图像内容的检索的流程图如图4所示，可按如下步骤进行：①对用户上传的图像内容提取特征向量，即提取输入查询图像中的颜色，纹理，及形状特征向量；②对基于文字的图像检索引擎得到一组候选图像在特征向量数据库中查找，得到这些候选图像的特征向量；③结合①和②中得到的特征向量以及描述性关键词及权重，进行排序并选择最优的若干结果。提取特征向量模块负责提取输入查询图像中的颜色，纹理，及形状特征向量。颜色特征向量采用直方图的方式。对于输入的彩色图像(通常包括红，绿，蓝三种颜色)，首先转化为HSV(色相、饱和度和亮度)色度空间，然后建立166个分组的直方图。纹理特征可以采用MPEG-7标准中的边缘直方图描述符(EdgeHistogram Descriptor)实现。纹理特征可以采用MPEG-7标准中的曲率刻度空间(Curvature scale space)实现。

存储在数据库中的图像也采用上述的方法提取特征向量。提取特征向量可以事先进行，例如在存储新图像于数据库的时候进行。基于文字的图像检索引擎得到一组候选图像。通过在特征向量数据库查询的方式，可以得到这些候选图像的特征向量。

特征向量比对模块对输入查询图像的特征向量和数据库中的特征向量进行比对。比对即对图像一一计算相互的距离，而这距离受描述性关键词权重的影响。用数学公式表示，假定Ci，Ti，Si分别表示图像i的颜色，纹理，及形状特征向量。输入图像i，待查询图像集为A，则需要计算D_ij＝DC_ij×W_c+DT_ij×W_i+DS_ij×W_s，

&ForAll; j &Element; A,

其中Wc，Wt，Ws分别表示颜色，纹理及形状(描述性关键词)特征向量的加权权重(由解析输入的查询文字模块产生)，DCij，DTij，DSij表示图像i与图像j的颜色，纹理及形状特征向量的距离，Dij为图像i与图像j总体上的距离。颜色的距离可以用计算所有分组的相应的欧几里德距离的总和的方式实现，纹理及形状特征向量的距离采用相应的MPEG-7标准中的计算方法。

在用户输入指定颜色特性(例如，“红色”)的情况下，DCij(即颜色特征向量之间的距离)的计算方法需要做相应的调整。具体实现例如下：(1)事先构筑一个表示颜色的文字与直方图中的分组的对应关系表；(2)根据该表找到与输入的指定颜色相对应的直方图中的分组；(3)在计算直方图之间的距离的时候，增加步骤(2)找到的直方图分组的权重。增加的一种简单实现方法是增加权重为原来的N倍。N可以事先确定，例如设为2。另一种实现方法是对加权权重用一个高斯函数核进行调制，调制的中心分组对应输入的指定颜色。

排序模块对上一模块得到的所有的距离按其大小进行排序，然后可以选择最小的N个距离值。与这些值相对应的图像即为搜索的结果图像。

根据这些结果图像，“结果产生”模块可以根据数据库中的记录得到与这样图像对应的原始页面，并把这些页面的地址作为结果发给用户。另外一种方式是直接把搜索得到的“图像”作为结果发给用户。

一个应用的例子为：用户可以拍一张地毯的照片，同时输入文字“地毯”在彩信(MMS)的关键词，通过彩信发送该照片至服务器。服务器自动提取收到图片中的特征向量，并且在数据库中地毯类图片的特征向量中，与该特征向量进行匹配。最相近的一个或多个结果可以通过MMS返回给用户。结果中也可包括相关的链接或商品的供应信息等。

实施例二

本发明实施例一发流程图如图3所示，综合利用图像及文字信息的搜索方法，按以下步骤进行：

1.对终端拍摄的图片提取特征向量，对用户输入的文字指令进行解析及提取特征向量，解析的结果包括至少两部分关键词，一部分为限定性的关键词，用以限定搜索对象的范围，而另一部分为描述性的关键词，用以描述搜索对象的外部特征；

2.将对步骤1提取的图片和文字特征向量以及对用户输入的文字指令进行解析所得的限定性关键词、描述性关键词及其权重通过无线通信链路发送到服务器；

3.用限定性关键词在一个基于文字的图像搜索引擎中搜索图像；

4.在步骤3搜索得到的图像集中，结合传送到服务器的特征向量以及描述性关键词及其权重在一个基于图像内容的搜索引擎中进行搜索；

5.根据步骤4的搜索结果，产生输出给用户的搜索结果。

本实施例中，解析输入查询文字的单元位于移动终端中，解析得到的限定性关键词和描述性关键词及权重通过无线通道发送到服务器。同时，图像中的特征向量也在移动终端中提取，并且根据描述性关键词及权重，决定提取不同的图像特征向量。提取的图像特征向量通过无线通道发送到服务器。

本实施例的解析输入查询文字、基于文字的图像检索、基于图像内容的检索的方法与实施例一相同。

根据以上步骤的结果图像，“结果产生”模块可以根据数据库中的记录得到与这样图像对应的原始页面，并把这些页面的地址作为结果发给用户。另外一种方式是直接把搜索得到的“图像”作为结果发给用户。

本发明还可以有其它实施方法，凡采用同等替换或等效变换形成的技术方案，均落在本发明要求保护的范围之内。

Claims

1. 综合利用图像及文字信息的搜索方法，其特征在于：包括以下步骤：

(2)对用户通过文字输入模块输入的文字指令进行解析，解析的结果包括至少两部分关键词，一部分为限定性的关键词，用以限定搜索对象的范围，而另一部分为描述性的关键词，用以描述搜索对象的外部特征；

(5)根据步骤(4)的搜索结果，产生输出给用户的搜索结果。

2. 如权利要求1所述的综合利用图像及文字信息的搜索方法，其特征在于：还可以包括重复图像判别步骤，所述重复图像判别步骤对输入的图像与已经处理过的其它图像进行重复图像对比，如果确认是重复图像，则根据以前识别的结果获得本次识别的结果，如果不是重复图像，则用限定性关键词在一个基于文字的图像搜索引擎中搜索图像。

3. 如权利要求1所述的综合利用图像及文字信息的搜索方法，其特征在于：所述对用户输入的文字指令进行解析的方法为以下两种方法之一：①把名词作为限定性关键词，把形容词作为描述性关键词；②对所有词汇事先做一个查找表，把输入词汇映射到相应的限定性关键词和描述性关键词。

4. 如权利要求1所述的综合利用图像及文字信息的搜索方法，其特征在于：所述基于文字的图像搜索引擎的实现方法为以下两种方法之一：①利用现有的公共图象搜索引擎，把限定性关键词输入给这些公共图象搜索引擎，得到满足搜索条件的图像；②通过构筑自有的检索系统，在这个检索系统中，把图像的关键词以及相关图像的地址放到数据库中，根据关键词查找图像。

5. 如权利要求1所述的综合利用图像及文字信息的搜索方法，其特征在于：所述基于图像内容的搜索包括：

②在特征向量数据库中查找已经利用基于文字的图像搜索引擎得到的一组候选图像的特征向量；

6. 综合利用图像及文字信息的搜索方法，其特征在于：包括以下步骤进行：

(1)对终端拍摄的图片提取特征向量，对用户输入的文字指令进行解析及提取用户输入文字指令的特征向量，用户输入文字指令的解析结果包括至少两部分关键词，一部分为限定性的关键词，用以限定搜索对象的范围，而另一部分为描述性的关键词，用以描述搜索对象的外部特征；

(4)在步骤(3)搜索得到的图像集中，结合传送到服务器的图片特征向量以及描述性关键词及其权重在一个基于图像内容的搜索引擎中进行搜索；

(5)根据步骤(4)的搜索结果，产生输出给用户的搜索结果。

7. 如权利要求6所述的综合利用图像及文字信息的搜索方法，其特征在于：还可以包括重复图像判别步骤，所述重复图像判别步骤对输入的图像与已经处理过的其它图像进行重复图像对比，如果确认是重复图像，则根据以前识别的结果获得本次识别的结果，如果不是重复图像，则用限定性关键词在一个基于文字的图像搜索引擎中搜索图像。

8. 如权利要求6所述的综合利用图像及文字信息的搜索方法，其特征在于：所述对用户输入的文字指令进行解析的方法为以下两种方法之一：①把名词作为限定性关键词，把形容词作为描述性关键词；②对所有词汇事先做一个查找表，把输入词汇映射到相应的限定性关键词和描述性关键词。

9. 如权利要求6所述的综合利用图像及文字信息的搜索方法，其特征在于：所述基于文字的图像搜索引擎的实现方法为以下两种方法之一：①利用现有的公共图象搜索引擎，把限定性关键词输入给这些公共图象搜索引擎，得到满足搜索条件的图像；②通过构筑自有的检索系统，在这个检索系统中，把图像的关键词以及相关图像的地址放到数据库中，根据关键词查找图像。

10. 如权利要求6所述的综合利用图像及文字信息的搜索方法，其特征在于：所述基于图像内容的搜索包括：

①传送到服务器的图片特征向量，即输入查询图像中的颜色，纹理，及形状特征向量；