CN104077555B

CN104077555B - 一种识别图片搜索中坏例的方法和装置

Info

Publication number: CN104077555B
Application number: CN201310109158.8A
Authority: CN
Inventors: 董杰; 邹丽; 饶鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2019-01-15
Anticipated expiration: 2033-03-29
Also published as: CN104077555A

Abstract

本发明提供了一种识别图片搜索中坏例（badcase）的方法和装置，其中方法包括：将待识别query的图片搜索结果输入预先建立的badcase识别组合模型，获得待识别query是否是badcase的识别结果；其中badcase识别组合模型的建立包括：将包含已确定是badcase的query的图片搜索结果作为样本数据，分别训练两种以上的badcase特征子模型，分别调整各badcase特征子模型的模型因子使得各badcase特征子模型的识别准确率达到第一阈值以上；利用样本数据，训练由训练后得到的各badcase特征子模型串行构成的badcase识别组合模型，调组合模型的模型因子使得组合模型的识别准确率达到预设第二阈值以上。本发明能够在产品上线前实现图片搜索中badcase的自动识别。

Description

一种识别图片搜索中坏例的方法和装置

【技术领域】

本发明涉及计算机应用中的测试技术领域，特别涉及一种识别图片搜索中坏例的方法和装置。

【背景技术】

图片搜索的关键质量和功能是提供与用户输入搜索关键词存在高相关性和高质量的图片，然而在实际情况下图片搜索引擎可能会针对某些搜索关键词的搜索结果存在文不对图、低质量图片排名靠前等问题，这些问题称为图片搜索引擎的坏例（badcase），识别图片搜索引擎的badcase对于提高搜索质量十分重要。

现有图片搜索引擎的badcase识别方式主要存在以下两种：

第一种是通过人工观察的方式，这种方式虽然比较准确，但效率低，面对海量的搜索关键词则无能为力。

第二种方式是对用户的线上日志进行用户行为分析，以用户不满意图片搜索效果时的行为特点来自动发现badcase。这种方式虽然提高了识别效率，但仅能够在产品上线后才能进行识别，而在产品上线之前则无法发现badcase，如果在上线后发现存在严重的badcase技术根因，则可能会发生产品版本回滚的风险。

【发明内容】

有鉴于此，本发明提供了一种识别图片搜索中badcase的方法和装置，以便于在产品上线前实现图片搜索中badcase的自动识别。

具体技术方案如下：

一种识别图片搜索中坏例badcase的方法，该方法包括：

将待识别query的图片搜索结果输入预先建立的badcase识别组合模型，获得所述待识别query是否是badcase的识别结果；

其中所述badcase识别组合模型的建立包括：

将包含已确定是badcase的query的图片搜索结果作为样本数据，分别训练两种以上的badcase特征子模型，分别调整各badcase特征子模型的模型因子使得各badcase特征子模型对badcase识别的准确率达到预设第一阈值以上；

利用所述样本数据，训练由训练后得到的各badcase特征子模型串行构成的所述badcase识别组合模型，调整所述badcase识别组合模型的模型因子使得所述badcase识别组合模型对badcase识别的准确率达到预设第二阈值以上。

根据本发明一优选实施方式，所述badcase特征子模型为：小图策略子模型、词项间距策略子模型、博客策略子模型或摘要黑名单子模型。

根据本发明一优选实施方式，所述小图策略子模型的模型因子包括：小图的大小上限标准、小图的分布位置标准、识别出badcase时对应的搜索结果的首页命中小图数量、搜索结果首页首张图片不是小图时小图策略子模型是否参与在badcase识别组合模型中badcase的识别中的至少一种；

所述词项间距策略子模型的模型因子包括：query被切分为2个词项时的词项间距；

所述博客策略子模型的模型因子包括：搜索结果首页中每张图片的原始网址是否含有字符串blog；

所述摘要黑名单子模型的模型因子包括：搜索结果首页中每张图片的摘要描述是否含有黑名单中的字符。

根据本发明一优选实施方式，所述badcase识别组合模型的模型因子包括：识别为badcase时搜索结果首页的图片中命中各子模型之一的图片数量。

根据本发明一优选实施方式，预设各模型因子的取值范围，分别在各模型因子的取值范围内调整各模型因子。

一种识别图片搜索中badcase的装置，该装置包括：

模型建立单元，用于建立badcase识别组合模型；

坏例识别单元，用于将待识别query的图片搜索结果输入预先建立的badcase识别组合模型，获得所述待识别query是否是badcase的识别结果；

其中所述模型建立单元具体包括：

第一训练子单元，用于将包含已确定是badcase的query的图片搜索结果作为样本数据，分别训练两种以上的badcase特征子模型，分别调整各badcase特征子模型的模型因子使得各badcase特征子模型对badcase识别的准确率达到预设第一阈值以上；

第二训练子单元，用于利用所述样本数据，训练由训练后得到的各badcase特征子模型串行构成的所述badcase识别组合模型，调整所述badcase识别组合模型的模型因子使得所述badcase识别组合模型对badcase识别的准确率达到预设第二阈值以上。

根据本发明一优选实施方式，预设各模型因子的取值范围，所述第一训练子单元和第二训练子单元分别在各模型因子的取值范围内调整各模型因子。

由以上技术方案可以看出，本发明利用包含已确定是badcase的query的图片搜索结果作为样本数据，利用搜索结果页面图片的特征对各子模型进行训练，并最终训练得到由各子模型串行构成的badcase识别组合模型，利用该badcase识别组合模型就能够对待识别query是否为badcase进行识别。一方面无需依靠人工完成，实现了全自动模式，节约了人力成本和时间成本；另一方面在产品上线前就能够实现badcase的识别，避免在产品上线后才发现存在重大质量问题而产生的版本回滚的风险。

【附图说明】

图1为本发明实施例一提供的建立badcase识别组合模型的过程示意图；

图2为本发明实施例二提供的识别图片搜索中badcase的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明不再是通过产品上线后的用户行为分析进行badcase识别，本发明的核心思想是从大量已知的图片搜索的badcase现象中，抽取出图片搜索输出的badcase现象共性，将这些现象作为因子融入识别模型来进行badcase识别。在此识别模型成为badcase识别组合模型，将待识别query的图片搜索结果输入该badcase识别组合模型，就能够输出待识别query是否是badcase的识别结果。该badcase识别组合模型由两种以上的badcase特征子模型（以下简称子模型）串行组合而成，可以是以下子模型中的至少两种：小图策略子模型、词项间距策略子模型、博客策略子模型和摘要黑名单子模型，本发明的下述实施例中均以同时包含该四种子模型为例进行描述。关键就是该badcase识别组合模型的建立，下面通过实施例一对badcase识别组合模型的建立过程进行详细描述。

实施例一、

在进行badcase识别组合模型的建立时，首先进行各子模型的训练，再对由各子模型串行组合后得到的badcase识别组合模型进行训练，即包括两部分训练过程，如图1中所示。

第一部分训练过程：将包含已确定是badcase的query的图片搜索结果作为样本数据，分别训练小图策略子模型、词项间距策略子模型、博客策略子模型和摘要黑名单子模型，分别调整各子模型的模型因子使得各子模型对badcase识别的准确率达到第一阈值以上。

通过对大量badcase现象进行分析后，发现当query的搜索结果存在以下几类特征时很大概率会是badcase：

特征1：出现大量小图，例如2k、4k或8k的小图；

特征2：很多文不对图的图片来自blog网址；

特征3：很多文不对图的图片文字摘要中存在“爆”、“疑似”等特殊文字；

特征4：当query被切分为2个词项时，词项之间的距离过大。

由于图片搜索的算法有数十个之多，上述特征无法与具体的算法进行一一对应，通常都体现为算法错误综合影响的结果，但如果发生上述特征之一，则通常可以确定图片搜索的相关性算法出错，就会产生文不对图、低质量图片排名靠前等badcase问题，基于此在本发明实施例中就采用了小图策略子模型、词项间距策略子模型、博客策略子模型和摘要黑名单子模型这四个子模型，各子模型的模型因子如下。

小图策略子模型的模型因子可以包括以下中的至少一种：

A1_Value：小图的大小上限标准，即多少k以下大小的图片被认为是小图。

A2_Value：小图的分布位置标准，即分布在什么位置的图片适合作为小图的判别范围。

A3_Value：识别出badcase时对应的搜索结果的首页命中小图数量，即当一个query的搜索结果的首页命中多少张小图会被认为是badcase。

A4_Value：搜索结果首页首张图片不是小图时小图策略子模型是否参与在badcase识别组合模型中badcase的识别。

词项间距策略子模型的模型因子包括：

B_Value：query被切分为2个词项时的词项间距，即如果某query被切分为2个词项时，词项间的间距大于多少会被认为是badcase。

博客策略子模型的模型因子包括：

C_Value：搜索结果首页中每张图片的原始网址是否含有字符串blog，即如果某query的搜索结果首页中图片的原始网址包含有blog，会被认为是badcase。

摘要黑名单子模型的模型因子包括：

D_Value：搜索结果首页中每张图片的摘要描述是否含有黑名单中的字符，即如果某query的搜索结果首页中图片的摘要描述含有黑名单中的字符，会被认为是badcase。

另外，为了提升自动学习获得各子模型的效率，预设各模型因子的取值范围，各子模型的模型因子在调整时可以在预设的取值范围内选取。

本发明中采用的样本数据中包括有已确定是badcase的query的搜索结果，为了降低对非badcase的误判，还可以进一步包括已确定是非badcase的query的搜索结果。

该训练过程就是利用样本数据对每一个子模型进行单独的训练，自动调整每一个子模型的模型因子，使得单个子模型的badcase识别准确率能够达到第一阈值以上，例如60%以上。上述各子模型实际上就是分类模型，本发明在此并不限制所使用分类模型的具体类型，其输出的识别结果就是query是否是badcase，当然也可以采用更细粒度的分类结果，进一步将是badcase的query识别出是什么类型的badcase，例如是文不对图，还是低质量图片排在前面，当然如果是具体识别出query是什么类型的badcase，那么在样本数据中也需要已知已确定是badcase的query是哪种类型的badcase，来进行训练。

第二部分训练过程：将第一部分训练过程中训练得到的各子模型，即对对badcase识别的准确率达到预设第一阈值以上的各子模型，进行串行组合构成badcase识别组合模型，调整badcase识别组合模型的模型因子使得badcase识别组合模型对badcase识别的准确率达到预设第二阈值以上。

在该训练阶段各子模型采用的模型因子是第一部分训练阶段中调整得到的，在进行第二部分训练时，调整的是badcase识别组合模型的模型因子：

E_Value：识别为badcase时搜索结果首页的图片中命中各子模型之一的图片数量，即如果某query的搜索结果首页的图片中命中各子模型之一的数量达到多少会被认为是badcase。

同样，为了提升自动学习获得badcase识别组合模型的效率，预设badcase识别组合模型的模型因子的取值范围，该模型因子在调整时在预设的取值范围内选取。

在该badcase识别组合模型中各子模型是串行的，这就意味着在进行识别时各子模型是按照串行顺序分别对输入的图片搜索结果进行识别的，各子模型在badcase识别组合模型中的串行顺序会影响badcase识别整体的准确率和效率，在此可以采用各子模型对badcase的识别准确率和识别效率中的至少一种来确定各子模型在badcase识别组合模型中的串行顺序，即识别准确率越高子模型在串行顺序中的排序越靠前，识别效率越高的子模型在串行顺序中的排序越靠前。

在进行第二部分训练过程时，采用的第二阈值优选大于第一阈值，例如当第一阈值为60%时，第二阈值可以采用85%。当然第二阈值也可以等于第一阈值甚至低于第一阈值。

以上是对本发明所提供的方法进行的描述，下面结合实施例二对本发明提供的装置进行详细描述。

实施例二、

图2为本发明实施例二提供的识别图片搜索中badcase的装置结构图，如图2所示，该装置可以包括：模型建立单元00和坏例识别单元10。

其中模型建立单元00用于建立badcase识别组合模型，该badcase识别组合模型由两种以上的badcase特征子模型串行组合而成，badcase特征子模型可以是小图策略子模型、词项间距策略子模型、博客策略子模型或摘要黑名单子模型。

坏例识别单元10用于将待识别query的图片搜索结果输入预先建立的badcase识别组合模型，获得待识别query是否是badcase的识别结果。

其中模型建立单元00具体包括：第一训练子单元01和第二训练子单元02。

第一训练子单元01完成各子模型的训练，具体为：将包含已确定是badcase的query的图片搜索结果作为样本数据，分别训练两种以上的badcase特征子模型，分别调整各子模型的模型因子使得各子模型对badcase识别的准确率达到预设第一阈值以上。

本发明中采用的样本数据中包括已确定是badcase的query的搜索结果，为了降低对非badcase的误判，还可以进一步包括已确定是非badcase的query的搜索结果。

其中，小图策略子模型的模型因子可以包括以下中的至少一种：

词项间距策略子模型的模型因子包括：

博客策略子模型的模型因子包括：

摘要黑名单子模型的模型因子包括：

另外，为了提升自动学习获得各子模型的效率，预设各模型因子的取值范围，第一训练子单元01在调整各子模型的模型因子时可以分别在预设的取值范围内选取。

第二训练子单元完成badcase识别组合模型的训练，具体为：利用样本数据，训练由训练后得到的各子模型串行构成的badcase识别组合模型，调整badcase识别组合模型的模型因子使得badcase识别组合模型对badcase识别的准确率达到预设第二阈值以上。

badcase识别组合模型的模型因子：

优选地，上述第二阈值大于第一阈值，例如当第一阈值为60%时，第二阈值可以采用85%。当然第二阈值也可以等于第一阈值甚至低于第一阈值。

同样，为了提升自动学习获得badcase识别组合模型的效率，预设badcase识别组合模型的模型因子的取值范围，第二训练子单元02在调整该模型因子时在预设的取值范围内选取。

另外，各子模型在badcase识别组合模型中的串行顺序取决于各子模型对badcase的识别准确率和识别效率中的至少一种确定，即识别准确率越高子模型在串行顺序中的排序越靠前，识别效率越高的子模型在串行顺序中的排序越靠前。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种识别图片搜索中坏例badcase的方法，其特征在于，该方法包括：

其中所述badcase识别组合模型的建立包括：

2.根据权利要求1所述的方法，其特征在于，所述badcase特征子模型为：小图策略子模型、词项间距策略子模型、博客策略子模型或摘要黑名单子模型。

3.根据权利要求2所述的方法，其特征在于，所述小图策略子模型的模型因子包括：小图的大小上限标准、小图的分布位置标准、识别出badcase时对应的搜索结果的首页命中小图数量、搜索结果首页首张图片不是小图时小图策略子模型是否参与在badcase识别组合模型中badcase的识别中的至少一种；

4.根据权利要求1所述的方法，其特征在于，所述badcase识别组合模型的模型因子包括：识别为badcase时搜索结果首页的图片中命中各子模型之一的图片数量。

5.根据权利要求1所述的方法，其特征在于，预设各模型因子的取值范围，分别在各模型因子的取值范围内调整各模型因子。

6.一种识别图片搜索中badcase的装置，其特征在于，该装置包括：

模型建立单元，用于建立badcase识别组合模型；

其中所述模型建立单元具体包括：

7.根据权利要求6所述的装置，其特征在于，所述badcase特征子模型为：小图策略子模型、词项间距策略子模型、博客策略子模型或摘要黑名单子模型。

8.根据权利要求7所述的装置，其特征在于，所述小图策略子模型的模型因子包括：小图的大小上限标准、小图的分布位置标准、识别出badcase时对应的搜索结果的首页命中小图数量、搜索结果首页首张图片不是小图时小图策略子模型是否参与在badcase识别组合模型中badcase的识别中的至少一种；

9.根据权利要求6所述的装置，其特征在于，所述badcase识别组合模型的模型因子包括：识别为badcase时搜索结果首页的图片中命中各子模型之一的图片数量。

10.根据权利要求6所述的装置，其特征在于，预设各模型因子的取值范围，所述第一训练子单元和第二训练子单元分别在各模型因子的取值范围内调整各模型因子。