CN104794251B

CN104794251B - 基于搜索结果效用分析的工业产品垂直搜索引擎排列方法

Info

Publication number: CN104794251B
Application number: CN201510256116.6A
Authority: CN
Inventors: 张晶晶
Original assignee: Suzhou Gong Xun Science And Technology Ltd
Current assignee: Suzhou Gong Xun Science And Technology Ltd
Priority date: 2015-05-19
Filing date: 2015-05-19
Publication date: 2018-04-27
Anticipated expiration: 2035-05-19
Also published as: CN104794251A

Abstract

本发明涉及一种基于搜索结果效用分析的工业产品垂直搜索引擎排列技术，Q为搜索词条，D_i为第i个搜索结果，当Q有M条搜索结果时，0≤i≤M，所述垂直搜索引擎排列技术包括以下几步：对搜索词条Q和搜索结果D_i进行分词；对分词后的搜索词条和分伺候的搜索结果D_i进行结果效用F计算；按照结果效用F，对所有的搜索结果进行排列，结果效用F高的结果排序靠前，结果效用F低的结果排序靠后。本发明的方法通过对结果效用进行计算，并且按照结果效用对搜索结果进行排序，极大提高了搜索结果的相关程度，提高用户体验和排序的准确度。

Description

基于搜索结果效用分析的工业产品垂直搜索引擎排列方法

技术领域

本发明属于搜索引擎领域，具体涉及一种基于搜索结果效用分析的工业产品垂直搜索引擎排列方法。

背景技术

目前的搜索引擎结果排序技术主要分为两类：一类是针对普适性搜索引擎的搜索结果排序技术；另一类是针对垂直搜索引擎结果排序技术。针对普适性搜索引擎的搜索结果排序技术包括网页排序技术(PageRank技术)和词频-逆文本频率技术(TF-IDF技术)。

PageRank技术是一种针对普适性搜索引擎的搜索结果排序技术，该技术将互联网中的所有网页连同网页之间的超链接关系理解为一张“有向图”数据结构，即：每个网页为图中的一个节点，每个超链接为一个有向边。通过这种数据结构的构建，该方法可以计算出每个网页的排序权重。TF-IDF通过比较搜索词条与网页的文本内容，为网页进行排序。

针对垂直搜索引擎，目前主流的排序技术为“字符匹配”配合“按结果属性排序”的方法。即首先通过字符匹配的方法确定结果集合，然后通过对比结果集合中每个结果的某个属性对结果进行排序，例如：按照结果的价格进行排序、按照结果的大小进行排序、按照结果的时间进行排序等。

对于针对工业产品的垂直搜索引擎，现有技术的主要缺陷如下：

(1)排序准确度低。针对普适性搜索引擎的搜索结果排序技术基于传统互联网网页的特点提出，适合对于具有大量文字的文档进行文本性匹配。然而，对于工业产品的垂直搜索领域，待搜索的数据具有新的特点，其数据不是以网页形式组织的整体，而是每个数据均由多个数据属性组成，包括：产品名称、产品价格、生产企业、上架时间等等。针对普适性搜索引擎的搜索结果排序技术不适应工业产品数据结构的特点，搜索结果无法满足用户需求，准确度低。

(2)排序依据单一片面。现有的针对垂直搜索引擎的排序技术，按照搜索结果的某种属性记性排序，比如价格、时间、用户评价等等，每一种排序的方法的排序依据均比较单一片面，无法从产品的综合价值角度进行排序。

(3)使用方便程度低。现有的针对垂直搜索引擎的排序技术，需要在使用者输入搜索词条后重新选择结果排序方式，使用方便程度低。

发明内容

为解决上述技术问题，本发明提供了一种针对工业产品垂直搜索引擎的结果排序技术，通过对搜索词条以及搜索结果的分析，本发明采用“搜索结果价值”的计算方法，并称之为“结果效用”，通过对结果效用进行计算，并且按照结果效用对搜索结果进行排序，极大提高了搜索结果的相关程度，提高用户体验和排序的准确度。

为达到上述目的，本发明的技术方案如下：

一种基于搜索结果效用分析的工业产品垂直搜索引擎排列方法，其特征在于，Q为搜索词条，D_i为第i个搜索结果，当Q有M条搜索结果时，0≤i≤M，所述垂直搜索引擎排列技术包括以下几步：

第一步：对搜索词条Q和搜索结果D_i进行分词；

第二步：对分词后的搜索词条和分伺候的搜索结果D_i进行结果效用F计算，F＝D_i的产品成交次数/(D_i的产品价格+1)*(145–TF_1-gram–TF_2-gram–TF_3-gram–TF_4-gram)，其中：D_i的产品成交次数/(D_i的产品价格+1)为搜索结果D_i的标准化效用参数，145–TF_1-gram–TF_2-gram–TF_3-gram–TF_4-gram为搜索词条Q相对于搜索结果D_i的相关指数；

第三步：按照第二步中计算的结果效用F，对所有的搜索结果进行排列，结果效用F高的结果排序靠前，结果效用F低的结果排序靠后。

在本发明的一个较佳实施例中，进一步包括，第二步中对分词后的搜索词条和分伺候的搜索结果D_i进行结果效用F计算，包括以下步骤：

步骤一：对分词后的搜索词条Q，抽取1-gram到N-gram，其中N-gram为有向序列的长度为N的有向子序列，1≤N≤4且N为正整数；

步骤二：对步骤一中从搜索词条Q中抽取的每个1-gram、2-gram、3-gram与4-gram，分别在每个搜索结果D_i中进行字符串子串查找匹配，分别得到1-gram、2-gram、3-gram与4-gram在D_i的词频，N-gram的词频表示为TF_N-gram，TF_N-gram＝TF_N-gram-1+TF_N-gram-2+……+TF_N-gram-K+……+TF_N-gram-R其中，1≤N≤4；R为搜索词条Q中N-gram的数目；N-gram-K表示第K个N-gram(1≤K≤R)；TF_N-gram-K表示第K个N-gram的匹配频率；

步骤三：计算搜索词条Q与搜索结果D_i的结果效用F，F＝D_i的产品成交次数/(D_i的产品价格+1)*(145–TF_1-gram–TF_2-gram–TF_3-gram–TF_4-gram)，其中：D_i的产品成交次数/(D_i的产品价格+1)为搜索结果D_i的标准化效用参数，145–TF_1-gram–TF_2-gram–TF_3-gram–TF_4-gram为搜索词条Q相对于搜索结果D_i的相关指数，TF_1-gram、TF_2-gram、TF_3-gram、TF_4-gram为步骤二中得到的词频。

在本发明的一个较佳实施例中，进一步包括，第一步中的对搜索词条Q和搜索结果D_i进行分词包括以下形式：对搜索词条Q和搜索结果D_i同时进行分词；将搜索结果D_i先分词并且存储于数据库中，搜索词条Q在搜索时临时分词。

在本发明的一个较佳实施例中，进一步包括，第一步中的分词方法包括以下一种或几种：字符串匹配分词法、词义分词法和统计分词法。

在本发明的一个较佳实施例中，进一步包括，所述字符串匹配分词法包括以下一种或几种分词法：正向最大匹配法、反向最大匹配法、双向最大匹配法和最短路径分词法。

本发明的有益效果是:

其一、本发明的排序方法排序准确度高。该技术针对“工业产品垂直搜索引擎”的数据特点提出，在“结果效用”的计算公式中“相关指数”体现了搜索词条与搜索结果的相关程度，“标准化效用参数”体现了搜索结果本身的效用高低。按“结果效用”值对结果进行排序，可以保证相关程度高、且质量有保证的搜索结果排序靠前，即提高了排序准确度。

其二、本发明的排序方法排序依据全面。如上所述，搜索结果依据“结果效用”排序，同时考虑了使用者的需求与搜索结果本身的数据质量(产品价格与信誉程度)，排序靠前的结果拥有更高的综合质量，而不是单方面的高指标。

其三、本发明的排序方法使用方便程度高。在本发明的支撑下，使用者在输入搜索词条后，不需要选择额外的排序方式，而可以直接得到准确的搜索结果排序方式，操作更加简单，使用更加方便。

附图说明

为了更清楚地说明本发明实施例技术中的技术方案，下面将对实施例技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例中公开了一种基于搜索结果效用分析的工业产品垂直搜索引擎排列方法，Q为搜索词条，D_i为第i个搜索结果，当Q有M条搜索结果时，0≤i≤M，所述垂直搜索引擎排列技术包括以下几步：

第一步：对搜索词条Q和搜索结果D_i进行分词。

第二步：对分词后的搜索词条和分伺候的搜索结果D_i进行结果效用F计算。

第一步中的对搜索词条Q和搜索结果D_i进行分词是并列关系，可以对对搜索词条Q和搜索结果D_i同时进行分词；也可以先将搜索结果D_i先分词并且存储于数据库中，搜索词条Q在搜索时临时分词。

具体的，第一步中涉及的分词方法包括以下几种：字符串匹配分词法、词义分词法和统计分词法。其中所述字符串匹配分词法包括以下几种分词法：正向最大匹配法、反向最大匹配法、双向最大匹配法和最短路径分词法。

(1)正向最大匹配法：就是把一个词从左至右来分词。

例如：“不知道你在说什么”这句话采用正向最大匹配法是“不知道，你，在，说什么”。

(2)反向最大匹配法：“不知道你在说什么”反向最大匹配法来分上面这段是“不，知道，你在，说，什么”，这个就分的比较多了，反向最大匹配法就是从右至左。

(3)双向最大匹配法：有一种特殊的情况，就是关键词前后组合内容被认为粘性相差不大，而搜索结果中也同时包含这两组词的话，会进行正反向同时进行分词匹配。

(4)就是最短路径分词法：就是说一段话里面要求切出的词数是最少的，“不知道你在说什么”最短路径分词法就是指，把上面那句话分成的词要是最少的，“不知道，你在，说什么”，这就是最短路径分词法，分出来就只有3个词了。

词义分词法：就是一种机器语音判断的分词方法。进行句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词，这种分词方法，现在还不成熟，处在测试阶段。

统计分词法：根据词组的统计，就会发现两个相邻的字出现的频率最多，那么这个词就很重要，就可以作为用户提供字符串中的分隔符，这样来分词。比如，“我的，你的，许多的，这里，这一，那里”等等，这些词出现的比较多，就从这些词里面分开来。

第二步中对分词后的搜索词条和分伺候的搜索结果D_i进行结果效用F计算，包括以下步骤：

步骤一：对分词后的搜索词条Q，抽取1-gram到N-gram，其中N-gram为有向序列的长度为N的有向子序列，1≤N≤4且N为正整数。

例如，假设搜索词条“全自动抹墙机/粉墙机设备”的分词结果为“全自动抹墙机粉墙机设备”，则其包含的四个1-gram：全自动、抹墙机、粉墙机、设备，三个2-gram：全自动抹墙机、抹墙机粉墙机、粉墙机设备，两个3-gram：全自动抹墙机粉墙机、抹墙机粉墙机设备，一个4-gram：全自动抹墙机粉墙机设备。

步骤二：对步骤一中从搜索词条Q中抽取的每个1-gram、2-gram、3-gram与4-gram，分别在每个搜索结果D_i中进行字符串子串查找匹配，分别得到1-gram、2-gram、3-gram与4-gram在D_i的词频，N-gram的词频表示为TF_N-gram，TF_N-gram＝TF_N-gram-1+TF_N-gram-2+……+TF_N-gram-K+……+TF_N-gram-R其中，1≤N≤4；R为搜索词条Q中N-gram的数目；N-gram-K表示第K个N-gram(1≤K≤R)；TF_N-gram-K表示第K个N-gram的匹配频率。

上述的标准化效用参数体现了价格与信誉对产品效用的影响，上述相关指数体现了搜索词条Q与搜索结果D_i的相关程度。

本发明的排序方法排序准确度高，其针对“工业产品垂直搜索引擎”的数据特点提出，在“结果效用”的计算公式中“相关指数”体现了搜索词条与搜索结果的相关程度，“标准化效用参数”体现了搜索结果本身的效用高低。按“结果效用”值对结果进行排序，可以保证相关程度高、且质量有保证的搜索结果排序靠前，即提高了排序准确度。

本发明的排序方法排序依据全面。如上所述，搜索结果依据“结果效用”排序，同时考虑了使用者的需求与搜索结果本身的数据质量(产品价格与信誉程度)，排序靠前的结果拥有更高的综合质量，而不是单方面的高指标。

本发明的排序方法使用方便程度高。在本发明的支撑下，使用者在输入搜索词条后，不需要选择额外的排序方式，而可以直接得到准确的搜索结果排序方式，操作更加简单，使用更加方便。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于搜索结果效用分析的工业产品垂直搜索引擎排列方法，其特征在于，Q为搜索词条，D_i为第i个搜索结果，当Q有M条搜索结果时，0≤i≤M，所述垂直搜索引擎排列方法包括以下几步：

第一步：对搜索词条Q和搜索结果D_i进行分词；

第二步：对分词后的搜索词条和分词后的搜索结果D_i进行结果效用F计算，F＝D_i的产品成交次数/(D_i的产品价格+1)*(145–TF_1-gram–TF_2-gram–TF_3-gram–TF_4-gram)，其中：D_i的产品成交次数/(D_i的产品价格+1)为搜索结果D_i的标准化效用参数，145–TF_1-gram–TF_2-gram–TF_3-gram–TF_4-gram为搜索词条Q相对于搜索结果D_i的相关指数；

第三步：按照第二步中计算的结果效用F，对所有的搜索结果进行排列，结果效用F高的结果排序靠前，结果效用F低的结果排序靠后；

其中，第二步中对分词后的搜索词条和分词后的搜索结果D_i进行结果效用F计算，包括以下步骤：

步骤二：对步骤一中从搜索词条Q中抽取的每个1-gram、2-gram、3-gram与4-gram，分别在每个搜索结果D_i中进行字符串子串查找匹配，分别得到1-gram、2-gram、3-gram与4-gram在D_i的词频，N-gram的词频表示为TF_N-gram，TF_N-gram＝TF_N-gram-1+TF_N-gram-2+……+TF_N-gram-K+……+TF_N-gram-R其中，1≤N≤4；R为搜索词条Q中N-gram的数目；N-gram-K表示第K个N-gram1≤K≤R；TF_N-gram-K表示第K个N-gram的匹配频率；

2.根据权利要求1所述的基于搜索结果效用分析的工业产品垂直搜索引擎排列方法，其特征在于，第一步中的对搜索词条Q和搜索结果D_i进行分词包括以下形式：对搜索词条Q和搜索结果D_i同时进行分词；将搜索结果D_i先分词并且存储于数据库中，搜索词条Q在搜索时临时分词。

3.根据权利要求2所述的基于搜索结果效用分析的工业产品垂直搜索引擎排列方法，其特征在于，第一步中的分词方法包括以下一种或几种：字符串匹配分词法、词义分词法和统计分词法。

4.根据权利要求3所述的基于搜索结果效用分析的工业产品垂直搜索引擎排列方法，其特征在于，所述字符串匹配分词法包括以下一种或几种分词法：正向最大匹配法、反向最大匹配法、双向最大匹配法和最短路径分词法。