CN101582070A

CN101582070A - 本地搜索排序方法

Info

Publication number: CN101582070A
Application number: CNA2008101118768A
Authority: CN
Inventors: 周利民; 段剑波; 余文卫; 于建强
Original assignee: CHUANG RUI XIN TONG (BEIJING) Co Ltd
Current assignee: CHUANG RUI XIN TONG (BEIJING) Co Ltd
Priority date: 2008-05-16
Filing date: 2008-05-16
Publication date: 2009-11-18

Abstract

本发明公开了一种本地搜索排序方法。该方法包括根据商户文档中的商户信息得到商户文档权重；根据用户输入的关键字和所述商户文档权重得到商户权重；根据所述商户权重对所述商户文档进行排序。通过本发明可以为用户提供质量更好、更能满足用户需求的信息。

Description

本地搜索排序方法

技术领域

本发明涉及网络技术领域，尤其是一种本地搜索排序方法。

背景技术

现有技术中一般对商户信息进行收集和整理，建立成索引数据库，当用户通过互联网进行搜索时，是在搜索栏输入关键字，系统在商户信息中根据字面匹配程度，将搜索结果输出给用户。用户搜索要获得最好的体验，就需要为用户找到最想要的结果，但是用户在搜索时只能输入简单的几个字，并不能完全表达用户搜索的真正目的，同时互联网上的商户的种类各种各样，信息错综复杂，商户信息的质量也参差不齐。发明人在实现本发明的过程中发现现有技术存在如下问题：仅通过关键字进行字面匹配的搜索方式很难从海量的商户信息中找到用户真正需要的有价值的数据。

发明内容

本发明的目的是尽可能将满足用户搜索意图、最有价值、信息最完善的商户信息提供给用户。

为实现上述目的，本发明提供了一种本地搜索排序方法，包括：

步骤11：根据商户文档中的商户信息得到商户文档权重；

步骤12：根据用户输入的关键字和所述商户文档权重得到商户权重；

步骤13：根据所述商户权重对所述商户文档进行排序。

所述商户文档权重包括完整性权重、准确度权重和可信度权重。

由上述技术方案可知，本发明通过在用户检索时，不单单考虑用户输入的关键字和存储的商户信息的字面匹配程度，还考虑根据商户信息得到的商户文档权重，即在排序时还考虑商户信息本身的质量，因此可以为用户提供信息最完善、质量最好的商户信息。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明本地搜索排序方法实施例的流程图；

图2为本发明本地搜索排序方法中得到商户文档权重的流程图；

图3为本发明本地搜索排序方法中得到商户权重的流程图。

具体实施方式

图1为本发明本地搜索排序方法实施例的流程图，包括：

步骤11：根据各商户文档中的商户信息得到相应的商户文档权重。

步骤12：根据用户输入的关键字和所述商户文档权重得到商户权重。

步骤13：根据所述商户权重对所述商户文档进行排序。

其中，步骤11中的商户文档权重是针对商户信息的完整度、可信度、准确度等不同方面对商户信息的一个综合评价，获得表征商户文档本身质量的权重。

参见图2，为本发明本地搜索排序方法中得到商户文档权重的流程图，即步骤11具体包括：

步骤21：计算各商户文档的通用文档权重。

步骤22：在存在分类的情况下，计算各商户文档的分类文档权重。

步骤23：根据通用文档权重和分类文档权重得到各商户文档的商户文档权重。

具体的：

步骤21中的通用文档权重是包含商户信息的文档本身在某些特征属性上具有的权重，该权重跟文档直接相关，与文档中包含的词以及文档的分类等因素无关。主要包括完整性权重、准确度权重和可信度权重。

下面设总的商户文档数为N，N的范围为0≤N≤2²⁵，针对某一个商户文档Doc_j，1≤j≤N，计算完整性权重、准确度权重和可信度权重。

(1)完整性权重用于表征文档所具备的关键字段的完整性，这些关键字段将直接决定用户搜索体验的好坏。这些关键字段主要包括：名称、电话、地址、简介、图片、地图。

完整性权重DW_int，j的计算公式如下：

若商户信息中包括地址、电话、简介、图片和地图，则DW_int，j＝1.4；

若商户信息中只包括地址、电话、简介、图片，则DW_int，j＝1.3；

若商户信息中只包括地址、电话、简介，则DW_int，j＝1.2；

若商户信息中只包括地址、电话，则DW_int，j＝1.1；

若商户信息中只包括地址或电话，则DW_int，j＝1.0。

(2)准确度权重用于表征文档所具备的某些关键字段的准确性，这些关键字段的准确性将直接决定用户搜索体验的好坏，主要包括：电话准确度、地址准确度、坐标准确度、简介准确度。准确度权重根据上述信息确定，具体流程如下：

对于每一个文档Doc_j，首先需要获取如下参数：

(a)该文档Doc_j来源网站的个数Src_j，范围1≤Src_j≤2⁹-1；

(b)各来源网站的知名度Fame_k，1≤Fame_k≤100；

(c)每个来源网站的点评数ReviewCount_j，k，0≤k≤Src_j，0≤ReviewCount_j，k≤2¹⁶-1；

(d)该商户在其他同城商户地址中的引用数AddrRe fs_j，AddrRe fs_j≤N；

(e)该商户的网页数量WebRe fs_j，WebRe fs_j≤2²⁴-1；

(f)该商户是否有官方网站HasPortal_j，如果有，HasPortal_j＝1.1，如果没有HasPortal_j＝1.0；

(g)电话准确度Acc_tel，j，

{Acc}_{tel, j} = \max ({Acc}_{tel, j, 1}, {Acc}_{tel, j, 2}, \cdot \cdot \cdot {Acc}_{tel, j, {Src}_{j}}),

对于合作伙伴提供的数据，设定Acc_tel，j，k＝100，1≤k≤Src_j。

(h)地址准确度Acc_addr，j，

{Acc}_{addr, j} = \max ({Acc}_{addr, j, 1}, {Acc}_{addr, j, 2}, \cdot \cdot \cdot {Acc}_{addr, j, {Src}_{j}}),

对于合作伙伴提供的数据，设定Acc_addr，j，k＝100，1≤k≤Src_j；

(i)简介准确度Acc_desc，j，

{Acc}_{desc, j} = \max ({Acc}_{desc, j, 1}, {Acc}_{desc, j, 2}, \cdot \cdot \cdot {Acc}_{desc, j, {Src}_{j}}),

对于合作伙伴提供的数据，设定Acc_desc，j，k＝100，1≤k≤Src_j；

(j)坐标准确度Acc_coord，j，设定6≤Acc_addr，j≤10

对于无法标定坐标的文档，其默认精度为6；

(k)文档分类词：用于表明文档属于的类别。该类别由含义完全相同的等价词的集合，假设有n个，则文档分类词为CateTerms_i，j，1≤j≤n。

获取上述参数后，准确度权重DW_acc，j的计算公式如下：

{DW}_{acc, j} = \frac{{Acc}_{tel, j} + {Acc}_{addr, j} + {Acc}_{desc, j}}{300} \times {Acc}_{coord, j}

取值范围0.06≤DW_acc，j≤10。

(3)文档可信度权重与文档的完整性、准确性都有关，但该权重主要与商户的名称有关，需要外在指标来衡量。包括：是否有官方网站以及官方网站的相关属性，例如网页数量、反向链接数量等；媒体引用，如Web网页的引用数或搜索引擎的引用数或Web评论数等；地址引用数，如在其他的商户中是否引用其名称；合作伙伴提供数据的准确度，如合作伙伴提供的数据中有实地采集的数据，这些数据的可信度非常高。

可信度权重DW_cr，j的计算公式如下：

{DW}_{cr, j} = (\frac{Σ_{k = 1}^{{Scr}_{j}} {Fame}_{k} \times \log_{4} {ReviewCount}_{j, k}}{Σ_{k = 1}^{{Scr}_{j}} {Fame}_{k}} + \log_{32} {AddrRefs}_{j} + \log_{16} {WebRefs}_{j}) \times {HasPotal}_{j}

取值范围：1.1≤DW_cr，j≤18.7

以上流程分别得到了完整性权重DW_int，j、准确度权重DW_acc，j和可信度权重DW_cr，j，根据这些权重可得到通用文档权重DW_1，j，计算公式为：

DW_1，j＝DW_int，j+DW_acc，j+DW_cr，j。

步骤22中的分类文档权重仅对与在某一分类内的所有文档有效或者有排序意义，而且某些权重的算法与具体的分类有关。分类文档权重需要与词关联。主要包括知名度权重DW_fame，j和服务质量权重DW_serv，j，或者还包括服务范围或细分类权重、消费成本权重。

知名度权重DW_fame，j用于衡量文档在其所在分类中的知名程度，可考虑的因素如下：网络知名度，指是否有官方网站以及官方网站的属性，包括网页数量、反向连接数量、网站更新频度及其他属性；媒体引用数，包括Web网页引用数、搜索引擎结果数、网站图片数、最近商户的新闻和频度、用户点评数量，其中用户点评数量又可以进一步分为点评的长度、点评的字面相关性、对同一商户的某一分类属性的点评、点评的时间或时效性、点评中褒贬评价词的分布统计、点评的作者分布、点评的来源网站的属性；地址引用数，指在别的商户描述中，是否引用了其名称(区域知名度)；分店数量；服务使用人数，Web评论数间接衡量；资产规模。

知名度权重DW_fame，j的计算公式与文档可信度权重的计算方法相同，只是只有文档Doc_j在分类文档中，才涉及知名度权重的计算。

服务质量权重DW_serv，j用于评价商户的服务质量，包括分类评级指标，如酒店星级、医院等级等。服务范围或细分类权重用于评价商户的服务范围、细化的分类等，包括服务范围指标，如综合医院和专科医院、家常菜和海鲜餐馆等。消费成本权重用于评价商户的服务价格。

服务质量权重主要依赖于用户给该商户的点评的好评数占总评数的比例，比例越高则服务质量权重越高。

上述流程分别得到了分类文档知名度权重DW_fame，j和分类文档服务质量权重DW_serv，j，根据这两个权重可以得到分类文档权重DW_2，j＝DW_fame，j+DW_serv，j。

步骤21得到了通用文档权重DW_1，j，步骤22得到了分类文档权重DW_2，j，步骤23便可以根据通用文档权重和分类文档权重得到商户文档权重DW_j，

商户文档权重DW_j的计算公式为：

若本地搜索时未设置分类查询，则DW_j＝DW_1，j；

若本地搜索时设置了分类查询，则DW_j＝DW_1，j+DW_2，j。

参见图3，为本发明本地搜索排序方法中得到商户权重的流程图。商户权重用于表征用户输入的关键字与记录的商户信息的匹配程度，根据关键字和商户文档权重得到。针对同一个商户，不同的关键字得到的商户权重不同。即步骤12具体包括：

步骤31：在总的商户文档N中确定候选商户文档。

步骤32：计算各候选商户文档的商户权重。

其中，步骤31具体为：将用户输入的关键字(keyword)划分为词条(term)，根据词条确定候选商户文档。在搜索引擎中，一个文档(Doc)可以认为是若干个term的集合，即Doc_i＝{term₁，term₂，…term_n}；而在提供搜索服务时，用户输入的是term，系统需要找到若干个包含用户输入的词条的文档，即Term_j＝{doc₁，doc₂，…doc_m}。从文档到词条的对应关系变成词条到文档的对应关系，为建立倒排索引。

候选商户文档需要满足：若用户输入包含一个单字，且该单字和前面或者后面的词条相邻，则在文档中，该单字和前面或者后面的词条也要相邻。如果用户输入三个单字，并且这三个单字相邻，则在文档中这三个单字也要相邻。若文档不满足上述条件，则文档无效，不能作为候选商户文档。

其中，步骤32具体包括：

步骤321：判断各词条是否属于地址类词条，即判断该词条是否为地址或城市，若是，执行步骤322，否则，执行步骤323。

步骤322：采用距离算法得到商户权重。

其中，距离算法具体包括：

第一步，判断用户输入的该词条是否有对应的商户文档与之对应，即是否可以在合作伙伴的资料库中找到对应的中心点，若是，则该词条与对应的商户文档没有距离；

第二步，如果用户输入了地址，但在合作伙伴的资料库中找不到对应的中心点时，需要使用检索中的中心点选取算法来确定中心点，该中心点选取算法中只需考虑城市和地址。

中心点选取包括：

归并地址字段，找到满足城市和地址的商户信息；

计算商户文档权重DW_j，保留DW_j最高，并且地址准确度大于等于9的三个文档；

如果满足地址准确度的文档的个数小于3个，则选取文档权重最高的文档；

根据以上三个点形成的区域，计算其中心点，设置为此次查询的中心点；

如果只有两个文档，则选取其中权重大的文档作为中心点；

如果只有一个文档，则将该文档作为此次查询的中心点。

第三步，确定中心点权重。

选取中心点时，文档权重计算方法为：

如果词条出现在地址字段，则L取值为128，否则L取值为1。

第四步，在距离算法中商户权重即为距离权重：当查找商户主干并且有分类时，按距离排序，这时商户权重的计算方法为：

如果文档没有距离，则设置为默认距离0xFFFF；即商户权重BW为0xFFFF。

根据距离计算文档权重，计算方法为BW＝0xFFFF-doc_distance；其中，doc_distance为文档与中心点的距离。

如果商户文档属于分类，则在上述计算的商户权重上增加0xFFFF，保证属于分类的结果排在前面。

步骤323：分别判断各词条是否属于分类词，若是，执行步骤324，否则执行步骤325。

步骤324：若属于分类词的词条为term_i，则该词条term_i对一候选商户文档Doc_j引起的权重为，即该商户文档Doc_j的商户权重BW_j为：

BW_j＝IDF_j×min(65535，DW_int，j×DW_cr，j)。

其中，IDF为反向文档频率(Inverse Document Frequency)，表示term的可区分性，如果一个term在文档中出现的次数越多，则它的IDF就越小，反之则越大。IDF在建库的时候得完成计算，在排序之前，各文档的IDF值已设置完成。IDF_j为词条term_i所在的候选商户文档Doc_j的IDF值。

在计算商户权重时，主要的指标为词条频率(Term Frequency，TF)。现有技术中，TF指某一个词条在某一个文档中出现的次数，但是本发明中，针对在某一个文档doc_j中出现的某一个词条term_i，TF的计算方法如下：

(1)若该词条term_i在该文档doc_j的名称中出现

若该词条在该文档的名称中出现的次数大于等于一次，则

TF_name，i，j＝2×DW_int，j；

若该词条在该文档的名称中出现的次数为0次，则TF_name，i，j＝0。

(2)若该词条term_i在该文档doc_i的文档分类词中出现

TF_{keycat，i，j}＝DW_int，j×DW_cr，j

其中，DW_int，j是词条term_i所在的候选商户文档Doc_j的完整性权重；DW_cr，j是词条term_i所在的候选商户文档Doc_j的可信度权重。

针对在某一个文档doc_i中出现的某一个词条term_i，TF的计算公式如下：

TF_i，j＝min(127，max(TF_addr，i，j，TF_name，i，j，TF_tag，i，j，TF_{keycat，i，j}，TF_cat，i，j，TF_desc，i，j，TF_{synom，i，j}，TF_misc，i，j))

其中，max中的各参数为子词条频率，表示该词条在各参数中出现的频率，TF_name，i，j、TF_{keycat，i，j}采用上述公式得到，其余表示该词条在各参数中出现的次数。

TF_addr，i，j表示该词条在文档地址中出现的次数。

TF_tag，i，j表示该词条在文档标签中出现的次数。

TF_cat，i，j表示该词条在文档分类属性中出现的次数。

TF_{synom，i，j}表示该词条在同义词中出现的次数。

TF_misc，i，j表示该词条在文档其他字段中出现的次数。

步骤325：判断词条是否为超高频词，若是，执行步骤326，否则，执行步骤327。

步骤326：利用下面的公式计算权重：

即对于一个文档Doc_j，其商户权重

{BW}_{j} = Σ_{i = 1}^{n} {IDF}_{i, j} \times {TF}_{i, j}

其中，n为该文档Doc_j中超高频词的个数。

步骤327：非超高频词的计算公式为：

(1)若文档中只有一个词条，则商户权重为该词条的IDF乘以TF。

即BW_j＝IDF_j×TF_j

(2)若文档中有两个词条，且用户在输入时相邻，则商户权重BW_j的计算公式为：BW_j＝(IDF_1，j×TF_1，j+IDF_2，j×TF_2，j)×offset_1，j。

其中，IDF_1，j、TF_1，j分别为第一个词条term₁所在的文档Doc_j的IDF及TF值，IDF_2，j、TF_2，j分别为第二个词条term₂所在的文档Doc_j的IDF及TF值，offset_1，j为词条距离，即这两个词条在文档中的偏移位置，用于判断两个词条之间的接近程度，在排序之前预先设置，仅在商户名称、地址、简介中考虑，取三者之间的最小值。

(3)若文档中有两个词条，且用户在输入时不相邻，则商户权重BW_j的计算公式为：BW_j＝IDF_1，j×TF_1，j+IDF_2，j×TF_2，j。

(4)若存在三个或三个以上的词条，则商户权重BW_j的计算公式为

{BW}_{j} = \frac{1}{2} \times ({IDF}_{1, j} \times {TF}_{1, j} \times offset_{wt}_{1, j} + {IDF}_{n, j} \times {TF}_{n, j} \times offset_{wt}_{n - 1, j}

+ Σ_{i = 1}^{n - 1} ({IDF}_{i, j} \times {TF}_{i, j} + {IDF}_{i + 1, j} \times {TF}_{i + 1, j}) \times {offset}_{i, j})

其中，offset_wt_1，j、offset_wt_n-1，j为距离权重，为因为offset引入的权重，可以预先设定，设定时需要考虑的因素包括：

(1)只有当两个词条在输入时相邻时才设置offset_wt；

(2)根据用户的offset的不同，分别设置不同的offset_wt；

(3)根据两个词条出现的位置分别设置不同的offset_wt；

(4)根据用户是否分类设置不同的offset_wt。

本实施例通过在排序时考虑商户文档权重，即考虑商户文档本身的质量信息，可以避免现有技术中仅仅通过字面匹配造成的搜索结果不尽理想的问题，可以使用户搜索到质量更好，信息更全的文档，更好地满足用户的需求。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1、一种本地搜索排序方法，其特征在于，包括：

步骤11：根据商户文档中的商户信息得到商户文档权重；

步骤13：根据所述商户权重对所述商户文档进行排序。

2、根据权利要求1所述的方法，其特征在于，所述步骤11包括：根据所述商户信息得到完整性权重、准确度权重和可信度权重。

3、根据权利要求2所述的方法，其特征在于，所述完整性权重的计算方法为：

若商户信息中包括地址、电话、简介、图片和地图，则DW_int＝1.4；

若商户信息中只包括地址、电话、简介、图片，则DW_int＝1.3；

若商户信息中只包括地址、电话、简介，则DW_int＝1.2；

若商户信息中只包括地址、电话，则DW_int＝1.1；

若商户信息中只包括地址或电话，则DW_int＝1.0；

其中，DW_int为完整性权重。

4、根据权利要求2所述的方法，其特征在于，所述准确度权重的计算方法为：

{DW}_{acc} = \frac{{Acc}_{tel} + {Acc}_{addr} + {Acc}_{desc}}{300} \times {Acc}_{coord};

其中，DW_acc为准确度权重；

Acc_tel、Acc_addr、Acc_desc、Acc_coord分别为预设的电话准确度、地址准确度、简介准确度、坐标准确度。

5、根据权利要求2所述的方法，其特征在于，所述可信度权重的计算方法为：

{DW}_{cr} = (\frac{Σ_{k = 1}^{Scr} {Fame}_{k} \times \log_{4} {ReviewCount}_{k}}{Σ_{k = 1}^{Scr} {Fame}_{k}} + \log_{32} Addr Re fs + \log_{16} Web Re fs) \times HasPotal;

其中，DW_cr为可信度权重；

Src为所述商户文档来源网站的数目，Fame为来源网站的知名度，ReviewCount为来源网站的点评数，AddrRefs为地址引用数，WebResf为网页数量，HasPotal为官方网站影响因子。

6、根据权利要求1所述的方法，其特征在于，步骤12具体包括：

将所述关键字划分为多个词条；

根据商户文档权重得到各词条的词条频率；

根据所述词条频率和预设的反向文档频率、词条距离和距离权重得到商户权重。

7、根据权利要求6所述的方法，其特征在于：所述词条频率根据子词条频率得到，所述子词条频率用于表征词条在不同的参数项中出现的频率。

8、根据权利要求7所述的方法，其特征在于：所述子词条频率包括名称子词条频率，若所述词条在所述商户文档的名称中出现，则所述名称子词条频率为所述商户文档的完整性权重的2倍。

9、根据权利要求7所述的方法，其特征在于：所述子词条频率包括分类子词条频率，若所述词条在所述商户文档的分类词中出现，则所述分类子词条频率为所述商户文档的完整性权重和可信度权重的乘积。