CN105975482A

CN105975482A - 基于垂直搜索的相关度排序实现方法及装置

Info

Publication number: CN105975482A
Application number: CN201610262495.4A
Authority: CN
Inventors: 谢晓静
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Information Technology Beijing Co Ltd
Priority date: 2016-04-25
Filing date: 2016-04-25
Publication date: 2016-09-28

Abstract

本发明实施例提供一种基于垂直搜索的相关度排序实现方法及装置。该方法包括：对待搜索名词进行分词后得到整词分割词、相邻词分割词和字分割词；根据所述整词分割词、相邻词分割词和字分割词搜索每个文档中所述整词分割词、相邻词分割词和字分割词所出现的词频；根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重对所述待搜索名词的搜索结果进行相关度排序。

Description

基于垂直搜索的相关度排序实现方法及装置

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种基于垂直搜索的相关度排序实现方法及装置。

背景技术

垂直搜索引擎是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户的。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式，通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

现有技术中，当有人使用面向特定用户的垂直搜索时，经常会遇到这样的问题。例如：用户在平台上搜索一个叫“刘东华”的公司总裁，但是搜索‘刘东华’，刘东华的个人资料没有放在最前面；搜索‘东华’，先出来的是东华责任有限公司。搜索‘刘东’，第一页根本显示不出来刘东华等诸如此类的问题。

虽然现有存在一些通用的搜索引擎框架，如solr，elastic search等。但因为solr和elastic search都是通用的搜索引擎框架，不具有针对性。另外，这些都是国外的框架，很多功能都只针对于英语等西方语言设计，需要进行改造才能达到理想的效果。因此针对一些非常具体又比较特别的领域，若想进行上述这样的垂直搜索时，并没有有效的解决方案，用户很难直接搜索到想要的信息。

发明内容

本发明实施例提供一种基于垂直搜索的相关度排序实现方法及装置，以解决现有技术中进行垂直搜索时，难以直接得到搜索结果的技术问题。

本发明实施例的一个方面是提供一种基于垂直搜索的相关度排序实现方法，包括：

对待搜索名词进行分词后得到整词分割词、相邻词分割词和字分割词；

根据所述整词分割词、相邻词分割词和字分割词搜索每个文档中所述整词分割词、相邻词分割词和字分割词所出现的词频；

根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重对所述待搜索名词的搜索结果进行相关度排序。

可选地，该方法还包括：定期维护同义词词库，所述同义词词库中存储有符合存储原则的名词，以及所述符合存储原则的名词的同义词。

可选地，该方法还包括：

在所述同义词词库中搜索所述整词分割词和相邻词分割词；

针对搜索到对应同义词的所述整词分割词或者相邻词分割词，增加与所述待搜索名称的相关度到所述搜索结果的排序中。

可选地，所述第一权重是所述第二权重的N倍，N大于等于3；所述第二权重大于所第三权重。

可选地，所述根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重对所述待搜索名词的搜索结果进行相关度排序，具体包括：

针对搜索的每篇文档，根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重计算该待搜索的名词在该篇文档中词频数值；

根据每篇文档的所述词频数值，按照从高到低的顺序对搜索到的文档进行相关度排序。

本发明实施例的另一个方面是提供一种基于垂直搜索的相关度排序实现装置，包括：

分词器单元，用于对待搜索名词进行分词后得到整词分割词、相邻词分割词和字分割词；

统计单元，用于根据所述整词分割词、相邻词分割词和字分割词搜索每个文档中所述整词分割词、相邻词分割词和字分割词所出现的词频；

排序单元，用于根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重对所述待搜索名词的搜索结果进行相关度排序。

可选的，该装置还包括：同义词器单元，用于定期维护同义词词库，所述同义词词库中存储有符合存储原则的名词，以及所述符合存储原则的名词的同义词。

可选地，该装置还包括：过滤单元，用于在所述同义词词库中搜索所述整词分割词和相邻词分割词；

所述排序单元，还用于针对搜索到对应同义词的所述整词分割词或者相邻词分割词增加第四权重到对所述待搜索名词的搜索结果的相关度排序中。

可选地，，所述排序单元，具体包用于针对搜索的每篇文档，根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重计算该待搜索的名词在该篇文档中词频数值；根据每篇文档的所述词频数值，按照从高到低的顺序对搜索到的文档进行相关度排序。

本发明实施例提供的上述方法及装置，通过对名词采用整词分割、邻近词分割，以及每字分割的技术手段，解决现有技术中因通用搜索引擎的分词方法不符合人性化，没有个性化分词能力，影响了搜索结果排序的技术问题，实现了针对特定业务或领域的垂直搜索中，对搜索结果的排序进行了优化，便于直接得到搜索结果的技术效果。

附图说明

图1为本发明实施例提供的一种基于垂直搜索的相关度排序实现方法流程图；

图2为本发明实施例提供的另一种基于垂直搜索的相关度排序实现方法的流程图；

图3为本发明实施例提供的一种基于垂直搜索的相关度排序实现装置的结构图。

具体实施方式

现有技术中，会出现用户在平台上搜索一个叫“刘东华”的公司总裁，但是搜索‘刘东华’，刘东华的个人资料没有放在最前面；搜索‘东华’，先出来的是东华责任有限公司。搜索‘刘东’，第一页根本显示不出来刘东华等诸如此类的技术问题，是因为某篇文章上刘东华这个词的频率出现的非常高。东华责任有限公司不管是名称，简介，内容等等都反复出现东华。另一原因在于现有的分词器把刘东分词成刘和东，而刘东华分词成刘和东华，所以只有刘是匹配的，由此导致了上述搜索结果。这是由于现有的分词器完全按照标准的相似度排序得到的非人性化的解释，因此并不能让用户满意，所以只能自己想办法让分词器的分词规律人性化起来。

为了解决上述问题，本实施例提供了一种基于垂直搜索的相关度排序实现方法，如图1所示，包括：

101，对待搜索名词进行分词后得到整词分割词、相邻词分割词和字分割词；

与现有的分词方法不同，本实施例中是一种自定义的分词方法，将待搜索名词分别分割成整词分割词、相邻词分割词和字分割词。例如：刘东华要分割成刘东华(整词分割词)；刘东(相邻词分割词)；东华，刘，东，华(字分割词)。

102，根据所述整词分割词、相邻词分割词和字分割词搜索每个文档中所述整词分割词、相邻词分割词和字分割词所出现的词频；

词频就是每个词在该片文档中出现的次数。如在含有上述整词分割词、相邻词分割词和字分割词的文档中，整词分割词出现的次数、相邻词分割词出现的次数和字分割词分别出现的次数。例如：在某文档中东华出现2次，词频为2.

103，根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重对所述待搜索名词的搜索结果进行相关度排序。

上述步骤103可通过如下方式实现：针对搜索的每篇文档，根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重计算该待搜索的名词在该篇文档中词频数值；根据每篇文档的所述词频数值，按照从高到低的顺序对搜索到的文档进行相关度排序。

现有通用搜索引擎solr(一个独立的企业级搜索应用服务器)采用的是余弦相似度算法和TF-IDF(词频-反转文件频率)算法来计算相似度。并没有考虑到有些频率没有意义的情况。例如：搜索“刘东华”，恰好有篇文件里出现了很多刘刘刘东东东诸如此类的，如果它位置排的比较靠前，也会出现排序结果不理想，得不到想要的搜索结果的技术问题，因此在方法上面的权重调整也是要做的。因此，在本实施例中国，可选的，所述第一权重是所述第二权重的N倍，N大于等于3，所述第二权重大于所第三权重。第三权重可比第一和第二权重还要小很多。

本实施例提供的方法，通过对名词采用整词分割、邻近词分割，以及每字分割的技术手段，解决现有技术中因通用搜索引擎的分词方法不符合人性化，没有个性化分词能力，影响了搜索结果排序的技术问题，实现了针对特定业务或领域的垂直搜索中，对搜索结果的排序进行了优化，便于直接得到搜索结果的技术效果。

可选的，本实施例还包括：定期维护同义词词库，所述同义词词库中存储有符合存储原则的名词，以及所述符合存储原则的名词的同义词。存储原则是该同义词词库针对某一类特殊的名词进行存储的要求。例如要求对成功的企业家的人名进行存储，就可以是该词库的存储原则。

相应的，同义词库就是：“马云”对应于“阿里巴巴”(马云的同义词阿里巴巴)。搜索“马云”同时也会把“阿里巴巴”相关的信息也搜索出来。同样，“柳传志”对应于“联想”，“王健林”对应于“万达”，“俞敏洪”对应于“新东方”等等。

相应地，同义词库的引入，是为了更加优化相关度的排序结果，因此该方法还包括：

在所述同义词词库中搜索所述整词分割词和相邻词分割词；

针对搜索到对应同义词的所述整词分割词或者相邻词分割词，增加与所述待搜索名称的相关度到所述搜索结果的排序中(具体实现方式可参照下述204)。

本实施例继续提供一种基于垂直搜索的相关度排序实现方法，如图2所示，包括：

201，接收到待搜索名词刘东华，将其分词成刘东华要分割成刘东华(整词分割词)；刘东(相邻词分割词)；东华，刘，东，华(相邻词分割词)。

202，以一篇文档为例，搜索刘东华(整词分割词)在文档中的词频为x1；刘东(相邻词分割词)在文档中的词频x2；东华在文档中的词频x3；刘，东，华(字分割词)分别在文档中的词频x4,x5,x6。

203，针对搜索的每篇文档，根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重计算该待搜索的名词在该篇文档中词频数值；如第一权重值为50，第二权重值为10，第三权重值为1，则该篇文档中，词频数值是：50*x1+10*x2+10*x3+x4+x5+x6。

204，在所述同义词词库中搜索所述整词分割词和相邻词分割词，并在搜索到的相应的词上增加权重。如同义词词库中存在刘华东对应企业杂志社，华东对应企业杂志社，则上述词频数值可以是：(50*x1+50)+10*x2+(10*x3+10)+x4+x5+x6，即在相应的词上增加对应的权重值。

205，根据每篇文档的所述词频数值，按照从高到低的顺序对搜索到的文档进行相关度排序。

例如：搜索刘东华，东华时刘东华的个人资料按照上述计算的数值排序就排在第一位了。若同义词库中真有一个叫“刘东”的会员，则搜索刘东的时候，刘东华排在第二。

本实施例提供的方法中，通过个性化的分词方式，整词和邻近词的权重分配比例的提高，以及同义词词库的过滤的技术手段，增加了垂直搜索引擎的精度和个性化，优化了搜索结果的排序，使一些非常具体又比较特别的领域，通过该垂直搜索可以更直接搜索到想要的信息。

为了便于上述方法的实现，本实施例继续提供一种基于垂直搜索的相关度排序实现装置，如图3所示，包括：

分词器单元31，用于对待搜索名词进行分词后得到整词分割词、相邻词分割词和字分割词；

统计单元32，用于根据所述整词分割词、相邻词分割词和字分割词搜索每个文档中所述整词分割词、相邻词分割词和字分割词所出现的词频；

排序单元33，用于根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重对所述待搜索名词的搜索结果进行相关度排序。其中，所述第一权重是所述第二权重的N倍，N大于等于3；所述第二权重大于所第三权重。

所述排序单元33，具体用于针对搜索的每篇文档，根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重计算该待搜索的名词在该篇文档中词频数值；根据每篇文档的所述词频数值，按照从高到低的顺序对搜索到的文档进行相关度排序。

可选地，该装置还包括：

同义词器单元，用于定期维护同义词词库，所述同义词词库中存储有符合存储原则的名词，以及所述符合存储原则的名词的同义词。

可选地，该装置还可以包括过滤单元，用于在所述同义词词库中搜索所述整词分割词和相邻词分割词。相依地，所述排序单元33，还用于针对搜索到对应同义词的所述整词分割词或者相邻词分割词，增加与所述待搜索名称的相关度到所述搜索结果的排序中。

本实施例提供的装置具有整词和邻近词的权重分配比例的提高，分词个性化以及用同义词词库过滤的功能，增加了垂直搜索引擎的精度和个性化，优化了搜索结果的排序，使一些非常具体又比较特别的领域，通过该垂直搜索可以更直接搜索到想要的信息。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于垂直搜索的相关度排序实现方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，该方法还包括：定期维护同义词词库，所述同义词词库中存储有符合存储原则的名词，以及所述符合存储原则的名词的同义词。

3.根据权利要求2所述的方法，其特征在在于，该方法还包括：

在所述同义词词库中搜索所述整词分割词和相邻词分割词；

4.根据权利要求1-3中任意一项所述的方法，其特征在于，所述第一权重是所述第二权重的N倍，N大于等于3；所述第二权重大于所第三权重。

5.根据权利要求1-3中任意一项所述的方法，其特征在于，所述根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重对所述待搜索名词的搜索结果进行相关度排序，具体包括：

6.一种基于垂直搜索的相关度排序实现装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，该装置还包括：

8.根据权利要求7所述的装置，其特征在在于，

该装置还包括：过滤单元，用于在所述同义词词库中搜索所述整词分割词和相邻词分割词；

所述排序单元，还用于针对搜索到对应同义词的所述整词分割词或者相邻词分割词，增加与所述待搜索名称的相关度到所述搜索结果的排序中。

9.根据权利要求6-8中任意一项所述的装置，其特征在于，所述第一权重是所述第二权重的N倍，N大于等于3；所述第二权重大于所第三权重。

10.根据权利要求6-8中任意一项所述的装置，其特征在于，所述排序单元，具体包用于针对搜索的每篇文档，根据所述词频和所述整词分割词的第一权重、相邻词分割词的第二权重和字分割词的第三权重计算该待搜索的名词在该篇文档中词频数值；根据每篇文档的所述词频数值，按照从高到低的顺序对搜索到的文档进行相关度排序。