CN110929154B

CN110929154B - 一种搜索结果的排序方法及系统

Info

Publication number: CN110929154B
Application number: CN201911181750.2A
Authority: CN
Inventors: 宗宇
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-09-20
Anticipated expiration: 2039-11-27
Also published as: CN110929154A

Abstract

本发明提供一种搜索结果的排序方法及系统，获取用户输入的包含银行专业术语的搜索内容；获取搜索内容中的关键词以及对应的相似词；基于其他用户对包含关键词和相似词的文本信息的用户选择行为，获取包含多条文本信息的排序结果集合；基于用户的行为数据，确定用户对排序结果集合中每条文本信息对应的目录知识的访问率；利用逻辑回归算法确定每一文本评分的评分权重和每一访问率的用户特征权重；基于每一评分权重和每一用户特征权重，计算排序结果集合中每条文本信息对应的最终分数；根据排序结果集合中每条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给用户。使反馈给用户的最终排序结果符合用户预期期望，提高用户的使用体验。

Description

一种搜索结果的排序方法及系统

技术领域

本发明涉及检索技术领域，具体涉及一种搜索结果的排序方法及系统。

背景技术

随着科学技术的发展，搜索引擎逐渐成为人们日常生活和工作中经常使用的工具。用户通过向搜索引擎输入对应内容，从而获取到想要的搜索结果。

目前常见的搜索引擎有基于solr的全文搜索引擎，使用方式为：将需要搜索的内容输入基于solr的全文搜索引擎，该全文搜索引擎基于solr自带的结果排序算法对搜索到的结果进行简单的排序，最后将排序后的搜索结果反馈给用户。但是在不同背景的领域下，尤其是商业银行领域，商业银行领域中存在大量的银行专业术语和词汇，solr自带的搜索规则和排序算法具有较大的局限性。当用户需要对银行专业词汇进行搜索时，solr反馈给用户的结果往往不符合用户的预期期望，造成用户体验效果差。

发明内容

有鉴于此，本发明实施例提供一种搜索结果的排序方法及系统，以解决solr反馈给用户的结果不符合用户的预期期望，从而造成用户体验效果差的问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种搜索结果的排序方法，所述方法包括：

获取用户输入的包含银行专业术语的搜索内容；

获取所述搜索内容中的至少一个关键词，以及获取所述关键词的相似词；

基于其他用户对包含所述关键词和相似词的文本信息的用户选择行为，获取包含多条文本信息的排序结果集合，所述用户选择行为至少包括点赞次数、点踩次数和选择次数，预先计算所述排序结果集合中每一条文本信息的文本分数，并根据文本分数的高低进行排序；

基于所述用户的行为数据，确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率，所述行为数据包括所述用户访问不同目录知识的次数；

利用逻辑回归算法确定每一所述文本评分的评分权重和每一所述访问率的用户特征权重；

基于每一所述评分权重和每一所述用户特征权重，计算所述排序结果集合中每一条文本信息对应的最终分数；

根据所述排序结果集合中每一条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给所述用户。

优选的，所述确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率，包括：

利用

确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率；

其中，l_i为访问i目录知识的次数，

为访问所有目录知识的总次数。

优选的，所述基于每一所述评分权重和每一所述用户特征权重，计算所述排序结果集合中每一条文本信息对应的最终分数，包括：

利用

计算所述排序结果集合中每一条文本信息对应的最终分数score；

其中，

和Y1分别为每一文本信息对应的文本分数和评分权重，Y2为每一访问率对应的用户特征权重。

优选的，所述将得到的最终排序结果集合反馈给所述用户之后，还包括：

记录所述用户对所述最终排序结果集合中包含的每一条文本信息的用户选择行为。

优选的，所述方法还包括；

基于预设周期，周期性统计并记录所述用户的行为数据。

本发明实施例第二方面公开一种搜索结果的排序系统，所述系统包括：

第一获取单元，用于获取用户输入的包含银行专业术语的搜索内容；

第二获取单元，用于获取所述搜索内容中的至少一个关键词，以及获取所述关键词的相似词；

第三获取单元，用于基于其他用户对包含所述关键词和相似词的文本信息的用户选择行为，获取包含多条文本信息的排序结果集合，所述用户选择行为至少包括点赞次数、点踩次数和选择次数，预先计算所述排序结果集合中每一条文本信息的文本分数，并根据文本分数的高低进行排序；

确定单元，用于基于所述用户的行为数据，确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率，所述行为数据包括所述用户访问不同目录知识的次数；

权重计算单元，用于利用逻辑回归算法确定每一所述文本评分的评分权重和每一所述访问率的用户特征权重；

分数计算单元，用于基于每一所述评分权重和每一所述用户特征权重，计算所述排序结果集合中每一条文本信息对应的最终分数；

排序单元，用于根据所述排序结果集合中每一条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给所述用户。

优选的，所述确定单元具体用于：利用

确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率，其中，l_i为访问i目录知识的次数，

为访问所有目录知识的总次数。

优选的，所述分数计算单元具体用于：利用

计算所述排序结果集合中每一条文本信息对应的最终分数score，其中，

优选的，所述系统还包括：

记录单元，用于记录所述用户对所述最终排序结果集合中包含的每一条文本信息的用户选择行为。

优选的，所述系统还包括：

统计单元，用于基于预设周期，周期性统计并记录所述用户的行为数据。

基于上述本发明实施例提供的一种搜索结果的排序方法及系统，该方法为：获取用户输入的包含银行专业术语的搜索内容；获取搜索内容中的至少一个关键词，以及获取关键词的相似词；基于其他用户对包含关键词和相似词的文本信息的用户选择行为，获取包含多条文本信息的排序结果集合；基于用户的行为数据，确定用户对排序结果集合中每一条文本信息对应的目录知识的访问率；利用逻辑回归算法确定每一文本评分的评分权重和每一访问率的用户特征权重；基于每一评分权重和每一用户特征权重，计算排序结果集合中每一条文本信息对应的最终分数；根据排序结果集合中每一条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给用户。本方案中，根据用户的搜索内容的关键词和相似词，获取包含多条文本信息及其对应文本评分的排序结果集合。利用用户的行为数据，计算每一文本评分的评分权重和用户对每一文本信息的访问率对应的用户特征权重。根据评分权重和用户特征权重计算排序结果集合中每条文本信息对应的最终分数并进行排序，使反馈给用户的最终排序结果符合用户预期期望，提高用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种搜索结果的排序方法流程图；

图2为本发明实施例提供的搜索结果的排序方法的流程示意图；

图3为本发明实施例提供的一种搜索结果的排序系统的结构框图；

图4为本发明实施例提供的另一种搜索结果的排序系统的结构框图；

图5为本发明实施例提供的又一种搜索结果的排序系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，对于商业银行领域，存在大量的银行专业术语和词汇，而solr自带的搜索规则和排序算法具有较大的局限性。当用户需要对银行专业词汇进行搜索时，solr反馈给用户的结果往往不符合用户的预期期望，造成用户体验效果差。

因此，本发明实施例提供一种搜索结果的排序方法及系统，根据用户的搜索内容获取相应的排序结果集合，利用用户的行为数据对排序结果集合中的文本信息进行打分并排序，使反馈给用户的最终排序结果符合用户预期期望，以提高用户的使用体验。

需要说明的是，本发明实施例中涉及的solr搜索引擎是一个独立的企业级搜索应用服务器，用户可以通过超文本传输协议(Hyper Text Transfer Protocol，http)请求，向所述solr搜索引擎服务器提交一定格式的可扩展标记语言(eXtensible MarkupLanguage，XML)文件，生成索引。也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

参见图1，示出了本发明实施例提供的一种搜索结果的排序方法流程图，所述排序方法包括以下步骤：

步骤S101：获取用户输入的包含银行专业术语的搜索内容。

在具体实现步骤S101的过程中，需要说明的是，对于商业银行领域，用户输入的搜索内容通常携带银行专业术语，例如所述搜索内容中包含利息、信用卡、贷款和本金等银行专业词汇。

步骤S102：获取所述搜索内容中的至少一个关键词，以及获取所述关键词的相似词。

在具体实现步骤S102的过程中，利用分词算法将所述搜索内容划分为多个关键词，例如利用solr搜索引擎将所述搜索内容划分为多个关键词。根据词向量技术获取所述关键词的相似词。

步骤S103：基于其他用户对包含所述关键词和相似词的文本信息的用户选择行为，获取包含多条文本信息的排序结果集合。

需要说明的是，所述用户选择行为至少包括点赞次数、点踩次数和选择次数。

在具体实现步骤S103的过程中，预先计算所述排序结果集合中每一条文本信息的文本分数，并根据文本分数的高低进行排序。具体获取所述排序结果集合的过程，详见以下过程A1-A5示出的内容。

A1、由前述内容可知，所述solr搜索引擎具有搜索和排序功能。利用所述solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息，并利用所述solr搜索引擎的排序功能对所述文本信息进行排序，得到初始排序结果集合。

A2、获取其他用户对所述初始排序结果集合中的每一条文本信息的用户选择行为。

A3、根据其他用户对所述每一条文本信息的用户选择行为，结合利用逻辑回归算法训练得到的所述用户行为对应的权重，通过公式(1)计算所述每条文本信息中的每个所述关键词的赞踩访问率zcp。

在所述公式(1)中，X1为所述点赞次数对应的权重，X2为所述点踩次数的权重，X3为所述选择次数的权重，z为所述关键词的点赞次数，s为所述关键词的选择次数，c为所述关键词的点踩次数。

A4、根据所述每条文本信息中的每个所述关键词的赞踩访问率zcp，通过公式(2)计算每条所述文本信息的文本分数。

在所述公式(2)中，n为所述每条文本信息中的所述关键词的个数，i表示所述每条文本信息中的第i个所述关键词。

A5、根据每条所述文本信息的文本分数，对所述初始排序结果集合中的所有文本信息进行排序，得到所述排序结果集合。

步骤S104：基于所述用户的行为数据，确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率。

需要说明的是，所述行为数据包括所述用户访问不同目录知识的次数，即预先收集和记录所述用户所访问的目录知识。

在具体实现步骤S104的过程中，利用公式(3)确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率。在所述公式(3)中，l_i为访问i目录知识的次数，

为访问所有目录知识的总次数。

步骤S105：利用逻辑回归算法确定每一所述文本评分的评分权重和每一所述访问率的用户特征权重。

在具体实现步骤S105的过程中，通过逻辑回归算法，计算每一所述文本评分的评分权重，以及计算每一所述访问率的用户特征权重。通过计算得到的所述评分权重和用户特征权重，重新对所述排序结果集合中每一条文本信息进行评分。

步骤S106：基于每一所述评分权重和每一所述用户特征权重，计算所述排序结果集合中每一条文本信息对应的最终分数。

在具体实现步骤S106的过程中，通过公式(4)计算所述排序结果集合中每一条文本信息对应的最终分数score，在所述公式(4)中，

步骤S107：根据所述排序结果集合中每一条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给所述用户。

在具体实现步骤S107的过程中，通过上述步骤S106重新对所述排序结果集合中的每一文本信息进行打分，得到每条文本信息的最终得分。根据每条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给所述用户。

例如：按照所述最终分数从大到小的顺序进行排序，将最终排序结果集合反馈给所述用户。

优选的，记录所述用户对所述最终排序结果集合中包含的每一条文本信息的用户选择行为。

进一步优选的，基于预设周期，周期性统计并记录所述用户的行为数据。

在本发明实施例中，根据用户的搜索内容的关键词和相似词，获取包含多条文本信息及其对应文本评分的排序结果集合。利用用户的行为数据，计算每一文本评分的评分权重和用户对每一文本信息的访问率对应的用户特征权重。根据评分权重和用户特征权重计算排序结果集合中每条文本信息对应的最终分数并进行排序，使反馈给用户的最终排序结果符合用户预期期望，提高用户的使用体验。

为更好解释说明上述图1中各个步骤示出的内容，通过图2示出的搜索结果的排序方法的流程示意图进行举例说明。需要说明的是，所述图2示出的内容仅用于举例说明，所述图2包括以下步骤：

步骤S201：获取用户输入的包含银行专业术语的搜索内容。

步骤S202：获取所述搜索内容中的关键词和与关键词对应的相似词。

步骤S203：利用solr搜索所述关键词和相似词，并对搜索结果进行排序得到初始排序结果集合。

步骤S204：统计其他用户的对初始排序结果集合中每条文本信息的用户选择行为。

步骤S205：利用逻辑回归算法计算用户选择行为对应的权重。

步骤S206：利用用户选择行为对应的权重，对初始排序结果集合中的每条文本信息进行评分并排序，得到排序结果集合。

步骤S207：基于所述用户的行为数据，计算所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率。

步骤S208：利用逻辑回归算法，计算每一所述文本评分的评分权重和每一所述访问率的用户特征权重。

步骤S209：通过所述评分权重和用户特征权重，重新对所述排序结果集合中每一条文本信息进行评分，得到每条文本信息的最终分数。

步骤S210：根据每条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给所述用户。

需要说明的是，步骤S201至步骤S210的执行原理可参见上述本发明实施例图1示出的内容，在此不再进行赘述。

在本发明实施例中，根据用户的搜索内容的关键词和相似词，通过solr进行搜索和排序得到初始排序结果集合。根据用户选择行为对应的权重，对初始排序结果集合中的文本信息进行评分和排序，得到排序结果集合。利用用户的行为数据，计算每一文本评分的评分权重和用户对每一文本信息的访问率对应的用户特征权重。根据评分权重和用户特征权重计算排序结果集合中每条文本信息对应的最终分数并进行排序，使反馈给用户的最终排序结果符合用户预期期望，提高用户的使用体验。

与上述本发明实施例提供的一种搜索结果的排序方法相对应，参见图3，本发明实施例还提供一种搜索结果的排序系统的结构框图，所述排序系统包括：第一获取单元301、第二获取单元302、第三获取单元303、确定单元304、权重计算单元305、分数计算单元306和排序单元307。

第一获取单元301，用于获取用户输入的包含银行专业术语的搜索内容。

第二获取单元302，用于获取所述搜索内容中的至少一个关键词，以及获取所述关键词的相似词。

第三获取单元303，用于基于其他用户对包含所述关键词和相似词的文本信息的用户选择行为，获取包含多条文本信息的排序结果集合，所述用户选择行为至少包括点赞次数、点踩次数和选择次数，预先计算所述排序结果集合中每一条文本信息的文本分数，并根据文本分数的高低进行排序。

确定单元304，用于基于所述用户的行为数据，确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率，所述行为数据包括所述用户访问不同目录知识的次数。

在具体实现中，所述确定单元具体用于：利用公式(3)确定所述用户对所述排序结果集合中每一条文本信息对应的目录知识的访问率。

权重计算单元305，用于利用逻辑回归算法确定每一所述文本评分的评分权重和每一所述访问率的用户特征权重。

分数计算单元306，用于基于每一所述评分权重和每一所述用户特征权重，计算所述排序结果集合中每一条文本信息对应的最终分数。

在具体实现中，所述分数计算单元306具体用于：利用公式(4)，计算所述排序结果集合中每一条文本信息对应的最终分数。

排序单元307，用于根据所述排序结果集合中每一条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给所述用户。

优选的，结合图3，参见图4，示出了本发明实施例提供的一种搜索结果的排序系统的结构框图，所述排序系统还包括：

记录单元308，用于记录所述用户对所述最终排序结果集合中包含的每一条文本信息的用户选择行为。

进一步优选的，结合图3，参见图5，示出了本发明实施例提供的一种搜索结果的排序系统的结构框图，所述排序系统还包括：

统计单元309，用于基于预设周期，周期性统计并记录所述用户的行为数据。

综上所述，本发明实施例提供一种搜索结果的排序方法及系统，该方法为：获取用户输入的包含银行专业术语的搜索内容；获取搜索内容中的至少一个关键词，以及获取关键词的相似词；基于其他用户对包含关键词和相似词的文本信息的用户选择行为，获取包含多条文本信息的排序结果集合；基于用户的行为数据，确定用户对排序结果集合中每一条文本信息对应的目录知识的访问率；利用逻辑回归算法确定每一文本评分的评分权重和每一访问率的用户特征权重；基于每一评分权重和每一用户特征权重，计算排序结果集合中每一条文本信息对应的最终分数；根据排序结果集合中每一条文本信息的最终分数进行排序，将得到的最终排序结果集合反馈给用户。本方案中，根据用户的搜索内容的关键词和相似词，获取包含多条文本信息及其对应文本评分的排序结果集合。利用用户的行为数据，计算每一文本评分的评分权重和用户对每一文本信息的访问率对应的用户特征权重。根据评分权重和用户特征权重计算排序结果集合中每条文本信息对应的最终分数并进行排序，使反馈给用户的最终排序结果符合用户预期期望，提高用户的使用体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。