CN106294636B

CN106294636B - 一种基于数据库数据的搜索排名方法

Info

Publication number: CN106294636B
Application number: CN201610626504.3A
Authority: CN
Inventors: 刘超; 朱峰; 孟宪柯; 糜小兵; 李跃; 党敏霞; 张晨宇
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2016-08-01
Filing date: 2016-08-01
Publication date: 2019-03-19
Anticipated expiration: 2036-08-01
Also published as: CN106294636A

Abstract

本发明公开了一种基于数据库数据的搜索排名算法，主要包括用户需求分析、数据信息关系分析，信息搜索和结果展示等步骤，首先根据特定用户对各业务模块的关注程度得出各模块对不同用户的重要程度，再通过用户与用户之间的相似程度预测用户对未评价的搜索数据的评价得分，通过数据与数据之间的相似关系预测用户对未评价数据的评价得分，最后综合上述评分得到最后展示排序结果。本发明方法能够根据用户兴趣和数据关系的个性化搜索展示结果，为用户提供更好的搜索上网体验。

Description

一种基于数据库数据的搜索排名方法

技术领域

本发明属于计算机软件应用技术领域，特别是一种针对数据库数据搜索而设计的，依据用户的兴趣和数据间的关系而定制的搜索排名方法。

背景技术

在数据量巨大的互联网时代，为了更好的为在线用户提供服务，个性化搜索结果展现系统成为网络信息检索领域的一项重要研究。通过用户兴趣、信息之间的关系为用户选择最合适的信息展示形式，且协同过滤技术来解决用户搜索信息过量和迷失问题，是数据库搜索排名算法需要解决的问题之一。

发明内容

发明目的：为了解决用户信息过载和数据迷失的问题，本发明提供一种基于数据库数据的搜索排名方法，能够根据用户兴趣和数据关系的个性化搜索展示结果，为用户提供更好的搜索上网体验。

技术方案：为实现上述目的，本发明中基于数据库数据的搜索排名方法，包括以下步骤：

(1)根据待预测用户输入的搜索词进行分词搜索；

(2)对搜索结果集按照Lucenetf-idf算法进行评分排序，获取所述待预测用户对搜索结果集中某一待预测评分的数据的第一预测评分；

(3)根据用户相似度获取数据推导相似度，并利用数据推导相似度计算所述待预测用户对该待预测评分的数据的第二预测评分；根据数据相似度获取用户推导相似度，并利用用户推导相似度计算所述待预测用户对该待预测评分的数据的第三预测评分；

(4)根据所述待预测用户对所述待预测评分的数据的第一预测评分、第二预测评分和第三预测评分计算所述待预测用户对所述待预测评分的数据的最终预测评分；

(5)结果展现。

其中，步骤(3)中所述第二预测评分的计算包括以下步骤：

1)根据不同用户对同一数据的评价统计计算出用户之间的相似度，利用预先设定的用户相似度阈值确定所述待预测用户的相似用户集合，所述相似用户集合中的用户与所述待预测用户之间的相似度大于所述用户相似度阈值；

2)根据所述相似用户集合中的用户评价过的两个不同数据计算出这两个数据间的推导相似度，运用数据间的推导相似度计算所述待预测用户对所述待预测评分的数据的第二预测评分。

其中，步骤(3)中所述第三预测评分的计算包括以下步骤：

1)根据所有用户对两个不同数据的评价统计计算出这两数据间的相似度，得到待预测评分的数据的相似数据集合，所述相似数据集合中的数据与所述待预测评分的数据之间的相似度大于预先设定的数据相似度阈值；

2)根据两个不同用户对所述待预测评分的数据的相似数据集合中的数据评价计算出这两个用户的推导相似度，运用用户间的相似度预测所述待预测用户对所述待预测评分的数据的第三预测评分。

有益效果：本发明中基于数据库数据的搜索排名方法，首先根据特定用户对各业务模块的关注程度得出各模块对不同用户的重要程度，再通过用户与用户之间的相似程度预测用户对未评价的搜索数据的评价得分，通过数据与数据之间的相似关系预测用户对未评价数据的评价得分，最后综合上述评分得到最后展示排序结果。本发明方法利用用户与用户之间的相似程度使用户的差异性得到体现，利用数据与数据之间的相似关系使数据的关联性得到体现，能够根据用户兴趣和数据关系的个性化搜索展示结果，为用户提供更好的搜索上网体验，提高用户搜索结果的满意度。

附图说明

图1是本发明中基于数据库数据的搜索排名方法的流程图；

图2是根据数据推导相似度获取用户对数据预测评分的流程图；

图3是根据用户评价过的数据集合确定相似用户集合的软件实现流程图；

图4是根据相似用户集合中用户对数据的评价计算数据间的推导相似度的软件实现流程图；

图5是根据数据间的推导相似度计算用户对数据预测评分的软件实现流程图；

图6是根据用户推导相似度获取用户对数据预测评分的流程图。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

图1中，本发明中基于数据库数据的搜索排名方法，包括以下步骤：

(1)根据用户输入的搜索词进行分词搜索；

(2)对搜索结果集按照Lucene tf-idf算法进行评分排序，获取用户对搜索结果集中某一待预测评分的数据的第一预测评分；

(3)根据用户相似度获取数据推导相似度，并利用数据推导相似度计算用户对该待预测评分的数据的第二预测评分；根据数据相似度获取用户推导相似度，并利用用户推导相似度计算用户对该待预测评分的数据的第三预测评分；

(4)根据用户对该待预测评分的数据的第一预测评分、第二预测评分和第三预测评分计算用户对该数据的最终预测评分；

(5)结果展现：根据计算出的用户对需要排名的特定数据的预测评分，按照预测评分的高低对数据进行先后排序以网页形式展示在用户面前。

下面以获取用户y对某一待预测评分的数据s_i的最终评分为例，针对本发明中基于数据库数据的搜索排名算法的几个关键步骤进行详细说明。

对于上述步骤(2)，设通过Lucene tf-idf算法获取到用户y对搜索结果数据s_i的第一预测评分为设数据s_i属于第k个业务模块，k∈{1,2,3,4,5,6}，各业务模块与用户关注数据如下表1所示：

表1各业务模块与用户关注度

模块名称	总数据量	用户关注数据量
			模块1	n<sub>1</sub>	N<sub>1</sub>
模块2	n<sub>2</sub>	N<sub>2</sub>
			模块3	n<sub>3</sub>	N<sub>3</sub>
模块4	n<sub>4</sub>	N<sub>4</sub>
			模块5	n<sub>5</sub>	N<sub>5</sub>
模块6	n<sub>6</sub>	N<sub>6</sub>

通过对不同业务模块的用户关注数据统计得出用户对业务系统各模块的关注重要程度，第i个模块的重要程度的计算公式为：

如图2所示，上述步骤(3)中根据用户相似度获取数据推导相似度，并利用数据推导相似度计算用户对该待预测评分的数据的第二预测评分，包括以下步骤：

1)根据不同用户对同一数据的评价统计计算出用户之间的相似度，得到用户y的相似用户集合。

结合图3中所示的软件实现过程，设用户y_i和用户y_j评价过的数据集合分别为S_i和S_j，用户y_i和用户y_j均评价过的数据集合为S_ij，R_i,c为用户y_i对数据c的评价值，R_j,c为用户y_j对数据c的评价值，表示用户y_i评价过的所有数据的评价平均值，表示用户y_j评价过的所有数据的评价平均值，则用户y_i和用户y_j的相似度sim_y(i,j)的计算公式(分子对应图3中的变量fij，分母对应图3中的变量fi、fj)为：

得到了用户与用户的相似度后，设与用户y的相似用户集合为Y_g，本发明中对于任意用户y，若某一用户与其之间的相似度高于预设设定的用户相似度阈值，则该用户为与用户y相似度较高的用户，该用户属于相似用户集合Y_g，用户相似度阈值根据实际情况进行设定。

2)根据用户y的相似用户集合Y_g中的用户评价过的两个数据计算出这两个数据间的推导相似度，运用数据间的推导相似度预测用户y对数据s_i的第二预测评分。

结合图4中所示的软件实现过程，设对数据s_i和数据s_j评价过的用户集合分别为Y_i和Y_j，则对数据s_i评价过且与用户y相似度较高的用户集合Y_i'＝Y_i∩Y_g，对数据s_j评价过且与用户y相似度较高的用户集合Y_j'＝Y_j∩Y_g，对数据s_i和数据s_j均评价过的用户集合Y_ij＝Y_i∩Y_j，对数据s_i和数据s_j均评价过且与用户y相似度较高的用户集合Y’_ij＝Y_ij∩Y_g。

设R_y,i为用户y对数据s_i的评价值，R_y,j为用户y对数据s_j的评价值，表示Y_i所有用户对数据s_i评价的平均值，表示Y_j所有用户对数据s_j评价的平均值，数据s_i和数据s_j的推导相似度sim_s(i,j)的计算公式(分子对应图4中的变量fij，分母对应图4中的变量fi、fj)为：

结合图5中所示的软件实现过程，设用户y没有对其搜索结果集中待预测评分的s_i进行评价过，则可以预测用户y对数据s_i的第二预测评分为(式中分子对应图5中的R，分母对应图5中的|R|)：

式中，S_i为用户y评价过的数据集合其中sim_s(i,k)为数据s_i和数据s_k的推导相似度。

如图6所示，上述步骤(3)中根据数据相似度获取用户推导相似度，并利用用户推导相似度计算用户对该待预测评分的数据的第三预测评分，包括以下步骤：

1)根据所有用户对两个不同数据的评价分数计算出这两数据间的相似度，得到待预测评分的数据s_i的相似数据集合。

设对数据s_i和数据s_j评价过的用户集合分别为Y_i和Y_j，则对数据s_i和数据s_j均评价过的用户集合Y_ij＝Y_i∩Y_j，设R_y,i为用户y对数据s_i的评价值，R_y,j为用户y对数据s_j的评价值，表示集合Y_i中所有用户对数据s_i评价的平均值，表示集合Y_j中所有用户对数据s_j评价的平均值，数据s_i和数据s_j的相似度sim'_s(i,j)的计算公式为：

根据不同数据之间相似度的计算公式，设与数据s_i的相似数据集合为S_g，本发明中对于任意数据s_i，若某一数据与其之间的相似度高于预设设定的数据相似度阈值，则该数据为与数据s_i相似度较高的数据，该数据属于相似数据集合为S_g，数据相似度阈值根据实际情况进行设定。

2)根据两个不同用户对数据s_i的相似数据集合S_g中的数据评价计算出这两个用户的推导相似度，运用用户间的相似度预测用户y对数据s_i的第三预测评分。

设用户y_i和用户y_j评价过的数据集合分别为S_i和S_j，则被用户y_i评价过且为数据s_i的相似数据集合S_g中的数据的集合S'_i＝S_i∩S_g，被用户y_j评价过且为数据s_i的相似数据集合S_g中的数据的集合S'_j＝S_j∩S_g，用户y_i和用户y_j均评价过的数据集合为S_ij＝S_i∩S_j，则被用户y_i和用户y_j均评价过且为数据s_i的相似数据集合S_g中的数据的的集合S'_ij＝S_ij∩S_g，R_i,c为用户y_i对数据c的评价值，R_j,c为用户y_j对数据c的评价值，表示用户y_i评价的所有数据的评价平均值，表示用户y_j评价的所有数据的评价平均值，用户y_i和用户y_j的推导相似度sim'_y(i,j)的计算公式为：

设用户y没有对其搜索结果集中待预测评分的数据s_i进行评价过，则可以预测用户y对数据s_i的第三预测评分为：

式中，Y_i为对数据s_i评价过的用户集合，则用户sim'_y(i,j)为用户y_i和用y_j的推导相似度。

结合步骤(2)和(3)的内容，上述步骤(4)中得出用户y对搜索结果中待预测评分的数据s_i的最终预测评分f_yi为：

Claims

1.一种基于数据库数据的搜索排名方法，其特征在于，包括以下步骤：

(1)根据待预测用户输入的搜索词进行分词搜索；

(2)对搜索结果集按照Lucene tf-idf算法进行评分排序，获取所述待预测用户对搜索结果集中某一待预测评分的数据的第一预测评分；

(5)结果展现。

2.根据权利要求1所述的基于数据库数据的搜索排名方法，其特征在于，步骤(3)中所述第二预测评分的计算包括以下步骤：

3.根据权利要求2所述的基于数据库数据的搜索排名方法，其特征在于，步骤1)中用户之间的相似度计算公式为：

式中，S_i和S_j分别为两个不同用户y_i、y_j评价过的数据集合，S_ij为用户y_i和用户y_j均评价过的数据集合，R_i,c为用户y_i对数据c的评价值，R_j,c为用户y_j对数据c的评价值，为用户y_i评价过的所有数据的评价平均值，为用户y_j评价过的所有数据的评价平均值，sim_y(i,j)表示用户y_i与用户y_j之间的相似度。

4.根据权利要求2所述的基于数据库数据的搜索排名方法，其特征在于，步骤2)中根据所述相似用户集合获取不同数据间的推导相似度的计算公式为：

式中，Y_i为对数据s_i评价过的用户集合，Y_j为对数据s_j评价过的用户集合，Y_i'＝Y_i∩Y_g，Y’_j＝Y_j∩Y_g，Y_ij＝Y_i∩Y_j，Y’_ij＝Y_ij∩Y_g，Y_g为相似用户集合，R_y,i为用户y对数据s_i的评价值，R_y,j为用户y对数据s_j的评价值，为所有对数据s_i评价过的平均评价值，为所有对数据s_j评价过的平均评价值，sim_s(i,j)为数据s_i与数据s_j的推导数据相似度。

5.根据权利要求1所述的基于数据库数据的搜索排名方法，其特征在于，步骤(3)中所述第三预测评分的计算包括以下步骤：

1)根据所有用户对两个不同数据的评价计算出这两数据间的相似度，得到待预测评分的数据的相似数据集合，所述相似数据集合中的数据与所述待预测评分的数据之间的相似度大于预先设定的数据相似度阈值；

2)根据两个不同用户对所述待预测评分的数据的相似数据集合中的数据评价计算出这两个用户间的推导相似度，运用用户间的相似度预测所述待预测用户对所述待预测评分的数据的第三预测评分。

6.根据权利要求5所述的基于数据库数据的搜索排名方法，其特征在于，步骤1)中数据间的相似度计算公式为：

式中，Y_i为对数据s_i评价过的用户集合，Y_j为对数据s_j评价过的用户集合，Y_ij＝Y_i∩Y_j，R_y,i为用户y对数据s_i的评价值，R_y,j为用户y对数据s_j的评价值，表示集合Y_i中所有用户对数据s_i评价的平均值，表示集合Y_j中所有用户对数据s_j评价的平均值，sim'_s(i,j)为数据s_i与数据s_j之间的相似度。

7.根据权利要求5所述的基于数据库数据的搜索排名方法，其特征在于，步骤2)中所述用户间的推导相似度的计算公式为：

式中，S_i为用户y_i评价过的数据集合，S_j为用户y_j评价过的数据集合，S′_i＝S_i∩S_g，S'_j＝S_j∩S_g，S_ij＝S_i∩S_j，S′_ij＝S_ij∩S_g，R_i,c为用户y_i对数据c的评价值，R_j,c为用户y_j对数据c的评价值，表示用户y_i评价的所有数据的评价平均值，表示用户y_j评价的所有数据的评价平均值，S_g为相似数据集合，sim'_y(i,j)为用户y_i与用户y_j之间的推导相似度。

8.根据权利要求1所述的基于数据库数据的搜索排名方法，其特征在于，设所述待预测用户对所述待预测评分的数据的第一预测评分为第二预测评分为第三预测评分为则所述待预测用户对所述待预测评分的数据的最终预测评分f_yi为：

式中，表示所述待预测评分的数据所属业务模块k对所述待预测用户的重要程度。