CN114722179B

CN114722179B - 基于信息追溯的检索分析及数据融合方法

Info

Publication number: CN114722179B
Application number: CN202210451092.XA
Authority: CN
Inventors: 王金栋; 肖亚飞; 管中; 邵佳伟
Original assignee: Guoxin Zhuanda Hangzhou Technology Co ltd
Current assignee: Guoxin Zhuanda Hangzhou Technology Co ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2023-07-04
Anticipated expiration: 2042-04-26
Also published as: CN114722179A

Abstract

本发明公开了一种基于信息追溯的检索分析及数据融合方法，属于数据检索技术领域。本发明以用户i在历史连续星期的不同星期的不同时段的检索记录为当前检索时间点的初始检索数据库，并以检索关键词对应的句编码为检索的过滤、筛选条件，以用户i对每篇文献的历史阅读累计时长或点击次数为过滤筛选结果的排序依据，对检索结果进行排序并展示给用户i，能够根据当前检索时间点输入的检索关键词与历史输入的检索关键词的相似度快速且准确地匹配出用户i在不同星期的不同时段感兴趣阅读的文献。

Description

基于信息追溯的检索分析及数据融合方法

技术领域

本发明涉及数据检索技术领域，具体涉及一种基于信息追溯的检索分析及数据融合方法。

背景技术

普遍的检索方式为：用户在检索网站输入检索关键词并确定后，后台数据库根据检索关键词匹配检索结果并将匹配到的检索结果以列表形式展示给用户。但在一些特殊的检索场景，个性化的检索需求开始出现，比如高校师生在白天时段搞研究，需要检索学术类的文献，但在晚上时段从事相关文学创作，需要检索文学类的文献。又比如，身兼多职的职员，上午时段做算法分析，需要检索相关算法类的文献，下午时段做应用开发，需要检索相关软件开发类的文献。再比如，自由职业者，规定了在周一到周五的白天时段搞技术开发，需要检索技术开发类的文献，在周一到周五的晚上时段搞视频营销，需要检索营销类的相关文献，而在周六周日的全天时段搞文学创作，需要检索文学类的文献。这些具有特殊需求的检索场景，用户的每次检索行为可能存在关联性，比如，用户规划了在12月的30天内的每天上午5:00到11:00撰写研究生毕业论文，并且规划在12月1-3日这3天时间内撰写毕业论文的技术背景部分，成型后的论文技术背景内容的关键词假设为“安全监测”“热传感”“远程控制”“身份识别”“无人操控”“微处理器”“CNN神经网络”等，那么该学生在撰写论文背景技术的12月1日到3日这3天时的检索关键词通常为“安全监测”“热传感”“远程控制”“身份识别”“无人操控”“微处理器”“CNN神经网络”，当该学生对检索结果中的某个文献感兴趣时，会停留更多的时间去阅读该文献，当3天中对同个文献具有多次阅读行为时，代表该学生对该个文献的兴趣更强。但若该学生未保存该文献，而是采用相同关键词或相似关键词进行反复检索，并从每次检索结果中去选中感兴趣的该文献，由于感兴趣的该同个文献在每次检索中排序不一定靠前，该学生可能需要花费更长的时间去检索出感兴趣的该文献。

还有一种情况，当希望在当前检索时间点检索出历史某个时间段曾经阅读过的文献，但仅记得当初的检索关键词而忘记曾经阅读过的该文献名称时，如何能够快速且准确的检索出该文献成为许多用户期待解决的技术问题。

发明内容

本发明以实现数据检索的可追溯性，满足特殊检索场景下不同用户对数据检索的针对性和有效性的不同需求为目的，提供了一种基于信息追溯的检索分析及数据融合方法。

为达此目的，本发明采用以下技术方案：

提供一种基于信息追溯的检索分析及数据融合方法，包括步骤：

S1，在当前检索时间点，获取当前用户i的历史检索记录，包括所述用户i在连续每个历史星期w_k的每个星期d_l的每个检索时段q_m的检索记录，关联每个所述检索时段q_m的历史检索记录具体包括所述用户i在每次检索行为中输入的每一级检索关键词对应的检索结果数据，关联每一级的所述检索关键词的所述检索结果数据包括点击检索结果中以列表显示的每个文献的点击时间、点击次数、阅读累计时长、文献名称、文献摘要以及输入的对应级别的各检索关键词组合成句后的句编码，获取到的关联所述用户i的所述历史检索记录的数据构成通过以下表达式(1)表达：

表达式(1)中，S_i表示获取到的关联所述用户i的所述历史检索记录的集合；

name_i表示所述用户i的用户名；

表示所述用户i在历史星期w_k中的星期d_l中的检索时段q_m内的检索记录；

表示所述用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为得到的检索结果数据；

A表示所述用户i在历史星期w_k中的星期d_l中的检索时段q_m内的实施检索行为的次数；

表示所述用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为中输入第b级检索关键词后得到的检索结果数据；

B表示所述用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为中输入不同级的检索关键词的级数；

v_b分别对应表示所述用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中点击第x个文献的点击时间/>

点击次数/>

对第x个文献的/>

次点击的阅读累计时长/>

点击阅读的第x个文献的文献名称/>

文献摘要/>

以及输入的第b级的各检索关键词组合成句后的句编码v_b；

n表示所述用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中所述用户i有过点击阅读行为的文献数量；

K表示连续历史星期w_k的数量；M表示一天内所述检索时段q_m的数量；

S2，将集合S_i划分为3个数据集，分别记为

表示所述用户i在每个历史星期w_k的同个星期d_l中的同个检索时段q_m内的第一检索记录集合；

表示所述用户i在每个历史星期w_k的不同星期d_l中的同个检索时段q_m内的第二检索记录集合；

表示所述用户i在每个历史星期w_k的不同星期d_l中的不同检索时段q_m内的第三检索记录集合；

S3，获取当前检索时间点T_sch对应的所述检索时段q_m和所在的星期d_l，并将所述用户i在T_sch检索时间点输入的各检索关键词组合成句后转换为句编码v_sch，v_sch通过以下方法步骤转换而得：

S31，将所述用户i在T_sch时间点输入的各检索关键词以字为单位进行分词，拆得按输入顺序排列的若干个检索关键字；

S32，对每个所述检索关键字统一放大为设定的字体大小，然后以指定长和宽的矩形框框选住被放大后的每个所述检索关键字，每个所述检索关键字位于对应的所述矩形框的正中位置；

S33，寻找距离所述矩形框的上边最近的边缘点作为遍历所述检索关键字的边缘点的起始边缘点P₀并标记序号为“0”；

S34，从所述起始边缘点P₀开始以逆时针方向遍历所述检索关键字分布在圆周方向的每个边缘点P_j，并对先后遍历到的边缘点按序标号；

S35，以所述矩形框的中心位点C₀为XY轴坐标系的原点，计算在所述检索关键字上遍历到的每个所述边缘点P_j与所述矩形框的中心位点C₀的第一距离L₁，以及计算每个所述边缘点P_j与X轴的第二距离L₂；

S36，根据关联每个所述边缘点P_j的所述第一距离L₁和所述第二距离L₂，计算每个所述边缘点P_j与所述中心位点C₀的连线L与X轴之间的夹角，记为θ_j；

S37，根据θ_j和所述边缘点P_j所在的象限空间，并查表得到所述边缘点P_j对应的编码e_j，所述编码e_j的计算方式为：

确定θ_j所在的角度区间，并基于预设的角度区间与绝对值编码的对应关系，获取θ_j对应的绝对值编码|e_j|，预设的角度区间与绝对值编码的所述对应关系具体为：

当θ_j＝0°时，|e_j|＝0；

当0°<θ_j≤15°时，|e_j|＝1；

当15°<θ_j≤30°时，|e_j|＝2；

当30°<θ_j≤45°时，|e_j|＝3；

当45°<θ_j≤60°时，|e_j|＝4；

当60°<θ_j≤75°时，|e_j|＝5；

当75°<θ_j<90°时，|e_j|＝6；

当θ_j＝90°时，|e_j|＝7；

确定所述边缘点P_j所在的象限空间，并当P_j在第一象限空间时，令e_j＝|e_j|；当P_j在第二象限空间时，令

当P_j在第三象限空间时，令e_j＝-|e_j|；当P_j在第四象限空间时，令e_j＝±|e_j|；

S38，按照遍历到所述边缘点P_j的先后顺序，对每个所述边缘点P_j对应的所述编码e_j进行排列，组合得到各所述边缘点P_j所关联的所述检索关键字的字编码

S39，按各所述检索关键字的输入顺序，对关联各所述检索关键字的所述字编码

进行排列，组合得到所述句编码v_sch后更新存储到检索关键词库中作为所述用户i历史检索的所述句编码v_b；

S4，判断所述第一检索记录集合

中的检索行为的次数是否大于预设的次数阈值

若是，则将所述句编码v_sch与所述第一检索记录集合

中记录的所述用户i实施每次检索行为形成的每个所述句编码v_b进行编码比对，得到关联每个所述句编码v_b的第一编码比对结果并跳转到步骤S7；

若否，则转入步骤S5；

S5，判断所述第二检索记录集合

中的检索行为的次数是否大于所述次数阈值

若是，则将所述句编码v_sch与所述第二检索记录集合

中记录的所述用户i实施每次检索行为形成的每个所述句编码v_b进行编码比对，得到关联每个所述句编码v_b的第二编码比对结果并跳转到步骤S7；

若否，则转入步骤S6；

S6，判断所述第三检索记录集合

中的检索行为的次数是否大于所述次数阈值

若是，则将所述句编码v_sch与所述第三检索记录集合

中记录的所述用户i实施每次检索行为形成的每个所述句编码v_b进行编码比对，得到关联每个所述句编码v_b的第三编码比对结果并转入步骤S7；

若否，则根据所述用户i在所述T_sch时间点输入的各检索关键词，检索数据库，得到第三检索结果并跳转到步骤S9；

所述第一编码比对结果或所述第二编码比对结果或所述第三编码比对结果通过以下表达式(2)表达：

表达式(2)中，dif_a表示所述句编码v_sch与所述用户i历史实施第a次检索行为得到的所述句编码v_b的编码比对结果；

表示所述句编码v_sch与所述句编码v_b的距离差异；

表示所述句编码v_sch与所述句编码v_b的长度差异；

w₁、w₂分别表示在计算dif_a时对应的

所占的权重；

通过以下表达式(3)计算而得：

表达式(3)中，h表示参与

计算的所述用户i在实施历史第a次检索行为时得到的所述句编码v_b中关联对应的所述检索关键字的第h个字编码/>

通过以下表达式(4)计算而得：

表达式(4)中，

表示具有编码相似度的参与dif_a计算的所述句编码v_sch中的第g个字编码/>

与所述句编码v_b中的第h个所述字编码/>

的长度差异；

表达式(3)和(4)中，H表示参与

计算的所述用户i在实施历史第a次检索行为时得到的所述句编码v_b中含有的分别关联每个所述检索关键字的所述字编码/>

的数量；

与所述句编码v_b中的第h个所述字编码/>

的距离差异；

g表示参与

计算的所述句编码v_sch中关联对应的所述检索关键字的第g个所述字编码/>

G表示参与

计算的所述句编码v_sch中关联每个所述检索关键字的所述字编码

的数量；

S7，按dif_a值由小到大顺序，对每个参与dif_a值计算的所述句编码v_b对应的检索结果进行排序，并融合得到针对所述句编码v_sch的第一检索结果；

S8，对所述第一检索结果中的每个dif_a值对应的展示区块中的每个文献，按照历史阅读累计时长由长到短重新进行排序，得到所述第一检索结果对应的第二检索结果；

S9，将所述第二检索结果或所述第三检索结果作为所述用户i在所述T_sch检索时间点的检索结果以列表形式推送给所述用户i，并存储到对应的检索记录集合中。

作为优选，步骤S32中，所述矩形框为正方形框。

作为优选，步骤S32中，被所述正方形框框选住的所述检索关键字的字体大小为72号。

作为优选，

分别表示具有80％及以上编码相似度的参与dif_a计算的所述句编码v_sch中的第g个字编码/>

与和所述句编码v_b中的第h个所述字编码/>

的距离差异、长度差异。

本发明以用户i在历史连续星期的不同星期的不同时段的检索记录为当前检索时间点的初始检索数据库，并以检索关键词对应的句编码为检索的过滤、筛选条件，以用户i对每篇文献的历史阅读累计时长或点击次数为过滤筛选结果的排序依据，对检索结果进行排序并展示给用户i，能够根据当前检索时间点输入的检索关键词与历史输入的检索关键词的相似度快速且准确地匹配出用户i在不同星期的不同时段感兴趣阅读的文献。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于信息追溯的检索分析及数据融合方法的实现步骤图；

图2是遍历计算θ_j的示意图；

图3是按diff_a值由小到大按区块排列展示的句编码v_sch对应的检索结果示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明一实施例提供的基于信息追溯的检索分析及数据融合方法，如图1所示，包括：

步骤S1，在当前检索时间点，获取当前用户i的历史检索记录，包括所述用户i在连续每个历史星期w_k的每个星期d_l的每个检索时段q_m的检索记录，关联每个检索时段q_m的历史检索记录具体包括用户i在每次检索行为中输入的每一级检索关键词对应的检索结果数据，这里的每一级检索关键词比如为首先输入的检索关键词为“数据分析”，获得检索结果后，再增加检索关键词“安全监测”，则“数据分析”为第一级检索关键词，“数据分析安全监测”为第二级检索关键词。关联每一级的检索关键词的检索结果数据包括点击检索结果中以列表显示的每个文献的点击时间、点击次数、阅读累计时长、文献名称、文献摘要以及输入的对应级别的各检索关键词组合成句后的句编码，获取到的关联用户i的历史检索记录的数据构成通过以下表达式(1)表达：

表达式(1)中，S_i表示获取到的关联用户i的所述历史检索记录的集合；

name_i表示用户i的用户名；

表示用户i在历史星期w_k中的星期d_l中的检索时段q_m内的检索记录；作为优选，获取用户i在历史连续的4个星期内的每个星期(星期一至星期天)的上午5:00-12:00，下午12:00-18:00，晚上18:00-24:00，凌晨24:00-5:00这4个检索时段中的每个检索时段的检索记录；

表示用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为得到的检索结果数据；比如，在历史星期w_k中的星期一中的上午5:00-12:00这一检索时段输入检索关键词“数据分析”的这一检索行为得到的检索结果；

A表示用户i在历史星期w_k中的星期d_l中的检索时段q_m内的实施检索行为的次数；比如在上午5:00-12:00这一检索时段实施了20次检索行为，每次检索行为对应多次检索动作，这里所述的检索动作为在一次检索行为中通过输入多级检索关键词得到关联该次检索行为的多个检索结果数据；

表示用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为中输入第b级检索关键词后得到的检索结果数据；

B表示用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为中输入不同级的检索关键词的级数；

v_b分别对应表示用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中点击第x个文献的点击时间/>

(比如在2022年4月26日的上午10：40′38″点击了文献x)、点击次数/>

(点击文献x的次数，多次点击文献x的行为能够表征用户i对该文献的感兴趣程度，点击次数越多说明用户i对该文献越感兴趣，因此将/>

作为检索分析的其中一项关键指标)、对第x个文献的/>

次点击的阅读累计时长/>

(阅读累计时长更能反映出用户i对文献x的感兴趣程度，因此将/>

作为检索分析的另外一项关键指标)、点击阅读的第x个文献的文献名称/>

文献摘要/>

以及输入的第b级的各检索关键词组合成句后的句编码v_b(比如两个检索关键词“数据分析”“安全监测”组合成“数据分析、安全监测”后对应的句编码v_b)；

n表示用户i在历史星期w_k中的星期d_l中的检索时段q_m内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中用户i有过点击阅读行为的文献数量；

K表示连续历史星期w_k的数量；M表示一天内检索时段q_m的数量；

步骤S1中，需要说明的是，表达式(1)中的各个求和符号并非数学运算意义上的求和，实际表征的是各个检索结果数据的的集合，比如对于

这个表达式，当n＝2时，/>

的数据构成为：/>

步骤S2，将集合S_i划分为3个数据集，分别记为

表示用户i在每个历史星期w_k的同个星期d_l中的同个检索时段q_m内的第一检索记录集合，比如用户i在历史连续4个星期的星期一的上午5:00-12:00这个检索时段得到的检索结果数据形成的第一检索记录集合；

表示用户i在每个历史星期w_k的不同星期d_l中的同个检索时段q_m内的第二检索记录集合，比如用户i在历史连续4个星期的星期一到星期天每天的上午5:00-12:00这个检索时段得到的检索结果数据形成的第二检索记录集合

表示用户i在每个历史星期w_k的不同星期d_l中的不同检索时段q_m内的第三检索记录集合，比如用户i在历史连续4个星期的星期一到星期天每天的每个检索时段得到的检索结果数据形成的第三检索记录集合；

同样需要强调的是，

的表达式中的求和符号表示的是数据集合，并非数学运算意义上的数值求和。

步骤S3，获取当前检索时间点T_sch对应的检索时段q_m和所在的星期d_l(比如当前检索时间点T_sch为2022年4月26日上午10点29分，则其对应的检索时段为上午5:00-12:00)，并将用户i在T_sch时间点输入的各检索关键词组合成句后转换为句编码v_sch，v_sch通过以下方法步骤转换而得：

步骤S31，将用户i在T_sch时间点输入的各检索关键词以字为单位进行分词，拆得按输入顺序排列的若干个检索关键字；比如，对于检索关键词“数据分析”，将其拆分并按输入顺序排列为“数”“据”“分”“析”

步骤S32，对每个检索关键字统一放大为设定的字体大小(优选放大为72号字体或72号以上字体，以便于后续的进行句编码)，然后以指定长和宽的矩形框(优选为正方形，由于检索关键字位于正方形框的正中位置，因此选用正方形框有利于提升后续的夹角θ_j的计算速度)框选住被放大后的每个检索关键字，每个检索关键字位于对应的矩形框的正中位置，比如，检索关键字“士”位于正方形框的正中位置；

步骤S33，寻找距离矩形框的上边最近的边缘点作为遍历所述检索关键字的边缘点的起始边缘点P₀并标记序号为“0”，如图2中所示的边缘点P₀；

步骤S34，如图2所示，从起始边缘点P₀开始以逆时针方向遍历所述检索关键字分布在圆周方向的每个边缘点P_j，并对先后遍历到的边缘点按序标号(图2中的数字0-4均为对边缘点的标号)；这里需要说明的是，对关键字的边缘点的识别方法可采用现有的文字端点识别方法，比如识别到关键字中某个点的任意两个及以上方向上不具有连接线时，将该点识别为边缘点，也可以每个关键字的边缘点特征作为样本，通过CNN神经网络训练边缘点识别模型，由该模型去识别每个检索关键字的边缘点。

步骤S35，以矩形框的中心位点C₀为XY轴坐标系的原点，计算在检索关键字上遍历到的每个边缘点P_j与矩形框的中心位点C₀的第一距离L₁，以及计算每个边缘点P_j与X轴的第二距离L₂，例如图2中所示的针对边缘点P₄的L₁和L₂；

步骤S36，根据关联每个边缘点P_j的第一距离L₁和第二距离L₂，计算每个边缘点P_j与中心位点C₀的连线L与X轴之间的夹角，记为θ_j；

步骤S37，根据θ_j和边缘点P_j所在的象限空间，并查表得到边缘点P_j对应的编码e_j，编码e_j的计算方式为：

当θ_j＝0°时，|e_j|＝0；

当0°<θ_j≤15°时，|e_j|＝1；

当15°<θ_j≤30°时，|e_j|＝2；

当30°<θ_j≤45°时，|e_j|＝3；

当45°<θ_j≤60°时，|e_j|＝4；

当60°<θ_j≤75°时，|e_j|＝5；

当75°<θ_j<90°时，|e_j|＝6；

当θ_j＝90°时，|e_j|＝7；

例如，图2中所示的起始边缘点P₀对应的编码绝对值|e_j|为7。

确定边缘点P_j所在的象限空间，并当P_j在第一象限空间时，令e_j＝|e_j|；当P_j在第二象限空间时，令

当P_j在第三象限空间时，令e_j＝-|e_j|；当P_j在第四象限空间时，令e_j＝±|e_j|；另外，当边缘点P_j正好处于X轴或Y轴上时，e_j的正、负值与其所处的X轴或Y轴的正、负值相同，例如图2中的起始边缘点P₀的e_j为Y轴的正值。

步骤S38，按照遍历到边缘点P_j的先后顺序，对每个边缘点P_j对应的编码e_j进行排列，组合得到各边缘点P_j所关联的检索关键字的字编码

例如，图2中所示的检索关键字“士”的字编码/>

为/>

其中，7表示P₀的编码e₀，/>

表示P₁的编码e₁，-4表示P₂的编码e₂，±4表示P₃的编码e₃，3表示P₄的编码e₄。

步骤S39，按各检索关键字的输入顺序，对关联各检索关键字的字编码

进行排列，组合得到句编码v_sch后更新存储到检索关键词库中作为用户i历史检索的句编码v_b，比如，假设关键字“分”的字编码/>

“析”的字编码/>

则组合后“分析”对应的句编码/>

请继续参照图1，得到用户i在T_sch时间点输入的各检索关键词组合成句后转换的句编码v_sch后，转入：

步骤S4，判断第一检索记录集合

中的检索行为的次数是否大于预设的次数阈值

若是，则将句编码v_sch与第一检索记录集合

中记录的用户i实施每次检索行为形成的每个句编码v_b进行编码比对，得到关联每个句编码v_b的第一编码比对结果并跳转到步骤S7；

若否，则转入步骤S5；

S5，判断第二检索记录集合

中的检索行为的次数是否大于次数阈值/>

若是，则将句编码v_sch与第二检索记录集合

中记录的用户i实施每次检索行为形成的每个句编码v_b进行编码比对，得到关联每个句编码v_b的第二编码比对结果并跳转到步骤S7；

若否，则转入步骤S6；

S6，判断第三检索记录集合

中的检索行为的次数是否大于次数阈值/>

若是，则将句编码v_sch与第三检索记录集合

中记录的用户i实施每次检索行为形成的每个句编码v_b进行编码比对，得到关联每个句编码v_b的第三编码比对结果并转入步骤S7；

若否，则根据用户i在T_sch时间点输入的各检索关键词，检索数据库，得到第三检索结果并跳转到步骤S9；

第一编码比对结果或第二编码比对结果或第三编码比对结果通过以下表达式(2)表达：

表达式(2)中，dif_a表示句编码v_sch与用户i历史实施第a次检索行为得到的句编码v_b的编码比对结果，即第一编码比对结果或第二编码比对结果或第三编码比对结果；

表示句编码v_sch与句编码v_b的距离差异；

表示句编码v_sch与句编码v_b的长度差异；

w₁、w₂分别表示在计算dif_a时对应的

所占的权重；

通过以下表达式(3)计算而得：

表达式(3)中，h表示参与

计算的用户i在实施历史第a次检索行为时得到的句编码v_b中关联对应的检索关键字的第h个字编码/>

通过以下表达式(4)计算而得：/>

表达式(4)中，

表示具有编码相似度(优选为80％及以上编码相似度)的参与dif_a计算的句编码v_sdh中的第g个字编码/>

与句编码v_b中的第h个字编码/>

的长度差异；

表达式(3)和(4)中，H表示参与

计算的用户i在实施历史第a次检索行为时得到的句编码v_b中含有的分别关联每个检索关键字的所述字编码/>

的数量；

表示具有编码相似度(优选为80％及以上编码相似度)的参与dif_a计算的句编码v_sch中的第g个字编码/>

与句编码v_b中的第h个字编码/>

的距离差异；

g表示参与

计算的句编码v_sch中关联对应的检索关键字的第g个字编码/>

G表示参与

计算的句编码v_sch中关联每个检索关键字的字编码/>

的数量；

举例而言，比如当前检索时间点T_sch输入的检索关键词为“分析”，其对应的句编码v_sch比如为

参与dif_a计算的句编码v_b比如为

则首先计算v_sch和v_b中的字编码两两间的相似度，计算方法为，“/>

”分别与“/>

”“/>

”作相似度计算，“

”分别与“/>

”“/>

”作相似度计算，“

”与“/>

”的差异编码位为加粗部分，差异编码位的数量为1，“

”的编码长度为“5”，则两者之间的编码相似度为4/5正好符合预设的相似度大于80％以上的要求，则后续需要对该两个字编码进行/>

和/>

的计算。而

与/>

的加粗部分为两者间的差异编码位，差异编码位的数量为4，两者间的相似度为1/5，低于预设的相似度大于80％的要求，因此，后续不对

与/>

这两个字编码作/>

和/>

这里需要说明的是，当参与相似度计算的两个字编码的位数不相同时，相似度计算的分母采用编码较长的位数。

根据公式(3)，对于

与/>

但对于/>

和/>

步骤S7，按dif_a值由小到大顺序，对每个参与dif_a值计算的句编码v_b对应的检索结果进行排序，并融合得到如图3所示的针对句编码v_sch的第一检索结果；

步骤S8，对第一检索结果中的每个dif_a值对应的展示区块中的每个文献，按照历史阅读累计时长由长到短重新进行排序，得到第一检索结果对应的第二检索结果；

步骤S9，将第二检索结果或第三检索结果作为用户i在T_sch检索时间点的检索结果以列表形式推送给用户i，并存储到对应的检索记录集合中，比如T_sch检索时间点对应的星期为星期二的上午5:00-12:00这个检索时段，那么将T_sch对应的第二检索结果或第三检索结果存储到相对应的检索记录集合中。

综上，本发明以用户i在历史连续星期的不同星期的不同时段的检索记录为当前检索时间点的初始检索数据库，并以检索关键词对应的句编码为检索的过滤、筛选条件，以用户i对每篇文献的历史阅读累计时长或点击次数为过滤筛选结果的排序依据，对检索结果进行排序并展示给用户i，能够根据当前检索时间点输入的检索关键词与历史输入的检索关键词的相似度快速且准确地匹配出用户i在不同星期的不同时段感兴趣阅读的文献。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。