CN114722179B - 基于信息追溯的检索分析及数据融合方法 - Google Patents
基于信息追溯的检索分析及数据融合方法 Download PDFInfo
- Publication number
- CN114722179B CN114722179B CN202210451092.XA CN202210451092A CN114722179B CN 114722179 B CN114722179 B CN 114722179B CN 202210451092 A CN202210451092 A CN 202210451092A CN 114722179 B CN114722179 B CN 114722179B
- Authority
- CN
- China
- Prior art keywords
- search
- user
- code
- retrieval
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于信息追溯的检索分析及数据融合方法,属于数据检索技术领域。本发明以用户i在历史连续星期的不同星期的不同时段的检索记录为当前检索时间点的初始检索数据库,并以检索关键词对应的句编码为检索的过滤、筛选条件,以用户i对每篇文献的历史阅读累计时长或点击次数为过滤筛选结果的排序依据,对检索结果进行排序并展示给用户i,能够根据当前检索时间点输入的检索关键词与历史输入的检索关键词的相似度快速且准确地匹配出用户i在不同星期的不同时段感兴趣阅读的文献。
Description
技术领域
本发明涉及数据检索技术领域,具体涉及一种基于信息追溯的检索分析及数据融合方法。
背景技术
普遍的检索方式为:用户在检索网站输入检索关键词并确定后,后台数据库根据检索关键词匹配检索结果并将匹配到的检索结果以列表形式展示给用户。但在一些特殊的检索场景,个性化的检索需求开始出现,比如高校师生在白天时段搞研究,需要检索学术类的文献,但在晚上时段从事相关文学创作,需要检索文学类的文献。又比如,身兼多职的职员,上午时段做算法分析,需要检索相关算法类的文献,下午时段做应用开发,需要检索相关软件开发类的文献。再比如,自由职业者,规定了在周一到周五的白天时段搞技术开发,需要检索技术开发类的文献,在周一到周五的晚上时段搞视频营销,需要检索营销类的相关文献,而在周六周日的全天时段搞文学创作,需要检索文学类的文献。这些具有特殊需求的检索场景,用户的每次检索行为可能存在关联性,比如,用户规划了在12月的30天内的每天上午5:00到11:00撰写研究生毕业论文,并且规划在12月1-3日这3天时间内撰写毕业论文的技术背景部分,成型后的论文技术背景内容的关键词假设为“安全监测”“热传感”“远程控制”“身份识别”“无人操控”“微处理器”“CNN神经网络”等,那么该学生在撰写论文背景技术的12月1日到3日这3天时的检索关键词通常为“安全监测”“热传感”“远程控制”“身份识别”“无人操控”“微处理器”“CNN神经网络”,当该学生对检索结果中的某个文献感兴趣时,会停留更多的时间去阅读该文献,当3天中对同个文献具有多次阅读行为时,代表该学生对该个文献的兴趣更强。但若该学生未保存该文献,而是采用相同关键词或相似关键词进行反复检索,并从每次检索结果中去选中感兴趣的该文献,由于感兴趣的该同个文献在每次检索中排序不一定靠前,该学生可能需要花费更长的时间去检索出感兴趣的该文献。
还有一种情况,当希望在当前检索时间点检索出历史某个时间段曾经阅读过的文献,但仅记得当初的检索关键词而忘记曾经阅读过的该文献名称时,如何能够快速且准确的检索出该文献成为许多用户期待解决的技术问题。
发明内容
本发明以实现数据检索的可追溯性,满足特殊检索场景下不同用户对数据检索的针对性和有效性的不同需求为目的,提供了一种基于信息追溯的检索分析及数据融合方法。
为达此目的,本发明采用以下技术方案:
提供一种基于信息追溯的检索分析及数据融合方法,包括步骤:
S1,在当前检索时间点,获取当前用户i的历史检索记录,包括所述用户i在连续每个历史星期wk的每个星期dl的每个检索时段qm的检索记录,关联每个所述检索时段qm的历史检索记录具体包括所述用户i在每次检索行为中输入的每一级检索关键词对应的检索结果数据,关联每一级的所述检索关键词的所述检索结果数据包括点击检索结果中以列表显示的每个文献的点击时间、点击次数、阅读累计时长、文献名称、文献摘要以及输入的对应级别的各检索关键词组合成句后的句编码,获取到的关联所述用户i的所述历史检索记录的数据构成通过以下表达式(1)表达:
表达式(1)中,Si表示获取到的关联所述用户i的所述历史检索记录的集合;
namei表示所述用户i的用户名;
A表示所述用户i在历史星期wk中的星期dl中的检索时段qm内的实施检索行为的次数;
B表示所述用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入不同级的检索关键词的级数;
vb分别对应表示所述用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中点击第x个文献的点击时间/>点击次数/>对第x个文献的/>次点击的阅读累计时长/>点击阅读的第x个文献的文献名称/>文献摘要/>以及输入的第b级的各检索关键词组合成句后的句编码vb;
n表示所述用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中所述用户i有过点击阅读行为的文献数量;
K表示连续历史星期wk的数量;M表示一天内所述检索时段qm的数量;
S3,获取当前检索时间点Tsch对应的所述检索时段qm和所在的星期dl,并将所述用户i在Tsch检索时间点输入的各检索关键词组合成句后转换为句编码vsch,vsch通过以下方法步骤转换而得:
S31,将所述用户i在Tsch时间点输入的各检索关键词以字为单位进行分词,拆得按输入顺序排列的若干个检索关键字;
S32,对每个所述检索关键字统一放大为设定的字体大小,然后以指定长和宽的矩形框框选住被放大后的每个所述检索关键字,每个所述检索关键字位于对应的所述矩形框的正中位置;
S33,寻找距离所述矩形框的上边最近的边缘点作为遍历所述检索关键字的边缘点的起始边缘点P0并标记序号为“0”;
S34,从所述起始边缘点P0开始以逆时针方向遍历所述检索关键字分布在圆周方向的每个边缘点Pj,并对先后遍历到的边缘点按序标号;
S35,以所述矩形框的中心位点C0为XY轴坐标系的原点,计算在所述检索关键字上遍历到的每个所述边缘点Pj与所述矩形框的中心位点C0的第一距离L1,以及计算每个所述边缘点Pj与X轴的第二距离L2;
S36,根据关联每个所述边缘点Pj的所述第一距离L1和所述第二距离L2,计算每个所述边缘点Pj与所述中心位点C0的连线L与X轴之间的夹角,记为θj;
S37,根据θj和所述边缘点Pj所在的象限空间,并查表得到所述边缘点Pj对应的编码ej,所述编码ej的计算方式为:
确定θj所在的角度区间,并基于预设的角度区间与绝对值编码的对应关系,获取θj对应的绝对值编码|ej|,预设的角度区间与绝对值编码的所述对应关系具体为:
当θj=0°时,|ej|=0;
当0°<θj≤15°时,|ej|=1;
当15°<θj≤30°时,|ej|=2;
当30°<θj≤45°时,|ej|=3;
当45°<θj≤60°时,|ej|=4;
当60°<θj≤75°时,|ej|=5;
当75°<θj<90°时,|ej|=6;
当θj=90°时,|ej|=7;
若否,则转入步骤S5;
若否,则转入步骤S6;
若否,则根据所述用户i在所述Tsch时间点输入的各检索关键词,检索数据库,得到第三检索结果并跳转到步骤S9;
所述第一编码比对结果或所述第二编码比对结果或所述第三编码比对结果通过以下表达式(2)表达:
表达式(2)中,difa表示所述句编码vsch与所述用户i历史实施第a次检索行为得到的所述句编码vb的编码比对结果;
S7,按difa值由小到大顺序,对每个参与difa值计算的所述句编码vb对应的检索结果进行排序,并融合得到针对所述句编码vsch的第一检索结果;
S8,对所述第一检索结果中的每个difa值对应的展示区块中的每个文献,按照历史阅读累计时长由长到短重新进行排序,得到所述第一检索结果对应的第二检索结果;
S9,将所述第二检索结果或所述第三检索结果作为所述用户i在所述Tsch检索时间点的检索结果以列表形式推送给所述用户i,并存储到对应的检索记录集合中。
作为优选,步骤S32中,所述矩形框为正方形框。
作为优选,步骤S32中,被所述正方形框框选住的所述检索关键字的字体大小为72号。
本发明以用户i在历史连续星期的不同星期的不同时段的检索记录为当前检索时间点的初始检索数据库,并以检索关键词对应的句编码为检索的过滤、筛选条件,以用户i对每篇文献的历史阅读累计时长或点击次数为过滤筛选结果的排序依据,对检索结果进行排序并展示给用户i,能够根据当前检索时间点输入的检索关键词与历史输入的检索关键词的相似度快速且准确地匹配出用户i在不同星期的不同时段感兴趣阅读的文献。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的基于信息追溯的检索分析及数据融合方法的实现步骤图;
图2是遍历计算θj的示意图;
图3是按diffa值由小到大按区块排列展示的句编码vsch对应的检索结果示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明一实施例提供的基于信息追溯的检索分析及数据融合方法,如图1所示,包括:
步骤S1,在当前检索时间点,获取当前用户i的历史检索记录,包括所述用户i在连续每个历史星期wk的每个星期dl的每个检索时段qm的检索记录,关联每个检索时段qm的历史检索记录具体包括用户i在每次检索行为中输入的每一级检索关键词对应的检索结果数据,这里的每一级检索关键词比如为首先输入的检索关键词为“数据分析”,获得检索结果后,再增加检索关键词“安全监测”,则“数据分析”为第一级检索关键词,“数据分析安全监测”为第二级检索关键词。关联每一级的检索关键词的检索结果数据包括点击检索结果中以列表显示的每个文献的点击时间、点击次数、阅读累计时长、文献名称、文献摘要以及输入的对应级别的各检索关键词组合成句后的句编码,获取到的关联用户i的历史检索记录的数据构成通过以下表达式(1)表达:
表达式(1)中,Si表示获取到的关联用户i的所述历史检索记录的集合;
namei表示用户i的用户名;
表示用户i在历史星期wk中的星期dl中的检索时段qm内的检索记录;作为优选,获取用户i在历史连续的4个星期内的每个星期(星期一至星期天)的上午5:00-12:00,下午12:00-18:00,晚上18:00-24:00,凌晨24:00-5:00这4个检索时段中的每个检索时段的检索记录;
表示用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为得到的检索结果数据;比如,在历史星期wk中的星期一中的上午5:00-12:00这一检索时段输入检索关键词“数据分析”的这一检索行为得到的检索结果;
A表示用户i在历史星期wk中的星期dl中的检索时段qm内的实施检索行为的次数;比如在上午5:00-12:00这一检索时段实施了20次检索行为,每次检索行为对应多次检索动作,这里所述的检索动作为在一次检索行为中通过输入多级检索关键词得到关联该次检索行为的多个检索结果数据;
B表示用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入不同级的检索关键词的级数;
vb分别对应表示用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中点击第x个文献的点击时间/>(比如在2022年4月26日的上午10:40′38″点击了文献x)、点击次数/>(点击文献x的次数,多次点击文献x的行为能够表征用户i对该文献的感兴趣程度,点击次数越多说明用户i对该文献越感兴趣,因此将/>作为检索分析的其中一项关键指标)、对第x个文献的/>次点击的阅读累计时长/>(阅读累计时长更能反映出用户i对文献x的感兴趣程度,因此将/>作为检索分析的另外一项关键指标)、点击阅读的第x个文献的文献名称/>文献摘要/>以及输入的第b级的各检索关键词组合成句后的句编码vb(比如两个检索关键词“数据分析”“安全监测”组合成“数据分析、安全监测”后对应的句编码vb);
n表示用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中用户i有过点击阅读行为的文献数量;
K表示连续历史星期wk的数量;M表示一天内检索时段qm的数量;
步骤S2,将集合Si划分为3个数据集,分别记为表示用户i在每个历史星期wk的同个星期dl中的同个检索时段qm内的第一检索记录集合,比如用户i在历史连续4个星期的星期一的上午5:00-12:00这个检索时段得到的检索结果数据形成的第一检索记录集合;
表示用户i在每个历史星期wk的不同星期dl中的同个检索时段qm内的第二检索记录集合,比如用户i在历史连续4个星期的星期一到星期天每天的上午5:00-12:00这个检索时段得到的检索结果数据形成的第二检索记录集合
步骤S3,获取当前检索时间点Tsch对应的检索时段qm和所在的星期dl(比如当前检索时间点Tsch为2022年4月26日上午10点29分,则其对应的检索时段为上午5:00-12:00),并将用户i在Tsch时间点输入的各检索关键词组合成句后转换为句编码vsch,vsch通过以下方法步骤转换而得:
步骤S31,将用户i在Tsch时间点输入的各检索关键词以字为单位进行分词,拆得按输入顺序排列的若干个检索关键字;比如,对于检索关键词“数据分析”,将其拆分并按输入顺序排列为“数”“据”“分”“析”
步骤S32,对每个检索关键字统一放大为设定的字体大小(优选放大为72号字体或72号以上字体,以便于后续的进行句编码),然后以指定长和宽的矩形框(优选为正方形,由于检索关键字位于正方形框的正中位置,因此选用正方形框有利于提升后续的夹角θj的计算速度)框选住被放大后的每个检索关键字,每个检索关键字位于对应的矩形框的正中位置,比如,检索关键字“士”位于正方形框的正中位置;
步骤S33,寻找距离矩形框的上边最近的边缘点作为遍历所述检索关键字的边缘点的起始边缘点P0并标记序号为“0”,如图2中所示的边缘点P0;
步骤S34,如图2所示,从起始边缘点P0开始以逆时针方向遍历所述检索关键字分布在圆周方向的每个边缘点Pj,并对先后遍历到的边缘点按序标号(图2中的数字0-4均为对边缘点的标号);这里需要说明的是,对关键字的边缘点的识别方法可采用现有的文字端点识别方法,比如识别到关键字中某个点的任意两个及以上方向上不具有连接线时,将该点识别为边缘点,也可以每个关键字的边缘点特征作为样本,通过CNN神经网络训练边缘点识别模型,由该模型去识别每个检索关键字的边缘点。
步骤S35,以矩形框的中心位点C0为XY轴坐标系的原点,计算在检索关键字上遍历到的每个边缘点Pj与矩形框的中心位点C0的第一距离L1,以及计算每个边缘点Pj与X轴的第二距离L2,例如图2中所示的针对边缘点P4的L1和L2;
步骤S36,根据关联每个边缘点Pj的第一距离L1和第二距离L2,计算每个边缘点Pj与中心位点C0的连线L与X轴之间的夹角,记为θj;
步骤S37,根据θj和边缘点Pj所在的象限空间,并查表得到边缘点Pj对应的编码ej,编码ej的计算方式为:
确定θj所在的角度区间,并基于预设的角度区间与绝对值编码的对应关系,获取θj对应的绝对值编码|ej|,预设的角度区间与绝对值编码的所述对应关系具体为:
当θj=0°时,|ej|=0;
当0°<θj≤15°时,|ej|=1;
当15°<θj≤30°时,|ej|=2;
当30°<θj≤45°时,|ej|=3;
当45°<θj≤60°时,|ej|=4;
当60°<θj≤75°时,|ej|=5;
当75°<θj<90°时,|ej|=6;
当θj=90°时,|ej|=7;
例如,图2中所示的起始边缘点P0对应的编码绝对值|ej|为7。
确定边缘点Pj所在的象限空间,并当Pj在第一象限空间时,令ej=|ej|;当Pj在第二象限空间时,令当Pj在第三象限空间时,令ej=-|ej|;当Pj在第四象限空间时,令ej=±|ej|;另外,当边缘点Pj正好处于X轴或Y轴上时,ej的正、负值与其所处的X轴或Y轴的正、负值相同,例如图2中的起始边缘点P0的ej为Y轴的正值。
步骤S38,按照遍历到边缘点Pj的先后顺序,对每个边缘点Pj对应的编码ej进行排列,组合得到各边缘点Pj所关联的检索关键字的字编码例如,图2中所示的检索关键字“士”的字编码/>为/>其中,7表示P0的编码e0,/>表示P1的编码e1,-4表示P2的编码e2,±4表示P3的编码e3,3表示P4的编码e4。
步骤S39,按各检索关键字的输入顺序,对关联各检索关键字的字编码进行排列,组合得到句编码vsch后更新存储到检索关键词库中作为用户i历史检索的句编码vb,比如,假设关键字“分”的字编码/>“析”的字编码/>则组合后“分析”对应的句编码/>
请继续参照图1,得到用户i在Tsch时间点输入的各检索关键词组合成句后转换的句编码vsch后,转入:
若否,则转入步骤S5;
若否,则转入步骤S6;
若否,则根据用户i在Tsch时间点输入的各检索关键词,检索数据库,得到第三检索结果并跳转到步骤S9;
第一编码比对结果或第二编码比对结果或第三编码比对结果通过以下表达式(2)表达:
表达式(2)中,difa表示句编码vsch与用户i历史实施第a次检索行为得到的句编码vb的编码比对结果,即第一编码比对结果或第二编码比对结果或第三编码比对结果;
举例而言,比如当前检索时间点Tsch输入的检索关键词为“分析”,其对应的句编码vsch比如为参与difa计算的句编码vb比如为 则首先计算vsch和vb中的字编码两两间的相似度,计算方法为,“/>”分别与“/>”“/>”作相似度计算,“”分别与“/>”“/>”作相似度计算,“”与“/>”的差异编码位为加粗部分,差异编码位的数量为1,“”的编码长度为“5”,则两者之间的编码相似度为4/5正好符合预设的相似度大于80%以上的要求,则后续需要对该两个字编码进行/>和/>的计算。而 与/>的加粗部分为两者间的差异编码位,差异编码位的数量为4,两者间的相似度为1/5,低于预设的相似度大于80%的要求,因此,后续不对与/>这两个字编码作/>和/>这里需要说明的是,当参与相似度计算的两个字编码的位数不相同时,相似度计算的分母采用编码较长的位数。
步骤S7,按difa值由小到大顺序,对每个参与difa值计算的句编码vb对应的检索结果进行排序,并融合得到如图3所示的针对句编码vsch的第一检索结果;
步骤S8,对第一检索结果中的每个difa值对应的展示区块中的每个文献,按照历史阅读累计时长由长到短重新进行排序,得到第一检索结果对应的第二检索结果;
步骤S9,将第二检索结果或第三检索结果作为用户i在Tsch检索时间点的检索结果以列表形式推送给用户i,并存储到对应的检索记录集合中,比如Tsch检索时间点对应的星期为星期二的上午5:00-12:00这个检索时段,那么将Tsch对应的第二检索结果或第三检索结果存储到相对应的检索记录集合中。
综上,本发明以用户i在历史连续星期的不同星期的不同时段的检索记录为当前检索时间点的初始检索数据库,并以检索关键词对应的句编码为检索的过滤、筛选条件,以用户i对每篇文献的历史阅读累计时长或点击次数为过滤筛选结果的排序依据,对检索结果进行排序并展示给用户i,能够根据当前检索时间点输入的检索关键词与历史输入的检索关键词的相似度快速且准确地匹配出用户i在不同星期的不同时段感兴趣阅读的文献。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (4)
1.一种基于信息追溯的检索分析及数据融合方法,其特征在于,包括步骤:
S1,在当前检索时间点,获取当前用户i的历史检索记录,包括所述用户i在连续每个历史星期wk的每个星期dl的每个检索时段qm的检索记录,关联每个所述检索时段qm的历史检索记录具体包括所述用户i在每次检索行为中输入的每一级检索关键词对应的检索结果数据,关联每一级的所述检索关键词的所述检索结果数据包括点击检索结果中以列表显示的每个文献的点击时间、点击次数、阅读累计时长、文献名称、文献摘要以及输入的对应级别的各检索关键词组合成句后的句编码,获取到的关联所述用户i的所述历史检索记录的数据构成通过以下表达式(1)表达:
表达式(1)中,Si表示获取到的关联所述用户i的所述历史检索记录的集合;
namei表示所述用户i的用户名;
A表示所述用户i在历史星期wk中的星期dl中的检索时段qm内的实施检索行为的次数;
B表示所述用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入不同级的检索关键词的级数;
vb分别对应表示所述用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中点击第x个文献的点击时间/>点击次数/>对第x个文献的/>次点击的阅读累计时长/>点击阅读的第x个文献的文献名称/>文献摘要/>以及输入的第b级的各检索关键词组合成句后的句编码vb;
n表示所述用户i在历史星期wk中的星期dl中的检索时段qm内的第a次检索行为中输入第b级检索关键词后得到的以列表显示的检索结果中所述用户i有过点击阅读行为的文献数量;
K表示连续历史星期wk的数量;M表示一天内所述检索时段qm的数量;
S3,获取当前检索时间点Tsch对应的所述检索时段qm和所在的星期dl,并将所述用户i在Tsch检索时间点输入的各检索关键词组合成句后转换为句编码vsch,vsch通过以下方法步骤转换而得:
S31,将所述用户i在Tsch时间点输入的各检索关键词以字为单位进行分词,拆得按输入顺序排列的若干个检索关键字;
S32,对每个所述检索关键字统一放大为设定的字体大小,然后以指定长和宽的矩形框框选住被放大后的每个所述检索关键字,每个所述检索关键字位于对应的所述矩形框的正中位置;
S33,寻找距离所述矩形框的上边最近的边缘点作为遍历所述检索关键字的边缘点的起始边缘点P0并标记序号为“0”;
S34,从所述起始边缘点P0开始以逆时针方向遍历所述检索关键字分布在圆周方向的每个边缘点Pj,并对先后遍历到的边缘点按序标号;
S35,以所述矩形框的中心位点C0为XY轴坐标系的原点,计算在所述检索关键字上遍历到的每个所述边缘点Pj与所述矩形框的中心位点C0的第一距离L1,以及计算每个所述边缘点Pj与X轴的第二距离L2;
S36,根据关联每个所述边缘点Pj的所述第一距离L1和所述第二距离L2,计算每个所述边缘点Pj与所述中心位点C0的连线L与X轴之间的夹角,记为θj;
S37,根据θj和所述边缘点Pj所在的象限空间,并查表得到所述边缘点Pj对应的编码ej,所述编码ej的计算方式为:
确定θj所在的角度区间,并基于预设的角度区间与绝对值编码的对应关系,获取θj对应的绝对值编码|ej|,预设的角度区间与绝对值编码的所述对应关系具体为:
当θj=0°时,|ej|=0;
当0°<j≤15°时,|ej|=1;
当15°<j≤30°时,|ej|=2;
当30°<j≤45°时,|ej|=3;
当45°<j≤60°时,|ej|=4;
当60°<j≤75°时,|ej|=5;
当75°<j<90°时,|ej|=6;
当θj=90°时,|ej|=7;
若否,则转入步骤S5;
若否,则转入步骤S6;
若否,则根据所述用户i在所述Tsch时间点输入的各检索关键词检索数据库,得到第三检索结果并跳转到步骤S9;
所述第一编码比对结果或所述第二编码比对结果或所述第三编码比对结果通过以下表达式(2)表达:
表达式(2)中,difa表示所述句编码vsch与所述用户i历史实施第a次检索行为得到的所述句编码vb的编码比对结果;
S7,按difa值由小到大顺序,对每个参与difa值计算的所述句编码vb对应的检索结果进行排序,并融合得到针对所述句编码vsch的第一检索结果;
S8,对所述第一检索结果中的每个difa值对应的展示区块中的每个文献,按照历史阅读累计时长由长到短重新进行排序,得到所述第一检索结果对应的第二检索结果;
S9,将所述第二检索结果或所述第三检索结果作为所述用户i在所述Tsch检索时间点的检索结果以列表形式推送给所述用户i,并存储到对应的检索记录集合中。
2.根据权利要求1所述的基于信息追溯的检索分析及数据融合方法,其特征在于,步骤S32中,所述矩形框为正方形框。
3.根据权利要求2所述的基于信息追溯的检索分析及数据融合方法,其特征在于,步骤S32中,被所述正方形框框选住的所述检索关键字的字体大小为72号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210451092.XA CN114722179B (zh) | 2022-04-26 | 2022-04-26 | 基于信息追溯的检索分析及数据融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210451092.XA CN114722179B (zh) | 2022-04-26 | 2022-04-26 | 基于信息追溯的检索分析及数据融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114722179A CN114722179A (zh) | 2022-07-08 |
CN114722179B true CN114722179B (zh) | 2023-07-04 |
Family
ID=82245544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210451092.XA Active CN114722179B (zh) | 2022-04-26 | 2022-04-26 | 基于信息追溯的检索分析及数据融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114722179B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014186607A (ja) * | 2013-03-25 | 2014-10-02 | Tokyo Gas Co Ltd | 文献検索装置、文献検索方法、プログラム、および文献検索システム |
CN104462216A (zh) * | 2014-11-06 | 2015-03-25 | 上海南洋万邦软件技术有限公司 | 居委标准代码转换系统及方法 |
CN112347365A (zh) * | 2020-11-25 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种目标搜索信息确定方法及装置 |
CN113868235A (zh) * | 2021-09-29 | 2021-12-31 | 深圳市联银互通信息有限公司 | 一种基于大数据的信息检索分析系统 |
CN114117242A (zh) * | 2021-12-15 | 2022-03-01 | 平安科技(深圳)有限公司 | 数据查询方法和装置、计算机设备、存储介质 |
CN114222000A (zh) * | 2021-12-13 | 2022-03-22 | 中国平安财产保险股份有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
-
2022
- 2022-04-26 CN CN202210451092.XA patent/CN114722179B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014186607A (ja) * | 2013-03-25 | 2014-10-02 | Tokyo Gas Co Ltd | 文献検索装置、文献検索方法、プログラム、および文献検索システム |
CN104462216A (zh) * | 2014-11-06 | 2015-03-25 | 上海南洋万邦软件技术有限公司 | 居委标准代码转换系统及方法 |
CN112347365A (zh) * | 2020-11-25 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种目标搜索信息确定方法及装置 |
CN113868235A (zh) * | 2021-09-29 | 2021-12-31 | 深圳市联银互通信息有限公司 | 一种基于大数据的信息检索分析系统 |
CN114222000A (zh) * | 2021-12-13 | 2022-03-22 | 中国平安财产保险股份有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
CN114117242A (zh) * | 2021-12-15 | 2022-03-01 | 平安科技(深圳)有限公司 | 数据查询方法和装置、计算机设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
基于感知哈希与用户偏好的检索意图建模方法;石宏彬 等;计算机科学;第43卷(第3期);305-308,封3 * |
Also Published As
Publication number | Publication date |
---|---|
CN114722179A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bairagi et al. | Research methodology: A practical and scientific approach | |
Wang et al. | An outranking approach for multi-criteria decision-making with hesitant fuzzy linguistic term sets | |
Wen | Uncertain data envelopment analysis | |
US9613321B2 (en) | System and method for establishing a dynamic meta-knowledge network | |
Bosco et al. | MetaBUS as a vehicle for facilitating meta-analysis | |
Kim et al. | A survey of knowledge acquisition techniques and their relevance to managerial problem domains | |
CN111460249A (zh) | 一种基于学习者偏好建模的个性化学习资源推荐方法 | |
US11544308B2 (en) | Semantic matching of search terms to results | |
US20190266497A1 (en) | Knowledge-graph-driven recommendation of career path transitions | |
WO2020256854A1 (en) | Data sampling for model exploration | |
Silver et al. | Using computer packages in qualitative research | |
US20200302371A1 (en) | Assessment-based opportunity exploration | |
El-Korany | Integrated expert recommendation model for online communities | |
Schierholz et al. | Machine learning for occupation coding—A comparison study | |
Cao et al. | Visguide: User-oriented recommendations for data event extraction | |
US20200356596A1 (en) | Searching by commute preference | |
Friese | Qualitative data analysis software: The state of the art | |
CN114722179B (zh) | 基于信息追溯的检索分析及数据融合方法 | |
Karweit et al. | Computers in survey research | |
Abbaspour et al. | Identifying and describing sub-processes in the strategic intelligence process by qualitative content analysis in an inductive way | |
US20200364275A1 (en) | Characterizing international orientation | |
US20220107973A1 (en) | Collaborative annotation and artificial intelligence for discussion, evaluation, and recommendation of research papers | |
Gu et al. | Developing a scholar classification scheme from publication patterns in academic science: A cluster analysis approach | |
Lubis et al. | Improving course review helpfulness Prediction through sentiment analysis | |
US20200356581A1 (en) | Isochrone-based estimation of transit times |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |