CN103761289B

CN103761289B - 一种基于历史记录的知识推送方法

Info

Publication number: CN103761289B
Application number: CN201410018115.3A
Authority: CN
Inventors: 黄河燕; 史树敏; 冯冲; 李侃; 闫春雷
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2017-05-10
Anticipated expiration: 2034-01-15
Also published as: CN103761289A

Abstract

本发明涉及一种基于历史记录的知识推送方法，属于计算机应用领域。本方法通过比较两个任务之间的相似度，获取与当前任务相似的任务，并分析其在完成过程中对知识的操作记录，然后通过一个具体的值来对知识列表排序的方法实现知识推送。本方法能够依据需求者的知识背景和应用情境，为合适的任务，选择合适的知识推送给合适的人，有效的利用了已有的知识，从而促进知识增值。

Description

一种基于历史记录的知识推送方法

技术领域

本发明涉及一种基于历史记录的知识推送方法，属于计算机应用领域。

背景技术

知识作为一种资源和无形的生产要素，是保持和提高竞争优势的可持续来源，目前知识管理的实现和应用已经成为相关学者讨论的热点话题，尤其针对已有知识管理系统中的知识泛滥、知识迷航等现象，为了更有效的调动和发挥用户获取和运用知识的能力，很多学者从不同角度进行研究和实践。目前知识推送技术大致可以分为基于协同过滤的推送、基于内容过滤的推送、基于数据挖掘的推送和混合推送技术。

协同过滤技术通过分析用户历史数据，计算用户之间的相似性，生成相似用户集，根据相似用户对知识的评价来预测目标用户对特定知识的喜好程度，即将相似用户最感兴趣的知识推送给目标用户；协同过滤技术不需要考虑知识的具体内容和用户兴趣的相似性，而是通过比较用户之间的相似性来实现推送，因此他对推送对象没有特殊的要求，但协同过滤推送存在冷启动、稀疏性和可扩展性等问题。

基于内容过滤的推送方法主要集中于文本信息的推送领域。该方法只需要采用机器方法，匹配用户的兴趣概貌和项目资源的特征，来寻找用户喜欢的资源，没有必要进行显示评价。但基于内容的推送局限于用户以前浏览过的信息，忽略了新信息的推送。

数据挖掘技术在个性化推送系统中的应用主要包括关联规则推送和分类挖掘推送。关联规则推送方法根据用户浏览记录产生关联规则。根据用户当前的操作，按关联规则的重要程度将相关知识按序推送给用户。关联规则方法简单直接，但关联规则生成耗时且质量难以保证。分类挖掘推送方法通过聚类、神经网络等机器学习方法对知识进行分类，通过分析用户所需知识类型选择项用户推送的知识。

混合推送技术将不同的推送技术惊醒结合，通过取长补短来使各推送结果达到最优。该方法保留原有方法的优点，而且针对每种方法的缺点进行改进，但是仍有受到原有方法的限制。

目前这些方法都不能能够依据用户的知识背景和应用情境，为当前的任务，选择合适的知识进行推送。

本发明涉及到的知识推送相关的概念包括：

定义1：一组将系统中输入命令转化为输出结果的相互关联或相互作用的活动称为工作流程；工作流程包括流程名称{flowName}和流程描述{flowDesc}。

定义2：工作流程中的一个相对独立的活动定义为一个任务；一个任务包括名称{taskName}，描述{taskDesc}，持续时间{long}，前驱任务{last}，后继任务{next}；一个流程中起始任务的前驱任务为空，结束任务的后继任务为空。

定义3：任务被提交以后称为历史任务。

定义4：根据一个过程求两条文本中所包含词的信息之间的相似程度，被称为求文本相似度，其结果是一个值数值sim，且有0＜＝sim＜＝1,sim＝1表示两条文本基本相同，sim＝0表示两条文本一点也不相关，该过程的具体定义如下：

首先将文本进行分词，获取两个词的集合，每个词出现为1，不出现0将该集合组合成两个向量，这样就会生成两个在多维度空间内的向量V1，V2。通过余弦公式来计算两个向量之间的夹角，该夹角值即为文本相似度sim。

定义5：系统中独立存在的文档，称为知识{kno}；包括设计文档，文献文档，技术文档，使用手册，网络文档，简单文档，专利文档，未分类文档。

定义6：用户在完成某项任务时对知识的操作行为有点击、下载、收藏，用户在执行任务{task}对知识{kno}的操作包括点击次数{clickTimes}，是否下载{isDownload}，是否收藏{isFavorite}，被称为一个操作记录{log}。

定义7：一条知识在用户执行过程中被参考的重要程度用一个数值wt表示。

定义8：知识与任务匹配时才被推送，使用一个数值sortWt表示知识与任务的匹配程度。

发明内容

本发明的目的是为解决如何在用户执行某一项任务时获取推送到的知识的问题，提出了一种基于历史记录的知识推送方法。为实现上述目的，技术方案中涉及到如下定义：

本发明所采用的技术方案如下：

步骤一：设定一个任务与历史任务之间的相似阈值θ当一个任务与历史任务相似度不小于一个阈值θ时，认为两个任务相似；相似度记为simTask(0≤simTask≤1)；

步骤二、读取历史任务列表和当前任务；

历史任务列表记为：{hisTask₁,hisTask₂,...,hisTask_n}，当前任务记为{currentTask}；

步骤三、读取每一项历史任务对应的操作记录列表；操作记录列表记为{log1,log2,...,logm}；

步骤四、根据步骤一中的阈值θ，将历史任务分为与当前任务相似的任务和不相似的任务；对于有m个历史任务的历史任务列表{hisTask₁,hisTask₂,...,hisTask_n}，对其中每个历史任务hisTask_i；1≤i≤n,计算其与当前任务的相似度simTask：

(1)当前任务的相似度simThis：

simThis＝simName·wtName+simDesc·wtDes+simLong·wtLong

其中simName为历史任务与当前任务的名称的相似度根据定义4中文本相似度求解过程计算,simDesc为两个任务描述的文本相似度根据定义4中文本相似度求解过程计算,simLong为两个任务的持续时间取差值加一再求倒数求的值，上式中求得的参数；

0≤wtName≤1；0≤wtDesc≤1；0≤wtLong≤1；

且有wtName+wtDesc+wtLong＝1；

(2)前驱任务的相似度simLast：

simLast＝simLastName·wtName+simLastDesc·wtDesc+simLastLong·wtLong

其中simLastName为两个任务对应的前驱任务名称的文本相似度,若两个任务中有且这有一个任务没有前驱任务，则该值为0；若两个任务中都没有前驱任务，则该值为1；simLastDesc为两个任务对应的前驱任务描述的文本相似度,若两个任务中有且这有一个任务没有前驱任务，则该值为0；若两个任务中都没有前驱任务，则该值为1；simLastLong为两个任务对应的前驱任务持续时间差值加一再求倒数得到得值，若两个任务中有且这有一个任务没有前驱任务，则该值为0；若两个任务中都没有前驱任务，则该值为1；

其中wtName，wtDesc，wtLong是权重值，表示前驱任务中名称相似度simLastName，描述相似度simLastDesc，执行时常相似度simLastLong在整体中所占的比重，其值符合如下条件：

0≤wtName≤1；0≤wtDesc≤1；0≤wtLong≤1；

wtName+wtDesc+wtLong＝1；

(3)后继任务的相似度simNext：

simNext＝simNextName·wtName+simNextDesc·wtDesc+simNextLong·wtLong

其中simNextName为两个任务对应的后继任务名称的文本相似度,若两个任务中有且这有一个任务没有后继任务，则该值为0；若两个任务中都没有后继任务，则该值为1；simNextDesc为两个任务对应的后继任务描述的文本相似度,若两个任务中有且这有一个任务没有后继任务，则该值为0；若两个任务中都没有后继任务，则该值为1；simNextLong为两个任务对应的后继任务持续时间差值加一再求倒数得到得值，若两个任务中有且这有一个任务没有后继任务，则该值为0；若两个任务中都没有后继任务，则该值为1；

0≤wtName≤1；0≤wtDesc≤1；0≤wtLong≤1；

wtName+wtDesc+wtLong＝1；

(4)任务间相似度simTask：由(1)、(2)、(3)进而计算得到：

simTask＝simThis·(1-2·wtLN)+(simLast+simNext)·wtLN

其中0≤wtLN≤0.5；

simTask不小于θ则为相似任务，否则为不相似任务；照此方式找出所有相似任务和不相似任务。如果历史任务列表中没有相似任务，推送的知识列表为空，结束推送过程；否则执行步骤五。

步骤五、通过遍历操作记录，获取相似任务所参考到的知识，具体步骤如下：

对于有p个相似任务的相似任务列表{simTask₁,simTask₂,...,simTask_p}，对其中每个相似任务simTask_i,1≤i≤p；simTask_i所参考到知识的重要程度wt,生成如下记录：

{(task₁,kno₁,wt₁₁),(task₁,kno₂,wt₁₂),...,(task₁,kno_m,wt_1m),

(task₂,kno₁,wt₂₁),(task₂,kno₂,wt₂₂),...,(task₂,kno_m,wt_2m),

(task_n,kno₁,wt_n1),(task_n,kno₂,wt_n2),...,(task_n,kno_m,wt_nm),}

知识的重要程度wt的计算过程如下：

从浏览记录中获取完成该任务时所做的所有操作{log_i1,log_i2,...log_iq}；其中log_ij表示相似任务simTask_i对知识kno_j的操作记录。

知识kno_j在任务simTask_i完成过程中的重要程度计算过程为：

其中favWt为常量；isFavorite表示知识kno_j是否被收藏；

其中dwnWt为常量；isDownload表示知识kno_j是否被下载；

wt＝clickTimesWt+favoriteWt+downloadWt

然后执行步骤六。

步骤六、根据步骤五计算的表示知识在任务中的重要程度的值wt和历史任务与当前任务间相似度simTask，计算知识在推送过程中的排序权重。排序权重的计算公式如下：

sortWt＝simTask·wt

步骤七、对于有重复的知识通过以下策略去掉重复的知识，重新生成排序权重，并按照排序权重以降序排序，最终获取的知识列表为推送的结果。

假设知识kno_j在知识列表中出现m次，即存在m个排序权重对应kno_j知识，对其进行降序排序获取其结果{sortWt₁,sortWt₂,...,sortWt_m},新的排序结果计算公式为：

对所有kno_j执行以上操作重新生成排序权重，并以降序排序，最终获取的知识列表为推送结果。

有益效果

本发明对比现有技术，采用文本相似度计算方法，利用历史记录对当前执行的任务推送知识，本发明适用于面向任务推送知识的需求。

附图说明

图1为本发明技术方案流程图

图2为步骤四区分相似与不相似任务的技术方案流程图

图3为计算每条知识退当前任务的排序权重的技术方案流程图

具体实施方式

下面结合实施例对本发明做进一步说明：

根据步骤一，设定一个任务与历史任务之间的相似阈值θ＝0.50当一个任务与历史任务相似度不小于一个阈值θ时，认为两个任务相似；相似度记为simTask(0≤simTask≤1)；

根据步骤二、读取历史任务列表和当前任务，假定当前任务{currentTask}执行时系统中共有5个历史任务{hisTask1,hisTask2,hisTask3,hisTask4,hisTask5}，任务具体信息如下：

根据步骤三、读取每一项历史任务对应的操作记录，具体内容如下：

{(hisTask₁,kno₁,3,true,true),(hisTask₁,kno₂,5,true,false),(hisTask₁,kno₃,6,false,true),

(hisTask₁,kno₄,4,false,false),(hisTask₁,kno₅,3,true,true),(hisTask₁,kno₆,9,true,true),

(hisTask₂,kno₁,3,false,true),(hisTask₂,kno₃,4,false,true),(hisTask₂,kno₅,5,true,true),

(hisTask₂,kno₇,6,false,true),(hisTask₂,kno₉,3,true,true),(hisTask₂,kno₁₁,3,false,true),

(hisTask₃,kno₁₅,6,fase,true),(hisTask₃,kno₉,2,true,true),(hisTask₃,kno₁₁,3,true,fase),

(hisTask₄,kno₈,6,false,true),(hisTask₄,kno₁,3,true,true),(hisTask₄,kno₁₁,3,true,true),

(hisTask₅,kno₃,6,false,true),(hisTask₅,kno₄,3,true,true),(hisTask₅,kno₁₀,3,true,false),}

根据步骤四，根据步骤一中设定的阈值，计算权重值wtName＝0.40；wtDesc＝0.40；wtLong＝0.20。

hisTask₁和currentTask的名称相似度simName₁＝0.20；描述相似度simDesc₁＝0.00；持续时间相似度simLong₁＝0.06；前驱任务名称相似度simLastName₁＝0.00；前驱任务描述相似度simLastDesc₁＝0.00；前驱任务持续时间相似度simLastLong₁＝0.00；后继任务名称相似度simNextName₁＝0.00；后继任务描述相似度simNextDesc₁＝0.00；后继任务持续时间相似度simNextLong₁＝0.00；求得simTask₁＝0.056，小于θ＝0.50，hisTask₁为不相似任务。

hisTask₂和currentTask的名称相似度simName₂＝0.90；描述相似度simDesc₂＝0.90；持续时间相似度simLong₂＝1.00；前驱任务名称相似度simLastName₂＝0.00；前驱任务描述相似度simLastDesc₂＝0.00；前驱任务持续时间相似度simLastLong₂＝0.00；后继任务名称相似度simNextName₂＝0.50；后继任务描述相似度simNextDesc₂＝0.60；后继任务持续时间相似度simNextLong₂＝1.00；求得simTask₂＝0.680，不小于θ＝0.50，hisTask₂为相似任务。

hisTask₃和currentTask的名称相似度simName3＝0.30；描述相似度simDesc₃＝0.40；持续时间相似度simLong₃＝0.62；前驱任务名称相似度simLastName₃＝1.00；前驱任务描述相似度simLastDesc₃＝1.00；前驱任务持续时间相似度simLastLong₃＝1.00；后继任务名称相似度simNextName₃＝0.00；后继任务描述相似度simNextDesc₃＝0.00；后继任务持续时间相似度simNextLong₃＝0.00；求得simTask₃＝0.376，小于θ＝0.50，hisTask₃为不相似任务。

hisTask₄和currentTask的名称相似度simName₄＝0.30；描述相似度simDesc₄＝0.20；持续时间相似度simLong₄＝0.016；前驱任务名称相似度simLastName4＝0.00；前驱任务描述相似度simLastDesc₄＝0.00；前驱任务持续时间相似度simLastLong₄＝0.00；后继任务名称相似度simNextName₄＝0.00；后继任务描述相似度simNextDesc₄＝0.00；后继任务持续时间相似度simNextLong₄＝0.00；求得simTask₄＝0.122，小于θ＝0.50，hisTask₄为不相似任务。

hisTask₅和currentTask的名称相似度simName₅＝0.95；描述相似度simDesc₅＝0.80；持续时间相似度simLong₅＝1.00；前驱任务名称相似度simLastName₅＝1.00；前驱任务描述相似度simLastDesc₅＝1.00；前驱任务持续时间相似度simLastLong₅＝1.00；后继任务名称相似度simNextName₅＝0.90；后继任务描述相似度simNextDesc₅＝0.70；后继任务持续时间相似度simNextLong₅＝0.09；求得simTask₁＝0.872，不小于θ＝0.50，hisTask₁为相似任务。

通过执行上述操作，找到两个相似任务{hisTask₂,hisTask₅}，执行步骤五。

根据步骤五、对每个相似的任务获取其操作记录相关的信息，并求的其重要程度wt的值；设置favWt＝0.40；dwnWt＝0.40；

hisTask₂相关操作记录如下

{(hisTask₂,kno₁,3,false,true),(hisTask₂,kno₃,4,false,true),(hisTask₂,kno₅,5,true,true),

(hisTask₂,kno₇,6,false,true),(hisTask₂,kno₉,3,true,true),(hisTask₂,kno₁₁,3,false,true),}

在完成hisTask₂过程中总共点击次数为3+4+5+6+3+3＝24次；计算得到kno₁在hisTask₂中的重要程度wt的值为：3/24+0.0+0.4＝0.525；得到kno₃在hisTask₂中的重要程度wt＝4/24+0.0+0.4＝0.567；得到kno5在hisTask2中的重要程度wt的值为：5/24+0.4+0.4＝1.001；得到kno₇在hisTask₂中的重要程度wt的值为：6/24+0.0+0.4＝1.050；得到kno₉在hisTask₂中的重要程度wt的值为：3/24+0.4+0.4＝0.925；得到kno₁₁在hisTask₂中的重要程度wt的值为：3/24+0.0+0.4＝0.525。

hisTask₅相关操作记录如下：

{(hisTask₅,kno₃,6,false,true),(hisTask₅,kno₄,3,true,true),(hisTask₅,kno₁₀,3,true,false),}

完成hisTask₅过程中总点击次数为6+3+3＝12次，根据定义11中的方法，计算得到kno₃在hisTask₅中的重要程度wt的值为：3/12+0.0+0.4＝0.900；得到kno₄在hisTask₅中的重要程度wt的值为：3/12+0.4+0.4＝1.050；得到kno₁₀在hisTask₅中的重要程度wt的值为：3/12+0.4+0.0＝0.650。

通过上述步骤找到的知识及相关权重有：

{(hisTask₂,kno₁,0.525),(hisTask₂,kno₃,0.567),(hisTask₂,kno₅,1.001),

(hisTask₂,kno₇,1.050),(hisTask₂,kno₉,0.925),(hisTask₂,kno₁₁,0.525),

(hisTask₅,kno₃,0.900),(hisTask₅,kno₄,1.050),(hisTask₅,kno₁₀,0.650),}

根据步骤六、获取每条知识的排序权重；由步骤四可知hisTask₂与currentTask的相似度为0.680，hisTask₅与currentTask的相似度为0.872；由此求得kno₁的排序权重为0.525*0.680＝0.357；求得kno₃的排序权重为0.567*0.680＝0.386；求得kno₅的排序权重为1.001*0.680＝0.681；求得kno₇的排序权重为1.050*0.680＝0.714；求得kno₉的排序权重为0.925*0.680＝0.629；求得kno₁₁的排序权重为0.525*0.680＝0.357；求得kno₃的排序权重为0.900*0.872＝0.785；求得kno₄的排序权重为1.050*0.872＝0.916；求得kno₁₀的排序权重为0.650*0.872＝0.567。即得到知识及其排序权重列表

{(kno₁,0.357),(kno₃,0.386),(kno₅,0.681),

(kno₇,0.714),(kno₉,0.629),(kno₁₁,0.357),

(kno₃,0.785),(kno₄,0.916),(kno₁₀,0.567)}

根据步骤七、由上一步中结果可见，kno₃有两条记录{(kno3,0.386),(kno3,0.785)}，计算其新的排序权重为0.785+(1/2)*0.386＝0.978，即新的知识记录如下

{(kno₁,0.357),(kno₅,0.681),(kno₇,0.714),(kno₉,0.629),

(kno₁₁,0.357),(kno₄,0.916),(kno₁₀,0.567),(kno₃,0.386),}

对其按降序排序为：

{(kno₃,0.978),(kno₄,0.916),(kno₇,0.714),(kno₅,0.681),

(kno₉,0.629),(kno₁₀,0.567)(kno₁,0.357),(kno₁₁,0.357),}

该列表为最终的推送结果。

Claims

1.一种基于历史记录的知识推送方法，特征在于：

步骤一：设定一个任务与历史任务之间的相似阈值θ，当一个任务与历史任务相似度不小于一个阈值θ时，认为两个任务相似；相似度记为simTask(0≤simTask≤1)；

步骤二、读取历史任务列表和当前任务；

步骤四、根据步骤一中的阈值θ，将历史任务分为与当前任务相似的任务和不相似的任务；对于有n个历史任务的历史任务列表{hisTask₁,hisTask₂,...,hisTask_n}，对其中每个历史任务hisTask_i；1≤i≤n,计算其与当前任务的相似度simTask：

步骤五、通过遍历操作记录，获取相似任务所参考到的知识；

步骤六、根据步骤五计算的表示知识在任务中的重要程度的值wt和历史任务与当前任务间相似度simTask，计算知识在推送过程中的排序权重；排序权重的计算公式如下：

sortWt＝simTask·wt

步骤七、对于有重复的知识通过以下策略去掉重复的知识，重新生成排序权重，并按照排序权重以降序排序，最终获取的知识列表为推送的结果；

s o r t W t N e w = Σ_{i = 1}^{m} \frac{1}{i} \cdot {sortWt}_{i}

2.一种基于历史记录的知识推送方法，其特征还在于：当前任务的相似度simTask计算流程为：

(1)当前任务的相似度simThis：

simThis＝simName·wtName+simDesc·wtDes+simLong·wtLong

其中simName为历史任务与当前任务的名称的相似度，simDesc为两个任务描述的文本相似度；simName和simDesc其结果均是一个数值sim，且有0〈＝sim〈＝1,sim＝1表示两条文本基本相同，sim＝0表示两条文本一点也不相关，该过程的具体定义如下表示两条文本不相关，该过程的具体定义如下：

首先将文本进行分词，获取两个词的集合，每个词出现为1，不出现0将该集合组合成两个向量，这样就会生成两个在多维度空间内的向量V1，V2；通过余弦公式来计算两个向量之间的夹角，该夹角值即为文本相似度sim；

simLong的值为两个任务的持续时间取差值加一再求倒数求得的值；

0≤wtName≤1；0≤wtDesc≤1；0≤wtLong≤1；且有wtName+wtDesc+wtLong＝1；

(2)前驱任务的相似度simLast：

simLast＝simLastName·wtName+simLastDesc·wtDesc+simLastLong·wtLong

其中simLastName为两个任务对应的前驱任务名称的文本相似度,若两个任务中有且只有一个任务没有前驱任务，则该值为0；若两个任务中都没有前驱任务，则该值为1；simLastDesc为两个任务对应的前驱任务描述的文本相似度,若两个任务中有且这有一个任务没有前驱任务，则该值为0；若两个任务中都没有前驱任务，则该值为1；simLastLong为两个任务对应的前驱任务持续时间差值加一再求倒数得到得值，若两个任务中有且这有一个任务没有前驱任务，则该值为0；若两个任务中都没有前驱任务，则该值为1；

0≤wtName≤1；0≤wtDesc≤1；0≤wtLong≤1；wtName+wtDesc+wtLong＝1；；

(3)后继任务的相似度simNext：

simNext＝simNextName·wtName+simNextDesc·wtDesc+simNextLong·wtLong

其中simNextName为两个任务对应的后继任务名称的文本相似度,若两个任务中有且只有一个任务没有后继任务，则该值为0；若两个任务中都没有后继任务，则该值为1；simNextDesc为两个任务对应的后继任务描述的文本相似度,若两个任务中有且只有一个任务没有后继任务，则该值为0；若两个任务中都没有后继任务，则该值为1；simNextLong为两个任务对应的后继任务持续时间差值加一再求倒数得到得值，若两个任务中有且只有一个任务没有后继任务，则该值为0；若两个任务中都没有后继任务，则该值为1；

0≤wtName≤1；0≤wtDesc≤1；0≤wtLong≤1；wtName+wtDesc+wtLong＝1；

(4)任务间相似度simTask：由(1)、(2)、(3)进而计算得到：

simTask＝simThis·(1-2·wtLN)+(simLast+simNext)·wtLN

其中0≤wtLN≤0.5；

simTask不小于θ则为相似任务，否则为不相似任务。