CN107885749A

CN107885749A - 本体语义扩展与协同过滤加权融合的工艺知识检索方法

Info

Publication number: CN107885749A
Application number: CN201610874276.1A
Authority: CN
Inventors: 刘庭煜; 宋豪杰; 曹强; 汪惠芬; 徐骏善
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2018-04-06
Anticipated expiration: 2036-09-30
Also published as: CN107885749B

Abstract

本发明公开了一种本体语义扩展与协同过滤加权融合的工艺知识检索方法。通过基于本体语义扩展及向量空间模型的知识匹配，与基于用户属性协同过滤的知识匹配方法进行加权融合，最后通过基于遗忘曲线的权重控制得出最后的符合用户真实检索意图的用户个性化检索结果。本发明将本体知识检索的优势与协同过滤的优势相结合，并充分考虑用户的动静态属性，将各相关信息进行整合，从而得到更符合用户检索需求、具有用户个性化的检索结果，从而提高了军工工艺知识的共享与重用。

Description

本体语义扩展与协同过滤加权融合的工艺知识检索方法

技术领域

本发明涉及军工产品设计与制造领域，具体地说是一种基于军工工艺知识本体语义扩展与用户动静态属性协同过滤加权融合的军工工艺知识检索方法。

背景技术

知识检索是在信息检索机制中引入语义本体技术，使检索系统能对查询请求和信息源进行语义分析。知识检索不同于通常的信息检索，其就强调了语义的重要性，不是只基于字面的机械匹配。从知识信息的语义、概念出发，全面揭示了知识信息的内在含义，提高知识检索的查全率和查准率。目前国内针对不同应用领域特点提出针对性较强的知识检索方案主要集中在：网络出版模式、古代文献检索、医学领域、档案检索、数字图书馆、分布式信息系统、P2P网络等领域。目前国内提出的知识检索模型系统主要基于以下两种技术：语义本体、Agent技术，其中以语义本体技术研究为重点。

在知识检索算法与策略方面，华中科技大学的蔡淑琴等引入超图相邻的概念进行知识表示和计算知识的多元关系，从知识元素组成、知识拓扑结构及知识综合相似度三个方面对基于超图表示的知识检索相似性度量计算方法进行了分析，通过实例验证该方法的有效性；北京航空航天大学的余旭利用“领域本体-索引知识-数据资源”三层映射结构表达设计知识，形成以领域本体为语义模型和以索引知识为引导的设计知识体系，提出了基于语义的知识检索方法；沈阳大学的王娜从知识检索过程中涉及的用户主体的角度提出了基于多智能主体协作的知识检索，从用户知识、专家知识、领域知识角度提出了基于智能主体的多维学习方法。

协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似(兴趣)用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。

协同过滤在互联网领域、电子商务领域应用较为广泛、较为成熟。学术界对推荐系统的研究热度一直很高，逐步形成了一门独立的学科。上海交通大学的张驰针对当前推荐技术普遍存在的产品内容分析难度大、用户评价信息稀疏和新用户推荐等问题，基于协同过滤技术，引入人口统计信息分析技术，提出一种混合推荐技术相较传统的推荐技术，还能有效提高推荐质量；天津财经大学的高虎明探索了协同过滤与内容过滤新的融合方法，为提高个性化推荐方法的推荐准确度，提出了目热度计算方法并对Pearson相关系数算法进行了进，建立了前用户与其邻居的兴趣模型，对邻居用户进行过滤，由最终得到的可信邻居对当前用户进行推荐的混合推荐方法模型。

军工复杂产品研制是一个继承与重用工艺知识的过程。而工艺知识往往散落和隐含在产品模型、设计文档、分析报告等数据以及相关领域专家的经验之中。现有的工艺知识管理系统主要是面向企业管理，是事务性的业务知识管理，很难用来支持军工复杂产品设计过程。目前，部分设计研究院(所)都已实施产品数据管理(Product Data Management，PDM)系统来管理军工产品设计过程中产生的工艺数据，但未对工艺知识(包括设计描述、设计方法、设计经验等)进行合适的组织和重用；且检索方式单一，其刚性的数据库关系导致设计人员难以快速准确地找到所需的设计文档，更无法使用这些文档中所蕴含的工艺知识来支持设计与制造工作。

发明内容

针对现有技术存在的缺陷或不足，针对军工工艺领域的特殊性，本发明旨在提供一种本体语义扩展与协同过滤加权融合的工艺知识检索方法，适用于在各工艺类型、各军工制造行业的知识资源共享和重用过程中，根据用户的相关信息和领域知识本体的语义扩展，实现高效的、个性化的知识检索，从而提高军工工艺知识的共享和重用水平。

为达成上述目的，本发明所采用的技术方案如下：

一种本体语义扩展与协同过滤加权融合的工艺知识检索方法，以用户工艺需求为输入，以数据支持体系为支持，以工艺知识检索结果列表为输出，包括以下步骤：

步骤1：构建军工工艺知识检索数据支持体系，包括军工工艺本体模型、系统日志、知识索引、用户属性模型和用户-知识项评分矩；

步骤2：利用军工工艺知识本体模型，对检索输入信息和知识索引信息进行语义扩展；

步骤3：利用空间向量模型的理论计算用户检索输入向量与知识索引向量的相似度，根据其相似度值获得一个知识检索结果列表；

步骤4：根据用户属性模型信息及知识项评分矩阵进行用户聚类分析，得到当前检索用户的相似用户集；

步骤5：根据相似用户集，利用协同过滤算法得到基于用户属性的知识检索结果列表；

步骤6：通过一定的权重体系将两个检索结果进行加权融合，最后根据遗忘曲线的相关理论，赋予检索结果列表中的每个知识项一个权值，根据这个权值得到最终的检索结果列表，将列表中的Top-N作为最终检索结果。

进一步，所述步骤1的实现包括以下步骤：

1.1构建军工工艺知识本体模型。在六大军工制造领域，已经形成了一个较为完整的军工关键工艺技术体系，本方法根据行业特色和具体工艺特点，将军工工艺分为精密超精密加工工艺、特种加工工艺、电子加工与电气互联、复合材料成型工艺、含能材料制备工艺、装配技术、核工业生产工艺、数字化设计与制造工艺、先进焊接工艺、精密成形工艺、热处理与表面工程和微纳电子制造工艺等12个工艺知识领域。每一个工艺领域都是一个树状结构的体系，工艺技术领域下面依次分为技术子领域、技术方向、关键技术和发展重点，在这个五层体系中，定义了主要工艺技术的概念、特点、使用范围和国内外发展现状等相关信息，体现了各个工艺技术之间的继承、依赖、关联等横、纵向关系，构成了一个完整的领域模型，还原了领域知识的完整性。根据军工工艺知识体系结构，利用Protégé软件完成本体模型的构建。

1.2构建知识索引。知识索引的作用是对军工工艺知识的特征和内容进行标注，知识索引可以反映知识项及知识资源文件的内容，是对知识源的预处理，利用军工工艺知识本体模型中的概念术语，对所有的军工工艺知识及工艺知识资源进行描述，因此每一条知识索引都是带有语义信息的知识标注，与军工工艺知识及知识资源是一对一的映射关系，采用XML格式对知识索引进行描述，如附图4所示。

1.3构建用户属性模型。用户属性分为静态属性和动态属性两类。用户静态属性主要包括：性别、年龄、所在行业、工种职位、学历(文化程度)、从事或研究领域等，通过显式获取方式获得，当用户注册时，提示用户填写相关信息，存储在数据库中；用户动态属性指用户检索关键词，通过分析用户输入的历史检索词来梳理出用户的主要关注的知识领域和兴趣范围，通过隐式获取的方式，从用户使用日志中进行挖掘。

1.4构建系统日志。本方法设置了系统用户日志和知识使用日志。系统用户日志的作用是用于发掘用户的兴趣与习惯，用户的操作行为，具有一定的倾向性，用户日志通过数据分析与挖掘，从而反映出用户的意图，主要包括时间点、客户端IP、用户ID、指令信息、检索内容、反馈数据等字段；知识使用日志作为用户对知识项的评价机制的评分数据来源，主要包括时间点、知识项ID、客户端IP、用户ID、具体操作等字段。系统用户日志的相关属性及其描述如下表所示：

知识使用日志作为用户对知识项的评价机制的评分数据来源，其相关属性及其描述如下表所示：

1.5构建用户-知识评分矩阵。针对知识检索结果，通过分析用户对知识项所采取的行为，得出一个用户行为与对知识项的评价分值的映射关系，据此得到一个关于用户与知识源分值的二维矩阵，作为知识项的评分机制，具体映射关系如下表所示。

进一步，所述步骤2中，利用军工工艺知识本体模型，对用户检索输入信息和知识索引信息进行语义扩展，得到一个具有语义关系的关键词矩阵。其主要构建步骤为：

2.1用户检索信息的分词处理。对自然语言的分词是将复杂的长句分解为单一的、具有特定意义的词语。本方法利用Lucene.net的全文检索平台，根据其分词部分的动态链接库，参考《中国分类主题词表》以及搜狗词库工程与应用科学分类中的船舶工程、机械工程、电力电气、化工及材料科学等25个领域词库，开发了一个适用于中英文的分词工具，来完成文本方法件的分词处理。

2.2基于本体的语义扩展。由步骤2.1得到的词组，根据本体模型各概念间的语义相似度进行扩展，得到一组具有语义的关键词矩阵。

进一步，所述步骤2.2的实现包括以下步骤：

2.2.1基于本体关系的语义相似度计算。构建的军工工艺本体模型各概念之间的关系计算本体概念相似度W₁(C₁,C₂)。值越接近于1表示两个概念越相似。其值设置如下表所示。

2.2.2基于本体概念深度的语义相似度计算。根据概念深度对概念语义相似度的影响，定义两个直接相邻的本体概念的相似度值W₂(C₁,C₂)。其计算公式为：

2.2.3基于本体概念密度的语义相似度计算：

2.2.4基于本体概念属性的语义相似度计算。其中，|prp(C₁)∩prp(C₂)|表示两个概念相同的属性个数，|prp(C₁)∪prp(C₂)|表示两个概念所有属性的个数。

2.3基于上述步骤2.2.1-2.2.4，综合考虑本体概念的关系类型、概念深度、概念密度和概念属性，得到本体概念的综合相似度值设置相似度阈值θ，当Sim(C₁,C₂)≥θ时，表示这两个概念是可以用于语义扩展的，将其填充至关键词集合中。

进一步，所述步骤3中，利用空间向量模型的理论计算用户检索输入向量与知识索引向量的相似度，根据其相似度值获得一个知识检索结果列表。其主要实现步骤包括：

3.1构建向量模型。用户检索输入向量为：V_q＝(V_q1,V_q2,…,V_qn)，知识项索引向量为：V_k＝(V_k1,V_k2,…,V_km)。

3.2赋予向量项的权值。利用TF-IDF方法对向量中项的权值进行计算。文本经过TF-IDF转换，形成一个多维欧几里得空间向量，用户检索输入向量可以表示为：V_q＝(W_q1,W_q2,…,W_qn)，知识项索引向量表示为：V_k＝(W_k1,W_k2,…,W_km)。

3.3空间向量扩展权重。用步骤2计算出的扩展词与中心词的相似度Sim(T_i,TC_i)作为扩展权重。因此，改进后的向量模型为：

3.4计算向量相似度。加入扩展权重后，向量相似度的计算公式改进为：按照相似度从大到小的顺序进行排列，则得到初步的检索结果列表LK₁(k,Sim(V_q',V_k'))。

进一步，所述步骤4中，根据用户属性模型信息及知识项评分矩阵进行用户聚类分析，得到当前检索用户的相似用户集。其主要实现步骤为：

4.1基于用户静态模型的用户聚类处理。对每个用户静态属性特征维度上的文本数据转换为数值信息，通过空间向量间的欧式距离进行转化计算，根据相似度大小，得到一个用户列表：L₁(U_i,Sim₁(U₀,U_i))。

4.2基于用户动态模型的用户聚类处理。用户动态属性描述了用户的兴趣点与关注点，将用户动态属性描述为一个N维向量，根据VSM方法分别计算当前用户向量与其他用户向量的相似度，这里用到的计算公式如下所示：根据相似度的大小得出一个相似用户列表L₂(U_i,Sim₂(U₀,U_i))。

4.3基于用户评分矩阵的用户聚类处理。将评分矩阵中的分值转化为用户维度上的评分向量，并引入知识热度后，计算向量之间的Pearson相关系数来权衡用户评分习惯之间的相似程度，其计算公式为：得到一个相似用户列表L₃(U_i,Sim₃(U₀,U_i))。

4.4确定最终近似用户集。对步骤4.1-4.3的三个相似用户列表进行加权整合：根据最终的加权相似度从大到小进行排列，得出最终的相似用户集L(U_i,Sim(U₀,U_i))，从而选出其Top-N个相似用户。

进一步，所述步骤5中，根据相似用户集，利用协同过滤算法得到基于用户属性的知识检索结果列表。其主要实现步骤为：

5.1知识项评分值预测。通过改进的余弦相似度计算出当前检索用户没有评分过的知识项的评分预测值：

5.2检索结果排序。根据设定的相似度阈值λ，从得出的知识项评分预测值中，筛选出符合条件的知识项，根据预测度大小进行排列，输出检索结果LK₂(k,pred(U₀,k))。

进一步，所述步骤6中，通过一定的权重体系将两个检索结果进行加权融合，最后根据遗忘曲线的相关理论，赋予检索结果列表中的每个知识项一个权值，根据这个权值得到最终的检索结果列表，将列表中的Top-N作为最终检索结果。其主要实现步骤为：

6.1检索结果的加权融合。各知识项的排序权值设置W_i：

6.2基于遗忘曲线的检索结果推送控制。知识项基于用户遗忘曲线的权值：最终的知识项权值为：据此权值W对检索结果进行最终的排序，将TopN作为最终的检索知识结果。

本发明与现有技术相比，其显著优点为：本发明将本体知识检索的优势与协同过滤的优势相结合，并充分考虑用户的动静态属性，将各相关信息进行整合，从而得到更符合用户检索需求、具有用户个性化的检索结果，从而提高了军工工艺知识的共享与重用。

附图说明

图1为基于本体与用户属性控制的知识检索模型框示意图。

图2为军工工艺知识本体模型示意图。

图3为知识索引的构建流程示意图。

图4为知识索引示例。

图5为记忆强化的遗忘曲线时效量化处理图。

图6为系统原理图。

具体实施方式

本发明本体语义扩展与协同过滤加权融合的工艺知识检索方法，针对不同类型的军工工艺知识项，不同的知识使用对象，为提高知识检索结果的准确性和用户相关性，本方法分别利用基于本体语义扩展和基于用户动静态属性协同过滤方法得到两组检索结果，然后根据一定的权重分配体系，并基于遗忘曲线的原理将两组检索结果融合为一组最终的检索结果。

下面结合附图对本发明做进一步说明。

结合图1-6，本发明通过基于本体语义扩展及向量空间模型的知识匹配，与基于用户属性协同过滤的知识匹配方法进行加权融合，最后通过基于遗忘曲线的权重控制得出最后的符合用户真实检索意图的用户个性化检索结果。本方法原理如图6所示，用户的属性信息与知识项信息组合，在知识索引、用户信息、知识评分值三个维度中形成一个空间多边形，当两个多边形在空间贴合全等时，说明两个组合相似度最高，根据这一原理，来匹配不同的知识项。

1.构建知识检索数据支持体系。

1.1构建军工工艺知识本体模型。在六大军工制造领域，已经形成了一个较为完整的军工关键工艺技术体系，本方法根据行业特色和具体工艺特点，将军工工艺分为精密超精密加工工艺、特种加工工艺、电子加工与电气互联、复合材料成型工艺、含能材料制备工艺、装配技术、核工业生产工艺、数字化设计与制造工艺、先进焊接工艺、精密成形工艺、热处理与表面工程和微纳电子制造工艺等12个工艺知识领域。每一个工艺领域都是一个树状结构的体系，工艺技术领域下面依次分为技术子领域、技术方向、关键技术和发展重点，在这个五层体系中，定义了主要工艺技术的概念、特点、使用范围和国内外发展现状，体现了各个工艺技术之间的继承、依赖、关联等横、纵向关系，构成了一个完整的领域模型，还原了领域知识的完整性。根据军工工艺知识体系结构，利用Protégé软件完成本体模型的构建。

2.基于本体的语义扩展。

步骤2.1：用户检索信息的分词处理。利用Lucene.Net框架中的中文分词方法，将复杂的自然语言长句分解为单一的词语集合。

步骤2.2：基于本体的语义扩展。由步骤2.1得到的词组，根据本体模型各概念间的语义相似度进行扩展，得到一组具有语义的词组。

步骤2.2.1：基于本体关系的语义相似度计算。根据步骤1.1构建的军工工艺本体模型各概念之间的关系计算本体概念相似度W₁(C₁,C₂)，其中，C₁,C₂分别表示两个直接相邻的本体概念，C₁表示上级概念，C₂表示下级概念。W₁(C₁,C₂)值越接近于1表示两个概念越相似。其值设置如下表所示。

步骤2.2.2：基于本体概念深度的语义相似度计算。定义概念到根节点的距离为其概念深度值，根节点的深度为0，第二级概念深度为1，以此类推。定义两个直接相邻的本体概念的相似度值W₂(C₁,C₂)，C₁表示上级概念，C₂表示下级概念，与其深度dep(C)的关系为：

W₂(C₁,C₂)只考虑了概念深度差与概念深度和之间的线性关系。其中，α为控制系数，将W₂(C₁,C₂)的值控制为[0,1]之间；

步骤2.2.3：基于本体概念密度的语义相似度计算。定义两个直接相邻的本体概念的相似度值W₃(C₁,C₂)(C₁表示上级概念，C₂表示下级概念)与其密度des(C)的关系为：其中，β为控制系数，将W₃(C₁,C₂)的值控制为[0,1]之间。

步骤2.2.4：基于本体概念属性的语义相似度计算。两个概念的属性相似度越高，则表示两个概念的相似度越高。因此，定义两个直接相邻的本体概念的相似度值W₄(C₁,C₂)(C₁表示上级概念，C₂表示下级概念)与其属性集合prp(C)的关系为：其中，|prp(C₁)∩prp(C₂)|表示两个概念相同的属性个数，|prp(C₁)∪prp(C₂)|表示两个概念所有属性的个数。

步骤2.3：计算概念间的综合相似度，得到语义扩展后的关键词组。本体概念的关系类型、概念深度、概念密度和概念属性之间存在一定的相关关系，在计算两个概念的整体相似度时需要综合考虑这些因素，将两个概念的综合相似度值的计算方法表示为：度阈值θ，当Sim(C₁,C₂)≥θ时，表示这两个概念是可以用于语义扩展的，将其填充至关键词集合中。

基于本体的语义扩展的具体实现的伪代码如下所示：

3.基于VSM的相似度匹配。

步骤3.1：构建向量模型。通过步骤2的分词处理和语义扩展，知识项索引和用户检索输入信息都转化为由关键词组或特征词组组成的文本向量，即用户检索输入向量为：V_q＝(V_q1,V_q2,…,V_qn)，知识项索引向量为：V_k＝(V_k1,V_k2,…,V_km)。其中，V_qi、V_ki分别表示用户检索向量和知识项索引向量中的词项。

步骤3.2：赋予向量项的权值。利用TF-IDF方法对向量中项的权值进行计算。文本经过TF-IDF转换，形成一个多维欧几里得空间向量，用户检索输入向量可以表示为：V_q＝(W_q1,W_q2,…,W_qn)，知识项索引向量表示为：V_k＝(W_k1,W_k2,…,W_km)。其中，W_qi、W_ki分别表示为用户检索向量和知识项索引向量中词项的TF-IDF权值。

步骤3.3：空间向量扩展权重。语义扩展后的词集与原始词项之间存在一定的差异，通过引入扩展权重，来区分原始词项和扩展词项对检索的重要程度和贡献度。将原始的关键词和特征词的权重设置为1。对于扩展词，用步骤2计算出的扩展词与中心词的相似度Sim(T_i,TC_i)作为扩展权重。因此，改进后的向量模型为：其中：V_q'、V_k'分别表示改进后的用户检索向量和知识项索引向量；S_qi表示V_q'中，词项V_qi的扩展权重；S_ki表示V_k'中，词项V_ki的扩展权重。

步骤3.4：计算向量相似度。加入扩展权重后，向量相似度的计算公式改进为：其中：r表示向量V_q'和向量V_k'的维度合并后的维度数，即总词项个数，如果某向量不含某词项，则设置该词项的权重为0。最后按照从大到小的顺序进行排列，则得到初步的检索结果列表LK₁(k,Sim(V_q',V_k'))。

基于VSM的相似度匹配的具体实现伪代码：

4.相似用户集计算。

步骤4.1：基于用户静态模型的用户聚类处理。对每个用户静态属性特征维度上的数据进行预处理，即将用户静态属性文本数据转换为数值信息，具体的数据转化规则如下表所示。

按照上表所述的转化规则，每个用户的静态属性都可以转化为一个数值向量，通过空间向量间的欧式距离进行转化计算，其计算公式如下所示：其中，U₀表示当前检索用户，U_i为其余用户。经过计算，根据相似度大小，得到一个用户列表：L₁(U_i,Sim₁(U₀,U_i))。

步骤4.2：基于用户动态模型的用户聚类处理。将用户动态属性描述为一个N维向量，向量的维数即为关键词的个数。利用TF-IDF方法计算其权值，将文本向量转化为数值向量，然后根据VSM方法分别计算当前用户向量与其他用户向量的相似度，这里用到的计算公式如下所示：其中，U_i'_j表示各用户向量中第j个词项的TF-IDF权值。最后根据相似度的大小得出一个相似用户列表L₂(U_i,Sim₂(U₀,U_i))。

步骤4.3：基于用户评分矩阵的用户聚类处理。将评分矩阵中的分值转化为用户维度上的评分向量，通过计算向量之间的Pearson相关系数来权衡用户评分习惯之间的相似程度，从而筛选出相似用户集。在计算过程中，提出了知识热度的概念，并对相似度计算公式进行了优化。知识热度是指知识项受关注的程度，其关注度越高，对知识项评分的用户数量越多，其评分值越大，热度越高，反之亦然。知识热度H_k可以通过用户-知识评分矩阵来计算，其计算公式如下所示：其中，r_ij表示用户i对知识项j的评分值；N为用户总数。计算过程中，如果用户没有对知识项评分，则跳过该用户。改进后的计算公式改为：最后，根据改进的Pearson相关系数计算结果，得到一个相似用户列表L₃(U_i,Sim₃(U₀,U_i))。

步骤4.4：确定最终近似用户集。将步骤4.1、4.2、4.3得到的三个相似用户列表进行加权整合，得到最终的相似用户列表。其加权相似度计算公式如下所示：其中：N_i表示用户U_i在第i个列表中的次序；α、β、ε分别表示权重系数，且α+β+ε＝1。根据最终的加权相似度从大到小进行排列，得出最终的相似用户集L(U_i,Sim(U₀,U_i))，从而选出其Top-N个相似用户。

相似用户集计算的具体实现伪代码：

5.基于用户属性协同过滤的知识检索。

步骤5.1：知识项评分值预测。利用步骤4.4得到的用户最近邻集合，通过改进的余弦相似度计算出当前检索用户没有评分过的知识项的评分预测值。其计算公式如下所示：其中：K表示当前用户没有评分的知识项；U_ik表示相似用户集中U_i对知识项K的评分值；表示当前用户对所有知识项的平均评分值；N表示相似用户集中用户的总数。

步骤5.2：检索结果排序。根据设定的相似度阈值λ，从得出的知识项评分预测值中，筛选出符合条件的知识项，根据预测度大小进行排列，输出检索结果LK₂(k,pred(U₀,k))。

基于用户属性协同过滤的知识检索的实现伪代码如下所示：

6.检索结果加权融合与基于遗忘曲线的推送控制。

步骤6.1：检索结果的加权融合。针对知识检索结果列表：LK₁(k,Sim(V_q',V_k'))和LK₂(k,pred(U₀,k))，通过一定的权重分配，计算出各知识项的排序权值设置为W_i，其计算公式为：其中：ω为调节因子，且N₁、N₂表示知识项在其所在检索结果列表中的排序。

步骤6.2：基于遗忘曲线的检索结果推送控制。遗忘曲线的具体量化公式为：M(t,k)＝M₀·e^-kt,t∈(0,∞)。其中：M₀表示初始记忆量；k表示遗忘速率，是反映遗忘曲线衰减的主要因素。将初始记忆时效值置为100％，每次重复学习后记忆时效值重新恢复为100％。两个连续的遗忘区间内，两次记忆时效值的差值μ为：t的取值记为当前时间点与用户最近一次浏览知识项的时间戳的时间差。通过上式可以得到：为，引入用户惰性系数ξ，控制每次用户对遗忘曲线的调整程度，ξ取20，将max(μ)划分为ξ等分，则调整后的μ值为：得到任意时间点，用户对某知识项的记忆时效值，即知识项基于用户遗忘曲线的权值：最终的知识项权值为：据此权值W对检索结果进行最终的排序，将TopN个检索知识结果推送给用户。

检索结果加权融合与基于遗忘曲线的推送控制的具体实现方式：

Claims

1.一种本体语义扩展与协同过滤加权融合的工艺知识检索方法，其特征在于包括以下步骤：

步骤5：根据相似用户集，利用改进的协同过滤算法得到另一组知识检索结果列表；

2.根据权利要求1所述的本体语义扩展与协同过滤加权融合的工艺知识检索方法，其特征在于：所述步骤1中，构建军工工艺知识检索数据支持体系，包括军工工艺知识本体模型、知识索引、用户属性模型和用户-知识项评分矩；其主要构建步骤为：

步骤1.1：构建军工工艺知识本体模型；将每一个军工制造工艺领域梳理为树状层次结构，该结构由上往下分为工艺技术领域、工艺技术子领域、技术方向、关键技术和发展中发展重点五层，每个节点都有其属性；根据这一工艺知识体系结构，利用Protégé软件完成本体模型的构建；

步骤1.2：构建知识索引；知识索引KI的组成结构用一个四元表达式来表示：KI＝{ID,PR,DS,RL}；其中，ID表示索引I4，用一个GUID码来表示；PR表示知识属性集合，属性有索引知识名称、创建时间、特征关键词集、索引知识类型；DS表示知识描述，是针对具体知识类型详细的自然语言形式的描述；RL表示知识资源定位信息，针对不同的知识项，给出其在系统中所处的位置信息，即知识源地址；知识索引对任何类型的知识项进行描述；采用XML格式对知识索引进行描述；

步骤1.3：构建用户属性模型；用户属性分为静态属性和动态属性两类；用户静态属性包括：性别、年龄、所在行业、工种职位、学历(文化程度)、从事或研究领域，通过显式获取方式获得，当用户注册时，提示用户填写相关信息，存储在数据库中；用户动态属性指用户检索关键词，通过分析用户输入的历史检索词来梳理出用户关注的知识领域和兴趣范围，通过隐式获取的方式，从用户使用日志中进行挖掘；

步骤1.4：构建系统日志；设置系统用户日志和知识使用日志；系统用户日志用于发掘用户的兴趣与习惯，用户的操作行为，用户日志通过数据分析与挖掘反映出用户的意图；系统用户日志的相关属性及其描述如下表所示：

步骤1.5：构建用户-知识评分矩阵；针对知识检索结果，通过分析用户对知识项所采取的行为，得出一个用户行为与对知识项的评价分值的映射关系，据此得到一个关于用户与知识源分值的二维矩阵，作为知识项的评分机制，具体映射关系如下表所示：

3.根据权利要求1或2所述的本体语义扩展与协同过滤加权融合的工艺知识检索方法，其特征在于：所述步骤2中，利用军工工艺知识本体模型，对用户检索输入信息和知识索引信息进行语义扩展，其主要构建步骤为：

步骤2.1：用户检索信息的分词处理：利用Lucene.Net框架中的中文分词方法，将复杂的自然语言长句分解为单一的词语集合；

步骤2.2：基于本体的语义扩展：由步骤2.1得到的词组，根据本体模型各概念间的语义相似度进行扩展，得到一组具有语义的词组；

步骤2.2.1：基于本体关系的语义相似度计算；根据步骤1.1构建的军工工艺本体模型各概念之间的关系计算本体概念相似度W₁(C₁,C₂)，其中，C₁,C₂分别表示两个直接相邻的本体概念，C₁表示上级概念，C₂表示下级概念；W₁(C₁,C₂)值越接近于1表示两个概念越相似；其值设置如下表所示：

步骤2.2.2：基于本体概念深度的语义相似度计算：定义概念到根节点的距离为其概念深度值，根节点的深度为0，第二级概念深度为1，以此类推；定义两个直接相邻的本体概念的相似度值W₂(C₁,C₂)，C₁表示上级概念，C₂表示下级概念，与其深度dep(C)的关系为：

<mrow> <msub> <mi>W</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&alpha;</mi> <mo>&CenterDot;</mo> <mfrac> <mrow> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mo>|</mo> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mo>(</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>)</mo> <mo>-</mo> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mo>(</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>|</mo> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mi>&alpha;</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mo>(</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>)</mo> <mo>,</mo> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mo>(</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

W₂(C₁,C₂)只考虑概念深度差与概念深度和之间的线性关系；其中，α为控制系数，将W₂(C₁,C₂)的值控制为[0,1]之间；

步骤2.2.3：基于本体概念密度的语义相似度计算；定义两个直接相邻的本体概念的相似度值W₃(C₁,C₂)，C₁表示上级概念，C₂表示下级概念，与其密度des(C)的关系为：W₃(C₁,C₂)＝β·des(C₁),其中，β为控制系数，将W₃(C₁,C₂)的值控制为[0,1]之间；

步骤2.2.4：基于本体概念属性的语义相似度计算；两个概念的属性相似度越高，则表示两个概念的相似度越高；定义两个直接相邻的本体概念的相似度值W₄(C₁,C₂)，C₁表示上级概念，C₂表示下级概念，与其属性集合prp(C)的关系为：其中，|prp(C₁)∩prp(C₂)|表示两个概念相同的属性个数，|prp(C₁)∪prp(C₂)|表示两个概念所有属性的个数；

步骤2.3：计算概念间的综合相似度，得到语义扩展后的关键词组；本体概念的关系类型、概念深度、概念密度和概念属性之间存在一定的相关关系，两个概念的整体相似度值的计算方法表示为：设置相似度阈值θ，当Sim(C₁,C₂)≥θ时，表示这两个概念是可以用于语义扩展的，将其填充至关键词集合中。

4.根据权利要求1所述的本体语义扩展与协同过滤加权融合的工艺知识检索方法，其特征在于：所述步骤3中，利用空间向量VSM理论计算用户检索输入向量与知识索引向量的相似度，根据其相似度值获得一个知识检索结果列表；其主要构建步骤为：

步骤3.1：构建向量模型；通过步骤2的分词处理和语义扩展，知识项索引和用户检索输入信息都转化为由关键词组或特征词组组成的文本向量，即用户检索输入向量为：V_q＝(V_q1,V_q2,…,V_qn)，知识项索引向量为：V_k＝(V_k1,V_k2,…,V_km)；其中，V_qi、V_ki分别表示用户检索向量和知识项索引向量中的词项；

步骤3.2：赋予向量项的权值；利用TF-IDF方法对向量中项的权值进行计算；文本经过TF-IDF转换，形成一个多维欧几里得空间向量，用户检索输入向量表示为：V_q＝(W_q1,W_q2,…,W_qn)，知识项索引向量表示为：V_k＝(W_k1,W_k2,…,W_km)；其中，W_qi、W_ki分别表示为用户检索向量和知识项索引向量中词项的TF-IDF权值；

步骤3.3：空间向量扩展权重；语义扩展后的词集与原始词项之间存在一定的差异，通过引入扩展权重，来区分原始词项和扩展词项对检索的重要程度和贡献度；将原始的关键词和特征词的权重设置为1；对于扩展词，用步骤2计算出的扩展词与中心词的相似度Sim(T_i,TC_i)作为扩展权重；因此，改进后的向量模型为：其中：V′_q、V′_k分别表示改进后的用户检索向量和知识项索引向量；S_qi表示V′_q中，词项V_qi的扩展权重；S_ki表示V′_k中，词项V_ki的扩展权重；

步骤3.4：计算向量相似度；加入扩展权重后，向量相似度的计算公式改进为：其中：r表示向量V′_q和向量V′_k的维度合并后的维度数，即总词项个数，如果某向量不含某词项，则设置该词项的权重为0；最后按照从大到小的顺序进行排列，则得到初步的检索结果列表LK₁(k,Sim(V′_q,V′_k))。

5.根据权利要求1所述的本体语义扩展与协同过滤加权融合的工艺知识检索方法，其特征在于：所述步骤4中，根据用户属性模型信息及知识项评分矩阵进行用户聚类分析，得到当前检索用户的相似用户集，其主要构建步骤为：

步骤4.1：基于用户静态模型的用户聚类处理；对每个用户静态属性特征维度上的数据进行预处理，即将用户静态属性文本数据转换为数值信息，具体的数据转化规则如下表所示：

按照上表所述的转化规则，每个用户的静态属性都可以转化为一个数值向量，通过空间向量间的欧式距离进行转化计算，其计算公式如下所示：其中，U₀表示当前检索用户，U_i为其余用户；经过计算，根据相似度大小，得到一个用户列表：L₁(U_i,Sim₁(U₀,U_i))；

步骤4.2：基于用户动态模型的用户聚类处理；将用户动态属性描述为一个N维向量，向量的维数即为关键词的个数；利用TF-IDF方法计算其权值，将文本向量转化为数值向量，然后根据VSM方法分别计算当前用户向量与其他用户向量的相似度，这里用到的计算公式如下所示：其中，U′_ij表示各用户向量中第j个词项的TF-IDF权值；最后根据相似度的大小得出一个相似用户列表L₂(U_i,Sim₂(U₀,U_i))；

步骤4.3：基于用户评分矩阵的用户聚类处理；将评分矩阵中的分值转化为用户维度上的评分向量，通过计算向量之间的Pearson相关系数来权衡用户评分习惯之间的相似程度，从而筛选出相似用户集；在计算过程中，提出了知识热度的概念，并对相似度计算公式进行了优化；知识热度是指知识项受关注的程度，其关注度越高，对知识项评分的用户数量越多，其评分值越大，热度越高，反之亦然；知识热度H_k通过用户-知识评分矩阵来计算，其计算公式如下所示：其中，r_ij表示用户i对知识项j的评分值；N为用户总数；计算过程中，如果用户没有对知识项评分，则跳过该用户；改进后的计算公式改为：最后，根据改进的Pearson相关系数计算结果，得到一个相似用户列表L₃(U_i,Sim₃(U₀,U_i))；

步骤4.4：确定最终近似用户集；将步骤4.1、4.2、4.3得到的三个相似用户列表进行加权整合，得到最终的相似用户列表；其加权相似度计算公式如下所示：其中：N_i表示用户U_i在第i个列表中的次序；α、β、ε分别表示权重系数，且α+β+ε＝1；根据最终的加权相似度从大到小进行排列，得出最终的相似用户集L(U_i,Sim(U₀,U_i))，从而选出其Top-N个相似用户。

6.根据权利要求1所述的本体语义扩展与协同过滤加权融合的工艺知识检索方法，其特征在于：所述步骤5中，根据相似用户集，利用协同过滤算法得到基于用户属性的知识检索结果列表，其主要步骤为：

步骤5.1：知识项评分值预测；利用步骤4.4得到的用户最近邻集合，通过改进的余弦相似度计算出当前检索用户没有评分过的知识项的评分预测值；其计算公式如下所示：其中：K表示当前用户没有评分的知识项；U_ik表示相似用户集中U_i对知识项K的评分值；表示当前用户对所有知识项的平均评分值；N表示相似用户集中用户的总数；

步骤5.2：检索结果排序；根据设定的相似度阈值λ，从得出的知识项评分预测值中，筛选出符合条件的知识项，根据预测度大小进行排列，输出检索结果LK₂(k,pred(U₀,k))。

7.根据权利要求1所述的本体语义扩展与协同过滤加权融合的工艺知识检索方法，其特征在于：所述步骤6中，通过一定的权重体系将两个检索结果进行加权融合，最后根据遗忘曲线的相关理论，赋予检索结果列表中的每个知识项一个权值，根据这个权值得到最终的检索结果列表，将列表中的Top-N作为最终检索结果，其主要构建步骤为：

步骤6.1：检索结果的加权融合；针对知识检索结果列表：LK₁(k,Sim(V′_q,V′_k))和LK₂(k,pred(U₀,k))，通过一定的权重分配，计算出各知识项的排序权值设置为W_i，其计算公式为：其中：ω为调节因子，且N₁、N₂表示知识项在其所在检索结果列表中的排序；

步骤6.2：基于遗忘曲线的检索结果推送控制；遗忘曲线的具体量化公式为：M(t,k)＝M₀·e^-kt,t∈(0,∞)；其中：M₀表示初始记忆量；k表示遗忘速率，是反映遗忘曲线衰减的主要因素；将初始记忆时效值置为100％，每次重复学习后记忆时效值重新恢复为100％；两个连续的遗忘区间内，两次记忆时效值的差值μ为：t的取值记为当前时间点与用户最近一次浏览知识项的时间戳的时间差；通过上式可以得到：引入用户惰性系数ξ，控制每次用户对遗忘曲线的调整程度，ξ取20，将max(μ)划分为ξ等分，则调整后的μ值为：得到任意时间点用户对某知识项的记忆时效值，即知识项基于用户遗忘曲线的权值：最终的知识项权值为：据此权值W对检索结果进行最终的排序，将TopN个检索知识结果推送给用户。