CN107491814B

CN107491814B - 一种用于知识推送的过程案例分层知识模型构建方法

Info

Publication number: CN107491814B
Application number: CN201710567025.3A
Authority: CN
Inventors: 张树有; 顾叶
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2020-07-14
Anticipated expiration: 2037-07-12
Also published as: CN107491814A

Abstract

本发明公开了一种用于知识推送的过程案例分层知识模型构建方法。由产品案例分解后构建产品案例匹配向量集合，并作为过程案例分层知识模型中用于牵引知识推送内容的案例匹配层；针对每个产品案例和设计过程构建设计内容向量集合，作为用于设计过程信息形成的原始案例层；根据设计内容向量集合和知识文档构建案例知识向量集合，作为用于设计对象与过程关联的完整知识层；对完整知识层的案例知识向量集合进行精炼，形成精炼知识文档集向量集合，作为具体知识图表形式化的精炼知识层。本发明所构建的知识模型结构明了，构建与管理简便，适用于知识推送环节。

Description

一种用于知识推送的过程案例分层知识模型构建方法

技术领域

本发明涉及一种知识数据模型构建方法，主要是涉及了一种用于知识推送的过程案例分层知识模型构建方法，针对复杂机械装备在设计知识推送的前期知识库构建。

背景技术

随着计算机与人工智能技术的高速发展，信息时代下机械产品的设计过程也发生了变化。其中，传统的机械设计过程需要人工查询相应的知识，导致设计效率低、设计周期长、设计结果不佳等问题，设计过程中的知识推送成为了目前智能设计中的研究热点。知识推送技术简单概括就是机械产品设计过程时，在正确的时间以正确的形式将正确的知识推送给正确的人，实现智能化设计。

目前有关知识推送研究较多，各有优劣，主要集中在知识推送的方式/方法，设计意图的捕捉方法，知识推送情景建模等方面。但是，在知识推送的前期准备环节中，对知识库的构建方法研究较少。一般知识推送中使用基于本体的知识库构建方法，为之后的知识语义匹配提供铺垫，缺点是知识内容与相关语义的繁杂，使得知识的构建结果复杂，且缺乏有效管理。另外，一般的案例知识构建都是扁平化的知识攒聚模型，知识结构单一不利于知识推送的受众体验。此外，其他领域也有一些有关知识库构建方法的研究，但是少有专门研究机械设计中知识推送环节的知识库模型。

发明内容

为例解决背景技术中存在的问题，本发明在于提供一种用于知识推送的过程案例分层知识模型构建方法，在面向复杂机械装备设计时，通过构建过程案例分层知识模型，通过过程信息关联案例与知识，不断丰富知识内容形成立体的案例知识数据模型。本发明用于知识推送，结构明了，便于管理，操作方便。

为了实现上述目的，如图2所示，本发明采用的技术方案是包括以下方法步骤：

(1.1)由产品案例分解后构建产品案例匹配向量集合，并作为过程案例分层知识模型中用于牵引知识推送内容的案例匹配层；

所述的产品案例为已有的复杂机械装备产品。每个产品案例都有一个完整的设计过程。

所述的过程案例是指根据设计过程构建的产品案例。

案例匹配层是用于在后续知识推送中设计任务与案例的匹配，与作为之后知识层的外界接口。

(1.2)针对每个产品案例和设计过程构建设计内容向量集合，作为用于设计过程信息形成的原始案例层；

原始案例层是用于表征产品案例的设计过程具体内容。

(1.3)根据设计内容向量集合和知识文档构建案例知识向量集合，作为用于设计对象与过程关联的完整知识层；

(1.4)对完整知识层的案例知识向量集合进行精炼，形成精炼知识文档集向量集合，作为用于具体知识图表形式化的精炼知识层；

所述方法具体为：

(1.1)将产品案例分解为零部件，针对每个产品案例用产品案例匹配向量表示，每个产品案例匹配向量index^xyz表示为index^xyz＝{name,ID,problem,const,result}，其中，index^xyz表示编号xyz的产品案例匹配向量，上标xyz应存在与该产品案例有关的一切向量中，为简化书写后文多省略，name表示产品案例的名称，ID表示产品案例的设计人员信息，problem表示产品案例的问题情境，const表示产品案例的约束条件，result表示产品案例的效果描述；

针对复杂机械装备在设计过程中通常采用分模块协同设计，设计资源中使用的产品案例分解时，以设计任务驱动的产品案例分解是常规做法，装备可以分解为第一级产品，第二级子系统，第三级部件，分别对应编号x、y、z，在知识推送案例与设计任务匹配环节，先进行子系统和部件编号y、z的匹配，缩小查找范围，再进行具体问题情境与约束条件等属性匹配，确定产品的编号x。

(1.2)针对每个产品案例，用针对设计过程的设计内容向量构建一个设计内容向量集合，设计内容向量集合表示为

i＝1,2,…,n，i表示产品案例中设计过程所对应步的序号，n表示产品案例中设计过程步总数；其中的每个设计内容向量表示为

表示编号xyz产品案例中第i步设计过程的设计内容向量，pro_i表示第i步设计过程的过程信息分向量，model_i表示第i步设计过程的3D模型或者图纸，note_i表示第i步设计过程的注意内容，sol_i表示第i步设计过程的设计结果；

(1.3)案例知识向量集合中，每个案例知识向量表示为knowledge＝{(case₁,k₁),(case₂,k₂),…,(case_i,k_i),…,(case_n,k_n)}，一个产品案例所包含的全部内容由案例知识向量表示，其中，k_i表示设计内容向量case_i所对应的设计知识文档集合，通过设计内容向量case_i与已知知识文档库中的知识文档进行相似度计算后生成与产品案例设计过程相匹配的设计知识文档集合k_i；设计知识文档集合k_i表示为k_i＝{doc_i1,doc_i2,…,doc_ij,…,doc_it}，其中doc_ij表示第i步设计过程下对应的第j篇知识文档的信息向量，t表示设计知识文档集合中的知识文档总篇数；

(1.4)案例知识向量中的各个设计知识文档集合k_i进行精炼处理，分别采用对应的图像处理算法提取出表格、图形和公式的精炼知识，获得精炼知识文档集向量

其中R表示该篇知识文档为精炼知识。

所述的第i步设计过程的过程信息分向量pro_i构建为：

pro_i＝{(key_i1,s_i1,loc_i1),(key_i2,s_i2,loc_i2),…,(key_ij,s_ij,loc_ij),…,(key_im,s_im,loc_im)}

其中key_ij表示第i步设计过程的过程信息分向量pro_i中第j个关键词，s_ij表示第j个关键词的权重，loc_ij表示第j个关键词在产品案例设计过程中的位置，关键词在产品案例设计过程中的位置分为案例名称name、3D模型或者图纸model_i、注意内容note_i和设计结果sol_i的四类，m表示过程信息分向量中关键词个数；

所述的第j个关键词的权重s_ij由关键词key_ij的词频值TF、逆文档词频值IDF和关键词在产品案例设计过程中的位置loc_ij共同确定，具体计算公式如下：

其中，TF表示第i步设计过程的过程信息分向量pro_i中关键词的词频值，IDF表示此关键词的逆文档词频值；

关键词的词频值TF采用以下公式计算：

其中，N_c表示当前关键词在该产品案例设计内容向量case_i中出现的次数，N表示所述设计内容向量case_i中单词总数；

关键词的逆文档词频值IDF采用以下公式计算：

其中，N_D表示该产品案例设计内容向量集合中元素数量，N_w表示该集合中出现当前关键词的数量。

本发明用与第i步设计过程的过程信息分向量pro_i类似的方式构建知识文档数据。

对于设计过程中的每篇知识文档信息向量构建为：

doc＝{(term₁,w₁,loc₁),(term₂,w₂,loc₂),...,(term_k,w_k,loc_k),....,(term_r,w_r,loc_r)}

其中，term_k表示知识文档的第k个关键词，w_k表示第k个关键词的权重，loc_k表示第k个关键词在知识文档中的位置，关键词在知识文档中的位置分为标题、子标题、摘要和正文的四类，r表示知识文档中关键词总数；

知识文档doc的第k个关键词权重w_k由关键词term_k的词频值TF'、逆文档词频值IDF'以及关键词在知识文档中的位置loc_k共同确定，具体计算公式如下：

其中，TF'表示知识文档中关键词的词频值，IDF'表示关键词的逆文档词频值；

关键词的词频值TF'采用以下公式计算：

其中，N_c'表示当前关键词在知识文档中出现的次数，N'表示所述知识文档中单词总数；

关键词的逆文档词频值IDF'采用以下公式计算：

其中，N_D'表示已知知识文档库中知识文档总数，N_w'表示已知知识文档库中出现当前关键词term_k的文档数量。

所述通过设计内容向量case_i与已知知识文档库中的知识文档进行相似度计算后生成与产品案例设计过程相匹配的设计知识文档集合k_i，具体为：

用设计内容向量case_i中的过程信息分向量pro_i与已知知识文档库中的每个知识文档信息向量doc通过关键字权重进行相似度计算，找到与产品案例设计过程匹配的知识文档。

所述步骤(1.3)具体为：

(1.3.1)首先进行预处理，将过程信息分向量pro_i与知识文档信息向量doc中关键词进行筛选排序：

a)若知识文档信息向量doc中的所有关键词与过程信息分向量pro_i中均不存在相同的关键词，则对应的该知识文档无用，剔除该知识文档以缩小知识文档的数量；

b)然后调整知识文档信息向量doc中的所有关键词排序，使得各个关键词的顺序和过程信息分向量pro_i中的关键词对应相同，对于过程信息分向量pro_i中的关键词在知识文档信息向量doc中不存在相同的则排序对应处设为零，对于知识文档信息向量doc中的关键词在过程信息分向量pro_i中不存在相同的则对应均任意排序在最后，从而形成关键词权重向量{s_i1,s_i2,…,s_ij,…,s_ip,…,s_im}和关键词权重向量{w₁,w₂,…,w_j,…,w_p,…,w_r}，两关键词权重向量均需进行归一化处理；

(1.3.2)对筛选排序后的过程信息分向量pro_i与知识文档信息向量doc采用以下公式计算相似度Sim：

其中，

表示过程信息分向量pro_i中关键词权重向量{s_i1,s_i2,…,s_ij,…,s_in,…,s_im}，W_doc表示知识文档信息向量doc中关键词权重向量{w₁,w₂,…,w_j,…,w_n,…,w_r}，p表示过程信息分向量pro_i中关键词与知识文档信息向量doc中关键词取并集后的数量，p≤min(m,r)，前1到p个关键词权重s_ij与w_j对应的关键词应相同；

(1.3.3)将相似度Sim小于等于预设定阈值u的知识文档信息向量剔除，由保留的知识文档信息向量构成过程信息分向量pro_i所对应的设计知识文档集合k_i。

所述(1.4)中，对案例知识向量中的各个设计知识文档集合k_i中知识文档doc提取出表格、图形和公式的精炼知识具体分为

(1.4.1)知识文档中的表格提取，采用数学形态学算法进行表格线的提取：根据文字的长度与宽度分别选取竖直结构元素与水平结构元素对文档进行开运算，得到完整的表格框线，再基于表格框线中行线与列线的交点为特征点提取表格单元格及其表格框线；由于表格中的文字大小间距与表格外的文本不同，将表格框线和单元格隐去后设定阈值对文字连通域进行筛选，定位出表格区域，包括表格的标题与注释。

(1.4.2)文档中图像的提取方法，对去表格后的文档进行去噪处理，使用图像外部边缘轮廓提取算法进行图像的提取，采用Canny算子检测出图像轮廓边界的像素点，以第一个被扫描到的像素点作为起点进行搜索与图像轮廓跟踪，将搜索到的联通区域最左上角与右下角的位置确定，围成的矩形可以框定出图域的范围，提取出文档中的图像。

(1.4.3)文档中公式的提取方法，公式一般都是独立一行存在且居中表示，对去表格与图像后的文档进行水平投影处理，计算每行之间的间距与行高，初始字符的横坐标，每行投影的均值、方差和峰值个数，得到的数值采用以下原则即可框定公式范围：1、行高较大，方差较大的行为公式行；2、起始坐标居中，投影均值小，方差大，峰值个数多的为公式行。

最后将提取出的表格、图像、公式信息作为精炼知识放入doc^R，构成精炼知识文档集合

。由于推送知识的知识文档内容较多，而图表公式等形式是高密度知识的集合，对掌握这部分知识的设计人员来说，完整的知识文档略显冗余，精炼知识将极大提高设计人员查找与使用的效率。

本发明的有益效果是：

1.本发明提出了一种面向知识推送的案例知识的模型与构建方法，此法通过设计过程建立案例与知识的联系，有效梳理知识体系，而且可以提供相同设计下的不同等级的推送内容，为后续的精准知识推送提供帮助。

2.本发明中过程案例与分层知识的构建通过权重相似度算法进行匹配，提高了模型构建过程时智能性。在知识推送过程中，新设计任务与案例匹配后，牵引得到案例具体过程信息与详尽知识内容，降低传统的推送中需要重复进行知识匹配的复杂度。

附图说明

下面结合附图对本发明具体实施方式进行详细说明：

图1是本发明所构建的过程案例分层知识模型示意图；

图2是本发明的模型构建方法步骤图。

具体实施方式

为了更清楚地说明本发明，下面结合附图与实施例对本发明作进一步说明。本领域技术人员应该了解，下面所具体描述的内容是说明性而非限制性的，不应该限制本发明的保护范围。

如图1所示，为本发明所构建的过程案例分层知识模型，共有四层，依次为牵引知识推送内容的案例匹配层、设计过程信息构建的原始案例层、设计对象与过程关联的完整知识层、具体知识图表形式化的精炼知识层。下面结合一个具体实例对本发明所构建的四层案例知识内容进行说明。注塑机是一种典型的复杂装备，本发明采用注塑机的合模部件中曲肘连杆式机构进行举例。

第一层是“牵引知识推送内容的案例匹配层”，其中构建有宽泛的数据信息，主要是作为索引为以后设计任务匹配提供信息，同时牵引出后续的三层具体的案例内容与知识文档。

针对每个产品案例用产品案例匹配向量表示，每个产品案例匹配向量index^xyz表示为index^xyz＝{name,ID,problem,const,result}。

其中，index^xyz表示编号xyz的产品案例匹配向量，name表示产品案例的名称，字符串格式；

ID表示产品案例的设计人员信息，案例设计人员工号，字符串格式；

problem表示产品案例的问题情境，用关键词描述，字符串格式；

const表示产品案例的约束条件，以数值的形式表达，包括三种数据存储格式：准确值、区间值与模糊值；

result表示产品案例的效果描述，以量化的结果评定设计的好坏，综合评定设计制造成本，可行性，使用寿命，能耗比各方面内容，人为给出60～100之间的数值。

对应的实例如index^HTF200X1-2-3＝{‘双曲肘内翻式五支绞斜排式’，‘120512X’，‘合模机构，曲肘连杆，内翻式，…’，‘H₁＝2000；L₁<1000；L₂＝1021；L₄＝767；β_max<75；α_max<87；h>89’，‘95’}。其中，HTF200X1-2-3是产品案例的编号，x＝HTF200X1是该注塑机型号，y＝2是注塑机的合模部件，z＝3是合模装置机构；‘双曲肘内翻式五支绞斜排式’是产品案例名称；‘120512X’是设计人员信息；‘合模机构，曲肘连杆，内翻式，…’是产品案例的问题情境，说明该产品案例为内翻式的曲肘连杆机构作为合模机构；‘H₁＝2000；L₁<1000；L₂＝1021；L₄＝767；β_max<75；α_max<87；h>89’是产品案例的约束条件，具体是曲肘连杆机构的重要部位尺寸；‘95’是产品案例的效果描述。

第二层是“设计过程信息构建的原始案例层”，是将案例匹配层中的案例进行相应的详细描述，主要创新点为案例表达是设计过程下的具体内容。针对每个产品案例，用针对设计过程的设计内容向量构建一个设计内容向量集合，设计内容向量集合表示为

每个设计内容向量表示为

其中

表示编号xyz的产品案例中第i步设计过程的内容；

pro_i表示第i步设计过程的过程信息分向量，文本方式简述；表示为pro_i＝{(key_i1,s_i1,loc_i1),(key_i2,s_i2,loc_i2),…,(key_ij,s_ij,loc_ij),…,(key_im,s_im,loc_im)}

model_i表示第i步设计过程的3D模型或者图纸，文件格式为.stl、.prt、.dwg等；

note_i表示第i步设计过程的注意内容，需要规避的错误，应该注意的方向等，这些由该案例设计人员负责编写，文本格式；

sol_i表示第i步设计过程的设计结果，包括计算结果，选型结果，选择材料等等；

对应的实例如

……；

文中概括地列举了设计内容向量集合的具体内容，以case₂为例，其中‘pro₂’是第2步设计过程的过程信息分向量；‘曲肘连杆机构设计图1.dwg’是该步完成的CAD图纸；‘由案例设计人员填写’是该步设计过程中的注意内容，此处省略；‘M_P(α)/M_V(α)优化结果’是该步的设计结果，完成对于M_P(α)/M_V(α)的优化值。

如图2所示，为本发明的模型构建方法步骤图。主要内容是知识文档的匹配与知识精炼的方法。

第三层是“设计对象与过程关联的完整知识层”，每个案例知识向量表示为knowledge＝{(case₁,k₁),(case₂,k₂),…,(case_i,k_i),…,(case_n,k_n)}，一个产品案例所包含的全部内容由案例知识向量表示，其中，k_i表示设计内容向量case_i所对应的设计知识文档集合，设计知识文档集合k_i表示为k_i＝{doc_i1,doc_i2,…,doc_ij,…,doc_it}；

设计知识包括选型图纸、设计手册内容，标准件图表等，通常存储为纸质印刷品的电子版或扫描版。

例如，曲肘连杆机构HTF200X1-2-3中，pro₁＝{(曲肘连杆,1,name),(双曲肘内翻式,0.81,pro₁),(运动特性,0.72,pro₁),

(曲肘连杆,1,name)为例，其中，曲肘连杆是关键词，1是关键词权重，name是关键词所在位置；

预处理阶段，将过程信息分向量pro_i与知识文档信息向量doc中关键词进行筛选排序：具体是先将与pro₁中关键词完全不相同的知识文档剔除，剩余的知识文档依据pro₁的关键词进行内部排序。列举预处理后的部分知识文档如下：

然后将知识文档与案例过程信息进行关键词权重的相似度计算，将相似度小于等于预设定阈值u的知识文档doc剔除，得到最后的k_i，计算结果省略，最后得到的k₁＝{‘曲肘连杆合模机构工作原理概述’，‘双曲肘内翻式工作示意图’，‘曲肘连杆运动特性’}。

第四层是“具体知识图表形式化的精炼知识层”，是上一层知识文档的精炼结果，主要是知识文档中符合案例具体内容的表格、图形、公式等，精炼知识文档集由向量

表示。

知识文档的精炼方法采用图像处理中的经典算法进行文档中的表格、图像、公式的提取。首先提取表格信息，采用数学形态学算法确定表格框线与对应单元格，框选出表格所在区域；将表格信息存储至新文档中，去除表格后，采用Canny算子进行图像轮廓的提取，框选出文档中的图像区域，存储图像信息与去除后，进行公式的提取，采用水平投影算法与判断准则进行公示区域的框选，最后得到精炼知识文档。原始知识文档与精炼知识文档之间的区别，精炼结果将原始的大段冗杂的文字去除，只留下图表与公式信息，对于掌握了该知识的设计人员来说，清晰明了，便于查询。

本发明构建的过程案例分层知识模型，共四层，每层之间存在关联，原始案例层为案例匹配层中案例的具体表达，下三层之间又通过设计过程信息进行关联，形成一种以案例为牵引的案例知识模型，主要用于知识推送环节。在知识推送中，该案例知识模型可以有效地匹配出与设计任务相关的案例，得到案例后即可得到后续的支撑知识体系，根据设计人员的能力等级可以进行不同知识的推送，原始案例层、完整知识层、精炼知识层共三层内容可供选择推送；按照设计过程构建的案例知识，可以在准确的时间进行推送，使用本发明的知识库构建方法可以有效服务于知识推送。

显然，本发明的上述实施例只是为了更好说明发明内容，此模型存在通用性，对于一般的复杂装备均可按照该方法进行案例知识模型的构建。因此，由本发明专利的技术方案所引申出的显而易见的变化仍属于本发明的保护范围之列。

Claims

1.一种用于知识推送的过程案例分层知识模型构建方法，其特征在于：该方法的步骤如下：

(1.1)将产品案例分解后构建产品案例匹配向量集合，并作为过程案例分层知识模型中用于牵引知识推送内容的案例匹配层；

步骤(1.1)具体为：将产品案例分解为零部件，每个产品案例用产品案例匹配向量表示，每个产品案例匹配向量index^xyz表示为index^xyz＝{name,ID,problem,const,result}，其中，index^xyz表示编号xyz的产品案例匹配向量，上标xyz存在于与该产品案例有关的一切向量中，name表示产品案例的名称，ID表示产品案例的设计人员信息，problem表示产品案例的问题情境，const表示产品案例的约束条件，result表示产品案例的效果描述；

步骤(1.2)具体为：针对每个产品案例，用针对设计过程的设计内容向量构建一个设计内容向量集合，设计内容向量集合表示为

i表示产品案例中设计过程所对应步的序号，n表示产品案例中设计过程步总数；其中的每个设计内容向量表示为

步骤(1.3)具体为：案例知识向量集合中，每个案例知识向量表示为knowledge＝{(case₁ ^xyz,k₁),(case₂ ^xyz,k₂),…,(case_i ^xyz,k_i),…,(case_n ^xyz,k_n)}，其中，k_i表示设计内容向量case_i ^xyz所对应的设计知识文档集合，通过设计内容向量case_i ^xyz与已知知识文档库中的知识文档进行相似度计算后生成与产品案例设计过程相匹配的设计知识文档集合k_i；设计知识文档集合k_i表示为k_i＝{doc_i1,doc_i2,…,doc_ij,…,doc_it}，其中doc_ij表示第i步设计过程下对应的第j篇知识文档的信息向量，t表示设计知识文档集合中的知识文档总篇数；

(1.4)具体为：案例知识向量中的各个设计知识文档集合k_i进行精炼处理，提取出表格、图形和公式的精炼知识，获得精炼知识文档集向量

其中R表示该篇知识文档为精炼知识。

2.根据权利要求1所述的一种用于知识推送的过程案例分层知识模型构建方法，其特征在于：所述步骤(1.2)中，所述的第i步设计过程的过程信息分向量pro_i构建为：

其中key_ij表示第i步设计过程的过程信息分向量pro_i中第j个关键词，s_ij表示第j个关键词的权重，loc_ij表示第j个关键词在产品案例设计过程中的位置，关键词在产品案例设计过程中的位置分为案例名称name、3D模型或者图纸model_i、注意内容note_i和设计结果sol_i四类，m表示过程信息分向量中关键词个数；

关键词的词频值TF采用以下公式计算：

其中，N_c表示当前关键词在该产品案例设计内容向量case_i ^xyz中出现的次数，N表示所述设计内容向量case_i ^xyz中单词总数；

关键词的逆文档词频值IDF采用以下公式计算：

3.根据权利要求2所述的一种用于知识推送的过程案例分层知识模型构建方法，其特征在于：所述步骤(1.3)中，设计过程中的每篇知识文档信息向量构建为：

其中，term_k表示知识文档的第k个关键词，w_k表示第k个关键词的权重，loc_k表示第k个关键词在知识文档中的位置，关键词在知识文档中的位置分为标题、子标题、摘要和正文四类，r表示知识文档中关键词总数；

关键词的词频值TF'采用以下公式计算：

关键词的逆文档词频值IDF'采用以下公式计算：

4.根据权利要求3所述的一种用于知识推送的过程案例分层知识模型构建方法，其特征在于：所述步骤(1.3)中，通过设计内容向量case_i ^xyz与已知知识文档库中的知识文档进行相似度计算后生成与产品案例设计过程相匹配的设计知识文档集合k_i，具体为：用设计内容向量case_i ^xyz中的过程信息分向量pro_i与已知知识文档库中的每个知识文档信息向量doc通过关键词权重进行相似度计算，找到与产品案例设计过程匹配的知识文档。

5.根据权利要求4所述的一种用于知识推送的过程案例分层知识模型构建方法，其特征在于：所述步骤(1.3)具体为：

a)若知识文档信息向量doc中的所有关键词与过程信息分向量pro_i中的所有关键词均不存在相同的关键词，则对应的该知识文档无用，剔除该知识文档以缩小知识文档的数量；

其中，

表示过程信息分向量pro_i中关键词权重向量{s_i1,s_i2,…,s_ij,…,s_ip,…,s_im}，W_doc表示知识文档信息向量doc中关键词权重向量{w₁,w₂,…,w_j,…,w_p,…,w_r}，p表示过程信息分向量pro_i中关键词与知识文档信息向量doc中关键词取并集后的数量，p≤min(m,r)，前1到p个关键词权重s_ij与w_j对应的关键词相同；