CN100336056C

CN100336056C - 基于成熟工艺文档的工艺术语提取、规律分析和重用方法

Info

Publication number: CN100336056C
Application number: CNB2005100111310A
Authority: CN
Inventors: 郑力; 李志忠; 胡长建
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2005-01-07
Filing date: 2005-01-07
Publication date: 2007-09-05
Anticipated expiration: 2025-01-07
Also published as: CN1641633A

Abstract

基于成熟工艺文档的工艺术语提取、规律分析和重用方法属于计算机文本处理技术领域，其特征在于它由它由工艺内容聚类、工艺术语提取、工艺术语组合使用规律分析、工艺录入导航四个步骤组成的学习阶段和由提取用户当前录入信息内容、对录入信息分词、生成上下文信息、用户端显示各步骤组成的应用阶段构成。对于复杂的工艺文档页面录入，本发明工艺录入速度可提高50%以上，对于简单的工艺文档页面录入效率提高也有很大帮助，同时还可以帮助提高工艺编辑的标准化。

Description

基于成熟工艺文档的工艺术语提取、规律分析和重用方法

技术领域

本发明涉及一种从成熟电子化文档提取和重用知识以提高文档编制效率和标准化的计算机处理方法，尤其是能够识别、分析并重用工艺术语而改进制造工艺的编制。

背景技术

在本说明书中用到了下列名词术语，当文中出现时就不再专门解释了。

√工艺：使各种原材料、半成品成为产品的过程。

√工艺文档：指导工人操作和用于生产、工艺管理的各种技术文件。

√工序内容：工序用来描述特定生产步骤，每条工序都有自己的名字，也有具体描述对应生产加工步骤的内容，简称工序内容，如一条机加工工序为“划线按划线基准划刨工序线，照顾各部位均匀对称”，其中“划线”为工序名称，而“按划线基准划刨工序线，照顾各部位均匀对称”为工序内容。

√工艺术语：在工艺文档中用于说明加工工艺的、比较常用和标准的短语。

√工艺录入：指编制工艺中逐步增加工艺内容的过程。

√数据挖掘：利用人工智能技术、统计学和机器学习等技术，从数据库的大量数据中找出隐藏在数据间的潜在联系，以供使用者做出前瞻性的预测、决策、推理和正确的判断。

√聚类：一种新兴的多元统计方法，是当代分类学与多元分析的结合，它是将分类对象置于一个多维空间中，按照它们空间关系的亲疏程度进行分类。通俗地讲，就是根据事物彼此不同的属性进行辨认，将具有相似属性的事物聚为一类，使得同一类的事物具有高度的相似性。

√聚类中心：如果把事物关系的亲疏程度量化，那么如果某个类中存在一个事物，它与该类中其他事物之间亲疏度量平均值最小，那么它就被称为该类的中心。

√分词：依据一定的词典，将某段话按照一定的切分方法，将它分解成不可再分的单元组成的集合，如：一条工序内容“按划线基准划刨工序线”可以分词成“按”、“划线”、“基准”、“划”、“刨”、“工序线”。

√宏代号：宏的代号，这里指用来在工艺内容中指称特殊符号的一些事先设定的代码。

√无记忆的随机过程：即马尔科夫过程。它有如下特征：在已知目前状态(现在)的条件下，它未来演变(将来)不依赖于它以往的演变(过去)。

√偏序集：偏序集是定义了偏序关系的非空集合；偏序关系定义如下：设R为非空集合A上的二元关系，如果R满足自反性(对于每一个x∈A，(x，x)∈R)，反对称性((x，y)∈R∧(y，x)∈R→x＝y)和传递性((x，y)∈R∧(y，z)∈R→(x，z)∈R)，则称R为A上的偏序关系，记作≤。如果(x，y)∈R，则记作x≤y，读作“x小于等于y”。

√模糊指数：一个表示模糊概念的指标参数。

√互信息：假定一个随机事件x，在特定环境中出现的概率为p(x)，那么其自信息量定义为I(x)＝-logp(x)，如果另外一随机事件y，其在该环境下出现的概率为p(y)，而且y出现后x出现的概率为p(x|y)，那么定义事件y出现，给x带来的信息量I(x；y)＝I(x)-I(x|y)＝log(p(x|y)/p(x))为事件x，y之间的互信息量。

√分割矩阵：分割矩阵是记录工序分词的划分标识矩阵。

√分词歧义：分词歧义是指在切词中出现多种切词可能，比如“结合成”即可以切成“结合|成”也可以切成“结|合成”。

√3元依存关系：这是统计语言模型中的术语，如果变量W代表一个由n个词顺序排列的词序，即W＝w₁w₂w₃...w_n，那么任意一个词序W在文本中出现的概率p(W)

p(W)＝p(w₁)p(w₂|w₁)...p(w_n|w₁w₂...w_n)

如果近似认为每一个词w_t出现的概率只同它相邻的前两个词有关，那么就是三元模型，对应着三元依存关系，即

p(W)＝p(w₁)p(w₂|w₁)∏_t＝3，...np(w_t|w_t-2w_t-1)

申请日为2002.7.9，公开日为2003.7.8，名称为“文件分类系统”的日本发明专利提出了一种在评价文件时，从各种各样评价中自动得出最恰当的一种评价的系统，它采取了一种抽取关键字并以它的出现次数来评价的方法。申请日为2002.1.29，公开日为2003.8.8，名称为“提供空白电子表格的系统方法及程序设计器”，它提出了一种无线上网页间的空电子表格提供系统，采用了页间特征抽取，特征分析的手段来生成相应的空电子表格。申请日为2003.4.4，公开日为2004.10.13，名称为“网络信息抽取及处理的方法及系统”提出了一种使用人工智能与自然语言处理技术，自动从各个指定的站点下载每天最新的新闻，并且进行内容抽取，分类，自动摘要精简全文，且将全文储存，并进行文本索引以便日后进行全文检索的方法。上述专利涉及了符号、图表的抽取、分析及分类的方法来处理页面间的问题和网络信息抽取及处理的方法，都与本申请的内容无关。

计算机辅助工艺设计是连接产品设计与产品制造之间的桥梁。工艺规程是进行工装设计制造和决定零件加工方法与加工路线的主要依据，它对组织生产、保证产品质量、提高劳动生产率、降低成本、缩短生产周期及改善劳动条件等都有着直接影响，是生产中的关键工作，一直受到制造业的关注。

然而由于工艺设计的复杂性、动态性、经验性，迄今为止许多工艺知识还无法用严密的数学模型来表示，许多问题也是非确定性的，因此要想构造一个通用的计算机辅助工艺设计系统几乎是不可能的。另外，传统的计算机辅助工艺设计系统中工艺编辑辅助功能比较单一，没有学习能力，只是对于一种产品，或者一种零件有辅助编辑作用，对不同的零件、行业缺少通用性，从而对于提高工艺编辑的速度和标准化提高帮助不大。

为了克服传统的工艺录入技术对企业快速工艺设计和标准化设计支持的不足，本发明提供一种基于成熟工艺文档的快速辅助工艺录入方法。该发明方法不仅能够从过去工艺文档中提取工艺术语，而且能够统计分析工艺术语在工艺编制中的使用规律，最后通过基于数据挖掘的工艺术语重用向工艺编制人员提供有效的录入上下文提示。

发明内容

本发明的目的在于提供一种成熟工艺文档的工艺术语提取、规律分析和重用方法。

本发明解决其技术问题所采用的方法是：提供从电子化工艺文档中提取工序内容的接口和直接录入工序内容的接口，进而生成企业的工艺内容集合(每条工序内容作为一条记录存放)；提供工艺内容预处理和一些直接提取工艺术语的规则，对上述工艺内容集合进行预处理；提供工艺内容之间相似性比较算法，对处理后的工艺内容集合进行聚类；基于工序内容聚类中心提供工艺术语提取方法，并给出工艺术语的提炼技术；基于提取的工艺术语和处理后的工艺内容集合统计分析工艺术语的使用规律；给出工艺术语链发现技术，基于统计规律和当前工艺录入人员录入信息生成辅助工艺录入的由工艺术语链组成的上下文信息提示。该解决方法的框架图见附图1：输入为成熟电子化工艺文档库存放URL或者用户直接录入，中间提取出企业工艺术语，输出为有利于工艺录入速度提高和工艺标准化需要的工艺术语链上下文提示信息。

本发明技术步骤分为四个部分：1)工序内容聚类；2)工艺术语提取；3)工艺术语组合使用规律统计；4)工艺录入导航。

①工序内容聚类

工序内容聚类的目的就是根据工序内容之间的相似关系将它们划分到不同的类中，并计算每个类中的聚类中心，工艺术语的提取是基于这些聚类中心的。

本步骤包括三个主要技术要点：

工序内容预处理规则和工艺术语直接提取规则

工序内容存在大量的数字、特殊符号，这些影响分词效果，同时在相似度计算和术语导航又需要特别处理，因此需要预处理——使用宏代号来代替数字和特殊符号。工艺内容有一定的潜在规则，比如工序名称通常就可以作为工艺术语直接提取，因此基于这些规则可以提取一些常用的工艺术语。

工艺内容之间相似度计算方法

相似性计算从本质上可以看作工序内容之间的转化问题，而转化问题可以理解为一个无记忆的随机过程。假定两条工序内容分词后的工序内容词序A，B；那么每次转化就产生一个替换E_s：<a，b>或删除E_d：<a，ε>或新增E_i：<ε，b>或结束标志Ξ。设E＝{替换E_s：<a，b>，删除E_d：<a，ε>，新增E_i：<ε，b>}。定义一个概率函数δ：E∪{Ξ}→[0，1]，并且满足下式：

1.z∈E∪{Ξ}，[0≤δ(z)≤1]

2.∑_z∈E∪{Ξ}δ(z)＝1 (1)

基于上述概率函数，工序内容之间的无记忆随机转化为φ＝<A，B，δ>，存在一个在所有转化空间E*Ξ上的转化概率函数p(.|φ)。假定v(zⁿΞ)∈A×B为所有可能的变化序列(ZⁿΞ)空间，那么变化事件v^-1((a^T，b^V))概率p(a^T，b^V|φ)为(T表示工序词序A中某类分词的长度，V表示工序词序B中某类分词的长度)：

p (a^{T}, b^{V} | φ) \approx \underset{{z^{n} Ξ : v (z^{n} Ξ} = < a^{T}, b^{V} >}}{Σ} p (z^{n} Ξ | φ) - - - (2)

由于转化无记忆，因此p(ZⁿΞ|φ)是转化序列Zⁿ∈Eⁿ中所有转化操作的概率乘积。

两个工序内容之间的转化距离可以理解为所有可能转化的平均概率即：

d_{φ}^{s} (A, B) \approx \underset{(a^{T}, b^{V}) &Element; (A \times B)}{Σ} - \log p (a^{T}, b^{V} | φ) - - - (3)

两个工序内容之间的相似度可以理解为最大可能转化概率，即：

Sin (A, B) \approx \underset{(a^{T}, b^{T}) &Element; (A \times B)}{Σ} \max_{{z^{n} : v (z^{n}) = < a^{T}, b^{T} >}} {p (z^{n} | φ)} - - - (4)

式中(a^T，b^V)∈(A×B)表示为由A×B构成的分词转化的所有可能空间，zⁿ：v(zⁿ)＝<a^T，b^V>表示在A中的每个分词和所有B中分词的所有转化空间。

对于(3)和(4)式，在实际计算时，上述转化概率就用两条工序内容分词后的单元之间的语义相似度来估算，这里语义相似度计算方法直接使用李群的《基于“知网”的词汇语义相似度计算》中提到的计算方法(该算法详细说明参看说明书附录原文)，而转化距离(3)可以近似等于(4)式结果的负对数，举例附图2。

工艺术语聚类方法

假定待聚类处理的工序内容集<X，≤>(偏序集)，其中X＝{x₁，x₂，...，x_n}；如果σ_sim为聚类相似度阈值(取0.8)，那么在该阈值控制下的聚类结果为C＝{C₁，C₂，...，C_r}，对应的聚类中心集合V＝{v₁，v₂，...，v_r}，其中聚类组C_l是由一组工序内容组成的集合即C_l＝{c₁，c₂，...，c_s}，c_k∈X，v_l为聚类组C_l的聚类中心且v_l∈C_l。

对聚类组C_l的一个分割可以使用隶属函数向量来表述：

U_l＝[u_l，k]，1≤k≤s

u_{l, k} &Element; [0, 1], Σ_{k = 1}^{s} u_{l, k} = 1, 1 \leq k \leq s

(5)

上式中s为聚类组C_l的元素个数，聚类组C_l中第k个样本对聚类中心v_l的编辑距离d_l，k由式(3)计算，假定目标函数J_n：

J_{n} (C_{l}, U_{l}, v_{l}) = Σ_{k = 1}^{s} (u_{l, k}^{m} {d_{l, k}}^{2}), 1 \leq m < \infty - - - (6)

确定聚类中心的决策目标就是该聚类组中的样本到聚类中心的加权距离平方和达到最小，上式中m为模糊指数(取值2)；其中隶属函数值按下式计算：

u_{l, k} \frac{1 / d_{l, k}^{2 / (m - 1)}}{\underset{j &NotEqual; l}{Σ_{j = 1}^{s}} (1 / d_{l, j}^{2 / (m - 1)})} 1 \leq k \leq s - - - (7)

工序内容聚类算法过程如下：

(1)构造工序内容聚类集X，设定模糊指数(m＝2)，确定聚类相似度阈值σ_sim＝0.8，初始化聚类结果和聚类中心集合C＝，V＝；

(2)设定聚类中心个数r＝1，提取任意一条工序内容x₀∈X，初始化V＝{v₁}，v₁＝x₀；C＝{C₁}，C₁＝{x₀}；U(0)；

(3)提取下一条工序内容x_i，分别按式(4)计算x_i与V中所有聚类中心的相似度值，取其中最大值ξ_max，并记录最大值发生对应的聚类中心编号l：

ξ_max＝max_1≤l≤rSim(x_i，v_l) (8)

(4)如果ξ_max≥σ_sim，表明该工序内容隶属于第l个聚类组，将该工序内容添加到C_l聚类组，否则转向(8)；

(5)从C_l聚类组中提取任意一条工序内容c₀，设定循环次数t＝0，分别根据式(7)，式(6)初始化U_l ⁽⁰⁾，J_n ⁽⁰⁾，置J_min＝J_n ⁽⁰⁾；

(6)提取C_l其他工艺内容c_k，t＝t+1；同(5)构造U_l ^(t)，计算目标函数J_n ^(t)，如果J_n ^(t)＜J_min，则J_min＝J_n ^(t)，v_l＝c_k；

(7)如果遍历了聚类组C_l所有元素，则该层迭代结束，转向(9)，否则转向(6)；

(8)构造C_r+1＝{x_i}，并将C_r+1添加到聚类结果集合C中，v_r+1＝x_i，并将v_r+1添加到聚类中心集合V中，置r＝r+1；

(9)如果遍历完聚类集合X中所有元素，则聚类结束，得到聚类结果集合C和聚类中心集合V，否则转向(3)。

流程图如附图3所示，为了更好地说明聚类过程，说明书附录2给出了一个简单的算例。

②工艺术语提取

假定一个随机事件e，在特定环境中出现的概率为p(e)，那么其自信息量定义为I(e)＝-logp(e)，如果另外一随机事件f，其在该环境下出现的概率为p(f)，而且f出现后e出现的概率为p(e|f)，那么定义事件f出现，给e带来的信息量I(e；f)＝I(e)-I(e|f)＝log(p(e|f)/p(e))为事件e，f之间的互信息量。互信息I(e；f)，衡量的是已知f的分布时，对e的预测有多大的帮助；换句话说，互信息表明事件f对e的表征意义的程度，越大表明前者对后者的表征意义越强。借助这个思想，基于工序内容聚类中心，计算字词之间的互信息量，利用互信息量来分析工艺术语之间的字、词之间的表征能力，提取互信息大于阈值变量的序列，就是需要提取的准工艺术语。比如：

[示例]＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

u(e)表示e在工序内容文本集合中出现的次数，设e＝“工”，假定某个工序内容文本集合X，假定u(e)＝100，设f＝“件”，假定f在当前工序内容文本集合X中出现的情况下，e关联出现的次数u(e|f)＝40，那么I(e：f)＝log(u(e|f)/u(e))＝-0.39794；根据统计规律设定一个下限值η_min，只要两个字或者词，它们的互信息量大于该阈值，就可以提取为准工艺术语，比如“工件”就是。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

单独使用互信息提取的工艺术语，往往还存在一些语义不完整和低频使用现象。比如“底漆”和“上底漆”都有很高的互信息量，但是后者才是完整意义上的工艺术语，而前者仅仅是工艺术语的组成词汇。为此引入上下文从属度的概念(概念示意见附图4)。比如：

假定“底漆”在工序内容集合X中出现的次数为100，u(“底漆”)＝100，那么“上底漆”在该工序内容集合中出现的次数为60[u(“上底漆”)＝60](可能还存在“涂底漆”的40次使用u(“涂底漆”)＝40)，假定t_l＝1，那么“底漆”的左从属度MaxL＝u(“上底漆”)/u(“底漆”)＝60/100＝0.6，假定定义了左从属度阀值下限值σ_l＝0.5，那么“底漆”就具有左从属度，它就不应该为工艺术语。

③工艺术语组合使用规律统计

对工艺术语的重用就是在用户录入时为用户提供准确有效的上下文提示，对工艺术语的组合使用规律进行统计分析并记忆是实现上述功能的基础。因此需要按照工艺术语来对现有的工艺内容进行切割，使用工艺术语(包括特殊符号块)链来表征工艺内容，进而分析工艺术语组合使用规律。

基于工艺术语的工序内容分词

定义1：假定m＝15(术语字典允许的最长词组字符个数)，V^str是工序内容字符编码组成所有k×m实矩阵的模式空间，其中k为一个正整数。对于工艺术语集合，不考虑术语之间的关系，对工艺术语扩充空格至标准长度，就构成扩展工艺术语字典

L_{ex} = {l_{ex}^{1}, l_{ex}^{2}, . . . {, l}_{ex}^{l}} &Subset; V^{str} .

定义2：定义一个v∈V^str为一个字符串扩充至标准长度m后对应字符编码组成的向量，用Sub(v，L_ex)表征v对L_ex的关系：

Sud (v, L_{ex}) = \{\begin{matrix} 1 & v &Element; L_{ex} \\ 0 & v &NotElement; L_{ex} \end{matrix} - - - (9)

定义3：给定一个n维字符串向量Str＝{x₁，x₂，...，x_n]^T；基于字典查询的分割矩阵R^n×M，即{a_ij}R^n×m：(需要指出的是如果字符不够，补空格)

{Str}_{t}^{j} = {[x_{j}, x_{j + 1}, . . ., x_{j + m - 1}]}^{T}

式中◇为全部空格组成的字符向量。

定义4：对于分割矩阵n_(m×n)，取出每行最大的非零值组成一个向量Ψ，Ψ＝{max_i(a_ij)}，i＝1，2，...，n；j＝1，2，...，m，由分割矩阵可以知道，取h＝Ψ[i]/2，g(i)＝i+h-1，若存在g(i)＜g(k)，k＝i+1，i+2，...，i+h，则存在分词歧义，否则不存在分词歧义。

2
2	4
4	4
4	2
2	2
2	6

如左表，是某工序内容经过分词处理得到了一个向量(参考图5)，这里＝{2，4，4，2，2，6}，当i＝2时，h＝4/2＝2，g(2)＝2+2-1＝3；k＝i+1＝3时，h＝4/2＝2，g(3)＝3+2-1＝4，则g(2)＜g(3)，根据定义4说明存在分词歧义。

定义5：根据上述定义，一种分词结果V_seg可以如下提取，V_seg＝{str_s}，其中str_s＝[x_s，x_s+1，...，x_s+g(s)]^T，s+g(s)≤n。

根据上述定义，给出分词过程：a.按照标点符号将工序内容划分为不同字符串编码表征的向量集V_in(数字、特殊字符的处理作为一个词处理)；b.对向量集中的每一个向量，计算其分割矩阵，并给出一组分词结果；c.将各向量分词结果组合为当前工序内容的总分词结果。示例见附图5。

使用规律分析

定义6：定义c_prc为分词后的工序内容，设L^*＝F∪S，F为工艺术语集合，而S为特殊符号集合，并称L^*为扩展工艺术语集合，则c_prc可以表示如下：

c_{prc} = l_{1}^{*} l_{2}^{*} . . . l_{r}^{*} - - - (11)

对于工艺内容样本集合，经分词处理后就存在一个分词集合，假定样本集合个数为n，则该分词集合就可以由n条有序扩展工艺术语串组成，即：

C_{prc} = {c_{prc}^{1}, c_{prc}^{2}, . . ., c_{prc}^{n}} \cdot

为统计术语组合使用规律，定义函数fre(y|x)：{x，y∈C_prc}→[0，m](

m = Σlen (c_{prc}^{i}) - 1, i = 1,2, . . n,

其中len(x)为分词结果x的组元个数)，表征扩展术语y紧跟x后面的事件在分词集合中出现的次数，并定义函数fre′(z|xy)：{x，y，z∈C_prc}→[0，m]，表征在x，y关联出现情况下，z紧跟y后事件在分词集合中出现的次数。

工艺内容的表述是连续的，只需记录上下文术语3元依存关系就可以大致描述工艺术语之间的组合使用规律：首先对每个术语计算fre(y|x)和fre′(z|xy)；然后，计算各个后续术语出现的概率，p(y|x)和p′(z|xy)。定义Y为所有x术语的后续术语集合，z为x，y联合出现下所有y后续术语集合，那么概率计算可以使用如下公式进行：

p (y | x) = \frac{fre (y | x)}{\underset{c &Element; Y}{Σ} fre (c | x)}, p^{'} (z | xy) = \frac{{fre}^{'} (z | xy)}{\underset{c &Element; Z}{Σ} {fre}^{'} (c | xy)} - - - (12)

统计规律目的就是建立以各个术语为节点，术语节点导向概率为边的使用网络。

下面列举一个简单的示例(只运用2元依存关系)

假设一个工艺内容集合，经分词处理后生产一个分词集合{清理，上底漆，涂底漆，去毛刺，发蓝}，假定fre(上底漆|清理)＝15，fre(涂底漆|清理)＝35，fre(去毛刺|清理)＝30，fre(发蓝|清理)＝20则根据公式(12)，有

p(上底漆|清理)＝15/(15+35+30+20)＝0.15

p(涂底漆|清理)＝35/(15+35+30+20)＝0.25

p(去毛刺|清理)＝30/(15+35+30+20)＝0.30

p(发蓝|清理)＝20/(15+35+30+20)＝0.20

那么在这个分词集合中就有一种当出现“清理”后，顺序以0.30、0.25、0.20、0.15的概率出现“去毛刺”、“涂底漆”、“发蓝”、“上底漆”的统计规律。3元依存关系的统计规律完全可以类似地求出。

④工艺录入导航

该发明的目的就是根据用户录入信息初始位置n_start，在未知目标的前提下尽量为用户提供更多的录入上下文参考，示意见附图6。这是一个路径发现问题，即在特定约束条件下提供特定可信度下的工艺术语链集，即相对于当前位置，相互间的表征能力应该是相对聚集的，利用互信息的概念，书写总成本函数J_m：

J_{m} = Σ_{i = 0}^{i \leq N_{f}} g (x_{i}),

x_{i} = (\begin{matrix} x_{i - 2} \\ x_{i - 1} \\ x_{i} \end{matrix})

g (x_{i}) = λ \log (\frac{p (x_{i - 2} x_{i - 1} x_{i})}{p (x_{i - 2}) + p (x_{i - 1}) + p (x_{i}) - p (x_{i - 2} x_{i - 1} x_{i})}) - - - (13)

总成本函数是计算依据本路径对应的总互信息量，要计算当前状态的互信息量，需要同时知道其前面相邻节点的状态信息即x_i＝{x_i-2，x_i-1，x_i}，λ为一正整数，用于增强计算效果(取值2～5)。J_m越大表明总互信息量越小。

h

({x_{N}}_{f}, x (T_{f})) \leq c_{f}

h(x)＝-p(x)logp(x) (14)

另外，信息表述是连续的，导航提示应该是依据表征能力聚集的原则，即得到的末节点与初始节点要有一定的相关度。因此路径末节点对应的自信息量h(x_Nf)应该不小于某个设定的阈值c_f，而且需要加入用户等待时间T_f约束；

依据总成本的大小就可以生成工艺导航的工艺术语链集。

例如：当编辑工艺输入“清理”时，根据系统对工艺术语的统计规律，系统会自动提示输入“去毛刺”，然后，系统可能会提示下一个在统计规律中紧接着“去毛刺”出现个概率最高的工艺术语，如“淬火”，这样实现工艺录入导航，达到提高工艺编辑效率的目的。

本发明的特征在于：它依次含有以下两个阶段，

学习阶段：它由预存在服务器内存中的服务端后台处理模块依次按以下步骤完成：

第1步：提取工序内容

服务器从电子化工艺文档中提取工序内容，或者手工向服务器录入工序内容；

第2步：工序内容预处理

从工序内容中提取包括工序名称在内的工艺术语，同时对于工序内容中的数字和特殊符号事先设定宏的代号；

第3步：工序内容聚类

第3.1步：构造工序内容聚类集X，设定一个模糊指数m，模糊指数越大，聚类的模糊程度就越大；确定聚类相似度的阀值，用σ_sim表示；初始化聚类结果集合和聚类中心集合，依次用C＝，V＝表示；

第3.2步，设定聚类中心的个数r＝1，提取任意一条工序内容x₀∈X，初始化聚类结果集合，C＝{C₁}，C₁＝{x₀}；聚类中心集合V＝{v₁}，v₁＝x₀；

第3.3步，设定在聚类相似度阈值σ_sim控制下的聚类结果为C＝{C₁，C₂，...，C_r}，其中聚类组C_l是由一组工序内容组成的集合，即C_l＝{c₁，c₂，...c_k，...，c_s}，c_k∈X，对应的聚类中心集合V＝{v₁，v₂，...，v_r}，v_l为聚类组C_l的聚类中心且v_l∈C_l；

则：对于聚类组C_l的一个分割用隶属函数向量来表达，即：

U_l＝[u_l，k]，1≤k≤s

u_{l, k} &Element; [0,1], Σ_{k = 1}^{s} u_{l, k} = 1,1 \leq k \leq s

u_l，k为聚类组C_l内第k个工序内容的隶属函数；U_l为聚类组C_l内s个工序内容的隶属函数组成的隶属函数向量，

U为聚类结果C内各聚类组C_l的隶属向量的集合，令U(0)为U的初始值；

第3.4步：提取下一条工序内容，分别按算式

Sim (x_{i}, v_{l}) \approx \underset{(a^{T}, b^{V}) &Element; (x_{i} \times v_{i})}{Σ}

\max_{{z^{''} : v = (z^{''}) < a^{T}, b^{V} >}} {p (z^{n} | φ)}

计算x_i与聚类中心集合V中所有的聚类中心的相似度值，式中(a^T，b^V)∈(x_i×v_l)表示为由x_i×v_l构成的分词转化的所有可能空间，zⁿ：v(zⁿ)＝<a^T，b^V>表示在x_i中的每个分词和所有v_l中分词的所有转化空间，a^T，b^V分别表示工序内容x_i、v_l经分词处理后的长为T或V的字或词，取其中最大值ξ_max，并记录最大值发生时对应的聚类中心编号l：ξ_max＝max_1≤l≤rSim(x_i，v_l)

第3.5步：判别ξ_max是否大于或者等于σ_sim；

若ξ_max≥σ_sim不成立，则构造C_r+1＝{xi}，将C_r+1添加到聚类结果集合C中，v_r+1＝x_i，并将v_r+1添加到聚类中心集合V中，置r＝r+1；

若ξ_max≥σ_sim成立，则把该工序内容添加到聚类组C_l；

第3.6步：对于步骤3.4得到的各个聚类组C_l按下述方法分别计算各个聚类组C_l的聚类中心；

当聚类组C_l中只有两个工序内容时，其中任何一个都可为聚类中心；

当聚类组C_l中有三个或者三个以上工序内容时，按下述步骤求该聚类组C_l的聚类中心：

第3.6.1步按下式计算每两个工序内容g_l，g_k之间的转化距离，用d_l，k表示，d_l，k＝-log(Sim(g_l，g_k))；

第3.6.2步：按下式计算u_l，k；

u_{l, k} = \frac{1 / d_{l, k}^{2 / (m - 1)}}{{\underset{j = 1}{Σ}}_{j &NotEqual; l}^{s} (1 / d_{l, j}^{2 / (m - 1)})} 1 \leq k \leq s

第3.6.3步：按下式计算该聚类组中的样本到聚类中心的加权距离平方和的最小值，用符号J_m(C_l，U_l，v_l)表示，

J_{m} (C_{l}, U_{l}, v_{l}) = Σ_{k = 1}^{s} (u_{l, k}^{m} {d_{l, k}}^{2}), 1 \leq m < \infty

选择使得J_m(C_l，U_l，v_l)最小的工序内容为该组聚类的聚类中心；

第3.6步：再从工序内容集合X中提取下一条工序内容x_i+1，按步骤3.4-3.5所述把该工序内容添加到聚类结果集合C中，再在x_i+1所在的聚类组C_l中运用步骤3.6重新选择聚类中心；

第3.7步：按步骤3.4-3.6遍历完工序内容集合X中的所有工序内容，则聚类结束，得到聚类结果集合C和聚类中心集合V；

第4步：工艺术语提取

第4.1步(求准工艺术语集合)设定：根据统计规律设定互信息阀值的下限值，用η_min表示，对于工序内容集合中的字或词e、f，则：字或词f在工序内容集合中出现，给字或词e带来的信息量，即互信息量，它表示两个词的关联度，可用式I(e；f)＝I(e)-I(e|f)＝log(u(e|f)/u(e))表示，其中，u(e)为e在工序内容集合中出现的次数，u(e|f)为f在当前工序中，紧跟在e后面的出现的次数；

u(e)，u(e|f)为已知值，统计得出；若I(e；f)＞η_min则提取词ef，构成准工艺术语；

按步骤4.1遍历工序内容集合中所有的词，得到一个准工艺术语集合；

第4.2步：求工艺术语集合

设定：上述准工艺术语集合中每个准工艺术语在工艺内容集合中与其他字或词的上下文从属度的阀值下限值为ρ_min；

再设：每条准工艺术语的左从属度，它的取值大小取决于从左侧与上述准工艺术语关联的最长的一组字或词，用LSize＝|L|＜t_l表示，t_l表示最长的一组字或词的长度；每条准工艺术语的右从属度，它的取值大小取决于从右侧与上述准工艺术语关联的最长的一组字或词，用RSize＝|R|＜t_r表示，t_r表示最长的一组字或词的长度；

则左从属度的最大值为

MaxL = {Max}_{a} \frac{u (aW)}{u (W)};

右从属度的最大值为

MaxR = {Max}_{a} \frac{u (Wa)}{u (W)};

其中，u(W)为准工艺术语W在该工艺内容中出现的次数，u(aW)为准工艺术语W在其左边添加字或词a后组成准工艺术语aW在工艺内容中出现的次数，u(Wa)为准工艺术语W在其右边添加字或词a后组成准工艺术语Wa在工艺内容中出现的次数；

在上述的从属度MaxL、MaxR中取最大值，再判断它是否大于上下文从属度阀值的下限值，若是，则该组字或词，即准工艺术语左边或者右边添加的内容，与准工艺术语关联，他们构成了工艺术语，若否，则准工艺术语就是所求的工艺术语；

重复4.1步，遍历所有准工艺术语，得到的就是工艺术语集合；

第5步，统计工艺术语组合的使用规律

第5.1步：对基于工艺术语的工序内容分词

第5.1.1步，用V^str表示字符编码组成所有k×m实矩阵的模式空间，不妨取m＝15，k为一个正整数，对于工艺术语集，不考虑术语之间的关系，对工艺术语扩充空格至标准长度，就构成扩展工艺术语字典

L_{ex} = {l_{ex}^{1}, l_{ex}^{2}, . . ., l_{ex}^{l}} &Subset; V^{str};

第5.1.2步：把工序内容聚类集X定义为一个n维字符串向量Sir＝[x₁，x₂，...，x_n]^T，其中，任意一个x为把一个字符串扩充至标准长度m后形成的向量，用Sub(v，L_ex)来表示任意一个x中的工艺术语v与工艺术语字典L_ex的关系：

Sub (v, L_{ex}) = \{\begin{matrix} 1 & v &Element; L_{ex} \\ 0 & v &NotElement; L_{ex} \end{matrix}

第5.1.3步：建立基于工艺术语字典查询、以便对工序内容聚类集中的用一个字符串向量表示的工序内容进行分词用的分割矩阵R^n×m，即{a_ij}R^n×m，其中a_ij按下式求出：

其中，i为分割矩阵的行，它代表待分词的工序内容中每个字符编码或一组编码在工艺术语字典中的分割情况：能否分割以及分割的程度；j为分割矩阵的列，它表示从待分词的工序内容中依次提取字符编码进行分割判别时对字符串依次进行提取时字符组合的类别，j＝1，表示依次逐字提取，j＝2，表示一次双字提取，j＝3，表示依次每3个字提取，依此类推；这种组合类别用Str_t ^j表示，

其中，◇表示为全部空格组成的字符向量；

Sub(Str_t ^j，L_ex)表示对第j列组合中的每一种子组合是否属于工艺术语字典中的工艺术语进行判别，

Sub ({Str}_{t}^{j}, L_{ex}) = \{\begin{matrix} 1 & {Str}_{t}^{j} &Element; L_{ex} \\ 0 & {Str}_{t}^{j} &NotElement; L_{ex} \end{matrix}

(j-1)表示描述分割程度的权重，j＝1时，a_i1＝2；

第5.1.4步：在步骤5.1.3所述的分割矩阵中，从每一行中找出最大的数组成一个向量，然后再把各字符串组成的向量集中的每一个向量，计算其分割矩阵得出一组分词结果，把各向量分词结果组合为当前工序内容聚类集合的总分词结果；设定：第一行值为“2”，则说明第一个字符单独分词，当第二行最大的数为“4”，则说明应该前两个字分词，当第三行最大的数是“6”，则说明应该前三个字分词，下面接着考察第四行，依次类推；

第5.1.5步：通过对使用规律的分析建立一个以各个术语为节点，术语节点导向概率为边的使用网络；

设：对于一个工序内容个数为n的工序内容聚类集，经过上述分词处理后存在一个分词集合，该分词集合用C_prc表示，它由n条有序扩展工序术语串组成，即

C_{prc} = {c_{prc}^{1}, c_{prc}^{2}, . . ., c_{prc}^{n}},

其中：

c_{prc} = l_{1}^{*} l_{2}^{*} . . . l_{r}^{*},

所述任一个l^*都包含在由工艺术语集合F和特殊符号集合S组成的扩展工艺术语集合L^*，即L^*＝F∪S；

则：由于工艺内容的表达是连续的，在上下文术语3元依存关系的范围内，术语节点导向概率可以用以下两个参数表示：

1 . p

(y | x)

\frac{fre (y | x)}{\underset{c &Element; Y}{Σ} fre (c | x)}

其中fre(y|x)：{x，y∈C_prc}→[0，m]，

m = Σlen (c_{prc}^{i}) - 1, i = 1,2, . . n;

len(c_prc ⁱ)表示：分词结果即扩展工艺术语在上述集合中的总量；x为上述分词集合c_prc中先出现的扩展工艺术语，y表示为上述分词集合c_prc中紧跟在x后出现的扩展工艺术语；fre(y|x)表示在x出现后，y在分词集合中出现的次数；

表示：紧跟在扩展工艺术语x后的各个可能出现的扩展术语y在分词集合中出现的总次数；p(x|y)表示：紧跟在扩展工艺术语x后的后续扩展工艺术语y在分词集合中出现的概率

2 . p^{'} (z | x, y) = \frac{{fre}^{'} (z | xy)}{\underset{c &Element; Z}{Σ} {fre}^{'} (c | xy)}

z为x、y联合出现下紧跟y的后续工艺术语集合，fre′(z|xy)为扩展工艺术语z在x、y联合出现下在分词集合中C_prc出现的次数；

表示在x、y联合出现下，y的后续扩展工艺术语z在分词集合C_prc中出现的概率；

第6步：工艺录入导航，即在用户录入信息初始位置n_start后，提供特定可信度下的工艺术语链集；

确定一个总成本函数，

J_{m} = Σ_{i = 0}^{i \leq N_{f}} g (x_{i}),

用来表征工艺术语链的总互信息量，J_m越大表明总互信息量越小，其中：

x_{i} = (\begin{matrix} x_{i - 2} \\ x_{i - 1} \\ x_{i} \end{matrix}), g (x_{i}) = λ \log (\frac{p (x_{i - 2} x_{i - 1} x_{i})}{p (x_{i - 2}) + p (x_{i - 1}) + p (x_{i}) - p (x_{i - 2} x_{i - 1} x_{i})})

为单步成本函数，λ为一正整数，用于增强计算效果，取值2～5；

因为信息表述是连续的，导航提示应该依据表征能力聚集的原则，即得到的末节点与初始节点应有一定的相关度，因此路径末节点对应的自信息量h(x_Nf)应该不小于某个设定的阈值c_f，而且需要加入用户等待时间T_f约束；所以给出不等式：

h ({x_{N}}_{f}, x (T_{f})) \leq c_{f},

其中：h(x)＝-p(x)logp(x)；其中h(x)为自信息量；

根据总成本大小，由小到大依次生成工艺录入导航所必须的工艺术语链集；

应用阶段

第7步：通过网络提取用户当前录入信息内容；

第8步：服务器后台处理模块根据步骤4得到工艺术语字典对录入信息进行分词分析；

第9步：根据步骤8的结果生成上下文检索文件，并参照第6步所生成的工艺录入导航的工艺术语链集，生成上下文信息；

第10步：服务器后台处理模块通过网络向客户端显示规整化的工序内容聚类集合。

对该发明实现程序，以企业工艺文集作测试，测试环境见表1，录入速度效果见附图9。

表1.测试环境

	工艺编辑系统	输入法	测试人员
	工艺编辑系统	输入法	测试人员	普通录入	开目工艺表格编辑系统	对工艺词汇	机械厂的设计组人员(对

导航录入

国家863项目资助下作者开发的支撑该录入导航模块的基于Web的协同工艺设计系统

有一定学习基础的紫光输入法2.0

计算机比较熟悉)和实验室在读研究生

从图9可以看出导航录入时间相比普通录入有了明显的改进。为更加明确地阐述两种录入效果的比较，依据工艺文档难易划分为五个区间，分别统计列出如表2：

表2.区间下两种录入模式录入速度比较

		非常简单	简单	普通	复杂	非常复杂
		非常简单	简单	普通	复杂	非常复杂	＜1分钟	1～2分钟	2～4分钟	4～5分钟	＞5分钟
		工艺技术文集(1)	(86)^a％^b％^c％^d	153.7916.5324.92	179.4432.0452.82	3130.4337.0961.34	＜1分钟	1～2分钟	2～4分钟	4～5分钟	＞5分钟	34.9338.6463.36	2051.4140.9470.28
工艺技术文集(2)	(156)^a％^b％^c％^d	工艺技术文集(1)	(86)^a％^b％^c％^d	153.7916.5324.92	179.4432.0452.82	3130.4337.0961.34	163.0118.2726.57	4514.2422.3652.42	5637.2333.5358.41	1816.7337.2964.55	2128.7939.5267.66	34.9338.6463.36	2051.4140.9470.28

※^a是工艺技术文集的总页面数，对应的行是分布在各区间的页面数，^b指区间内工艺文档录入时间占总文集录入时间的百分比，^c是导航录入时间比普通录入时间减少百分比以录入时间为权重的加权平均，^d是导航录入速度比普通录入速度提高百分比以录入时间为权重的加权平均。

从上表可以看出，对于复杂的工艺文档页面录入该方法能够大幅度地提高工艺录入速度(超过50％)；而对于简单页面效果也很好；因此可以说它能够很好地提高工艺录入的速度。

附图说明

图1.技术解决方案框架图。

图2.工序内容相似度与转化距离计算示例。

图3.工序内容聚类流程图。

图4.上下文从属度示意图。

图5.分词示例。

说明：对于工序“按划线基准划刨工序线”，该工序中有10个字，按照分词规则可以组成一个10×15的矩阵，由公式(10)可得，a_i1＝2，所以第一列全部填入“2”，然后从第一行开始，对应于工序中的第一个字“按”，后面紧跟的是“划”，“按划”在术语字典中不存在，则由公式(9)得Sub(v，L_ex)＝0，代入由公式(10)得到a₁₂＝0；下一步，从第二个字“划” 开始，对应于矩阵的第二行，因为“划”和后面的“线”组成的词“划线”在术语字典里存在，所以由公式(9)得Sub(v，L_ex)＝1，代入公式(10)得到a₂₂＝4，而“划线基”在术语字典中没有，同样有公式(9)(10)可以确定a₂₃＝0；接着就可以看第三行，因为“线基”在术语字典中没有，同样可以确定a₃₂＝0，类似地可以把这个矩阵的所有元的值确定，如图中的矩阵所示。由定义4，从每行中找出最大的数，组成一个向量，在本例中的是{2，4，2，4，2，2，2，6，2，2}，可以看出不存在分词歧义。然后根据定义5，这个向量对工序进行分词为“按|划线|基准|划|刨|工序线”。

图6.路标导航路径搜索及上下文导航。

说明：术语空间下的路标导航包含节点Nodes(N＝{ni}，i＝1，2，...，n)和边Edges(E＝{ej}，j＝1，2，...，m)，而且每条边存在对应的方向和概率权重，即ej＝(ns，ne，r)。给定当前环境状态，开始的节点nstart，以及约束条件cf，寻找一系列按可信度从大到小排列的路径集<P，≤>，其中P＝{p1，p2，...，pk}，每条路径由相关边关联的节点组成。

图7.系统框图。

图8.系统流程图。

图9.录入速度效率图。

具体实施方式

按照图1所示逻辑，分别编写相关模块，然后按照图7所示框架将各模块组成一个完整的系统，需要注意的是：(1)工艺内容提取模块是一个相对灵活的模块，不仅需要跟相关电子化工艺文档的格式建立绑定，而且需要提供手工录入的部分；(2)工艺术语提取后，应该提供工艺术语手工修改模块接口；(3)工艺术语录入导航模块，应该提供与输入法集成模块；(4)提供编辑环境的工艺录入信息的提取模块，并根据现有录入信息分析提供排队处理程序。然后将该系统内嵌到现有的工艺编辑系统中。

本方法对应计算机程序分为两个部分：服务端后台处理模块和客户端应用模块。其中服务端后台处理模块驻留在服务器内存中，在系统空闲的时候完成工序内容提取、工序样本空间生成、工序内容预处理、工序内容聚类、工艺术语提取和提炼以及工艺术语使用规律分析等工作；而客户端应用模块为用户提供动态的导航信息，并支持辅助工具(比如术语库手工维护模块，输入法切换模块，和标注公差工具模块等)的集成接口，其框图见附图7，系统流程图见附图8。

工序聚类算例：

设一个工序集中七条工序如下：

工序1：刨13面，留量2(记为g₁) g₁

工序2：刨20面，留量1(记为g₂) g₂

工序3：刨①面，留量0.3(记为g₃) g₃

工序4：镗IV轴第四板墙φ95→φ85(记为g₄) g₄

工序5：镗II轴第二板墙φ120→φ112(记为g₅) g₅

工序6：以①面定位，找正③面夹紧(记为g₆) g₆

工序7：按划线基准划铣刨线(记为g₇) g₇

聚类过程可以如下进行：

1)设定模糊指数(m＝2)，确定聚类相似度阀值σ_sim＝0.8，初始化聚类结果和聚类中心集合C＝，V＝；

2)在工序集中任取一条工序，不妨顺序提取。取第一条工序g₁，则C＝{C₁}，C₁＝{g₁}；V＝{v₁}，v₁＝g₁

3)在工序集中任意提取下一条工序，取工序g₂，由公式(4)计算g₂与V中聚类中心的相似度，即计算g₂与g的相似度值，得Sim(g₂，v₁)＝0.929110＞σ_sim，所以g₂应该加入聚类C₁，即C₁＝{g₁，g₂}，因为这个工序聚类中只有两个工序，所以任何一个都可以作为聚类中心，仍取v₁＝g₁；

4)取第三个工序g₃，由公式(4)计算g₃与V中聚类中心的相似度，即计算g₃与g₁中所有聚类中心的相似度值，得Sim(g₃，v₁)＝0.929110＞σ_sim，所以g₃应该加入聚类C₁，即C₁＝{g₁，g₂，g₃}，因为这个工序聚类中已有三个工序，所以需要计算确定一个工序作为聚类中心。

5)确定聚类中心，求得：

d_1，2＝d(Sim(g₁，g₂))＝-log(0.929110)＝0.031932，

d_1，3＝d(Sim(g₁，g₃))＝-log(0.903023)＝0.044301，

d_2，3＝d(Sim(g₂，g₃))＝-log(0.907076)＝0.042356，

则由公式(7)得：

u_1，2＝(1/d(g₁，g₂)²)/(1/d(g₁，g₂)²+1/d(g₁，g₃)²)＝0.658091，

u_1，3＝(1/d(g₁，g₃)²)/(1/d(g₁，g₂)²+1/d(g₁，g₃)²)＝0.341909；

u_2，1＝(1/d(g₂，g₁)²)/(1/d(g₂，g₁)²+1/d(g₂，g₃)²)＝0.637609，

u_2，3＝(1/d(g₂，g₃)²)/(1/d(g₂，g₃)²+1/d(g₂，g₁)²)＝0.362390；

u_3，1＝(1/d(g₃，g₁)²)/(1/d(g₃，g₁)²+1/d(g₃，g₂)²)＝0.477566，

u_3，2＝(1/d(g₃，g₂)²)/(1/d(g₃，g₂)²+1/d(g₃，g₁)²)＝0.522434；

由公式(6)得：

J₁＝(u_1，2)²*(d_1，2)²+(u_1，3)²*(d_1，3)²＝0.000671023897657955874225，

J₂＝(u_2，1)²*(d_2，1)²+(u_2，3)²*(d_2，3)²＝0.000650138716719489131344，

J₃＝(u_3，1)²*(d_3，1)²+(u_3，2)²*(d_3，2)²＝0.000937261774157505631972，

比较J₁、J₂、J₃，可以看出J₂最小，选择g₂为聚类中心，即v₁＝g₂。

6)取下一条工序——g₄，由公式(4)计算g₄与V中聚类中心的相似度，即计算g₄与g₂(v_l)的相似度值，得Sim(g₄，v₁)＝0.258533＞σ_sim，所以根据规则应该构造C₂＝{g₄}，取v₂＝g₄；

7)取下一条工序——g₅，由公式(4)计算g₅与V中所有聚类中心的相似度，即分别计算g₅与v₁和v₂相似度值，得Sim(g₅，v₁)＝0.258533＜σ_sim，Sim(g₅，v₂)＝0.988633＞σ_sim，所以根据规则，g₅应该属于的2组聚类组，即C₂＝{g₄，g₅}，任取一个为聚类中心，仍然取v₂＝g₄；

8)取下一条工序g₆，分别计算g₆与V中所有聚类中心，得Sim(g₆，v₁)＝0.374728＜σ_sim，Sim(g₆，v₂)＝0.123155＜σ_sim，所以可以构造C₃＝{g₆}，取v₃＝g₆；

9)取下一条工序g₇，由公式(4)分别计算g₇与V中所有聚类中心，得Sim(g₇，v₁)＝0.235294＜σ_sim，Sim(g₇，v₂)＝0.215278＜σ_sim，Sim(g₇，v₃)＝0.145833＜σ_sim，根据规则可以构造C₄＝{g₇}，取v₄＝g₇；

10)遍历完工序集中所有的工序，得到聚类结果集合C＝{C₁，C₂，C₃，C₄}和聚类中心集合V＝{v₁，v₂，v₃，v₄}，聚类过程结束。

所实现硬件平台

PC机-P4 2.4G，512M SDRAM，Windows2000 Advanced Server。

Claims

1、基于成熟工艺文档的工艺术语提取、规律分析和重用方法，其特征在于，它依次含有以下两个阶段，

第1步：提取工序内容

第2步：工序内容预处理

第3步：工序内容聚类

第3.3步，设定在聚类相似度阈值σ_sim控制下的聚类结果为C＝{C₁，C₂，…，C_r}，其中聚类组C_l是由一组工序内容组成的集合，即C_l＝{c₁，c₂，…c_k，…，c_s}，c_k∈X，对应的聚类中心集合V＝{v₁，v₂，…，v_r}，v_l为聚类组C_l的聚类中心且v_l∈C_l；

则：对于聚类组C_l的一个分割用隶属函数向量来表达，即：

U_l＝[u_l，k]，1≤k≤s

u_{l, k} &Element; [0,1], Σ_{k = 1}^{s} u_{l, k} = 1,1 \leq k \leq s

U为聚类结果C内各聚类组C_/的隶属函数向量的集合，令U(0)为U的初始值；

第3.4步：提取下一条工序内容，分别按算式

Sim (x_{i}, v_{l}) \approx \underset{(a^{T}, b^{V}) &Element; (x_{i} \times v_{l})}{Σ} \max_{{z^{n} : v (z^{n}) = < a^{T}, b^{V} >}} {p (z^{n} | φ)}

第3.5步：判别ξ_max是否大于或者等于σ_sim；

若ξ_max≥σ_sim不成立，则构造C_r+1＝{x_i}，将C_r+1添加到聚类结果集合C中，v_r+1＝x_i，并将v_r+1添加到聚类中心集合V中，置r＝r+1；

若ξ_max≥σ_sim成立，则把该工序内容添加到聚类组C_l；

第3.6.2步：按下式计算u_l，k；

u_{l, k} = \frac{1 / d_{l, k}^{2 / (m - 1)}}{{\underset{j = 1}{Σ}}_{j &NotEqual; l}^{s} (1 / d_{l, j}^{2 / (m - 1)})} 1 \leq k \leq s

J_{m} (C_{l}, U_{l}, v_{l}) = Σ_{k = 1}^{s} (u_{l, k}^{m} {d_{l, k}}^{2}), 1 \leq m < \infty

选择使得J_m(C_l，U_l，v_l)最小的工序为该组聚类的聚类中心；

第3.7步：再从工序内容集合X中提取下一条工序内容x_i+l，按步骤3.4-3.5所述把该工序内容添加到聚类结果集合C中，再在x_i+l所在的聚类组C_l中运用步骤3.6重新选择聚类中心；

第3.8步：按步骤3.4-3.6遍历完工序内容集合X中的所有工序内容，则聚类结束，得到聚类结果集合C和聚类中心集合V；

第4步：工艺术语提取

u(e)，u(e|f)为已知值，统计得出；若I(e；f)＞η_min，则提取词ef，构成准工艺术语；

第4.2步：求工艺术语集合

则左从属度的最大值为

MaxL = {Max}_{a} \frac{u (aW)}{u (W)};

右从属度的最大值为

MaxR = {Max}_{a} \frac{u (Wa)}{u (W)};

第5步，统计工艺术语组合的使用规律

第5.1步：对基于工艺术语的工序内容分词

L_{ex} = {l_{ex}^{1}, l_{ex}^{2}, . . ., l_{ex}^{l}} &Subset; V^{str};

第5.1.2步：把工序内容聚类集X定义为一个n维字符串向量Str＝[x₁，x₂，…，x_n]^T，其中，任意一个x为把一个字符串扩充至标准长度m后形成的向量，用Sub(v，L_ex)来表示任意一个x中的工艺术语v与工艺术语字典L_ex的关系：

Sub (v, L_{ex}) = \{\begin{matrix} 1 & v &Element; L_{ex} \\ 0 & v &NotElement; L_{ex} \end{matrix}

其中，◇表示为全部空格组成的字符向量；

Sub ({Str}_{t}^{j}, L_{ex}) = \{\begin{matrix} 1 & {Str}_{t}^{j} &Element; L_{ex} \\ 0 & {Str}_{t}^{j} &NotElement; L_{ex} \end{matrix}

(j-1)表示描述分割程度的权重，j＝1时，a_i1＝2；

第5.1.4步：在步骤5.1.3所述的分割矩阵中，从每一行中找出最大的数组成一个向量，然后再把各字符串组成的向量集中的每一个向量，计算其分割矩阵得出一组分词结果，把各向量分词结果组合为当前工序内容聚类的集合的总分词结果；设定：第一行最大的数为“2”，则说明第一个字符单独分词，当第二行最大的数为“4”，则说明应该前两个字分词，当第三行最大的数是“6”，则说明应该前三个字分词，下面接着考察第四行，依次类推；

C_{prc} = {c_{prc}^{1}, c_{prc}^{2}, . . ., c_{prc}^{n}},

其中：

c_{prc} = l_{1}^{*} l_{2}^{*} . . . l_{r}^{*},

1 . p (y | x) = \frac{fre (y | x)}{\underset{c &Element; Y}{Σ} fre (c | x)}

其中fre(y|x)：{x，y∈C_prc}→[0，m]，

m = Σlen (c_{prc}^{i}) - 1, i = 1,2, . . n;

. p^{'} (z | x, y) = \frac{{fre}^{'} (z | xy)}{\underset{c &Element; Z}{Σ} {fre}^{'} (c | xy)}

z为x、y联合出现下紧跟y的后续工艺术语集合，fre′(z|xy)为扩展工艺术语z在x、y联合出现下在分词集合中C_prc出现的次数；表示在x、y联合出现下，y的后续扩展工艺术语z在分词集合C_prc中出现的概率；

确定一个总成本函数，

J_{m} = Σ_{i = 0}^{i \leq N_{f}} g (χ_{i}),

χ_{i} = (\begin{matrix} x_{i - 2} \\ x_{i - 1} \\ x_{i} \end{matrix}), g (χ_{i}) = λ \log (\frac{p (x_{i - 2} x_{i - 1} x_{i})}{p (x_{i - 2}) + p (x_{i - 1}) + p (x_{i}) - p (x_{i - 2} x_{i - 1} x_{i})})

h (x_{N_{f}}, x (T_{f})) {\leq c}_{f},

其中：h(x)＝-p(x)log p(x)；其中h(x)为自信息量；

应用阶段

第7步：通过网络提取用户当前录入信息内容；