CN1641633A - 基于成熟工艺文档的工艺术语提取、规律分析和重用方法 - Google Patents

基于成熟工艺文档的工艺术语提取、规律分析和重用方法 Download PDF

Info

Publication number
CN1641633A
CN1641633A CN 200510011131 CN200510011131A CN1641633A CN 1641633 A CN1641633 A CN 1641633A CN 200510011131 CN200510011131 CN 200510011131 CN 200510011131 A CN200510011131 A CN 200510011131A CN 1641633 A CN1641633 A CN 1641633A
Authority
CN
China
Prior art keywords
technics
cluster
operation content
word
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200510011131
Other languages
English (en)
Other versions
CN100336056C (zh
Inventor
郑力
李志忠
胡长建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CNB2005100111310A priority Critical patent/CN100336056C/zh
Publication of CN1641633A publication Critical patent/CN1641633A/zh
Application granted granted Critical
Publication of CN100336056C publication Critical patent/CN100336056C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

基于成熟工艺文档的工艺术语提取、规律分析和重用方法属于计算机文本处理技术领域,其特征在于它由工艺内容聚类、工艺术语提取、工艺术语组合使用规律分析、工艺录入导航个步骤组成的学习阶段和由提取用户当前录入信息内容、对录入信息分词、生成上下文信息、用户端显示各步骤组成的应用阶段构成。对于复杂的工艺文档页面录入,本发明工艺录入速度可提高50%以上,对于简单的工艺文档页面录入效率提高也有很大帮助,同时还可以帮助提高工艺编辑的标准化。

Description

基于成熟工艺文档的工艺术语提取、规律分析和重用方法
技术领域
本发明涉及一种从成熟电子化文档提取和重用知识以提高文档编制效率和标准化的计算机处理方法,尤其是能够识别、分析并重用工艺术语而改进制造工艺的编制。
背景技术
在本说明书中用到了下列名词术语,当文中出现时就不再专门解释了。
√工艺:使各种原材料、半成品成为产品的过程。
√工艺文档:指导工人操作和用于生产、工艺管理的各种技术文件。
√工序内容:工序是用来描述特定生产步骤,每条工序都有自己的名字,也有具体描述对应生产加工步骤的内容,简称工序内容,如一条机加工工序为“划线按划线基准划刨工序线,照顾各部位均匀对称”,其中“划线”为工序名称,而“按划线基准划刨工序线,照顾各部位均匀对称”为工序内容。
√工艺术语:在工艺文档中用于说明加工工艺的、比较常用和标准的短语。
√工艺录入:指编制工艺中逐步增加工艺内容的过程。
√数据挖掘:利用人工智能技术、统计学和机器学习等技术,从数据库的大量数据中找出隐藏在数据间的潜在联系,以供经营者做出前瞻性的预测、决策、推理和正确的判断。
√聚类:一种新兴的多元统计方法,是当代分类学与多元分析的结合,它是将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。通俗的讲,就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。
√聚类中心:如果把事物关系的亲疏程度量化,那么如果某个类中存在一个事物,它与该类中其他事物之间亲疏度量平均值最小,那么它就被称为该类的中心。
√分词:依据一定的词典,将某段话按照一定的切分方法,将它分解成不可再分的单元组成的集合如:把一条工艺“按划线基准划刨工序线”可以分词成“按”、“划线”、“基准”、“划”、“刨”、“工序线”。
√宏代号:宏的代号,这里用来在工艺内容中指称特殊符号的一些事先设定的代码。
√无记忆的随机过程;即马尔科夫过程。它有如下特征:在已知目前状态(现在)的条件下,它未来演变(将来)不依赖于它以往的演变(过去)。
√偏序集;偏序集是定义了偏序关系的非空集合;偏序关系如下定义:设R为非空集合A上的二元关系,如果R满足自反性(对于每一个x∈A,(x,x)∈R),反对称性((x,y)∈R∧(y,x)∈R→x=y)和传递性((x,y)∈R∧(y,x)∈R→(x,z)∈R),则称R为A上的偏序关系,记作≤。如果(x,y)∈R,则记作x≤y,读作“x小于等于y”。
√模糊指数:一个表示模糊概念的指标参数。
√互信息:假定一个随机事件x,在特定环境中出现的概率为p(x),那么其自信息量定义为I(x)=-logp(x),如果另外一随机事件y,其在该环境下出现的概率为p(y),而且y出现后x出现的概率为p(x|y),那么定义事件y出现,给x带来的信息量
I(x;y)=I(x)-I(x|y)=log(p(x|y)/p(x))为事件x,y之间的互信息量。
√分割矩阵:分割矩阵是记录工序分词的划分标识矩阵。
√分词歧义:分词歧义是指在切词中出现多种切词可能,比如“结合成”即可以切成“结合|成”也可以切成“结|合成”。
√3元依存关系:这是统计语言模型中的术语,如果变量W代表一个由n个词顺序排列的词序,即W=w1w2w3...wn,那么任意一个词序W在文本中出现的概率p(W)p(W)=p(w1)p(w2|w1)...p(wn|w1w2...wn)
如果近似认为每一个词wt出现的概率只同它相邻的前两个词有关,那么就是三元模型,对应着三元依存关系,即
p(W)=p(w1)p(w2|w1)∏t=3,...np(wt|wt-2wt-1)
申请日为2002.7.9,公开日为2003.7.8,名称为“文件分类系统”的日本发明专利提出了一种在评价文件时,从各种各样评价中自动得出最恰当的一种评价的系统,它采取了一种抽取关键字并以它的出现次数来评价的方法。申请日为2002.1.29,公开日为2003.8.8,名称为“提供空白电子表格的系统方法及程序设计器”,它提出了一种无线上网页间的空电子表格提供系统,采用了页间特征抽取,特征分析的手段来生成相应的空电子表格。申请日为2003.4.4,公开日为2004.10.13,名称为“网络信息抽取及处理的方法及系统”提出了一种使用人工智能与自然语言处理技术,自动从各个指定的站点下载每天最新的新闻,并且进行内容抽取,分类,自动摘要精简全文,且将全文储存,并进行文本索引以便日后进行全文检索的方法。上述专利涉及了符号、图表的抽取、分析及分类的方法来处理页面间的问题和网络信息抽取及处理的方法,都与本申请的内容无关。
计算机辅助工艺设计是连接产品设计与产品制造之间的桥梁。工艺规程是进行工装设计制造和决定零件加工方法与加工路线的主要依据,它对组织生产、保证产品质量、提高劳动生产率、降低成本、缩短生产周期及改善劳动条件等都有着直接影响,是生产中的关键工作,一直受到制造业的关注。
然而由于工艺设计的复杂性、动态性、经验性,迄今为止许多工艺知识还无法用严密的数学模型来表示,许多问题也是非确定性的,因此要想构造一个通用的计算机辅助工艺设计系统几乎是不可能的。另外,传统的计算机辅助工艺设计系统中工艺编辑辅助功能比较单一,没有学习能力,只是对于一个产品,或者一个零件有辅助编辑作用,对不同的零件、行业缺少通用性,从而对于提高工艺编辑的速度和标准化提高帮助不大。
为了克服传统的工艺录入技术对企业快速工艺设计和标准化设计支持的不足,本发明提供一种基于成熟工艺文档的快速辅助工艺录入方法。该发明方法不仅能够从过去工艺文档中提取工艺术语,而且能够统计分析工艺术语在工艺编制中的使用规律,最后通过基于数据挖掘的工艺术语重用向工艺编制人员提供有效的录入上下文提示。
发明内容
本发明的目的在于提供一种成熟工艺文档的工艺术语提取、规律分析和重用方法。
本发明解决其技术问题所采用的方法是:提供从电子化工艺文档中提取工序内容的接口和直接录入工序内容的接口,进而生成企业的工艺内容集合(每条工序内容作为一条记录存放);提供工艺内容预处理和一些直接提取工艺术语规则,对上述工艺内容集合进行预处理;提供工艺内容之间相似性比较算法,对处理后的工艺内容集合进行聚类;基于工序内容聚类中心提供工艺术语提取方法,并给出工艺术语的提炼技术;基于提取的工艺术语和处理后的工艺内容集合统计分析工艺术语的使用规律;给出工艺术语链发现技术,基于统计规律和当前工艺录入人员录入信息生成辅助工艺录入的由工艺术语链组成的上下文信息提示。该解决方法的框架图见附图1:输入为成熟电子化工艺文档库存放URL或者用户直接录入,中间提取出企业工艺术语,输出为有利于工艺录入速度提高和工艺标准化需要的工艺术语链上下文提示信息。
本发明技术步骤分为四个部分:1)工序内容聚类;2)工艺术语提取;3)工艺术语组合使用规律统计;4)工艺录入导航。
①工序内容聚类
工序内容聚类的目的就是根据工序内容之间的相似关系将它们划分到不同的类中,并计算每个类中的聚类中心,工艺术语的提取是基于这些聚类中心的。
本步骤包括三个主要技术要点:
Figure A20051001113100101
工序内容预处理规则和工艺术语直接提取规则
工序内容存在大量的数字、特殊符号,这些影响分词效果,同时在相似度计算和术语导航又需要特别处理,因此需要预处理——使用宏代号来代替数字和特殊符号。工艺内容有一定的潜在规则,比如工序名称通常就可以作为工艺术语直接提取,因此基于这些规则可以提取一些常用的工艺术语。
工艺内容之间相似度计算方法
相似性计算从本质上可以看作工序内容之间的转化问题,而转化问题可以理解为一个无记忆的随机过程。假定两条工序内容分词后的工序内容词序A,B;那么每次转化就产生一个替换Es:<a,b>或删除Ed:<a,ε>或新增Ei:<ε,b>或结束标志Ξ。设E={替换Es:<a,b>,删除Ed:<a,ε>,新增Ei:<ε,b>}。定义一个概率函数δ:E∪{Ξ}→[0,1],并且满足下式:
                   1.z∈E∪{Ξ},[0≤δ(z)≤1]
                   2.∑z∈E∪{Ξ}δ(z)=1                           (1)
基于上述概率函数,工序内容之间的无记忆随机转化为φ=<A,B,δ>,存在一个在所有转化空间E*Ξ上的转化概率函数p(.|φ)。假定v(znΞ)∈A×B为所有可能的变化序列(znΞ)空间,那么变化事件v-1((aT,bV))概率p(aT,bV|φ)为(T表示工序词序A中某类分词的长度,V表示工序词序B中某类分词的长度):
p ( a T , b V | &phi; ) &ap; &Sigma; { z n &Xi; : v ( z n &Xi; = < a T , b V > ) } p ( z n &Xi; | &phi; ) - - - ( 2 )
由于转化无记忆,因此p(znΞ|φ)是转化序列zn∈En中所有转化操作的概率乘积。两个工序内容之间的转化距离可以理解为所有可能转化的平均概率即:
d &phi; s ( A , B ) &ap; &Sigma; ( a T , b V ) &Element; ( A &times; B ) - log p ( a T , b V | &phi; ) - - - ( 3 )
两个工序内容之间的相似度可以理解为最大可能转化概率,即:
Sim ( A , B ) &ap; &Sigma; ( a T , b V ) &Element; ( A &times; B ) max { z n : v ( z n ) = < a T , b V > } { p ( z n | &phi; ) } - - - ( 4 )
式中(aT,bV)∈(A×B)表示为由A×B构成的分词转化的所有可能空间,zn:v(zn)=<aT,bV>表示在A中的每个分词和所有B中分词的所有转化空间。
对于(3)和(4)式,在实际计算时,上述转化概率就是两条工序内容分词后的单元之间的语义相似度来估算,这里语义相似度计算方法直接使用李群的《基于“知网”的词汇语义相似度计算》中提到的计算方法(该算法详细说明参看说明书附录原文),而转化距离(3)可以近似等于(4)式结果的负对数,举例附图2。
Figure A20051001113100114
工艺术语聚类方法
假定待聚类处理的工序内容集<X,≤>(偏序集),其中X={x1,x2,...,xn};如果σsim为聚类相似度阈值(取0.8),那么在该阈值控制下的聚类结果为C={C1,C2,...,Cr},对应的聚类中心集合V={v1,v2,...,vr},其中聚类组Cl是由一组工序内容组成的集合即Cl={c1,c2,...,cx},ck∈X,vl为聚类组Cl的聚类中心且vl∈Cl
对聚类组Cl的一个分割可以使用隶属函数向量来表述:
                   Ul=[ul,k],1≤k≤s
u l , k &Element; [ 0,1 ] , &Sigma; k = 1 s u l , k = 1,1 &le; k &le; s - - - ( 5 )
上式中s为聚类组Cl的元素个数,聚类组Cl中第k个样本对聚类中心vl的编辑距离dl,k由式(3)计算,假定目标函数Jn
J n ( C l , U l , v l ) = &Sigma; k = 1 s ( u l , k m d l , k 2 ) , 1 &le; m &le; &infin; - - - ( 6 )
确定聚类中心的决策目标就是该聚类组中的样本到聚类中心的加权距离平方和达到最小,上式中m为模糊指数(取值2);其中隶属函数值按下式计算:
u l , k = 1 / d l , k 2 / ( m - 1 ) &Sigma; j = 1 j &NotEqual; l s ( 1 / d l , j 2 / ( m - 1 ) ) , 1 &le; k &le; s - - - ( 7 )
工序内容聚类算法过程如下:
(1)构造工序内容聚类集X,设定模糊指数(m=2),确定聚类相似度阈值σsim=0.8,初始化聚类结果和聚类中心集合C=,V=;
(2)设定聚类中心个数r=1,提取任意一条工序内容x0∈X,初始化V={v1},v1=x0;C={C1},C1={x0};U(0);
(3)提取下一条工序内容xi,分别按式(4)计算xi与V中所有聚类中心的相似度值,取其中最大值ξmax,并记录最大值发生对应的聚类中心编号l:
           ξmax=max1≤l≤r Sim(xi,vl)                            (8)
(4)如果ξmax≥σsim,表明该工序内容隶属于第l个聚类组,将该工序内容添加到Cl聚类组,否则转向(8);
(5)从Cl聚类组中提取任意一条工序内容c0,设定循环次数t=0,分别根据式(7),式(6)初始化Ul (0),Jn (0),置Jmin=Jn (0)
(6)提取Cl其他工艺内容ck,t=t+1;同(5)构造Ul (t),计算目标函数Jn (t),如果Jn (t)<Jmin,则Jmin=Jn (t),vl=ck
(7)如果遍历了聚类组Cl所有元素,则该层迭代结束,转向(9),否则转向(6);
(8)构造Cr+1={xi},并将Cr+1添加到聚类结果集合C中,vr+1=xi,并将vr+1添加到聚类中心集合V中,置r=r+1;
(9)如果遍历完聚类集合X中所有元素,则聚类结束,得到聚类结果集合C和聚类中心集合V,否则转向(3)。
流程图如附图3所示,为了更好地说明聚类过程,说明书附录2给出了一个简单的算例。
②工艺术语提取
假定一个随机事件e,在特定环境中出现的概率为p(e),那么其自信息量定义为I(e)=-logp(e),如果另外一随机事件f,其在该环境下出现的概率为p(f),而且f出现后e出现的概率为p(e|f),那么定义事件f出现,给e带来的信息量I(e;f)=I(e)-I(e|f)=log(p(e|f)/p(e))为事件e,f之间的互信息量。互信息I(e;f),衡量的是已知f的分布时,对e的预测有多大的帮助;换句话说,互信息表明事件f对e的表征意义的程度,越大表明前者对后者的表征意义越强。借助这个思想,基于工序内容聚类中心,计算字词之间的互信息量,利用互信息量来分析工艺术语之间的字、词之间的表征能力,提取互信息大于阈值变量的序列,就是需要提取得准工艺术语。比如:
[示例]==================================
u(e)表示e在工序内容文本集合中出现的次数,设e=“工”,假定某个工序内容文本集合X,假定u(e)=100,设f=“件”,假定f在当前工序内容文本集合X中出现的情况下,e关联出现的次数u(e|f)=40,那么I(e:f)=log(u(e|f)/u(e))=-0.39794;根据统计规律设定一个下限值ηmin,只要两个字或者词,它们的互信息量大于该阈值,就可以提取为准工艺术语,比如“工件”就是。
=====================================
单独使用互信息提取的工艺术语,往往还存在一些语义不完整和低频使用现象。比如“底漆”和“上底漆”都有很高的互信息量,但是后者才是完整意义上的工艺术语,而前者仅仅是工艺术语的组成词汇。为此引入上下文从属度的概念(概念示意见附图4)。比如:
[示例]==================================
假定“底漆”在工序内容集合X中出现的次数为100,u(“底漆”)=100,那么“上底漆”在该工序内容集合中出现的次数为60[u(“上底漆”)=60](可能还存在“涂底漆”的40次使用u(“涂底漆”)=40),假定tl=1,那么“底漆”的左从属度MaxL=u(“上底漆”)/u(“底漆”)=60/100=0.6,假定定义了左从属度阀值下限值σl=0.5,那么“底漆”就具有左从属度,它就不应该为工艺术语。
=====================================
③工艺术语组合使用规律统计
对工艺术语的重用就是在用户录入时为用户提供准确有效的下文提示,对工艺术语的组合使用规律进行统计分析并记忆是实现上述功能的基础。因此需要按照工艺术语来对现有的工艺内容进行切割,使用工艺术语(包括特殊符号块)链来表征工艺内容,进而分析工艺术语组合使用规律。
基于工艺术语的工序内容分词
定义1:假定m=15(术语字典允许的最长词组字符个数),Vstr是工序内容字符编码组成所有k×m实矩阵的模式空间,其中k为一个正整数。对于工艺术语集,不考虑术语之间的关系,对工艺术语扩充空格至标准长度,就构成扩展工艺术语字典 L ex = { l ex 1 , l ex 2 , . . . , l ex l } &Subset; V str .
定义2:定义一个v∈Vstr为一个字符串扩充至标准长度m后对应字符编码组成的向量,用Sub(v,Lex)表征v对Lex的关系:
Sub ( v , L ex ) = 1 v &Element; L ex 0 v &NotElement; L ex - - - ( 9 )
定义3:给定一个n维字符串向量Str=[x1,x2,...,xn]T;基于字典查询的分割矩阵Rn× m,即{aij}Rn×m:(需要指出的是如果字符不够,补空格)
Str t j = [ x j , x j + 1 , . . . , x j + m - 1 ] T
式中◇为全部空格组成的字符向量。
定义4:对于分割矩阵n(m×n),取出每行最大的非零值组成一个向量Ψ,Ψ={maxi(aij)},i=1,2,...,n;j=1,2,...,m,由分割矩阵可以知道,取h=ψ[i]/2,g(i)=i+h-1,若存在g(i)<g(k),k=i+1,i+2,...,i+h,则存在分词歧义,否则不存在分词歧义。
[示例]==================================
    2
    4
    4
    2
    2
    6
如左表,是某工序内容经过分词处理得到了一个向量(参考图5),这里={2,4,4,2,2,6},当i=2时,h=4/2=2,g(2)=2+2-1=3;k=i+1=3时,h=4/2=2,g(3)=3+2-1=4,则g(2)<g(3),根据定义4说明存在分词歧义。
=====================================
定义5:根据上述定义,一种分词结果Vseg可以如下提取,Vseg={strs},其中strs=[xs,xs+1,...,xs+g(s)]T,s+g(s)≤n。
根据上述定义,给出分词过程:a.按照标点符号将工序内容划分为不同字符串编码表征的向量集Vin(数字、特殊字符的处理作为一个词处理);b.对向量集中的每一个向量,计算其分割矩阵,并给出一组分词结果;c.将各向量分词结果组合为当前工序内容的总分词结果。示例见附图5。
Figure A20051001113100144
使用规律分析
定义6:定义cprc为分词后的工序内容,设L*=F∪S,F为工艺术语集合,而S为特殊符号集合,并称L*为扩展工艺术语集合,则cprc可以表示如下:
c prc = l 1 * l 2 * . . . l r * - - - ( 11 )
对于工艺内容样本集合,经分词处理后就存在一个分词集合,假定样本集合个数为n,则该分词集合就可以有n条有序扩展工艺术语串组成,即: C prc = { c prc 1 , c prc 2 , . . . , c prc n } . 为统计术语组合使用规律,定义函数 fre { ( y | x ) : x , y &Element; C prc } &RightArrow; [ 0 , m ] , ( m = &Sigma;len ( c prc i ) - 1 , i = 1,2 , . . n , 其中len(x)为分词结果x的组元个数),表征扩展术语y紧跟x后面的事件在分词集合中出现的次数,并定义函数fre′(z|xy):{x,y,z∈Cprc}→[0,m],表征在x,y关联出现情况下,z紧跟y后事件在分词集合中出现的次数。
工艺内容的表述是连续的,只需记录上下文术语3元依存关系就可以大致描述工艺术语之间的组合使用规律:首先对每个术语计算fre(y|x)和fre′(z|xy);然后,计算各个后续术语出现的概率,p(y|x)和p′(z|xy)。定义Y为所有x术语的后续术语集合,Z为x,y联合出现下所有y后续术语集合,那么概率计算可以使用如下公式进行:
p ( y | x ) = fre ( y | x ) &Sigma; c &Element; Y fre ( c | x ) , p &prime; ( z | xy ) = fre &prime; ( z | xy ) &Sigma; c &Element; Z fre &prime; ( c | xy ) - - - ( 12 )
统计规律目的就是建立以各个术语为节点,术语节点导向概率为边的使用网络。
下面列举一个简单的示例(只运用2元依存关系)
[示例]==================================
假设一个工艺内容集合,经分词处理后生产一个分词集合{清理,上底漆,涂底漆,去毛刺,发蓝},假定fre(上底漆|清理)=15,fre(涂底漆|清理)=35,fre(去毛刺|清理)=30,fre(发蓝|清理)=20则根据公式(12),有
                   p(上底漆|清理)=15/(15+35+30+20)=0.15
                   p(涂底漆|清理)=35/(15+35+30+20)=0.25
                   p(去毛刺|清理)=30/(15+35+30+20)=0.30
                   p(发蓝|清理)  =20/(15+35+30+20)=0.20
那么在这个分词集合中有就有一种当出现“清理”后,顺序以0.30、0.25、0.20、0.15的概率出现“去毛刺”、“涂底漆”、“发蓝”、“上底漆”的统计规律。3元依存关系的统计规律完全可以类似地求出。
=====================================
④工艺录入导航
该发明的目的就是根据用户录入信息初始位置nstart,在未知目标的前提下尽量为用户提供更多的录入上下文参考,示意见附图6。这是一个路径发现问题,即在特定约束条件下提供特定可信度下的工艺术语链集,即相对于当前位置,相互间的表征能力应该是相对聚集的,利用互信息的概念,书写总成本函数Jm
J m = &Sigma; i = 0 i &le; N f g ( &chi; i ) ,
&chi; i = x i - 2 x i - 1 x i - - - ( 13 )
g ( &chi; i ) = &lambda; log ( p ( x i - 2 x i - 1 x i ) p ( x i - 2 ) + p ( x i - 1 ) + p ( x i ) - p ( x i - 2 x i - 1 x i ) )
总成本函数是计算依据本路径对应的总互信息量,要计算当前状态的互信息量,需要同时知道其前面相邻节点的状态信息即xi={xi-2,xi-1,xi),λ为一正整数,用于增强计算效果(取值2~5)。Jm越大表明总互信息量越小。
h ( x N f , x ( T f ) ) &le; c f - - - ( 14 )
      h(x)=-p(x)log p(x)
另外,信息表述是连续的,导航提示应该是依据表征能力聚集的原则,即是得到的末节点与初始节点要有一定的相关度。因此路径末节点对应的自信息量h(xNf)应该不小于某个设定的阈值cf,而且需要加入用户等待时间Tf约束;
依据总成本的大小就可以生成工艺导航的顺序链路集
[示例]==================================
例如:当编辑工艺输入“清理”时,根据系统对工艺术语的统计规律,系统会自动提示输入“去毛刺”,然后,系统可能会提示下一个在统计规律中紧接着“去毛刺”出现个概率最高的工艺术语,如“淬火”,这样实现工艺录入导航,达到提高工艺编辑效率的目的。
=====================================
本发明的特征在于:它依次含有以下两个阶段,
学习阶段:它由预存在服务器内存中的服务端后台处理模块依次按以下步骤完成:
第1步:提取工序内容
服务器从电子化工艺文档中提取工序内容,或者手工向服务器录入工序内容;
第2步:工序内容预处理
从工序内容中提取包括工序名称在内的工艺术语,同时对于工序内容中的数字和特殊符号事先设定宏的代号;
第3步:工序内容聚类
第3.1步:构造工序内容聚类集X,设定一个表示模糊的用m表示的指标参数,它表示聚类集X中每一条工艺内容的元素至少可用两个汉字字符,或者符号表示;确定聚类相似度的阀值,用σsim表示;初始化聚类结果集合和聚类中心集合,依次用C=,V=表示;
第3.2步,设定聚类中心的个数r=1,提取任意一条工序内容x0∈X,初始化聚类结果集合,C={C1},C1={x0};聚类中心集合V={v1},v1=x0
第3.3步,设定在聚类相似度阈值σsim控制下的聚类结果为C={C1,C2,...,Cr},其中聚类组Cl是由一组工序内容组成的集合,即Cl={c1,c2,...ck,...,cs},ck∈X,对应的聚类中心集合V={v1,v2,...,vr},vl为聚类组Cl的聚类中心且vl∈Cl
则:对于聚类组Cl的一个分割用隶属函数向量来表达,即:
                        Ul=[ul,k],1≤k≤s
u l , k &Element; [ 0,1 ] , &Sigma; k = 1 s u l , k = 1,1 &le; k &le; s
ul,k为聚类组Cl内第k个工序内容的隶属函数;Ul为聚类组Cl内s个工序内容的隶属函数组成的隶属函数向量,
U为聚类结果C内各聚类组Cl的隶属向量的集合,令U(0)为U的初始值;
第3.4步:提取下一条工序内容,分别按算式
Sim ( x i , v l ) &ap; &Sigma; ( a T , b V ) &Element; ( x i &times; v l ) max { z n : v ( z n ) = < a T , b V > } { p ( z n | &phi; ) } 计算xi与聚类中心集合V中所有的聚类中心的相似度值,式中(aT,bV)∈(xi×vl)表示为由xi×vl构成的分词转化的所有可能空间,zn:v(zn)=<aT,bV>表示在xi中的每个分词和所有vl中分词的所有转化空间,aT,bV分别表示工序内容xi、vl经分词处理后的长为T或V的字或词,取其中最大值ξmax,并记录最大值发生时对应的聚类中心编号l:ξmax=max1≤l≤r Sim(xi,vl)
第3.5步:判别ξmax是否大于或者等于σsim
若ξmax≥σsim不成立,则构造Cr+1={xi},将Cr+1添加到聚类结果集合C中,vr+1=xi,并将vr+1添加到聚类中心集合V中,置r=r+1;
若ξmax≥σsim成立,则把该工序内容添加到聚类组Cl
第3.6步:对于步骤3.4得到的各个聚类组Cl按下述方法分别计算各个聚类组Cl的聚类中心;
当聚类组Cl中只有两个工序内容时,其中任何一个都可为聚类中心;
当聚类组Cl中有三个或者三个以上工序内容时,按下述步骤求该聚类组Cl的聚类中心:
第3.6.1步按下式计算每两个工序内容gl,gk之间的转化距离,用dl,k表示,dl,k=-log(Sim(gl,gk));
第3.6.2步:按下式计算ul,k
u l , k = 1 / d l , k 2 / ( m - 1 ) &Sigma; j = 1 j &NotEqual; l s ( 1 / d l , j 2 / ( m - 1 ) ) , 1 &le; k &le; s
第3.6.3步:按下式计算该聚类组中的样本到聚类中心的,用符号Jn(Cl,Ul,vl)表示的加权距离平方和的最小值,
J n ( C l , U l , v l ) = &Sigma; k = 1 s ( u l , k m d l , k 2 ) , 1 &le; m &le; &infin;
选择使得Jm(Cl,Ul,vl)最小的工序为该组聚类的聚类中心;
第3.6步:再从工序内容集合X中提取下一条工序内容xi+1,按步骤3.4-3.5所述把该工序内容添加到聚类结果集合C中,再在xi+1所在的聚类组中Cl运用步骤3.6重新选择聚类中心;
第3.7步:按步骤3.4-3.6遍历完工序内容集合X中的所有工序内容,则聚类结束,得到聚类结果集合C和聚类中心集合V;
第4步:工艺术语提取
第4.1步(求准工艺术语集合)设定:根据统计规律设定互信息阀值的下限值,用ηmin表示,工序内容集合中的字或词e、f,则:字或词f在工序内容中集合中出现,给字或词e带来的信息量,即互信息量,它表示两个词的关联度,可用式I(e;f)=I(e)-I(e|f)=log(u(e|f)/u(e))表示,其中,u(e)为e在工序内容集合中出现的次数,u(e|f)为f在当前工序中,紧跟在e后面的出现的次数;
u(e),u(e|f)为已知值,统计得出;若I(e;f)>ηmin,则提取词ef,构成准工艺术语;
按步骤4.1遍历工序内容集合中所有的词,得到一个准工艺术语集合;
第4.2步:求工艺术语集合
设定:上述准工艺术语集合中每个准工艺术语在工艺内容集合中与其他字或词的上下文从属度的阀值下限值为ρmin
再设:每条准工艺术语的左从属度,它的取值大小取决于从左侧与上述准工艺术语关联的最长的一组字或词,用LSize=|L|<tl表示,tl表示最长的一组字或词的长度;每条准工艺术语的右从属度,它的取值大小取决于从右侧与上述准工艺术语关联的最长的一组字或词,用RSize=|R|<tr表示,tr表示最长的一组字或词的长度;
则左从属度的最大值为 MaxL = Max a u ( aW ) u ( W ) ;
右从属度的最大值为 MaxR = Max a u ( Wa ) u ( W ) ;
其中,u(W),为W在准工艺术语在该工艺内容中出现的次数,u(aW)为工艺准术语W在其左边添加字或词a后组成准工艺术语aW在工艺内容中出现的次数,u(Wa)为工艺准术语W在其右边添加字或词a后组成准工艺术语Wa在工艺内容中出现的次数;
在上述的从属度中MaxL、MaxR中取最大值,在判断它是否大于上下文从属度阀值的下限值,若是,则该组字或词,即准工艺术左边或者右边添加的内容,与准工艺术语关联,他们构成了工艺术语,若否,则准工艺术语就是所求的工艺术语;
重复4.1步,遍历所有准工艺术,得到的就是工艺术语集合
第5步,统计工艺术语组合的使用规律
第5.1步:对基于工艺术语的工序内容分词
第5.1.1步,用Vstr表示字符编码组成所有k×m实矩阵的模式空间,不妨取m=15,k为一个正整数,对于工艺术语集,不考虑术语之间的关系,对工艺术语扩充空格至标准长度,就构成扩展工艺术语字典 L ex = { l ex 1 , l ex 2 , . . . , l ex l } &Subset; V str ;
第5.1.2步:把工序内容聚类集X定义为一个n维字符串,向量Str=[x1,x2,...,xn]T,其中,任意一个x为把一个字符串扩充至标准长度m后形成的向量,用Sub(v,Lex)来表示任意一个x中的工艺术语v对工艺术语字典Lex的关系:
Sub ( v , L ex ) = 1 v &Element; L ex 0 v &NotElement; L ex
第5.1.3步:建立基于工艺术语字典查询以便对工序内容聚类集中的用一个字符串向量表示的工序内容进行分词用的分割矩阵Rn×m,即{aij}Rn×m,其中aij按下式求出:
其中,i为分割矩阵的行,它代表待分词的工序内容中每个字符编码或一组编码在工艺术语字典中的分割情况:能否分割以及分割的程度;j为分割矩阵的列,它表示从待分词的工序内容中依次提取字符编码进行分割判别时对字符串依次进行提取时字符组合的类别,j=1,表示依次逐字提取,j=2,表示一次双字提取,j=3,表示依次每3个字提取,依此类推;这种组合类别用Strt j表示, 其中,◇表示为全部空格组成的字符向量;
Sub(Strt j,Lex)表示对第j列组合中的每一种子组合是否属于工艺术语字典中的工艺术语进行判别, Sub ( Str t j , L ex ) = 1 Str t j &Element; L ex 0 Str t j &NotElement; L ex
(j-1)表示描述分割程度的权重,j=1时,ai1=2;
第5.1.4步:从步骤5.1.3所述的分割矩阵中,从每一行中找出最大的数组成一个向量,然后再把各字符串组成的向量集中的每一个向量,其分割矩阵得出一组分词结果,把各向量分词结果组合为当前工序内容聚类的集合的总分词结果;设定:第一行值为“2”,则说明第一个字符单独分词,当为“4”,则说明应该前两个字分词,下面就可以从第三行开始,当第一行值是“6”,则说明应该前三个字分词,下面就从第四行开始考察,依次类推;
第5.1.5步:通过对使用规律的分析建立一个以各个术语节点,术语导向规律为边的使用网络;
设:对于一个工序内容个数为n的工序内容聚类集,经过上述分词处理后存在一个分词集合,该分词集合用Cprc表示,它由n条有序扩展工序术语串组成,即 C prc = { c prc 1 , c prc 2 , . . . , c prc n } , 其中: c prc = l 1 * l 2 * . . . l r * , 所述任一个l*都包含在由工艺术语集合F和特殊符号集合S组成的扩展工艺术语集合L*,即L*=F∪S;
则:由于工艺内容的表达是连续的,在上下文术语3元依存关系的范围内,术语节点导向概率可以用以下两个参数表示:
1 . p ( y | x ) = fre ( y | x ) &Sigma; c &Element; Y fre ( c | x )
其中 fre ( y | x ) : { x , y &Element; C prc } &RightArrow; [ 0 , m ] , ( m = &Sigma;len ( c prc i ) - 1 , i = 1,2 , . . n ; len ( c prc i ) 表示:分词结果即扩展工艺术语在上述集合中的总量;x为上述分词集合cprc中先出现的扩展工艺术语,y表示为上述分词集合cprc中紧跟在x后出现的集合;fre(y|x)表示在x出现后,y在分词集合中出现的次数;
Figure A20051001113100207
表示:紧跟在扩展工艺术语x后的各个可能出现的扩展术语y在分词集合中出现的总次数;p(x|y)表示:紧跟在扩展工艺术语x后的后续扩展工艺术语y在分词集合中出现的规律
2 . p &prime; ( z | x , y ) = fre &prime; ( z | xy ) &Sigma; c &Element; Z fre &prime; ( c | xy )
z为x、y联合出现下紧跟y的后续工艺术语集合,fre′(z|xy)为扩展工艺术语z在x、y联合出现下在分词集合中Cprc出现的次数; 表示在x、y联合出现下,y的后续扩展工艺术语z在分词集合Cprc中出现的概率;
第6步:工艺录入导航,即在用户录入信息初始位置nstart后,提供特定可信度下的工艺术语链集;
确定一个总成本函数, J m = &Sigma; i = 0 i &le; N f g ( &chi; i ) , 用来表征工艺链路经的总互信息量,Jm越大表明总互信息量越小,其中:
&chi; i = x i - 2 x i - 1 x i , g ( &chi; i ) = &lambda; log ( p ( x i - 2 x i - 1 x i ) p ( x i - 2 ) + p ( x i - 1 ) + p ( x i ) - p ( x i - 2 x i - 1 x i ) ) 为单步成本函数,λ为一正整数,用于增强计算效果,取值2~5;
因为信息表述是连续的,导航提示应该是依据表征能力聚集的原则,即是得到末节点与初始节点有一定的相关度,因此路径末节点对应的自信息量h(xNf)应该不小于某个设定的阈值cf,而且需要加入用户等待时间Tf约束;所以给出不等式: h ( x N f , x ( T f ) ) &le; c f , 其中:
h(x)=-p(x)1og p(x);其中h(x)为自信息量;
根据总成本大小,由小到大依次生成工艺录入导航所必须的工艺链路经集;
应用阶段
第7步:通过网络提取用户当前录入信息内容;
第8步:服务器后台处理模块根据步骤4得到工艺术语字典对录入信息进行分词分析;
第9步:根据步骤8的结果生成上下文检索文件,并参照第6步所生成的工艺录入导航的工艺链路集,生成上下文信息;
第10步:服务器后台处理模块通过网络向客户端显示规整化的工序内容聚类集合。
对该发明实现程序,并以企业工艺文集作测试,测试环境见表1,录入速度效果见附图9。
                              表1.测试环境
            工艺编辑系统            输入法        测试人员
普通录入    开目工艺表格编辑系统    对工艺词汇    机械厂的设计组人员(对
导航录入    国家863项目资助下作     有一定学习    计算机比较熟悉)和实验
            者开发的支撑该录入导    基础的紫光    室在读研究生
            航模块的基于Web的协     输入法2.0
            同工艺设计系统
从图9可以看出导航录入时间相比普通录入有了明显的改进。为更加明确地阐述两种录入效果的比较,依据工艺文档难易划分为五个区间,分别统计列出如表2:
                  表2.区间下两种录入模式录入速度比较
                   非常简单     简单     普通       复杂       非常复杂
                                1~2分
                   <1分钟                2~4分钟    4~5分钟    >5分钟
                                钟
          (86)a   15           17        31          3           20
工艺技
          %b     3.79         9.44      30.43       4.93        51.41
术文集
          %c     16.53        32.04     37.09       38.64       40.94
(1)
          %d     24.92        52.82     61.34       63.36       70.28
          (156)a  16           45        56          18          21
工艺技
          %b     3.01         14.24     37.23       16.73       28.79
术文集
          %c     18.27        22.36     33.53       37.29       39.52
(2)
          %d     26.57        52.42     58.41       64.55       67.66
a是工艺技术文集的总页面数,对应的行是分布在各区间的页面数,b指区间内工艺文档录入时间占总文集录入时间的百分比,c是导航录入时间比普通录入时间减少百分比以录入时间为权重的加权平均,d是导航录入速度比普通录入速度提高百分比以录入时间为权重的加权平均。
从上表可以看出,对于复杂的工艺文档页面录入该方法能够大幅度地提高工艺录入速度(超过50%);而对于简单页面效果也很好;因此可以说它能够很好地提高工艺录入的速度。
附图说明
图1.技术解决方案框架图。
图2.工序内容相似度与转化距离计算示例。
图3.工序内容聚类流程图。
图4.上下文从属度示意图。
图5.分词示例。
说明:对于工序“按划线基准划刨工序线”,该工序中有10个字,按照分词规则可以组成一个10×15的矩阵,由公式(10)可得,ai1=2,所以第一列全部填入“2”,然后从第一行开始,对应于工序中的第一个字“按”,后面紧跟的是“划”,“按划”在术语字典中不存在,则由公式(9)得Sub(v,Lex)=0,代入由公式(10)得到a12=0;下一步,从第二个字“划”开始,对应于矩阵的第二行,因为“划”和后面的“线”组成的词“划线”在术语字典里存在,所以由公式(9)得Sub(v,Lex)=1,代入公式(10)得到a22=4,而“划线基”在术语字典中没有,同样有公式(9)(10)可以确定a23=0;接着就可以看第三行,因为“线基”在术语字典中没有,同样可以确定a32=0,类似地可以把这个矩阵的所有元的值确定,如图中的矩阵所示。由定义4,从每行中找出最大的数,组成一个向量,在本例中的是{2,4,2,4,2,2,2,6,2,2},可以看出不存在分词歧义。然后根据定义5,这个向量对工序进行分词为“按|划线|基准|划|刨|工序线”。
图6.路标导航路径搜索及上下文导航。
说明:术语空间下的路标导航包含节点Nodes(N={ni},i=1,2,...,n)和边Edges(E={ej},J=1,2,...,m),而且每条边存在对应的方向和概率权重,即ej=(ns,ne,r)。给定当前环境状态,开始的节点nstart,以及约束条件cf,寻找一系列按可信度从大到小排列的路径集<P,≤>,其中P={p1,p2,...,pk},每条路径由相关边关联的节点组成。
图7.系统框图。
图8.系统流程图。
图9.录入速度效率图。
具体实施方式
按照图1所示逻辑,分别编写相关模块,然后按照图7所示框架将各模块组成一个完整的系统,需要注意的是:(1)工艺内容提取模块是一个相对灵活的模块,不仅需要给相关电子化工艺文档的格式建立绑定,而且需要提供手工录入的部分;(2)工艺术语提取后,应该提供工艺术语手工修改模块接口;(3)工艺术语录入导航模块,应该提供与输入法集成模块;(4)提供编辑环境的工艺录入信息的提取模块,并根据现有录入信息分析提供排队处理程序。然后将该系统内嵌到现有的工艺编辑系统中。
本方法对应计算机程序分为两个部分:服务端后台处理模块和客户端应用模块。其中服务端后台处理模块驻留在服务器内存中,在系统空闲的时候完成工序内容提取、工序样本空间生成、工序内容预处理、工序内容聚类、工艺术语提取和提炼以及工艺术语使用规律分析等工作;而客户端应用模块为用户提供动态的导航信息,并支持辅助工具(比如术语库手工维护模块,输入法切换模块,和标注公差工具模块等)的集成接口,其框图见附图7,系统流程图见附图8。
工序聚类算例:
设一个工序集中七条工序如下:
工序1:刨13面,留量2(记为g1)                   g1
工序2:刨20面,留量1(记为g2)                   g2
工序3:刨①面,留量0.3(记为g3)                 g3
工序4:镗IV轴第四板墙φ95→φ85(记为g4)        g4
工序5:镗II轴第二板墙φ120→φ112(记为g5)      g5
工序6:以①面定位,找正③面夹紧(记为g6)        g6
工序7:按划线基准划铣刨线(记为g7)              g7
聚类过程可以如下进行:
1)设定模糊指数(m=2),确定聚类相似度阀值σsim=0.8,初始化聚类结果和聚类中心集合C=,V=;
2)在工序集中任取一条工序,不妨顺序提取。取第一条工序g1,则C={C1},C1={g1};V={v1},v1=g1
3)在工序集中任意提取下一条工序,取工序g2,由公式(4)计算g2与V中聚类中心的相似度,即计算g2与g的相似度值,得Sim(g2,v1)=0.929110>σsim,所以g2应该加入聚类C1,即C1={g1,g2},因为这个工序聚类中只有两个工序,所以任何一个都可以作为聚类中心,仍取v1=g1
4)取第三个工序g3,由公式式(4)计算g3与V中聚类中心的相似度,即计算g3与g1中所有聚类中心的相似度值,得Sim(g3,v1)=0.929110>σsim,所以g3应该加入聚类C1,即C1={g1,g2,g3},因为这个工序聚类中已有三个工序,所以需要计算确定一个工序作为聚类中心。
5)确定聚类中心,求得:
                     d1,2=d(Sim(g1,g2))=-log(0.929110)=0.031932,
                     d1,3=d(Sim(g1,g3))=-log(0.903023)=0.044301,
                     d2,3=d(Sim(g2,g3))=-log(0.907076)=0.042356,
则由公式(7)得:
        u1,2=(1/d(g1,g2)2)/(1/d(g1,g2)2+1/d(g1,g3)2)=0.658091,
        u1,3=(1/d(g1,g3)2)/(1/d(g1,g2)2+1/d(g1,g3)2)=0.341909;
        u2,1=(1/d(g2,g1)2)/(1/d(g2,g1)2+1/d(g2,g3)2)=0.637609,
        u2,3=(1/d(g2,g3)2)/(1/d(g2,g3)2+1/d(g2,g1)2)=0.362390;
        u3,1=(1/d(g3,g1)2)/(1/d(g3,g1)2+1/d(g3,g2)2)=0.477566,
        u3,2=(1/d(g3,g2)2)/(1/d(g3,g2)2+1/d(g3,g1)2)=0.522434;
由公式(6)得:
        J1=(u1,2)2*(d1,2)2+(u1,3)2*(d1,3)2=0.000671023897657955874225,
        J2=(u2,1)2*(d2,1)2+(u2,3)2*(d2,3)2=0.000650138716719489131344,
        J3=(u3,1)2*(d3,1)2+(u3,2)2*(d3,2)2=0.000937261774157505631972,
比较J1、J2、J3,可以看出J2最小,选择g2聚类中心,即v1=g2
6)取下一条工序——g4,由公式(4)计算g4与V中聚类中心的相似度,即计算g4与g2(v1)的相似度值,得Sim(g4,v1)=0.258533>σsim,所以根据规则应该构造C2={g4},取v2=g4
7)取下一条工序——g5,由公式(4)计算g5与V中所有聚类中心的相似度,即分别计算g5与v1和v2相似度值,得Sim(g5,v1)=0.258533<σsim,Sim(g5,v2)=0.988633>σsim,所以根据规则,g5应该属于的2组聚类组,即C2={g4,g5},任取一个为聚类中心,仍然取v2=g4
8)取下一条工序g6,分别计算g6与V中所有聚类中心,得Sim(g6,v1)=0.374728<σsim,Sim(g6,v2)=0.123155<σsim,所以可以构造C3={g6},取v3=g6
9)取下一条工序g7,由公式(4)分别计算g7与V中所有聚类中心,得Sim(g7,v1)=0.235294<σsim,Sim(g7,v2)=0.215278<σsim,Sim(g7,v3)=0.145833<σsim,根据规则可以构造C4={g7},取v4=g7
10)遍历完工序集中所有的工序,得到聚类结果集合C={C1,C2,C3,C4}和聚类中心集合V={v1,v2,v3,v4},聚类过程结束。
所实现硬件平台
PC机-P4 2.4G,512M SDRAM,Windows2000 Advanced Server

Claims (1)

1、基于成熟工艺文档的工艺术语提取、规律分析和重用方法,其特征在于,它依次含有以下两个阶段,
学习阶段:它由预存在服务器内存中的服务端后台处理模块依次按以下步骤完成:
第1步:提取工序内容
服务器从电子化工艺文档中提取工序内容,或者手工向服务器录入工序内容;
第2步:工序内容预处理
从工序内容中提取包括工序名称在内的工艺术语,同时对于工序内容中的数字和特殊符号事先设定宏的代号;
第3步:工序内容聚类
第3.1步:构造工序内容聚类集X,设定一个表示模糊的用m表示的指标参数,它表示聚类集X中每一条工艺内容的元素至少可用两个汉字字符,或者符号表示;确定聚类相似度的阀值,用σsim表示;初始化聚类结果集合和聚类中心集合,依次用C=,V=表示;
第3.2步,设定聚类中心的个数r=1,提取任意一条工序内容x0∈X,初始化聚类结果集合,C={C1},C1={x0};聚类中心集合V={v1},v1=x0
第3.3步,设定在聚类相似度阈值σsim控制下的聚类结果为C={C1,C2,....,Cr},其中聚类组Cl是由一组工序内容组成的集合,即Cl={c1,c2,...ck,...,cs},ck∈X,对应的聚类中心集合V={v1,v2,...,vr},vl为聚类组Cl的聚类中心且vl∈Cl
则:对于聚类组Cl的一个分割用隶属函数向量来表达,即:
                 Ul=[ul,k],1≤k≤s
u l , k &Element; [ 0,1 ] , &Sigma; k = 1 s u l , k = 1 - - - - 1 &le; k &le; s
ul,k为聚类组Cl内第k个工序内容的隶属函数;Ul为聚类组Cl内s个工序内容的隶属函数组成的隶属函数向量,
U为聚类结果C内各聚类组Cl的隶属向量的集合,令U(0)为U的初始值;
第3.4步:提取下一条工序内容,分别按算式 Sim ( x i , v l ) = &Sigma; ( a T , b V ) &Element; ( x i &times; v l ) max { z n : v ( z n ) = < a T , b V > } { p ( z n | &phi; ) } 计算xi与聚类中心集合V中所有的聚类中心的相似度值,式中(aT,bV)∈(xi×vl)表示为由xi×vl构成的分词转化的所有可能空间,zn:v(zn)=<aT,bV>表示在xi中的每个分词和所有v1中分词的所有转化空间,aT,bV分别表示工序内容xi、v1经分词处理后的长为T或V的字或词,取其中最大值ξmax,并记录最大值发生时对应的聚类中心编号l:ξmax=max1≤l≤rSim(xi,vl)
第3.5步:判别ξmax是否大于或者等于σsim
若ξmax≥σsim不成立,则构造Cr+1={xi},将Cr+1添加到聚类结果集合C中,vr+1=xi,并将vr+1添加到聚类中心集合V中,置r=r+1;
若ξmax≥σsim成立,则把该工序内容添加到聚类组Cl
第3.6步:对于步骤3.4得到的各个聚类组Cl按下述方法分别计算各个聚类组Cl的聚类中心;
当聚类组Cl中只有两个工序内容时,其中任何一个都可为聚类中心;
当聚类组Cl中有三个或者三个以上工序内容时,按下述步骤求该聚类组Cl的聚类中心:
第3.6.1步按下式计算每两个工序内容gl,gk之间的转化距离,用dl,k表示,dl,k=-log(Sim(gl,gk));
第3.6.2步:按下式计算Ul,k
u l , k = 1 / d l , k 2 / ( m - 1 ) &Sigma; j = 1 j &NotEqual; l s ( 1 / d l , j 2 / ( m - 1 ) ) - - - - 1 &le; k &le; s
第3.6.3步:按下式计算该聚类组中的样本到聚类中心的,用符号Jn(Cl,Ul,vl)表示的加权距离平方和的最小值,
J n ( C l , U l , v l ) = &Sigma; k = 1 s ( u l , k m d l , k 2 ) , 1 &le; m < &infin;
选择使得Jm(Cl,Ul,vl)最小的工序为该组聚类的聚类中心;
第3.6步:再从工序内容集合X中提取下一条工序内容xi+1,按步骤3.4-3.5所述把该工序内容添加到聚类结果集合C中,再在xi+1所在的聚类组中Cl运用步骤3.6重新选择聚类中心;
第3.7步:按步骤3.4-3.6遍历完工序内容集合X中的所有工序内容,则聚类结束,得到聚类结果集合C和聚类中心集合V;
第4步:工艺术语提取
第4.1步(求准工艺术语集合)设定:根据统计规律设定互信息阀值的下限值,用ηmin表示,工序内容集合中的字或词e、f,则:字或词f在工序内容中集合中出现,给字或词e带来的信息量,即互信息量,它表示两个词的关联度,可用式I(e;f)=I(e)-I(e|f)=log(u(e|f)/u(e))表示,其中,u(e)为e在工序内容集合中出现的次数,u(e|f)为f在当前工序中,紧跟在e后面的出现的次数;
u(e),u(e|f)为已知值,统计得出;若I(e;f)>ηmin,则提取词ef,构成准工艺术语;
按步骤4.1遍历工序内容集合中所有的词,得到一个准工艺术语集合;
第4.2步:求工艺术语集合
设定:上述准工艺术语集合中每个准工艺术语在工艺内容集合中与其他字或词的上下文从属度的阀值下限值为ρmin
再设:每条准工艺术语的左从属度,它的取值大小取决于从左侧与上述准工艺术语关联的最长的一组字或词,用LSize=|L|<tl表示,tl表示最长的一组字或词的长度;每条准工艺术语的右从属度,它的取值大小取决于从右侧与上述准工艺术语关联的最长的一组字或词,用RSize=|R|<tr表示,tr表示最长的一组字或词的长度;
则左从属度的最大值为 MaxL = Max a u ( aW ) u ( W ) ;
右从属度的最大值为 MaxR = Max a u ( Wa ) u ( W ) ;
其中,u(W),为W在准工艺术语在该工艺内容中出现的次数,u(aW)为工艺准术语W在其左边添加字或词a后组成准工艺术语aW在工艺内容中出现的次数,u(Wa)为工艺准术语W在其右边添加字或词a后组成准工艺术语Wa在工艺内容中出现的次数;
在上述的从属度中MaxL、MaxR中取最大值,在判断它是否大于上下文从属度阀值的下限值,若是,则该组字或词,即准工艺术左边或者右边添加的内容,与准工艺术语关联,他们构成了工艺术语,若否,则准工艺术语就是所求的工艺术语;
重复4.1步,遍历所有准工艺术,得到的就是工艺术语集合
第5步,统计工艺术语组合的使用规律
第5.1步:对基于工艺术语的工序内容分词
第5.1.1步,用Vstr表示字符编码组成所有k×m实矩阵的模式空间,不妨取m=15,k为一个正整数,对于工艺术语集,不考虑术语之间的关系,对工艺术语扩充空格至标准长度,就构成扩展工艺术语字典 L ex = { l ex 1 , l ex 2 , . . . , l ex l } &Subset; V str ;
第5.1.2步:把工序内容聚类集X定义为一个n维字符串,向量Str=[x1,x2,...,xn]T,其中,任意一个x为把一个字符串扩充至标准长度m后形成的向量,用Sub(v,Lex)来表示任意一个x中的工艺术语v对工艺术语字典Lex的关系:
Sub ( v , L ex ) = 1 v &Element; L ex 0 v &NotElement; L ex
第5.1.3步:建立基于工艺术语字典查询以便对工序内容聚类集中的用一个字符串向量表示的工序内容进行分词用的分割矩阵Rn×m,即{aij}Rn×m,其中aij按下式求出:
其中,i为分割矩阵的行,它代表待分词的工序内容中每个字符编码或一组编码在工艺术语字典中的分割情况:能否分割以及分割的程度;j为分割矩阵的列,它表示从待分词的工序内容中依次提取字符编码进行分割判别时对字符串依次进行提取时字符组合的类别,j=1,表示依次逐字提取,j=2,表示一次双字提取,j=3,表示依次每3个字提取,依此类推;这种组合类别用Strt j表示,
Figure A2005100111310005C3
其中,◇表示为全部空格组成的字符向量;Sub(Strt j,Lex)表示对第j列组合中的每一种子组合是否属于工艺术语字典中的工艺术语进行判别, Sub ( Str t j , L ex ) = 1 Str t j &Element; L ex 0 Str t j &NotElement; L ex
(j-1)表示描述分割程度的权重,j=1时,ail=2;
第5.1.4步:从步骤5.1.3所述的分割矩阵中,从每一行中找出最大的数组成一个向量,然后再把各字符串组成的向量集中的每一个向量,其分割矩阵得出一组分词结果,把各向量分词结果组合为当前工序内容聚类的集合的总分词结果;设定:第一行值为“2”,则说明第一个字符单独分词,当为“4”,则说明应该前两个字分词,下面就可以从第三行开始,当第一行值是“6”,则说明应该前三个字分词,下面就从第四行开始考察,依次类推;
第5.1.5步:通过对使用规律的分析建立一个以各个术语节点,术语导向规律为边的使用网络;
设:对于一个工序内容个数为n的工序内容聚类集,经过上述分词处理后存在一个分词集合,该分词集合用Cprc表示,它由n条有序扩展工序术语串组成,即 C prc = { c prc 1 , c prc 2 , . . . , c prc n } , 其中: c prc = l 1 * l 2 * . . . l r * , 所述任一个l*都包含在由工艺术语集合F和特殊符号集合S组成的扩展工艺术语集合L*,即L*=F∪S;
则:由于工艺内容的表达是连续的,在上下文术语3元依存关系的范围内,术语节点导向概率可以用以下两个参数表示:
1 . p ( y | x ) = fre ( y | x ) &Sigma; c &Element; Y fre ( c | x )
其中fre(y|x):{x,y∈Cprc}→[0,m], m = &Sigma;len ( c prc i ) - 1 , i = 1,2 , . . n ; len(cprc i)表示:分词结果即扩展工艺术语在上述集合中的总量;x为上述分词集合cprc中先出现的扩展工艺术语,y表示为上述分词集合cprc中紧跟在x后出现的集合;fre(y|x)表示在x出现后,y在分词集合中出现的次数; &Sigma; c &Element; Y fre ( c | x ) 表示:紧跟在扩展工艺术语x后的各个可能出现的扩展术语y在分词集合中出现的总次数;p(x|y)表示:紧跟在扩展工艺术语x后的后续扩展工艺术语y在分词集合中出现的规律
2 . p &prime; ( z | x , y ) = fre &prime; ( z | xy ) &Sigma; c &Element; Z fre &prime; ( c | xy )
z为x、y联合出现下紧跟y的后续工艺术语集合,fre′(z|xy)为扩展工艺术语z在x、y联合出现下在分词集合中Cprc出现的次数; &Sigma; c &Element; Z fre &prime; ( c | xy ) 表示在x、y联合出现下,y的后续扩展工艺术语z在分词集合Cprc中出现的概率;
第6步:工艺录入导航,即在用户录入信息初始位置nstart后,提供特定可信度下的工艺术语链集;
确定一个总成本函数, J m = &Sigma; i = 0 i &le; N f g ( &chi; i ) , 用来表征工艺链路经的总互信息量,Jm越大表明总互信息量越小,其中:
&chi; i = x i - 2 x i - 1 x i , g ( &chi; i ) = &lambda; log ( p ( x i - 2 x i - 1 x i ) p ( x i - 2 ) + p ( x i - 1 ) + p ( x i ) - p ( x i - 2 x i - 1 x i ) ) 为单步成本函数,λ为一正整数,用于增强计算效果,取值2~5;
因为信息表述是连续的,导航提示应该是依据表征能力聚集的原则,即是得到末节点与初始节点有一定的相关度,因此路径末节点对应的自信息量h(xNf)应该不小于某个设定的阈值cf,而且需要加入用户等待时间Tf约束;所以给出不等式: h ( x N f , x ( T f ) ) &le; c f , 其中:h(x)=-p(x)log p(x);其中h(x)为自信息量;
根据总成本大小,由小到大依次生成工艺录入导航所必须的工艺链路经集;
应用阶段
第7步:通过网络提取用户当前录入信息内容;
第8步:服务器后台处理模块根据步骤4得到工艺术语字典对录入信息进行分词分析;
第9步:根据步骤8的结果生成上下文检索文件,并参照第6步所生成的工艺录入导航的工艺链路集,生成上下文信息;
第10步:服务器后台处理模块通过网络向客户端显示规整化的工序内容聚类集合。
CNB2005100111310A 2005-01-07 2005-01-07 基于成熟工艺文档的工艺术语提取、规律分析和重用方法 Expired - Fee Related CN100336056C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100111310A CN100336056C (zh) 2005-01-07 2005-01-07 基于成熟工艺文档的工艺术语提取、规律分析和重用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100111310A CN100336056C (zh) 2005-01-07 2005-01-07 基于成熟工艺文档的工艺术语提取、规律分析和重用方法

Publications (2)

Publication Number Publication Date
CN1641633A true CN1641633A (zh) 2005-07-20
CN100336056C CN100336056C (zh) 2007-09-05

Family

ID=34875472

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100111310A Expired - Fee Related CN100336056C (zh) 2005-01-07 2005-01-07 基于成熟工艺文档的工艺术语提取、规律分析和重用方法

Country Status (1)

Country Link
CN (1) CN100336056C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110083B (zh) * 2006-07-19 2011-08-17 株式会社理光 文档检索装置及文档检索方法
CN102169480A (zh) * 2011-03-31 2011-08-31 西北工业大学 一种对多级字符串序列进行编码的方法
CN102184167A (zh) * 2011-05-25 2011-09-14 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN102144229B (zh) * 2008-10-02 2013-09-04 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
CN104133812A (zh) * 2014-07-17 2014-11-05 北京信息科技大学 一种面向用户查询意图的汉语句子相似度分层计算方法及装置
CN107633006A (zh) * 2017-08-09 2018-01-26 联动优势科技有限公司 一种词典格式生成方法及电子设备
CN108021107A (zh) * 2016-11-01 2018-05-11 株式会社日立制作所 生产辅助系统、生产辅助方法以及生产辅助程序
CN108038106A (zh) * 2017-12-22 2018-05-15 北京工业大学 一种基于上下文语义的细粒度领域术语自学习方法
CN105224953B (zh) * 2015-10-09 2018-07-03 天津大学 一种机床零件加工工艺规程中知识提取与演化的方法
CN111522998A (zh) * 2020-04-15 2020-08-11 支付宝(杭州)信息技术有限公司 一种图模型的生成方法、装置及设备
CN112463955A (zh) * 2020-11-25 2021-03-09 浪潮商用机器有限公司 一种文本摘要生成方法及相关装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
JP3670629B2 (ja) * 2001-11-01 2005-07-13 松下電器産業株式会社 文書分類システム
JP2003223454A (ja) * 2002-01-29 2003-08-08 Mitsubishi Electric Corp テンプレート提供システム、テンプレート提供方法及びプログラム
CN1145900C (zh) * 2003-03-04 2004-04-14 杨炳儒 一种Web挖掘系统的构造方法
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110083B (zh) * 2006-07-19 2011-08-17 株式会社理光 文档检索装置及文档检索方法
CN102144229B (zh) * 2008-10-02 2013-09-04 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
CN102169480A (zh) * 2011-03-31 2011-08-31 西北工业大学 一种对多级字符串序列进行编码的方法
CN102169480B (zh) * 2011-03-31 2012-08-29 西北工业大学 一种对多级字符串序列进行编码的方法
CN102184167A (zh) * 2011-05-25 2011-09-14 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN102184167B (zh) * 2011-05-25 2013-01-02 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN104133812A (zh) * 2014-07-17 2014-11-05 北京信息科技大学 一种面向用户查询意图的汉语句子相似度分层计算方法及装置
CN104133812B (zh) * 2014-07-17 2017-03-08 北京信息科技大学 一种面向用户查询意图的汉语句子相似度分层计算方法及装置
CN105224953B (zh) * 2015-10-09 2018-07-03 天津大学 一种机床零件加工工艺规程中知识提取与演化的方法
CN108021107A (zh) * 2016-11-01 2018-05-11 株式会社日立制作所 生产辅助系统、生产辅助方法以及生产辅助程序
CN108021107B (zh) * 2016-11-01 2020-12-11 株式会社日立制作所 生产辅助系统、生产辅助方法以及生产辅助程序
CN107633006A (zh) * 2017-08-09 2018-01-26 联动优势科技有限公司 一种词典格式生成方法及电子设备
CN107633006B (zh) * 2017-08-09 2020-10-13 联动优势科技有限公司 一种词典格式生成方法及电子设备
CN108038106A (zh) * 2017-12-22 2018-05-15 北京工业大学 一种基于上下文语义的细粒度领域术语自学习方法
CN108038106B (zh) * 2017-12-22 2021-07-02 北京工业大学 一种基于上下文语义的细粒度领域术语自学习方法
CN111522998A (zh) * 2020-04-15 2020-08-11 支付宝(杭州)信息技术有限公司 一种图模型的生成方法、装置及设备
CN111522998B (zh) * 2020-04-15 2023-09-26 支付宝(杭州)信息技术有限公司 一种图模型的生成方法、装置及设备
CN112463955A (zh) * 2020-11-25 2021-03-09 浪潮商用机器有限公司 一种文本摘要生成方法及相关装置
CN112463955B (zh) * 2020-11-25 2022-10-11 浪潮商用机器有限公司 一种文本摘要生成方法及相关装置

Also Published As

Publication number Publication date
CN100336056C (zh) 2007-09-05

Similar Documents

Publication Publication Date Title
CN100336056C (zh) 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
CN1145901C (zh) 一种基于信息挖掘的智能决策支持构造方法
CN1281191A (zh) 信息检索方法和信息检索装置
CN1725295A (zh) 语音处理装置、语音处理方法、程序、和记录介质
CN1171162C (zh) 基于字符分类检索字符串的装置和方法
CN1310825A (zh) 用于分类文本以及构造文本分类器的方法和装置
CN1740934A (zh) 生产管理系统
CN1536483A (zh) 网络信息抽取及处理的方法及系统
CN101042868A (zh) 群集系统、方法、程序和使用群集系统的属性估计系统
CN1151465C (zh) 利用候选表进行分类的模式识别设备及其方法
CN1578954A (zh) 机器翻译
CN1319836A (zh) 转换表达方式的方法和装置
CN1794233A (zh) 一种网上用户交互问答方法及其系统
CN1219266C (zh) 一种实现多路对话的人-机汉语口语对话系统的方法
CN1151573A (zh) 声音识别方法,信息形成方法,声音识别装置和记录介质
CN1975858A (zh) 会话控制装置
CN1465018A (zh) 机器翻译技术
CN1495639A (zh) 文本语句比较装置
CN1145900C (zh) 一种Web挖掘系统的构造方法
CN1871563A (zh) 加工信息产生装置、程序和加工信息产生方法
CN1869989A (zh) 用于从非结构化描述生成结构化表示的系统和方法
CN1855103A (zh) 特定元素、字符串向量生成及相似性计算的装置、方法
CN1696933A (zh) 基于动态规划的文本概念关系自动提取方法
CN1741012A (zh) 文本检索装置及方法
CN1647069A (zh) 对话控制系统和对话控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070905

Termination date: 20130107

CF01 Termination of patent right due to non-payment of annual fee