CN101655866A

CN101655866A - 科技术语的自动化抽取方法

Info

Publication number: CN101655866A
Application number: CN200910162380A
Authority: CN
Inventors: 王进; 张素兰; 贾学杰; 任丽; 王永生; 张迁; 王婷婷
Original assignee: Beijing Zhongxian Electronic Technology Development Center
Current assignee: Beijing Zhongxian Electronic Technology Development Center
Priority date: 2009-08-14
Filing date: 2009-08-14
Publication date: 2010-02-24
Anticipated expiration: 2029-08-14
Also published as: CN101655866B

Abstract

一种利用计算机对中文专利文献科技术语自动识别和人工辅助抽取的方法。本方法是基于词性标注的基本信息，采用基于规则的手段，从汉语词组构词法的角度出发，自动判别并抽取出可能成词的中文术语，并在人工辅助的基础上，对术语真实性进行判断和确认。主要步骤包括：按照领域建立不同的专利文献库；以特定专利文献库为训练语料库提取重复串，用基础词汇对重复串进行切分和词性标注，然后利用中文的词法规则，对重复串的边界进行反复检验，直到可接受为候选术语为止。为进一步核实候选术语，可再由人工辅助确认。

Description

科技术语的自动化抽取方法

技术领域

本发明涉及一种利用计算机对科技术语自动识别和抽取的方法，特别是涉及一种利用计算机对中文专利文献科技术语自动识别和人工辅助抽取的方法。

背景技术

随着信息技术的发展，人们掌握的科技文献越来越多，而手工进行加工处理显然已经成为不可能，因此自动化技术的引入是必然的趋势。然而，要对这些信息进行自动文摘、自动标引、自动分类甚至是机器翻译等加工处理，科技术语是一大障碍。自动识别并抽取文献中的科技术语，是一件非常紧迫、也是一件非常有意义的工作

中国专利申请03148989.3公开了一种从双语语料库中自动抽取多词翻译等价单元的方法。该发明方法采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准；在对齐的过程中同时识别多词单元。该发明方法的改进使得算法能有效地同时抽取高频和低频双语多词翻译等价单元，提高抽取的正确率和降低计算复杂度。该方法是一种基于共现概率的方法，而且仅限于中英对齐语料库，并没有对中文文献进行深入的研究。

中国专利中请200710121839.0公开了一种专业术语抽取方法和系统，按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中；而后以划分后的不同领域的专利文献库，组成语料库，并根据专业术语的特点，从语料库中抽取所包含的专业术语。该发明还提出了一种专业术语抽取系统。采用本发明的方法和系统，不仅可以改进专业术语的提取结果，还可以把改进的规则和概率应用到下次提取中，以提高准确率。但是，此方法没有加入汉语本身的一些成词规则，仍是一种基于频次等的概率方法，准确率达到一定程度的时候就会很难有所突破，瓶颈明显。

发明内容

本发明提供的方法是基于词性标注的基本信息，采用基于统计和基于规则的双重手段，并以汉语词组构词法的角度出发，自动判别并抽取出可能成词的中文术语，并在人工辅助的基础上，对术语进行精细加工和收集。

与普通词汇相比，科技术语具有以下一些特征：

科技术语主要是名词性的组合型词组；

科技术语主要由实词和实词性语素构成；

科技术语具有普遍性，重复出现的几率很高；

科技术语具有单义性，与应用领域密切相关；

基于以上特点，本发明提出一种科技术语抽取方法，包括以下步骤：

步骤A，按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中；

步骤B，以划分后的不同领域的专利文献库，组成语料库，并根据科技术语的特点，从语料库中抽取所包含的科技术语。

所述科技术语的特点包括字符串重复出现的频次、字符串分词信息的完整度、字符串成词概率、在文献中出现位置等因素的综合。

所述方法中的语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成。

步骤C，将自动抽取出的术语，组成术语库，再由人工辅助确认。

所述步骤B中，进一步包括以下步骤：

步骤B1，以专利领域文献库为单位，根据统计的方法，寻找重复出现的字串，并记录重复字串的特征。

所述重复字符串的特征包括字符串的出现的文档率、总频次、出现位置。

步骤B2，根据文档率和总频次以及出现位置计算重复串的特征值，计算方法如下：特征值分为两部分，文档内特征值(w_i)和文档间特征值(w_g)。文档内特征值由文档内部的分布情况计算，文档间特征值主要根据重复串在文档集合中出现的情况计算。最后的特征值为二者的乘积：w＝w_i×w_g

文档内特征值

由于专利文本具有明确的篇章结构，不同的章节具有不同的重要性，因此，我们可以对每一个章节进行主观评价特征值，那么一个重复串在全文的特征值(即文档内特征值)就可以是由若干个章节内的特征值(w_ip)的总和。

w_{i} = Σ_{p = 1}^{P} w_{ip}

我们主要研究在一个章节内的特征值分配方案。假设一个章节的特征值为w_p，那么重复串在该章节内的特征值可表示为：

w_ip＝w_ipf×(1+w_ipd)×w_p

其中w_ipf为词频特征值，w_ipd为共现因子。

词频特征值

在一个章节内，词的频率代表一个词语的特征值，即，频率越高，特征值越大，即：

w_{ipf} = f_{ip} / Σ_{j = 1}^{n} f_{ip}

共现因子

同时，我们对章节内，对词语的共现程度进行评估。假设两个重复串共现距离分别是d1，d2，d3……dm。

那么两个词语的共现因子可以定义为：

w_{ipd} = Σ_{j = 1}^{m} \frac{1}{d_{j}}

文档间特征值

文档间特征值意味着：如果某重复串的分布在文档集合中是均匀的，说明该重复串在很多文本中出现，故认为其代表某一文本的能力较弱，该重复串的文档间特征值应为0；如果该词只在一个文本中出现，这时认为该重复串代表这一文本的能力强，其文档间特征值则最大。

采用均方差来评估一个重复串在各个文档中的分布情况：

假设重复串T在文档集合中的特征值分别是w_k(k＝1，2，...|D|)。现在主要评估这些特征值在各个文档中均衡分布情况。利用均方差的特性，计算特征值的分布情况：

w_{g} = \frac{1}{| D |} Σ_{k = 1}^{| D |} {(w_{k} - \overset{&OverBar;}{w})}^{2}

也就是说w_g越大，那么该重复串在各篇文档中的特征值差异性很大，如果在各篇分布均匀，那么w_g＝0，则该重复串将从术语库中排出。考虑到重复串空间稀疏问题，可简化为：

w_{g} = \frac{1}{| D |} (Σ_{k = 1}^{| D_{i} |} {(w_{k} - \overset{&OverBar;}{w})}^{2} + (| D | - | D_{i} |) {\overset{&OverBar;}{w}}^{2})

步骤B3，设定一阈值，将小于该阈值的重复串删除。

所述方法中的阈值由语料训练得到。

步骤B4，对重复串进行分词，获取其中的实词串。

所述方法中的实词包括名词、动词、形容词、副词词类。

步骤B5，结合词法规则，对实词串进行头部和尾部校验，以进一步确定术语的合法边界，直到头部和尾部均校验完毕。

本发明还公开了一种科技术语抽取系统，用于从文献中抽取科技术语，包括：

领域划分模块，用于按照文献所属领域的不同将文献划分到不同领域的文献库中；

术语抽取模块，用于以划分后的不同领域的文献库，组成语料库，并根据专利术语的特点，从语料库中抽取所包含的科技术语。

所述系统中的语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成。

所述术语抽取模块包括第一过滤模块，以及第二过滤模块、第三过滤模块和第四过滤模块四个中的至少一个；

所述第一过滤模块，用于在语料库中进行检索，依据所述第一阀值，将语料库中出现次数小于所述第一阀值的重复串删除，保留出现次数多于第一阀值的重复串，作为候选字符串，并记录所述重复串在语料库中出现的次数；【重复串】

所述第二过滤模块，用于统计每个重复串的左右两边所相邻的不同的字或词的数目，并以其中数值较小的作为一个字符串分词信息完整度的对比值；同时，设定一第二阀值，将字符串分词信息完整度的对比值的数值小于所述第二阀值的重复串删除；【切头切尾】

所述第三过滤模块，用于分别统计重复串的串首字和串尾字的位置成词概率；同时，设定一个第三阀值，将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除；【去头去尾】

所述第四过滤模块，用于设定一规则库，如果保留下来的重复串满足了所述规则库中的任意一条规则，就将其删除。【词组规则】

所述系统中的第一阀值、第二阀值、位置成词概率和第三阀值是由语料训练得来的。

所述第一阀值、第二阀值、位置成词概率和第三阀值的获取，是以历史训练的语料库为基础，分别通过第一过滤模、第二过滤模、第三过滤模块抽取出所有的重复串，并和人工从该语料中抽取出的术语数量做对比，其比值就设为第一阀值、第二阀值、位置成词概率和第三阀值。

所述第三过滤模块，还用于在得到的过滤结果中，如果发现以一字符为首字或尾字的垃圾串比较多于预设值，则设定将该字的位置成词概率调低，并删除所述以一字符为首字或尾字的垃圾串。

所述第四过滤模块还用于，在得到的过滤结果中，如果发现包含一字符的垃圾串出现的次数多于预设值，则在所述规则库中增加设定相应的规则，并删除包含所述字符的重复串。

所述系统还包括一第五过滤模块，用于从所述重复串中，删除在一通用词典库中出现过的重复串。

本发明的有益效果是：在双语词典编辑和中文检索索引编制中，都会存在自动分词粒度过小和分词不准确的问题，从而影响了检索的准确性，并造成了大量的未登录词。采用在基于词典的分词后，采用规则方式和人工辅助方式优化未登录词提取的技术，可以显著提高文本挖掘中新术语的发现数量，有利于信息检索和查全率和查准率，并有利于双语翻译词典的编辑和收录。

附图说明

图1为本发明的结构示意图。

图2为本发明核心程序流程图。

具体实施方式

以下结合中国专利文献科技术语自动提取的实施例，进一步详细说明本发明的方法。

实施例一；

本具体实施方式描述的是对中文专利中具有比较普遍使用的名词性词组进行自动提取，所涉及的领域包括：安全、地质、电力、房地产、纺织、航空、核科学、化工、机械、计算机、建筑、交通、军事、科、旅游、能源、农业、生物、生物库、通信、物理、冶金、医学、质检等24个领域。

如图1所示，在本实施例中，对科技术语提取包含以下几个步骤：

领域分选

专利具有IPC，对于专利来讲，主IPC体现了专利的适用领域，以IPC将专利分别建立不同的专利文献库。科技术语一般具有领域相关性，建立专利文献库的主要目的是发现行业内常用的科技术语。下面以化工领域专利文献库为例进行实施例介绍。

建立重复串

采用统计的方法，在特定领域的专利文献库中建立重复串，并按照特定的公式计算出特征值，具体计算过程如下：

首先对单篇专利的文本进行基础词切分，形成带有词性标注的词语序列。切分所用的基础词由通用词和用户词两部分组成。当前所用的基础词切分方法是采用从后向前最大匹配法，即从字符串尾部取字，到基础词库获取以该字为尾字的所有词条，并一一和字符串比较，取其中可匹配的最大词条作为切分结果，然后跳过该匹配部分，取出下一个未经匹配的尾字，重复匹配过程，直到字符串出头为止。本方法所用基础词库的词语词性符号如下：

名词	n	动词	v	语素	g
名词	n	动词	v	语素	g	方位词	f	形容词	a	副词	d

数词	m	状态词	z	介词	p
数词	m	状态词	z	介词	p	量词	q	助词	u	连词	c
代词	r	外来词	e	不可识字段	EX	量词	q	助词	u	连词	c
代词	r	外来词	e	不可识字段	EX					内嵌型术语	TM

现在切分如下一段摘要：

“本发明涉及一种三元聚合纳米乳液的制备方法，所述的纳米乳液由含氢聚硅氧烷、苯乙烯、丙烯酸丁酯、甲基丙烯酸等三元聚合而成，在聚合过程中加入第2种子乳液，加入第3种子乳液，制备出具有三元分散粒径分布的乳液，其特征是：本工艺技术归纳溶液聚合、乳液聚合中用三次加料法生成纳米涂料乳液。”

切分的结果为：

根据以上切分结果，寻找重复串，并统计各个重复串在本章节内的频次以及共现距离。

重复串	频次	三元	纳米乳液	聚合	纳米	乳液	三元聚合
重复串	频次	三元	纳米乳液	聚合	纳米	乳液	三元聚合	三元	3	---
纳米乳液	2	2	---					三元	3	---
纳米乳液	2	2	---					聚合	5	1，1	---	---
纳米	2	2	0，0	1	----			聚合	5	1，1	---	---
纳米	2	2	0，0	1	----			乳液	7	3	0，0	2	1，1.2	----
三元聚合	2	0，0	1	0	1	2	----	乳液	7	3	0，0	2	1，1.2	----

现在对专利按照章节不同分配不同的权重：标题-0.2，摘要-0.4，主权项-0.1，正文-0.3。对于本摘要，根据前面所介绍的方法，计算重复串在指定章节中的权重：

w_ip＝w_ipf×(1+w_ipd)×w_p (1)

w_{ipf} = f_{ip} / Σ_{j = 1}^{n} f_{ip} - - - (2)

w_{ipd} = Σ_{j = 1}^{m} \frac{1}{d_{j}} - - - (3)

由三个式于计算得到本摘要中6个重复串的权重：

重复串	章节内权重
重复串	章节内权重	三元	0.88
纳米乳液	0.235	三元	0.88
纳米乳液	0.235	聚合	0.336
纳米	0.523	聚合	0.336
纳米	0.523	乳液	0.150
三元聚合	0.357	乳液	0.150

同样，对专利的其他章节做同样的处理，并得到其他章节的重复串及其权重。再按照公式计算全文的特征值：

w_{i} = Σ_{p = 1}^{P} w_{ip} - - - (4)

比如，以化工领域专利为例，抽取的重复串的特征值。

重复串	特征值	重复串	特征值
重复串	特征值	重复串	特征值	油磺酸盐	0.034	乙草胺	0.254
烷基芳基化合物	0.022	分散剂	0.040	油磺酸盐	0.034	乙草胺	0.254
烷基芳基化合物	0.022	分散剂	0.040	天然羧酸盐	0.032	茬作物	0.030
低碳	0.017	活性组分	0.019	天然羧酸盐	0.032	茬作物	0.030
低碳	0.017	活性组分	0.019	烷基苯磺酸盐	0.030	津固体	0.045
mNm数量级	0.034	乙草胺液体	0.014	烷基苯磺酸盐	0.030	津固体	0.045
mNm数量级	0.034	乙草胺液体	0.014	表面活性剂	0.018	稳定剂木质索	0.035

烷基芳基磺酸盐	0.142	-30％甲草胺	0.035
烷基芳基磺酸盐	0.142	-30％甲草胺	0.035	复合驱油体系	0.076	玉米产量	0.034
石油磺酸盐	0.034	乳合剂	0.045	复合驱油体系	0.076	玉米产量	0.034
石油磺酸盐	0.034	乳合剂	0.045	金属钝合剂配方	0.064	醇螯	0.044
金属钝合剂	0.079	重量百分数	0.019	金属钝合剂配方	0.064	醇螯	0.044
金属钝合剂	0.079	重量百分数	0.019	氧化锑溶胶	0.044	甲草胺	0.041

建立实词串

从以上步骤取得的重复串中获取特征值较高的字串，根据需要，设定最小特征值为0.030；那么，小于最小特征值的重复串将被删除。

大于最小特征值的重复串，再按照基本词表所列词语和词性，并在切分的结果中，寻找连续的实词组成的片段，这里要求实词串至少由2个实词组成。

如：“mNm数量级”被切分成“

”。从其中可以获得实词串“

”。

又如：“金属钝合剂配方”被切分成“

”。从其中可以获得实词串“

”。

再如：“低碳”被切分成“

”。从其中可以获得实词串“

”，由于其中只内含1个实词，因此，将从重复串中删除。

实词串检验

按照中文词法结构规则，对实词串的首字和尾字进行删除。

如：实词串“α化发芽糙米膨化粉制备方法”，进行切分的结果：

“

”

根据中文词法规则“科技术语尾部不能出现抽象的名词”，因此，可以去掉“制备方法”，最终形成术语“α化发芽糙米膨化粉”。

经过以上步骤获取的科技术语，即具有普遍性，又具有明显的领域针对性，基本上具有实用价值，为了切实做到科技术语的科学性，将提取到的术语，还可以通过一定的人工方式，进行核查，并将适合的术语收录到正式的术语库中，术语库的术语将成为下次训练的基本词表。

实施例二：

本具体实施方式描述的是对中文专利自动提取主题词，抽取范围主要基于各个专利文献的摘要内容。由于所涉及的内容较少，省去了基于领域统计的环节，直接依靠词法规则来进行自动识别和抽取。本具体实施方式包含以下几个步骤：

词语切分

按照基本词表所列词语和词性，对专利文献的摘要进行切分。比如：

寻找实词串

从第1步骤切分的章节中，获取长度至少为2个实词的实词串、实词是指名词、动词、形容词、副词、方位词及其短语，不包含数词、介词、连词、助词等等，在实词串中的数词，如果置于圆括号内，则视为文献引用编号，可以被忽略而跳过。对于上面的摘要，可以分析出以下一些实词串：

实词串检验

按照中文词法结构规则，对实词串进一步做精密的检查。

如：实词串“

”，根据中文词法规则“科技术语中不能有动补式合成动词”，该实词串含有“造成”一词为动补合成词，因此，应该从该串中删除，这样该串将分成两个新的实词串“

”，但是，这两个实词串的实词个数均为1，不具备组合原则，将不收入术语库。经过以上分析，实词串“

”，将没有任何子串成为术语。

只有完全通过所有的词法构成规则的实词串，才成为摘要的主题词。通过以上步骤，基本上可以不根据统计方法，也不根据领域信息，就能够直接从专利文献的摘要中抽取出专利文献的主题词。

Claims

1、一种科技术语抽取方法，包括以下步骤：

步骤B，以划分后的不同领域的专利文献库，组成语料库，并根据科技术语的特点，从语料库中抽取所包含的科技术语；

2、如权利要求1所述的方法，其特征在于：

所述语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成；

3、如权利要求1所述的方法，其特征在于所述步骤B中，进一步包括以下步骤：

步骤B1，以专利领域文献库为单位，根据统计的方法，寻找重复出现的字串，并记录重复字串的特征；

步骤B2，根据文档率和总频次以及出现位置计算重复串的特征值，计算方法如下：特征值分为两部分，文档内特征值w_i和文档间特征值w_g；

步骤B3，设定一阈值，将小于该阈值的重复串删除；

所述方法中的阈值由语料训练得到；

步骤B4，对重复串进行分词，获取其中的实词串；

所述方法中的实词包括名词、动词、形容词、副词词类。；

步骤B5，结合词法规则，对实词串进行头部和尾部校验，以进一步确定术语的合法边界，直到头部和尾部均校验完毕；

文档内特征值由文档内部的分布情况计算，文档间特征值主要根据重复串在文档集合中出现的情况计算，所述重复字符串的特征包括字符串的出现的文档率、总频次、出现位置，最后的特征值为二者的乘积：w＝w_i×w_g。

4、如权利要求3所述的方法，其特征在于：

所述重复字符串的特征值是由若干章节内的特征值的总和为：

w_{i} = Σ_{p = 1}^{P} w_{ip};

所述若干章节之一的重复串特征值为：

w_ip＝w_ipf×(1+w_ipd)×w_p

其中，w_p为所述章节的特征值，w_ipf为词频特征值，w_ipd为共现因子；

在一个章节内，词频特征值代表一个词语的特征值，即，频率越高，特征值越大，即：

w_{ipf} = f_{ip} / Σ_{j = 1}^{n} f_{jp};

在一个章节内，用共现因子对词语的共现程度进行评估，假设两个重复串共现距离分别是d1，d2，d3......dm，那么两个词语的共现因子可以定义为：

w_{ipd} = Σ_{j = 1}^{m} \frac{1}{d_{j}} .

5、如权利要求2所述的方法，其特征在于：

文档间特征值表示如果某重复串的分布在文档集合中是均匀的，说明该重复串在很多文本中出现，故认为其代表某一文本的能力较弱，该重复串的文档间特征值应为0；如果该词只在一个文本中出现，这时认为该重复串代表这一文本的能力强，其文档间特征值则最大。

6、如权利要求2所述的方法，其特征在于：

采用均方差来评估一个重复串在各个文档中的分布情况：

假设重复串T在文档集合中的特征值分别是w_k(k＝1，2，...|D|)，要评估这些特征值在各个文档中均衡分布情况。利用均方差的特性，计算特征值的分布情况：

w_{g} = \frac{1}{| D |} (Σ_{k = 1}^{| D_{i} |} {(w_{k} - \overset{&OverBar;}{w})}^{2} + (| D | - | D_{i} |) {\overset{&OverBar;}{w}}^{2}) .

7、一种科技术语抽取系统，用于从文献中抽取科技术语，包括：

术语抽取模块，用于以划分后的不同领域的文献库，组成语料库，并根据专利术语的特点，从语料库中抽取所包含的科技术语；

术语库库组成模块，用于将自动抽取出的术语，组成术语库，再由人工辅助确认。

8、如权利要求7所述的系统，其特征在于：

所述第一过滤模块，用于在语料库中进行检索，依据所述第一阀值，将语料库中出现次数小于所述第一阀值的重复串删除，保留出现次数多于第一阀值的重复串，作为候选字符串，并记录所述重复串在语料库中出现的次数；

所述第二过滤模块，用于统计每个重复串的左右两边所相邻的不同的字或词的数目，并以其中数值较小的作为一个字符串分词信息完整度的对比值；同时，设定一第二阀值，将字符串分词信息完整度的对比值的数值小于所述第二阀值的重复串删除；

所述第三过滤模块，用于分别统计重复串的串首字和串尾字的位置成词概率；同时，设定一个第三阀值，将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除；

所述第四过滤模块，用于设定一规则库，如果保留下来的重复串满足了所述规则库中的任意一条规则，就将其删除。

9、权利要求8所述的系统，其特征在于：

所述系统中的第一阀值、第二阀值、位置成词概率和第三阀值是由语料训练得来的；

所述第一阀值、第二阀值、位置成词概率和第三阀值的获取，是以历史训练的语料库为基础，分别通过第一过滤模、第二过滤模、第三过滤模块抽取出所有的重复串，并和人工从该语料中抽取出的术语数量做对比，其比值就设为第一阀值、第二阀值、位置成词概率和第三阀值；

所述第三过滤模块，还用于在得到的过滤结果中，如果发现以一字符为首字或尾字的垃圾串比较多于预设值，则设定将该字的位置成词概率调低，并删除所述以一字符为首字或尾字的垃圾串；

10、权利要求7所述的系统，其特征在于：

所述系统还包括第五过滤模块，用于从所述重复串中，删除在一通用词典库中出现过的重复串。