CN104063382A

CN104063382A - 面向油气管道领域的多策略融合的标准术语处理方法

Info

Publication number: CN104063382A
Application number: CN201310088217.8A
Authority: CN
Inventors: 刘冰; 潘腾; 黄维和; 税碧垣; 刘艳双; 李云杰; 张妮; 吴凯旋; 王禹钦
Original assignee: China Petroleum and Natural Gas Co Ltd
Current assignee: China Oil and Gas Pipeline Network Corp
Priority date: 2013-03-19
Filing date: 2013-03-19
Publication date: 2014-09-24
Anticipated expiration: 2033-03-19
Also published as: CN104063382B

Abstract

本发明是一种面向油气管道领域的多策略融合的标准术语处理方法，涉及语言分析和管道系统技术领域。其特征在于该方法主要分为以下三个模块：1）油气管道领域语料预处理及文本分词结果优化；2）分别通过单一算法以及多种算法组合的形式实现术语构建；3）通过总结的规则对获得的术语进行过滤，剔除垃圾词语和常规的词语，优化术语处理的结果；总体流程为：1）油气管道领域语料预处理及语料分词结果优化；2）油气管道领域术语构建方法；3）油气管道领域术语构建优化。本发明提高了分词准确率，提高了术语提取的精确率和最终相关术语的技术领域。

Description

面向油气管道领域的多策略融合的标准术语处理方法

技术领域

本发明是一种面向油气管道领域的多策略融合的标准术语处理方法，涉及语言分析和管道系统技术领域。

背景技术

专业术语作为特定领域中对特定事物或概念的统一称谓，具有一定的公认度、领域性和稳定性。如油气管道领域中的“压力测试”和“卧式压缩机”等均属于专业术语。目前，在油气管道领域中缺少国家或行业制定的专业术语标准，且该领域的术语提取工作均是采用人工标注的方法。但人工总结术语一方面工作量大，耗费大量的人力；另一方面标准难以统一，存在歧义现象。因此，如何利用计算机客观识别并高效地构建专业术语，已经成为快速分析和理解领域文本过程的一项重要工作。

观察发现，中文专业术语具有如下特性：构成专业术语的各个组成部分之间结合较为紧密，并且有一定的词性组合规律；由于专业术语具有较强的领域性，因此相对一般文本而言，其在对应领域文本中的出现频率较高，而且在对应领域的各个文本中出现的频率分布较均匀。针对以上特征，目前专业术语的处理方法主要分为三种：基于语言规则、基于语料统计以及将规则与统计相结合的方法。

基于语言规则的方法是通过预先观察语料，人为设定规则模版，然后基于规则模版抽取语料库中与之相匹配的词语作为候选领域术语。如1999年Frantzi和Ananiadou等人利用术语的上下文信息，提出利用参数C-value和NC-value来抽取术语。通过对文本进行词性分析，利用不同词性的组合规则得到候选术语字串，如“N+N+N”或“V+N+N”，其中“N”表示名词，“V”表示动词，如专业术语“地理信息系统”的词性序列即为“N+N+N”。利用规则的方法处理专业术语具有准确率高、计算量小的优点，不足之处在于很难制定一个完备的规则集来穷尽所有语言现象，而且在不同的专业领域中，术语的构建规则并不具有通用性，且当规则超过一定数量级时，还需要额外考虑多个规则之间的冲突。因此，采用制定语言规则的方法会导致整体的召回率偏低，系统的适应性和可移植性较差。

基于语料统计的方法通常是从大规模的领域文本语料中统计用词的规律从而发现领域术语，如2007年Rezgui提出采用计算相关词的TF-IDF值的方法来计算相关文本中的候选概念，该方法先计算相关词语在前景语料和背景语料出现的次数和文档数，通过计算TF-IDF值来抽取术语，这种方法使那些具有前景语料特点的单词获得较高权重，使得那些常用普通词受到抑制。采用统计方法的优势在于不受领域的限制，方法具有很强的移植性，但是受限于领域语料规模，而且统计过程中会涉及许多新的子问题，如串频统计、子串归并、短语粘合度的计算、领域相关度的衡量等等，这些新问题的出现一方面直接增加了计算量，另一方面它们的处理效果会间接影响最终的术语构建性能。

因此，目前主流的专业术语抽取算法是将规则与统计相结合，如先采用统计方法从专业语料中抽取足够多的候选术语，再通过人为观察制定相应的规则进行准确的过滤和性能的优化等。将统计与规则方法相融合，旨在利用基于规则方法的高准确率和基于统计方法的高召回率，在简化和细化任务的同时共同提高术语构建性能。

CN102360383A公开了一种面向文本的领域术语与术语关系抽取方法，但效果并不理想。

发明内容

本发明的目的是发明一种客观有效的辅助人工对术语筛选的面向油气管道领域的提高分词准确率、提高术语提取的精确率、提高最终相关术语的技术领域的面向油气管道领域的多策略融合的标准术语处理方法。

本方法主要分为以下三个模块：1）油气管道领域语料预处理及文本分词结果优化；2）分别通过单一算法以及多种算法组合的形式实现术语构建；3）通过总结的规则对获得的术语进行过滤，剔除垃圾词语和常规的词语，优化术语处理的结果。

图1即是本发明的总体流程图。总体流程为：

1）油气管道领域语料预处理及语料分词结果优化

油气管道领域文本；

对语料格式进行转换；

进行ICTCLAS分词；

对分词进行优化；

进行噪音过滤；

得分词结果；

2）油气管道领域术语构建方法

得分词结果后，加入第三方语料后进行组合算法、TF-IDF算法、C-MI算法和RD算法；

进行术语构建；

3）油气管道领域术语构建优化

术语构建后，候选术语；

进行规则过滤；

建成标准术语数据库。

下面分别对以上三大模块的具体实现方法给予详细说明。

1.油气管道领域语料预处理及分词结果优化

语料分词任务是标准术语处理的基础性工作，旨在对油气管道领域文本进行词语切分，将语料按照特定的语义单元进行合理切分，将语料文本由连续的字序列转换成具有独立意义的词语序列，为术语构建提供基础；语料预处理及分词优化流程见图2；其流程为：

1）预处理模块

油气管道领域语料；

对语料格式进行转换后，或得初步分词结果，或得预处理结果；

2）分词模块

进行ICTCLAS分词；

初步分词结果；

对分词进行优化；

3）分词模块

进行噪音过滤；

得最终分词结果。

该部分功能主要完成以下三个子任务：

1）预处理模块：对给定的word语料，通过相关预处理操作转化为txt文本形式，并对转化后的txt语料进行相关调整，如根据转换结果制定相应的规则，消除不规范的回车、空格和换行符；

2）分词模块：对转化后的txt语料内容进行分词处理，该部分为语料分词的核心部分；首先采用中科院分词工具（ICTCLAS）直接分词，但实验结果发现中科院分词的分词粒度非常细，即将词语按照最基本的语义单元进行切分，因此对长度较长的词语的分词效果较差，如“压力测试”为油气管道语料的候选术语，但是中科院分词工具会将词语切分成“压力”和“测试”，这样对后期的术语构建造成较大影响；基于此，在中科院分词的基础上，通过词语的优化组合对分词结果进行合理的组合和拆分，确定领域词语的合理边界以实现最佳粒度的分词处理；具体方法是首先根据词典进行逆向最大匹配，然后根据停用词分割：规则为对于某一个候选词s，如果其首字或末字为停用词，并且去除这个停用字后的词在字典中可以找到，则将这个词分割。最后对于每一个词汇可以输出一个根据本地/全局词频、转移数相组合判断得到的新的词序列，得到《分词优化GB50253-2006输油管道工程设计规范.txt》（见GB50253-2006“输油管道工程设计规范”，第4、5页）；

3）分词模块：对分词后的词语进行特殊词语和符号的初步过滤，如停用词和标点符号；由于这些特殊词语和符号对后续的术语提取工作的贡献度几乎为零，因此事先过滤这些噪音信息以降低系统处理的时间和空间复杂度；

2.油气管道领域术语构建方法

1）基于TF-IDF的术语构建模块Ⅰ

TF-IDF(Term Frequency–Inverse Document Frequency)作为一种常用的术语提取算法，充分利用了词语在全局的分布信息；TF(Term Frequency)指的是某个特定词条在该文件中出现的频率，DF（Document Frequency）指的是整个语料文档中包含该给定词条的文件总数；TF-IDF的主要思想是：如果某词条或短语在某篇文档中出现的频率即TF越高，同时包含该词条或短语的文档数目越少，则认为此词条或短语具有很好的文档类别区分能力；由此可见，TF-IDF是从统计的角度，评估当前词条在相应文件中的重要程度，而且此重要程度与当前词条在文件中出现的次数（TF）成正比例关系，与包含该词条的文档总数（DF）成反比例关系；其计算方式如公式（1）所示：

TFIDF (t_{i, j}) = \frac{n_{i, j}}{Σ_{k} n_{k, j}} * \log \frac{| D |}{| d |} - - - (1)

其中t_i,j表示出现在文档j中的第i个词条，n_i,j表示当前词条t_i,j在此文档中的出现次数，Σ_kn_k,j表示此文档中的所有词汇数目，|D|表示语料库中文档总数，|d|表示包含当前词条t_i,j的文档数目；

将TF-IDF信息用于术语构造中，其理论依据是术语一般会高频集中地出现在某些少量的专业文档中，此现象一方面体现了术语在领域文章中出现次数较高，另一方面也体现了术语经常密集地出现在专业领域文章而非大量普通文章中；由此可见，利用TF-IDF对全局信息进行统计，能够有效完成专业术语的构建；

2）基于C-value和互信息（C-MI）的术语构建模块Ⅱ

本发明实现了另外一种常用的术语提取算法：基于C-value和互信息（Mutual Information）的术语提取算法；一方面，C-value参数在分析简单术语与复杂术语之间的关系、术语与术语上下文之间的关系方面具有较好的优势；另一方面，互信息参数能够度量词语内部紧密程度以及组合的合理性；因此，将两者优势相结合，提出一种精确度相对较高的抽取方法。

C-value考虑的是术语与术语上下文之间的关系，该值受三方面的影响：a）当前字符串在语料集中出现的频率；b）包含当前字符串的候选术语个数；c）包含当前字符串的候选术语种类，具体计算方式如公式（2）所示：

其中S表示候选术语串，F(S)表示S在语料文档集中出现的频率，T(S)表示S所有的父串在文档集中出现的次数，而C(S)表示S所有的父串个数。由上述定义可以看出，若S为极大串，则它不存在父串，即C-value(S)=F(S)；相反，若S为子串，则其C-value参数综合考虑了子串S及其所有父串之间的网状关系，例如对于极大子串S₁=“苏州大学”及其子串S₂=“苏州”，如果F(S₁)=F(S₂)，则C-value(S₁)=F(S₁)，而C-value(S₂)=0。因此，C-value考虑了词语嵌套特征，能够有效区分出父串与子串，对于长术语的构建具有重要作用。

另一方面，互信息（Mutual Information）参数度量的是两个子串X和Y之间的相关性，其值常被用于评估字符串内部结合的紧密程度，往往有利于短术语的提取。将该参数用于术语提取任务中，其值越高，则反映了X和Y的整体被作为术语的可能性越大。计算公式如（3）所示：

MI (X, Y) = \log_{2} \frac{P (X, Y)}{P (X) * P (Y)} - - - (3)

其中，P(X)和P(Y)分别表示子串X和子串Y在语料中的出现概率，P(X，Y)则表示X和Y作为整体在语料中共现的概率。

综上所述，基于C-value和互信息的术语提取方法综合了C-value参数在长术语提取方面的优势，并与术语提取中的互信息参数相结合，是一种精确度更高的术语自动提取算法。将C-value和互信息相结合的计算方法如公式（4）所示：

CMI(S₁S₂…S_n)=log₂|S|*log(C-value(s))*MIN(S₁，S₂)…MI(S_n-1，S_n)) (4)

其中S表示多字词字符串，S=S₁S₂…S_n，|S|表示字符串S的长度。

3）基于领域相关性的术语构建模块Ⅲ

基于领域相关性的方法考虑了词语的领域流通度特征。通过观察术语在整个语料中的分布，发现术语主要有两个分布特征：其一，如果术语与某个文档领域相关，则会在该文档中被频繁使用；其二，如果术语与某个文档的领域同属一个范畴内，但并不直接相关，那么作者只会偶尔提及。所以，如果一个词语在油气管道领域的流通度较大，而在第三方语料中的流通度较小，则认为，该词语的领域相关性较强，因此，作为术语的可能性就较大。如专业术语“压力测试”在对应的领域文本中出现的频率较高，而一般词语如“合格”在任意语料中的分布都较均衡。为了度量词语的领域相关性，本发明引入了第三方语料即搜狗新闻语料。某候选术语S的领域相关度的计算方法如公式（5）所示：

RD (S) = P (S) * \lg \frac{P (S)}{Q (S)} - - - (5)

其中P(S)表示词语S在目标领域中的出现频率，本发明中指在油气管道语料中该词的出现频率，Q(S)表示词语S在搜狗新闻语料中的出现频率。若P(S)>Q(S)且RD，(S)>Threshlod(Threshold为预先设定的阈值)，则认为该候选术语与目标领域相关。

4）各算法之间的融合

由上述分析可知，三种术语提取算法均有各自的优势，所以本发明尝试将各算法进行有效融合，如图3中将三种算法两两相融合，图4中将三种算法相融合，充分利用它们之间的互补性以提升系统最终术语构建的准确率和召回率。

a.融合模块Ⅰ和模块Ⅱ的术语构建

该方法融合了TF-IDF、C-value和互信息的优点，更好的利用了词语的词频、结构紧密性和网状术语的特征；

在各模块融合的过程中，最关键的是权重参数的设置，本发明提出一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的权重参数。具体包括三个基本步骤：a)样本抽取：分别选择每种融合方法的Top N个候选术语结果；b)参数训练：如将TF-IDF模块与C-MI模块进行融合时，为了训练得到TF-IDF的权重ɑ和C-MI的权重β，依次设置ɑ从0.1-0.9，则β从0.9-0.1，且以0.1作为参数调整的步长。在不同参数下，对加权后的候选术语进行重排序，统计融合后的术语分布密度规律。c)参数选择：选取最优分布下的参数作为加权权值，具体是通过基于密度的OPTICS聚类算法，统计样本在排序后的术语集中的分布情况，密度算法的值越小，对应的权值越好。

分别对于使用不同方法取得的结果进行在以下区间处理标准术语和非术语，进行训练。

标准术语区间内的选择个数：

区间1：500-1000：20

区间2：1000-5000：20

区间3：5000-20000：20

区间4：20000-50000：20

区间5：50000-140000：20

非术语区间内的选择个数：

区间1：500-1000：5

区间2：1000-5000：10

区间3：5000-20000：15

区间4：20000-50000：30

区间5：50000-140000：35

由先验知识可知，C-value值的结果要优于TF-IDF，因此在参数的训练上，优先选择C-vlaue的值，即可设C-value的权重为a，TF-IDF的权重为b，且满足a+b=1的约束条件，则假设a=0.6开始训练，会得出以下数据及其趋势如图5；

该方法融合了TF-IDF、C-value和互信息的优点，更好的利用了词语的词频、结构紧密性和网状术语的特征；该方法充分考虑了词语的TF-IDF特征和词语的领域相关性特征，对TF-IDF值较高但领域相关性较低的词语进行过滤，同时对一些TF-IDF值较低但领域相关性较高的词语进行提升，优化术语构建结果。通过同样的参数训练方法会得出以下数据及其趋势如图6。通过数据计算对比，可得出TF-IDF算法与C-MI算法的最优融合参数值为：ɑ=0.3，β=0.7。其中ɑ为TF-IDF的权重，β为C-MI的权重。

b.融合模块Ⅰ和模块Ⅲ的术语构建

该方法充分考虑了词语的TF-IDF特征和词语的领域相关性特征，对TF-IDF值较高但领域相关性较低的词语进行过滤，同时对一些TF-IDF值较低但领域相关性较高的词语进行提升，优化术语提取结果；

通过同样的参数训练方法计算对比，可得出TF-IDF算法与RD算法的最优融合参数值为：ɑ=0.8，β=0.2。其中ɑ为TF-IDF的权重，β为C-MI的权重。

c.融合模块Ⅱ和模块Ⅲ的术语构建

该方法在互信息和C-value值的基础上进一步引入了词语的领域相关性特征，从领域流通度的角度对基于互信息和C-value值的术语提取结果进行优化；

通过同样的参数训练方法计算对比，可得出C-MI算法与RD算法的最优融合参数值为：ɑ=0.8，β=0.2。其中ɑ为TF-IDF的权重，β为C-MI的权重。

d.融合模块Ⅰ、模块Ⅱ和模块Ⅲ的术语构建

该方法充分考虑了词语的TF-IDF特征、互信息、C-value值和领域相关性特征，对以上特征进行参数选取，进行基于统计分布密度规律的方法训练，选择最优分布下的参数值，即得到最终输出的术语列表。

通过同样的参数训练方法计算对比，可得出TF-IDF算法、C-MI算法与RD算法的最优融合参数值为：ɑ=0.5，β=0.3，γ=0.2。其中ɑ为TF-IDF的权重，β为C-MI的权重，γ为RD的权重。

在各模块融合的过程中，最关键的是权重参数的设置，本发明提出一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的权重参数。具体包括三个基本步骤：

a）样本抽取：分别选择每种融合方法的topN个候选术语结果；

b）参数训练：如将TF-IDF模块与C-MI模块进行融合时，为了训练得到TF-IDF的权重ɑ和C-MI的权重β，依次设置ɑ从0.1-0.9，则β从0.9-0.1，且以0.1作为参数调整的步长。在不同参数下，对加权后的候选术语进行重排序，统计融合后的术语分布密度规律。

c）参数选择：选取最优分布下的参数作为加权权值，具体是通过基于密度的OPTICS聚类算法，统计样本在排序后的术语集中的分布情况，密度算法的值越小，对应的权值越好。

3.油气管道领域术语构建优化

观察术语提取的初步结果，发现其中包含了一些噪音，因此通过总结规律，制定规则对获得的术语进行过滤，剔除垃圾词语和常规化的词语，优化术语构建的结果。

过滤规则包括：

a）候选术语中包含数字符号，如“表1”、“图2”；

b）候选术语中包含方位词，如“液压上”中，“上”属于方位词；

c）候选术语中包含量词，如“两张表”中的“张”是量词；

d）形如“表*”或“*表”的候选术语，如“表2”、“见表”、“续表”等。

最终，将通过规则优化后的术语集合添加入数据库，形成油气管道领域的核心术语集合，为后期进一步扩充和查找使用提供方便。

本发明利用现有的大规模油气管道专业领域资源，实现油气管道专业领域的核心术语构建。与已有方法相比，具有如下优点：

Ⅰ）本发明提出了一种基于专业技术领域文本的分词优化方法，在中科院分词的基础上，通过词语的优化组合对分词结果进行合理的组合和拆分，确定领域词语的合理边界以实现最佳粒度的分词处理；并通过噪音过滤对分词后的词语进行特殊词语和符号的初步过滤等大幅度提高分词准确率；

Ⅱ）本发明提出了一种多策略融合的术语构建方法，一方面将基于语言规则与基于语料统计相融合，有利于提高整体术语提取的准确率和召回率；另一方面，在统计过程中考虑到多种因素如领域相关度、串频统计等对专业术语的影响，因此尝试将多种统计策略相融合，如TF-IDF、C-value和互信息等，最终提高术语提取的精确率；

III）本发明采用了高效的参数估计方法：一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的融合权重，能够极大地提高了最终相关术语的技术领域。

附图说明

图1油气管道领域的术语提取流程图

图2语料预处理及分词算法优化流程图

图3各算法两两融合图

图4三种算法相融合图

图5C-MI和TF-IDF不同加权对应的结果曲线图

图6TF-IDF和RD不同加权对应的结果曲线图

图7C-MI和RD不同加权对应的结果曲线图

图8TF-IDF、C-MI和RD不同加权对应的结果曲线图

具体实施方式

实施例.以本例来说明本发明的具体实施方式并对本发明作进一步的说明。

本例是一实验方法，其构成如图1-图4所示。选取《GB50253-2006输油管道工程设计规范.doc》中的第6页为例说明本例如何具体实施。

总体流程为：

1）油气管道语料预处理及语料分词结果优化

对油气管道语料进行文本格式转换，进行ICTCLAS分词并优化分词结果，进行噪音过滤得到分词结果；

2）油气管道领域术语构建方法

可以采用TF-IDF算法、C-MI算法、RD算法和组合算法进行术语构建；

3）油气管道领域术语构建优化

将候选术语进行规则过滤，建立标准术语数据库。

下面分别对以上三大模块的具体实施例给予详细说明。

1．语料预处理及分词结果优化

语料分词任务是标准术语处理的基础性工作，旨在对油气管道领域文本进行词语切分，将语料按照特定的语义单元进行合理切分，将语料文本由连续的字序列转换成具有独立意义的词语序列，为术语构建提供基础。语料预处理及分词优化流程见图2。

该部分功能主要完成以下三个子任务：

1）预处理模块：如对给定的word文本《GB50253-2006输油管道工程设计规范第6页》，通过相关预处理操作转化为txt文本形式，得到跟原word版本一样的txt文件，并对转化后的txt文本进行相关调整，如根据转换结果制定相应的规则消除不规范的回车、空格和换行符等，得到《生语料GB50253-2006输油管道工程设计规范》（见GB50253-2006“输油管道工程设计规范”，第1页）；

2）分词及其优化：对转化后的txt文本内容进行分词处理，该部分为语料分词的核心部分。首先采用中科院分词工具（ICTCLAS）直接分词，得到《中科院分词GB50253-2006输油管道工程设计规范.txt》（见GB50253-2006“输油管道工程设计规范”，第2、3页）。但实验结果发现中科院分词的分词粒度非常细，即将词语按照最基本的语义单元进行切分，因此对较长词语的分词效果较差，如“压力测试”为油气管道语料的候选术语，但是中科院分词工具会将词语切分成“压力”和“测试”，这样将对后期的术语构建造成较大影响。基于此，我们在中科院分词的基础上，通过词语的优化组合对分词结果进行合理的组合和拆分，确定领域词语的合理边界以实现最佳粒度的分词处理。具体方法是首先根据词典进行逆向最大匹配，然后根据停用词分割：规则为对于某一个候选词s，如果其首字或末字为停用词，并且去除这个停用字后的词在字典中可以找到，则将这个词分割。最后对于每一个词汇可以输出一个根据本地/全局词频、转移数相组合判断得到的新的词序列，得到《分词优化GB50253-2006输油管道工程设计规范.txt》（见GB50253-2006“输油管道工程设计规范”，第4、5页）；

3）噪音过滤：对分词后的词语进行特殊词语和符号的初步过滤，如停用词和标点符号等。由于这些特殊词语和符号对后续的术语构建工作的贡献度几乎为零，因此事先过滤这些噪音信息以降低系统处理的时间和空间复杂度，得到《分词_后处理_去除符号GB50253-2006输油管道工程设计规范.txt》（见GB50253-2006“输油管道工程设计规范”，第6页），这即是分词处理的最终结果。

2．三种术语构建算法及算法间的融合

1）基于文档-逆文档频率（TF-IDF）的术语构建模块

TF-IDF(Term Frequency-Inverse Document Frequency)作为一种常用的术语构建算法，充分利用了词语在全局的分布信息。TF(Term Frequency)指的是某个特定词条在该文件中出现的频率，DF（Document Frequency）指的是整个语料文档中包含该给定词条的文件总数。TF-IDF的主要思想是：如果某词条或短语在某篇文档中出现的频率即TF越高，同时包含该词条或短语的文档数目越少，则认为此词条或短语具有很好的文档类别区分能力。由此可见，TF-IDF是从统计的角度，评估当前词条在相应文件中的重要程度，而且此重要程度与当前词条在文件中出现的次数（TF）成正比例关系，与包含该词条的文档总数（DF）成反比例关系。其计算方式如公式（1）所示：

TFIDF (t_{i, j}) = \frac{n_{i, j}}{Σ_{k} n_{k, j}} * \log \frac{| D |}{| d |} - - - (1)

其中t_i,j表示出现在文档j中的第i个词条，n_i,j表示当前词条t_i,j在此文档中的出现次数，Σ_kn_k,j表示此文档中的所有词汇数目，|D|表示语料库中文档总数，|d|表示包含当前词条t_i,j的文档数目。

将TF-IDF信息用于术语构造中，其理论依据是术语一般会高频集中地出现在某些少量的专业文档中，此现象一方面体现了术语在领域文章中出现次数较高，另一方面也体现了术语经常密集地出现在专业领域文章而非大量普通文章中。由此可见，利用TF-IDF对全局信息进行统计，能够有效完成专业术语的构建。

本实施例中基于TF-IDF的术语构建结果是《TF-IDF构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第7、8、9页）。

2）基于C值（C-value）和互信息（MI）的术语构建模块

本发明实现了另外一种常用的术语构建算法：基于C-value和互信息（Mutual Information）的术语构建算法。一方面，C-value参数在分析简单术语与复杂术语之间的关系、术语与术语上下文之间的关系方面具有较好的优势；另一方面，互信息参数能够度量词语内部紧密程度以及组合的合理性。因此，将两者优势相结合，提出一种精确度相对较高的术语构建方法。

其中S表示候选术语串，F(S)表示S在语料文档集中出现的频率，T(S)表示S所有的父串在文档集中出现的次数，而C(S)表示S所有的父串个数。由上述定义可以看出，若S为极大串，则它不存在父串，即C-value(S)=F(S)；相反，若S为子串，则其C-value参数综合考虑了子串S及其所有父串之间的网状关系，例如对于极大子串S₁=“中国石油”及其子串S₂=“中国”，如果F(S₁)=F(S₂)，则C-value(S₁)=F(S₁)，而C-value(S₂)=0。因此，C-value考虑了词语嵌套特征，能够有效区分出父串与子串，对于长术语的构建具有重要作用。

另一方面，互信息（Mutual Information）参数度量的是两个子串X和Y之间的相关性，其值常被用于评估字符串内部结合的紧密程度，往往有利于短术语的构建。将该参数用于术语构建任务中，其值越高，则反映了X和Y的整体被作为术语的可能性越大。计算公式如（3）所示：

MI (X, Y) = \log_{2} \frac{P (X, Y)}{P (X) * P (Y)} - - - (3)

综上所述，基于C-value和互信息的术语构建方法综合了C-value参数在长术语构建方面的优势，并与术语构建中的互信息参数相结合，是一种精确度更高的术语自动构建算法。将C-value和互信息相结合的计算方法如公式（4）所示：

CMI(S₁S₂…S_n)=log₂|S|*log(C-value(S))*MIN(MI(S₁，S₂)…MI(S_n-1，S_n)) (4)其中S表示多字词字符串，S=S1S2…S_n，|S|表示字符串S的长度。

本实施例中基于C-MI的术语构建结果是《C-MI构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第10、11、12页）。

3）基于领域相关性（RD）的术语构建模块

基于领域相关性的方法考虑了词语的领域流通度特征。通过观察术语在整个语料中的分布，我们发现术语主要有两个分布特征：其一，如果术语与某个文档领域相关，则会在该文档中被频繁使用；其二，如果术语与某个文档的领域同属一个范畴内，但并不直接相关，那么作者只会偶尔提及。所以，如果一个词语在油气管道领域的流通度较大，而在第三方语料中的流通度较小，则认为，该词语的领域相关性较强，因此，作为术语的可能性就较大。如专业术语“压力测试”在对应的领域文本中出现的频率较高，而一般词语如“合格”在任意语料中的分布都较均衡。为了度量词语的领域相关性，本发明引入了第三方语料即搜狗新闻语料。某候选术语S的领域相关度的计算方法如公式（5）所示：

RD (S) = P (S) * \lg \frac{P (S)}{Q (S)} - - - (5)

其中PCS)表示词语S在目标领域中的出现频率，本发明中指在油气管道语料中该词的出现频率，Q(S)表示词语S在搜狗新闻语料中的出现频率。若P(S)>Q(S)且RD（S)>Threshold(Threshold为预先设定的阈值)，则认为该候选术语与目标领域相关。

本实施例中基于RD的术语构建结果是《RD构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第13、14、15页）。

4）各算法之间的融合

由上述分析可知，三种术语构建算法均有各自的优势，所以本发明尝试将各算法进行有效融合，如图3中将算法两两相融合，图4将三种算法相融合，充分利用它们之间的互补性以提升系统术语构建的准确率和召回率。

融合模块1和模块2的术语构建方法

该方法融合了TF-IDF、C-value和互信息的优点，更好的利用了词语的词频、结构紧密性和网状术语的特征。

基于TF-IDF算法，C-MI算法和RD算法相融合的术语构建方法如图3所示，充分考虑了TF-IDF的特征、互信息、C-value值和领域相关性特征，将这些特征进行线性加权组合，优化术语构建结果。

在各模块融合的过程中，最关键的是权重参数的设置，本发明提出一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的权重参数。具体包括三个基本步骤：a)样本抽取：分别选择每种融合方法的TopN个候选术语结果；b)参数训练：如将TF-IDF模块与C-MI模块进行融合时，为了训练得到TF-IDF的权重ɑ和C-MI的权重β，依次设置ɑ从0.1-0.9，则β从0.9-0.1，且以0.1作为参数调整的步长。在不同参数下，对加权后的候选术语进行重排序，统计融合后的术语分布密度规律。c)参数选择：选取最优分布下的参数作为加权权值，具体是通过基于密度的OPTICS聚类算法，统计样本在排序后的术语集中的分布情况，密度算法的值越小，对应的权值越好。

标准术语区间内的选择个数：

区间1：500-1000：20

区间2：1000-5000：20

区间3：5000-20000：20

区间4：20000-50000：20

区间5：50000-140000：20

非术语区间内的选择个数：

区间1：500-1000：5

区间2：1000-5000：10

区间3：5000-20000：15

区间4：20000-50000：30

区间5：50000-140000：35

由先验知识可知，C-value值的结果要优于TF-IDF，因此在参数的训练上，优先选择C-vlaue的值，即可设C-value的权重为a，TF-IDF的权重为b，且满足a+b=1的约束条件，则假设a=0.6开始训练，会得出以下数据及其趋势如图5：

通过数据计算对比，可得出TF-IDF算法与C-MI算法的最优融合参数值为：ɑ=0.3，β=0.7。其中ɑ为TF-IDF的权重，β为C-MI的权重。

本实施例中TF-IDF算法与C-MI算法融合的术语构建结果是《TF-IDF和C-MI组合构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第16、17、18页）。

融合模块1和模块3的术语构建

该方法充分考虑了词语的TF-IDF特征和词语的领域相关性特征，对TF-IDF值较高但领域相关性较低的词语进行过滤，同时对一些TF-IDF值较低但领域相关性较高的词语进行提升，优化术语构建结果。通过同样的参数训练方法会得出以下数据及其趋势如图6：

通过同样的参数训练方法计算对比，可得出TF-IDF算法与RD算法的最优融合参数值为：ɑ=0.8，β=0.2。其中ɑ为TF-IDF的权重，β为RD的权重。

本实施例中TF-IDF算法与RD算法融合的术语构建结果是《TF-IDF和RD组合构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第19、20、21页）。

融合模块2和模块3的术语构建

该方法在互信息和C-value值的基础上进一步引入了词语的领域相关性特征，从领域流通度的角度对基于互信息和C-value值的术语构建结果进行优化。通过同样的参数训练方法会得出以下数据及其趋势如图7：

通过同样的参数训练方法计算对比，可得出C-MI算法与RD算法的最优融合参数值为：ɑ=0.8，β=0.2。其中ɑ为C-MI的权重，β为RD的权重。

本实施例中RD算法与C-MI算法融合的术语构建结果是《RD和C-MI组合构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第22、23、24页）。

融合模块1、模块2和模块3的术语构建

该方法充分考虑了词语的TF-IDF特征、C-MI值和领域相关性特征，对以上特征进行参数选取，进行基于统计分布密度规律的方法训练，选择最优分布下的参数值，即得到最终输出的术语列表。基于TF-IDF算法、C-MI算法与RD算法融合的术语构建方法如图8所示。

通过同样的参数训练方法会得出以下数据及其趋势如图8。可得出TF-IDF算法、C-MI算法与RD算法的最优融合参数值为：ɑ=0.3，β=0.5，γ=0.2。其中ɑ为TF-IDF的权重，β为C-MI的权重，γ为RD的权重。

本实施例中TF-IDF算法、C-MI算法与RD算法融合的术语构建结果是《TF-IDF、RD和C-MI组合构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第25、26、27页）。

3．油气管道领域术语构建优化

观察术语构建的初步结果，发现其中包含了一些噪音，因此通过总结规律，制定规则对获得的术语进行过滤，剔除垃圾词语和常规化的词语，优化处理术语构建的结果。

过滤规则包括：

a）候选术语中包含数字符号，如“表1”、“图2”；

b）候选术语中包含方位词，如“液压上”中“上”属于方位词；

c）候选术语中包含量词，如“两张表”中“张”是量词；

经过以上几种术语构建方法并经过术语结果优化处理后可以得到术语列表文件：《TF-IDF-final构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第28、29、30页）、《C-MI-final构建结果.txt》（见附件2，第31、32、33页）、《RD-final构建结果.txt》（见GB50253-2006“输油管道工程设计规范”，第34、35、36页）。

本例经试用：

1）通过词语的优化组合对分词结果进行合理的组合和拆分，确定领域词语的合理边界以实现最佳粒度的分词处理；并通过噪音过滤对分词后的词语进行特殊词语和符号的初步过滤等大幅度提高分词准确率；

2）本例提出了一种多策略融合的术语构建方法，一方面将基于语言规则与基于语料统计相融合，有利于整体提高术语构建的准确率和召回率；另一方面，在统计过程中考虑到多种因素如领域相关度、串频统计等对专业术语的影响，因此尝试将多种统计策略相融合，如TF-IDF、C-value和互信息等，最终提高术语构建的精确率；

3）本例采用了高效的参数估计方法：一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的融合权重，最终能够极大地提高相关术语的领域相关性。

Claims

1.一种面向油气管道领域的多策略融合的标准术语处理方法，其特征在于该方法主要分为以下三个模块：1）油气管道领域语料预处理及文本分词结果优化；2）分别通过单一算法以及多种算法组合的形式实现术语构建；3）通过总结的规则对获得的术语进行过滤，剔除垃圾词语和常规的词语，优化术语处理的结果；

总体流程为：

1）油气管道领域语料预处理及语料分词结果优化

油气管道领域文本；

对语料格式进行转换；

进行ICTCLAS分词；

对分词进行优化；

进行噪音过滤；

得分词结果；

2）油气管道领域术语构建方法

进行术语构建；

3）油气管道领域术语构建优化

术语构建后，候选术语；

进行规则过滤；

建成标准术语数据库。

2.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述油气管道领域语料预处理及分词结果优化流程为：

1）预处理模块

油气管道领域语料；

2）分词模块

进行ICTCLAS分词；

初步分词结果；

对分词进行优化；

3）后处理模块

进行噪音过滤；

得最终分词结果。

该部分功能主要完成以下三个子任务：

1）预处理模块：对给定的word文本，通过相关预处理操作转化为txt文本形式，并对转化后的txt文本进行相关调整，如根据转换结果制定相应的规则，消除不规范的回车、空格和换行符；

2）分词及其优化：对转化后的txt文本内容进行分词处理，该部分为语料分词的核心部分；首先采用中科院分词工具（ICTCLAS）直接分词，但实验结果发现中科院分词的分词粒度非常细，即将词语按照最基本的语义单元进行切分，因此对长度较长的词语的分词效果较差，如“压力测试”为油气管道语料的候选术语，但是中科院分词工具会将词语切分成“压力”和“测试”，这样对后期的术语构建造成较大影响；基于此，在中科院分词的基础上，通过词语的优化组合对分词结果进行合理的组合和拆分，确定领域词语的合理边界以实现最佳粒度的分词处理；具体方法是首先根据词典进行逆向最大匹配，然后根据停用词分割：规则为对于某一个候选词s，如果其首字或末字为停用词，并且去除这个停用字后的词在字典中可以找到，则将这个词分割。最后对于每一个词汇可以输出一个根据本地/全局词频、转移数相组合判断得到的新的词序列，得到《分词优化GB50253-2006输油管道工程设计规范.txt》；

3）噪音过滤：对分词后的词语进行特殊词语和符号的初步过滤，如停用词和标点符号；由于这些特殊词语和符号对后续的术语提取工作的贡献度几乎为零，因此事先过滤这些噪音信息以降低系统处理的时间和空间复杂度。

3.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述油气管道领域术语构建方法为：

基于TF-IDF的术语构建模块Ⅰ；

TF-IDF—Term Frequency–Inverse Document Frequency作为一种常用的术语提取算法，充分利用了词语在全局的分布信息；TF—Term Frequency指的是某个特定词条在该文件中出现的频率，DF—Document Frequency指的是整个语料文档中包含该给定词条的文件总数；TF-IDF是评估当前词条在相应文件中的重要程度，而且此重要程度与当前词条在文件中出现的次数TF成正比例关系，与包含该词条的文档总数DF成反比例关系；其计算方式如公式（1）所示：

其中t_i,j表示出现在文档j中的第i个词条，n_i,j表示当前词条t_i,j在此文档中的出现次数，Σ_kn_k,j表示此文档中的所有词汇数目，|D|表示语料库中文档总数，|d|表示包含当前词条t_i,j的文档数目

利用TF-IDF对全局信息进行统计，能够有效完成专业术语的构建。

4.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述油气管道领域术语构建方法为：基于C-value和互信息—C-MI的术语构建模块Ⅱ；

其中S表示候选术语串，F(S)表示S在语料文档集中出现的频率，T(S)表示S所有的父串在文档集中出现的次数，而C(S)表示S所有的父串个数；C-value考虑了词语嵌套特征，能够有效区分出父串与子串；

另一方面，互信息（Mutual Information）参数度量的是两个子串X和Y之间的相关性，其值常被用于评估字符串内部结合的紧密程度，将该参数用于术语构建任务中，其值越高，则反映了X和Y的整体被作为术语的可能性越大；计算公式如（3）所示：

其中，P(X)和P(Y)分别表示子串X和子串Y在语料中的出现概率，P(X,Y)则表示X和Y作为整体在语料中共现的概率；

将C-value和互信息相结合的计算方法如公式（4）所示：

CMI(S₁S₂…S_n) （4 )

=log₂|S|*log(C一value(S))*MIN(MI(S₁，S₂)…

5.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述油气管道领域术语构建方法为：基于领域相关性的术语构

建模块Ⅲ；

基于领域相关性的方法考虑了词语的领域流通度特征；为了度量词语的领域相关性，引入了第三方语料即搜狗新闻语料；某候选术语S的领域相关度的计算方法如公式（5）所示：

其中P(S)表示词语S在目标领域中的出现频率，指在油气管道语料中该词的出现频率，Q(S)表示词语S在搜狗新闻语料中的出现频率；若P(S)>Q(S)且RD(S)>Threshold，则认为该候选术语与目标领域相关；其中Threshold为预先设定的阈值。

6.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述油气管道领域术语构建方法为：各算法之间的融合；

a.融合模块Ⅰ和模块Ⅱ的术语构建

具体包括三个基本步骤：

a)样本抽取：分别选择每种融合方法的Top N个候选术语结果；

b)参数训练：如将TF-IDF模块与C-MI模块进行融合时，为了训练得到TF-IDF的权重ɑ和C-MI的权重β，依次设置ɑ从0.1-0.9，则β从0.9-0.1，且以0.1作为参数调整的步长；在不同参数下，对加权后的候选术语进行重排序，统计融合后的术语分布密度规律；

c)参数选择：选取最优分布下的参数作为加权权值，具体是通过基于密度的OPTICS聚类算法，统计样本在排序后的术语集中的分布情况，密度算法的值越小，对应的权值越好。

分别对于使用不同方法取得的结果进行在以下区间处理标准术语和非术语，进行训练；

标准术语区间内的选择个数：

区间1：500-1000：20

区间2：1000-5000：20

区间3：5000-20000：20

区间4：20000-50000：20

区间5：50000-140000：20

非术语区间内的选择个数：

区间1：500-1000：5

区间2：1000-5000：10

区间3：5000-20000：15

区间4：20000-50000：30

区间5：50000-140000：35

在参数的训练上，优先选择C-vlaue的值，即设C-value的权重为a，TF-IDF的权重为b，且满足a+b=1的约束条件，则假设a=0.6开始训练，会得出以下数据及其趋势；

通过数据计算对比，得出TF-IDF算法与C-MI算法的最优融合参数值为：ɑ=0.3，β=0.7；其中ɑ为TF-IDF的权重，β为C-MI的权重；

b.融合模块Ⅰ和模块Ⅲ的术语构建

通过与a.同样的参数训练方法计算对比，可得出TF-IDF算法与RD算法的最优融合参数值为：ɑ=0.8，β=0.2；其中ɑ为TF-IDF的权重，β为C-MI的权重；

c.融合模块Ⅱ和模块Ⅲ的术语构建

通过与a.同样的参数训练方法计算对比，可得出C-MI算法与RD算法的最优融合参数值为：ɑ=0.8，β=0.2；其中ɑ为TF-IDF的权重，β为C-MI的权重；

d.融合模块Ⅰ、模块Ⅱ和模块Ⅲ的术语构建

该方法充分考虑了词语的TF-IDF特征、互信息、C-value值和领域相关性特征，对以上特征进行参数选取，进行基于统计分布密度规律的方法训练，选择最优分布下的参数值，即得到最终输出的术语列表；

通过同样的参数训练方法计算对比，可得出TF-IDF算法、C-MI算法与RD算法的最优融合参数值为：ɑ=0.5，β=0.3，γ=0.2；其中ɑ为TF-IDF的权重，β为C-MI的权重，γ为RD的权重。

7.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述油气管道领域术语构建优化为制定规则对获得的术语进行过滤，剔除垃圾词语和常规化的词语，优化术语构建的结果；

过滤规则包括：

a）候选术语中包含数字符号，如“表1”、“图2”；

c）候选术语中包含量词，如“两张表”中的“张”是量词；

d）形如“表*”或“*表”的候选术语，如“表2”、“见表”、“续表”；

最终，将通过规则优化后的术语集合添加入数据库，形成油气管道领域的核心术语集合。

8.根据权利要求2所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述预处理模块是对给定的word语料，通过相关预处理操作转化为txt语料形式，并对转化后的txt语料进行相关调整，根据转换结果制定相应的规则，消除不规范的回车、空格和换行符。

9.根据权利要求2所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述分词模块是对转化后的txt语料内容进行分词处理首先采用中科院分词工具ICTCLAS直接分词，在中科院分词的基础上，通过词语的优化组合对分词结果进行合理的组合和拆分，确定领域词语的合理边界以实现最佳粒度的分词处理；具体方法是首先根据词典进行逆向最大匹配，然后根据停用词分割：规则为对于某一个候选词s，如果其首字或末字为停用词，并且去除这个停用字后的词在字典中可以找到，则将这个词分割；最后对于每一个词汇可以输出一个根据本地/全局词频、转移数相组合判断得到的新的词序列，得到《分词优化GB50253-2006输油管道工程设计规范.txt》。

10.根据权利要求2所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述后处理模块是对分词后的词语进行特殊词语和符号的初步过滤；由于这些特殊词语和符号对后续的术语提取工作的贡献度几乎为零，事先过滤这些噪音信息以降低系统处理的时间和空间复杂度。

11.根据权利要求6所述的面向油气管道领域的多策略融合的标准术语处理方法，其特征在于所述权重参数的设置是基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的权重参数；具体包括三个基本步骤：

a）样本抽取：分别选择每种融合方法的top N个候选术语结果；

b）参数训练：如将TF-IDF模块Ⅰ与C-MI模块Ⅱ进行融合时，为了训练得到TF-IDF的权重ɑ和C-MI的权重β，依次设置ɑ从0.1-0.9，则β从0.9-0.1，且以0.1作为参数调整的步长；在不同参数下，对加权后的候选术语进行重排序，统计融合后的术语分布密度规律；