CN104063382A - 面向油气管道领域的多策略融合的标准术语处理方法 - Google Patents

面向油气管道领域的多策略融合的标准术语处理方法 Download PDF

Info

Publication number
CN104063382A
CN104063382A CN201310088217.8A CN201310088217A CN104063382A CN 104063382 A CN104063382 A CN 104063382A CN 201310088217 A CN201310088217 A CN 201310088217A CN 104063382 A CN104063382 A CN 104063382A
Authority
CN
China
Prior art keywords
term
word
oil
idf
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310088217.8A
Other languages
English (en)
Other versions
CN104063382B (zh
Inventor
刘冰
潘腾
黄维和
税碧垣
刘艳双
李云杰
张妮
吴凯旋
王禹钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Oil and Gas Pipeline Network Corp
Original Assignee
China Petroleum and Natural Gas Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Natural Gas Co Ltd filed Critical China Petroleum and Natural Gas Co Ltd
Priority to CN201310088217.8A priority Critical patent/CN104063382B/zh
Publication of CN104063382A publication Critical patent/CN104063382A/zh
Application granted granted Critical
Publication of CN104063382B publication Critical patent/CN104063382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明是一种面向油气管道领域的多策略融合的标准术语处理方法,涉及语言分析和管道系统技术领域。其特征在于该方法主要分为以下三个模块:1)油气管道领域语料预处理及文本分词结果优化;2)分别通过单一算法以及多种算法组合的形式实现术语构建;3)通过总结的规则对获得的术语进行过滤,剔除垃圾词语和常规的词语,优化术语处理的结果;总体流程为:1)油气管道领域语料预处理及语料分词结果优化;2)油气管道领域术语构建方法;3)油气管道领域术语构建优化。本发明提高了分词准确率,提高了术语提取的精确率和最终相关术语的技术领域。

Description

面向油气管道领域的多策略融合的标准术语处理方法
技术领域
本发明是一种面向油气管道领域的多策略融合的标准术语处理方法,涉及语言分析和管道系统技术领域。
背景技术
专业术语作为特定领域中对特定事物或概念的统一称谓,具有一定的公认度、领域性和稳定性。如油气管道领域中的“压力测试”和“卧式压缩机”等均属于专业术语。目前,在油气管道领域中缺少国家或行业制定的专业术语标准,且该领域的术语提取工作均是采用人工标注的方法。但人工总结术语一方面工作量大,耗费大量的人力;另一方面标准难以统一,存在歧义现象。因此,如何利用计算机客观识别并高效地构建专业术语,已经成为快速分析和理解领域文本过程的一项重要工作。
观察发现,中文专业术语具有如下特性:构成专业术语的各个组成部分之间结合较为紧密,并且有一定的词性组合规律;由于专业术语具有较强的领域性,因此相对一般文本而言,其在对应领域文本中的出现频率较高,而且在对应领域的各个文本中出现的频率分布较均匀。针对以上特征,目前专业术语的处理方法主要分为三种:基于语言规则、基于语料统计以及将规则与统计相结合的方法。
基于语言规则的方法是通过预先观察语料,人为设定规则模版,然后基于规则模版抽取语料库中与之相匹配的词语作为候选领域术语。如1999年Frantzi和Ananiadou等人利用术语的上下文信息,提出利用参数C-value和NC-value来抽取术语。通过对文本进行词性分析,利用不同词性的组合规则得到候选术语字串,如“N+N+N”或“V+N+N”,其中“N”表示名词,“V”表示动词,如专业术语“地理信息系统”的词性序列即为“N+N+N”。利用规则的方法处理专业术语具有准确率高、计算量小的优点,不足之处在于很难制定一个完备的规则集来穷尽所有语言现象,而且在不同的专业领域中,术语的构建规则并不具有通用性,且当规则超过一定数量级时,还需要额外考虑多个规则之间的冲突。因此,采用制定语言规则的方法会导致整体的召回率偏低,系统的适应性和可移植性较差。
基于语料统计的方法通常是从大规模的领域文本语料中统计用词的规律从而发现领域术语,如2007年Rezgui提出采用计算相关词的TF-IDF值的方法来计算相关文本中的候选概念,该方法先计算相关词语在前景语料和背景语料出现的次数和文档数,通过计算TF-IDF值来抽取术语,这种方法使那些具有前景语料特点的单词获得较高权重,使得那些常用普通词受到抑制。采用统计方法的优势在于不受领域的限制,方法具有很强的移植性,但是受限于领域语料规模,而且统计过程中会涉及许多新的子问题,如串频统计、子串归并、短语粘合度的计算、领域相关度的衡量等等,这些新问题的出现一方面直接增加了计算量,另一方面它们的处理效果会间接影响最终的术语构建性能。
因此,目前主流的专业术语抽取算法是将规则与统计相结合,如先采用统计方法从专业语料中抽取足够多的候选术语,再通过人为观察制定相应的规则进行准确的过滤和性能的优化等。将统计与规则方法相融合,旨在利用基于规则方法的高准确率和基于统计方法的高召回率,在简化和细化任务的同时共同提高术语构建性能。
CN102360383A公开了一种面向文本的领域术语与术语关系抽取方法,但效果并不理想。
发明内容
本发明的目的是发明一种客观有效的辅助人工对术语筛选的面向油气管道领域的提高分词准确率、提高术语提取的精确率、提高最终相关术语的技术领域的面向油气管道领域的多策略融合的标准术语处理方法。
本方法主要分为以下三个模块:1)油气管道领域语料预处理及文本分词结果优化;2)分别通过单一算法以及多种算法组合的形式实现术语构建;3)通过总结的规则对获得的术语进行过滤,剔除垃圾词语和常规的词语,优化术语处理的结果。
图1即是本发明的总体流程图。总体流程为:
1)油气管道领域语料预处理及语料分词结果优化
油气管道领域文本;
对语料格式进行转换;
进行ICTCLAS分词;
对分词进行优化;
进行噪音过滤;
得分词结果;
2)油气管道领域术语构建方法
得分词结果后,加入第三方语料后进行组合算法、TF-IDF算法、C-MI算法和RD算法;
进行术语构建;
3)油气管道领域术语构建优化
术语构建后,候选术语;
进行规则过滤;
建成标准术语数据库。
下面分别对以上三大模块的具体实现方法给予详细说明。
1.油气管道领域语料预处理及分词结果优化
语料分词任务是标准术语处理的基础性工作,旨在对油气管道领域文本进行词语切分,将语料按照特定的语义单元进行合理切分,将语料文本由连续的字序列转换成具有独立意义的词语序列,为术语构建提供基础;语料预处理及分词优化流程见图2;其流程为:
1)预处理模块
油气管道领域语料;
对语料格式进行转换后,或得初步分词结果,或得预处理结果;
2)分词模块
进行ICTCLAS分词;
初步分词结果;
对分词进行优化;
3)分词模块
进行噪音过滤;
得最终分词结果。
该部分功能主要完成以下三个子任务:
1)预处理模块:对给定的word语料,通过相关预处理操作转化为txt文本形式,并对转化后的txt语料进行相关调整,如根据转换结果制定相应的规则,消除不规范的回车、空格和换行符;
2)分词模块:对转化后的txt语料内容进行分词处理,该部分为语料分词的核心部分;首先采用中科院分词工具(ICTCLAS)直接分词,但实验结果发现中科院分词的分词粒度非常细,即将词语按照最基本的语义单元进行切分,因此对长度较长的词语的分词效果较差,如“压力测试”为油气管道语料的候选术语,但是中科院分词工具会将词语切分成“压力”和“测试”,这样对后期的术语构建造成较大影响;基于此,在中科院分词的基础上,通过词语的优化组合对分词结果进行合理的组合和拆分,确定领域词语的合理边界以实现最佳粒度的分词处理;具体方法是首先根据词典进行逆向最大匹配,然后根据停用词分割:规则为对于某一个候选词s,如果其首字或末字为停用词,并且去除这个停用字后的词在字典中可以找到,则将这个词分割。最后对于每一个词汇可以输出一个根据本地/全局词频、转移数相组合判断得到的新的词序列,得到《分词优化GB50253-2006输油管道工程设计规范.txt》(见GB50253-2006“输油管道工程设计规范”,第4、5页);
3)分词模块:对分词后的词语进行特殊词语和符号的初步过滤,如停用词和标点符号;由于这些特殊词语和符号对后续的术语提取工作的贡献度几乎为零,因此事先过滤这些噪音信息以降低系统处理的时间和空间复杂度;
2.油气管道领域术语构建方法
1)基于TF-IDF的术语构建模块Ⅰ
TF-IDF(Term Frequency–Inverse Document Frequency)作为一种常用的术语提取算法,充分利用了词语在全局的分布信息;TF(Term Frequency)指的是某个特定词条在该文件中出现的频率,DF(Document Frequency)指的是整个语料文档中包含该给定词条的文件总数;TF-IDF的主要思想是:如果某词条或短语在某篇文档中出现的频率即TF越高,同时包含该词条或短语的文档数目越少,则认为此词条或短语具有很好的文档类别区分能力;由此可见,TF-IDF是从统计的角度,评估当前词条在相应文件中的重要程度,而且此重要程度与当前词条在文件中出现的次数(TF)成正比例关系,与包含该词条的文档总数(DF)成反比例关系;其计算方式如公式(1)所示:
TFIDF ( t i , j ) = n i , j Σ k n k , j * log | D | | d | - - - ( 1 )
其中ti,j表示出现在文档j中的第i个词条,ni,j表示当前词条ti,j在此文档中的出现次数,Σknk,j表示此文档中的所有词汇数目,|D|表示语料库中文档总数,|d|表示包含当前词条ti,j的文档数目;
将TF-IDF信息用于术语构造中,其理论依据是术语一般会高频集中地出现在某些少量的专业文档中,此现象一方面体现了术语在领域文章中出现次数较高,另一方面也体现了术语经常密集地出现在专业领域文章而非大量普通文章中;由此可见,利用TF-IDF对全局信息进行统计,能够有效完成专业术语的构建;
2)基于C-value和互信息(C-MI)的术语构建模块Ⅱ
本发明实现了另外一种常用的术语提取算法:基于C-value和互信息(Mutual Information)的术语提取算法;一方面,C-value参数在分析简单术语与复杂术语之间的关系、术语与术语上下文之间的关系方面具有较好的优势;另一方面,互信息参数能够度量词语内部紧密程度以及组合的合理性;因此,将两者优势相结合,提出一种精确度相对较高的抽取方法。
C-value考虑的是术语与术语上下文之间的关系,该值受三方面的影响:a)当前字符串在语料集中出现的频率;b)包含当前字符串的候选术语个数;c)包含当前字符串的候选术语种类,具体计算方式如公式(2)所示:
其中S表示候选术语串,F(S)表示S在语料文档集中出现的频率,T(S)表示S所有的父串在文档集中出现的次数,而C(S)表示S所有的父串个数。由上述定义可以看出,若S为极大串,则它不存在父串,即C-value(S)=F(S);相反,若S为子串,则其C-value参数综合考虑了子串S及其所有父串之间的网状关系,例如对于极大子串S1=“苏州大学”及其子串S2=“苏州”,如果F(S1)=F(S2),则C-value(S1)=F(S1),而C-value(S2)=0。因此,C-value考虑了词语嵌套特征,能够有效区分出父串与子串,对于长术语的构建具有重要作用。
另一方面,互信息(Mutual Information)参数度量的是两个子串X和Y之间的相关性,其值常被用于评估字符串内部结合的紧密程度,往往有利于短术语的提取。将该参数用于术语提取任务中,其值越高,则反映了X和Y的整体被作为术语的可能性越大。计算公式如(3)所示:
MI ( X , Y ) = log 2 P ( X , Y ) P ( X ) * P ( Y ) - - - ( 3 )
其中,P(X)和P(Y)分别表示子串X和子串Y在语料中的出现概率,P(X,Y)则表示X和Y作为整体在语料中共现的概率。
综上所述,基于C-value和互信息的术语提取方法综合了C-value参数在长术语提取方面的优势,并与术语提取中的互信息参数相结合,是一种精确度更高的术语自动提取算法。将C-value和互信息相结合的计算方法如公式(4)所示:
CMI(S1S2…Sn)=log2|S|*log(C-value(s))*MIN(S1,S2)…MI(Sn-1,Sn)) (4)
其中S表示多字词字符串,S=S1S2…Sn,|S|表示字符串S的长度。
3)基于领域相关性的术语构建模块Ⅲ
基于领域相关性的方法考虑了词语的领域流通度特征。通过观察术语在整个语料中的分布,发现术语主要有两个分布特征:其一,如果术语与某个文档领域相关,则会在该文档中被频繁使用;其二,如果术语与某个文档的领域同属一个范畴内,但并不直接相关,那么作者只会偶尔提及。所以,如果一个词语在油气管道领域的流通度较大,而在第三方语料中的流通度较小,则认为,该词语的领域相关性较强,因此,作为术语的可能性就较大。如专业术语“压力测试”在对应的领域文本中出现的频率较高,而一般词语如“合格”在任意语料中的分布都较均衡。为了度量词语的领域相关性,本发明引入了第三方语料即搜狗新闻语料。某候选术语S的领域相关度的计算方法如公式(5)所示:
RD ( S ) = P ( S ) * lg P ( S ) Q ( S ) - - - ( 5 )
其中P(S)表示词语S在目标领域中的出现频率,本发明中指在油气管道语料中该词的出现频率,Q(S)表示词语S在搜狗新闻语料中的出现频率。若P(S)>Q(S)且RD,(S)>Threshlod(Threshold为预先设定的阈值),则认为该候选术语与目标领域相关。
4)各算法之间的融合
由上述分析可知,三种术语提取算法均有各自的优势,所以本发明尝试将各算法进行有效融合,如图3中将三种算法两两相融合,图4中将三种算法相融合,充分利用它们之间的互补性以提升系统最终术语构建的准确率和召回率。
a.融合模块Ⅰ和模块Ⅱ的术语构建
该方法融合了TF-IDF、C-value和互信息的优点,更好的利用了词语的词频、结构紧密性和网状术语的特征;
在各模块融合的过程中,最关键的是权重参数的设置,本发明提出一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的权重参数。具体包括三个基本步骤:a)样本抽取:分别选择每种融合方法的Top N个候选术语结果;b)参数训练:如将TF-IDF模块与C-MI模块进行融合时,为了训练得到TF-IDF的权重ɑ和C-MI的权重β,依次设置ɑ从0.1-0.9,则β从0.9-0.1,且以0.1作为参数调整的步长。在不同参数下,对加权后的候选术语进行重排序,统计融合后的术语分布密度规律。c)参数选择:选取最优分布下的参数作为加权权值,具体是通过基于密度的OPTICS聚类算法,统计样本在排序后的术语集中的分布情况,密度算法的值越小,对应的权值越好。
分别对于使用不同方法取得的结果进行在以下区间处理标准术语和非术语,进行训练。
标准术语区间内的选择个数:
区间1:500-1000:20
区间2:1000-5000:20
区间3:5000-20000:20
区间4:20000-50000:20
区间5:50000-140000:20
非术语区间内的选择个数:
区间1:500-1000:5
区间2:1000-5000:10
区间3:5000-20000:15
区间4:20000-50000:30
区间5:50000-140000:35
由先验知识可知,C-value值的结果要优于TF-IDF,因此在参数的训练上,优先选择C-vlaue的值,即可设C-value的权重为a,TF-IDF的权重为b,且满足a+b=1的约束条件,则假设a=0.6开始训练,会得出以下数据及其趋势如图5;
该方法融合了TF-IDF、C-value和互信息的优点,更好的利用了词语的词频、结构紧密性和网状术语的特征;该方法充分考虑了词语的TF-IDF特征和词语的领域相关性特征,对TF-IDF值较高但领域相关性较低的词语进行过滤,同时对一些TF-IDF值较低但领域相关性较高的词语进行提升,优化术语构建结果。通过同样的参数训练方法会得出以下数据及其趋势如图6。通过数据计算对比,可得出TF-IDF算法与C-MI算法的最优融合参数值为:ɑ=0.3,β=0.7。其中ɑ为TF-IDF的权重,β为C-MI的权重。
b.融合模块Ⅰ和模块Ⅲ的术语构建
该方法充分考虑了词语的TF-IDF特征和词语的领域相关性特征,对TF-IDF值较高但领域相关性较低的词语进行过滤,同时对一些TF-IDF值较低但领域相关性较高的词语进行提升,优化术语提取结果;
通过同样的参数训练方法计算对比,可得出TF-IDF算法与RD算法的最优融合参数值为:ɑ=0.8,β=0.2。其中ɑ为TF-IDF的权重,β为C-MI的权重。
c.融合模块Ⅱ和模块Ⅲ的术语构建
该方法在互信息和C-value值的基础上进一步引入了词语的领域相关性特征,从领域流通度的角度对基于互信息和C-value值的术语提取结果进行优化;
通过同样的参数训练方法计算对比,可得出C-MI算法与RD算法的最优融合参数值为:ɑ=0.8,β=0.2。其中ɑ为TF-IDF的权重,β为C-MI的权重。
d.融合模块Ⅰ、模块Ⅱ和模块Ⅲ的术语构建
该方法充分考虑了词语的TF-IDF特征、互信息、C-value值和领域相关性特征,对以上特征进行参数选取,进行基于统计分布密度规律的方法训练,选择最优分布下的参数值,即得到最终输出的术语列表。
通过同样的参数训练方法计算对比,可得出TF-IDF算法、C-MI算法与RD算法的最优融合参数值为:ɑ=0.5,β=0.3,γ=0.2。其中ɑ为TF-IDF的权重,β为C-MI的权重,γ为RD的权重。
在各模块融合的过程中,最关键的是权重参数的设置,本发明提出一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的权重参数。具体包括三个基本步骤:
a)样本抽取:分别选择每种融合方法的topN个候选术语结果;
b)参数训练:如将TF-IDF模块与C-MI模块进行融合时,为了训练得到TF-IDF的权重ɑ和C-MI的权重β,依次设置ɑ从0.1-0.9,则β从0.9-0.1,且以0.1作为参数调整的步长。在不同参数下,对加权后的候选术语进行重排序,统计融合后的术语分布密度规律。
c)参数选择:选取最优分布下的参数作为加权权值,具体是通过基于密度的OPTICS聚类算法,统计样本在排序后的术语集中的分布情况,密度算法的值越小,对应的权值越好。
3.油气管道领域术语构建优化
观察术语提取的初步结果,发现其中包含了一些噪音,因此通过总结规律,制定规则对获得的术语进行过滤,剔除垃圾词语和常规化的词语,优化术语构建的结果。
过滤规则包括:
a)候选术语中包含数字符号,如“表1”、“图2”;
b)候选术语中包含方位词,如“液压上”中,“上”属于方位词;
c)候选术语中包含量词,如“两张表”中的“张”是量词;
d)形如“表*”或“*表”的候选术语,如“表2”、“见表”、“续表”等。
最终,将通过规则优化后的术语集合添加入数据库,形成油气管道领域的核心术语集合,为后期进一步扩充和查找使用提供方便。
本发明利用现有的大规模油气管道专业领域资源,实现油气管道专业领域的核心术语构建。与已有方法相比,具有如下优点:
Ⅰ)本发明提出了一种基于专业技术领域文本的分词优化方法,在中科院分词的基础上,通过词语的优化组合对分词结果进行合理的组合和拆分,确定领域词语的合理边界以实现最佳粒度的分词处理;并通过噪音过滤对分词后的词语进行特殊词语和符号的初步过滤等大幅度提高分词准确率;
Ⅱ)本发明提出了一种多策略融合的术语构建方法,一方面将基于语言规则与基于语料统计相融合,有利于提高整体术语提取的准确率和召回率;另一方面,在统计过程中考虑到多种因素如领域相关度、串频统计等对专业术语的影响,因此尝试将多种统计策略相融合,如TF-IDF、C-value和互信息等,最终提高术语提取的精确率;
III)本发明采用了高效的参数估计方法:一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的融合权重,能够极大地提高了最终相关术语的技术领域。
附图说明
图1油气管道领域的术语提取流程图
图2语料预处理及分词算法优化流程图
图3各算法两两融合图
图4三种算法相融合图
图5C-MI和TF-IDF不同加权对应的结果曲线图
图6TF-IDF和RD不同加权对应的结果曲线图
图7C-MI和RD不同加权对应的结果曲线图
图8TF-IDF、C-MI和RD不同加权对应的结果曲线图
具体实施方式
实施例.以本例来说明本发明的具体实施方式并对本发明作进一步的说明。
本例是一实验方法,其构成如图1-图4所示。选取《GB50253-2006输油管道工程设计规范.doc》中的第6页为例说明本例如何具体实施。
总体流程为:
1)油气管道语料预处理及语料分词结果优化
对油气管道语料进行文本格式转换,进行ICTCLAS分词并优化分词结果,进行噪音过滤得到分词结果;
2)油气管道领域术语构建方法
可以采用TF-IDF算法、C-MI算法、RD算法和组合算法进行术语构建;
3)油气管道领域术语构建优化
将候选术语进行规则过滤,建立标准术语数据库。
下面分别对以上三大模块的具体实施例给予详细说明。
1.语料预处理及分词结果优化
语料分词任务是标准术语处理的基础性工作,旨在对油气管道领域文本进行词语切分,将语料按照特定的语义单元进行合理切分,将语料文本由连续的字序列转换成具有独立意义的词语序列,为术语构建提供基础。语料预处理及分词优化流程见图2。
该部分功能主要完成以下三个子任务:
1)预处理模块:如对给定的word文本《GB50253-2006输油管道工程设计规范第6页》,通过相关预处理操作转化为txt文本形式,得到跟原word版本一样的txt文件,并对转化后的txt文本进行相关调整,如根据转换结果制定相应的规则消除不规范的回车、空格和换行符等,得到《生语料GB50253-2006输油管道工程设计规范》(见GB50253-2006“输油管道工程设计规范”,第1页);
2)分词及其优化:对转化后的txt文本内容进行分词处理,该部分为语料分词的核心部分。首先采用中科院分词工具(ICTCLAS)直接分词,得到《中科院分词GB50253-2006输油管道工程设计规范.txt》(见GB50253-2006“输油管道工程设计规范”,第2、3页)。但实验结果发现中科院分词的分词粒度非常细,即将词语按照最基本的语义单元进行切分,因此对较长词语的分词效果较差,如“压力测试”为油气管道语料的候选术语,但是中科院分词工具会将词语切分成“压力”和“测试”,这样将对后期的术语构建造成较大影响。基于此,我们在中科院分词的基础上,通过词语的优化组合对分词结果进行合理的组合和拆分,确定领域词语的合理边界以实现最佳粒度的分词处理。具体方法是首先根据词典进行逆向最大匹配,然后根据停用词分割:规则为对于某一个候选词s,如果其首字或末字为停用词,并且去除这个停用字后的词在字典中可以找到,则将这个词分割。最后对于每一个词汇可以输出一个根据本地/全局词频、转移数相组合判断得到的新的词序列,得到《分词优化GB50253-2006输油管道工程设计规范.txt》(见GB50253-2006“输油管道工程设计规范”,第4、5页);
3)噪音过滤:对分词后的词语进行特殊词语和符号的初步过滤,如停用词和标点符号等。由于这些特殊词语和符号对后续的术语构建工作的贡献度几乎为零,因此事先过滤这些噪音信息以降低系统处理的时间和空间复杂度,得到《分词_后处理_去除符号GB50253-2006输油管道工程设计规范.txt》(见GB50253-2006“输油管道工程设计规范”,第6页),这即是分词处理的最终结果。
2.三种术语构建算法及算法间的融合
1)基于文档-逆文档频率(TF-IDF)的术语构建模块
TF-IDF(Term Frequency-Inverse Document Frequency)作为一种常用的术语构建算法,充分利用了词语在全局的分布信息。TF(Term Frequency)指的是某个特定词条在该文件中出现的频率,DF(Document Frequency)指的是整个语料文档中包含该给定词条的文件总数。TF-IDF的主要思想是:如果某词条或短语在某篇文档中出现的频率即TF越高,同时包含该词条或短语的文档数目越少,则认为此词条或短语具有很好的文档类别区分能力。由此可见,TF-IDF是从统计的角度,评估当前词条在相应文件中的重要程度,而且此重要程度与当前词条在文件中出现的次数(TF)成正比例关系,与包含该词条的文档总数(DF)成反比例关系。其计算方式如公式(1)所示:
TFIDF ( t i , j ) = n i , j Σ k n k , j * log | D | | d | - - - ( 1 )
其中ti,j表示出现在文档j中的第i个词条,ni,j表示当前词条ti,j在此文档中的出现次数,Σknk,j表示此文档中的所有词汇数目,|D|表示语料库中文档总数,|d|表示包含当前词条ti,j的文档数目。
将TF-IDF信息用于术语构造中,其理论依据是术语一般会高频集中地出现在某些少量的专业文档中,此现象一方面体现了术语在领域文章中出现次数较高,另一方面也体现了术语经常密集地出现在专业领域文章而非大量普通文章中。由此可见,利用TF-IDF对全局信息进行统计,能够有效完成专业术语的构建。
本实施例中基于TF-IDF的术语构建结果是《TF-IDF构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第7、8、9页)。
2)基于C值(C-value)和互信息(MI)的术语构建模块
本发明实现了另外一种常用的术语构建算法:基于C-value和互信息(Mutual Information)的术语构建算法。一方面,C-value参数在分析简单术语与复杂术语之间的关系、术语与术语上下文之间的关系方面具有较好的优势;另一方面,互信息参数能够度量词语内部紧密程度以及组合的合理性。因此,将两者优势相结合,提出一种精确度相对较高的术语构建方法。
C-value考虑的是术语与术语上下文之间的关系,该值受三方面的影响:a)当前字符串在语料集中出现的频率;b)包含当前字符串的候选术语个数;c)包含当前字符串的候选术语种类,具体计算方式如公式(2)所示:
其中S表示候选术语串,F(S)表示S在语料文档集中出现的频率,T(S)表示S所有的父串在文档集中出现的次数,而C(S)表示S所有的父串个数。由上述定义可以看出,若S为极大串,则它不存在父串,即C-value(S)=F(S);相反,若S为子串,则其C-value参数综合考虑了子串S及其所有父串之间的网状关系,例如对于极大子串S1=“中国石油”及其子串S2=“中国”,如果F(S1)=F(S2),则C-value(S1)=F(S1),而C-value(S2)=0。因此,C-value考虑了词语嵌套特征,能够有效区分出父串与子串,对于长术语的构建具有重要作用。
另一方面,互信息(Mutual Information)参数度量的是两个子串X和Y之间的相关性,其值常被用于评估字符串内部结合的紧密程度,往往有利于短术语的构建。将该参数用于术语构建任务中,其值越高,则反映了X和Y的整体被作为术语的可能性越大。计算公式如(3)所示:
MI ( X , Y ) = log 2 P ( X , Y ) P ( X ) * P ( Y ) - - - ( 3 )
其中,P(X)和P(Y)分别表示子串X和子串Y在语料中的出现概率,P(X,Y)则表示X和Y作为整体在语料中共现的概率。
综上所述,基于C-value和互信息的术语构建方法综合了C-value参数在长术语构建方面的优势,并与术语构建中的互信息参数相结合,是一种精确度更高的术语自动构建算法。将C-value和互信息相结合的计算方法如公式(4)所示:
CMI(S1S2…Sn)=log2|S|*log(C-value(S))*MIN(MI(S1,S2)…MI(Sn-1,Sn)) (4)其中S表示多字词字符串,S=S1S2…Sn,|S|表示字符串S的长度。
本实施例中基于C-MI的术语构建结果是《C-MI构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第10、11、12页)。
3)基于领域相关性(RD)的术语构建模块
基于领域相关性的方法考虑了词语的领域流通度特征。通过观察术语在整个语料中的分布,我们发现术语主要有两个分布特征:其一,如果术语与某个文档领域相关,则会在该文档中被频繁使用;其二,如果术语与某个文档的领域同属一个范畴内,但并不直接相关,那么作者只会偶尔提及。所以,如果一个词语在油气管道领域的流通度较大,而在第三方语料中的流通度较小,则认为,该词语的领域相关性较强,因此,作为术语的可能性就较大。如专业术语“压力测试”在对应的领域文本中出现的频率较高,而一般词语如“合格”在任意语料中的分布都较均衡。为了度量词语的领域相关性,本发明引入了第三方语料即搜狗新闻语料。某候选术语S的领域相关度的计算方法如公式(5)所示:
RD ( S ) = P ( S ) * lg P ( S ) Q ( S ) - - - ( 5 )
其中PCS)表示词语S在目标领域中的出现频率,本发明中指在油气管道语料中该词的出现频率,Q(S)表示词语S在搜狗新闻语料中的出现频率。若P(S)>Q(S)且RD(S)>Threshold(Threshold为预先设定的阈值),则认为该候选术语与目标领域相关。
本实施例中基于RD的术语构建结果是《RD构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第13、14、15页)。
4)各算法之间的融合
由上述分析可知,三种术语构建算法均有各自的优势,所以本发明尝试将各算法进行有效融合,如图3中将算法两两相融合,图4将三种算法相融合,充分利用它们之间的互补性以提升系统术语构建的准确率和召回率。
融合模块1和模块2的术语构建方法
该方法融合了TF-IDF、C-value和互信息的优点,更好的利用了词语的词频、结构紧密性和网状术语的特征。
基于TF-IDF算法,C-MI算法和RD算法相融合的术语构建方法如图3所示,充分考虑了TF-IDF的特征、互信息、C-value值和领域相关性特征,将这些特征进行线性加权组合,优化术语构建结果。
在各模块融合的过程中,最关键的是权重参数的设置,本发明提出一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的权重参数。具体包括三个基本步骤:a)样本抽取:分别选择每种融合方法的TopN个候选术语结果;b)参数训练:如将TF-IDF模块与C-MI模块进行融合时,为了训练得到TF-IDF的权重ɑ和C-MI的权重β,依次设置ɑ从0.1-0.9,则β从0.9-0.1,且以0.1作为参数调整的步长。在不同参数下,对加权后的候选术语进行重排序,统计融合后的术语分布密度规律。c)参数选择:选取最优分布下的参数作为加权权值,具体是通过基于密度的OPTICS聚类算法,统计样本在排序后的术语集中的分布情况,密度算法的值越小,对应的权值越好。
分别对于使用不同方法取得的结果进行在以下区间处理标准术语和非术语,进行训练。
标准术语区间内的选择个数:
区间1:500-1000:20
区间2:1000-5000:20
区间3:5000-20000:20
区间4:20000-50000:20
区间5:50000-140000:20
非术语区间内的选择个数:
区间1:500-1000:5
区间2:1000-5000:10
区间3:5000-20000:15
区间4:20000-50000:30
区间5:50000-140000:35
由先验知识可知,C-value值的结果要优于TF-IDF,因此在参数的训练上,优先选择C-vlaue的值,即可设C-value的权重为a,TF-IDF的权重为b,且满足a+b=1的约束条件,则假设a=0.6开始训练,会得出以下数据及其趋势如图5:
通过数据计算对比,可得出TF-IDF算法与C-MI算法的最优融合参数值为:ɑ=0.3,β=0.7。其中ɑ为TF-IDF的权重,β为C-MI的权重。
本实施例中TF-IDF算法与C-MI算法融合的术语构建结果是《TF-IDF和C-MI组合构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第16、17、18页)。
融合模块1和模块3的术语构建
该方法充分考虑了词语的TF-IDF特征和词语的领域相关性特征,对TF-IDF值较高但领域相关性较低的词语进行过滤,同时对一些TF-IDF值较低但领域相关性较高的词语进行提升,优化术语构建结果。通过同样的参数训练方法会得出以下数据及其趋势如图6:
通过同样的参数训练方法计算对比,可得出TF-IDF算法与RD算法的最优融合参数值为:ɑ=0.8,β=0.2。其中ɑ为TF-IDF的权重,β为RD的权重。
本实施例中TF-IDF算法与RD算法融合的术语构建结果是《TF-IDF和RD组合构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第19、20、21页)。
融合模块2和模块3的术语构建
该方法在互信息和C-value值的基础上进一步引入了词语的领域相关性特征,从领域流通度的角度对基于互信息和C-value值的术语构建结果进行优化。通过同样的参数训练方法会得出以下数据及其趋势如图7:
通过同样的参数训练方法计算对比,可得出C-MI算法与RD算法的最优融合参数值为:ɑ=0.8,β=0.2。其中ɑ为C-MI的权重,β为RD的权重。
本实施例中RD算法与C-MI算法融合的术语构建结果是《RD和C-MI组合构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第22、23、24页)。
融合模块1、模块2和模块3的术语构建
该方法充分考虑了词语的TF-IDF特征、C-MI值和领域相关性特征,对以上特征进行参数选取,进行基于统计分布密度规律的方法训练,选择最优分布下的参数值,即得到最终输出的术语列表。基于TF-IDF算法、C-MI算法与RD算法融合的术语构建方法如图8所示。
通过同样的参数训练方法会得出以下数据及其趋势如图8。可得出TF-IDF算法、C-MI算法与RD算法的最优融合参数值为:ɑ=0.3,β=0.5,γ=0.2。其中ɑ为TF-IDF的权重,β为C-MI的权重,γ为RD的权重。
本实施例中TF-IDF算法、C-MI算法与RD算法融合的术语构建结果是《TF-IDF、RD和C-MI组合构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第25、26、27页)。
3.油气管道领域术语构建优化
观察术语构建的初步结果,发现其中包含了一些噪音,因此通过总结规律,制定规则对获得的术语进行过滤,剔除垃圾词语和常规化的词语,优化处理术语构建的结果。
过滤规则包括:
a)候选术语中包含数字符号,如“表1”、“图2”;
b)候选术语中包含方位词,如“液压上”中“上”属于方位词;
c)候选术语中包含量词,如“两张表”中“张”是量词;
d)形如“表*”或“*表”的候选术语,如“表2”、“见表”、“续表”等。
经过以上几种术语构建方法并经过术语结果优化处理后可以得到术语列表文件:《TF-IDF-final构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第28、29、30页)、《C-MI-final构建结果.txt》(见附件2,第31、32、33页)、《RD-final构建结果.txt》(见GB50253-2006“输油管道工程设计规范”,第34、35、36页)。
最终,将通过规则优化后的术语集合添加入数据库,形成油气管道领域的核心术语集合,为后期进一步扩充和查找使用提供方便。
本例经试用:
1)通过词语的优化组合对分词结果进行合理的组合和拆分,确定领域词语的合理边界以实现最佳粒度的分词处理;并通过噪音过滤对分词后的词语进行特殊词语和符号的初步过滤等大幅度提高分词准确率;
2)本例提出了一种多策略融合的术语构建方法,一方面将基于语言规则与基于语料统计相融合,有利于整体提高术语构建的准确率和召回率;另一方面,在统计过程中考虑到多种因素如领域相关度、串频统计等对专业术语的影响,因此尝试将多种统计策略相融合,如TF-IDF、C-value和互信息等,最终提高术语构建的精确率;
3)本例采用了高效的参数估计方法:一种基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的融合权重,最终能够极大地提高相关术语的领域相关性。

Claims (11)

1.一种面向油气管道领域的多策略融合的标准术语处理方法,其特征在于该方法主要分为以下三个模块:1)油气管道领域语料预处理及文本分词结果优化;2)分别通过单一算法以及多种算法组合的形式实现术语构建;3)通过总结的规则对获得的术语进行过滤,剔除垃圾词语和常规的词语,优化术语处理的结果;
总体流程为:
1)油气管道领域语料预处理及语料分词结果优化
油气管道领域文本;
对语料格式进行转换;
进行ICTCLAS分词;
对分词进行优化;
进行噪音过滤;
得分词结果;
2)油气管道领域术语构建方法
得分词结果后,加入第三方语料后进行组合算法、TF-IDF算法、C-MI算法和RD算法;
进行术语构建;
3)油气管道领域术语构建优化
术语构建后,候选术语;
进行规则过滤;
建成标准术语数据库。
2.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述油气管道领域语料预处理及分词结果优化流程为:
1)预处理模块
油气管道领域语料;
对语料格式进行转换后,或得初步分词结果,或得预处理结果;
2)分词模块
进行ICTCLAS分词;
初步分词结果;
对分词进行优化;
3)后处理模块
进行噪音过滤;
得最终分词结果。
该部分功能主要完成以下三个子任务:
1)预处理模块:对给定的word文本,通过相关预处理操作转化为txt文本形式,并对转化后的txt文本进行相关调整,如根据转换结果制定相应的规则,消除不规范的回车、空格和换行符;
2)分词及其优化:对转化后的txt文本内容进行分词处理,该部分为语料分词的核心部分;首先采用中科院分词工具(ICTCLAS)直接分词,但实验结果发现中科院分词的分词粒度非常细,即将词语按照最基本的语义单元进行切分,因此对长度较长的词语的分词效果较差,如“压力测试”为油气管道语料的候选术语,但是中科院分词工具会将词语切分成“压力”和“测试”,这样对后期的术语构建造成较大影响;基于此,在中科院分词的基础上,通过词语的优化组合对分词结果进行合理的组合和拆分,确定领域词语的合理边界以实现最佳粒度的分词处理;具体方法是首先根据词典进行逆向最大匹配,然后根据停用词分割:规则为对于某一个候选词s,如果其首字或末字为停用词,并且去除这个停用字后的词在字典中可以找到,则将这个词分割。最后对于每一个词汇可以输出一个根据本地/全局词频、转移数相组合判断得到的新的词序列,得到《分词优化GB50253-2006输油管道工程设计规范.txt》;
3)噪音过滤:对分词后的词语进行特殊词语和符号的初步过滤,如停用词和标点符号;由于这些特殊词语和符号对后续的术语提取工作的贡献度几乎为零,因此事先过滤这些噪音信息以降低系统处理的时间和空间复杂度。
3.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述油气管道领域术语构建方法为:
基于TF-IDF的术语构建模块Ⅰ;
TF-IDF—Term Frequency–Inverse Document Frequency作为一种常用的术语提取算法,充分利用了词语在全局的分布信息;TF—Term Frequency指的是某个特定词条在该文件中出现的频率,DF—Document Frequency指的是整个语料文档中包含该给定词条的文件总数;TF-IDF是评估当前词条在相应文件中的重要程度,而且此重要程度与当前词条在文件中出现的次数TF成正比例关系,与包含该词条的文档总数DF成反比例关系;其计算方式如公式(1)所示:
其中ti,j表示出现在文档j中的第i个词条,ni,j表示当前词条ti,j在此文档中的出现次数,Σknk,j表示此文档中的所有词汇数目,|D|表示语料库中文档总数,|d|表示包含当前词条ti,j的文档数目
利用TF-IDF对全局信息进行统计,能够有效完成专业术语的构建。
4.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述油气管道领域术语构建方法为:基于C-value和互信息—C-MI的术语构建模块Ⅱ;
C-value考虑的是术语与术语上下文之间的关系,该值受三方面的影响:a)当前字符串在语料集中出现的频率;b)包含当前字符串的候选术语个数;c)包含当前字符串的候选术语种类,具体计算方式如公式(2)所示:
其中S表示候选术语串,F(S)表示S在语料文档集中出现的频率,T(S)表示S所有的父串在文档集中出现的次数,而C(S)表示S所有的父串个数;C-value考虑了词语嵌套特征,能够有效区分出父串与子串;
另一方面,互信息(Mutual Information)参数度量的是两个子串X和Y之间的相关性,其值常被用于评估字符串内部结合的紧密程度,将该参数用于术语构建任务中,其值越高,则反映了X和Y的整体被作为术语的可能性越大;计算公式如(3)所示:
其中,P(X)和P(Y)分别表示子串X和子串Y在语料中的出现概率,P(X,Y)则表示X和Y作为整体在语料中共现的概率;
将C-value和互信息相结合的计算方法如公式(4)所示:
CMI(S1S2…Sn) (4 )
=log2|S|*log(C一value(S))*MIN(MI(S1,S2)…
其中S表示多字词字符串,S=S1S2…Sn,|S|表示字符串S的长度。
5.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述油气管道领域术语构建方法为:基于领域相关性的术语构
建模块Ⅲ;
基于领域相关性的方法考虑了词语的领域流通度特征;为了度量词语的领域相关性,引入了第三方语料即搜狗新闻语料;某候选术语S的领域相关度的计算方法如公式(5)所示:
其中P(S)表示词语S在目标领域中的出现频率,指在油气管道语料中该词的出现频率,Q(S)表示词语S在搜狗新闻语料中的出现频率;若P(S)>Q(S)且RD(S)>Threshold,则认为该候选术语与目标领域相关;其中Threshold为预先设定的阈值。
6.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述油气管道领域术语构建方法为:各算法之间的融合;
a.融合模块Ⅰ和模块Ⅱ的术语构建
该方法融合了TF-IDF、C-value和互信息的优点,更好的利用了词语的词频、结构紧密性和网状术语的特征;
具体包括三个基本步骤:
a)样本抽取:分别选择每种融合方法的Top N个候选术语结果;
b)参数训练:如将TF-IDF模块与C-MI模块进行融合时,为了训练得到TF-IDF的权重ɑ和C-MI的权重β,依次设置ɑ从0.1-0.9,则β从0.9-0.1,且以0.1作为参数调整的步长;在不同参数下,对加权后的候选术语进行重排序,统计融合后的术语分布密度规律;
c)参数选择:选取最优分布下的参数作为加权权值,具体是通过基于密度的OPTICS聚类算法,统计样本在排序后的术语集中的分布情况,密度算法的值越小,对应的权值越好。
分别对于使用不同方法取得的结果进行在以下区间处理标准术语和非术语,进行训练;
标准术语区间内的选择个数:
区间1:500-1000:20
区间2:1000-5000:20
区间3:5000-20000:20
区间4:20000-50000:20
区间5:50000-140000:20
非术语区间内的选择个数:
区间1:500-1000:5
区间2:1000-5000:10
区间3:5000-20000:15
区间4:20000-50000:30
区间5:50000-140000:35
在参数的训练上,优先选择C-vlaue的值,即设C-value的权重为a,TF-IDF的权重为b,且满足a+b=1的约束条件,则假设a=0.6开始训练,会得出以下数据及其趋势;
通过数据计算对比,得出TF-IDF算法与C-MI算法的最优融合参数值为:ɑ=0.3,β=0.7;其中ɑ为TF-IDF的权重,β为C-MI的权重;
b.融合模块Ⅰ和模块Ⅲ的术语构建
该方法充分考虑了词语的TF-IDF特征和词语的领域相关性特征,对TF-IDF值较高但领域相关性较低的词语进行过滤,同时对一些TF-IDF值较低但领域相关性较高的词语进行提升,优化术语提取结果;
通过与a.同样的参数训练方法计算对比,可得出TF-IDF算法与RD算法的最优融合参数值为:ɑ=0.8,β=0.2;其中ɑ为TF-IDF的权重,β为C-MI的权重;
c.融合模块Ⅱ和模块Ⅲ的术语构建
该方法在互信息和C-value值的基础上进一步引入了词语的领域相关性特征,从领域流通度的角度对基于互信息和C-value值的术语提取结果进行优化;
通过与a.同样的参数训练方法计算对比,可得出C-MI算法与RD算法的最优融合参数值为:ɑ=0.8,β=0.2;其中ɑ为TF-IDF的权重,β为C-MI的权重;
d.融合模块Ⅰ、模块Ⅱ和模块Ⅲ的术语构建
该方法充分考虑了词语的TF-IDF特征、互信息、C-value值和领域相关性特征,对以上特征进行参数选取,进行基于统计分布密度规律的方法训练,选择最优分布下的参数值,即得到最终输出的术语列表;
通过同样的参数训练方法计算对比,可得出TF-IDF算法、C-MI算法与RD算法的最优融合参数值为:ɑ=0.5,β=0.3,γ=0.2;其中ɑ为TF-IDF的权重,β为C-MI的权重,γ为RD的权重。
7.根据权利要求1所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述油气管道领域术语构建优化为制定规则对获得的术语进行过滤,剔除垃圾词语和常规化的词语,优化术语构建的结果;
过滤规则包括:
a)候选术语中包含数字符号,如“表1”、“图2”;
b)候选术语中包含方位词,如“液压上”中,“上”属于方位词;
c)候选术语中包含量词,如“两张表”中的“张”是量词;
d)形如“表*”或“*表”的候选术语,如“表2”、“见表”、“续表”;
最终,将通过规则优化后的术语集合添加入数据库,形成油气管道领域的核心术语集合。
8.根据权利要求2所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述预处理模块是对给定的word语料,通过相关预处理操作转化为txt语料形式,并对转化后的txt语料进行相关调整,根据转换结果制定相应的规则,消除不规范的回车、空格和换行符。
9.根据权利要求2所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述分词模块是对转化后的txt语料内容进行分词处理首先采用中科院分词工具ICTCLAS直接分词,在中科院分词的基础上,通过词语的优化组合对分词结果进行合理的组合和拆分,确定领域词语的合理边界以实现最佳粒度的分词处理;具体方法是首先根据词典进行逆向最大匹配,然后根据停用词分割:规则为对于某一个候选词s,如果其首字或末字为停用词,并且去除这个停用字后的词在字典中可以找到,则将这个词分割;最后对于每一个词汇可以输出一个根据本地/全局词频、转移数相组合判断得到的新的词序列,得到《分词优化GB50253-2006输油管道工程设计规范.txt》。
10.根据权利要求2所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述后处理模块是对分词后的词语进行特殊词语和符号的初步过滤;由于这些特殊词语和符号对后续的术语提取工作的贡献度几乎为零,事先过滤这些噪音信息以降低系统处理的时间和空间复杂度。
11.根据权利要求6所述的面向油气管道领域的多策略融合的标准术语处理方法,其特征在于所述权重参数的设置是基于统计分布密度规律的方法来训练和选择最优分布下的参数作为最终的权重参数;具体包括三个基本步骤:
a)样本抽取:分别选择每种融合方法的top N个候选术语结果;
b)参数训练:如将TF-IDF模块Ⅰ与C-MI模块Ⅱ进行融合时,为了训练得到TF-IDF的权重ɑ和C-MI的权重β,依次设置ɑ从0.1-0.9,则β从0.9-0.1,且以0.1作为参数调整的步长;在不同参数下,对加权后的候选术语进行重排序,统计融合后的术语分布密度规律;
c)参数选择:选取最优分布下的参数作为加权权值,具体是通过基于密度的OPTICS聚类算法,统计样本在排序后的术语集中的分布情况,密度算法的值越小,对应的权值越好。
CN201310088217.8A 2013-03-19 2013-03-19 面向油气管道领域的多策略融合的标准术语处理方法 Active CN104063382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310088217.8A CN104063382B (zh) 2013-03-19 2013-03-19 面向油气管道领域的多策略融合的标准术语处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310088217.8A CN104063382B (zh) 2013-03-19 2013-03-19 面向油气管道领域的多策略融合的标准术语处理方法

Publications (2)

Publication Number Publication Date
CN104063382A true CN104063382A (zh) 2014-09-24
CN104063382B CN104063382B (zh) 2018-01-02

Family

ID=51551098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310088217.8A Active CN104063382B (zh) 2013-03-19 2013-03-19 面向油气管道领域的多策略融合的标准术语处理方法

Country Status (1)

Country Link
CN (1) CN104063382B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598608A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 一种垂直领域的概念一致性关系构建方法和装置
CN105159892A (zh) * 2015-08-28 2015-12-16 长安大学 一种语料提取器及提取语料的方法
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN109492098A (zh) * 2018-10-24 2019-03-19 北京工业大学 基于主动学习和语义密度的目标语料库构建方法
CN110852059A (zh) * 2019-11-14 2020-02-28 中国农业科学院农业信息研究所 一种基于分组的文档内容差异对比可视化分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323211A (ja) * 2006-05-30 2007-12-13 Fuji Xerox Co Ltd 専門用語抽出ルール取得システム、専門用語抽出ルール取得処理方法及び専門用語抽出ルール取得プログラム
CN101122919A (zh) * 2007-09-14 2008-02-13 中国科学院计算技术研究所 一种专业术语抽取方法和系统
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323211A (ja) * 2006-05-30 2007-12-13 Fuji Xerox Co Ltd 専門用語抽出ルール取得システム、専門用語抽出ルール取得処理方法及び専門用語抽出ルール取得プログラム
CN101122919A (zh) * 2007-09-14 2008-02-13 中国科学院计算技术研究所 一种专业术语抽取方法和系统
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
傅继彬 等: ""基于语言特性的中文领域术语抽取算法"", 《北京理工大学学报》 *
张华楠 等: ""基于动态权值的多策略领域本体概念自动抽取"", 《计算机工程与应用》 *
梁颖红 等: ""C值和互信息相结合的术语抽取"", 《计算机应用与软件》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598608A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 一种垂直领域的概念一致性关系构建方法和装置
CN105159892A (zh) * 2015-08-28 2015-12-16 长安大学 一种语料提取器及提取语料的方法
CN105159892B (zh) * 2015-08-28 2018-04-03 长安大学 一种语料提取器及提取语料的方法
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN108363691B (zh) * 2018-02-09 2021-07-20 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN109492098A (zh) * 2018-10-24 2019-03-19 北京工业大学 基于主动学习和语义密度的目标语料库构建方法
CN109492098B (zh) * 2018-10-24 2022-05-06 北京工业大学 基于主动学习和语义密度的目标语料库构建方法
CN110852059A (zh) * 2019-11-14 2020-02-28 中国农业科学院农业信息研究所 一种基于分组的文档内容差异对比可视化分析方法
CN110852059B (zh) * 2019-11-14 2023-08-29 中国农业科学院农业信息研究所 一种基于分组的文档内容差异对比可视化分析方法

Also Published As

Publication number Publication date
CN104063382B (zh) 2018-01-02

Similar Documents

Publication Publication Date Title
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN103399901B (zh) 一种关键词抽取方法
CN102411621B (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
CN103064969A (zh) 自动建立关键词索引表的方法
CN103218436B (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN106021272A (zh) 基于分布式表达词向量计算的关键词自动提取方法
CN103207905A (zh) 一种基于目标文本的计算文本相似度的方法
CN102402561B (zh) 一种搜索方法和装置
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN104063382A (zh) 面向油气管道领域的多策略融合的标准术语处理方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN108920599B (zh) 一种基于知识本体库的问答系统答案精准定位和抽取方法
CN104765779A (zh) 一种基于YAGO2s的专利文档查询扩展方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN104572758A (zh) 一种电力领域专业词汇自动抽取方法及系统
CN112434532A (zh) 一种支持人机双向理解的电网环境模型及建模方法
CN110390022A (zh) 一种自动化的专业知识图谱构建方法
CN102567537A (zh) 一种基于检索结果数量的短文本相似度计算方法
CN113515939B (zh) 一种勘察报告文本关键信息提取系统和提取方法
CN104217026A (zh) 一种基于图模型的中文微博客倾向性检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211105

Address after: Room 08-10, 6 / F, block a, No. 5, Dongtucheng Road, Chaoyang District, Beijing 100013

Patentee after: National Petroleum and natural gas pipeline network Group Co.,Ltd.

Address before: 100007 Oil Mansion, 9 North Avenue, Dongcheng District, Beijing, Dongzhimen

Patentee before: PETROCHINA Co.,Ltd.

TR01 Transfer of patent right