CN103778243A

CN103778243A - 一种领域术语抽取方法

Info

Publication number: CN103778243A
Application number: CN201410047277.XA
Authority: CN
Inventors: 张仰森; 蒋琳
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2014-02-11
Filing date: 2014-02-11
Publication date: 2014-05-07
Anticipated expiration: 2034-02-11
Also published as: CN103778243B

Abstract

本发明提供一种领域术语抽取方法，包括步骤：对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理；对当前格式化领域文本进行词频统计；采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集；根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选，得到第二候选领域术语集；对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理，得到第三候选领域术语集；对第三候选领域术语集进行通用词库过滤处理，得到领域术语。本发明具有抽取效果较好的特点，可广泛应用于词语抽取领域。

Description

一种领域术语抽取方法

技术领域

本发明涉及抽取技术，特别是涉及一种领域术语抽取方法。

背景技术

领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异，一些特定领域的专业术语不断扩大与更新，因此按照传统的人工搜集领域术语的方式已无法满足实际需求，自动抽取领域术语（ATE，Automatic TermExtraction）已成为了必然。实际应用中，领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。

领域术语具有两个可统计度量的特性：一是成词度，即，单元性或语言完备性，其从词语结构出发衡量一个字符串是否能独立表达一个完整概念、是否具有符合词法规则的稳定结构；二是领域度，其从词语的隶属度出发衡量一个字符串与特定领域的相关程度。从构词方式而言，领域术语可分为单词型领域术语与词组型领域术语。单词型领域术语由一个单词构成，且此单词是不能再分解的最小独立组成单元；词组型领域术语是由两个以上的单词或语素按照一定语法结构组成的。实际应用中，大部分领域术语属于词组型领域术语，故词组型领域术语是领域术语抽取的重点，同时也是难点。

目前，领域术语抽取方法概括而言主要分为三种：第一种是基于语言规则的方法，其根据领域术语的构词特征定制一系列规则模板，但由于无法实现用少量规则覆盖复杂的领域术语构成规律，故该方法抽取效果较差；第二种是基于统计的方法，其根据统计领域术语在大量文本中的出现特征抽取领域术语，该方法中的各统计策略各有优缺点和适用情况，至今还没有一种方法的效果能得到一致的认同；第三种是基于规则与统计相结合的方法，其弥补上述两种方法各自的缺陷，是领域术语抽取的方向，但是当前基于此方面的研究仍较少。

由此可见，在现有技术中，领域术语提取效果比较差。

发明内容

有鉴于此，本发明的主要目的在于提供一种抽取效果比较好的领域术语抽取方法。

为了达到上述目的，本发明提出的技术方案为：

一种领域术语抽取方法，包括如下步骤：

步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理，对背景领域文本进行预处理、分词处理，分别得到当前格式化领域正文与格式化背景领域正文。

步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计，分别得到带词性的词频数f_d与不带词性的词频数f_b。

步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语，得到第一候选领域术语集。

步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选，删除第一候选领域术语集中不符合成词度条件的候选领域术语后，得到第二候选领域术语集。

步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理，得到第三候选领域术语集。

步骤6、对第三候选领域术语集进行通用词库过滤处理，得到领域术语。

综上所述，本发明所述领域术语抽取方法对当前待抽取领域文本与背景领域文本进行预处理、格式化处理等处理后进行词频统计，并依次采用左右信息熵扩展方法、成词度筛选、领域度筛选、通用词库过滤等层层筛选或过滤后，得到领域术语，故本发明所述方法的领域术语抽取效果比较好。

附图说明

图1是本发明所述领域术语抽取方法的流程示意图。

图2是本发明所述对当前待抽取领域文本与背景领域文本依次进行预处理的流程示意图。

图3是本发明所述去停用词处理的流程示意图。

图4为本发明所述左右信息熵扩展方法的流程示意图。

图5为本发明所述成词度筛选的流程示意图。

图6为本发明所述领域度筛选的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1是本发明所述领域术语抽取方法的流程示意图。如图1所示，本发明所述领域术语抽取方法，包括如下步骤：

步骤1中，对于非网页类的当前待抽取领域文本与背景领域文本，预处理用于去除当前待抽取领域文本与背景领域文本中的文献来源、出版信息、文献题目、作者、中英文关键词、中英文摘要、中图法分类号以及作者信息、E-mail信息、参考文献、收稿和修改稿的时间等信息，只保留当前待抽取文本与背景领域文本的正文内容；同时，预处理还可以去除正文中的空行与较大块的公式。对于网页类的当前待抽取领域文本与背景领域文本，预处理用于去除当前待抽取领域文本与背景领域文本中的较有规律的非中文字符、空行、大篇幅非中文段落、链接信息等。

本发明中，所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。

本发明中，通用词库为现有技术，此处不再赘述。

总之，本发明所述领域术语抽取方法对当前待抽取领域文本与背景领域文本进行预处理、格式化处理等处理后进行词频统计，并依次采用左右信息熵扩展方法、成词度筛选、领域度筛选、词库过滤等层层筛选或过滤后，得到领域术语，故本发明所述方法的领域术语抽取效果比较好。

图2是本发明所述对当前待抽取领域文本与背景领域文本依次进行预处理的流程示意图。如图3所示，本发明步骤1中，所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤：

步骤111、移除当前待抽取领域文本与背景领域文本中的无用项，分别得到当前待抽取领域正文与背景领域正文。

步骤112、对当前待抽取领域正文与背景领域正文进行格式统一化处理，分别得到当前预处理格式化领域正文与预处理格式化背景领域正文。

图3是本发明所述去停用词处理的流程示意图。如图3所示，本发明步骤1中，所述去停用词处理具体包括如下步骤：

步骤121、设定第一阈值ζ，确定当前格式化领域正文中的各词语或字，并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文中出现的次数p_i、当前格式化领域正文所属领域语料库中所有领域文本总数q；其中，i表示当前格式化领域正文中各词语序号或各字序号，且为自然数。

步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词：当p_i/q>ζ时，则当前格式化领域正文中第i个词语或字为停用词。

步骤123、从当前待抽取领域文本中删除该停用词。

图4为本发明所述左右信息熵扩展方法的流程示意图。如图4所示，本发明步骤3具体包括如下步骤：

步骤31、设定第二阈值γ、第三阈值δ，将带词性的词频数f_d>γ或不带词性的词频数f_b>γ的字或词语作为候选词；将候选词X_j作为当前中心词，设定临时候选领域术语S₀=X_j、S_l0=X_j、S_r0=X_j，设置标志位flag_l=true、flag_r=true；其中，X_j为第j个候选词，γ>1，且j、γ为自然数；

步骤32、获取当前中心词X_j与其左侧候选词X_j-1结合后的信息熵、当前中心词X_j与其右侧候选词X_j+1结合后的信息熵，分别如下：

Entropy_l(j-1)(X)=-∑_LP(X_l(j-1)X_j|X_j)log₂P(X_l(j-1)X_j|X_j)，

Entropy_r(j+1)(X)=-∑_RP(X_jX_r(j+1)|X_j)log₂P(X_jX_r(j+1)|X_j)；

之后，并行执行步骤33、步骤34；

步骤33、判别Entropy_l(j-1)(X)<δ是否成立：如果不成立，则判别是否满足flag_l=true与flag_r=true：若满足，则令flag_l=false、X_j=S₀，并执行步骤34；若不满足，则执行步骤35；如果成立，则根据当前中心词X_j与其左侧各候选词X_j-1共现的条件概率

与IRCT_lk=max{P(X_lkX_j|X_j)}确定组合X_lkS_l0后，令S_l0=X_lkS_l0、X_j=X_lk、S_r0=S_l0，并判定j=1是否成立：如果是，则判别是否满足flag_l=true与flag_r=true：若满足，则令flag_l=false、X_j=S₀，并执行步骤34；若不满足，则执行步骤35；如果不是，则返回步骤32；其中，k为自然数，且k=0、1、...、j-1；

步骤34、判别Entropy_r(j+1)(X)<δ是否成立：如果不成立，则判别是否满足flag_l=true与flag_r=true：若满足，则令flag_l=false、X_j=S₀，并执行步骤33；若不满足，则执行步骤35；如果成立，则根据当前中心词X_j与其右侧候选词X_j+1共现的条件概率

与IRCT_rm=max{P(X_jX_rm|X_j)}确定组合S_r0X_rm后，令S_r0=S_r0X_rm、X_j=X_rm、S_l0=S_r0，并判定m=j+n是否成立：如果是，则判别是否满足flag_r=true与flag_l=true：若满足，则令flag_r=false，X_j=S₀，并执行步骤33；若不满足，则执行步骤35；如果不是，返回步骤32；其中，n为X_j右侧字或词语的最大序数，m、n为自然数，且m=j+1、j+2、...、j+n；

步骤35、将得到的扩展结果S_l0或S_r0组成的集合作为第一候选领域术语集。

本发明步骤4中，所述成词度条件包括词性搭配规则、边界信息概率规则，所述词性搭配规则如下：

图5为本发明所述成词度筛选的流程示意图。如图5所示，本发明所述步骤4具体包括如下步骤：

步骤41、删除第一候选领域术语集中不符合所述词性搭配规则的候选领域术语。

步骤42、设定第四阈值ω、第五阈值η；对于符合所述词性搭配规则的各候选领域术语，根据首字出现概率库或首词出现概率库，当候选领域术语首字在首字出现概率库中的概率或候选领域术语首词在首词出现概率库中的概率小于第四阈值ω时，删除该候选领域术语；对于符合所述词性搭配规则的各候选领域术语，根据尾字出现概率库或尾词出现概率库，当候选领域术语尾字在尾字出现概率库中的概率或候选领域术语尾词在尾词出现概率库中的概率小于第五阈值η时，删除该候选领域术语；之后，得到第二候选领域术语集。

本发明中，首字出现概率库、尾字出现概率库、首词出现概率库、尾词出现概率库为现有技术，此处不再赘述。

本发明中，将第二候选领域术语集加入现有分词系统的用户词典中。

本发明中，第一候选领域术语集中的各领域术语是通过对当前待抽取领域文本中词语间的共现规律的统计结果，其未必符合词性搭配规则；故本发明采用词性搭配规则将无关词语或字过滤掉。同时，通过根据对候选领域术语首词或尾词的出现特征的首字出现概率、尾字出现概率进一步将无关词语或字过滤掉，以确定候选领域术语的真正边界。

图6为本发明所述领域度筛选的流程示意图。如图6所示，本发明所述步骤5中具体包括如下步骤：

步骤51、设定第六阈值

步骤52、判断第二候选领域术语集中的各候选领域术语是否满足如下领域度筛选条件

如果不满足，则删除该候选领域术语，得到第三候选领域术语集；其中，S_u为第二候选领域术语集中的第u个候选领域术语，v_b为领域文本的总字数，TF(S_u，v)表示S_u在b篇领域文本中的出现频次，w为背景领域文本数，DF(S_u)表示背景领域文本库中S_u出现的背景领域文本数。

本发明中，第二候选领域术语集中的候选领域术语只是满足了成词度条件，即具备了语言完备性；但其却不一定隶属于特定领域，故还需要从领域度角度出发进一步进行筛选。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种领域术语抽取方法，其特征在于，所述抽取方法包括如下步骤：

步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理，对背景领域文本进行预处理、分词处理，分别得到当前格式化领域正文与格式化背景领域正文；

步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计，分别得到带词性的词频数f_d与不带词性的词频数f_b；

步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语，得到第一候选领域术语集；

步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选，删除第一候选领域术语集中不符合成词度条件的候选领域术语后，得到第二候选领域术语集；

步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理，得到第三候选领域术语集；

2.根据权利要求1所述的领域术语抽取方法，其特征在于，所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。

3.根据权利要求1所述的领域术语抽取方法，其特征在于，步骤1中，所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤：

步骤111、移除当前待抽取领域文本与背景领域文本中的无用项，分别得到当前待抽取领域正文与背景领域正文；

4.根据权利要求3所述的领域术语抽取方法，其特征在于，步骤1中，所述去停用词处理具体包括如下步骤：

步骤121、设定第一阈值ζ，确定当前格式化领域正文中的各词语或字，并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文所属领域语料库中出现的文本数p_i、当前格式化领域正文所属领域语料库中所有领域文本总数q；其中，i表示当前格式化领域正文中各词语序号或各字序号，且为自然数；

步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词：当p_i/q＞ζ时，则当前格式化领域正文中第i个词语或字为停用词；

步骤123、从当前待抽取领域文本中去掉该停用词。

5.根据权利要求1所述的领域术语抽取方法，其特征在于，步骤3具体包括如下步骤：

Entropy_l(j-1)(X)=-∑_LP(X_l(j-1)X_j|X_j)log₂P(X_l(j-1)X_j|X_j)，

Entropy_r(j+1)(X)=-∑_RP(X_jX_r(j+1)|X_j)log₂P(X_jX_r(j+1)|X_j)；

之后，并行执行步骤33、步骤34；

与IRCT_rm=max{P(X_jX_rm|X_j)}确定组合S_r0X_rm后，令S_r0=S_r0X_rm、X_j=X_rm、S_l0=S_r0，并判定m=j+n是否成立：如果是，则判别是否满足flag_r=true与flag_l=true：若满足，则令flag_r=false、X_j=S₀，并执行步骤33；若不满足，则执行步骤35；如果不是，返回步骤32；其中，n为X_j右侧字或词语的最大序数，m、n为自然数，且m=j+1、j+2、...、j+n；

6.根据权利要求2所述的领域术语抽取方法，其特征在于，步骤4中，所述成词度条件包括词性搭配规则、边界信息概率规则，所述词性搭配规则如下：

7.根据权利要求6所述的领域术语抽取方法，其特征在于，所述步骤4具体包括如下步骤：

步骤41、删除第一候选领域术语集中不符合所述词性搭配规则的候选领域术语；

步骤42、设定第四阈值ω、第五阈值η；对于符合所述词性搭配规则的各候选领域术语，根据首字出现概率库，当候选领域术语首字在首字出现概率库中的概率小于第四阈值ω时，删除该候选领域术语；对于符合所述词性搭配规则的各候选领域术语，根据尾字出现概率库，当候选领域术语尾字在尾字出现概率库中的概率小于第五阈值η时，删除该候选领域术语；之后，得到第二候选领域术语集。

8.根据权利要求1所述的领域术语抽取方法，其特征在于，所述步骤5中具体包括如下步骤：

步骤51、设定第六阈值