CN104598530B

CN104598530B - 一种领域术语抽取的方法

Info

Publication number: CN104598530B
Application number: CN201410831590.2A
Authority: CN
Inventors: 江潮; 张芃
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Wuhan Transn Information Technology Co., Ltd.
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2018-06-05
Anticipated expiration: 2034-12-26
Also published as: CN104598530A

Abstract

一种领域术语抽取的方法，包括：对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析，确定该候选术语的多个特征参数；利用确定的所述多个特征参数，计算出该候选术语的领域术语度；抽取所述领域术语度高于阈值的候选术语作为新的领域术语。本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行充分的分析，保证提取的术语可靠性和准确性较高。

Description

一种领域术语抽取的方法

技术领域

本发明属于数据挖掘技术领域，尤其是一种领域术语抽取的方法。

背景技术

领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异，一些特定领域的专业术语不断扩大与更新，因此按照传统的人工搜集领域术语的方式已无法满足实际需求，自动抽取领域术语(ATE，Automatic Term Extraction)已成为了必然。实际应用中，领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。

目前，业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定，领域术语提取效果比较差。

发明内容

本发明的目的之一是提供一种领域术语抽取的方法，以解决现有技术中对于领域术语提取效果比较差的问题。

在一些说明性实施例中，所述领域术语抽取的方法，包括：对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析，确定该候选术语的多个特征参数；利用确定的所述多个特征参数，计算出该候选术语的领域术语度；抽取所述领域术语度高于阈值的候选术语作为新的领域术语。

与现有技术相比，本发明的说明性实施例包括以下优点：

本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行多个维度的充分的分析，保证提取的术语可靠性和准确性较高。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是按照本发明的说明性实施例的流程图。

具体实施方式

在以下详细描述中，提出大量特定细节，以便于提供对本发明的透彻理解。但是，本领域的技术人员会理解，即使没有这些特定细节也可实施本发明。在其它情况下，没有详细描述众所周知的方法、过程、组件和电路，以免影响对本发明的理解。

本发明中所采用的术语“语素”是指语言数据中的不可拆分的最小单位，对应为一个字或一个单词。

如图1所示，公开了一种领域术语抽取的方法，包括：

S11、对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；

S12、从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析，确定该候选术语的多个特征参数；

S13、利用确定的所述多个特征参数，计算出该候选术语的领域术语度；

S14、抽取所述领域术语度高于阈值的候选术语作为新的领域术语。

以下对上述方法进行详细说明：

例如：原始语料“中华人民共和国”进行切分，首先以两个语素单位进行切分，可以获得“中华”、“华人”、“人民”、“民共”、“共和”、“和国”六个候选术语，再以三个语素单位进行切分，可以获得“中华人”、“华人民”、“人民共”、“民共和”、“共和国”五个候选术语，再以4个语素单位进行切分，可以获得“中华人民”、“华人民共”、“人民共和”、“民共和国”四个候选术语，再以5个语素单位进行切分，可以获得“中华人民共”、“华人民共和”、“人民共和国”三个候选术语，再以6个语素单位进行切分，可以获得“中华人民共和”、“华人民共和国”两个候选术语，以7个语素单位进行切分，即得到候选术语“中华人民共和国”。以上共获得21个候选术语。

以上的切分过程是为了便于更快的理解本发明的说明性实施例的示例，原始语料可以是一个文本或一个文本集合，其中由大量的语素组成，切分过程更加复杂，另外，如果术语过长，该术语就可以理解为一个句子了，所以对术语的长度需要进行限定，限定最大切分单位，例如最大切分单位为10个语素。

所述从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析，确定该候选术语的多个特征参数，具体包括：

1)、对候选术语的出现概率进行分析，即候选术语在所述原始语料中的出现概率；该候选术语的出现次数比上候选术语的总数。

例如该候选术语在原始语料中与其它7个候选术语相同，那么该候选术语的出现次数为8次，再比上候选术语的总数，即得到该候选术语的出现概率。

2)、对候选术语进行互信息的分析，得到候选术语被分割为任意长度的两部分，所述任意两部分的互信息的最小值。

例如：分析的候选术语C的长度为l个语素单位，以第k个语素位置，进行拆分，得到的前部为c₁～c_k，后部为c_k+1～c_l。

按照如下公式进行互信息的计算：

其中，c₁c₂…c_l分别对应为候选术语C中相应位置的语素，P(c₁c₂…c_l)为该候选术语C在原始语料中的出现概率，P(c₁c₂…c_k)为候选术语C的前部在原始语料中的出现概率，P(c_k+1c_k+2…c_l)为候选术语C的后部在原始语料中的出现概率，该出现概率的获得方法与1)中相同，在此不再赘述。

互信息的最小值的获取，例如：候选术语ABC，第一次拆分为A，和BC，第二次拆分为AB和C，两次互信息的计算依次为0.5和0.6，取0.5作为候选术语ABC的互信息。

3)、对候选术语进行左右熵的分析，确定候选术语的左右熵

按照如下公式进行计算：

其中，LH(C)为候选术语C的左熵，L表示出现在候选术语C左侧的词汇集合，P(lC|C)为词汇l出现在候选术语C左侧的条件概率；

其中，RH(C)为候选术语C的右熵，R表示出现在候选术语C右侧的词汇集合，P(Cr|C)为词汇r出现在候选术语C左右的条件概率；

其中，LRH为候选术语C的左右熵，通过对其左熵和右熵取最大值获得。

4)、对候选术语的独立性进行分析，即候选术语具有的每个语素均在历史语料库中独立成词的概率

按照如下公式进行计算出候选术语中的每个语素x独立成词的概率IPW(x)：

其中，word(x)为语素x在历史语料库中独立成词的次数，times(x)表示语素x在历史语料库中出现的总次数；

按照如下公式计算出候选术语C独立成词的概率IPW(C)：

IPW(C)＝IPW(c₁c₂…c_l)＝IPW(c₁)·IPW(c₂)·…·IPW(c_l)

5)、对候选术语中的每个语素出现的位置进行分析，根据内部词概率表获得候选术语不同位置的语素的出现概率；其中内部词概率表的获取方法为，在已有的术语语料库中，计算其中每个语素x出现在术语的头、中、尾的概率，从而得到一个包含所有语素的内部词概率表。公式如下：

其中“*”表示和语素x组成术语的前后语素组合，times(X)表示术语X在术语语料库中的出现次数。IPC(x,pos)表示语素x出现在位置pos的概率。pos取值为{0,1,2}，0表示位置在词头、1表示位置在词中、2表示位置在词尾。

对于待计算的l元字符串C＝c₁c₂…c_l，根据上述所得的内部词概率表，其内部词概率IPC的计算方法为：

6)、对候选术语中的每个语素或语素组合在历史语料库中的出现概率进行分析，确定候选术语的领域概率

统计并计算出候选术语的每个语素或语素组合在历史语料库中的出现概率P(F_c_i)；

再按照如下公式计算出候选术语的领域概率PC：

在一些说明性实施例中，所述利用确定的所述多个特征参数，计算出该候选术语的领域术语度，具体包括：

按照如下公式计算出每个候选术语的领域术语度Termhood：

Termhood＝K₁·P+K₂·MI+K₃·LRH+K₄·IPW+K₅·IPC+K₆·PC

其中，K₁、K₂、K₃、K₄、K₅和K₆为通过给定样本利用最小二乘法计算出的领域术语度调节系数，所述领域术语度调节系数为多元线性回归系数。

系数的具体计算方法如下：

令：Y＝Termhood，X₁＝P，X₂＝MI，X₃＝LRH，X₄＝IPW，X₅＝IPC，X₆＝PC

对于给定的n组样本有：

Y₁＝K₁·X₁₁+K₂·X₁₂+K₃·X₁₃+K₄·X₁₄+K₅·X₁₅+K₆·X₁₆

Y₂＝K₁·X₂₁+K₂·X₂₂+K₃·X₂₃+K₄·X₂₄+K₅·X₂₅+K₆·X₂₆

Y_n＝K₁·X_n1+K₂·X_n2+K₃·X_n3+K₄·X_n4+K₅·X_n5+K₆·X_n6

则：

其中，X′为X的转置矩阵

在一些说明性实施例中，所述抽取所述领域术语度高于阈值的候选术语作为新的领域术语的过程中，还包括：

将高于阈值的候选术语进行推送，进行人工确定。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种领域术语抽取的方法，其特征在于，包括：

对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；

从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析，确定该候选术语的多个特征参数；

利用确定的所述多个特征参数，计算出该候选术语的领域术语度；

抽取所述领域术语度高于阈值的候选术语作为新的领域术语；

其中，按照如下公式计算出每个候选术语的领域术语度Termhood：

Termhood＝K₁·P+K₂·MI+K₃·LRH+K₄·IPW+K₅·IPC+K₆·PC

其中，P为候选术语在所述原始语料中的出现概率；MI为候选术语的两部分的互信息的最小值，其中候选术语被分割为任意长度的两部分；LRH为候选术语的左右熵；IPW为候选术语具有的每个语素在历史语料库中独立成词的概率；IPC为候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现概率；PC为候选术语中的领域概率；K₁、K₂、K₃、K₄、K₅和K₆为通过给定样本利用最小二乘法计算出的领域术语度调节系数，所述领域术语度调节系数为多元线性回归系数；

其中，按照如下公式计算候选术语C独立成词的概率IPW(C)：

IPW(C)＝IPW(c₁c₂…c₁)＝IPW(c₁)·IPW(c₂)·…·IPW(c_l)；

其中，c₁、c₂、…、c_l分别为候选术语C中相应位置的语素，IPW(c₁)、IPW(c₂)、…、IPW(c_l)为每个语素独立成词的概率；

其中，按照如下公式计算候选术语中的每个语素x独立成词的概率IPW(x)：

其中，对于待计算的l元字符串C＝c₁c₂…c_l，根据内部词概率表，计算IPC的方法为：

<mrow> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mo>=</mo> <mroot> <mrow> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>l</mi> </msub> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mfrac> <mn>1</mn> <mrow> <mi>l</mi> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mn>3</mn> </mroot> </mrow>

其中，IPC(x,pos)表示语素x出现在位置pos的概率；pos取值为{0,1,2}，0表示位置在词头、1表示位置在词中、2表示位置在词尾；

其中，计算语素x出现在术语的词头、词中、词尾的概率，从而得到包含所有语素的内部词概率表的方式如下：

其中，“*”表示和语素x组成术语的前后语素组合，times(x)表示术语x在术语语料库中的出现次数；

其中，照如下公式计算候选术语的领域概率PC：

其中，P(F_c_i)为候选术语的每个语素或语素组合在历史语料库中的出现概率，n为候选术语的语素个数或语素组合的个数。

2.根据权利要求1所述的领域术语抽取的方法，其特征在于，所述确定该候选术语的多个特征参数中包括每个所述候选术语在所述原始语料中的出现概率。

3.根据权利要求1所述的领域术语抽取的方法，其特征在于，所述确定该候选术语的多个特征参数中包括每个候选术语被分割为任意长度的两部分，所述任意两部分的互信息的最小值。

4.根据权利要求1所述的领域术语抽取的方法，其特征在于，所述确定该候选术语的多个特征参数中包括每个所述候选术语的左右熵；其中，所述候选术语的左右熵为该候选术语的左熵和右熵两者中的最大值。

5.根据权利要求1所述的领域术语抽取的方法，其特征在于，所述确定该候选术语的多个特征参数中包括每个所述候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现概率。

6.根据权利要求1所述的领域术语抽取的方法，其特征在于，所述确定该候选术语的多个特征参数中包括每个所述候选术语中的领域概率；

所述领域概率通过对该候选术语所具有的每个语素或语素组合在历史语料库中出现概率进行计算获得。