CN104572622A

CN104572622A - 一种术语的筛选方法

Info

Publication number: CN104572622A
Application number: CN201510003087.2A
Authority: CN
Inventors: 江潮; 张芃
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language network (Wuhan) Information Technology Co., Ltd.
Priority date: 2015-01-05
Filing date: 2015-01-05
Publication date: 2015-04-29
Anticipated expiration: 2035-01-05
Also published as: CN104572622B

Abstract

一种术语的筛选方法，包括：对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选；将经过多次筛选后，剩余的候选术语作为新的术语。本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行多次筛选，减少了人工处理的工作量，确保得到的术语可靠性和准确性较高。

Description

一种术语的筛选方法

技术领域

本发明属于数据挖掘技术领域，尤其是一种术语的筛选方法。

背景技术

领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异，一些特定领域的专业术语不断扩大与更新，因此按照传统的人工搜集领域术语的方式已无法满足实际需求，自动抽取领域术语(ATE，Automatic Term Extraction)已成为了必然。实际应用中，领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。

目前，业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定，领域术语提取效果比较差。

发明内容

本发明的目的之一是提供一种术语的筛选方法，以解决现有技术中对于领域术语提取效果比较差的问题。

在一些说明性实施例中，所述术语的筛选方法，包括：对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选；将经过多次筛选后，剩余的候选术语作为新的术语。

与现有技术相比，本发明的说明性实施例包括以下优点：

本发明通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行多次筛选，确保得到的术语可靠性和准确性较高。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是按照本发明的说明性实施例的流程图。

具体实施方式

在以下详细描述中，提出大量特定细节，以便于提供对本发明的透彻理解。但是，本领域的技术人员会理解，即使没有这些特定细节也可实施本发明。在其它情况下，没有详细描述众所周知的方法、过程、组件和电路，以免影响对本发明的理解。

本发明中所采用的术语“语素”是指语言数据中的不可拆分的最小单位，对应为一个字或一个单词。

如图1所示，公开了一种术语的筛选方法，包括：

S11、对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；

S12、对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选；

S13、将经过多次筛选后，剩余的候选术语作为新的术语。

以下对上述方法进行详细说明：

例如：原始语料“中华人民共和国”进行切分，首先以两个语素单位进行切分，可以获得“中华”、“华人”、“人民”、“民共”、“共和”、“和国”六个候选术语，再以三个语素单位进行切分，可以获得“中华人”、“华人民”、“人民共”、“民共和”、“共和国”五个候选术语，再以4个语素单位进行切分，可以获得“中华人民”、“华人民共”、“人民共和”、“民共和国”四个候选术语，再以5个语素单位进行切分，可以获得“中华人民共”、“华人民共和”、“人民共和国”三个候选术语，再以6个语素单位进行切分，可以获得“中华人民共和”、“华人民共和国”两个候选术语，以7个语素单位进行切分，即得到候选术语“中华人民共和国”。以上共获得21个候选术语。

以上的切分过程是为了便于更快的理解本发明的说明性实施例的示例，原始语料可以是一个文本或一个文本集合，其中由大量的语素组成，切分过程更加复杂，另外，如果术语过长，该术语就可以理解为一个句子了，所以对术语的长度需要进行限定，限定最大切分单位，例如最大切分单位为10个语素。

在一些说明性实施例中，所述对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选的过程中，包括：

将所述若干候选术语中在所述原始语料中的词频低于第一阈值的候选术语滤除，并将剩余的候选术语作为一鉴术语。

具体包括：通过以每个候选术语在原始语料中进行扫描，统计出该候选术语的出现次数，即为该候选术语的词频。

在一些说明性实施例中，所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中，还包括：

将每个所述一鉴术语分割为任意长度的两部分，并计算出两部分的互信息的最小值，作为该一鉴候选术语的互信息；

将所述互信息低于第二阈值的一鉴术语滤除，并将剩余的一鉴术语作为二鉴术语。

例如：分析的候选术语C的长度为l个语素单位，以第k个语素位置，进行拆分，得到的前部为c₁～c_k，后部为c_k+1～c_l。

按照如下公式进行互信息的计算：

\begin{matrix} MI = I (c_{1} c_{2} . . . c_{l}) = \min (I ((c_{1} c_{2} . . . c_{k}), (c_{k + 1} c_{k + 2} . . . c_{l}))) \\ = \min (\log_{2} \frac{P (c_{1} c_{2} . . . c_{l})}{P (c_{1} c_{2} . . . c_{k}) \cdot P (c_{k + 1} c_{k + 2} . . . c_{l})}) \end{matrix}

其中，c₁c₂…c_l分别对应为候选术语C中相应位置的语素，P(c₁c₂…c_l)为该候选术语C在原始语料中的出现概率，P(c₁c₂…c_k)为候选术语C的前部在原始语料中的出现概率，P(c_k+1c_k+2…c_l)为候选术语C的后部在原始语料中的出现概率，该出现概率的获得方法与上述相同，在此不再赘述。

分析出每个所述二鉴术语的左右熵；其中，所述左右熵为每个所述二鉴术语的左熵和右熵中的最大值；

将所述左右熵低于第三阈值的二鉴术语滤除，并将剩余的二鉴术语作为三鉴术语。

具体包括：

按照如下公式进行计算：

LH (C) = - \underset{&ForAll; l &Element; L}{Σ} P (lC | C) \cdot \log_{2} P (lC | C)

其中，LH(C)为候选术语C的左熵，L表示出现在候选术语C左侧的词汇集合，P(lC|C)为词汇l出现在候选术语C左侧的条件概率；

RH (C) = - \underset{&ForAll; r &Element; R}{Σ} P (Cr | C) \cdot \log_{2} P (Cr | C)

其中，RH(C)为候选术语C的右熵，R表示出现在候选术语C右侧的词汇集合，P(Cr|C)为词汇r出现在候选术语C右侧的条件概率；

LRH＝max(LH(C),RH(C))

其中，LRH为候选术语C的左右熵，通过对其左熵和右熵取较大值获得。

计算出每个所述三鉴术语所具有的每个语素均在历史语料库中独立成词的概率，根据术语的每个语素的所述独立成词概率计算出术语的独立词概率；

将术语的所述独立词概率低于第四阈值的三鉴术语滤除，并将剩余的三鉴术语作为四鉴术语。

具体包括：

按照如下公式进行计算出候选术语中的每个语素x独立成词的概率IPW(x)：

IPW (x) = \frac{word (x)}{times (x)}

其中，word(x)为语素x在历史语料库中独立成词的次数，times(x)表示语素x在历史语料库中出现的总次数；

按照如下公式计算出候选术语C独立成词的概率IPW(C)：

IPW(C)＝IPW(c₁c₂…c_l)＝IPW(c₁)·IPW(c₂)·…·IPW(c_l)

计算出每个所述四鉴术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的所述内部词概率，根据术语的每个语素的所述内部词概率计算得到术语的内部词概率；

将所述内部词概率低于第五阈值的四鉴术语滤除，并将剩余的四鉴术语作为五鉴术语。

具体包括：

对候选术语中的每个语素出现的位置进行分析，根据内部词概率表获得候选术语不同位置的语素的出现概率；其中内部词概率表的获取方法为，在已有的术语语料库中，计算其中每个语素x出现在术语的头、中、尾的概率，从而得到一个包含所有语素的内部词概率表。公式如下：

IPC (x, 0) = \frac{times (x *)}{times (x *) + times (* x *) + times (* x)}

IPC (x, 1) = \frac{times (* x *)}{times (x *) + times (* c_{1} *) + times (* x)}

IPC (x, 2) = \frac{times (* x)}{times (x *) + times (* x *) + times (* x)}

其中“*”表示和语素x组成术语的前后语素组合，times(X)表示术语X在术语语料库中的出现次数。IPC(x,pos)表示语素x出现在位置pos的概率。pos取值为{0,1,2}，0表示位置在词头、1表示位置在词中、2表示位置在词尾。

对于待计算的l元字符串C＝c₁c₂…c_l，根据上述所得的内部词概率表，其内部词概率IPC的计算方法为：

IPC = \sqrt[3]{IPC (c_{1}, 0) \cdot IPC (c_{l}, 2) \cdot \frac{1}{1 - 1} Σ_{i = 2}^{l - 1} IPC (c_{i}, 1)}

计算出每个所述五鉴术语的领域概率；

将所述领域概率低于第六阈值的五鉴术语滤除，并将剩余的所述五鉴术语作为所述新术语。

具体为：对候选术语中的每个语素或语素组合在历史语料库中的出现概率进行分析，确定候选术语的领域概率

统计并计算出候选术语的每个语素或语素组合在历史语料库中的出现概率(F_c_i)；

再按照如下公式计算出候选术语的领域概率PC：

PC = \sqrt[l]{Σ_{i = 1}^{l} P (F_c_{i})}

在一些说明性实施例中，所述抽取所述领域术语度高于阈值的候选术语作为新的领域术语的过程中，还包括：

将筛选出的新术语进行推送，进行人工确定。

以下对本发明的说明性实施例进行说明：

1、从以下几个方面对新语料集中的字符串进行过滤，获取候选术语集。

词频WT

对新语料集进行切分，获得新语料集中任意长度的的字符串。将所获取的任意长度的字符串作为字符串集1。统计字符串集1中每个字符串的词频，即统计字符串集1中的每个字符串在新语料集中的出现次数。

去除字符串集1中词频低于给定阈值的字符串，得到字符串集2。

2、互信息MI

互信息是信息论中的概念，用来度量信息中两个单元的关联程度，字符串的互信息越大表明该字符串的组成术语的可能性越大。

计算字符串集2中每个字符串的互信息，去除互信息小于给定阈值的字符串，得到字符串集3。

对于n元字符串即长度为n的字符串，其互信息的计算方法为——计算该n元字符串被任意分割成的两个子串的互信息，将其最小值作为该n元字符串的互信息。公式表达如下：

令：n元字符串C＝c₁c₂…c_n，其互信息计算公式如下：

\begin{matrix} MI (C) = I (c_{1} c_{2} . . . c_{n}) = \min (I ((c_{1} c_{2} . . . c_{k}), (c_{k + 1} c_{k + 2} . . . c_{n}))) \\ = \min (\log_{2} \frac{P (c_{1} c_{2} . . . c_{n})}{P (c_{1} c_{2} . . . c_{k}) \cdot P (c_{k + 1} c_{k + 2} . . . c_{n})}) \end{matrix}

其中，k∈{1,2,…,n}。

3、左右熵LRH

在自然语言处理中，字符串的左右熵是一个重要的统计特征，体现了字符串的上下文活跃程度，术语抽取、新词检测等领域中有着非常广泛的应用。如果某个字符串具有较大的左右熵，说明其上下文搭配词汇丰富，使用上具有较大的灵活性和独立性，同时也表明该字符串是一种不稳定的构成，即该字符串为术语的概率较低。

计算字符串集3中每个字符串的左熵和右熵，对于每个字符串，将左熵和右熵中取值较大的一个作为其左右熵，去除字符串集3中左右熵大于给定阈值的字符串，得到字符串集4。

字符串左右熵计算公式如下:

LH (C) = - \underset{&ForAll; l &Element; L}{Σ} P (lC | C) \cdot \log_{2} P (lC | C)

RH (C) = - \underset{&ForAll; r &Element; R}{Σ} P (Cr | C) \cdot \log_{2} P (Cr | C)

LRH(C)＝max(LH(C),RH(C))

其中，L表示出现在字符串C左侧的词汇集合；R表示出现在字符串C右侧的词汇的集合；P(lC|C)为字符l出现在字符串C左侧的条件概率；P(Cr|C)表示字符r出现在字符串C右侧的条件概率。

4、独立词概率IWP

对于字符串C而言，如果其独立词概率IPW(C)越大，表示C是术语的可能性就越小。

计算字符串集4中的每个字符串的独立词概率，去除其中独立词概率大于给定阈值的字符串，得到字符串集5。

独立词概率计算方法如下：

任给一个字符x，其在句子中的独立成词的可能性IPW(x)的计算方法为

IPW (x) = \frac{word (x)}{times (x)}

其中，word(x)表示字符x独立成词的次数，times(x)表示x在新语料集中出现的次数；

则候选术语C独立词概率的计算方法为：

IPW(C)＝IPW(c₁c₂…c_n)＝IPW(c₁)·IPW(c₂)·…·IPW(c_n)

5、内部词概率IPC

内部词概率代表一个字符在术语中出现在某位置的概率，IPC(x,pos)表示字符x出现在位置pos的概率。pos取值为C0,1,2D，0表示位置在词头、1表示位置在词中、2表示位置在词尾。内部词概率表达了一个字符串的头、中、尾三个位置的字符的符合度，其值越大，该字符串是术语的可能性越大。

计算字符串集5中每个字符串的内部词概率，去除其中内部词概率小于给定阈值的字符串，得到字符串集6。

计算方法为，在已有的术语语料库中，计算其中每个字符x出现在术语的头、中、尾的概率，从而得到一个包含所有字符的内部词概率表。计算公式如下：

IPC (x, 0) = \frac{times (x *)}{times (x *) + times (* x *) + times (* x)}

IPC (x, 1) = \frac{times (* x *)}{times (x *) + times (* c_{1} *) + times (* x)}

IPC (x, 2) = \frac{times (* x)}{times (x *) + times (* x *) + times (* x)}

其中“*”表示和字符x组成术语的前后字符串，times(X)表示术语X在术语语料库中的出现次数。

对于待计算的n元字符串C＝c₁c₂…c_n，根据上述所得的内部词概率表，其内部词概率的计算方法为：

6、领域概率PC

领域概率表明该字符串属于该领域术语的概率。

计算字符串集6中每个字符串的的领域概率，去除领域概率小于给定阈值的字符串，得到最终的候选术语集。

对于字符串集6中的每个字符串C，计算其每个字符在已有的术语语料库中的出现概率P(F_c_i)：

PC = \sqrt[n]{Σ_{i = 1}^{n} P (F_c_{i})}

7、将得到的候选术语集进行人工判定，可以大为降低人工处理的工作量。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种术语的筛选方法，其特征在于，包括：

对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；

对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选；

将经过多次筛选后，剩余的候选术语作为新的术语。

2.根据权利要求1所述的筛选方法，其特征在于，所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中，包括：

3.根据权利要求2所述的筛选方法，其特征在于，所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中，还包括：

4.根据权利要求3所述的筛选方法，其特征在于，所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中，还包括：

分析出每个所述二鉴术语的左右熵；其中，所述左右熵为每个所述二鉴术语的左熵和右熵中的较大值；

5.根据权利要求4所述的筛选方法，其特征在于，所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中，还包括：

6.根据权利要求5所述的筛选方法，其特征在于，所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中，还包括：

7.根据权利要求6所述的筛选方法，其特征在于，所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中，还包括：

计算出每个所述五鉴术语的领域概率；