CN106126606B

CN106126606B - 一种短文本新词发现方法

Info

Publication number: CN106126606B
Application number: CN201610453319.9A
Authority: CN
Inventors: 庞琳; 赵志云; 刘春阳; 张旭; 李雄; 王卿; 王萌
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2019-08-20
Anticipated expiration: 2036-06-21
Also published as: CN106126606A

Abstract

本发明公开了一种短文本新词发现方法。本方法为：1)从当前短文本中提取一字符串s，计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s)；2)取左邻熵HL(s)和右邻熵HL(s)的较小值，记为BE(s)；3)计算该字符串s的成词概率Pr_word(s)，根据Pr_word(s)的值确定词s是否为新词。本发明大大提高了新词发现的准确率。

Description

一种短文本新词发现方法

技术领域

本发明属于计算机数据挖掘领域中文本挖掘领域，涉及一种基于加权左右邻接熵与对称条件概率相结合的短文本新词发现方法。

背景技术

新词发现是一种重要的信息组织方式，研究的目标是自动挖掘和分析文本中出现的新词。随着网络技术、社交网络技术的蓬勃发展，语言的内涵、形式都在不断的改变与扩充。网络QQ、微博、论坛等这一时下最为流行的媒体，涌现了大量个体主观信息，这些信息对市场趋势、行为预测、观点分析、人机交互等诸多领域有着极为重要的现实意义。新词发现作为中文信息处理领域的一项基础性任务，直接影响到分词技术、自然语言处理等其它中文信息处理任务的准确性与性能。越来越多的新词是由互联网用户直接创造的，因此从互联网用户直接产生的语料中挖掘新词将是一个新的研究热点。

面向互联网的新词发现具有极其重要的研究意义：

从理论研究上看，新词发现对机器翻译、信息检索、语法句法分析等领域有很大的影响，还为分词技术、自然语言处理、人工智能中其他多语言相关问题的解决提供良好的基础，同时在所取得的每一个进步，都有助于加深我们对人类的智能、语言、思维、情感等问题的了解。更重要的是，情感分析还具有广阔的应用前景，能够与时俱进的掌握社会动态、经济民生、时下焦点，可以带来巨大的经济和社会效益。

从商业活动的角度看，输入法需要根据当下热门词汇更准确贴近的理解用户此刻想要输入的语句含义；微博需要挖掘时下网络热门用语制造话题创造热点度和刷新率；产品生产、销售厂商希望通过当下热门新词包装商品，提高大众接受度并跟踪用户对产品的反馈来获得改进产品质量的针对性意见。

从文化生活的角度看，新词发现技术能够反映当下广大网民关注度最高的热门事件，通过网络与民众针对某些事件产生的新词能够了解大众对于热门事件的褒贬观点，有利于用户快速准确定位事件的本质，了解正反两方面的评论意见，对于准确把握社会脉搏，建设社会有着重要意义。

当前新词识别的主流方法分为两类：一类是基于规则的方法，另一类是基于统计的方法。基于规则的方法主要是利用构词法的构词原理，制定词语共性规则库(规则库中包含词语的语法、结构等相关信息)，再利用匹配规则识别新词。其优点是新词发现的针对性强、准确率较高，缺点是由于规则只能针对某一特定领域制定，存在规则编写依赖领域专家、维护成本巨大，且不同领域之间规则的移植性、适应性不强，另外规则过多还容易引起规则冲突等问题。基于统计的方法，主要是通过考察语料中的特征信息，计算词语互信息、成词概率等统计指标，再利用阈值发现新词。其优点是统计的方法可以根据具体的情况进行设定，方法比较灵活，适应能力强，缺点是在统计的过程中需要大规模的语料进行模型训练，训练过程中可能因数据的稀疏，导致准确率低下的问题。从调研的情况看，目前的新词识别研究成果中对于未登录词语的发现识别工作效果十分明显，但是用这些方法对于“旧词新义”所导致的歧义问题效果比较一般。

综上所述，开发一种能够将统计和规则相结合的方法，较好地在规则与统计之间达到平衡是非常有必要的。因此，基于加权左右邻接熵与对称条件概率相结合的新词发现方法不但具有深远的理论价值，而且有着广阔的应用前景，可以创造较大的社会和经济效益。

发明内容

针对上述已有方法存在的问题，为了提高新词发现的准确率，本发明提出了一种基于加权左右邻接熵与对称条件概率相结合的新词发现方法。

本发明主要包含两个方面：(1)计算对称条件概率来衡量词短语的内聚性。(2)计算可能构成新词的短语的左右邻接熵，来衡量词组的灵活性。

对称条件概率是衡量给定字符串s中所有可能提取的词组的内聚性，也就是词组固定搭配的概率。给定一个字符串s，其长度为n，c_i代表语句s中的第i个字，P(.)表示给定词组在语料中出现的概率。那么，字符串s的对称条件概率计算公式为公式(1)

在信息论中，信息熵用来衡量变量的不确定性。邻接熵统计量利用信息熵来衡量候选新词s的左邻字符和右邻字符的不确定性。不确定性越高，表明候选新词s的上下文环境就越丰富。字符x和字符y表示候选新词s的左邻字符和右邻字符，则该候选新词s的左邻熵HL(s)和右邻熵HR(s)的计算方法见公式(2)和公式(3)，BE(s)值取左邻熵和右邻熵的较小值，见公式(4)。

HL(s)＝-∑_xp(x|s)logp(x|s) (2)

HR(s)＝-∑_yp(y|s)logp(y|s) (3)

BE(s)＝min{HL(s),HR(s)} (4)

使用公式(2)和公式(3)计算左邻熵和右邻熵的时候，对于邻接字符x和邻接字符y，如果该邻接字符x作为该新词s左邻字符的次数与该邻接字符y作为该新词s右邻字符的次数相同，即p(x|s)等于p(y|s)。那么字符x和字符y带来的信息量就是相等的。也就是说字符x和字符y对于候选新词s的邻接熵值的贡献是一样的。如果字符x是一个标点符号，而字符y是一个普通汉字字符，直觉上，字符x比字符y更能说明s是一个新词。也就是说字符x比字符y对候选新词s能否成词的贡献更大。

对于字符串能否成词，不同的邻接字符的贡献是不一样的。本发明给每个邻接字符x一个权值λ_x，λ_x的取值通过字符x出现的频率来确定。加权的左邻熵和右邻熵的计算见公式(5)和公式(6)，加权邻接熵sBE分别由公式(5)，公式(6)和公式(4)计算。

HL(s)＝∑_x-λ_xp(x|s)logp(x|s) (5)

HR(s)＝∑_y-λ_yp(y|s)logp(y|s) (6)

其中，x代表每一个字符，所以求和相当于对s中的每个字符求公式，再求和。

成词的概率计算方法，对邻接熵的值和对称条件概率的值进行归一化处理，然后对两个结果进行加权计算。计算方法如公式(7)。

Pr_word(s)＝(1-μ)Nor(BE(s))+μNor(SCP(s)) (7)

根据实际实验的结果，本发明μ的取值为0.2。BE(s)的归一化计算方法如公式(8)和SCP(s)的归一化计算方法如公式(9)。

其中τ是所选各短文本的SCP(s)平均值，σ为各SCP(s)的标准差。

根据Pr_word(s)的值确定词s是否为新词，即如果Pr_word(s)≥T_Pr，则将该字符串s添加为候选词；其中T_Pr为设定的阈值。

与现有技术相比，本发明的积极效果为：

本发明提出的基于加权左右邻接熵与互信息相结合的新词发现方法进行了验证。如表1，实验证明，采用基于加权左右邻接熵与对称条件概率相结合的新词发现的计算方法，新词发现的准确率优于现有的方法。

表1为本发明的实验数据对比表

语料规模	准确率	召回率
			50M	87.65％	80.82％
500M	90.23％	86.73％

附图说明

图1为本发明的方法流程图。

具体实施方式

下面，结合具体的实施例对本发明进行详细说明。结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

基于加权左右邻接熵与对称条件概率相结合的短文本新词发现方法流程如图1所示，其基本步骤如下：

1.初始化。设置抽取词的频率阈值T_freq，成词概率阈值T_pr，SCP的阈值T_SCP，BE的阈值T_BE，参数μ和参数λ。

2.构建语料(选取的若干短文本)索引，提取长度为2≤L≤4的所有候选词。

3.对于每一个字符串s，计算s的频率freq(s)。

4.如果freq(s)≥T_freq，则利用公式(1)计算SCP(s)，利用公式(4)，公式(5)，公式(6)计算BE(s)。

5.如果SCP(s)＜T_SCP，则继续步骤3。

6.如果BE(s)＜T_BE，则继续步骤3。

7.利用公式(8)计算Nor(BE(s))的值。

8.利用公式(9)计算Nor(SCP(s))的值。

9.利用公式(7)计算Pr_word(s)的值。

10.如果Pr_word(s)≥T_Pr，则将该字符串s添加为候选词。

Claims

1.一种短文本新词发现方法，其步骤为：

1)从当前短文本中提取一字符串s，计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s)；

2)取左邻熵HL(s)和右邻熵HL(s)的较小值，记为BE(s)；

3)根据对称条件概率SCP(s)和BE(s)计算该字符串s的成词概率Pr_word(s)，然后根据Pr_word(s)值确定该字符串s是否为新词；其中，计算该成词概率的公式为：Pr_word(s)＝(1-μ)Nor(BE(s))+μNor(SCP(s))；Nor(BE(s))为BE(s)归一化值，Nor(SCP(s))为SCP(s)归一化值，τ是所选各短文本的SCP(s)平均值，σ为各SCP(s)的标准差，Min_BE(s)为BE(s)最小值，Max_BE(s)为BE(s)最大值。

2.如权利要求1所述的方法，其特征在于，对于每一个字符串s，计算字符串s在该短文本中的频率freq(s)，如果freq(s)≥T_freq，则计算SCP(s)；其中，T_freq为频率阈值。

3.如权利要求1或2所述的方法，其特征在于，步骤3)中，如果Pr_word(s)≥T_Pr，则该字符串s为新词；其中T_Pr为设定的阈值。

4.如权利要求1所述的方法，其特征在于，μ的取值为0.2。

6.如权利要求5所述的方法，其特征在于，根据邻接字符x在该短文本中出现的频率来确定邻接字符x的权值。

7.如权利要求1或2所述的方法，其特征在于，字符串s的长度L为2≤L≤4。