CN106126606B - 一种短文本新词发现方法 - Google Patents

一种短文本新词发现方法 Download PDF

Info

Publication number
CN106126606B
CN106126606B CN201610453319.9A CN201610453319A CN106126606B CN 106126606 B CN106126606 B CN 106126606B CN 201610453319 A CN201610453319 A CN 201610453319A CN 106126606 B CN106126606 B CN 106126606B
Authority
CN
China
Prior art keywords
character string
word
character
entropy
scp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610453319.9A
Other languages
English (en)
Other versions
CN106126606A (zh
Inventor
庞琳
赵志云
刘春阳
张旭
李雄
王卿
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201610453319.9A priority Critical patent/CN106126606B/zh
Publication of CN106126606A publication Critical patent/CN106126606A/zh
Application granted granted Critical
Publication of CN106126606B publication Critical patent/CN106126606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种短文本新词发现方法。本方法为:1)从当前短文本中提取一字符串s,计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s);2)取左邻熵HL(s)和右邻熵HL(s)的较小值,记为BE(s);3)计算该字符串s的成词概率Prword(s),根据Prword(s)的值确定词s是否为新词。本发明大大提高了新词发现的准确率。

Description

一种短文本新词发现方法
技术领域
本发明属于计算机数据挖掘领域中文本挖掘领域,涉及一种基于加权左右邻接熵与对称条件概率相结合的短文本新词发现方法。
背景技术
新词发现是一种重要的信息组织方式,研究的目标是自动挖掘和分析文本中出现的新词。随着网络技术、社交网络技术的蓬勃发展,语言的内涵、形式都在不断的改变与扩充。网络QQ、微博、论坛等这一时下最为流行的媒体,涌现了大量个体主观信息,这些信息对市场趋势、行为预测、观点分析、人机交互等诸多领域有着极为重要的现实意义。新词发现作为中文信息处理领域的一项基础性任务,直接影响到分词技术、自然语言处理等其它中文信息处理任务的准确性与性能。越来越多的新词是由互联网用户直接创造的,因此从互联网用户直接产生的语料中挖掘新词将是一个新的研究热点。
面向互联网的新词发现具有极其重要的研究意义:
从理论研究上看,新词发现对机器翻译、信息检索、语法句法分析等领域有很大的影响,还为分词技术、自然语言处理、人工智能中其他多语言相关问题的解决提供良好的基础,同时在所取得的每一个进步,都有助于加深我们对人类的智能、语言、思维、情感等问题的了解。更重要的是,情感分析还具有广阔的应用前景,能够与时俱进的掌握社会动态、经济民生、时下焦点,可以带来巨大的经济和社会效益。
从商业活动的角度看,输入法需要根据当下热门词汇更准确贴近的理解用户此刻想要输入的语句含义;微博需要挖掘时下网络热门用语制造话题创造热点度和刷新率;产品生产、销售厂商希望通过当下热门新词包装商品,提高大众接受度并跟踪用户对产品的反馈来获得改进产品质量的针对性意见。
从文化生活的角度看,新词发现技术能够反映当下广大网民关注度最高的热门事件,通过网络与民众针对某些事件产生的新词能够了解大众对于热门事件的褒贬观点,有利于用户快速准确定位事件的本质,了解正反两方面的评论意见,对于准确把握社会脉搏,建设社会有着重要意义。
当前新词识别的主流方法分为两类:一类是基于规则的方法,另一类是基于统计的方法。基于规则的方法主要是利用构词法的构词原理,制定词语共性规则库(规则库中包含词语的语法、结构等相关信息),再利用匹配规则识别新词。其优点是新词发现的针对性强、准确率较高,缺点是由于规则只能针对某一特定领域制定,存在规则编写依赖领域专家、维护成本巨大,且不同领域之间规则的移植性、适应性不强,另外规则过多还容易引起规则冲突等问题。基于统计的方法,主要是通过考察语料中的特征信息,计算词语互信息、成词概率等统计指标,再利用阈值发现新词。其优点是统计的方法可以根据具体的情况进行设定,方法比较灵活,适应能力强,缺点是在统计的过程中需要大规模的语料进行模型训练,训练过程中可能因数据的稀疏,导致准确率低下的问题。从调研的情况看,目前的新词识别研究成果中对于未登录词语的发现识别工作效果十分明显,但是用这些方法对于“旧词新义”所导致的歧义问题效果比较一般。
综上所述,开发一种能够将统计和规则相结合的方法,较好地在规则与统计之间达到平衡是非常有必要的。因此,基于加权左右邻接熵与对称条件概率相结合的新词发现方法不但具有深远的理论价值,而且有着广阔的应用前景,可以创造较大的社会和经济效益。
发明内容
针对上述已有方法存在的问题,为了提高新词发现的准确率,本发明提出了一种基于加权左右邻接熵与对称条件概率相结合的新词发现方法。
本发明主要包含两个方面:(1)计算对称条件概率来衡量词短语的内聚性。(2)计算可能构成新词的短语的左右邻接熵,来衡量词组的灵活性。
对称条件概率是衡量给定字符串s中所有可能提取的词组的内聚性,也就是词组固定搭配的概率。给定一个字符串s,其长度为n,ci代表语句s中的第i个字,P(.)表示给定词组在语料中出现的概率。那么,字符串s的对称条件概率计算公式为公式(1)
在信息论中,信息熵用来衡量变量的不确定性。邻接熵统计量利用信息熵来衡量候选新词s的左邻字符和右邻字符的不确定性。不确定性越高,表明候选新词s的上下文环境就越丰富。字符x和字符y表示候选新词s的左邻字符和右邻字符,则该候选新词s的左邻熵HL(s)和右邻熵HR(s)的计算方法见公式(2)和公式(3),BE(s)值取左邻熵和右邻熵的较小值,见公式(4)。
HL(s)=-∑xp(x|s)logp(x|s) (2)
HR(s)=-∑yp(y|s)logp(y|s) (3)
BE(s)=min{HL(s),HR(s)} (4)
使用公式(2)和公式(3)计算左邻熵和右邻熵的时候,对于邻接字符x和邻接字符y,如果该邻接字符x作为该新词s左邻字符的次数与该邻接字符y作为该新词s右邻字符的次数相同,即p(x|s)等于p(y|s)。那么字符x和字符y带来的信息量就是相等的。也就是说字符x和字符y对于候选新词s的邻接熵值的贡献是一样的。如果字符x是一个标点符号,而字符y是一个普通汉字字符,直觉上,字符x比字符y更能说明s是一个新词。也就是说字符x比字符y对候选新词s能否成词的贡献更大。
对于字符串能否成词,不同的邻接字符的贡献是不一样的。本发明给每个邻接字符x一个权值λx,λx的取值通过字符x出现的频率来确定。加权的左邻熵和右邻熵的计算见公式(5)和公式(6),加权邻接熵sBE分别由公式(5),公式(6)和公式(4)计算。
HL(s)=∑xxp(x|s)logp(x|s) (5)
HR(s)=∑yyp(y|s)logp(y|s) (6)
其中,x代表每一个字符,所以求和相当于对s中的每个字符求公式,再求和。
成词的概率计算方法,对邻接熵的值和对称条件概率的值进行归一化处理,然后对两个结果进行加权计算。计算方法如公式(7)。
Prword(s)=(1-μ)Nor(BE(s))+μNor(SCP(s)) (7)
根据实际实验的结果,本发明μ的取值为0.2。BE(s)的归一化计算方法如公式(8)和SCP(s)的归一化计算方法如公式(9)。
其中τ是所选各短文本的SCP(s)平均值,σ为各SCP(s)的标准差。
根据Prword(s)的值确定词s是否为新词,即如果Prword(s)≥TPr,则将该字符串s添加为候选词;其中TPr为设定的阈值。
与现有技术相比,本发明的积极效果为:
本发明提出的基于加权左右邻接熵与互信息相结合的新词发现方法进行了验证。如表1,实验证明,采用基于加权左右邻接熵与对称条件概率相结合的新词发现的计算方法,新词发现的准确率优于现有的方法。
表1为本发明的实验数据对比表
语料规模 准确率 召回率
50M 87.65% 80.82%
500M 90.23% 86.73%
附图说明
图1为本发明的方法流程图。
具体实施方式
下面,结合具体的实施例对本发明进行详细说明。结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
基于加权左右邻接熵与对称条件概率相结合的短文本新词发现方法流程如图1所示,其基本步骤如下:
1.初始化。设置抽取词的频率阈值Tfreq,成词概率阈值Tpr,SCP的阈值TSCP,BE的阈值TBE,参数μ和参数λ。
2.构建语料(选取的若干短文本)索引,提取长度为2≤L≤4的所有候选词。
3.对于每一个字符串s,计算s的频率freq(s)。
4.如果freq(s)≥Tfreq,则利用公式(1)计算SCP(s),利用公式(4),公式(5),公式(6)计算BE(s)。
5.如果SCP(s)<TSCP,则继续步骤3。
6.如果BE(s)<TBE,则继续步骤3。
7.利用公式(8)计算Nor(BE(s))的值。
8.利用公式(9)计算Nor(SCP(s))的值。
9.利用公式(7)计算Prword(s)的值。
10.如果Prword(s)≥TPr,则将该字符串s添加为候选词。

Claims (7)

1.一种短文本新词发现方法,其步骤为:
1)从当前短文本中提取一字符串s,计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s);
2)取左邻熵HL(s)和右邻熵HL(s)的较小值,记为BE(s);
3)根据对称条件概率SCP(s)和BE(s)计算该字符串s的成词概率Prword(s),然后根据Prword(s)值确定该字符串s是否为新词;其中,计算该成词概率的公式为:Prword(s)=(1-μ)Nor(BE(s))+μNor(SCP(s));Nor(BE(s))为BE(s)归一化值,Nor(SCP(s))为SCP(s)归一化值,τ是所选各短文本的SCP(s)平均值,σ为各SCP(s)的标准差,MinBE(s)为BE(s)最小值,MaxBE(s)为BE(s)最大值。
2.如权利要求1所述的方法,其特征在于,对于每一个字符串s,计算字符串s在该短文本中的频率freq(s),如果freq(s)≥Tfreq,则计算SCP(s);其中,Tfreq为频率阈值。
3.如权利要求1或2所述的方法,其特征在于,步骤3)中,如果Prword(s)≥TPr,则该字符串s为新词;其中TPr为设定的阈值。
4.如权利要求1所述的方法,其特征在于,μ的取值为0.2。
5.如权利要求1或2所述的方法,其特征在于,根据HL(s)=∑xxp(x|s)logp(x|s)计算该字符串s的左邻熵HL(s),根据公式HR(s)=∑yyp(y|s)logp(y|s)计算该字符串s的右邻熵HL(s);其中,λx为该字符串s的邻接字符x的权值,λy为该字符串s的邻接字符y的权值,p(x|s)为邻接字符x作为该字符串s左邻字符的次数,p(y|s)为邻接字符y作为该字符串s右邻字符的次数。
6.如权利要求5所述的方法,其特征在于,根据邻接字符x在该短文本中出现的频率来确定邻接字符x的权值。
7.如权利要求1或2所述的方法,其特征在于,字符串s的长度L为2≤L≤4。
CN201610453319.9A 2016-06-21 2016-06-21 一种短文本新词发现方法 Active CN106126606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610453319.9A CN106126606B (zh) 2016-06-21 2016-06-21 一种短文本新词发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610453319.9A CN106126606B (zh) 2016-06-21 2016-06-21 一种短文本新词发现方法

Publications (2)

Publication Number Publication Date
CN106126606A CN106126606A (zh) 2016-11-16
CN106126606B true CN106126606B (zh) 2019-08-20

Family

ID=57470222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610453319.9A Active CN106126606B (zh) 2016-06-21 2016-06-21 一种短文本新词发现方法

Country Status (1)

Country Link
CN (1) CN106126606B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN108509425B (zh) * 2018-04-10 2021-08-24 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN110442861B (zh) * 2019-07-08 2023-04-07 万达信息股份有限公司 一种基于真实世界统计的中文专业术语与新词发现的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN107688562A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 词检测方法、装置、系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9229924B2 (en) * 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN107688562A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 词检测方法、装置、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
规则与统计相结合的中文新词识别研究;王琳琳;《嘉兴学院学报》;20141130;全文

Also Published As

Publication number Publication date
CN106126606A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
Na’aman et al. Varying linguistic purposes of emoji in (Twitter) context
Xiang et al. Improving twitter sentiment analysis with topic-based mixture modeling and semi-supervised training
CN103049435B (zh) 文本细粒度情感分析方法及装置
Pröllochs et al. Enhancing sentiment analysis of financial news by detecting negation scopes
Chen et al. Mining user requirements to facilitate mobile app quality upgrades with big data
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN102929861B (zh) 一种文本情感指数计算方法和系统
CN103154936A (zh) 用于自动化文本校正的方法和系统
Layton et al. Recentred local profiles for authorship attribution
Ferrández et al. Aligning FrameNet and WordNet based on Semantic Neighborhoods.
CN103473380B (zh) 一种计算机文本情感分类方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN108287875B (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
CN106126606B (zh) 一种短文本新词发现方法
Küçük et al. Stance detection on tweets: An svm-based approach
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
CN105988978B (zh) 确定文本焦点的方法及系统
Khan et al. Using Machine Learning Techniques for Subjectivity Analysis based on Lexical and Nonlexical Features.
CN107797981B (zh) 一种目标文本识别方法及装置
Duşçu et al. Polarity classification of twitter messages using audio processing
CN109670045A (zh) 基于本体模型和多核支持向量机的情感原因抽取方法
Jiang et al. A graph-based readability assessment method using word coupling
Li et al. Confidence estimation and reputation analysis in aspect extraction
Zhang et al. Probabilistic verb selection for data-to-text generation
Liu et al. Text-Segment Interaction for Authorship Verification using BERT-based Classification.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant