CN103020022A - 一种基于改进信息熵特征的中文未登录词识别系统及方法 - Google Patents

一种基于改进信息熵特征的中文未登录词识别系统及方法 Download PDF

Info

Publication number
CN103020022A
CN103020022A CN2012104733407A CN201210473340A CN103020022A CN 103020022 A CN103020022 A CN 103020022A CN 2012104733407 A CN2012104733407 A CN 2012104733407A CN 201210473340 A CN201210473340 A CN 201210473340A CN 103020022 A CN103020022 A CN 103020022A
Authority
CN
China
Prior art keywords
character
character string
chinese
centerdot
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104733407A
Other languages
English (en)
Other versions
CN103020022B (zh
Inventor
李超
李想
吕志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201210473340.7A priority Critical patent/CN103020022B/zh
Publication of CN103020022A publication Critical patent/CN103020022A/zh
Application granted granted Critical
Publication of CN103020022B publication Critical patent/CN103020022B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出了一种基于改进信息熵特征的中文未登录词识别系统及方法,该系统包含:字符序列提取模块:从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符;特征计算模块:计算所有字符序列的统计特征,包括:左邻接字的改进信息熵,右邻接字的改进信息熵等;成词识别模块:使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词;词典比对模块:将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。本发明充分利用中文文本的统计特征,弥补传统未登录词识别方法的不足,降低对词典质量的依赖,具有实用性强、准确度高、以及实现方便的优点。

Description

一种基于改进信息熵特征的中文未登录词识别系统及方法
技术领域
本发明属于中文词的识别的技术领域,具体涉及一种基于改进信息熵特征的中文未登录词识别系统及方法,其中涉及一种中文未登录词的识别系统及方法,特别是在这种方法是完全基于统计特征的,而且在统计过程中使用本发明提出的改进的信息熵特征。
背景技术
随着网络时代的发展与web2.0概念的兴起,未登录词的大量出现已经成为不可避免的语言现象。这种现象在SNS的UGC(user generate content)当中尤为明显,社交网络中,用户用词十分随意,极不规范,造词速度很快。未登录词识别在很大程度上影响着相关信息处理的效果,在中文分词领域,未登录词的识别性能已经成为提高分词效果的瓶颈。研究表明,在过去20多年中每年会产生800个以上的新词,而正是这些未收录进词库的新词,导致了中文分词60%以上的错误,可见提高未登录词的识别率对中文分词具有重要意义。
传统的未登录词识别系统总是先对文本进行词典分词,提取出词典中不存在的文本片段,然后猜测这些片段就是未登录词。这类方法的明显不足之处在于未登录词的识别结果本身就依赖于词典的质量。
发明内容
本发明要解决的技术问题为:克服现有技术方案的不足,提供一种基于改进信息熵特征的中文未登录词识别系统及方法,该系统及方法充分利用中文文本的统计特征,弥补传统未登录词识别方法的不足,降低了对词典质量的依赖,使该系统应用具有实用性强、准确度高、以及实现方便的优点。
为了实现上述目的,本发明采用的技术方案为:一种基于改进信息熵特征的中文未登录词识别系统,包括:
字符序列提取模块:该模块从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符,则不统计该非汉字的其他字符序列;
特征计算模块:该模块计算所有字符序列的统计特征,包括:字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵,字符序列的出现频率,字符序列的互信息,字符序列的序列长度;其中:
在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征。
公式为:H(x)=-∑P(xi)log(P(xi)),其中H(x)是邻接字符的信息熵,P(xi)是邻接字符取xi的概率;
字符序列的出现频率是指字符在整个文本中的出现次数;
字符序列的互信息是指:假设有汉字串w1w2,则汉字w1和w2间的互信息定义为:
MI ( w 1 w 2 ) = log P ( w 1 w 2 ) P ( w 1 ) P ( w 2 ) ;
如果推广到多字词,互信息的计算方法将扩展成:
MI ( w 1 w 2 · · · w n ) = Min { log P ( w 1 w 2 · · · w n ) P ( w 1 · · · w i ) P ( w i + 1 w n ) } ;
字符序列的序列长度是指字符序列包含的字符数;
成词识别模块:该模块使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词;
词典比对模块:该模块将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。
另外,本发明的一种基于改进信息熵特征的中文未登录词识别方法,包括:
字符序列提取步骤:该步骤从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符,则不统计该非汉字的其他字符序列;
特征计算步骤:该步骤计算所有字符序列的统计特征,包括:字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵,字符序列的出现频率,字符序列的互信息,字符序列的序列长度;其中:
在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征。
公式为:H(x)=-∑P(xi)log(P(xi)),其中H(x)是邻接字符的信息熵,P(xi)是邻接字符取xi的概率;
字符序列的出现频率是指字符在整个文本中的出现次数;
字符序列的互信息是指:假设有汉字串w1w2,则汉字w1和w2间的互信息定义为:
MI ( w 1 w 2 ) = log P ( w 1 w 2 ) P ( w 1 ) P ( w 2 ) ;
如果推广到多字词,互信息的计算方法将扩展成:
MI ( w 1 w 2 · · · w n ) = Min { log P ( w 1 w 2 · · · w n ) P ( w 1 · · · w i ) P ( w i + 1 w n ) } ;
字符序列的序列长度是指字符序列包含的字符数;
成词识别步骤:该步骤使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词;
词典比对步骤:该步骤将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。
本发明与现有技术相比的优点在于:
(1)本发明考虑了中文文本中标点符号字符对未登录词识别的特殊作用,提出了一种改进的信息熵计算模型;
(2)本发明提出了使用统计特征尤其是改进信息熵特征构造分类器来识别字符序列的成词,这些统计特征对字符序列是否成词的区分度良好,分类识别的准确率高于传统的信息熵特征;
(3)本发明降低了对词典质量的依赖,完全使用统计特征来识别词汇,仅仅在词典比对模块使用了词典。
附图说明
图1是本发明系统的体系结构图;
图2是本发明的字符序列改进信息熵特征的计算过程。
具体实施方式
下面结合实例对本发明进行详细说明。
本发明提出了一种基于改进信息熵特征的中文未登录词识别系统。如图1所示,该系统包括如下模块:
字符序列提取模块。将需要识别的中文文本完全看成一个很长的字符串,从字符串中逐个切分成许多字符序列。由于普遍认为单字不成词,字符序列最短两个字符,最长字符数可以人工设定,通常认为是5个字符。字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符则不统计改字符序列。
特征计算模块。计算所有字符序列的统计特征,包括:根据权利要求1计算模型得到的左邻接字的改进信息熵、右邻接字的改进信息熵,加上出现频率,互信息,序列长度。
出现频率是指在整个文本中的出现次数。
互信息的定义如下:假设有汉字串w1w2,则汉字w1和w2间的互信息定义为: MI ( w 1 w 2 ) = log P ( w 1 w 2 ) P ( w 1 ) P ( w 2 ) .     如果推广到多字词,计算方法将扩展成: MI ( w 1 w 2 · · · w n ) = Min { log P ( w 1 w 2 · · · w n ) P ( w 1 · · · w i ) P ( w i + 1 w n ) } .
序列长度指字符序列包含的字符数。
成词识别模块:使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词。
词典比对模块:将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。
本发明的具体步骤例如如下:
一、数据准备
本发明提供的未登录词识别方法完全基于统计特征,对词典的依赖较小,对数据格式也无要求。为了使统计特征趋于稳定,减少偶然数据带来的模型扰动,建议待识别的中文文本数据最好在100000字符以上,对数据来源没有要求,只要是能够在现实生活中沟通的汉语语言数据即可,包括但不限于报纸文章,网站文章,博客文章,现代汉语文学作品如小说、散文,微博客段落。
二、分类器训练
在本发明的方法中,需要使用判断字符序列是否成词的分类器,这个分类器应该在使用前训练完毕。采取的训练语料是从SNS网站上抓取的用户tweeter文本,约200000个字符,统计了其中10000个字符序列的特征,并且人工标注了这些字符序列是否成词。分类是一种监督的学习方法,所以训练语料需要标注,也就是标注一个字符序列成词与否,可以采取自动标准,也可以采取人工标准。使用标注好的训练语料训练这个分类器。
三、特征统计
计算所有字符序列的统计特征,包括:左邻接字的改进信息熵,右邻接字的改进信息熵(参照图2),出现频率,互信息,序列长度;
在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征。
公式为:H(x)=-∑P(xi)log(P(xi)),其中H是邻接字符的信息熵,P(xi)是邻接字符取xi的概率。
出现频率是指在整个文本中的出现次数。
互信息的定义如下:假设有汉字串w1w2,则汉字w1和w2间的互信息定义为: MI ( w 1 w 2 ) = log P ( w 1 w 2 ) P ( w 1 ) P ( w 2 ) . 当然这仅仅是二字词的,如果推广到多字词,计算方法将扩展成: MI ( w 1 w 2 · · · w n ) = Min { log P ( w 1 w 2 · · · w n ) P ( w 1 · · · w i ) P ( w i + 1 w n ) } .
序列长度指字符序列包含的字符数。
统计完成后,待识别词汇便可以表示成如下格式:
表1:统计完成后待识别词汇示例格式
词汇 左邻接字信息熵 右邻接字信息熵 长度 互信息 频次
神马 4.78 3.97 2 7.93 367
答应 3.88 3.00 2 8.44 86
伤不 4.86 0.14 2 4.39 614
...... ...... ...... ...... ...... ......
四、分类识别
使用第二步训练好的分类器对第三步统计好的数据格式进行分类识别,于是得到如下数据:
表2:使用第二步训练好的分类器对第三步统计好的数据格式进行分类识别得到的数据
词汇 左邻接字信息熵 右邻接字信息熵 长度 互信息 频次 成词
神马 4.78 3.97 2 7.93 367
答应 3.88 3.00 2 8.44 86
伤不 4.86 0.14 2 4.39 614
...... ...... ...... ...... ...... ...... ......
五、词典对比
将第四步得到的被识别词的字符序列与词典文件进行对比,如果,词典中不存在这样的字符序列,那么该字符序列就是未登录词。例如第四步中得到的字符序列“神马”,被识别为成词,但是在词典文件中不存在,即被识别成未登录词。
以上实施例仅用以说明而非限制本发明的技术方案,不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。本发明未详细描述的部分属于本领域公知技术。

Claims (2)

1.一种基于改进信息熵特征的中文未登录词识别系统,其特征在于:包括:
字符序列提取模块:该模块从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符,则不统计该非汉字的其他字符序列;
特征计算模块:该模块计算所有字符序列的统计特征,包括:字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵,字符序列的出现频率,字符序列的互信息,字符序列的序列长度;其中:
在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征;
公式为:H(x)=-∑P(xi)log(P(xi)),其中H(x)是邻接字符的信息熵,P(xi)是邻接字符取xi的概率);
字符序列的出现频率是指字符在整个文本中的出现次数;
字符序列的互信息是指:假设有汉字串w1w2,则汉字w1和w2间的互信息定义为:
MI ( w 1 w 2 ) = log P ( w 1 w 2 ) P ( w 1 ) P ( w 2 ) ;
如果推广到多字词,互信息的计算方法将扩展成:
MI ( w 1 w 2 · · · w n ) = Min { log P ( w 1 w 2 · · · w n ) P ( w 1 · · · w i ) P ( w i + 1 w n ) } ;
字符序列的序列长度是指字符序列包含的字符数;
成词识别模块:该模块使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词;
词典比对模块:该模块将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。
2.一种基于改进信息熵特征的中文未登录词识别方法,其特征在于:包括:
字符序列提取步骤:该步骤从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符,则不统计该非汉字的其他字符序列;
特征计算步骤:该步骤计算所有字符序列的统计特征,包括:字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵,字符序列的出现频率,字符序列的互信息,字符序列的序列长度;其中:
在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征;
公式为:H(x)=-∑P(xi)log(P(xi)),其中H(x)是邻接字符的信息熵,P(xi)是邻接字符取xi的概率;
字符序列的出现频率是指字符在整个文本中的出现次数;
字符序列的互信息是指:假设有汉字串w1w2,则汉字w1和w2间的互信息定义为:
MI ( w 1 w 2 ) = log P ( w 1 w 2 ) P ( w 1 ) P ( w 2 ) ;
如果推广到多字词,互信息的计算方法将扩展成:
MI ( w 1 w 2 · · · w n ) = Min { log P ( w 1 w 2 · · · w n ) P ( w 1 · · · w i ) P ( w i + 1 w n ) } ;
字符序列的序列长度是指字符序列包含的字符数;
成词识别步骤:该步骤使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词;
词典比对步骤:该步骤将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。
CN201210473340.7A 2012-11-20 2012-11-20 一种基于改进信息熵特征的中文未登录词识别系统及方法 Expired - Fee Related CN103020022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210473340.7A CN103020022B (zh) 2012-11-20 2012-11-20 一种基于改进信息熵特征的中文未登录词识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210473340.7A CN103020022B (zh) 2012-11-20 2012-11-20 一种基于改进信息熵特征的中文未登录词识别系统及方法

Publications (2)

Publication Number Publication Date
CN103020022A true CN103020022A (zh) 2013-04-03
CN103020022B CN103020022B (zh) 2016-01-27

Family

ID=47968641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210473340.7A Expired - Fee Related CN103020022B (zh) 2012-11-20 2012-11-20 一种基于改进信息熵特征的中文未登录词识别系统及方法

Country Status (1)

Country Link
CN (1) CN103020022B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
WO2016119507A1 (zh) * 2015-01-30 2016-08-04 深圳市华傲数据技术有限公司 基于信息熵的对象名称编辑距离计算方法及匹配方法
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN106815190A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种词语识别方法、装置及服务器
CN107577667A (zh) * 2017-09-14 2018-01-12 北京奇艺世纪科技有限公司 一种实体词处理方法和装置
CN107688562A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 词检测方法、装置、系统
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质
CN108170672A (zh) * 2017-12-22 2018-06-15 武汉数博科技有限责任公司 一种中文机构名称实时分析方法及系统
CN108269125A (zh) * 2018-01-15 2018-07-10 口碑(上海)信息技术有限公司 评论信息质量评估方法及系统、评论信息处理方法及系统
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN110347931A (zh) * 2013-06-06 2019-10-18 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN110929510A (zh) * 2019-11-29 2020-03-27 上海晏鼠计算机技术股份有限公司 一种基于字典树的中文未登录词识别方法
CN111339753A (zh) * 2020-02-25 2020-06-26 北京林业大学 一种自适应中文新词识别方法与系统
CN111814436A (zh) * 2020-07-27 2020-10-23 上海观安信息技术股份有限公司 一种基于互信息和熵的用户行为序列检测方法及系统
CN115034211A (zh) * 2022-05-19 2022-09-09 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质
CN117473983A (zh) * 2023-12-27 2024-01-30 苏州元脑智能科技有限公司 一种基于模糊匹配和互信息的未登录词收集方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162118A1 (en) * 2006-12-15 2008-07-03 International Business Machines Corporation Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162118A1 (en) * 2006-12-15 2008-07-03 International Business Machines Corporation Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOTARO FUNAKOSHI等: "Robust Acquisition and Recognition of Spoken Location Names", 《PROCEEDINGS OF THE 2007 IEEE/RSJ INTERNATIONAL》 *
徐亮: "中文新词识别研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347931A (zh) * 2013-06-06 2019-10-18 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
WO2016119507A1 (zh) * 2015-01-30 2016-08-04 深圳市华傲数据技术有限公司 基于信息熵的对象名称编辑距离计算方法及匹配方法
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN106815190A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种词语识别方法、装置及服务器
CN106815190B (zh) * 2015-11-27 2020-06-23 阿里巴巴集团控股有限公司 一种词语识别方法、装置及服务器
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN106095753B (zh) * 2016-06-07 2018-11-06 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN107688562A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 词检测方法、装置、系统
CN107577667A (zh) * 2017-09-14 2018-01-12 北京奇艺世纪科技有限公司 一种实体词处理方法和装置
CN107577667B (zh) * 2017-09-14 2020-10-27 北京奇艺世纪科技有限公司 一种实体词处理方法和装置
CN108170672A (zh) * 2017-12-22 2018-06-15 武汉数博科技有限责任公司 一种中文机构名称实时分析方法及系统
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质
CN108269125A (zh) * 2018-01-15 2018-07-10 口碑(上海)信息技术有限公司 评论信息质量评估方法及系统、评论信息处理方法及系统
CN108269125B (zh) * 2018-01-15 2020-08-21 口碑(上海)信息技术有限公司 评论信息质量评估方法及系统、评论信息处理方法及系统
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN110929510A (zh) * 2019-11-29 2020-03-27 上海晏鼠计算机技术股份有限公司 一种基于字典树的中文未登录词识别方法
CN111339753A (zh) * 2020-02-25 2020-06-26 北京林业大学 一种自适应中文新词识别方法与系统
CN111339753B (zh) * 2020-02-25 2023-06-16 北京林业大学 一种自适应中文新词识别方法与系统
CN111814436A (zh) * 2020-07-27 2020-10-23 上海观安信息技术股份有限公司 一种基于互信息和熵的用户行为序列检测方法及系统
CN111814436B (zh) * 2020-07-27 2023-10-17 上海观安信息技术股份有限公司 一种基于互信息和熵的用户行为序列检测方法及系统
CN115034211A (zh) * 2022-05-19 2022-09-09 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质
CN115034211B (zh) * 2022-05-19 2023-04-18 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质
CN117473983A (zh) * 2023-12-27 2024-01-30 苏州元脑智能科技有限公司 一种基于模糊匹配和互信息的未登录词收集方法、装置
CN117473983B (zh) * 2023-12-27 2024-03-19 苏州元脑智能科技有限公司 一种基于模糊匹配和互信息的未登录词收集方法、装置

Also Published As

Publication number Publication date
CN103020022B (zh) 2016-01-27

Similar Documents

Publication Publication Date Title
CN103020022B (zh) 一种基于改进信息熵特征的中文未登录词识别系统及方法
Chowdhury et al. Performing sentiment analysis in Bangla microblog posts
CN104008166B (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN106528583A (zh) 一种网页正文提取比对方法
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN106201465A (zh) 面向开源社区的软件项目个性化推荐方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN103646088A (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN103823859B (zh) 基于决策树规则和多种统计模型相结合的人名识别算法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN105022740A (zh) 非结构化数据的处理方法和装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN104484380A (zh) 个性化搜索方法及装置
CN110362820B (zh) 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN106611041A (zh) 一种新的文本相似度求解方法
CN102760121B (zh) 依存映射方法及系统
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法
CN103324612A (zh) 一种分词的方法及装置
CN103116573A (zh) 一种基于词汇注释的领域词典自动扩充方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160127

Termination date: 20161120

CF01 Termination of patent right due to non-payment of annual fee