CN106649255A - 一种对短文本自动分类和识别主题词的方法 - Google Patents
一种对短文本自动分类和识别主题词的方法 Download PDFInfo
- Publication number
- CN106649255A CN106649255A CN201510755236.0A CN201510755236A CN106649255A CN 106649255 A CN106649255 A CN 106649255A CN 201510755236 A CN201510755236 A CN 201510755236A CN 106649255 A CN106649255 A CN 106649255A
- Authority
- CN
- China
- Prior art keywords
- entry
- word
- short text
- classification
- count value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个预置的大容量分类词库,以此绕过对短文本分类的聚类算法要求。短文本将通过与大容量分类词库的词条逐一比对获取有助于分类和识别主题词的特征信息。其方法是,短文本通过分词,切分成若干词语序列;对首句或首个段落的词语增加权重;分类词库词条也同样分词,这样将获得两对词语序列,对这两对词语序列做交叉比对,如有匹配将按词语自身的权重倍率累加命中计数,对每个词条计算命中计数值并适当修正后,最终返回的分类是计数值最高的词条。
Description
技术领域
本发明涉及自然语言处理领域,以及互联网技术领域。
背景技术
随着互联网的广泛渗透,网民深度参与内容生产,以微博等自媒体为代表的互联网信息内容中,短文本呈现出活跃性强,与现实紧扣,传播迅速,社会影响力重大的特点,针对短文本的自然语言处理(NLP)技术也越来越重要。对短文本内容分类和识别主题词是最常见的需求之一。但由于文本短小,内容较少,基于统计和向量空间模型的一些算法,如聚类算法,由于数据稀疏的原因,处理效果较差。多种聚类算法都需要样本数据达到一定数量,样本可提取的词语数也需要达到一定数量才能计算出较为稳定的TDIDF词频数据,这是后续算法处理的基础。但对于短文本来说,很多样本在去除“应删除词”后可能仅有数个词语,其TDIDF数值严重失真,后续计算难以进行,更遑论识别其主题内容及分类了。
发明内容
本发明的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个大容量预置的分类词库,以此摆脱对短文本分类时的聚类算法要求。整个方法的实现效果取决于两部分:一是分类词库的构建;二是将短文本与分类词库的比对计算。
分类词库具有如下特征:
1、存储于数据库或文件中;
2、每条数据(词条)本身是一个短文本,或更简单的是一个词语;
3、词条本身可以携带若干个属性,如按某种分类方式定义的类别,属于某类别的概率,数据的语义特征(动词、名词等);属性本身可以表达一种关联性,将这条数据与另一条词条建立一个基于概率的关系;
4、分类词库在运行期间是只读的。分类词库具有多种构建方式,不同的构建方式可适用不同的目的。可以是使用标注语料使用某种算法训练而来,或是由第三方词典数据适当转换而来,或是来自于互联网的可采集数据(例如,百度的热点事件列表),等等。
短文本将通过与这样一个大容量的分类词库的词条逐一比对来获取有助于分类和识别主题词的信息。步骤如下:短文本通过分词,切分成若干词语序列。对在首句或首个段落的词语增加权重。分类词库词条也同样分词(如由单个词语构成词条可以跳过)。这样将获得两对词语序列,对这两对词语序列做交叉比对,如有匹配将按词语自身的权重倍率累加命中计数,对每个词条计算命中计数值。最终返回的分类是计数值最高的那个词条。同时,短文本中为命中计数值贡献最多的词语被识别为(用于表征分类的关键信息的)主题词。
这种交叉比对的方法,本质上是和TFIDF的思想是一致的,但是将IDF(逆向文件频率)的计算归类到分类词库的词语权重中,而分类词库一般是用大量、丰富的文本语料预先训练好的,从而解决了短文本数据稀疏的难题。
附图说明
图1为分类词库的结构说明图。
图2为本发明的工作流程示意图。
具体实施方式
基于应用目的的不同,如为短文本打标签,或识别短文本中蕴含的事件,分类词库的构建方式是多样化的,其简单与复杂的差异性也较大。为了说明相关方法的实现,以下内容以一种基本应用来说明,即分类词库是一系列热点事件名称短语的集合,要求将短文本归类到最准确的事件词条并识别其主题词。但这只是本发明的典型实施例而已,用于帮助理解本发明的方法和核心思想,对于本领域的一般技术人员,依据本发明的方向性叙述,在具体实施方式及应用范围上均会有改变之处,以下内容不应理解为对本发明的限制。
首先,我们需要准备一个热点事件分类词库的数据源。可以通过实时采集互联网门户网站的新闻标题、百度实时热点等作为分类词库的词条。每个词条本身也是一条短文本。
其次,对于分类词库中的每个词条,分词,得到一个词语序列。词语序列应做“应删除词”处理,包含“的”,“是”之类的单字都应删除。
然后,对所有词条综合起来计算词条词语的权重值,这实质上是计算其逆向文件频率(IDF)。实际上,以每个短文本自身作为一个文档来计算IDF,因为数据样本太少,每个词条之间可能相互不能覆盖,实际计算出来的IDF反映不了真实概率。可以通过将词条还原到长文本来计算IDF,例如,将新闻标题对应的链接中的正文,参与短文本的IDF计算。但这并不是唯一的途径,还有其他的方式。例如,将短文本中的词语词性综合考虑进来,对专有名词赋予额外的权重。因为在与短文本做交叉比对时还会进一步利用短文本的词语权重,作为一种简化的方案,对词条词语不做任何权重处理,实际使用上也有不错的效果。
分类词库准备完成后,在运行时需要将所有词条相关数据加载到内存。
最后,使用分类词库对短文本进行识别处理。对需要分类的短文本,按如下步骤处理:
1)对短文本区分“标题”和“正文”。“标题”是文本中的首句,或者首段。
2)对“标题”和“正文”分别分词。
3)对“标题”和“正文”分词后的每个词语,计算词频TF。其中“标题”中出现的词语按较高的倍率计算词频,典型值如10。“正文”中的词语则每出现一次累加1计值。
4)对分类词库中的词条遍历。对每个词条Entry,设置计数值(以下简记为Count[Entry])为0。做如下操作:
a)对短文本中的每个词语(以下简记为word),做如下操作:
b)对词条中的每个词语(以下简记为EntryWord),如果EntryWord包含或等于word,则对词条Count[Entry]值累加EntryWord的权重后,乘以word的权重值,将结果赋回Count[Entry];
c)如果短文本全文包含词条,则对词条Count[Entry]值累加1后,乘以固定权重值如5,将结果赋回Count[Entry];
5)对所有词条的Count[Entry]值排序,其最大最小值之差为delta。词条总数为N,所有满足其Count[Entry]值与最大值之差小于delta/N的词条,将被选出做下一步处理。
6)将上一步选出的词条,按其长度的倒数对其Count[Entry]值加权。对调整后的Count[Entry]值结果,按最大值的词条作为最终分类结果返回。这一步将能抑制长度较长的词条不适当的利用其词语数量优势。
7)在作为结果的词条的Count[Entry]值中,以短文本的各个词语的贡献值,按最大的作为主题词返回结果。
算法中若干设定权重分配的固定值,可以根据具体的分类词库和识别短文本的场景,做适当优化得到,一般可以作为配置参数提供。
Claims (3)
1.一种对短文本自动分类和识别主题词的方法,其特征在于:
1)使用一个分类词库作为分类实现的主要数据模型。
2)通过对短文本与分类词库的每条词条逐条比对,计算命中计数值,以最高命中计数值的词条作为分类结果。
3)以短文本中对最高命中计数值贡献最大的词语作为主题词识别结果。
2.如权利1所述的对短文本自动分类和识别主题词的方法所需的分类词库,其特征在于:
1)存储于数据库或文件中;
2)每条数据(词条)本身是一个短文本,或更简单的是一个词语;
3)词条本身可以携带若干个属性;
4)分类词库在运行期间是只读的。
3.如权利1所述的对短文本自动分类和识别主题词的方法所要求的词条与短文本的比对操作,其特征在于:
1)词条和短文本都应分词,各自形成一个词语序列;
2)每个词语都携带一个权重值;
3)对每个词条设置一个命中计数值;
4)对词条和短文本的词语序列交叉比对匹配性,如相等或包含,则按词条和短文本的词语权重累加相乘计值后保存到命中计数值中;
5)对词条的命中计数值排序,并按其长度倒数对计数值修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510755236.0A CN106649255A (zh) | 2015-11-04 | 2015-11-04 | 一种对短文本自动分类和识别主题词的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510755236.0A CN106649255A (zh) | 2015-11-04 | 2015-11-04 | 一种对短文本自动分类和识别主题词的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649255A true CN106649255A (zh) | 2017-05-10 |
Family
ID=58850813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510755236.0A Pending CN106649255A (zh) | 2015-11-04 | 2015-11-04 | 一种对短文本自动分类和识别主题词的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649255A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815501A (zh) * | 2019-01-29 | 2019-05-28 | 四川无声信息技术有限公司 | 一种获取群聊文本分类词库的方法及装置 |
CN109993216A (zh) * | 2019-03-11 | 2019-07-09 | 深兰科技(上海)有限公司 | 一种基于k最近邻knn的文本分类方法及其设备 |
CN110765233A (zh) * | 2019-11-11 | 2020-02-07 | 中国人民解放军军事科学院评估论证研究中心 | 基于深度挖掘和知识管理技术的智能信息检索服务系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及系统 |
CN101794303A (zh) * | 2010-02-11 | 2010-08-04 | 重庆邮电大学 | 采用特征扩展分类文本及构造文本分类器的方法和装置 |
CN103336766A (zh) * | 2013-07-04 | 2013-10-02 | 微梦创科网络科技(中国)有限公司 | 短文本垃圾识别以及建模方法和装置 |
CN103886077A (zh) * | 2014-03-24 | 2014-06-25 | 广东省电信规划设计院有限公司 | 短文本的聚类方法和系统 |
CN104091054A (zh) * | 2014-06-26 | 2014-10-08 | 中国科学院自动化研究所 | 面向短文本的群体性事件预警方法和系统 |
-
2015
- 2015-11-04 CN CN201510755236.0A patent/CN106649255A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及系统 |
CN101794303A (zh) * | 2010-02-11 | 2010-08-04 | 重庆邮电大学 | 采用特征扩展分类文本及构造文本分类器的方法和装置 |
CN103336766A (zh) * | 2013-07-04 | 2013-10-02 | 微梦创科网络科技(中国)有限公司 | 短文本垃圾识别以及建模方法和装置 |
CN103886077A (zh) * | 2014-03-24 | 2014-06-25 | 广东省电信规划设计院有限公司 | 短文本的聚类方法和系统 |
CN104091054A (zh) * | 2014-06-26 | 2014-10-08 | 中国科学院自动化研究所 | 面向短文本的群体性事件预警方法和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815501A (zh) * | 2019-01-29 | 2019-05-28 | 四川无声信息技术有限公司 | 一种获取群聊文本分类词库的方法及装置 |
CN109993216A (zh) * | 2019-03-11 | 2019-07-09 | 深兰科技(上海)有限公司 | 一种基于k最近邻knn的文本分类方法及其设备 |
CN110765233A (zh) * | 2019-11-11 | 2020-02-07 | 中国人民解放军军事科学院评估论证研究中心 | 基于深度挖掘和知识管理技术的智能信息检索服务系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN110019658B (zh) | 检索项的生成方法及相关装置 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
TWI662425B (zh) | 一種自動生成語義相近句子樣本的方法 | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
US10095685B2 (en) | Phrase pair collecting apparatus and computer program therefor | |
CN103473262B (zh) | 一种基于关联规则的Web评论观点自动分类系统及分类方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN104778209A (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN109325124B (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN101673306B (zh) | 网页信息查询方法及其系统 | |
CN109271634A (zh) | 一种基于用户情感倾向感知的微博文本情感极性分析方法 | |
CN105205124A (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN109299277A (zh) | 舆情分析方法、服务器及计算机可读存储介质 | |
CN108170666A (zh) | 一种基于tf-idf关键词提取的改进方法 | |
CN103678422A (zh) | 网页分类方法和装置、网页分类器的训练方法和装置 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN108399265A (zh) | 基于搜索的实时热点新闻提供方法及装置 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170510 |
|
WD01 | Invention patent application deemed withdrawn after publication |