CN106649255A

CN106649255A - 一种对短文本自动分类和识别主题词的方法

Info

Publication number: CN106649255A
Application number: CN201510755236.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: JIANGSU CITED RUN NETWORK TECHNOLOGY Co Ltd
Current assignee: JIANGSU CITED RUN NETWORK TECHNOLOGY Co Ltd
Priority date: 2015-11-04
Filing date: 2015-11-04
Publication date: 2017-05-10

Abstract

本发明的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个预置的大容量分类词库，以此绕过对短文本分类的聚类算法要求。短文本将通过与大容量分类词库的词条逐一比对获取有助于分类和识别主题词的特征信息。其方法是，短文本通过分词，切分成若干词语序列；对首句或首个段落的词语增加权重；分类词库词条也同样分词，这样将获得两对词语序列，对这两对词语序列做交叉比对，如有匹配将按词语自身的权重倍率累加命中计数，对每个词条计算命中计数值并适当修正后，最终返回的分类是计数值最高的词条。

Description

一种对短文本自动分类和识别主题词的方法

技术领域

本发明涉及自然语言处理领域，以及互联网技术领域。

背景技术

随着互联网的广泛渗透，网民深度参与内容生产，以微博等自媒体为代表的互联网信息内容中，短文本呈现出活跃性强，与现实紧扣，传播迅速，社会影响力重大的特点，针对短文本的自然语言处理(NLP)技术也越来越重要。对短文本内容分类和识别主题词是最常见的需求之一。但由于文本短小，内容较少，基于统计和向量空间模型的一些算法，如聚类算法，由于数据稀疏的原因，处理效果较差。多种聚类算法都需要样本数据达到一定数量，样本可提取的词语数也需要达到一定数量才能计算出较为稳定的TDIDF词频数据，这是后续算法处理的基础。但对于短文本来说，很多样本在去除“应删除词”后可能仅有数个词语，其TDIDF数值严重失真，后续计算难以进行，更遑论识别其主题内容及分类了。

发明内容

本发明的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个大容量预置的分类词库，以此摆脱对短文本分类时的聚类算法要求。整个方法的实现效果取决于两部分：一是分类词库的构建；二是将短文本与分类词库的比对计算。

分类词库具有如下特征：

1、存储于数据库或文件中；

2、每条数据(词条)本身是一个短文本，或更简单的是一个词语；

3、词条本身可以携带若干个属性，如按某种分类方式定义的类别，属于某类别的概率，数据的语义特征(动词、名词等)；属性本身可以表达一种关联性，将这条数据与另一条词条建立一个基于概率的关系；

4、分类词库在运行期间是只读的。分类词库具有多种构建方式，不同的构建方式可适用不同的目的。可以是使用标注语料使用某种算法训练而来，或是由第三方词典数据适当转换而来，或是来自于互联网的可采集数据(例如，百度的热点事件列表)，等等。

短文本将通过与这样一个大容量的分类词库的词条逐一比对来获取有助于分类和识别主题词的信息。步骤如下：短文本通过分词，切分成若干词语序列。对在首句或首个段落的词语增加权重。分类词库词条也同样分词(如由单个词语构成词条可以跳过)。这样将获得两对词语序列，对这两对词语序列做交叉比对，如有匹配将按词语自身的权重倍率累加命中计数，对每个词条计算命中计数值。最终返回的分类是计数值最高的那个词条。同时，短文本中为命中计数值贡献最多的词语被识别为(用于表征分类的关键信息的)主题词。

这种交叉比对的方法，本质上是和TFIDF的思想是一致的，但是将IDF(逆向文件频率)的计算归类到分类词库的词语权重中，而分类词库一般是用大量、丰富的文本语料预先训练好的，从而解决了短文本数据稀疏的难题。

附图说明

图1为分类词库的结构说明图。

图2为本发明的工作流程示意图。

具体实施方式

基于应用目的的不同，如为短文本打标签，或识别短文本中蕴含的事件，分类词库的构建方式是多样化的，其简单与复杂的差异性也较大。为了说明相关方法的实现，以下内容以一种基本应用来说明，即分类词库是一系列热点事件名称短语的集合，要求将短文本归类到最准确的事件词条并识别其主题词。但这只是本发明的典型实施例而已，用于帮助理解本发明的方法和核心思想，对于本领域的一般技术人员，依据本发明的方向性叙述，在具体实施方式及应用范围上均会有改变之处，以下内容不应理解为对本发明的限制。

首先，我们需要准备一个热点事件分类词库的数据源。可以通过实时采集互联网门户网站的新闻标题、百度实时热点等作为分类词库的词条。每个词条本身也是一条短文本。

其次，对于分类词库中的每个词条，分词，得到一个词语序列。词语序列应做“应删除词”处理，包含“的”，“是”之类的单字都应删除。

然后，对所有词条综合起来计算词条词语的权重值，这实质上是计算其逆向文件频率(IDF)。实际上，以每个短文本自身作为一个文档来计算IDF，因为数据样本太少，每个词条之间可能相互不能覆盖，实际计算出来的IDF反映不了真实概率。可以通过将词条还原到长文本来计算IDF，例如，将新闻标题对应的链接中的正文，参与短文本的IDF计算。但这并不是唯一的途径，还有其他的方式。例如，将短文本中的词语词性综合考虑进来，对专有名词赋予额外的权重。因为在与短文本做交叉比对时还会进一步利用短文本的词语权重，作为一种简化的方案，对词条词语不做任何权重处理，实际使用上也有不错的效果。

分类词库准备完成后，在运行时需要将所有词条相关数据加载到内存。

最后，使用分类词库对短文本进行识别处理。对需要分类的短文本，按如下步骤处理：

1)对短文本区分“标题”和“正文”。“标题”是文本中的首句，或者首段。

2)对“标题”和“正文”分别分词。

3)对“标题”和“正文”分词后的每个词语，计算词频TF。其中“标题”中出现的词语按较高的倍率计算词频，典型值如10。“正文”中的词语则每出现一次累加1计值。

4)对分类词库中的词条遍历。对每个词条Entry，设置计数值(以下简记为Count[Entry])为0。做如下操作：

a)对短文本中的每个词语(以下简记为word)，做如下操作：

b)对词条中的每个词语(以下简记为EntryWord)，如果EntryWord包含或等于word，则对词条Count[Entry]值累加EntryWord的权重后，乘以word的权重值，将结果赋回Count[Entry]；

c)如果短文本全文包含词条，则对词条Count[Entry]值累加1后，乘以固定权重值如5，将结果赋回Count[Entry]；

5)对所有词条的Count[Entry]值排序，其最大最小值之差为delta。词条总数为N，所有满足其Count[Entry]值与最大值之差小于delta/N的词条，将被选出做下一步处理。

6)将上一步选出的词条，按其长度的倒数对其Count[Entry]值加权。对调整后的Count[Entry]值结果，按最大值的词条作为最终分类结果返回。这一步将能抑制长度较长的词条不适当的利用其词语数量优势。

7)在作为结果的词条的Count[Entry]值中，以短文本的各个词语的贡献值，按最大的作为主题词返回结果。

算法中若干设定权重分配的固定值，可以根据具体的分类词库和识别短文本的场景，做适当优化得到，一般可以作为配置参数提供。

Claims

1.一种对短文本自动分类和识别主题词的方法，其特征在于：

1)使用一个分类词库作为分类实现的主要数据模型。

2)通过对短文本与分类词库的每条词条逐条比对，计算命中计数值，以最高命中计数值的词条作为分类结果。

3)以短文本中对最高命中计数值贡献最大的词语作为主题词识别结果。

2.如权利1所述的对短文本自动分类和识别主题词的方法所需的分类词库，其特征在于：

1)存储于数据库或文件中；

2)每条数据(词条)本身是一个短文本，或更简单的是一个词语；

3)词条本身可以携带若干个属性；

4)分类词库在运行期间是只读的。

3.如权利1所述的对短文本自动分类和识别主题词的方法所要求的词条与短文本的比对操作，其特征在于：

1)词条和短文本都应分词，各自形成一个词语序列；

2)每个词语都携带一个权重值；

3)对每个词条设置一个命中计数值；

4)对词条和短文本的词语序列交叉比对匹配性，如相等或包含，则按词条和短文本的词语权重累加相乘计值后保存到命中计数值中；

5)对词条的命中计数值排序，并按其长度倒数对计数值修正。