CN104376041A

CN104376041A - 一种基于微博分类的信息抽取方法

Info

Publication number: CN104376041A
Application number: CN201410535127.3A
Authority: CN
Inventors: 冯晓燕
Original assignee: Beijing Zhongsou Network Technology Co ltd
Current assignee: Beijing Zhongsou Network Technology Co ltd
Priority date: 2014-10-11
Filing date: 2014-10-11
Publication date: 2015-02-25
Anticipated expiration: 2034-10-11
Also published as: CN104376041B

Abstract

本发明涉及一种基于微博分类的信息抽取方法，所述方法包括：(1)获取分类标签；(2)整理目标标签；(3)根据分类和目标标签对博文循环进行标签提取；(4)对提取的标签进行过滤和消歧。本发明用于分类微博内的二级过滤标签抽取。快速全面的找到所有标签，并进行过滤筛选，获得准确目标标签。

Description

一种基于微博分类的信息抽取方法

技术领域

本发明属于一种微博信息抽取方法，具体讲涉及一种基于微博分类的信息抽取方法。

背景技术

微博即微型博客(Micro-blog)，是一种基于互联网终端通过关注机制分享简短信息的广播式的社交网络平台，兼具社交网络与媒体特征。随着微博技术的不断发展，越来越多的用户喜欢在微博上发表自己对某件事或某个问题的观点看法。为了方便用户快速准确的找到自己感兴趣的微博，需要抽取博文内容信息以多维归类。例如可以滤出有关美食类的微博，但是不同区域不同品味人喜欢的美食也不尽相同。因此需要对归类博文做进一步的信息抽取，做多维划分，便于二级搜索。

面向微博的信息抽取，是指从充满噪音的、零碎的、非结构化的微博内容的自由文本中提取有价值的结构化的信息，以利于从微博内容中有效地获取信息。现有的抽取方法分为传统抽取方法和开放式抽取方法。

传统抽取方法，是面向特定领域和针对特定关系类型，主流方法是数据驱动的统计方法。命名实体识别方法分为基于规则的和基于数据驱动的。关系抽取是把一组实体组合为一条记录。典型的方法有基于马尔科夫逻辑网方法。

面向整个互联网的开放式抽取方法対领域、试题类型和关系类型都没有任何限制。开放式信息抽取的目标实体可以是任何名词短语，目标关系是在学习过程中自动发现的。突出特点是采用领域无关知识库，通过自主监督学习的方法，自动标注训练集、训练模型。

现有的传统抽取方法需要事先建立模型，根据模型和命名实体抽取信息。开放式信息抽取方法的目标关系是自动学习过程。这两种抽取方法都需要人工先标注样本，提取命名实体，建立模型，且更适用与长文本信息抽取。将所抽取结果用来做进一步的数据分析。而基于分类的微博信息抽取，是对类内数据做第多维度抽取。是确定维度和抽取目标的抽取，具有一定的确定性。另外，博文篇幅较短，所能提供的信息有限，且变化快，模型的有效使用期较短，故不适合。

发明内容

针对现有技术的不足，本发明提出一种基于微博分类的信息抽取方法，目的是针对各种微博分类数据提取各分类需要的标签。基于微博分类数据，采用词头Hash法存储词典，能够快速从博文中找到所有的Key词。并对匹配Key进行优先消歧处理。准确快速抽取出所需信息。

本发明的目的是采用下述技术方案实现的：

一种基于微博分类的信息抽取方法，其改进之处在于，所述方法包括：

(1)获取分类标签；

(2)整理目标标签；

(3)根据分类和目标标签对博文循环进行标签提取；

(4)对提取的标签进行过滤和消歧。

优选的，所述步骤(1)分类标签包括美食类博文地区标签、旅游类博文的地区标签和景点标签、有奖转发类博文的奖品标签、电影类博文的电影名和星座类博文的标签。

优选的，所述步骤(2)包括整理不同分类和目标标签需要的词典。

优选的，所述步骤(2)包括整理目标词典，加载存储Key。

优选的，所述步骤(3)根据分类从博文循环查找目标Key并提取。

优选的，所述步骤(4)包括根据分类和目标标签选取最终标签。

优选的，所述步骤(4)包括

(4.1)筛选Key；

(4.2)滤掉不合格及无法提取的Key博文；

(4.3)标注提取的Key。

优选的，美食类博文的地区标签的提取包括

1.1对匹配地区Key数据的加载；

1.2从博文中循环查找目标Key；

1.3对于地区Key采取的选取策略；

1.4对提取的省级标签和市级标签分别标注。

优选的，旅游类博文的地区标签和景点标签的提取包括：

2.1加载词表；

2.2匹配景点Key；

2.3匹配地区Key；

2.4选择景点和地区决策。

优选的，有奖转发类博文的奖品标签提取包括：

3.1加载获奖开始词表和获奖结束词表；

3.2根据词表从博文串中提取获奖开始词和获奖结束词之间的串，循环提取；

3.3标注奖品串。

优选的，电影类博文的电影名提取包括：

4.1加载电影词表并实时更新；

4.2从博文串中提取信息，并从词表中匹配电影名和电影的上映时间，循环提取；

4.3从博文中提取时间，滤掉未来时间与当前时间不符合博文；

4.4根据提取的电影的上映时间，滤掉的博文是未来时态情况；

4.5对于时间合格的数据，标注电影个数和电影名。

优选的，星座类博文的分类标签提取包括：

5.1判断博文是运势博文或TOP博文；

5.2运势博文，提取运势分类和星座；

5.3TOP博文，则提取参与排序的星座；

5.4标注分类标签和星座标签。

与现有技术比，本发明的有益效果为：

本发明用于分类微博内的二级过滤标签抽取。快速全面的找到所有标签，并进行过滤筛选，获得准确目标标签。目前应用该方法做信息抽取的分类有(有奖转发的奖品串、旅游的地区标签和景点标签、美食的地区标签、星座的运势标签和星座标签、电影的电影名标签)。该方法效果显著、独立性好、可扩展性强。具体体现有在：

1、针对不同的分类和目标标签可设定不同的词表，分类间相互独立，便于扩展。

2、实行速度快，效果显著。

3、可以根据需求实施更新词典，可操控性强大。

附图说明

图1为本发明提供的一种基于微博分类的信息抽取方法示意图。

图2为本发明提供的一种基于微博分类的信息抽取方法流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

基于微博分类的信息抽取是方便用户对分类数据进行内部过滤。本发明一种基于微博分类的信息抽取方法分为四个阶段。

第一阶段，通过调研，得到每个分类需要的标签。

第二阶段，根据目标标签进行整理各类词典，不同的分类和目标标签需要的词典各不相同。

第三阶段，根据分类和目标标签对博文循环进行标签提取。

第四阶段，对提取的标签进行过滤和消歧，根据分类和目标标签的不同，最终标签的选方法各不相同。整体流程见图2。

本发明具体共对五个分类做了信息提取，具体的提取过程各不相同，下面分为五个模块逐一具体介绍。

第一个模块是美食类博文的地区标签。

第二个模块是旅游类博文的地区标签和景点标签的提取，并过滤掉无标签的数据。第三个模块是有奖转发类博文的奖品串提取。

第四模块是电影类博文的电影个数和电影名提取。

第五模块是星座类博文的标签提取，这里包括星座运势类标签(分为：日运势、周运势、月运势、年运势、12星座标签)提取和星座Top榜单的12星座提取。有效数据提取具体步骤如下：

1、美食类博文的地区标签的提取

该模块的主要工作是从美食类的博文串中提取到地区标签，包括省级标签和市级标签。

1.1要进行匹配的地区Key数据的加载

一条Key数据包括：省+市+区/县+路/街道+地名/店名，加载在一个KeyHash里，每条数据的词头(截取一个字节作为词头)存在词头Hash里，保存词长。

1.2用博文中字符挨个去词头Hash中查找，找到词头后，从大到小，依次截词头长度的词去KeyHash里查找。循环查找，直至找到所有的地区Key词。

1.3对于地区Key采取的选取策略

Key词优先级：省级>市级>区级>县级>街道/路级>地名/店名/电话。在级别相同的情况下：街道和路，优先选择长的Key对应的省级和市级；地名、店名和电话，在对应省市出现歧义的情况下，不做处理。

1.4将提取到得省级标签和市级标签分别标注。

如果只提取到了市级标签，则比对所对应的省级是否唯一，如果不唯一，则舍弃该条数据。如果市级标签对应的省级标签唯一，则标注省级和市级标签。如果只提取到了省级标签，则只标注省级。

2、旅游类博文的地区标签和景点标签的提取

该模块的主要工作是从旅游类的博文串中提取到景点标签和地区标签，并过滤掉没有任何标签的博文。

2.1加载词表

这里包括景点词表和地区词表。景点词表数据格包括景点、景点对应的地区(地区包括省级和市级)。地区词表包，每一个词条都包含了省级和市级，便于用景点对应到相应的省级和市级。加载数据格式包括词条Hash和KeyHash。词头Hash标注了存在的Key长。

2.2匹配景点Key

用博文中字符挨个去词头Hash中查找，找到词头后，从大到小，依次截词头长度的词去景点KeyHash里查找。循环查找，直至找到所有的景点Key词。

2.3匹配地区Key

用博文中字符挨个去词头Hash中查找，找到词头后，从大到小，依次截词头长度的词去地区KeyHash里查找。循环查找，直至找到所有的地区Key词。

2.4选择景点和地区决策

如果地区唯一，景点不为空，则筛选景点中地区对应的景点，标注地区标签，和所有符合的景点标签。

如果地区唯一，景点为空，则只标注地区标签。

如果地区不唯一，景点不为空，则取比较热或比较长的景点，并判断这些景点对应的地区是否唯。如果对应的地区唯一，则标注这些景点和唯一的地区。如果对应的地区不唯一，则只标注这些景点。

如果地区不唯一，景点为空，则滤掉这条数据。

3、有奖转发类博文的奖品标签提取

该模块的功能是从博文串中提取所有含有奖品的串。

3.1加载获奖开始词表和获奖结束词。

3.2根据词表从博文串中提取获奖开始词和获奖结束词之间的串，循环提取。

3.3标注所有的奖品串。

4、电影类博文的电影名提取和时间过滤

该模块的功能从博文串中提取所有的电影名，并标注电影的个数。并过滤掉时间无效的博文。

4.1加载电影词表并实时更新。

4.2从博文串中提取《》之间的串，并从词表中匹配电影名，和电影的上映时间。循环提取。

4.3从博文中提取时间，例如x月x日、x/x等。过滤掉未来时间与当前时间不符合博文，例如，博文串中的时间2013年12月将要播出xx。而当前时间是2014年。故该条博文不合格。

4.4根据提取的电影的上映时间，滤掉博文是未来时态情况，而所有的电影的上映时间都是过去式的博文。

4.5对于时间合格的数据，标注电影个数和所有的电影名。

5、星座类博文的分类标签提取

该模块的功能是从博文串中提取两类标签。一种标签是分类签，分为：日运势、周运势、月运势、年运势、TOP榜单。另一种标签是星座标签。所有的运势表现都必须是只描述一个星座的运势博文，所以星座只能有一个。而TOP榜单要包含所有排名的星座。

5.1判断博文是运势博文还是TOP博文。

5.2如果是运势博文，提取运势分类和星座，四个运势分类只能有一个，星座只能有一个。

5.3如果是TOP博文，则提取所有参与排序的星座。

5.4标注分类标签和星座标签，没有标签不标注。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于微博分类的信息抽取方法，其特征在于，所述方法包括：

(1)获取分类标签；

(2)整理目标标签；

(3)根据分类和目标标签对博文循环进行标签提取；

(4)对提取的标签进行过滤和消歧。

2.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(1)分类标签包括美食类博文地区标签、旅游类博文的地区标签和景点标签、有奖转发类博文的奖品标签、电影类博文的电影名和星座类博文的标签。

3.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(2)包括整理不同分类和目标标签需要的词典。

4.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(2)包括整理目标词典，加载存储Key。

5.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(3)根据分类从博文循环查找目标Key并提取。

6.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(4)包括根据分类和目标标签选取最终标签。

7.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(4)包括