CN104376041A - 一种基于微博分类的信息抽取方法 - Google Patents

一种基于微博分类的信息抽取方法 Download PDF

Info

Publication number
CN104376041A
CN104376041A CN201410535127.3A CN201410535127A CN104376041A CN 104376041 A CN104376041 A CN 104376041A CN 201410535127 A CN201410535127 A CN 201410535127A CN 104376041 A CN104376041 A CN 104376041A
Authority
CN
China
Prior art keywords
blog article
classification
label
information extraction
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410535127.3A
Other languages
English (en)
Other versions
CN104376041B (zh
Inventor
冯晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongsou Network Technology Co ltd
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201410535127.3A priority Critical patent/CN104376041B/zh
Publication of CN104376041A publication Critical patent/CN104376041A/zh
Application granted granted Critical
Publication of CN104376041B publication Critical patent/CN104376041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于微博分类的信息抽取方法,所述方法包括:(1)获取分类标签;(2)整理目标标签;(3)根据分类和目标标签对博文循环进行标签提取;(4)对提取的标签进行过滤和消歧。本发明用于分类微博内的二级过滤标签抽取。快速全面的找到所有标签,并进行过滤筛选,获得准确目标标签。

Description

一种基于微博分类的信息抽取方法
技术领域
本发明属于一种微博信息抽取方法,具体讲涉及一种基于微博分类的信息抽取方法。
背景技术
微博即微型博客(Micro-blog),是一种基于互联网终端通过关注机制分享简短信息的广播式的社交网络平台,兼具社交网络与媒体特征。随着微博技术的不断发展,越来越多的用户喜欢在微博上发表自己对某件事或某个问题的观点看法。为了方便用户快速准确的找到自己感兴趣的微博,需要抽取博文内容信息以多维归类。例如可以滤出有关美食类的微博,但是不同区域不同品味人喜欢的美食也不尽相同。因此需要对归类博文做进一步的信息抽取,做多维划分,便于二级搜索。
面向微博的信息抽取,是指从充满噪音的、零碎的、非结构化的微博内容的自由文本中提取有价值的结构化的信息,以利于从微博内容中有效地获取信息。现有的抽取方法分为传统抽取方法和开放式抽取方法。
传统抽取方法,是面向特定领域和针对特定关系类型,主流方法是数据驱动的统计方法。命名实体识别方法分为基于规则的和基于数据驱动的。关系抽取是把一组实体组合为一条记录。典型的方法有基于马尔科夫逻辑网方法。
面向整个互联网的开放式抽取方法対领域、试题类型和关系类型都没有任何限制。开放式信息抽取的目标实体可以是任何名词短语,目标关系是在学习过程中自动发现的。突出特点是采用领域无关知识库,通过自主监督学习的方法,自动标注训练集、训练模型。
现有的传统抽取方法需要事先建立模型,根据模型和命名实体抽取信息。开放式信息抽取方法的目标关系是自动学习过程。这两种抽取方法都需要人工先标注样本,提取命名实体,建立模型,且更适用与长文本信息抽取。将所抽取结果用来做进一步的数据分析。而基于分类的微博信息抽取,是对类内数据做第多维度抽取。是确定维度和抽取目标的抽取,具有一定的确定性。另外,博文篇幅较短,所能提供的信息有限,且变化快,模型的有效使用期较短,故不适合。
发明内容
针对现有技术的不足,本发明提出一种基于微博分类的信息抽取方法,目的是针对各种微博分类数据提取各分类需要的标签。基于微博分类数据,采用词头Hash法存储词典,能够快速从博文中找到所有的Key词。并对匹配Key进行优先消歧处理。准确快速抽取出所需信息。
本发明的目的是采用下述技术方案实现的:
一种基于微博分类的信息抽取方法,其改进之处在于,所述方法包括:
(1)获取分类标签;
(2)整理目标标签;
(3)根据分类和目标标签对博文循环进行标签提取;
(4)对提取的标签进行过滤和消歧。
优选的,所述步骤(1)分类标签包括美食类博文地区标签、旅游类博文的地区标签和景点标签、有奖转发类博文的奖品标签、电影类博文的电影名和星座类博文的标签。
优选的,所述步骤(2)包括整理不同分类和目标标签需要的词典。
优选的,所述步骤(2)包括整理目标词典,加载存储Key。
优选的,所述步骤(3)根据分类从博文循环查找目标Key并提取。
优选的,所述步骤(4)包括根据分类和目标标签选取最终标签。
优选的,所述步骤(4)包括
(4.1)筛选Key;
(4.2)滤掉不合格及无法提取的Key博文;
(4.3)标注提取的Key。
优选的,美食类博文的地区标签的提取包括
1.1对匹配地区Key数据的加载;
1.2从博文中循环查找目标Key;
1.3对于地区Key采取的选取策略;
1.4对提取的省级标签和市级标签分别标注。
优选的,旅游类博文的地区标签和景点标签的提取包括:
2.1加载词表;
2.2匹配景点Key;
2.3匹配地区Key;
2.4选择景点和地区决策。
优选的,有奖转发类博文的奖品标签提取包括:
3.1加载获奖开始词表和获奖结束词表;
3.2根据词表从博文串中提取获奖开始词和获奖结束词之间的串,循环提取;
3.3标注奖品串。
优选的,电影类博文的电影名提取包括:
4.1加载电影词表并实时更新;
4.2从博文串中提取信息,并从词表中匹配电影名和电影的上映时间,循环提取;
4.3从博文中提取时间,滤掉未来时间与当前时间不符合博文;
4.4根据提取的电影的上映时间,滤掉的博文是未来时态情况;
4.5对于时间合格的数据,标注电影个数和电影名。
优选的,星座类博文的分类标签提取包括:
5.1判断博文是运势博文或TOP博文;
5.2运势博文,提取运势分类和星座;
5.3TOP博文,则提取参与排序的星座;
5.4标注分类标签和星座标签。
与现有技术比,本发明的有益效果为:
本发明用于分类微博内的二级过滤标签抽取。快速全面的找到所有标签,并进行过滤筛选,获得准确目标标签。目前应用该方法做信息抽取的分类有(有奖转发的奖品串、旅游的地区标签和景点标签、美食的地区标签、星座的运势标签和星座标签、电影的电影名标签)。该方法效果显著、独立性好、可扩展性强。具体体现有在:
1、针对不同的分类和目标标签可设定不同的词表,分类间相互独立,便于扩展。
2、实行速度快,效果显著。
3、可以根据需求实施更新词典,可操控性强大。
附图说明
图1为本发明提供的一种基于微博分类的信息抽取方法示意图。
图2为本发明提供的一种基于微博分类的信息抽取方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
基于微博分类的信息抽取是方便用户对分类数据进行内部过滤。本发明一种基于微博分类的信息抽取方法分为四个阶段。
第一阶段,通过调研,得到每个分类需要的标签。
第二阶段,根据目标标签进行整理各类词典,不同的分类和目标标签需要的词典各不相同。
第三阶段,根据分类和目标标签对博文循环进行标签提取。
第四阶段,对提取的标签进行过滤和消歧,根据分类和目标标签的不同,最终标签的选方法各不相同。整体流程见图2。
本发明具体共对五个分类做了信息提取,具体的提取过程各不相同,下面分为五个模块逐一具体介绍。
第一个模块是美食类博文的地区标签。
第二个模块是旅游类博文的地区标签和景点标签的提取,并过滤掉无标签的数据。第三个模块是有奖转发类博文的奖品串提取。
第四模块是电影类博文的电影个数和电影名提取。
第五模块是星座类博文的标签提取,这里包括星座运势类标签(分为:日运势、周运势、月运势、年运势、12星座标签)提取和星座Top榜单的12星座提取。有效数据提取具体步骤如下:
1、美食类博文的地区标签的提取
该模块的主要工作是从美食类的博文串中提取到地区标签,包括省级标签和市级标签。
1.1要进行匹配的地区Key数据的加载
一条Key数据包括:省+市+区/县+路/街道+地名/店名,加载在一个KeyHash里,每条数据的词头(截取一个字节作为词头)存在词头Hash里,保存词长。
1.2用博文中字符挨个去词头Hash中查找,找到词头后,从大到小,依次截词头长度的词去KeyHash里查找。循环查找,直至找到所有的地区Key词。
1.3对于地区Key采取的选取策略
Key词优先级:省级>市级>区级>县级>街道/路级>地名/店名/电话。在级别相同的情况下:街道和路,优先选择长的Key对应的省级和市级;地名、店名和电话,在对应省市出现歧义的情况下,不做处理。
1.4将提取到得省级标签和市级标签分别标注。
如果只提取到了市级标签,则比对所对应的省级是否唯一,如果不唯一,则舍弃该条数据。如果市级标签对应的省级标签唯一,则标注省级和市级标签。如果只提取到了省级标签,则只标注省级。
2、旅游类博文的地区标签和景点标签的提取
该模块的主要工作是从旅游类的博文串中提取到景点标签和地区标签,并过滤掉没有任何标签的博文。
2.1加载词表
这里包括景点词表和地区词表。景点词表数据格包括景点、景点对应的地区(地区包括省级和市级)。地区词表包,每一个词条都包含了省级和市级,便于用景点对应到相应的省级和市级。加载数据格式包括词条Hash和KeyHash。词头Hash标注了存在的Key长。
2.2匹配景点Key
用博文中字符挨个去词头Hash中查找,找到词头后,从大到小,依次截词头长度的词去景点KeyHash里查找。循环查找,直至找到所有的景点Key词。
2.3匹配地区Key
用博文中字符挨个去词头Hash中查找,找到词头后,从大到小,依次截词头长度的词去地区KeyHash里查找。循环查找,直至找到所有的地区Key词。
2.4选择景点和地区决策
如果地区唯一,景点不为空,则筛选景点中地区对应的景点,标注地区标签,和所有符合的景点标签。
如果地区唯一,景点为空,则只标注地区标签。
如果地区不唯一,景点不为空,则取比较热或比较长的景点,并判断这些景点对应的地区是否唯。如果对应的地区唯一,则标注这些景点和唯一的地区。如果对应的地区不唯一,则只标注这些景点。
如果地区不唯一,景点为空,则滤掉这条数据。
3、有奖转发类博文的奖品标签提取
该模块的功能是从博文串中提取所有含有奖品的串。
3.1加载获奖开始词表和获奖结束词。
3.2根据词表从博文串中提取获奖开始词和获奖结束词之间的串,循环提取。
3.3标注所有的奖品串。
4、电影类博文的电影名提取和时间过滤
该模块的功能从博文串中提取所有的电影名,并标注电影的个数。并过滤掉时间无效的博文。
4.1加载电影词表并实时更新。
4.2从博文串中提取《》之间的串,并从词表中匹配电影名,和电影的上映时间。循环提取。
4.3从博文中提取时间,例如x月x日、x/x等。过滤掉未来时间与当前时间不符合博文,例如,博文串中的时间2013年12月将要播出xx。而当前时间是2014年。故该条博文不合格。
4.4根据提取的电影的上映时间,滤掉博文是未来时态情况,而所有的电影的上映时间都是过去式的博文。
4.5对于时间合格的数据,标注电影个数和所有的电影名。
5、星座类博文的分类标签提取
该模块的功能是从博文串中提取两类标签。一种标签是分类签,分为:日运势、周运势、月运势、年运势、TOP榜单。另一种标签是星座标签。所有的运势表现都必须是只描述一个星座的运势博文,所以星座只能有一个。而TOP榜单要包含所有排名的星座。
5.1判断博文是运势博文还是TOP博文。
5.2如果是运势博文,提取运势分类和星座,四个运势分类只能有一个,星座只能有一个。
5.3如果是TOP博文,则提取所有参与排序的星座。
5.4标注分类标签和星座标签,没有标签不标注。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (12)

1.一种基于微博分类的信息抽取方法,其特征在于,所述方法包括:
(1)获取分类标签;
(2)整理目标标签;
(3)根据分类和目标标签对博文循环进行标签提取;
(4)对提取的标签进行过滤和消歧。
2.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(1)分类标签包括美食类博文地区标签、旅游类博文的地区标签和景点标签、有奖转发类博文的奖品标签、电影类博文的电影名和星座类博文的标签。
3.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(2)包括整理不同分类和目标标签需要的词典。
4.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(2)包括整理目标词典,加载存储Key。
5.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(3)根据分类从博文循环查找目标Key并提取。
6.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(4)包括根据分类和目标标签选取最终标签。
7.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(4)包括
(4.1)筛选Key;
(4.2)滤掉不合格及无法提取的Key博文;
(4.3)标注提取的Key。
8.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,美食类博文地区标签的提取包括
1.1对匹配地区Key数据的加载;
1.2从博文中循环查找目标Key;
1.3对于地区Key采取的选取策略;
1.4对提取的省级标签和市级标签分别标注。
9.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,旅游类博文的地区标签和景点标签的提取包括:
2.1加载词表;
2.2匹配景点Key;
2.3匹配地区Key;
2.4选择景点和地区决策。
10.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,有奖转发类博文的奖品标签提取包括:
3.1加载获奖开始词表和获奖结束词表;
3.2根据词表从博文串中提取获奖开始词和获奖结束词之间的串,循环提取;
3.3标注奖品串。
11.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,电影类博文的电影名提取包括:
4.1加载电影词表并实时更新;
4.2从博文串中提取信息,并从词表中匹配电影名和电影的上映时间,循环提取;
4.3从博文中提取时间,滤掉未来时间与当前时间不符合博文;
4.4根据提取的电影的上映时间,滤掉的博文是未来时态情况;
4.5对于时间合格的数据,标注电影个数和电影名。
12.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,星座类博文的分类标签提取包括:
5.1判断博文是运势博文或TOP博文;
5.2运势博文,提取运势分类和星座;
5.3TOP博文,则提取参与排序的星座;
5.4标注分类标签和星座标签。
CN201410535127.3A 2014-10-11 2014-10-11 一种基于微博分类的信息抽取方法 Active CN104376041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410535127.3A CN104376041B (zh) 2014-10-11 2014-10-11 一种基于微博分类的信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410535127.3A CN104376041B (zh) 2014-10-11 2014-10-11 一种基于微博分类的信息抽取方法

Publications (2)

Publication Number Publication Date
CN104376041A true CN104376041A (zh) 2015-02-25
CN104376041B CN104376041B (zh) 2018-05-18

Family

ID=52554948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410535127.3A Active CN104376041B (zh) 2014-10-11 2014-10-11 一种基于微博分类的信息抽取方法

Country Status (1)

Country Link
CN (1) CN104376041B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679874A (zh) * 2015-03-10 2015-06-03 华北电力科学研究院有限责任公司 一种电网运行简报数据分析方法
CN109739987A (zh) * 2018-12-29 2019-05-10 北京创鑫旅程网络技术有限公司 一种语料标注方法、构造语料方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
US20120158863A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Hash tag management in a microblogging infrastructure
CN102890698A (zh) * 2012-06-20 2013-01-23 杜小勇 微博话题标签自动化描述方法
CN103580997A (zh) * 2013-11-19 2014-02-12 湖南蚁坊软件有限公司 一种垂直领域热门微博的提取方法及其装置
CN103577405A (zh) * 2012-07-19 2014-02-12 中国人民大学 基于兴趣分析的微博博主社区分类方法
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
US20140081967A1 (en) * 2012-09-19 2014-03-20 Deep River Ventures, Llc Methods, Systems, and Program Products for Distinguishing Tags for a Resource
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
US20120158863A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Hash tag management in a microblogging infrastructure
CN102890698A (zh) * 2012-06-20 2013-01-23 杜小勇 微博话题标签自动化描述方法
CN103577405A (zh) * 2012-07-19 2014-02-12 中国人民大学 基于兴趣分析的微博博主社区分类方法
US20140081967A1 (en) * 2012-09-19 2014-03-20 Deep River Ventures, Llc Methods, Systems, and Program Products for Distinguishing Tags for a Resource
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
CN103580997A (zh) * 2013-11-19 2014-02-12 湖南蚁坊软件有限公司 一种垂直领域热门微博的提取方法及其装置
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
江斌: "微博自动分类方法研究及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679874A (zh) * 2015-03-10 2015-06-03 华北电力科学研究院有限责任公司 一种电网运行简报数据分析方法
CN109739987A (zh) * 2018-12-29 2019-05-10 北京创鑫旅程网络技术有限公司 一种语料标注方法、构造语料方法及装置

Also Published As

Publication number Publication date
CN104376041B (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
CN106407352B (zh) 基于深度学习的交通图像检索方法
Arulanandam et al. Extracting crime information from online newspaper articles
CN103488648B (zh) 一种多语种混合检索方法和系统
CN103914513B (zh) 一种实体输入方法和装置
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN101093478B (zh) 一种根据实体的汉语简称识别汉语全称的方法及系统
CN106528526B (zh) 一种基于贝叶斯分词算法的中文地址语义标注方法
WO2021093308A1 (zh) 提取poi名称的方法、装置、设备和计算机存储介质
CN105930362B (zh) 搜索目标识别方法、装置及终端
CN112699246A (zh) 基于知识图谱的领域知识推送方法
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN104679875B (zh) 一种基于数字报纸的资讯数据分类方法
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN109165273B (zh) 一种面向大数据环境的通用中文地址匹配方法
CN102289467A (zh) 确定目标网点的方法和装置
CN107748745B (zh) 一种企业名称关键字提取方法
CN102207948A (zh) 一种事件陈述句素材库的生成方法
CN110019617B (zh) 地址标识的确定方法和装置、存储介质、电子装置
CN103440315B (zh) 一种基于主题的Web页面清洗方法
CN108038506A (zh) 一种图书自动分类方法
CN110059177A (zh) 一种基于用户画像的活动推荐方法及装置
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN107908627A (zh) 一种多语言的地图poi 搜索系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant