CN105843957A - 微博深度分类方法及系统 - Google Patents

微博深度分类方法及系统 Download PDF

Info

Publication number
CN105843957A
CN105843957A CN201610236172.8A CN201610236172A CN105843957A CN 105843957 A CN105843957 A CN 105843957A CN 201610236172 A CN201610236172 A CN 201610236172A CN 105843957 A CN105843957 A CN 105843957A
Authority
CN
China
Prior art keywords
microblogging
dictionary
screening
training sample
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610236172.8A
Other languages
English (en)
Inventor
赵志云
刘春阳
李雄
庞琳
张旭
王萌
王卿
李建欣
陈汉腾
刘垚鹏
彭浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201610236172.8A priority Critical patent/CN105843957A/zh
Publication of CN105843957A publication Critical patent/CN105843957A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

本发明实施例提供一种微博深度分类方法及系统,该方法包括:将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率;将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型;根据所述学习模型的输出确定微博事件分类模型;根据所述微博事件分类模型对微博文本进行分类。本发明实施例提供的微博深度分类方法及系统,能够对微博文本进行深入的细化分类,提高微博文本的分类正确率。

Description

微博深度分类方法及系统
技术领域
本发明实施例涉及互联网技术领域,尤其涉及微博深度分类方法及系统。
背景技术
微博作为当下流行的社交方式之一,其短短的数十字的内容,不但描述了每个用户的所见所闻,所思所想,也真实地反映了社会上的大事小情。
近来,对于微博数据的分析方法成为了研究的热点。在此基础之上,基于微博平台的突发事件监测、热点事件分析,用户社区监测、行为建模等方向层出不穷。然而,对于微博数据分析而言,微博的语义描述和分类是其中的基础和关键。因此,如何将微博文本进行精确的语义描述和深入细化分类是当下寇待解决的问题之一。
发明内容
本发明实施例提供一种微博深度分类方法及系统,用以对微博文本进行深入细化分类,提高微博文本分类的正确率。
本发明实施例第一方面提供一种微博深度分类方法,该方法包括:
将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率;
将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型;
根据所述学习模型的输出确定微博事件分类模型;
根据所述微博事件分类模型对微博文本进行分类。
本发明实施例第二方面提供一种微博深度分类系统,该系统包括:
第一匹配模块,用于将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率;
处理模块,用于将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型;
确定模块,用于根据所述学习模型的输出确定微博事件分类模型;
执行模块,用于根据所述微博事件分类模型对微博文本进行分类。
本发明实施例提供的微博深度分类方法及系统,通过确定第一微博训练样本数据在各第一筛选词库中出现的词汇频率,并通过将第一微博训练样本数据在各第一筛选词库中出现的词汇频率进行归一化处理,生成输入数据,使得学习模型能够根据该输入数据进行模型训练,生成分类正确率较高的微博事件分类模型,从而根据该微博事件分类模型能够实现对微博文本的深入细化分类,提高微博文本的分类正确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的微博深度分类方法的流程示意图;
图2为本发明又一实施例提供的微博深度分类方法的流程示意图;
图3为本发明一实施例提供的微博深度分类系统的结构示意图;
图4为本发明又一实施例提供的微博深度分类系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的系统不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或系统固有的其它步骤或结构。
图1为本发明一实施例提供的微博深度分类方法的流程示意图,如图1所示,本实施例提供的方法包括以下步骤:
步骤S101、将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率。
本实施例中,第一筛选词库为多个,每个第一筛选词库中存储有对应事件类型的核心词汇或关键字。第一微博训练样本数据为预先标记好事件类型的微博样本数据。
进一步的,每个第一筛选词库均对应一个唯一的词汇匹配算法,该词汇匹配算法用于将微博文本中的词汇与对应的第一筛选词库中的核心词汇或关键字进行匹配。具体的,本实施例中词汇匹配算法优选采用哈希二进制算法,即每个第一筛选词库对应一个哈希二进制算法。
具体的,当完成第一微博训练样本数据的分词处理后,通过遍历各第一筛选词库,根据各第一筛选词库对应的哈希二进制算法将分词后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,从而确定第一微博训练样本数据中的词汇在每一个第一筛选词库中出现的次数(即词汇频率)。
步骤S102、将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型。
步骤S103、根据所述学习模型的输出确定微博事件分类模型。
本实施例中优选采用支持向量机(Support Vector Machine,简称SVM)进行模型训练,采用SVM中的学习模型作为本实施例中的学习模型。当步骤102完成归一化处理后,将归一化处理后的数据输入SVM中,从而根据SVM的输出确定微博事件分类模型。
具体的,将归一化处理后的数据输入SVM后,SVM输出的事件类型为SVM根据当前的微博事件分类模型识别输出的第一微博训练样本数据的事件类型。该输出事件类型可能与预先标记的第一微博训练样本数据的事件类型一致,也可能不一致。当不一致时,则说明当前的微博事件分类模型不准确,则对当前的微博事件分类模型进行调整,直至SVM的输出事件类型与预先标记的第一微博训练样本数据的事件类型一致时,停止调整,获得分类准确度较高的微博事件分类模型,其中,SVM的模型调整方法与现有的SVM模型校正方法类似,在这里不多做赘述。
步骤S104、根据所述微博事件分类模型对微博文本进行分类。
本实施例提供的微博深度分类方法,通过确定第一微博训练样本数据在各第一筛选词库中出现的词汇频率,并通过将第一微博训练样本数据在各第一筛选词库中出现的词汇频率进行归一化处理,生成输入数据,使得学习模型能够根据该输入数据进行模型训练,生成分类正确率较高的微博事件分类模型,从而根据该微博事件分类模型能够对微博文本进行深入的细化分类,提高微博文本的分类正确率。
图2为本发明又一实施例提供的微博深度分类方法的流程示意图,如图2所示,本实施例提供的方法包括以下步骤:
步骤S201、将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配,从所述各第二筛选词库中确定所述各第一筛选词库。
具体的,本实施例中每个预设的第二筛选词库均对应一个事件类型。每个第二筛选词库均为人为根据对应的事件类型构建的细胞词库,加入互联网其他相关词库内容后生成的一定量的关键词集合和相关词集合。
在本实施例中,针对事件类型的划分可以是根据已有的事件分级、分类标准来进行划分的。由于不同事件类型之间的关键词或相关词可能存在重合,因此,各第二筛选词库之间可以存在重合的部分。
进一步的,为了缩小第一微博训练样本数据的词汇匹配范围,提高数据处理效率以及微博分类的准确度,本实施中将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配,从所述各第二筛选词库中确定所述各第一筛选词库。即将出现过第二微博训练样本数据中的词汇的各第二筛选词库挑选出来作为用于第一微博训练样本数据进行词汇匹配的筛选词库(即各第一筛选词库)。
步骤S202、将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率。
步骤S203、将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型。
步骤S204、根据所述学习模型的输出确定微博事件分类模型。
步骤S205、根据所述微博事件分类模型对微博文本进行分类。
本实施例中步骤S202-步骤S205的执行方式与技术效果与图1所示实施例类似,在这里不再赘述。
本实施例提供的微博深度分类方法,通过确定第一微博训练样本数据在各第一筛选词库中出现的词汇频率,并通过将第一微博训练样本数据在各第一筛选词库中出现的词汇频率进行归一化处理,生成输入数据,使得学习模型能够根据该输入数据进行模型训练,生成分类正确率较高的微博事件分类模型,从而根据该微博事件分类模型能够对微博文本进行深入的细化分类,提高微博文本的分类正确率。
图3为本发明一实施例提供的微博深度分类系统的结构示意图,如图3所示,本实施例提供的系统包括以下模块:
第一匹配模块10,用于将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率;
具体的,本实施例中第一匹配模块10优选可以包括布隆过滤器,通过布隆过滤器中内置的哈希二进制算法对第一微博训练样本数据进行匹配。即一个第一筛选词库配置一个布隆过滤器,通过各第一筛选词库配置对应的布隆过滤器判断第一微博训练样本数据中的词汇是否出现在各第一筛选词库中,以及第一微博训练样本数据中的词汇在各第一筛选词库中出现的次数。
处理模块20,用于将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型;
确定模块30,用于根据所述学习模型的输出确定微博事件分类模型;
执行模块40,用于根据所述微博事件分类模型对微博文本进行分类。
其中,确定模块30,具体用于:
根据预先标记的所述第一微博训练样本数据的事件类型和所述学习模型输出的与所述第一微博训练样本数据对应的输出事件类型,确定当前的微博事件分类模型是否需要调整;
若需要,则对当前的微博事件分类模型进行调整,以使所述学习模型的输出事件类型与预先标记的所述第一微博训练样本数据的事件类型一致。
第一匹配模块10,具体用于:
遍历各第一筛选词库,根据所述各第一筛选词库对应的哈希二进制算法,将分词后的所述第一微博训练样本数据分别与所述各第一筛选词库进行匹配,确定所述第一微博训练样本数据中的词汇在各第一筛选词库中出现的频率。
本实施例提供的微博深度分类系统能够用于执行如图1所示的技术方法,其具体的执行方式和有益效果与图1所示实施例类似,在这里不再赘述。
图4为本发明又一实施例提供的微博深度分类系统的结构示意图,如图4所示,本实施例提供的系统与图3所示的系统的组成类似,其区别在于:
本实施例在图3所示系统的基础上还包括:第二匹配模块50,用于将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配,从所述各第二筛选词库中确定所述各第一筛选词库。
本实施例提供的微博深度分类系统能够用于执行如图2所示的技术方法,其具体的执行方式和有益效果与图2所示实施例类似,在这里不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种微博深度分类方法,其特征在于,包括:
将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率;
将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型;
根据所述学习模型的输出确定微博事件分类模型;
根据所述微博事件分类模型对微博文本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率之前,还包括:
将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配,从所述各第二筛选词库中确定所述各第一筛选词库。
3.根据权利要求1所述的方法,其特征在于,所述根据所述学习模型的输出确定微博事件分类模型,包括:
根据预先标记的所述第一微博训练样本数据的事件类型和所述学习模型输出的与所述第一微博训练样本数据对应的输出事件类型,确定当前的微博事件分类模型是否需要调整;
若需要,则对当前的微博事件分类模型进行调整,以使所述学习模型的输出事件类型与预先标记的所述第一微博训练样本数据的事件类型一致。
4.根据权利要求2所述的方法,其特征在于,所述将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率,包括:
遍历各第一筛选词库,根据所述各第一筛选词库对应的哈希二进制算法,将分词后的所述第一微博训练样本数据分别与所述各第一筛选词库进行匹配,确定所述第一微博训练样本数据中的词汇在各第一筛选词库中出现的频率。
5.一种微博深度分类系统,其特征在于,包括:
第一匹配模块,用于将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率;
处理模块,用于将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型;
确定模块,用于根据所述学习模型的输出确定微博事件分类模型;
执行模块,用于根据所述微博事件分类模型对微博文本进行分类。
6.根据权利要求5所述的微博深度分类系统,其特征在于,还包括:第二匹配模块,用于将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配,从所述各第二筛选词库中确定所述各第一筛选词库。
7.根据权利要求5所述的微博深度分类系统,其特征在于,所述确定模块,具体用于:
根据预先标记的所述第一微博训练样本数据的事件类型和所述学习模型输出的与所述第一微博训练样本数据对应的输出事件类型,确定当前的微博事件分类模型是否需要调整;
若需要,则对当前的微博事件分类模型进行调整,以使所述学习模型的输出事件类型与预先标记的所述第一微博训练样本数据的事件类型一致。
8.根据权利要求6所述的微博深度分类系统,其特征在于,所述第一匹配模块,具体用于:
遍历各第一筛选词库,根据所述各第一筛选词库对应的哈希二进制算法,将分词后的所述第一微博训练样本数据分别与所述各第一筛选词库进行匹配,确定所述第一微博训练样本数据中的词汇在各第一筛选词库中出现的频率。
CN201610236172.8A 2016-04-15 2016-04-15 微博深度分类方法及系统 Pending CN105843957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610236172.8A CN105843957A (zh) 2016-04-15 2016-04-15 微博深度分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610236172.8A CN105843957A (zh) 2016-04-15 2016-04-15 微博深度分类方法及系统

Publications (1)

Publication Number Publication Date
CN105843957A true CN105843957A (zh) 2016-08-10

Family

ID=56588564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610236172.8A Pending CN105843957A (zh) 2016-04-15 2016-04-15 微博深度分类方法及系统

Country Status (1)

Country Link
CN (1) CN105843957A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766576A (zh) * 2017-11-15 2018-03-06 北京航空航天大学 一种微博用户兴趣特征的提取方法
CN108241702A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 文本的分类方法及装置
CN113095624A (zh) * 2021-03-17 2021-07-09 中国民用航空总局第二研究所 一种民航机场不安全事件分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及系统
WO2014066698A1 (en) * 2012-10-24 2014-05-01 Metavana, Inc. Method and system for social media burst classifications
CN104794208A (zh) * 2015-04-24 2015-07-22 清华大学 基于微博文本上下文信息的情绪分类方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014066698A1 (en) * 2012-10-24 2014-05-01 Metavana, Inc. Method and system for social media burst classifications
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及系统
CN104794208A (zh) * 2015-04-24 2015-07-22 清华大学 基于微博文本上下文信息的情绪分类方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241702A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 文本的分类方法及装置
CN107766576A (zh) * 2017-11-15 2018-03-06 北京航空航天大学 一种微博用户兴趣特征的提取方法
CN113095624A (zh) * 2021-03-17 2021-07-09 中国民用航空总局第二研究所 一种民航机场不安全事件分类方法及系统

Similar Documents

Publication Publication Date Title
US11288444B2 (en) Optimization techniques for artificial intelligence
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN107092596B (zh) 基于attention CNNs和CCR的文本情感分析方法
CN110276066B (zh) 实体关联关系的分析方法及相关装置
CN108304468B (zh) 一种文本分类方法以及文本分类装置
US8170969B2 (en) Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
CN103544188B (zh) 移动互联网内容的用户偏好推送方法与装置
CN109543084A (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
US20170228365A1 (en) Systems and methods for language feature generation over multi-layered word representation
US20190361966A1 (en) Graphical systems and methods for human-in-the-loop machine intelligence
CN105389307A (zh) 语句意图类别识别方法及装置
US10387805B2 (en) System and method for ranking news feeds
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN102279890A (zh) 基于微博的情感词提取收集方法
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
US20200372088A1 (en) Recommending web api's and associated endpoints
CN105843957A (zh) 微博深度分类方法及系统
CN111309855A (zh) 一种文本信息的处理方法及系统
CN105045913A (zh) 基于WordNet以及潜在语义分析的文本分类方法
US20190370297A1 (en) Method and apparatus for enriching metadata via a network
CN105468731A (zh) 一种文本情感分析特征验证的前置处理方法
CN109918503A (zh) 基于动态窗口自注意力机制提取语义特征的槽填充方法
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN109101487A (zh) 对话角色区分方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160810

RJ01 Rejection of invention patent application after publication