CN105224955A - 基于微博大数据获取网络服务状态的方法 - Google Patents

基于微博大数据获取网络服务状态的方法 Download PDF

Info

Publication number
CN105224955A
CN105224955A CN201510676163.6A CN201510676163A CN105224955A CN 105224955 A CN105224955 A CN 105224955A CN 201510676163 A CN201510676163 A CN 201510676163A CN 105224955 A CN105224955 A CN 105224955A
Authority
CN
China
Prior art keywords
lexical item
steps
primitive character
test data
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510676163.6A
Other languages
English (en)
Inventor
许德玮
郝俊瑞
向智宇
郭嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Research Institute of Posts and Telecommunications Co Ltd
Original Assignee
Wuhan Research Institute of Posts and Telecommunications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Research Institute of Posts and Telecommunications Co Ltd filed Critical Wuhan Research Institute of Posts and Telecommunications Co Ltd
Priority to CN201510676163.6A priority Critical patent/CN105224955A/zh
Publication of CN105224955A publication Critical patent/CN105224955A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于微博大数据获取网络服务状态的方法,包括:将微博数据集的部分微博作为训练数据集,剩余微博作为测试数据集,对训练数据集和测试数据集进行预处理;对训练数据进行标记、初始化操作、分词和停词处理,对训练数据集进行特征选择获得特征词项字典,由特征词项字典生成特征向量,获得特征向量集,对特征向量集进行训练获得SVM分类器;获取预置关键词库,对测试数据进行预分类以及对预分类失败的测试数据的初始化操作、分词和停词,根据特征词项字典生成预分类失败的测试数据的特征向量,获得特征向量集,通过SVM分类器进行分类得到分类结果,将分类结果与预分类结果综合。本发明,有效地降低了网络大数据的规模和网络大数据的复杂度。

Description

基于微博大数据获取网络服务状态的方法
技术领域
本发明涉及大数据和SVM(SupportVectorMachine,支持向量机)分类器领域,具体涉及基于微博大数据获取网络服务状态的方法。
背景技术
随着电信网络的不断发展和普及,网络的复杂度不断增加,产生了惊人的数据量,基于DDN(DataDrivenNetwork,数据驱动网络)利用大数据技术来分析网络大数据并发现其中所暗含的线索和规律,帮助人们感知和预测网络服务状态。
网络大数据按照数据类型可分为自媒体数据、日志数据和富媒体数据三类,微博作为一种自媒体数据,其发布内容简洁,表达信息明确,具有及时性,近年来成为了最热门的新型社交媒体和信息交流平台,产生了海量的数据。新浪微博数据中心发布的2014年用户发展报告显示,截止2014年9月30日,新浪微博MAU(monthlyactiveusers,月活跃用户数)已经达到1.67亿人,日活跃用户也已经达到7660人,每秒钟数以千计的新微博发布数量,是人们交流信息的一种重要体现。
然而,这三种类型的网络大数据规模巨大、分布广泛、动态演变、模态多样、关联复杂、真伪难辨等一系列特性为将其应用于网络服务状态的获取带来了数据复杂性的挑战。
因此,急需一种缩小网络大数据规模、降低网络大数据复杂度的获取网络服务状态的方法。
发明内容
本发明所要解决的技术问题是现有的网络大数据规模巨大,应用于获取网络服务状态时复杂度较高的问题。
为了解决上述技术问题,本发明所采用的技术方案是提供一种基于微博大数据获取网络服务状态的方法,包括以下步骤:
步骤A1:获取微博数据集中的一部分微博数据作为训练数据集,获取微博数据集中的剩余微博数据作为测试数据集,对训练数据集和测试数据集分别进行预处理;
步骤A2:对训练数据集中的训练数据进行分类标记、初始化操作、分词处理和停词处理,对训练数据集进行特征选择并获得特征词项字典,由特征词项字典生成训练数据的特征向量,并获得训练数据集的特征向量集,对特征向量集进行训练获得SVM分类器;
步骤A3:对测试数据集中的测试数据进行预分类以及对预分类失败的测试数据进行初始化操作、分词处理和停词处理,根据上述特征词项字典生成预分类失败的测试数据的特征向量,并获得预分类失败的测试数据的特征向量集,通过上述SVM分类器对预分类失败的测试数据进行分类得到分类结果,并将分类结果与预分类的结果综合,得到最终的分类结果。
在上述技术方案中,步骤A2具体包括以下步骤:
步骤A21:对预处理后的所述训练数据集中的所述训练数据进行分类标记;
步骤A22:对经过分类标记的所述训练数据进行初始化操作;
步骤A23:使用分词工具对经过初始化操作的所述训练数据进行分词处理,得到所述训练数据集的微博文本词项集;
步骤A24:使用停用词典,对所述训练数据集的微博文本词项集进行停词处理,得到所述训练数据集的微博文本原始特征词项集;
步骤A25:对所述微博文本原始特征词项集进行特征选择,得到所述训练数据集的特征词项字典;
步骤A26:根据所述特征词项字典生成所述训练数据的特征向量,得到所述训练数据集的特征向量集;
步骤A27:使用Libsvm构建分类器,输入所述特征向量集,通过对所述特征向量集的训练,得到所述SVM分类器。
在上述技术方案中,步骤A3具体包括以下步骤:
步骤A31:由所述训练数据集获取预置关键词库;
步骤A32:使用所述预置关键词库对所述测试数据集中的所述测试数据进行预分类,得到预分类结果;
步骤A33:对所述预分类失败的测试数据进行初始化操作;
步骤A34:使用分词工具对所述预分类失败的测试数据进行分词处理,得到所述预分类失败的测试数据的微博文本词项集;
步骤A35:使用停用词典,对所述预分类失败的测试数据的微博文本词项集进行停词处理,得到所述预分类失败的测试数据的微博文本原始特征词项集;
步骤A36:根据所述特征词项字典生成所述预分类失败的测试数据的特征向量,并得到其特征向量集;
步骤A37:通过所述SVM分类器对所述预分类失败的测试数据进行分类,将分类结果与所述预分类结果综合,得到最终的分类结果。
在上述技术方案中,在步骤A21中,将所述训练数据标记为网络服务状态类或非网络服务状态类。
在上述技术方案中,步骤A25主要包括以下步骤:
根据所述微博文本原始特征词项集中每个微博文本原始特征词项在所述训练数据的各类别中出现的频率对所述微博文本原始特征词项进行排序,保留出现频率高的前N个所述微博文本原始特征词项作为所述特征词项字典,所述特征词项字典按照所述微博文本原始特征词项的出现频率由高到低排序,其中N=1000。
在上述技术方案中,步骤A31具体包括以下步骤:
步骤A311:按照所述训练数据的类别提取所述训练数据集中的每两个“#”符号之间的文本内容,并对所述文本内容进行分词处理,然后分别统计分词处理所得微博文本原始特征词项的词频,并将微博文本原始特征词项按词频降序排列;
步骤A312:从所述训练数据的类别中词频最高的微博文本原始特征词项开始,依次检查微博文本原始特征词项是否在其它类别中出现过,若该微博文本原始特征词项在其它类别中出现的次数占所述训练数据集的比例小于等于1%,则将该微博文本原始特征词项选取为该类别的预置关键词,统计完后,得到预置关键词库。
在上述技术方案中,步骤A32具体包括以下步骤:
步骤A321:提取所述测试数据集中的所述测试数据中每两个“#”符号之间的文本内容,并对文本内容进行分词处理,将分词处理所得微博文本原始特征词项与所述预置关键词库相比较,判断各微博文本原始特征词项所属类别,统计各微博文本原始特征词项在各类别中出现的频度;
步骤A322:若属于某个类别的微博文本原始特征词项频度最大,则认为该微博文本原始特征词项所属的测试数据属于该类别,其它情况则通过所述SVM分类器对所述测试数据进行分类。
在上述技术方案中,步骤A26具体包括以下步骤:
步骤A261:将所述微博文本原始特征词项集中的每个微博文本原始特征词项与所述特征词项字典进行比较;
步骤A262:若所述微博文本原始特征词项在所述特征词项字典中,则采用TF-IDF算法计算所述微博文本原始特征词项在所述训练数据中的特征值;若所述微博文本原始特征词项不在所述特征词项字典中,则忽略所述微博文本原始特征词项;若所述特征词项字典中的词项没有出现在所述微博文本原始特征词项集中,则所述词项的特征值为零。
在上述技术方案中,所述预处理即删除无意义微博,所述无意义微博包括垃圾微博文本和广告营销微博文本。
在上述技术方案中,所述初始化操作和对所述预分类失败的测试数据的初始化操作包括:删除话题标签、去除文本信息中的标点符号以及非中文字符。
本发明,采用监督机器学习方法,在网络服务终端发生故障时和网络正常操作时收集微博数据来作为训练数据,利用训练数据基于SVM构造一个分类器,采用分类器实时检测微博中与网络服务终端相关的信息,有效地降低了网络大数据的规模和网络大数据的复杂度。
附图说明
图1为本发明实施例提供的基于微博大数据获取网络服务状态的方法流程图;
图2为本发明实施例提供的基于微博大数据获取网络服务状态的框架图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做出详细的说明。
本发明实施例提供了一种基于微博大数据获取网络服务状态的方法,如图1和图2所示,该方法包括以下步骤:
步骤S1、随机获取微博数据集中的一小部分微博数据作为训练数据集。
本实施例中,所采集的微博数据集有上百万条微博,可随机获取其中的几千条作为训练数据集。
步骤S2、对训练数据集进行预处理,即删除无意义微博。
其中,无意义微博包括垃圾微博文本和广告营销微博文本,本实施例中所用到的删除无意义微博算法是参考贝叶斯垃圾邮件过滤算法设计的,主要做法是构建无意义微博词库,设置门槛值为0.9,当计算出一条微博数据的概率值大于等于0.9时,则判断该条微博数据无意义。
步骤S3、对预处理后的训练数据集中的每条训练数据进行分类标记。
在本实施例中,分类标记时可按实际需求进行分类,由5位工作人员对训练数据集中的所有训练数据同时进行标记,标记为网络服务状态类或非网络服务状态类,统计标记结果后,根据每条训练数据标记类别的多寡,确定其最终类别。
步骤S4、对经过标记的每条训练数据进行初始化操作,删除训练数据中的话题标签。
即删除“#”符号和两个“#”符号中间的文本内容,同时对训练数据中的文本信息去除标点符号和去除非中文字符。
步骤S5、使用分词工具对经过初始化操作的每条训练数据进行分词处理,获得训练数据集的微博文本词项集。
其中,比较常见的分词工具有ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem,计算技术研究所,汉语词法分析系统)和IKAnalyzer(IK分词器)等,在本实施例中分词处理采用的是ICTCLAS分词工具。
步骤S6、使用停用词典,对训练数据集的微博文本词项集进行停词处理,获取训练数据集的微博文本原始特征词项集。
停词处理包括去除微博文本词项集中没有实义的字或词,如“的”、“了”、“不但”、“而且”等,此外还包括一些生僻字和特殊符号。
步骤S7、对训练数据集的微博文本原始特征词项集进行特征选择,得到特征词项字典。
特征选择的方法包括DF(DocumentFrequency,文档频率)、IG(InformationGain,信息增益)、MI(MutualInformation,互信息)和CHI(开方拟合检验)等,在本实施例中,采用算法简单且质量高的DF方法进行特征选择,主要做法是根据微博文本原始特征词项集中每个微博文本原始特征词项在训练数据的各类别中出现的频率对微博文本原始特征词项进行排序,保留出现频率高的前N个微博文本原始特征词项作为特征词项字典,该特征词项字典按照微博文本原始特征词项的出现频率由高到低排列,本实施例中N设定为1000。
步骤S8、根据特征词项字典生成训练数据集中每条训练数据的特征向量,得到训练数据集的特征向量集。
目前,生成特征向量比较常用的方法是基于TF-IDF(TermFrequency–InverseDocumentFrequency,词频-逆向文件频率)和基于TF-RF(TermFrequency–RelatedFrequency,词频-相关频率)的传统特征权重算法,在本实施例中,采用的是TF-IDF算法,主要做法是先将微博文本原始特征词项集中的每个微博文本原始特征词项与特征词项字典进行比较,若该微博文本原始特征词项在特征词项字典中,则采用TF-IDF算法计算该微博文本原始特征词项在对应训练数据中的特征值;若该微博文本原始特征词项不在特征词项字典中,则忽略该微博文本原始特征词项;若某特征词项字典中的微博文本原始特征词项没有出现在微博文本原始特征词项集中,则该微博文本原始特征词项的特征值为0。在本实施例中,每条微博的微博文本数据被转换成一个维度为1000的特征向量。
步骤S9、使用Libsvm构建分类器,输入训练数据集的特征向量集,通过对特征向量集的训练,得到SVM分类器。
步骤S10、由训练数据集获取预置关键词库。
包括以下几步:
a、按照训练数据的类别提取训练数据集中的每两个“#”符号之间的文本内容,并对文本内容进行分词处理,然后分别统计分词处理所得微博文本原始特征词项的词频,并将微博文本原始特征词项按词频降序排列;
b、从每个训练数据的类别中词频最高的微博文本原始特征词项开始,依次检查微博文本原始特征词项是否在其它类别中出现过,若该微博文本原始特征词项在其它类别中出现的次数占训练数据集的比例小于等于1%,则将该微博文本原始特征词项选取为该类别的预置关键词,统计完后,得到预置关键词库。
步骤S11、获取微博数据集中的剩余微博数据作为测试数据集。
步骤S12、对测试数据集进行预处理,删除无意义微博。
步骤S13、使用预置关键词库对测试数据集中的测试数据进行预分类,得到预分类结果。
包括以下几步:
a、提取测试数据集中的测试数据中每两个“#”符号之间的文本内容,并对文本内容进行分词处理,将分词处理所得微博文本原始特征词项与预置关键词库相比较,判断各微博文本原始特征词项所属类别,统计各微博文本原始特征词项在各类别中出现的频度;
b、若属于某个类别的微博文本原始特征词项频度最大,则认为该微博文本原始特征词项所属的测试数据属于该类别,其它情况则通过SVM分类器对测试数据进行分类。
步骤S14、对预分类失败的测试数据进行初始化操作,删除测试数据中的话题标签。
步骤S15、使用分词工具对经过初始化操作的预分类失败的测试数据进行分词处理,得到预分类失败的测试数据的微博文本词项集。
步骤S16、使用停用词典,对预分类失败的测试数据的微博文本词项集进行停词处理,得到预分类失败的测试数据的微博文本原始特征词项集。
停词处理包括去除预分类失败的测试数据的微博文本词项集中没有实义的字或词,如“的”、“了”、“不但”、“而且”等,此外还有一些生僻字和特殊符号。
步骤S17、根据特征词项字典生成预分类失败的测试数据的特征向量,并得到其特征向量集。
在本实施例中采用TF-IDF算法来生成特征向量,主要做法是先将测试数据集中预分类失败的测试数据的微博文本原始特征词项集中的每个微博文本原始特征词项与特征词项字典进行比较,若该微博文本原始特征词项在特征词项字典中,则采用TF-IDF算法计算该微博文本原始特征词项在对应训练数据中的特征值;若该微博文本原始特征词项不在特征词项字典中,则忽略该博文本原始特征词项;若某特征词项字典中的词项没有出现在微博文本原始特征词项集中,则该词项的特征值为0。在本实施例中,每条微博的微博文本数据被转换成一个维度为1000的特征向量。
步骤S18、通过SVM分类器对经过特征向量化的预分类失败的测试数据进行自动分类,将分类结果与预分类结果综合,获取最后的分类结果。
本发明不局限于上述最佳实施方式,任何人应该得知在本发明的启示下作出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (10)

1.基于微博大数据获取网络服务状态的方法,其特征在于,包括以下步骤:
步骤A1:获取微博数据集中的一部分微博数据作为训练数据集,获取微博数据集中的剩余微博数据作为测试数据集,对训练数据集和测试数据集分别进行预处理;
步骤A2:对训练数据集中的训练数据进行分类标记、初始化操作、分词处理和停词处理,对训练数据集进行特征选择并获得特征词项字典,由特征词项字典生成训练数据的特征向量,并获得训练数据集的特征向量集,对特征向量集进行训练获得SVM分类器;
步骤A3:对测试数据集中的测试数据进行预分类以及对预分类失败的测试数据进行初始化操作、分词处理和停词处理,根据上述特征词项字典生成预分类失败的测试数据的特征向量,并获得预分类失败的测试数据的特征向量集,通过上述SVM分类器对预分类失败的测试数据进行分类得到分类结果,并将分类结果与预分类的结果综合,得到最终的分类结果。
2.如权利要求1所述的方法,其特征在于,步骤A2具体包括以下步骤:
步骤A21:对预处理后的所述训练数据集中的所述训练数据进行分类标记;
步骤A22:对经过分类标记的所述训练数据进行初始化操作;
步骤A23:使用分词工具对经过初始化操作的所述训练数据进行分词处理,得到所述训练数据集的微博文本词项集;
步骤A24:使用停用词典,对所述训练数据集的微博文本词项集进行停词处理,得到所述训练数据集的微博文本原始特征词项集;
步骤A25:对所述微博文本原始特征词项集进行特征选择,得到所述训练数据集的特征词项字典;
步骤A26:根据所述特征词项字典生成所述训练数据的特征向量,得到所述训练数据集的特征向量集;
步骤A27:使用Libsvm构建分类器,输入所述特征向量集,通过对所述特征向量集的训练,得到所述SVM分类器。
3.如权利要求1所述的方法,其特征在于,步骤A3具体包括以下步骤:
步骤A31:由所述训练数据集获取预置关键词库;
步骤A32:使用所述预置关键词库对所述测试数据集中的所述测试数据进行预分类,得到预分类结果;
步骤A33:对所述预分类失败的测试数据进行初始化操作;
步骤A34:使用分词工具对所述预分类失败的测试数据进行分词处理,得到所述预分类失败的测试数据的微博文本词项集;
步骤A35:使用停用词典,对所述预分类失败的测试数据的微博文本词项集进行停词处理,得到所述预分类失败的测试数据的微博文本原始特征词项集;
步骤A36:根据所述特征词项字典生成所述预分类失败的测试数据的特征向量,并得到其特征向量集;
步骤A37:通过所述SVM分类器对所述预分类失败的测试数据进行分类,将分类结果与所述预分类结果综合,得到最终的分类结果。
4.如权利要求2所述的方法,其特征在于,在步骤A21中,将所述训练数据标记为网络服务状态类或非网络服务状态类。
5.如权利要求2所述的方法,其特征在于,步骤A25主要包括以下步骤:
根据所述微博文本原始特征词项集中每个微博文本原始特征词项在所述训练数据的各类别中出现的频率对所述微博文本原始特征词项进行排序,保留出现频率高的前N个所述微博文本原始特征词项作为所述特征词项字典,所述特征词项字典按照所述微博文本原始特征词项的出现频率由高到低排序,其中N=1000。
6.如权利要求3所述的方法,其特征在于,步骤A31具体包括以下步骤:
步骤A311:按照所述训练数据的类别提取所述训练数据集中的每两个“#”符号之间的文本内容,并对所述文本内容进行分词处理,然后分别统计分词处理所得微博文本原始特征词项的词频,并将微博文本原始特征词项按词频降序排列;
步骤A312:从所述训练数据的类别中词频最高的微博文本原始特征词项开始,依次检查微博文本原始特征词项是否在其它类别中出现过,若该微博文本原始特征词项在其它类别中出现的次数占所述训练数据集的比例小于等于1%,则将该微博文本原始特征词项选取为该类别的预置关键词,统计完后,得到预置关键词库。
7.如权利要求3所述的方法,其特征在于,步骤A32具体包括以下步骤:
步骤A321:提取所述测试数据集中的所述测试数据中每两个“#”符号之间的文本内容,并对文本内容进行分词处理,将分词处理所得微博文本原始特征词项与所述预置关键词库相比较,判断各微博文本原始特征词项所属类别,统计各微博文本原始特征词项在各类别中出现的频度;
步骤A322:若属于某个类别的微博文本原始特征词项频度最大,则认为该微博文本原始特征词项所属的测试数据属于该类别,其它情况则通过所述SVM分类器对所述测试数据进行分类。
8.如权利要求2所述的方法,其特征在于,步骤A26具体包括以下步骤:
步骤A261:将所述微博文本原始特征词项集中的每个微博文本原始特征词项与所述特征词项字典进行比较;
步骤A262:若所述微博文本原始特征词项在所述特征词项字典中,则采用TF-IDF算法计算所述微博文本原始特征词项在所述训练数据中的特征值;若所述微博文本原始特征词项不在所述特征词项字典中,则忽略所述微博文本原始特征词项;若所述特征词项字典中的词项没有出现在所述微博文本原始特征词项集中,则所述词项的特征值为零。
9.如权利要求1所述的方法,其特征在于,所述预处理即删除无意义微博,所述无意义微博包括垃圾微博文本和广告营销微博文本。
10.如权利要求1所述的方法,其特征在于,所述初始化操作和对所述预分类失败的测试数据的初始化操作包括:删除话题标签、去除文本信息中的标点符号以及非中文字符。
CN201510676163.6A 2015-10-16 2015-10-16 基于微博大数据获取网络服务状态的方法 Pending CN105224955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510676163.6A CN105224955A (zh) 2015-10-16 2015-10-16 基于微博大数据获取网络服务状态的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510676163.6A CN105224955A (zh) 2015-10-16 2015-10-16 基于微博大数据获取网络服务状态的方法

Publications (1)

Publication Number Publication Date
CN105224955A true CN105224955A (zh) 2016-01-06

Family

ID=54993915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510676163.6A Pending CN105224955A (zh) 2015-10-16 2015-10-16 基于微博大数据获取网络服务状态的方法

Country Status (1)

Country Link
CN (1) CN105224955A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105706088A (zh) * 2016-01-31 2016-06-22 深圳市博信诺达经贸咨询有限公司 大数据的应用方法及系统
CN106777234A (zh) * 2016-12-27 2017-05-31 南京安讯科技有限责任公司 一种自反馈式网络社交平台分类方法
CN106886576A (zh) * 2017-01-22 2017-06-23 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及系统
WO2018157330A1 (zh) * 2017-03-01 2018-09-07 深圳市博信诺达经贸咨询有限公司 大数据的划分方法及系统
CN109063217B (zh) * 2018-10-29 2020-11-03 广东电网有限责任公司广州供电局 电力营销系统中的工单分类方法、装置及其相关设备
CN112416785A (zh) * 2020-11-27 2021-02-26 广州品唯软件有限公司 切词工具版本差异测试方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402566A (zh) * 2011-08-09 2012-04-04 江苏欣网视讯科技有限公司 基于中文网页自动分类技术的Web用户行为分析方法
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及系统
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402566A (zh) * 2011-08-09 2012-04-04 江苏欣网视讯科技有限公司 基于中文网页自动分类技术的Web用户行为分析方法
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及系统
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105706088A (zh) * 2016-01-31 2016-06-22 深圳市博信诺达经贸咨询有限公司 大数据的应用方法及系统
CN106777234A (zh) * 2016-12-27 2017-05-31 南京安讯科技有限责任公司 一种自反馈式网络社交平台分类方法
CN106886576A (zh) * 2017-01-22 2017-06-23 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及系统
CN106886576B (zh) * 2017-01-22 2018-04-03 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及系统
WO2018157330A1 (zh) * 2017-03-01 2018-09-07 深圳市博信诺达经贸咨询有限公司 大数据的划分方法及系统
CN109063217B (zh) * 2018-10-29 2020-11-03 广东电网有限责任公司广州供电局 电力营销系统中的工单分类方法、装置及其相关设备
CN112416785A (zh) * 2020-11-27 2021-02-26 广州品唯软件有限公司 切词工具版本差异测试方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
Li et al. Twiner: named entity recognition in targeted twitter stream
CN103761239B (zh) 一种利用表情符号对微博进行情感倾向分类的方法
CN107609121A (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN109376251A (zh) 一种基于词向量学习模型的微博中文情感词典构建方法
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
El-Halees Mining opinions in user-generated contents to improve course evaluation
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和系统
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN106528642A (zh) 一种基于tf‑idf特征提取的短文本分类方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN106294320A (zh) 一种面向学术论文的术语抽取方法及系统
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN103617290B (zh) 中文机器阅读系统
Islam et al. Using social networks to detect malicious bangla text content
CN103226576A (zh) 基于语义相似度的垃圾评论过滤方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN104881458A (zh) 一种网页主题的标注方法和装置
CN111626050B (zh) 基于表情词典与情感常识的微博情感分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106