CN103593462A - 面向微博数据的流感疫情监测分析方法及系统 - Google Patents

面向微博数据的流感疫情监测分析方法及系统 Download PDF

Info

Publication number
CN103593462A
CN103593462A CN201310608266.XA CN201310608266A CN103593462A CN 103593462 A CN103593462 A CN 103593462A CN 201310608266 A CN201310608266 A CN 201310608266A CN 103593462 A CN103593462 A CN 103593462A
Authority
CN
China
Prior art keywords
microblogging
lexical item
feature
training
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310608266.XA
Other languages
English (en)
Other versions
CN103593462B (zh
Inventor
罗军
章昉
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310608266.XA priority Critical patent/CN103593462B/zh
Publication of CN103593462A publication Critical patent/CN103593462A/zh
Application granted granted Critical
Publication of CN103593462B publication Critical patent/CN103593462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向微博数据的流感疫情监测分析方法,包括:获取部分微博作为训练微博集;标记训练微博集中每条微博;得到训练微博集的微博文本词项集合;得到训练微博集的微博文本原始特征词项集合;得到特征词项字典;特征向量化;训练该特征向量得到SVM分类器;获取剩余微博作为测试微博集;得到测试微博集的微博文本词项集合;得到测试微博集的微博文本原始特征词项集合;特征向量化;SVM分类器对测试微博集中每条微博进行自动分类;将分类结果可视化以进行流感疫情进行监测和分析。本发明还涉及一种面向微博数据的流感疫情监测分析系统。本发明能帮助人们发现流感的传播趋势,及时有效地阻止流感的大范围传播,防止流感大流行的发生。

Description

面向微博数据的流感疫情监测分析方法及系统
技术领域
本发明涉及一种面向微博数据的流感疫情监测分析方法及系统。
背景技术
国内流感监测起源于上世纪50年代,在1952年中国内地就已经开始了流感病毒研究,1957年成立了国家流感中心。自2000年起,卫生部与WHO合作,在全国范围内建立了以流感样病例报告和流感病毒分离为主的流感监测网络;截至2005年,已经在全国31个省(直辖市、自治区)建立了63个网络实验室和197家国家级流感哨点监测医院,旨在通过对监测网络报告的数据进行分析,掌握流感的活动状况及动态变化规律,为流感暴发流行的早期预警提供科学依据。目前国内已经建立的流感监测系统有:疾病监测信息报告管理系统、中国流感监测信息系统、甲型HlNr流感信息管理系统等,这为及时发现流感疫情和早期预警提供了可靠的保障。2008年,中国疾病预防控制中心与中科软件股份有限公司合作,在全国范围内建立了疾病预防控制信息系统,流感疫情报告的及时性、完整性和准确性得到了显著提高。
然而,上述的流感监测系统存在一些缺点:一是病原学检测虽然具有较高的特异性,但及时性较差,同时由于实验条件和人力物力的限制,并不能完全满足流感大流行早期预警的需要。二是传染病疫情监测成功开展的前提是得到行政部门的支持和各医疗机构的大力配合,但目前我国医疗卫生体制中各块分割,使得医疗卫生信息资源无法及时整合,同时由于公共卫生投入不足,现有的监测预警系统并不能适应全球化、城市化和国内社会转型的新形势,使流感的监测预警工作在一定程度上仍处于被动应付的局面。
发明内容
有鉴于此,有必要提供一种面向微博数据的流感疫情监测分析方法及系统。
本发明提供一种面向微博数据的流感疫情监测分析方法,该方法包括如下步骤:从微博集中随机获取一小部分微博作为训练微博集;将训练微博集中的每条微博标记为感冒类微博或者非感冒类微博;对训练微博集中经过标记后的微博进行初始化操作,得到训练微博集的微博文本词项集合;对训练微博集中经过初始化后的每条微博进行特征提取,得到训练微博集的微博文本原始特征词项集合;对所述训练微博集的微博文本原始特征词项集合进行特征选择,计算每个词项的互信息值,得到特征词项字典;根据所述特征词项字典对训练微博集中的微博进行特征向量化;使用libsvm分类器对该特征向量进行训练,得到SVM分类器;获取微博集中剩余微博作为测试微博集;对测试微博集中的微博进行初始化操作,得到测试微博集的微博文本词项集合;对测试微博集中经过初始化后的每条微博进行特征提取,得到测试微博集的微博文本原始特征词项集合;根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化;使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类;将分类结果可视化以进行流感疫情进行监测和分析。
其中,所述的初始化操作指:对微博的文本信息去除标点符号、去除非中文字符和分词操作。
所述的特征提取指将上述微博文本词项集合中的停用词删除。
所述的特征选择指:对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算,得到按照互信息值从高到低排列的N个词项作为特征词项字典。
所述的向量化指:将每条微博的微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维度为N的特征向量。所述N优选设定在1000以上。
本发明还提供一种面向微博数据的流感疫情监测分析系统,包括相互电性连接的获取模块、标记模块、初始化模块、特征提取模块、特征选择模块、特征向量化模块、训练模块、分类模块及可视化模块,其中:所述获取模块用于从微博集中随机获取一小部分微博作为训练微博集;所述标记模块用于将训练微博集中的每条微博标记为感冒类微博或者非感冒类微博;所述初始化模块用于对训练微博集中经过标记后的微博进行初始化操作,得到训练微博集的微博文本词项集合;所述特征提取模块用于对训练微博集中经过初始化后的每条微博进行特征提取,得到训练微博集的微博文本原始特征词项集合;所述特征选择模块用于对所述训练微博集的微博文本原始特征词项集合进行特征选择,计算每个词项的互信息值,得到特征词项字典;所述特征向量化模块用于根据所述特征词项字典对训练微博集中的微博进行特征向量化;所述训练模块用于使用libsvm分类器对该特征向量进行训练,得到SVM分类器;所述获取模块还用于获取微博集中剩余微博作为测试微博集;所述初始化模块还用于对测试微博集中的微博进行初始化操作,得到测试微博集的微博文本词项集合;所述特征提取模块还用于对测试微博集中经过初始化后的每条微博进行特征提取,得到测试微博集的微博文本原始特征词项集合;所述特征向量化模块还用于根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化;所述分类模块用于使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类;所述可视化模块用于将分类结果可视化以进行流感疫情进行监测和分析。
其中,所述的初始化操作指:所述初始化模块对微博的文本信息去除标点符号、去除非中文字符和分词操作。
所述的特征提取指所述特征提取模块将上述微博文本词项集合中的停用词删除。
所述的特征选择指:所述特征选择模块对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算,得到按照互信息值从高到低排列的N个词项作为特征词项字典。所述N优选设定为1000以上。
所述的向量化指:所述特征向量化模块将每条微博的微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维度为N的特征向量。所述N优选设定为1000以上。
本发明面向微博数据的流感疫情监测分析方法及系统,针对以前流感监测系统的不足,提出了基于支持向量机下挖掘微博数据来监测并分析流感疫情的方法,帮助人们发现流感的传播趋势,及时有效地阻止流感的大范围传播,防止流感大流行的发生,同时可为其他传染性疾病的流行趋势研究提供理论和实践基础。
附图说明
图1为本发明面向微博数据的流感疫情监测分析方法的流程图;
图2为本发明面向微博数据的流感疫情监测分析系统的硬件架构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
参阅图1所示,是本发明面向微博数据的流感疫情监测分析方法较佳实施例的作业流程图。
步骤S401,从微博集中随机获取一小部分微博作为训练微博集。本实施例中,所述微博集有上百万条微博,获取几千条微博作为训练微博集。
步骤S402,对训练微博集中的每条微博进行标记。具体而言,本实施例采用三位标记人员分别对所述训练微博集中的每条微博进行标记,标记为感冒类微博或者非感冒类微博。如此,每条微博得到三个标记,采用少数服从多数的原则确定每条微博的最终标记,标记为感冒类微博或者非感冒类微博。
步骤S403,对训练微博集中经过标记后的微博进行初始化操作。具体而言,对每条微博的文本信息进行初始化处理,微博的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作后,得到微博文本词项集合。
步骤S404,对训练微博集中经过初始化后的每条微博进行特征提取,得到微博文本原始特征词项集合。具体而言,将上述微博文本词项集合中的停用词进行删除,得到微博文本原始特征词项集合。
步骤S405,对所述微博文本原始特征词项集合进行特征选择,计算每个词项的互信息值,得到特征词项字典。具体而言,对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算,所得出的最高值的N个词项作为特征词项字典,该特征词项字典按照互信息值的从高到低排列。在本实施例中N设定为1000。。
步骤S406,根据所述特征词项字典对训练微博集中的微博进行特征向量化。具体而言,将每条微博的微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维度为1000的特征向量。
步骤S407,输入上述得到的训练微博集中的所有微博的特征向量,使用libsvm分类器对该特征向量进行训练,得到SVM分类器。
步骤S408,获取微博集中剩余微博作为测试微博集。
步骤S409,对测试微博集中的微博进行初始化操作。具体而言,对每条微博的文本信息进行初始化处理,微博的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作后,得到微博文本词项集合。
步骤S410,对测试微博集中经过初始化后的每条微博进行特征提取,得到微博文本原始特征词项集合。具体而言,将上述微博文本词项集合中的停用词进行删除,得到微博文本原始特征词项集合。
步骤S411,根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化。具体而言,将每条微博的微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维度为1000的特征向量。
步骤S412,使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类,分为感冒类微博和非感冒类微博。
步骤S413,将分类结果可视化,从时间和空间的维度上对全国的流感疫情进行监测和分析。
参阅图2所示,是本发明面向微博数据的流感疫情监测分析系统的硬件架构图。该系统包括相互电性连接的获取模块、标记模块、初始化模块、特征提取模块、特征选择模块、特征向量化模块、训练模块、分类模块及可视化模块。
所述获取模块用于从微博集中随机获取一小部分微博作为训练微博集。本实施例中,所述微博集有上百万条微博,所述获取模块获取几千条微博作为训练微博集。
所述标记模块用于对训练微博集中的每条微博进行标记。具体而言,本实施例采用三位标记人员分别对所述训练微博集中的每条微博进行标记,标记为感冒类微博或者非感冒类微博。如此,每条微博得到三个标记,采用少数服从多数的原则确定每条微博的最终标记,标记为感冒类微博或者非感冒类微博。
所述初始化模块用于对训练微博集中经过标记后的微博进行初始化操作。具体而言,所述初始化模块对每条微博的文本信息进行初始化处理,微博的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作后,得到微博文本词项集合。
所述特征提取模块用于对训练微博集中经过初始化后的每条微博进行特征提取,得到微博文本原始特征词项集合。具体而言,所述特征提取模块将上述微博文本词项集合中的停用词进行删除,得到微博文本原始特征词项集合。
所述特征选择模块用于对于对所述微博文本原始特征词项集合进行特征选择,计算每个词项的互信息值,得到特征词项字典。具体而言,所述特征选择模块对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算,所得出的最高值的N个词项作为特征词项字典,该特征词项字典按照互信息值的从高到低排列。在本实施例中N设定为1000。
所述特征向量化模块用于根据所述特征词项字典对训练微博集中的微博进行特征向量化。具体而言,所述特征向量化模块将每条微博的微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维度为1000的特征向量。
所述训练模块用于输入上述得到的训练微博集中的所有微博的特征向量,使用libsvm分类器对该特征向量进行训练,得到SVM分类器。
所述获取模块还用于获取微博集中剩余微博作为测试微博集。
所述初始化模块还用于对测试微博集中的微博进行初始化操作。具体而言,所述初始化模块对每条微博的文本信息进行初始化处理,微博的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作后,得到微博文本词项集合。
所述特征提取模块还用于对测试微博集中经过初始化后的每条微博进行特征提取,得到微博文本原始特征词项集合。具体而言,所述特征提取模块将上述微博文本词项集合中的停用词进行删除,得到微博文本原始特征词项集合。
所述特征向量化模块还用于根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化。具体而言,所述特征向量化模块将每条微博的微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维度为1000的特征向量
所述分类模块用于使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类,分为感冒类微博和非感冒类微博。
所述可视化模块用于将分类结果可视化,从时间和空间的维度上对全国的流感疫情进行监测和分析。
虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

Claims (12)

1.一种面向微博数据的流感疫情监测分析方法,其特征在于,该方法包括如下步骤:
从微博集中随机获取一小部分微博作为训练微博集;
将训练微博集中的每条微博标记为感冒类微博或者非感冒类微博;
对训练微博集中经过标记后的微博进行初始化操作,得到训练微博集的微博文本词项集合;
对训练微博集中经过初始化后的每条微博进行特征提取,得到训练微博集的微博文本原始特征词项集合;
对所述训练微博集的微博文本原始特征词项集合进行特征选择,计算每个词项的互信息值,得到特征词项字典;
根据所述特征词项字典对训练微博集中的微博进行特征向量化;
对该特征向量进行训练,得到SVM分类器;
获取微博集中剩余微博作为测试微博集;
对测试微博集中的微博进行初始化操作,得到测试微博集的微博文本词项集合;
对测试微博集中经过初始化后的每条微博进行特征提取,得到测试微博集的微博文本原始特征词项集合;
根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化;
使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类;
将分类结果可视化以进行流感疫情进行监测和分析。
2.如权利要求1所述的方法,其特征在于,所述的初始化操作指:对微博的文本信息去除标点符号、去除非中文字符和分词操作。
3.如权利要求2所述的方法,其特征在于,所述的特征提取指将上述微博文本词项集合中的停用词删除。
4.如权利要求3所述的方法,其特征在于,所述的特征选择指:对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算,得到按照互信息值从高到低排列的N个词项作为特征词项字典。
5.如权利要求4所述的方法,其特征在于,所述的向量化指:将每条微博的微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维度为N的特征向量。
6.如权利要求4或5所述的方法,其特征在于,所述N优选设定为1000以上。
7.一种面向微博数据的流感疫情监测分析系统,其特征在于,该系统包括相互电性连接的获取模块、标记模块、初始化模块、特征提取模块、特征选择模块、特征向量化模块、训练模块、分类模块及可视化模块,其中:
所述获取模块用于从微博集中随机获取一小部分微博作为训练微博集;
所述标记模块用于将训练微博集中的每条微博标记为感冒类微博或者非感冒类微博;
所述初始化模块用于对训练微博集中经过标记后的微博进行初始化操作,得到训练微博集的微博文本词项集合;
所述特征提取模块用于对训练微博集中经过初始化后的每条微博进行特征提取,得到训练微博集的微博文本原始特征词项集合;
所述特征选择模块用于对所述训练微博集的微博文本原始特征词项集合进行特征选择,计算每个词项的互信息值,得到特征词项字典;
所述特征向量化模块用于根据所述特征词项字典对训练微博集中的微博进行特征向量化;
所述训练模块用于对该特征向量进行训练,得到SVM分类器;
所述获取模块还用于获取微博集中剩余微博作为测试微博集;
所述初始化模块还用于对测试微博集中的微博进行初始化操作,得到测试微博集的微博文本词项集合;
所述特征提取模块还用于对测试微博集中经过初始化后的每条微博进行特征提取,得到测试微博集的微博文本原始特征词项集合;
所述特征向量化模块还用于根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化;
所述分类模块用于使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类;
所述可视化模块用于将分类结果可视化以进行流感疫情进行监测和分析。
8.如权利要求7所述的系统,其特征在于,所述的初始化操作指:所述初始化模块对微博的文本信息去除标点符号、去除非中文字符和分词操作。
9.如权利要求8所述的系统,其特征在于,所述的特征提取指所述特征提取模块将上述微博文本词项集合中的停用词删除。
10.如权利要求9所述的系统,其特征在于,所述的特征选择指:所述特征选择模块对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算,得到按照互信息值从高到低排列的N个词项作为特征词项字典。
11.如权利要求10所述的系统,其特征在于,所述的向量化指:所述特征向量化模块将每条微博的微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维度为N的特征向量。
12.如权利要求10或11所述的方法,其特征在于,所述N优选设定为1000以上。
CN201310608266.XA 2013-11-25 2013-11-25 面向微博数据的流感疫情监测分析方法及系统 Active CN103593462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310608266.XA CN103593462B (zh) 2013-11-25 2013-11-25 面向微博数据的流感疫情监测分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310608266.XA CN103593462B (zh) 2013-11-25 2013-11-25 面向微博数据的流感疫情监测分析方法及系统

Publications (2)

Publication Number Publication Date
CN103593462A true CN103593462A (zh) 2014-02-19
CN103593462B CN103593462B (zh) 2017-02-15

Family

ID=50083603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310608266.XA Active CN103593462B (zh) 2013-11-25 2013-11-25 面向微博数据的流感疫情监测分析方法及系统

Country Status (1)

Country Link
CN (1) CN103593462B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224955A (zh) * 2015-10-16 2016-01-06 武汉邮电科学研究院 基于微博大数据获取网络服务状态的方法
CN105843957A (zh) * 2016-04-15 2016-08-10 国家计算机网络与信息安全管理中心 微博深度分类方法及系统
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN109545386A (zh) * 2018-11-02 2019-03-29 深圳先进技术研究院 一种基于深度学习的流感时空预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133860B2 (en) * 2002-01-23 2006-11-07 Matsushita Electric Industrial Co., Ltd. Device and method for automatically classifying documents using vector analysis
CN103020712A (zh) * 2012-12-28 2013-04-03 东北大学 一种海量微博数据的分布式分类装置及方法
CN103077207A (zh) * 2012-12-28 2013-05-01 深圳先进技术研究院 一种微博开心指数分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133860B2 (en) * 2002-01-23 2006-11-07 Matsushita Electric Industrial Co., Ltd. Device and method for automatically classifying documents using vector analysis
CN103020712A (zh) * 2012-12-28 2013-04-03 东北大学 一种海量微博数据的分布式分类装置及方法
CN103077207A (zh) * 2012-12-28 2013-05-01 深圳先进技术研究院 一种微博开心指数分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宁亚辉等: "基于领域词语本体的短文本分类", 《中国期刊全文数据库 计算机科学》 *
滕少华: "基于CRFs的中文分析和短文本分类技术", 《百度文库 HTTP://WENKU.BAIDU.COM/LINK?URL=TQTLHQJFJFWSXK5JZJUIZ65KCKJI9KEKBTT17D09BMPUKNDJ1A7P3OQHIEDTELP9BAL1OSG62TZQLDBQUGC7XRVSJJDDQL9_C8JKNGDQEPY》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224955A (zh) * 2015-10-16 2016-01-06 武汉邮电科学研究院 基于微博大数据获取网络服务状态的方法
CN105843957A (zh) * 2016-04-15 2016-08-10 国家计算机网络与信息安全管理中心 微博深度分类方法及系统
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN107437038B (zh) * 2017-08-07 2021-07-06 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN109545386A (zh) * 2018-11-02 2019-03-29 深圳先进技术研究院 一种基于深度学习的流感时空预测方法及装置
CN109545386B (zh) * 2018-11-02 2021-07-20 深圳先进技术研究院 一种基于深度学习的流感时空预测方法及装置

Also Published As

Publication number Publication date
CN103593462B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN104135387B (zh) 一种基于元模型拓扑的网管数据处理可视化监控方法
CN103593462A (zh) 面向微博数据的流感疫情监测分析方法及系统
KR20150046793A (ko) 소셜미디어를 이용한 재난 감지 시스템
毛嘉莉 et al. Anomaly detection for trajectory big data: Advancements and framework
JP2014016822A5 (ja) 画像処理装置、画像処理方法、プログラム
CN105825046B (zh) 一种医疗数据的收集及处理方法及装置
CN110321424A (zh) 一种基于深度学习的艾滋病人员行为分析方法
CN107918629A (zh) 一种告警故障的关联方法和装置
JP2016517989A5 (zh)
CN104866606B (zh) 一种MapReduce并行化大数据文本分类方法
JPWO2015052785A1 (ja) 情報処理システム
CN102279905A (zh) 一种电网故障诊断中的数据流快速约简方法
CN107111609A (zh) 用于神经语言行为识别系统的词法分析器
Kapse et al. Android based fall detection and tracking app for aged people
CN104618175A (zh) 网络异常检测方法
CN104268214B (zh) 一种基于微博用户关系的用户性别识别方法及系统
WO2016070642A1 (zh) 一种多故障数据解耦方法和装置
CN103824161A (zh) 一种云计算可专利技术导航系统及方法
WO2016199411A1 (ja) ログ表示装置とログ表示方法およびログ表示プログラム
CN103825875A (zh) 一种疫苗接种策略的虚拟机检测方法
CN106383914A (zh) 基于云呼叫平台实现多数据源配置的方法及其系统
Sofean et al. A real-time disease surveillance architecture using social networks
CN105225287A (zh) 一种考勤系统及方法
CN109634903A (zh) 一种经济管理数据分析装置
Ahmad et al. Characterizing dengue spread and severity using internet media sources

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant