CN109597926A - 一种基于社交媒体突发事件的信息获取方法及系统 - Google Patents
一种基于社交媒体突发事件的信息获取方法及系统 Download PDFInfo
- Publication number
- CN109597926A CN109597926A CN201811465983.0A CN201811465983A CN109597926A CN 109597926 A CN109597926 A CN 109597926A CN 201811465983 A CN201811465983 A CN 201811465983A CN 109597926 A CN109597926 A CN 109597926A
- Authority
- CN
- China
- Prior art keywords
- social media
- text
- classification
- emergency event
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000012706 support-vector machine Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000009193 crawling Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 abstract description 5
- 238000009472 formulation Methods 0.000 abstract description 4
- 239000000203 mixture Substances 0.000 abstract description 4
- 241000288113 Gallirallus australis Species 0.000 description 7
- 244000097202 Rathbunia alamosensis Species 0.000 description 5
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013398 bayesian method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于社交媒体突发事件的信息获取方法及系统,包括:S1、构建突发事件的语料库;S2、利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类;S3、利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类。本发明通过爬虫对社交媒体进行相关关键词的语料库获取,利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类,利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类,实现信息分类精度相对于没有经过非即时地震信息筛选的结果提高2.9%,F‑Measure的值提高2.6%,解决了现有技术中文本分类结果精度低的问题,实现了分类精度的提升,有助于决策者对于灾害事件的掌控,为决策的制定提供依据。
Description
技术领域
本发明涉及数据挖掘技术领域,特别是一种基于社交媒体突发事件的信息获取方法及系统。
背景技术
传统的突发事件应急信息是由官方或权威机构采集、整理、发布的。其缺点主要表现在:采集过程缺乏大众的参与和反馈,信息来源比较单一;采集时效性低,甚至在突发事件发生后一段时间内不能及时获取事件的任何信息,如重大自然灾害;信息传播方向为官方至大众,呈单向流动,缺少反馈和沟通。这些不足使得传统的突发事件应急信息难以满足及时、有效、合理处置突发事件的需求。
社交媒体越来越多地被看作是随人群移动的传感器,感知着发生在周边的事件以及远处的其他突发事件,并在网络中互相共享和沟通。一旦某地有突发事件发生,事发地的人们会第一时间通过文字、图片以及视频向互联网广播事件的状态。与此同时,处在事发地外围的人们在社交网络上看到相关报道或讲述后,会纷纷作出及时的响应,最后与事件相关的信息就会很快充斥着整个社交网络。突发事件信息以社交媒体数据的形式在社交网络中广泛传播。
综上所述,社交媒体具有的自发性、及时性、广泛参与性、内容多样性正好弥补了传统突发事件应急信息的不足。面对海量的社交媒体数据,如何快速、及时、准确地从中挖掘出突发事件应急信息是需要研究的关键问题。
2015年学者白华在《基于中文短文本分类的社交媒体灾害事件检测系统研究》论文中提出基于支持向量机进行突发地震信息的提取,并且将最终结果的结果在地图上进行可视化,由于没有对算法进行改进,仅选取文本特征组合和几种分类方法中效果较好的支持向量机分类算法,分类结果勉强能接受。
学者吴新华在2017年文中《吴新华与栾翠菊,基于微博文本分类的突发地震事件检测方法》提出基于关键词过滤和时间关系识别的方法进行提高分类结果,使得F1指标上升了5.3%,但是时间关系识别的方法引入了大量的正则关系表达式,忽略了文本的语义关系,使得该模型在正则表达式规则之外的结果就不能精确识别,有一定的局限性。
发明内容
本发明的目的是提供一种基于社交媒体突发事件的信息获取方法及系统,旨在解决现有技术中文本分类结果精度低的问题,实现了分类精度的提升,有助于为突发事件决策的制定提供依据。
为达到上述技术目的,本发明提供了一种基于社交媒体突发事件的信息获取方法,所述方法包括以下步骤:
S1、构建突发事件的语料库;
S2、利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类;
S3、利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类。
优选地,所述步骤S1具体包括以下操作:
对爬虫获取的数据进行文本去重、去主题无关词、去停用词以及文本分词处理;
构建向量空间,用向量表示每个文本。
优选地,所述文本去重具体为:
在爬虫爬行过程中设置社交媒体的参数,对社交媒体内容完全一样或是转发的认定为重复。
优选地,所述去主题无关词具体为:
利用正则表达式以及人工删除的方式来进行与主题无关的词语删除工作。
优选地,所述构建向量空间具体操作为:
将字符转化到向量空间模型当中,将训练语料库中的所有词汇转化到统一的向量空间模型中,每个文本都可以用向量来表示;所述向量空间的构建采用数据挖掘软件WEKA的转词向量工具。
本发明还提供了一种基于社交媒体突发事件的信息获取系统,所述系统包括:
语料库构建模块,用于构建突发事件的语料库;
非突发事件分类过滤模块,用于利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类;
正负类预测分类模块,用于利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类。
优选地,所述语料库构建模块包括:
去重单元,用于对文本去重;
去主题无关词单元,用于去除与主题无关的词;
去停用词单元,用于去除停用词;
文本分词单元,用于进行文本分词;
向量空间构建单元,用于构建向量空间,用向量表示每个文本。
优选地,所述向量空间的构建采用数据挖掘软件WEKA的转词向量工具。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过爬虫对社交媒体进行相关关键词的语料库获取,通过去重、去主题无关词、去停用词以及文本分词对语料库进行处理获得最终地震语料库,利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类,利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类,实现信息分类精度相对于没有经过非即时地震信息筛选的结果提高2.9%,F-Measure的值提高2.6%,解决了现有技术中文本分类结果精度低的问题,实现了分类精度的提升,有助于决策者对于灾害事件的掌控,为决策的制定提供依据。
附图说明
图1为本发明实施例中所提供的一种基于社交媒体突发事件的信息获取方法流程图;
图2为本发明实施例中所提供的一种利用支持向量机分类器进行非突发事件分类过滤后的模型精度图;
图3为本发明实施例中所提供的一种基于社交媒体突发事件的信息获取系统结构框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种基于社交媒体突发事件的信息获取方法及系统进行详细说明。
如图1所示,本发明实施例公开了一种基于社交媒体突发事件的信息获取方法,所述方法包括以下步骤:
S1、构建突发事件的语料库;
S2、利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类;
S3、利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类。
本发明实施例以“地震”作为关键词,通过新浪微博爬虫,基于新浪微博高级查询页面,自定义事件以及关键词进行地震语料库获取。数据由爬虫脚本获取,爬取到数据之后以CSV格式文件存储在Excel里面,但是在WEKA中需要以TXT文本的形式进行处理。利用Python遍历每条微博,然后保存为TXT格式。
通过进行微博文本去重、去主题无关词、去停用词处理以及文本分词处理来完成地震事件的语料库。主题无关词可以是“分享来自秒拍”、“该微博由移动微博客户端发送”等与主题无关的词语。停用词可以是“你”、“我”、“哼”、“呀”等实际意义不大,对主题贡献小的词语。
所述去重操作具体为在爬虫爬行过程中设置一个新浪微博的参数,对微博内容完全一样或是转发的认定为重复,从而实现去重处理。
所述去主题无关词操作具体为利用正则表达式以及人工删除的方式来进行。去除无关结构词如“#美国空袭叙利亚#”,其中标题包含在“#”之间,可以定义正则表达式“#.*#”识别所有的标题。例如附加的超链接“(新京报我们视频)”,这个信息包含在一对括号里面,可以采用“(.*)”来匹配括号和括号里面的内容。而对于无法采用正则表达式方法来识别的,则采用人工删除的方式来去除与主题无关的词语。
所述去停用词和分词处理是同时处理的,由于自然语言处理的最小单元是词语,因此需要将文本分解为词语单元,进行概率计算。采用Jieba分词工具进行分词处理,通过调用该工具提供的Python接口进行精确分词,将句子变成词语为单元的内容,利用哈工大停用词表进行停用词处理。
在通过去重、去无关词、去停用词以及文本分词操作后,获得地震语料库,通过构建向量空间来用向量表示每个文本。
由于为了能够让计算机对每一文本进行数学计算并进行统计分析,使文本文件具有可计算性,需要将字符转化到向量空间模型当中,将训练语料库中的所有词汇转化到统一的向量空间模型中,每个文本都可以用向量来表示。所述向量空间的构建采用数据挖掘软件WEKA的转词向量工具。
在获取语料库后,对语料库进行第一次分类,将语料精确的划分为即时突发地震、历史事件、虚拟情况、修辞手法、地震相关作品、灾害预测及应对、其它类七类,对非突发事件进行分类过滤。历史事件、虚拟情况、修辞手法、地震相关作品、灾害预测及应对、其它类为噪音事件。
非即时的突发地震微博信息即为噪音事件,机器区分噪音事件的方法是利用机器学习当中的支持向量机方法,该方法需要两种语料库,第一个是必须通过人工训练的训练语料库,包括根据人为经验而对微博数据进行分类得到的6类噪音类别的语料库;第二个语料库是测试语料库,机器预测通过上述训练语料库学习得到特征函数以及参数,并且对测试数据集采用该函数及参数,进行概率计算,选出概率最大的一个类别就是机器判断类别的方法。
在本发明实施例中,从新浪微博爬取从2014年-2018年的以“地震”为关键词的微博,经过人工筛选分类,语料库中即时突发地震类170条,历史事件类179条,其它类147条,灾害预测及应对类168条,修辞手法类175条,虚拟情况类160条,地震相关作品类144条,并且在本文中分别记为Positive,History,None,Predict,Rhetoric,Virtual,Work类。对上述训练语料库创建文件夹,子文件夹为各个噪音文件的文本文件,并在WEKA操作界面通过以下命令行将文件转化为ARFF格式的文件:
Java weka.core.converters.TextDirectoryLoader-dir E:/negative>E:/negative.arff
然后导入到WEKA界面,之后将其转化到词向量空间,最后选择分类器为支持向量机,进行10倍交叉验证,得到的模型精度如图2所示。
将成功分类为“历史事件”、“虚拟情况”、“修辞手法”、“地震相关作品”、“灾害预测及应对”5类的非即时突发地震信息从语料库中剔除,对剩下的样本输入到第二级分类器中进行预测分类。“其他类”由于模型精度以及规律性较差,将其保留,进入下一级正负类预测分类。
所述正负类预测分类可视为二分类问题,即一个样本不是即时突发地震信息就是非即时突发地震信息,利用机器学习当中的朴素贝叶斯方法,基于人工构建的训练数据集,利用贝叶斯公式:P(Y|X)=P(X|Y)P(Y)/P(X)来进行分类。
基于朴素贝叶斯的文本分类方法包括以下过程:
准备阶段:将文本当中的每一个词语作为其特征属性,并对每一个文本进行人工标注,即将文本进行二次分类,将文本分类突发地震类和非突发地震类;
分类器训练阶段:利用训练样本计算该模型的先验概率;
应用阶段:根据测试样本,计算条件概率,计算出该文本对于不同类的后验概率,找出最大概率的一类即为所预测的类。对数据集进行人工筛选,记地震即时消息为正类,非即时消息为负类。在本发明实施例中为了使正负样本数量一致,设置数据集正类为218条,负类文本为218条。
对于第二级分类所采用的构建模型的方法为利用WEKA数据挖掘软件进行模型构建,所采用的分类器选择的是朴素贝叶斯分类器。分类结果如表1所示。
表1
将第一层分类得到的结果输入到第二层,结果精度、召回以及F-Measure相较于没有经过第一层分类器过滤的分类结果得到了部分提升。
本发明实施例通过爬虫对社交媒体进行相关关键词的语料库获取,通过去重、去主题无关词、去停用词以及文本分词对语料库进行处理获得最终地震语料库,利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类,利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类,实现信息分类精度相对于没有经过非即时地震信息筛选的结果提高2.9%,F-Measure的值提高2.6%,解决了现有技术中文本分类结果精度低的问题,实现了分类精度的提升,有助于决策者对于灾害事件的掌控,为决策的制定提供依据。
如图3所示,本发明还公开了一种基于社交媒体突发事件的信息获取系统,所述系统包括:
语料库构建模块,用于构建突发事件的语料库;
非突发事件分类过滤模块,用于利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类;
正负类预测分类模块,用于利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类。
所述语料库构建模块包括:
去重单元,用于对文本去重;
去主题无关词单元,用于去除与主题无关的词;
去停用词单元,用于去除停用词;
文本分词单元,用于进行文本分词;
向量空间构建单元,用于构建向量空间,用向量表示每个文本。
所述去重操作具体为在爬虫爬行过程中设置一个新浪微博的参数,对微博内容完全一样或是转发的认定为重复,从而实现去重处理。
所述去主题无关词操作具体为利用正则表达式以及人工删除的方式来进行。去除无关结构词如“#美国空袭叙利亚#”,其中标题包含在“#”之间,可以定义正则表达式“#.*#”识别所有的标题。例如附加的超链接“(新京报我们视频)”,这个信息包含在一对括号里面,可以采用“(.*)”来匹配括号和括号里面的内容。而对于无法采用正则表达式方法来识别的,则采用人工删除的方式来去除与主题无关的词语。
所述去停用词和分词处理是同时处理的,由于自然语言处理的最小单元是词语,因此需要将文本分解为词语单元,进行概率计算。采用Jieba分词工具进行分词处理,通过调用该工具提供的Python接口进行精确分词,将句子变成词语为单元的内容,利用哈工大停用词表进行停用词处理。
由于为了能够让计算机对每一文本进行数学计算并进行统计分析,使文本文件具有可计算性,需要将字符转化到向量空间模型当中,将训练语料库中的所有词汇转化到统一的向量空间模型中,每个文本都可以用向量来表示。所述向量空间的构建采用数据挖掘软件WEKA的转词向量工具。
非即时的突发地震微博信息即为噪音事件,机器区分噪音事件的方法是利用机器学习当中的支持向量机方法,该方法需要两种语料库,第一个是必须通过人工训练的训练语料库,包括根据人为经验而对微博数据进行分类得到的6类噪音类别的语料库;第二个语料库是测试语料库,机器预测通过上述训练语料库学习得到特征函数以及参数,并且对测试数据集采用该函数及参数,进行概率计算,选出概率最大的一个类别就是机器判断类别的方法。在WEKA数据挖掘软件中,将其转化到词向量空间,最后选择分类器为支持向量机分类器。
所述正负类预测分类可视为二分类问题,即一个样本不是即时突发地震信息就是非即时突发地震信息,利用机器学习当中的朴素贝叶斯方法,基于人工构建的训练数据集,利用贝叶斯公式:P(Y|X)=P(X|Y)P(Y)/P(X)来进行分类。对于第二级分类所采用的构建模型的方法为利用WEKA数据挖掘软件进行模型构建,所采用的分类器选择的是朴素贝叶斯分类器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于社交媒体突发事件的信息获取方法,其特征在于,所述方法包括以下步骤:
S1、构建突发事件的语料库;
S2、利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类;
S3、利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类。
2.根据权利要求1所述的一种基于社交媒体突发事件的信息获取方法,其特征在于,所述步骤S1具体包括以下操作:
对爬虫获取的数据进行文本去重、去主题无关词、去停用词以及文本分词处理;
构建向量空间,用向量表示每个文本。
3.根据权利要求2所述的一种基于社交媒体突发事件的信息获取方法,其特征在于,所述文本去重具体为:
在爬虫爬行过程中设置社交媒体的参数,对社交媒体内容完全一样或是转发的认定为重复。
4.根据权利要求2所述的一种基于社交媒体突发事件的信息获取方法,其特征在于,所述去主题无关词具体为:
利用正则表达式以及人工删除的方式来进行与主题无关的词语删除工作。
5.根据权利要求2所述的一种基于社交媒体突发事件的信息获取方法,其特征在于,所述构建向量空间具体操作为:
将字符转化到向量空间模型当中,将训练语料库中的所有词汇转化到统一的向量空间模型中,每个文本都可以用向量来表示;所述向量空间的构建采用数据挖掘软件WEKA的转词向量工具。
6.一种基于社交媒体突发事件的信息获取系统,其特征在于,所述系统包括:
语料库构建模块,用于构建突发事件的语料库;
非突发事件分类过滤模块,用于利用支持向量机分类器进行非突发事件分类过滤,实现第一级分类;
正负类预测分类模块,用于利用朴素贝叶斯分类器进行正负类预测分类,实现第二级分类。
7.根据权利要求6所述的一种基于社交媒体突发事件的信息获取系统,其特征在于,所述语料库构建模块包括:
去重单元,用于对文本去重;
去主题无关词单元,用于去除与主题无关的词;
去停用词单元,用于去除停用词;
文本分词单元,用于进行文本分词;
向量空间构建单元,用于构建向量空间,用向量表示每个文本。
8.根据权利要求7所述的一种基于社交媒体突发事件的信息获取系统,其特征在于,所述向量空间的构建采用数据挖掘软件WEKA的转词向量工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811465983.0A CN109597926A (zh) | 2018-12-03 | 2018-12-03 | 一种基于社交媒体突发事件的信息获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811465983.0A CN109597926A (zh) | 2018-12-03 | 2018-12-03 | 一种基于社交媒体突发事件的信息获取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109597926A true CN109597926A (zh) | 2019-04-09 |
Family
ID=65959521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811465983.0A Pending CN109597926A (zh) | 2018-12-03 | 2018-12-03 | 一种基于社交媒体突发事件的信息获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109597926A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000867A (zh) * | 2020-08-17 | 2020-11-27 | 桂林电子科技大学 | 一种基于社交媒体平台的文本分类方法 |
CN112052336A (zh) * | 2020-09-09 | 2020-12-08 | 南京理工大学 | 一种基于社交网络平台信息的交通突发事件识别方法及系统 |
CN112818668A (zh) * | 2021-02-05 | 2021-05-18 | 上海市气象灾害防御技术中心(上海市防雷中心) | 气象灾情数据语义识别分析方法和系统 |
CN113495951A (zh) * | 2020-04-03 | 2021-10-12 | 源析(青岛)信息技术有限公司 | 一种面向持续性社会事件的知识图谱的构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239485A (zh) * | 2014-09-05 | 2014-12-24 | 中国科学院计算机网络信息中心 | 一种基于统计机器学习的互联网暗链检测方法 |
US20150161237A1 (en) * | 2012-05-18 | 2015-06-11 | Tata Consultancy Services Limited | System and method for creating structured event objects |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
CN107590196A (zh) * | 2017-08-15 | 2018-01-16 | 中国农业大学 | 一种社交网络中地震应急信息筛选评价方法及系统 |
-
2018
- 2018-12-03 CN CN201811465983.0A patent/CN109597926A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150161237A1 (en) * | 2012-05-18 | 2015-06-11 | Tata Consultancy Services Limited | System and method for creating structured event objects |
CN104239485A (zh) * | 2014-09-05 | 2014-12-24 | 中国科学院计算机网络信息中心 | 一种基于统计机器学习的互联网暗链检测方法 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
CN107590196A (zh) * | 2017-08-15 | 2018-01-16 | 中国农业大学 | 一种社交网络中地震应急信息筛选评价方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495951A (zh) * | 2020-04-03 | 2021-10-12 | 源析(青岛)信息技术有限公司 | 一种面向持续性社会事件的知识图谱的构建方法 |
CN112000867A (zh) * | 2020-08-17 | 2020-11-27 | 桂林电子科技大学 | 一种基于社交媒体平台的文本分类方法 |
CN112052336A (zh) * | 2020-09-09 | 2020-12-08 | 南京理工大学 | 一种基于社交网络平台信息的交通突发事件识别方法及系统 |
CN112052336B (zh) * | 2020-09-09 | 2022-09-13 | 南京理工大学 | 一种基于社交网络平台信息的交通突发事件识别方法及系统 |
CN112818668A (zh) * | 2021-02-05 | 2021-05-18 | 上海市气象灾害防御技术中心(上海市防雷中心) | 气象灾情数据语义识别分析方法和系统 |
CN112818668B (zh) * | 2021-02-05 | 2024-03-29 | 上海市气象灾害防御技术中心(上海市防雷中心) | 气象灾情数据语义识别分析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaufhold et al. | Rapid relevance classification of social media posts in disasters and emergencies: A system and evaluation featuring active, incremental and online learning | |
US11580104B2 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
To et al. | On identifying disaster-related tweets: Matching-based or learning-based? | |
Purohit et al. | Emergency-relief coordination on social media: Automatically matching resource requests and offers | |
Ratkiewicz et al. | Detecting and tracking the spread of astroturf memes in microblog streams | |
Imran et al. | Coordinating human and machine intelligence to classify microblog communications in crises. | |
CN109597926A (zh) | 一种基于社交媒体突发事件的信息获取方法及系统 | |
CN103927398B (zh) | 基于最大频繁项集挖掘的微博炒作群体发现方法 | |
CN108875051A (zh) | 面向海量非结构化文本的知识图谱自动构建方法及系统 | |
CN108052576A (zh) | 一种事理知识图谱构建方法及系统 | |
TWI501097B (zh) | 文字串流訊息分析系統和方法 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
Psomakelis et al. | Big IoT and social networking data for smart cities: Algorithmic improvements on Big Data Analysis in the context of RADICAL city applications | |
CN107918644A (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
Gao et al. | A novel method for geographical social event detection in social media | |
Fang et al. | Witness identification in twitter | |
Sherchan et al. | Harnessing Twitter and Instagram for disaster management | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
Floos | Arabic rumours identification by measuring the credibility of Arabic tweet content | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
Galende et al. | Conspiracy or not? A deep learning approach to spot it on Twitter | |
Rani et al. | GeoClust: Feature engineering based framework for location-sensitive disaster event detection using AHP-TOPSIS | |
Zhou et al. | Classification of microblogs for support emergency responses: Case study Yushu earthquake in China | |
Moin et al. | Framework for rumors detection in social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190409 |