CN105808722B - 一种信息判别方法和系统 - Google Patents

一种信息判别方法和系统 Download PDF

Info

Publication number
CN105808722B
CN105808722B CN201610128564.2A CN201610128564A CN105808722B CN 105808722 B CN105808722 B CN 105808722B CN 201610128564 A CN201610128564 A CN 201610128564A CN 105808722 B CN105808722 B CN 105808722B
Authority
CN
China
Prior art keywords
data
keyword
social media
topic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610128564.2A
Other languages
English (en)
Other versions
CN105808722A (zh
Inventor
龚慧敏
段湘煜
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610128564.2A priority Critical patent/CN105808722B/zh
Publication of CN105808722A publication Critical patent/CN105808722A/zh
Application granted granted Critical
Publication of CN105808722B publication Critical patent/CN105808722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种信息判别方法及系统,基于网络爬虫技术,检索并收集传统媒体和社交媒体的热点信息对应的网页信息,并对收集到的网页信息进行处理,得到类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;基于训练集数据进行主题建模获取主题与关键词文档,并建立对应传统媒体数据的主题特征集合和对应社交媒体数据的关键词特征集合;利用主题特征集合和关键词特征集合训练分类器,通过得到的传统媒体分类器和社交媒体分类器对测试集数据进行分类判别,得到能够引发社交媒体报道的传统媒体数据,和/或能够引发传统媒体报道的社交媒体数据。由此采用对多个媒体的监测,能够更全面,更快的分析和预测舆情发展的趋势。

Description

一种信息判别方法和系统
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种信息判别方法方法和系统。
背景技术
目前针对网络舆情监控的方式,主要采用从信息流中进行新话题的自动识别和已知话题进行持续跟踪。如美国的TDT(Topic Detection and Tracking)系统、北京拓尔思公司的TRS舆情监控系统等。但是上述系统所进行的网络舆情监控仅仅在单一的媒体中监测,无法结合传统媒体和社交媒体两者信息流之间的互动关系来更好的分析预测舆情的发展趋势。
针对当前我国国土面积庞大且分散的国情,人们获取信息的来源并不仅仅依赖于一种媒体,且传统媒体和社交媒体之间存在信息交互的能够产生相互影响的关系。例如,作为社交媒体之一的微博所传播的热点信息,也可以引起作为传统媒体的新闻的广泛报道;同样的,新闻所播报的事件也可能引发微博的热议,从而显著推动着舆论的发展趋势。
鉴于此,如何结合传统媒体和社交媒体的相互影响关系,更全面更迅速的掌握网络舆情的发展趋势及预测突发事件的爆发,则成为当前最重要的研究方向。
发明内容
本发明基于上述问题,提出了一种信息判别方法和系统,以便于解决现有技术中仅对单一媒体进行监测,导致分析和预测舆情发展趋势较为片面的问题。
为解决上述问题,本发明公开了以下技术方案;
一种信息判别方法,所述方法包括:
基于网络爬虫技术,检索并收集互联网上传统媒体和社交媒体的热点信息对应的网页信息,并生成对应的传统媒体信息库和社交媒体信息库;
对所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息分别进行数据分析处理,分别生成利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;
其中,相同主题下不同影响力的传统媒体数据和社交媒体数据分别用不同类别数据进行表示;
基于所述训练集数据进行主题建模获取主题与关键词文档,利用所述主题与关键词文档建立对应所述传统媒体数据的主题特征集合,及建立对应所述社交媒体数据的关键词特征集合;
利用所述主题特征集合和关键词特征集合训练分类器,分别得到传统媒体分类器和社交媒体分类器,并通过所述传统媒体分类器和社交媒体分类器分别基于每一类别数据按照热度进行分类,且每一个分类中按照时间先后顺序对当前分类中所包含的数据进行排列;
利用所述传统媒体分类器和社交媒体分类器对所述测试集数据进行分类判别,得到能够引发社交媒体报道的所述传统媒体数据,和/或得到能够引发传统媒体报道的社交媒体数据。
优选的,所述基于网络爬虫技术,检索并收集互联网上传统媒体和社交媒体的热点话题对应的网页信息,并生成对应的传统媒体信息库和社交媒体信息库,包括:
基于网络爬虫技术,检索互联网上传统媒体和社交媒体的热点话题;
收集对应所述热点话题的传统媒体网页信息和社交媒体网页信息;
按时间先后顺序对每条所述传统媒体网页信息和社交媒体网页信息进行存储,并生成对应的传统媒体信息库和社交媒体信息库;
其中,所述网页信息中包括时间信息,来源信息,原始URL,著者信息和正文信息。
优选的,所述对所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息分别进行数据分析处理,分 别生成利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合,包括:
解析所述传统媒体信息库中存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息中的HTML标签,得到对应的传统媒体数据和社交媒体数据;
对所述传统媒体数据和社交媒体数据进行格式归一化,利用类别数据标记传统媒体数据和社交媒体数据,并针对每类别数据划分训练集数据和测试集数据;
其中,对同一主题下传统媒体数据和社交媒体数据,利用第一类别数据表示发文时间早的数据,利用第二类别数据表示发文时间晚的数据;
对每类别数据划分的所述训练集数据和测试集数据的数据进行文本分词,命名实体识别和去粒度化操作,得到传统媒体和社交媒体数据集合。
优选的,所述基于所述训练集数据进行主题建模获取主题与关键词文档,利用所述主题与关键词文档建立对应所述传统媒体数据的主题特征集合,及建立对应所述社交媒体数据的关键词特征集合,包括:
识别训练集数据中传统媒体数据和社交媒体数据的主题信息,获取所述主题信息对应的关键词集合,生成主题与关键词文档;
针对所述传统媒体数据,提取所述主题与关键词文档中同一关键词下的主题,构建所述关键词的索引与每个主题信息索引的映射关系,建立对应的主题特征集合;
针对所述社交媒体数据,提取所述主题与关键词文档中的每个主题下的所有关键词,将每个关键词作为特征值序号,建立对应的关键词特征集合。
优选的,所述针对所述传统媒体数据,获取所述主题与关键词文档中同一关键词下的主题,构建所述关键词的索引与每个主题信息索引的映射关系,建立对应的主题特征集合,包括:
针对所述传统媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词特征表;
遍历所述关键词特征表和所述主题与关键词文档,得到每个所述关键词所对应的主题;
构建每个所述关键词的索引与所对应的主题的索引的映射关系,生成对应的关键词和主题索引映射表,其中,一个关键词对应一个映射关系和/或对应多个映射关系;
将所述关键词和主题索引映射表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述传统媒体数据,将所述关键词对应的主题索引作为特征指序号,并建立对应的主题特征集合。
优选的,所述针对所述社交媒体数据,提取所述主题与关键词文档中的每个主题下的所有关键词,将每个关键词作为特征值序号,建立对应的关键词特征集合,包括:
针对所述社交媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词文档;
对所述关键词文档中的内容进行去重复和去无用词操作,生成关键词特征表;
将所述关键词特征表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述社交媒体数据,将所述关键词的索引作为特征指序号,并建立对应的关键词特征集合。
一种信息判别系统,所述系统包括:
信息收集模块,用于基于网络爬虫技术,检索并收集互联网上传统媒体和社交媒体的热点话题对应的网页信息,并生成对应的传统媒体信息库和社交媒体信息库;
信息预处理模块,用于对所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息分别进行数据分析处理,分别生成利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;其中,相同主题下不同影响力的传统媒体数据和社交媒体数据分别用不同类别数据进行表示;
特征集合生成模块,用于基于所述训练集数据进行主题建模获取主题与关键词文档,利用所述主题与关键词文档建立对应所述传统媒体数据的主题特征集合,及建立对应所述社交媒体数据的关键词特征集合;
分类器训练模块,用于利用所述主题特征集合和关键词特征集合训练分类器,分别得到传统媒体分类器和社交媒体分类器,并通过所述传统媒 体分类器和社交媒体分类器分别基于每一类别数据按照热度进行分类,且每一个分类中按照时间先后顺序对当前分类中所包含的数据进行排列;
分类判别模块,用于利用所述传统媒体分类器和社交媒体分类器对所述测试集数据进行分类判别,得到能够引发社交媒体报道的所述传统媒体数据,和/或得到能够引发传统媒体报道的社交媒体数据。
优选的,所述信息预处理模块包括:
网页解析单元,用于解析所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息中的HTML标签,得到对应的传统媒体数据和社交媒体数据;
格式归一化单元,用于对所述传统媒体数据和社交媒体数据进行格式归一化,利用类别数据标记传统媒体数据和社交媒体数据,并针对每类别数据划分训练集数据和测试集数据;其中,对同一主题下传统媒体数据和社交媒体数据,利用第一类别数据表示发文时间早的数据,利用第二类别数据表示发文时间晚的数据;
处理单元,用于对每类别数据划分的所述训练集数据和测试集数据的数据进行文本分词,命名实体识别和去粒度化操作,得到传统媒体和社交媒体数据集合。
优选的,所述特征集合生成模块包括:
识别单元,用于识别训练集数据中传统媒体数据和社交媒体数据的主题信息,获取所述主题信息对应的关键词集合,生成主题与关键词文档;
第一建立单元,用于针对所述传统媒体数据,提取所述主题与关键词文档中同一关键词下的主题,构建所述关键词的索引与每个主题信息索引的映射关系,建立对应的主题特征集合;
第二建立单元,用于针对所述社交媒体数据,提取所述主题与关键词文档中的每个主题下的所有关键词,将每个关键词作为特征值序号,建立对应的关键词特征集合。
优选的,所述第一建立单元包括:
第一生成子单元,用于针对所述传统媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词特征表;
遍历子单元,用于遍历所述关键词特征表和所述主题与关键词文档,得到每个所述关键词所对应的主题;
构建子单元,用于构建每个所述关键词的索引与所对应的主题的索引的映射关系,生成对应的关键词和主题索引映射表,其中,一个关键词对应一个映射关系和/或对应多个映射关系;
第一建立子单元,用于将所述关键词和主题索引映射表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述传统媒体数据,将所述关键词对应的主题索引作为特征指序号,并建立对应的主题特征集合;
所述第二建立单元包括:
第二生成子单元,用于针对所述社交媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词文档;
第三生成子单元,用于对所述关键词文档中的内容进行去重复和去无用词操作,生成关键词特征表;
第二建立子单元,用于将所述关键词特征表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述社交媒体数据,将所述关键词的索引作为特征指序号,并建立对应的关键词特征集合。
本发明实施例公开的一种信息判别方法及系统,基于网络爬虫技术,检索并收集互联网上传统媒体和社交媒体的热点信息对应的网页信息,并对收集到的传统媒体和社交媒体的网页信息分别进行数据分析处理,得到利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;基于训练集数据进行主题建模获取主题与关键词文档,并利用主题与关键词文档分别建立对应传统媒体数据的主题特征集合和对应社交媒体数据的关键词特征集合;利用主题特征集合和关键词特征集合训练分类器,并通过得到的传统媒体和社交媒体分类器进行分类,以及对测试集数据进行分类判别,得到能够引发社交媒体报道的传统媒体数据,和/或得到能够引发传统媒体报道的社交媒体数据。由此,采用对多个媒体的监测,能够更全面,更快的分析和预测舆情发展的趋势。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例一公开的一种信息判别方法的流程示意图;
图2示出了本发明实施例二公开的一种信息判别方法的部分流程示意图;
图3示出了本发明实施例二公开了一种信息判别方法的部分流程示意图;
图4示出了本发明实施例二公开了一种信息判别方法的部分流程示意图;
图5示出了本发明实施例三公开了一种信息判别系统的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明结合传统媒体和社交媒体的相互影响关系,更全面更迅速的掌握网络舆情的发展趋势及预测突发事件的爆发,具体通过以下实施例进行详细说明。
实施例一
如图1所示,为本发明实施例公开的一种信息判别方法的流程图,主要包括:
S101,基于网络爬虫技术,检索并收集互联网上传统媒体和社交媒体的热点信息对应的网页信息,并生成对应的传统媒体信息库和社交媒体信息库;
在S101中所基于的网络爬虫技术可以根据需求由监人员进行自定义或者预先进行设置。在执行S101的过程中,以URL(统一资源定位符Uniform Resource Locator)为入口,可以从如百度实时热点排行榜等门户网站的热点排行榜中的关键词列表得到热点话题关键词,然后依据每个热点话题关键词结合网络爬虫技术在互联网或万维网上检索和采集传统媒体的热点信息对应的网页信息,以及社交媒体的热点信息对应的网页信息,并对应生成传统媒体信息库和社交媒体信息库;
其中,在传统媒体信息库和社交媒体信息库中,按照时间先后顺序将各自的网页信息存储于对应的传统媒体信息库和社交媒体信息库中;
需要说明的是,这里的传统媒体信息库可以是文档的形式,即传统媒体文档,同样的,社交媒体信息库也可以是文档的形式,即社交媒体文档;
另外,需要说明的是,传统媒体通常采用长文本,社交媒体通常采用短文本;
S102,对所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息分别进行数据分析处理,分别生成利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;
在S102中,对于存储于传统媒体信息库和社交媒体信息库中的网页信息分别进行数据处理,得到纯文本数据,并将网页信息中的非有效信息摒弃,只保留有效信息,该网页信息的有效信息主要包括:时间信息,来源信息,原始URL,著者信息和正文信息。当然该有效信息并不仅限于此,还可以根据需求保留更多的有效信息;将上述得到的纯文本数据进行格式归一化,利用不同的类别数据进行标记,其中,相同主题下不同影响力的传统媒体数据和社交媒体数据分别用不同类别数据进行表示;在标记后, 将一部分数据作为训练集数据保存于传统媒体和社交媒体数据集合中,将剩余数据作为测试集数据保存于传统媒体和社交媒体数据集合中;
需要说明的是,作为训练集数据保存的数据大于作为测试集数据保存的数据,通常情况下,利用同一类别数据标记的传统媒体数据和社交媒体数据中,训练集数据占80%,测试集数据占20%;
S103,基于所述训练集数据进行主题建模获取主题与关键词文档,利用所述主题与关键词文档建立对应所述传统媒体数据的主题特征集合,及建立对应所述社交媒体数据的关键词特征集合;
在S103中,通过主题建模的方式,从训练集数据中自动识别主题信息,并提取关键词,生成包含主题与关键词文档,并利用该主题与关键词文档针对社交媒体数据的特征生成关键词特征集合,针对传统媒体数据的特征生成主题特征集合;
S104,利用所述主题特征集合和关键词特征集合训练分类器,分别得到传统媒体分类器和社交媒体分类器,并通过所述传统媒体分类器和社交媒体分类器分别基于每一类别数据按照热度进行分类,且每一个分类中按照时间先后顺序对当前分类中所包含的数据进行排列;
在S104中,利用所述主题特征集合和关键词特征集合训练分类器,生成传统媒体分类器和社交媒体分类器,需要说明的是,在本发明公开的实施例中所采用的分类器为SVM分类器,但是,本发明对所采用的分类器类型并仅限于此,还可以是其他类型的分类器;
S105,利用所述传统媒体分类器和社交媒体分类器对所述测试集数据进行分类判别,得到能够引发社交媒体报道的所述传统媒体数据,和/或得到能够引发传统媒体报道的社交媒体数据。
在S105中,利用执行S104获取到的传统媒体分类器和社交媒体分类器对所述测试集数据进行分类判别,由此在传统媒体数据中识别出能够引发社交媒体报道的传统媒体数据,在社交媒体数据中识别出能够引发传统媒体报道的社交媒体数据。
本发明实施例公开的信息判别方法,基于上述对传统媒体数据和社交媒体数据进行分类,并基于分类判断得到两个不同媒体中可以相互影响的数据,对与上述不限于对单一的媒体进行监控,也更能够更全面,更快的分析和预测舆情发展的趋势。
实施例二
基于上述本发明实施例一公开的信息判别方法,针对图1中所示出的S101,具体执行过程如图2所示,主要包括:
S201,基于网络爬虫技术,检索互联网上传统媒体和社交媒体的热点话题;
S202,收集对应所述热点话题的传统媒体网页信息和社交媒体网页信息;
S203,按时间先后顺序对每条所述传统媒体网页信息和社交媒体网页信息进行存储,并生成对应的传统媒体信息库和社交媒体信息库。
其中,所述网页信息中包括时间信息,来源信息,原始URL,著者信息和正文信息等有效信息,这里的传统媒体信息库可以是文档的形式,即传统媒体文档,同样的,社交媒体信息库也可以是文档的形式,即社交媒体文档。
针对图1中所示出的S102,具体执行过程如图3所示,主要包括:
S301,解析所述传统媒体信息库中存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息中的HTML标签,得到对应的传统媒体数据和社交媒体数据;
在S301中,对所述传统媒体信息库中存储的传统媒体网页信息中的HTML标签进行解析,得到纯文本数据的传统媒体数据;对所述社交媒体信息库中存储的社交媒体网页信息中的HTML标签进行解析,得到纯文本数据的社交媒体数据;
S302,对所述传统媒体数据和社交媒体数据进行格式归一化,利用类别数据标记传统媒体数据和社交媒体数据,并针对每类别数据划分训练集数据和测试集数据;
在S302中,对同一主题下传统媒体数据和社交媒体数据,利用第一类别数据表示发文时间早的数据,利用第二类别数据表示发文时间晚的数据;如,用类别数据+1和-1表示或标记文档的正负例,其中,+1标记在同一主题下影响力大的传统媒体数据或社交媒体数据,-1标记在同一主题下影响力小的传统媒体数据或社交媒体数据;需要说明的是,影像力的大小可以通过点击率,阅读量等等信息体现,此外,发文时间的早晚在同一主题下也对影响力有作用;
S303,对每类别数据划分的所述训练集数据和测试集数据的数据进行文本分词,命名实体识别和去粒度化操作,得到传统媒体和社交媒体数据集合。
在S303中,按照标记的类别数据,对训练集数据和测试集数据进行文本分词,在分成单个词后,进行命名实体识别并执行去粒度化操作;采用对分词后的命名实体的去粒度化操作,能够使原本被细粒度化的人名、地名、机构名重新组合成一个对应的实体名词,并将其整体作为一个关键词。
针对图1中所示出的S103,具体执行过程如图4所示,主要包括:
S401,识别训练集数据中传统媒体数据和社交媒体数据的主题信息,获取所述主题信息对应的关键词集合,生成主题与关键词文档;
因为传统媒体通常采用长文本,社交媒体通常采用短文本;因此,针对传统媒体数据通常执行步骤S402,针对社交媒体数据通常执行步骤S403;
S402,针对所述传统媒体数据,提取所述主题与关键词文档中同一关键词下的主题,构建所述关键词的索引与每个主题信息索引的映射关系,建立对应的主题特征集合;
在本发明实施例公开的技术方案中,优选的,若S401中传统媒体数据来源于新闻,社交媒体数据来源于微博,则在执行S402的过程中,首先,针对所述传统媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词特征表;
其次,遍历所述关键词特征表和所述主题与关键词文档,得到每个所述关键词所对应的主题;
其次,构建每个所述关键词的索引与所对应的主题的索引的映射关系,生成对应的关键词和主题索引映射表,其中,一个关键词对应一个映射关系和/或对应多个映射关系;
最后,将所述关键词和主题索引映射表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述传统媒体数据,将所述关键词对应的主题索引作为特征指序号,并建立对应的主题特征集合;
S403,针对所述社交媒体数据,提取所述主题与关键词文档中的每个主题下的所有关键词,将每个关键词作为特征值序号,建立对应的关键词特征集合。
在本发明实施例公开的技术方案中,优选的,若S401中传统媒体数据来源于新闻,社交媒体数据来源于微博,在执行S403的过程中,首先,针对所述社交媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词文档;
其次,对所述关键词文档中的内容进行去重复和去无用词操作,生成关键词特征表;
最后,将所述关键词特征表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述社交媒体数据,将所述关键词的索引作为特征指序号,并建立对应的关键词特征集合。
在本发明实施例公开的信息判别方法的技术方案中,基于网络爬虫技术,检索并收集传统媒体和社交媒体的热点信息对应的网页信息,并对收集到的网页信息进行处理,得到类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;基于训练集数据进行主题建模获取主题与关键词文档,并建立对应传统媒体数据的主题特征集合和对应社交媒体数据的关键词特征集合;利用主题特征集合和关键词特征集合训练分类器,通过得到的传统媒体分类器和社交媒体分类器对测试集数据进行分类判别,得到能够引发社交媒体报道的传统媒体数据,和/或能够引发 传统媒体报道的社交媒体数据。由此采用对多个媒体的监测,能够更全面,更快的分析和预测舆情发展的趋势。
实施例三
基于上述本发明实施例一和实施例二公开的一种信息判别方法,本发明该实施例三对应公开了相应的信息判别系统。
如图5所示,为对应本发明实施例一公开的信息判别系统100的示意框图,主要包括:
信息收集模块101,用于基于网络爬虫技术,检索并收集互联网上传统媒体和社交媒体的热点话题对应的网页信息,并生成对应的传统媒体信息库和社交媒体信息库;
信息预处理模块102,用于对所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息分别进行数据分析处理,分别生成利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;其中,相同主题下不同影响力的传统媒体数据和社交媒体数据分别用不同类别数据进行表示;
特征集合生成模块103,用于基于所述训练集数据进行主题建模获取主题与关键词文档,利用所述主题与关键词文档建立对应所述传统媒体数据的主题特征集合,及建立对应所述社交媒体数据的关键词特征集合;
分类器训练模块104,用于利用所述主题特征集合和关键词特征集合训练分类器,分别得到传统媒体分类器和社交媒体分类器,并通过所述传统媒体分类器和社交媒体分类器分别基于每一类别数据按照热度进行分类,且每一个分类中按照时间先后顺序对当前分类中所包含的数据进行排列;
分类判别模块105,用于利用所述传统媒体分类器和社交媒体分类器对所述测试集数据进行分类判别,得到能够引发社交媒体报道的所述传统媒体数据,和/或得到能够引发传统媒体报道的社交媒体数据。
在上述本发明实施例公开的信息判别系统中,优选的,上述公开的所述信息收集模块101包括:
检索单元,用于基于网络爬虫技术,检索互联网上传统媒体和社交媒体的热点话题;
收集单元,用于收集对应所述热点话题的传统媒体网页信息和社交媒体网页信息;
第一生成单元,用于按时间先后顺序对每条所述传统媒体网页信息和社交媒体网页信息进行存储,并生成对应的传统媒体信息库和社交媒体信息库;其中,所述网页信息中包括时间信息,来源信息,原始URL,著者信息和正文信息。
在上述本发明实施例公开的信息判别系统中,优选的,上述公开的信息预处理模块102包括:
网页解析单元,用于解析所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息中的HTML标签,得到对应的传统媒体数据和社交媒体数据;
格式归一化单元,用于对所述传统媒体数据和社交媒体数据进行格式归一化,利用类别数据标记传统媒体数据和社交媒体数据,并针对每类别数据划分训练集数据和测试集数据;其中,对同一主题下传统媒体数据和社交媒体数据,利用第一类别数据表示发文时间早的数据,利用第二类别数据表示发文时间晚的数据;
处理单元,用于对每类别数据划分的所述训练集数据和测试集数据的数据进行文本分词,命名实体识别和去粒度化操作,得到传统媒体和社交媒体数据集合。
在上述本发明实施例公开的信息判别系统中,优选的,上述公开的信息预处理模块103包括:
识别单元,用于识别训练集数据中传统媒体数据和社交媒体数据的主题信息,获取所述主题信息对应的关键词集合,生成主题与关键词文档;
第一建立单元,用于针对所述传统媒体数据,提取所述主题与关键词文档中同一关键词下的主题,构建所述关键词的索引与每个主题信息索引的映射关系,建立对应的主题特征集合;
第二建立单元,用于针对所述社交媒体数据,提取所述主题与关键词文档中的每个主题下的所有关键词,将每个关键词作为特征值序号,建立对应的关键词特征集合。
在本发明实施例公开的信息判别系统中,优选的,所述第一建立单元包括:
第一生成子单元,用于针对所述传统媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词特征表;
遍历子单元,用于遍历所述关键词特征表和所述主题与关键词文档,得到每个所述关键词所对应的主题;
构建子单元,用于构建每个所述关键词的索引与所对应的主题的索引的映射关系,生成对应的关键词和主题索引映射表,其中,一个关键词对应一个映射关系和/或对应多个映射关系;
第一建立子单元,用于将所述关键词和主题索引映射表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述传统媒体数据,将所述关键词对应的主题索引作为特征指序号,并建立对应的主题特征集合;
在本发明实施例公开的信息判别系统中,优选的,所述第二建立单元包括:
第二生成子单元,用于针对所述社交媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词文档;
第三生成子单元,用于对所述关键词文档中的内容进行去重复和去无用词操作,生成关键词特征表;
第二建立子单元,用于将所述关键词特征表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述社交媒体数据,将所述关键词的索引作为特征指序号,并建立对应的关键词特征集合。
需要说明的是,上述本发明实施例公开的信息判别系统中的各个单元和模块,其具体执行过程的原理与上述本发明实施例公开的信息判别方法对应,可参看上述记载,这里不再进行赘述。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种信息判别方法及系统,通过基于网络爬虫技术,检索并收集传统媒体和社交媒体的热点信息对应的网页信息,并对收集到的网页信息进行处理,得到类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;基于训练集数据进行主题建模获取主题与关键词文档,并建立对应传统媒体数据的主题特征集合和对应社交媒体数据的关键词特征集合;利用主题特征集合和关键词特征集合训练分类器,通过得到的传统媒体分类器和社交媒体分类器对测试集数据进行分类判别,得到能够引发社交媒体报道的传统媒体数据,和/或能够引发传统媒体报道的社交媒体数据。由此采用对多个媒体的监测,能够更全面,更快的分析和预测舆情发展的趋势。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种信息判别方法,其特征在于,所述方法包括:
基于网络爬虫技术,从实时热点排行榜中确定热点信息,检索并收集互联网上传统媒体和社交媒体的热点信息对应的网页信息,并生成对应的传统媒体信息库和社交媒体信息库;所述传统媒体包括从事新闻工作的媒体平台,所述社交媒体为供用户撰写和分享信息的网络虚拟平台;
对所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息分别进行数据分析处理,将网页信息中的非有效信息摒弃,保留有效信息,并分别生成利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;
其中,相同主题下不同影响力的传统媒体数据和社交媒体数据分别用不同类别数据进行表示;
基于所述训练集数据进行主题建模获取主题与关键词文档,利用所述主题与关键词文档建立对应所述传统媒体数据的主题特征集合,及建立对应所述社交媒体数据的关键词特征集合;
利用所述主题特征集合和关键词特征集合训练分类器,分别得到传统媒体分类器和社交媒体分类器,并通过所述传统媒体分类器和社交媒体分类器分别基于每一类别数据按照热度进行分类,且每一个分类中按照时间先后顺序对当前分类中所包含的数据进行排列;
利用所述传统媒体分类器和社交媒体分类器对所述测试集数据进行分类判别,得到能够引发社交媒体报道的所述传统媒体数据,和/或得到能够引发传统媒体报道的社交媒体数据。
2.根据权利要求1所述的方法,其特征在于,所述基于网络爬虫技术,从实时热点排行榜中确定热点信息,检索并收集互联网上传统媒体和社交媒体的热点话题对应的网页信息,并生成对应的传统媒体信息库和社交媒体信息库,包括:
基于网络爬虫技术,检索互联网上传统媒体和社交媒体的热点话题;
收集对应所述热点话题的传统媒体网页信息和社交媒体网页信息;
按时间先后顺序对每条所述传统媒体网页信息和社交媒体网页信息进行存储,并生成对应的传统媒体信息库和社交媒体信息库;
其中,所述网页信息中包括时间信息,来源信息,原始URL,著者信息和正文信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息分别进行数据分析处理,分别生成利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合,包括:
解析所述传统媒体信息库中存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息中的HTML标签,将网页信息中的非有效信息摒弃,保留有效信息,得到对应的传统媒体数据和社交媒体数据;
对所述传统媒体数据和社交媒体数据进行格式归一化,利用类别数据标记传统媒体数据和社交媒体数据,并针对每类别数据划分训练集数据和测试集数据;
其中,对同一主题下传统媒体数据和社交媒体数据,利用第一类别数据表示发文时间早的数据,利用第二类别数据表示发文时间晚的数据;
对每类别数据划分的所述训练集数据和测试集数据的数据进行文本分词,命名实体识别和去粒度化操作,得到传统媒体和社交媒体数据集合。
4.根据权利要求1所述的方法,其特征在于,所述基于所述训练集数据进行主题建模获取主题与关键词文档,利用所述主题与关键词文档建立对应所述传统媒体数据的主题特征集合,及建立对应所述社交媒体数据的关键词特征集合,包括:
识别训练集数据中传统媒体数据和社交媒体数据的主题信息,获取所述主题信息对应的关键词集合,生成主题与关键词文档;
针对所述传统媒体数据,提取所述主题与关键词文档中同一关键词下的主题,构建所述关键词的索引与每个主题信息索引的映射关系,建立对应的主题特征集合;
针对所述社交媒体数据,提取所述主题与关键词文档中的每个主题下的所有关键词,将每个关键词作为特征值序号,建立对应的关键词特征集合。
5.根据权利要求4所述的方法,其特征在于,所述针对所述传统媒体数据,获取所述主题与关键词文档中同一关键词下的主题,构建所述关键词的索引与每个主题信息索引的映射关系,建立对应的主题特征集合,包括:
针对所述传统媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词特征表;
遍历所述关键词特征表和所述主题与关键词文档,得到每个所述关键词所对应的主题;
构建每个所述关键词的索引与所对应的主题的索引的映射关系,生成对应的关键词和主题索引映射表,其中,一个关键词对应一个映射关系和/或对应多个映射关系;
将所述关键词和主题索引映射表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述传统媒体数据,将所述关键词对应的主题索引作为特征指序号,并建立对应的主题特征集合。
6.根据权利要求4所述的方法,其特征在于,所述针对所述社交媒体数据,提取所述主题与关键词文档中的每个主题下的所有关键词,将每个关键词作为特征值序号,建立对应的关键词特征集合,包括:
针对所述社交媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词文档;
对所述关键词文档中的内容进行去重复和去无用词操作,生成关键词特征表;
将所述关键词特征表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述社交媒体数据,将所述关键词的索引作为特征指序号,并建立对应的关键词特征集合。
7.一种信息判别系统,其特征在于,所述系统包括:
信息收集模块,用于基于网络爬虫技术,从实时热点排行榜中确定热点信息,检索并收集互联网上传统媒体和社交媒体的热点话题对应的网页信息,并生成对应的传统媒体信息库和社交媒体信息库;所述传统媒体包括从事新闻工作的媒体平台,所述社交媒体为供用户撰写和分享信息的网络虚拟平台;
信息预处理模块,用于对所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息分别进行数据分析处理,将网页信息中的非有效信息摒弃,保留有效信息,并分别生成利用类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;其中,相同主题下不同影响力的传统媒体数据和社交媒体数据分别用不同类别数据进行表示;
特征集合生成模块,用于基于所述训练集数据进行主题建模获取主题与关键词文档,利用所述主题与关键词文档建立对应所述传统媒体数据的主题特征集合,及建立对应所述社交媒体数据的关键词特征集合;
分类器训练模块,用于利用所述主题特征集合和关键词特征集合训练分类器,分别得到传统媒体分类器和社交媒体分类器,并通过所述传统媒体分类器和社交媒体分类器分别基于每一类别数据按照热度进行分类,且每一个分类中按照时间先后顺序对当前分类中所包含的数据进行排列;
分类判别模块,用于利用所述传统媒体分类器和社交媒体分类器对所述测试集数据进行分类判别,得到能够引发社交媒体报道的所述传统媒体数据,和/或得到能够引发传统媒体报道的社交媒体数据。
8.根据权利要求7所述的系统,其特征在于,所述信息预处理模块包括:
网页解析单元,用于解析所述传统媒体信息库存储的传统媒体网页信息,及所述社交媒体信息库中存储的社交媒体网页信息中的HTML标签,将网页信息中的非有效信息摒弃,保留有效信息,得到对应的传统媒体数据和社交媒体数据;
格式归一化单元,用于对所述传统媒体数据和社交媒体数据进行格式归一化,利用类别数据标记传统媒体数据和社交媒体数据,并针对每类别数据划分训练集数据和测试集数据;其中,对同一主题下传统媒体数据和社交媒体数据,利用第一类别数据表示发文时间早的数据,利用第二类别数据表示发文时间晚的数据;
处理单元,用于对每类别数据划分的所述训练集数据和测试集数据的数据进行文本分词,命名实体识别和去粒度化操作,得到传统媒体和社交媒体数据集合。
9.根据权利要求7所述的系统,其特征在于,所述特征集合生成模块包括:
识别单元,用于识别训练集数据中传统媒体数据和社交媒体数据的主题信息,获取所述主题信息对应的关键词集合,生成主题与关键词文档;
第一建立单元,用于针对所述传统媒体数据,提取所述主题与关键词文档中同一关键词下的主题,构建所述关键词的索引与每个主题信息索引的映射关系,建立对应的主题特征集合;
第二建立单元,用于针对所述社交媒体数据,提取所述主题与关键词文档中的每个主题下的所有关键词,将每个关键词作为特征值序号,建立对应的关键词特征集合。
10.根据权利要求9所述的系统,其特征在于,所述第一建立单元包括:
第一生成子单元,用于针对所述传统媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词特征表;
遍历子单元,用于遍历所述关键词特征表和所述主题与关键词文档,得到每个所述关键词所对应的主题;
构建子单元,用于构建每个所述关键词的索引与所对应的主题的索引的映射关系,生成对应的关键词和主题索引映射表,其中,一个关键词对应一个映射关系和/或对应多个映射关系;
第一建立子单元,用于将所述关键词和主题索引映射表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述传统媒体数据,将所述关键词对应的主题索引作为特征指序号,并建立对应的主题特征集合;
所述第二建立单元包括:
第二生成子单元,用于针对所述社交媒体数据,提取所述主题与关键词文档中每个主题下的所有关键词,生成关键词文档;
第三生成子单元,用于对所述关键词文档中的内容进行去重复和去无用词操作,生成关键词特征表;
第二建立子单元,用于将所述关键词特征表与所述训练集数据、所述测试集数据进行一一匹配,对匹配到关键词的所述社交媒体数据,将所述关键词的索引作为特征指序号,并建立对应的关键词特征集合。
CN201610128564.2A 2016-03-08 2016-03-08 一种信息判别方法和系统 Active CN105808722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610128564.2A CN105808722B (zh) 2016-03-08 2016-03-08 一种信息判别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610128564.2A CN105808722B (zh) 2016-03-08 2016-03-08 一种信息判别方法和系统

Publications (2)

Publication Number Publication Date
CN105808722A CN105808722A (zh) 2016-07-27
CN105808722B true CN105808722B (zh) 2020-07-24

Family

ID=56467798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610128564.2A Active CN105808722B (zh) 2016-03-08 2016-03-08 一种信息判别方法和系统

Country Status (1)

Country Link
CN (1) CN105808722B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102976A (zh) * 2017-03-23 2017-08-29 北京大学 基于微博的娱乐新闻自动构建技术与系统
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN110737821B (zh) * 2018-07-03 2022-06-07 百度在线网络技术(北京)有限公司 相似事件查询的方法、装置、存储介质和终端设备
CN109409619A (zh) * 2018-12-19 2019-03-01 泰康保险集团股份有限公司 舆情动向的预测方法、装置、介质及电子设备
CN110727845B (zh) * 2019-08-27 2023-12-22 达观数据有限公司 一种基于爬虫文本的最近发文优先处理方法及系统
CN111680072B (zh) * 2020-05-07 2023-12-08 国家计算机网络与信息安全管理中心 基于社交信息数据的划分系统及方法
CN111611379A (zh) * 2020-05-18 2020-09-01 深圳证券信息有限公司 一种文本信息分类方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN103455705A (zh) * 2013-05-24 2013-12-18 中国科学院自动化研究所 网络社会事件的协同关联跟踪及全局态势分析与预测系统
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN103955505A (zh) * 2014-04-24 2014-07-30 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246670B (zh) * 2012-02-09 2016-02-17 深圳市腾讯计算机系统有限公司 微博排序、搜索、展示方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN103455705A (zh) * 2013-05-24 2013-12-18 中国科学院自动化研究所 网络社会事件的协同关联跟踪及全局态势分析与预测系统
CN103955505A (zh) * 2014-04-24 2014-07-30 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统

Also Published As

Publication number Publication date
CN105808722A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105808722B (zh) 一种信息判别方法和系统
Mann et al. Bibliometric impact measures leveraging topic analysis
Varshney et al. A unified approach for detection of Clickbait videos on YouTube using cognitive evidences
CN106570171B (zh) 一种基于语义的科技情报处理方法及系统
Das et al. Text mining and topic modeling of compendiums of papers from transportation research board annual meetings
Srinath et al. Privacy at scale: Introducing the PrivaSeer corpus of web privacy policies
CN102207936B (zh) 用于提示电子文档内容变更的方法和系统
US9189470B2 (en) Generation of explanatory summaries
CN105279277A (zh) 知识数据的处理方法和装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
KR20130022042A (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
Huang et al. Improving biterm topic model with word embeddings
Amato et al. Searching and annotating 100M Images with YFCC100M-HNfc6 and MI-File
KR101631032B1 (ko) 비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법
Peng et al. Trending sentiment-topic detection on twitter
JP4703487B2 (ja) 画像分類方法及び装置及びプログラム
Schulz et al. Evaluating multi-label classification of incident-related tweets
Moin et al. Framework for rumors detection in social media
Carvalho et al. Towards intelligent mining of public social networks' influence in society
Miranda Ackerman Extracting a causal network of news topics
Al-Dyani et al. Challenges of event detection from social media streams
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
KR102180329B1 (ko) 가짜 뉴스 판단 시스템
Coll Ardanuy et al. Person-centric mining of historical newspaper collections

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant