CN104376089A

CN104376089A - 一种数据筛选的方法

Info

Publication number: CN104376089A
Application number: CN201410667074.0A
Authority: CN
Inventors: 江潮; 贺建华; 张光凌
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-11-20
Filing date: 2014-11-20
Publication date: 2015-02-25
Anticipated expiration: 2034-11-20
Also published as: CN104376089B

Abstract

本发明提供了一种数据筛选的方法，包括：从第一数据项的第一内容中筛选多个第一关键词，所述第一数据项为多个数据项中的一个；将筛选的第一关键词与所述多个数据项的第一内容逐个进行首次匹配，根据匹配结果将所述多个数据项分成匹配程度高和低的两部分；从第一数据项的第二内容中筛选多个第二关键词，将筛选的第二关键词与所述匹配程度低的数据项的第二内容逐个进行匹配，根据匹配结果将所述匹配程度低的数据项多个数据项分成两部分；其中，所述第一内容的数据量小于第二内容的数据量；将两次匹配后，各次匹配度高的多个数据项的作为一个集合，并对集合内的数据项聚类分析。本发明提高了定位关注度高的作为网络事件的数据项的速度。

Description

一种数据筛选的方法

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据筛选的方法。

背景技术

随着互联网技术的飞速发展，带动了信息传播的速度，使得网络舆情信息的发展非常迅猛，不论是国内还是国际的重大事件，都能很快形成舆论信息。各种各样的新闻资讯类网站在互联网也十分活跃，有自己撰写舆情信息发表的，也有转载其他网站舆情信息的，同一事件的舆情信息在网络中被迅速传播，进而产生很大的舆论压力。为了监测网络事件的发展，迫切需要一种舆情信息转载或重复的分析方法，来统计分析某事件被网络转载或重复的次数，为网络舆情监测服务。

随着互联网技术的飞速发展，各种各样的新闻资讯类网站在互联网十分活跃，为了监测网络事件的发展，需要快速的找出当前网络中关注度最高的事件。

发明内容

本发明旨在提供一种数据筛选的方法，以解决上述找出当前网络中关注度最高的事件的效率较低的问题。

在本发明的实施例中，提供了一种数据筛选的方法，包括：从第一数据项的第一内容中筛选多个第一关键词，所述第一数据项为多个数据项中的一个；

将筛选的第一关键词与所述多个数据项的第一内容逐个进行首次匹配，根据匹配结果将所述多个数据项分成匹配程度高和低的两部分；

从第一数据项的第二内容中筛选多个第二关键词，将筛选的第二关键词与所述匹配程度低的数据项的第二内容逐个进行匹配，根据匹配结果将所述匹配程度低的数据项多个数据项分成两部分；

其中，所述第一内容的数据量小于第二内容的数据量；

将两次匹配后，各次匹配度高的多个数据项的作为一个集合，并对集合内的数据项聚类分析。

优选地，所述首次匹配之前，还包括：将筛选的第一关键词与所述多个数据项的第一内容进行模糊匹配，在所述多个数据项中，去除部分数据项；

采用模糊匹配后的多个数据项执行后续的步骤。

优选地，所述多个数据项的第一内容为每个数据项的第一内容进行关键词筛选后的关键词列表的集合；所述多个数据项的第二个内容为每个数据项的第二内容进行关键词筛选后的关键词列表的集合。

优选地，还包括：所述数据项为舆情内容，包括：作为第一内容的标题和作为第二内容的正文。

优选地，所述首次匹配过程中，将匹配度不小于80％的数据项作为匹配程度高的数据项，将匹配度小于80％的数据项作为匹配程度低的数据项。

优选地，所述与第二内容进行逐个匹配过程中，将匹配度不小于60％的数据项作为一部分，将匹配度小于60％的数据项作为另一部分。

优选地，还包括：将所述匹配度不小于80％的数据项和匹配度不小于60％的数据项作为一个集合，进行所述聚类分析。

优选地，所述聚类分析包括：

统计集合中的高频词汇、同时分析词汇的中的事件、地区和开始时间；

还包括：统计聚类分析中数据项的数量、并记录赋予ID保存。

优选地，重复执行数据筛选的过程，找到每个地区经过聚类分析后，数据项数量最高的事件。

通过上述的过程，采用每个数据项中较小的数据量先进行分析匹配，从而找出匹配度高的可以认为是同一事件的数据项，对于匹配度低的数据项，再通过较大的数据量进行匹配分析，从而快速确定是否为同一事件的数据项。采用上述步骤，可以通过电子设备快速筛选出匹配度较高的同一事件的数据项，从而提高了定位关注度高的作为网络事件的数据项的速度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了实施例一的流程图；

图2示出了实施例二的流程图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

参见图1，本发明的实施例包括：

S11：从第一数据项的第一内容中筛选多个第一关键词，所述第一数据项为多个数据项中的一个；

S12：将筛选的第一关键词与所述多个数据项的第一内容逐个进行首次匹配，根据匹配结果将所述多个数据项分成匹配程度高和低的两部分；

S13：从第一数据项的第二内容中筛选多个第二关键词，将筛选的第二关键词与所述匹配程度低的数据项的第二内容逐个进行匹配，根据匹配结果将所述匹配程度低的数据项多个数据项分成两部分；

其中，所述第一内容的数据量小于第二内容的数据量；

S14：将两次匹配后，各次匹配度高的多个数据项的作为一个集合，并对集合内的数据项聚类分析。

通过上述的过程，采用每个数据项中较小的数据量先进行分析匹配，从而找出匹配度高的可以认为是同一事件的数据项，对于匹配度低的数据项，再通过较大的数据量进行匹配分析，从而确定是否为同一事件的数据项。

采用上述步骤，可以通过电子设备快速筛选出匹配度较高的同一事件的数据项，从而提高了定位关注度高的作为网络事件的数据项的速度。

在本申请中，所述数据项为舆情内容，也称为舆情信息，包括：作为第一内容的标题和作为第二内容的正文。

优选地，上述步骤中，可以从各个新闻资讯类网站抓取舆情信息保存到数据库；每一个舆情作为一个数据项。

抓取舆情信息包括：标题、正文、采集点、数据来源待定、发布时间等。

其中，实施例中的第一内容，包括舆情信息中的标题；实施例中所指的第二内容，包括实施例中的正文。

筛选第一关键词的过程包括：

1、从数据库中读取一则舆情信息，名称为舆情信息一，即实施例中的第一数据项；

2、对该舆情信息的标题做分词处理，获取标题的分词列表，名称为分词列表A；作为第一内容的第一关键词。同时去除分词列表A中的高频词汇(一类无意义的语气叹词、副词、介词、连接词、助词等等)。

得到第一关键词后，即可执行实施例中的首次匹配的过程；当然，也可以对舆情信息一的内容，即实施例中第一数据项的第二内容，同时做分词处理。作为分词列表B，即多个第二关键词；同时去除分词列表B中的高频词汇(一类无意义的语气叹词、副词、介词、连接词、助词等等)。

得到分词列表A后，可执行实施例中的首次匹配的过程。

优选地，在首次匹配之前，还包括：将筛选的多个第一关键词与所述多个数据项的第一内容进行模糊匹配，在所述多个数据项中，去除部分数据项；采用模糊匹配后的多个数据项执行后续的步骤。

经过上述模糊匹配后，可筛选出一部分舆情信息，缩小后续进行匹配的匹配范围。在实施例中，采用如下的技术方案。

例如：3、然后用去除高频词汇的分词列表A去数据库模糊匹配，查询得出一个舆情信息的列表，名称为舆情信息列表一；

循环遍历舆情信息列表一，依次对舆情信息列表一的每一则舆情信息，名称为舆情一，即实施例中的S12的多个数据项的第一内容，做如下首次匹配分析：

1)、对舆情一的标题做分词处理，获取分词列表，去除高频词汇，名称为分词列表C；即S12中的多个数据项的第一内容；

2)、分词列表A与分词列表C进行配置，统计两个列表中的重复词汇，重复词汇在80％以上，则认为两则舆情信息在讲述一个事件，保存两则舆情信息的ID编号；即将匹配度不小于80％的数据项作为匹配程度高的数据项，将匹配度小于80％的数据项作为匹配程度低的数据项。

如果两则舆情信息的标题词汇匹配不在80％以上，则做以下正文分析。

4、对舆情一的正文做分词处理，获取分词列表，去除高频词汇，名称为分词列表D；即S13中的匹配程度低的数据项的第二内容。

分词列表B与分词列表D进行匹配，统计两个列表中的重复词汇，重复词汇在60％以上，则认为两则舆情信息在讲述一个事件，保存两则舆情信息的ID编号。

5、所述匹配度不小于80％的数据项和匹配度不小于60％的数据项作为一个集合，进行所述聚类分析。

在S12中，所述多个数据项的第一内容为每个数据项的第一内容进行关键词筛选后的关键词列表的集合；

在S13中，所述多个数据项的第二个内容为每个数据项的第二内容进行关键词筛选后的关键词列表的集合。

所述聚类分析包括：

重复执行数据筛选的过程，找到每个地区经过聚类分析后，数据项数量最高的事件。

优选地，聚类分析可采用以下实施例的方式：

1)统计重复度合格的舆情信息ID编号

统计这一事件的重复度数量(即重复度合格的舆情信息条数)。

2)基于中文分词的事件关键词分析

统计这一事件下各个舆情信息标题的词汇频率；

基于标题分析中对舆情信息标题的分词列表，统计词汇频率

将词汇频率最高的前5个词，作为该事件的关键词。

3)分析事件的开始时间

统计这一事件下各个舆情信息中最早的发布时间。

4)基于中文分词的事件所属地区分析

统计这一事件下各个舆情信息的标题和正文中地区词汇出现的频率；

基于标题分析和正文分析中的标题分词列表和正文分词，统计地区词汇频率；

将词汇频率最高的地区词汇，作为该事件的所属地区。

5)保存事件

在数据库中保存该事件，包括事件的关键词、开始时间、重复度数量、舆情信息ID编号列表等。

在进行地区匹配、关键词匹配之前，还需要事先建立用于聚类分析以及关键词匹配的词库。

1.收集中文词库

a)收集中文词库；

b)将中文词库保存为UTF-8+BOM格式的文本信息；

c)加载中文词库。

2.收集高频词汇

a)收集高频词汇(一类无意义的语气叹词、副词、介词、连接词、助词等等)；

b)将高频词汇列表保存到数据库。

3.收集地区词库

a)收集国家名称及所属国家的地区词库；地名？北京上海湖北

b)将地区词库保存为UTF-8+BOM格式的文本信息；

c)加载地区词库。

通过上述步骤，本发明的实施例可以实现以下效果：

1、分析统计出舆情信息转载和重复的次数。

分析和统计出舆情信息转载和重复的次数，为网络舆情监测服务，防止反面事件的迅速扩散提供帮助。

2、为舆情监测等其他系统提供舆情信息转载和重复的数据。

3、为舆情信息进行自动聚类，并做事件保存，有利于政府、企业等相关部门对事件进行管理和监控，防止事件扩大化。

在本发明的实施例中，除了上述实施例一的方案之外，还可以采用实施例二的方案，具体参见以下步骤：

[001a]建立中文词库

[001b]将中文词库保存为UTF-8+BOM格式的文本信息

[001c]加载中文词库

[002a]收集高频词汇(一类无意义的语气叹词、副词、介词、连接词、助词等等)

[002b]将高频词汇保存到数据库

[003a]建立地区词库

[003b]将地区词库保存为UTF-8+BOM格式的文本信息

[003c]加载地区词库

[004a]从各个新闻资讯类网站抓取舆情信息保存到数据库

[004b]抓取舆情信息包括：标题、正文、采集点、数据来源、发布时间等

[005a]标题分析：

[005b]从数据库中读取一则舆情信息，名称为舆情信息一

[005c]对该舆情信息的标题做分词处理，获取标题的分词列表，名称为分词列表A

[00Sd]去除分词列表A中的高频词汇

[005e]对该舆情信息的正文做分词处理，获取正文的分词列表，名称为分词列表B

[005f]去除分词列表B中的高频词汇

[005g]然后用去除高频词汇的分词列表A去数据库模糊匹配，查询得出一个舆情信息的列表，名称为舆情信息列表一

[005h]循环遍历舆情信息列表一，依次对舆情信息列表一的每一则舆情信息，名称为舆情一，做如下分析：

[005i]对舆情一的标题做分词处理，获取分词列表，去除高频词汇，名称为分词列表C

[005j]分词列表A与分词列表C进行配置，统计两个列表中的重复词汇，重复词汇在80％以上，则认为两则舆情信息在讲述一个事件，保存两则舆情信息的ID编号

[005k]如果两则舆情信息的标题词汇匹配不在80％以上，则做以下正文分析

[006a]正文分析：

[006b]对舆情一的标题做分词处理，获取分词列表，去除高频词汇，名称为分词列表D

[006c]分词列表B与分词列表D进行匹配，统计两个列表中的重复词汇，重复词汇在60％以上，则认为两则舆情信息在讲述一个事件，保存两则舆情信息的ID编号

[007a]自动聚类：

[007b]统计重复度合格的舆情信息ID编号的数量，做为该事件的重复度数量

[007c]统计这一事件下各个舆情信息标题的词汇频率，将词汇频率最高的前5个词，作为该事件的关键词

[007d]统计这一事件下各个舆情信息中最早的发布时间，做为该事件的开始时间

[007e]统计这一事件下各个舆情信息的标题和正文中地区词汇出现的频率，将词汇频率最高的地区词汇，作为该事件的所属地区

[007f]保存该事件，包括事件的关键词、开始时间、重复度数量、舆情信息ID编号列表等

[008a]对数据库中没有做基于中文分析重复度分析及自动聚类的舆情信息做分析

实施例二实现的效果与实施例一相同，都可以通过采用较少的作为标题的关键词实现事件的比对分析，从而提高快速对事件的定位、统计，以确定网络对事件的关注度，以及事件的发生日期等信息。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据筛选的方法，其特征在于，包括：

从第一数据项的第一内容中筛选多个第一关键词，所述第一数据项为多个数据项中的一个；

其中，所述第一内容的数据量小于第二内容的数据量；

2.根据权利要求1所述的方法，其特征在于，所述首次匹配之前，还包括：

将筛选的第一关键词与所述多个数据项的第一内容进行模糊匹配，在所述多个数据项中，去除部分数据项；

采用模糊匹配后的多个数据项执行后续的步骤。

3.根据权利要求2所述的方法，其特征在于，所述多个数据项的第一内容为每个数据项的第一内容进行关键词筛选后的关键词列表的集合；

所述多个数据项的第二个内容为每个数据项的第二内容进行关键词筛选后的关键词列表的集合。

4.根据权利要求3所述的方法，其特征在于，还包括：所述数据项为舆情内容，包括：作为第一内容的标题和作为第二内容的正文。

5.根据权利要求4所述的方法，其特征在于，所述首次匹配过程中，将匹配度不小于80％的数据项作为匹配程度高的数据项，将匹配度小于80％的数据项作为匹配程度低的数据项。

6.根据权利要求5所述的方法，其特征在于，所述与第二内容进行逐个匹配过程中，将匹配度不小于60％的数据项作为一部分，将匹配度小于60％的数据项作为另一部分。

7.根据权利要求6所述的方法，其特征在于，还包括：将所述匹配度不小于80％的数据项和匹配度不小于60％的数据项作为一个集合，进行所述聚类分析。

8.根据权利要求7所述的方法，其特征在于，所述聚类分析包括：

9.根据权利要求8所述的方法，其特征在于，重复执行数据筛选的过程，找到每个地区经过聚类分析后，数据项数量最高的事件。