CN104679875A

CN104679875A - 一种基于数字报纸的资讯数据分类方法

Info

Publication number: CN104679875A
Application number: CN201510104637.XA
Authority: CN
Inventors: 姚洲鹏; 陈法涌; 陈嘉松; 吴云峰
Original assignee: Hangzhou Fan Wen Science And Technology Ltd
Current assignee: Hangzhou Fan Wen Science And Technology Ltd
Priority date: 2015-03-10
Filing date: 2015-03-10
Publication date: 2015-06-03
Anticipated expiration: 2035-03-10
Also published as: CN104679875B

Abstract

本发明涉及基于数字报纸的资讯数据分类方法。目的是提供一种基于数字报纸的资讯数据分类方法，使得采集到的数据能够自动进行分类。方案：分析并提取数字报纸各版面的出版日期、版面名称、版次信息、每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图；将提取的信息入至数据库中，并在数据库内部建立关联关系；汇聚每种报纸一段时间内的数据，针对同一种报纸中版面名称相同的版面进行重名合并；根据报纸内容的不同设定不同的类别，在各类别下设定若干关键词，建立起类别与关键词之间的对应关系；按对应关系，将数据库中、版面名称包含某一关键词的版面内的所有文章归类至对应的类别下。本发明用于新闻资讯数据的自动分类处理。

Description

一种基于数字报纸的资讯数据分类方法

技术领域

本发明涉及一种基于数字报纸的资讯数据分类方法，主要用于新闻资讯数据的自动分类处理。

背景技术

数字与跨媒体出版系统的出现，并不仅仅是一场重大的技术革命，对传统的媒体思维和经营模式的推动也是直接的。但是，传统媒体的数字化进程存在的缺陷、局限与不足也是明显的，必须在进一步发展的过程中加以完善。大多数媒体并没有把网络技术作为转型升级的重要抓手，依然停留在当年对手机报纸和电子版的认识层面。

新闻媒体同样处在网络信息爆炸的时代，平均每天新增数十万条新闻报道及数字页面，编辑记者要快速的定位自己所需的信息已经很难，浏览网页、复制、粘贴等重复工作需要占用每天60％以上的时间。

信息量的浩瀚，让人们越来越离不开搜索引擎的同时，人们对搜索引擎的智能化、个性化的要求也变的越来越高，现有的搜索引擎已经不能满足人们日常的信息获取需求，他们需要的是更加精准，更加个性化的信息和资讯。

发明内容

本发明的目的在于提供一种基于数字报纸的资讯数据分类方法，使得采集到的数据能够自动进行处理，最终实现数据的精准分类，同时也为后期的数据精准化和个性化推送打好基础。

本发明所采用的技术方案是：一种基于数字报纸的资讯数据分类方法，包括：

A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息，以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图；

B、将提取的信息入至数据库中，并根据出版日期和版次信息在数据库内部建立关联关系；

C、按照上述方法，利用数据库中的时间维度汇聚每种报纸一段时间内的数据，基于全文检索引擎技术，针对同一种报纸中版面名称相同的版面进行重名合并处理；

D、根据报纸内容的不同设定不同的类别，然后在各类别下设定若干关键词，建立起类别与关键词之间的对应关系；

E、按照步骤D的对应关系，将数据库中、版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。

所述的基于数字报纸的资讯数据分类方法，还包括：

F、根据用户需求设置过滤条件，并基于全文检索引擎技术过滤干扰信息，生成最终的数据集合。

所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。

所述根据报纸内容的不同设定不同的类别，然后在各类别下设定若干关键词，建立起类别与关键词之间的对应关系包括：

针对每种报纸的不同属性，设定若干大类别，然后针对每个大类别设定若干细分类别；

在各细分类别下设定若干关键词，建立起细分类别与关键词之间的对应关系。

一种基于数字报纸的资讯数据分类方法，包括：

D、根据报纸内容的不同设定不同的类别，然后在各类别下设定若干关键词，再针对每个关键词建立一个对应的专用分词库，建立起类别、关键词和专用分词库之间的对应关系；所述分词库由若干版面名称组成，且位于同一专用分词库内的版面名称包含有与该分词库对应的关键词；

E、将所提取的版面名称与专用分词库内存储的版面名称进行比对，对于版面名称能够在专用分词库内找到匹配项的版面，按照步骤D的对应关系，将该版面内的所有文章归类至与该分词库对应的类别下；对于版面名称无法在专用分词库内找到匹配项的版面，按照版面名称包含有关键词的对应关系，将其版面名称与至少一个关键词对应，然后按照步骤D的对应关系，将该版面内的所有文章归类至与该关键词对应的类别下，同时在该关键词对应的专用分词库内加入该版面名称以增加专用分词库内的分词量。

所述的基于数字报纸的资讯数据分类方法，还包括：

本发明有益效果在于：

1、从数据的源头开始，对需要采集的数字报纸先进行预处理分析，过滤干扰信息，纠正数据源，再进入矩阵式数据模型中自动筛检、过滤、分类、标签等工艺流程，打通不同数据源之间的信息孤岛，建立数据关系，最后套用规则库中不同规则配置信息(即过滤条件，包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法)和专用分词库，自动组织形成不同的数据集合，最终实现数据的精准分类。

2、传统互联网上面的分词库是由用户输入，系统自动抓取记录，通过记录的数据生成新的分词。但此类分词库和分词的方式是不能满足数据分类中的应用，很难区分数据内容中的地域、属性中的子类别等信息，比如：“本地城事”中的社会新闻、民生、时政、要闻等信息；本发明采用独创的固态并发算法累积专用分词库，做一个简单的例子，我们将分词库中放入主分词A，主分词进入分词库源进行扫描并且自动生成并发子分词库A+a，A+b，A+c等，以这个形式的金字塔三角模型递增方式增加。所以在这个基础上，分词并发数的生成如同细胞分裂一样，每日通过对数据源的扫描，日积月累，目前核心分词库的分词量在增加干扰分词的控制并发的情况下已经超过30万个，使得本发明方法的分类效能更高。

3、通过第二代数据服务模式，基于特有的专业分词库，套用专用规则库数据，实现高度自定义、高精准化、按需推送数据的模式，特别是在快速形成突发事件专题等方面得到良好的应用。

4、利用专用分词库和规则库的数据，基于矩阵模型，通过数据的纵向和横向数据流，可以实现快速个性化数据合集的制作，并以多种组合提供数据集合。同时还提供多种工具来满足用户的个性化的需求，比如：一键转发、调整栏目数据源、字数控制、时间范围设定、多种关键词组合等。

附图说明

图1是本发明南方都市报为例的类别、关键词、专用分词库的对应关系树状图。

具体实施方式

为了对本发明的技术特征和实际效果进行更加清楚的说明，下面参照具体实施例对本发明的技术方案进行详细说明，但不能理解为对本发明的可实施范围的限定。

本发明主要基于海量新闻资讯数据的基础上，构建一套矩阵式的数据模型，让数据按照某种设定好的规则，实现自动分类处理。

实施例1：本实施例是以纵横两条线为轴心，实现数据的精准分类：

1、纵向：

1.1从互联网上，分析数字报纸页面结构，去除网页中的干扰信息，比如：广告等；

1.2然后分析出数字报纸版面列表结构，得到每个版面的对应网页地址，提取数字报纸各版面的出版日期、版面名称、版次等信息；数字报纸是以一个版面对应一个网页，每个版面又有多个热区组成，每个热区对应一篇文章；

1.3再进一步分析每个版面的热区，每个热区对应一篇文章，分析并提取每篇文章的标题、肩标题、副标题、作者、正文等信息；

1.4将提取的信息入至数据库中，并根据出版日期和版次信息在数据库内部建立关联关系；比如：根据出版日期和数据库中原有数字报的内容建立日期的关联，利用版次建立同一天同一份报纸不同版面之间的顺序关联等等；

1.5按照上述方法，根据报纸出版规律，每年一次重大改版，利用数据库中的时间维度汇聚每种报纸一段时间内的数据，基于全文检索引擎技术，针对同一种报纸中版面名称相同的版面进行重名合并处理；

1.6针对每种报纸的不同属性，设置10大类别，比如，都市类、财经类、法制类、科教人文类等；

1.7针对每个大类设定细类别，比如，都市类报纸设定：本地城事、关注中国、体育赛事等；

1.8在各细分类别下设定若干关键词，建立起细分类别与关键词之间的对应关系；比如：关键词“城事”是属于第1.7步讲到的细类别中的“本地城事”。所述关键词由人工根据报纸的版面名称进行提取，比如：某张报纸有城事、城事点击、社区城事、城事社区等版面名，那么就提取“城事”作为版面关键词；实际应用中，关键词的数量需要根据数字报纸版面名称的变化进行人工调整，以确保所有的版面名称均能找到对应的关键词；

1.9设定好以上规则后，系统开始每天监测采集下来的数据，按照步骤1.8的对应关系，将数据库中、版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。

2、横向

纵向的处理只是针对每个独立的报纸数据，在完成“纵向”内容处理之后，下一步的工作是开始打通不同报纸数据之间的关系；针对纵向内容中处理的细分类别，可以看作是不同的数据源，选择不同报纸的相同类别；

2.1自动过滤无用信息。比如：广告、无标题、标题无中文等；

2.2设置数据源的时间范围，不同时间内的数据是有很大区别的，按照1.5步原则，纵向数据处理是有时间控制的，基本是以一年为一个单位处理数据；

2.3设置标题和正文字数控制，主要是针对不同用户有不同需求而设计的；

2.4设置版面语法，比如：-(国内国际，国际)表示过滤版面名出现以上两个关键词的版面数据；

2.5设置文章语法，比如：～(+崔永元)表示文章中必须出现“崔永元”；

2.6设置标题语法，比如：-(国际简讯)表示过滤标题中出现“国际简讯”关键词的文章数据；

2.7系统把设置信息提交给全文检索引擎，去除干扰信息，生成最终的数据集合。为了进一步提升用户应用体验，还可以包括以下步骤：

2.8针对有效数据集合，进行标题关键词的提取，添加文章属性，作为网页SEO之用；

2.9提取文章概要内容，添加文章属性，作为网页SEO之用；

2.10针对数据集合，进行文章相似度合并，比如：同一件突发事件有不同的媒体报道，但又是不同的文章，系统自动聚类同一事件的报道文章。

实施例2：本实施例是以纵横两条线为轴心，实现数据的精准分类：

1、纵向：

1.6针对每种报纸的不同属性，设置大类别；

1.7针对每个大类设定细类别；

1.8在各细分类别下设定若干关键词，再针对每个关键词建立一个对应的专用分词库，建立起类别、关键词和专用分词库之间的对应关系；所述关键词由人工根据报纸的版面名称进行提取，比如：某张报纸有城事、城事点击、社区城事、城事社区等版面名，那么就提取“城事”作为版面关键词；实际应用中，关键词的数量和名称需要根据数字报纸版面名称的变化进行人工调整，以确保所有的版面名称均能找到对应的关键词；所述分词库由若干版面名称组成，且位于同一专用分词库内的版面名称包含有与该分词库对应的关键词；

如图1所示，本实施例以南方都市报为例进行说明，设置本地城事、关注中国、国际视野、财经金融、教育科技、体育赛事、时尚美食、地产楼市、汽车资讯、旅游风情、健康养生、人文地理、文化娱乐、家居生活、图解影像、阅读人生、时事评论、艺术博览、深度解读、天下见闻、百姓故事、广罗网事、公益慈善、特别报道、军事天地共25个大类别；以本地城事这一大类别为例，该大类别下设定了社会新闻、民生民声、区县新闻、法制警事、时政要闻5个细分类别；以社会新闻为例，该细分类别下设定了城事、城记、巡城、热闻、记者跑线、有事CALL我、读事共7个关键词；以城记为例，针对该关键词建立了一个专用分词库(包含的分词有城记、政文城记、城记实用等)，从而形成大类别、细分类别、关键词、专用分词库的对应关系树状图。

1.9将所提取的版面名称与专用分词库内存储的版面名称进行比对，对于版面名称能够在专用分词库内找到匹配项的版面，按照步骤1.8的对应关系，将该版面内的所有文章归类至与该分词库对应的类别下；例如，当所提取的版面名称为城记实用时，将该版面内的所有文章归类至社会新闻下的城记类别下。

对于版面名称无法在专用分词库内找到匹配项的版面，按照版面名称包含有关键词的对应关系，将其版面名称与至少一个关键词对应，然后按照步骤1.8的对应关系，将该版面内的所有文章归类至与该关键词对应的类别下，同时在该关键词对应的专用分词库内加入该版面名称以增加专用分词库内的分词量；例如，当所提取的版面名称为城记发现时，由于此时专用分词库内并不存在城记发现这一分词，因此系统自动将该版面名称与关键词城记对应，然后按照步骤1.8的对应关系，将该版面内的所有文章归类至社会新闻下的城记类别下，同时将城记发现这一词语加入专用分词库中，以增加专用分词库内的分词量。

2、横向

2.5设置文章语法，比如：-(崔永元)表示过滤文章中出现“崔永元”的文章数据；

2.9提取文章概要内容，添加文章属性，作为网页SEO之用；

Claims

1.一种基于数字报纸的资讯数据分类方法，其特征在于包括：

2.根据权利要求1所述的基于数字报纸的资讯数据分类方法，其特征在于还包括：

3.根据权利要求2所述的基于数字报纸的资讯数据分类方法，其特征在于：所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。

4.根据权利要求1或2或3所述的基于数字报纸的资讯数据分类方法，其特征在于，所述根据报纸内容的不同设定不同的类别，然后在各类别下设定若干关键词，建立起类别与关键词之间的对应关系包括：

5.一种基于数字报纸的资讯数据分类方法，其特征在于包括：

6.根据权利要求5所述的基于数字报纸的资讯数据分类方法，其特征在于还包括：

7.根据权利要求6所述的基于数字报纸的资讯数据分类方法，其特征在于：所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。

8.根据权利要求5或6或7所述的基于数字报纸的资讯数据分类方法，其特征在于，所述根据报纸内容的不同设定不同的类别，然后在各类别下设定若干关键词，建立起类别与关键词之间的对应关系包括：