CN104035997B

CN104035997B - 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法

Info

Publication number: CN104035997B
Application number: CN201410260379.XA
Authority: CN
Inventors: 朱全银; 严云洋; 李翔; 张永军; 陈孚; 尹永华; 孙佩佩; 黄丽民; 费飞; 周泓
Original assignee: Huaiyin Institute of Technology
Current assignee: Suzhou Hongtu Intelligent Technology Co ltd
Priority date: 2014-06-13
Filing date: 2014-06-13
Publication date: 2017-05-10
Anticipated expiration: 2034-06-13
Also published as: CN104035997A

Abstract

本发明公开了一种基于文本分类和图像深度挖掘的科技情报获取与推送方法，其特征在于：根据用户的定制，获取用户关注的科技领域的关键词，利用Python语言编写网络爬虫，通过HTTP协议获取网页中与用户关注的科技领域的关键词相关的论文、新闻、专利，利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类，并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存，最终通过微信公众号对获取的科技情报内容数据进行推送。

Description

一种基于文本分类和图像深度挖掘的科技情报获取与推送方法

技术领域

本发明属于科技情报获取与处理领域，特别涉及一种基于文本分类和图像深度挖掘的科技情报获取与推送方法，可应用于新闻、论文、专利信息的获取与推送。

背景技术

如今，随着互联网的高速发展，每天都有海量的数据在互联网上发布、共享。海量的信息在为互联网用户提供更多信息的同时，也为互联网用户带来了获取有效信息价值的难度。在互联网的海量数据中，不同的信息对于不同需求的用户的价值有着很大的差距，大量的信息对于不同需求的用户来说是没有一点价值的，而往往只有少量的信息是互联网用户所关注的。所以如何快速的在海量的数据中为特定的互联网用户抓取所需的信息，对于更好的为互联网用户提供高效的有效信息获取的服务，方便互联网用户对信息的使用有很重要的研究和实用的意义和价值。

在为不同需求的互联网用户成功的抓取特定信息后，尽管相对互联网中的海量数据，成功抓取到有效信息的数据量已经很小，但对于用户来说有效信息的数据量还是很大。不同信息在互联网上不同的发布和呈现形式也影响了用户进一步从有效信息中获取信息的价值，增加了用户获取有效信息的难度。如何使用户快速、高效的获取有效信息，并充分挖掘获取有效信息中的价值，为用户提供更高效有价值的信息推送服务，成为了另一个亟待需要研究解决的问题。

处于信息大爆炸时代和快节奏生活下的用户人群，越来越倾向于查看可视化的信息，对于文本类的信息往往也只关注其摘要。所以，图像类信息成为了广大用户的首选关注点，图像的直观化呈现，在快餐式的知识获取时代中，更加直观生动的呈现了所要表述的信息，给了用户更好的阅读体验，同时使得用户更加快速、高效的获取有效信息中的价值。因此，如何从文本信息中提取其中存在的图像形式的信息，为用户提供更灵活的信息阅读分析方式，同样成为了一个有着研究和实用意义的问题。

在现有的信息获取和推送方法中，往往都只解决了上述几个问题中的部分问题。

如中国专利文献号CN201110393795.3，授权日2014-05-07，公开了一种应用信息推送方法和系统，通过综合分析处理平台接受服务器发送的终端用户的多种信息，来获取用户的偏好特征，从而使得服务器根据判定的用户不同的偏好特征推送不同的应用信息。尽管该文献中的方法和系统能够针对不同用户的偏好特征，推送个性化应用信息，但通过用户行为信息确定关键词，相比用户指定关键词的信息推送，在精确推送上有着一定的差距，不能满足用户灵活的应用需求。

中国专利文献号CN201110393795.3，授权日2014-05-07，公开了一种信息推送方法与装置，通过收集多客户端同一用户输入的关键词，分析关键词集中不同关键词间的联系，从而分析判断用户的行为属性和关注热点。用户关键词确定后，即可为用户推送个性化的信息或个性化界面。尽管该文献中的方法和装置能够针对不同用户的行为属性，推送个性化信息，但该文献中的方法和装置并未对推送的信息进行分类组织，导致了在推送信息时个性化信息查询获取的低效，不能满足快速、高效的信息推送需求。

中国专利文献号CN201010578685.X，授权日2013-10-09，公开了一种实时信息推送方法及设备，服务器获取用户输入的关键词后，进行定时的信息收索获取和推送。尽管该文献中的方法及设备，能够根据用户指定的关键词进行信息的收索查询，并将查询后的信息返回给用户，但该文献中的方法和设备还局限于文本信息的推送，不能满足当今社会中，不同用户对多种格式信息的获取阅读的需求。

当然，目前还存在很多的信息推送方法，很多基于现有的信息推送进行改进优化的方法也在被不断的提出。但现有的方法往往都只关注于信息推送问题中的某一点，很多方法通过分析用户行为属性确定用户的关注关键词，在关键词的确定上缺乏了灵活性，导致不能满足用户可定制关注信息的需求；部分方法从互联网中抓取到所需信息后，并没有进一步的对抓取到的信息进行结构化的分类组织，尽管减小了用户查询信息的数据量，但还是在一定程度上限制了用户查询所需信息的速度，不能满足用户高效获取所需信息的需求；大多数的方法都只对文本信息进行了抓取推送，忽视了直观可视化的图像形式的信息，不能满足用户快速、高效获取信息中的有效信息的需求。

综上所述，研究发明一种能根据不同用户的实际要求进行关键词的定制，能将从互联网中抓取到的信息进行分类组织，能提取文本信息中的图像形式的信息的方法是十分必要的。

而针对以上所诉的问题，朱全银等给出了文本分类方法、图像形式的信息提取方法和定制关键词推送的方法(Fu Chen，Chengjie Xu，Quanyin Zhu.A Design of a Sci-tech Information Retrieval Platform Based on Apache Solr and WebMining.Applied Mechanics and Materials，Vols.530-531(2014)，pp.883-886；Yin YongHua，Jin Ying，Zhu Quan Yin，Yan Yun Yang.Extracting Images from Chinese PDFDocuments.Applied Mechanics and Materials，2014，Vols.530-531，pp.887-890；SunPei Pei，Zhu Quan Yin，Zhou Lei，Zhang Yong Jun.Comparativeanalysis of TextCategorizer on Science and Technology Intelligence.Applied Mechanics andMaterials，2014，Vols.530-531，pp.502-505)。

发明内容

本发明的目的是通过对Internet的信息进行访问，获取用户定制的特定的新闻、论文、专利内容，并利用向量机分类算法将内容进行分类，同时利用分割线算法对内容中图像信息进行提取并通过微信公众号进行推送。

本发明的技术方案是根据用户的定制，获取用户关注的科技领域的关键词，利用Python语言编写的网络爬虫，通过HTTP协议获取网页中与用户关注方向相关的论文、新闻、专利，利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类，并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存，最终通过微信公众号对获取的科技情报内容数据进行推送。

具体的说，本发明方案通过如下各步骤实现对互联网中新闻、论文、专利内容的获取、分类和图像提取：

步骤1、企业定制研究方向信息；

步骤2、网络爬虫读取步骤1中企业定制的研究方向信息；

步骤3、网络爬虫根据步骤2中读取的相关信息，基于广度优先搜索策略，使用HTTP协议访问互联网并获取网页信息；

步骤4、读取步骤3中的网页信息文本，并将其转换成ARFF格式文件text.arff；

步骤5、判断训练完成的支持向量机分类器模型SMO.model是否存在，存在执行步骤13，不存在执行步骤6；

步骤6、读取训练集，并将其转换成ARFF格式的文件train.arff；

步骤7、对文件train.arff进行预处理，包括：文本格式转换、分词、停用词去除；

步骤8、将步骤7中预处理后的train.arff文件转换成行为文本名，列为特征词的向量空间模型，该模型表示特征词在每个文本中出现的频度，同时将转换过程中得到的词频和文档频度加入集合wordset中；

步骤9、根据公式计算集合wordset中每个特征词在每个分类中的卡方权重，并将该值赋给该词在该分类中的卡方统计量，其中χ²(t，c)表示特征词t在类别c中的卡方权重，N表示统计样本集中文档总数，A表示每个词的正文档出现频率、B表示负文档出现频率、C表示正文档不出现频率、D表示负文档不出现频率；

步骤10、读取裁剪阈值，表示为threshold，threshold可以是比例，也可以是特定值；

步骤11、阈值为全局的，执行步骤12到步骤15，阈值为局部的，执行步骤16到步骤18；

步骤12、阈值是比例类型，执行步骤13到步骤14，阈值是特定值类型，执行步骤15；

步骤13、从wordset中获取每个特征词在不同分类中卡方权重的最大值，得到集合W＝{w1，w2，w3...wn}，将W中的元素按从小到大的顺序排列得到W’；

步骤14、根据公式pos＝len*threshold计算阈值的索引值，其中，len表示W’的长度，pos表示数组的索引值，并在W’中读取索引为pos的卡方值，即新的阈值threshold’；

步骤15、遍历步骤9获得的集合wordset中所有特征词，特征词在所有分类中的权重最大值不大于threshold，则将该特征词从集合wordset中移除，得到并保存新的特征词集word.arff，执行步骤19；

步骤16、局部阈值是比例类型，执行步骤17，阈值是特定值类型，执行步骤18；

步骤17、计算阈值threshold在每个类别中对应的阈值特定值，得到集合T，T表示每个分类特征裁剪的阈值；

步骤18、遍历步骤9获得的wordset中所有特征词和集合T，特征词在所有分类的卡方值都不大于当前分类的阈值，则将特征词移除；

步骤19、利用Weka中自带的SMO算法训练支持向量机分类器模型，训练数据为特征选择后的训练集，训练结束后，将得到的科技情报支持向量机分类模型保存为SMO.model；

步骤20、保存步骤19所得的分类器模型；

步骤21、对文件text.arff进行预处理，包括：文本格式转换、分词、停用词去除；

步骤22、读取训练阶段保存的特征词集word.arff，并根据特征词集对待分类文本进行文本表示；

步骤23、对执行步骤21后的文本进行分类，并返回类别标签C_i；

步骤24、获取文档图像；

步骤25、判断文档图像的排版方式，文档图像的排版方式为单栏，执行步骤26；文档图像的排版方式为多栏，执行步骤27；

步骤26、对文档进行图像提取，执行步骤28；

步骤27、将文档分为宽度相等的左右两部分，左右两部分分开进行图像提取，执行步骤28；

步骤28、横向扫描文档图像，将相邻的白色像素点连接起来，填充成黑色像素点，构成横向分割线，并记录分割线在图像中的位置；

步骤29、遍历步骤28中记录的分割线，两条间隔的分割线间的间距小于设定的阀值240，将分割线间的像素点都填充为黑色；两条间隔的分割线间的间距大于设定的阀值240，记录两条分割线的位置；

步骤30、遍历步骤29中记录的分割线对，从左边界纵向扫描分割线对间的区域，将相邻的白色像素点连接起来，填充成黑色像素点，直到扫描遇到黑色像素点或已扫描至右边界，则停止扫描，并记录分割线位置；

步骤31、遍历步骤29中记录的分割线对，从右边界纵向扫描分割线对间的区域，将相邻的白色像素点连接起来，填充成黑色像素点，直到扫描到黑色像素点或已扫描至左边界则停止扫描，并记录分割线位置；

步骤32、遍历步骤29、30、31中记录的分割线对，分割线对形成的区域即被视为文档中的图像区域，从文档中提取图像；

步骤33、根据步骤23中获得的分类标签，将步骤32中的图片保存在获得的分类中；

步骤34、通过HTTP协议连接微信服务器，获取登录token；

步骤35、将步骤34中的token，以及步骤33中保存的图像及分类标签，转换成XML格式数据；

步骤36、将步骤35中生成的XML，通过HTTP请求发送给微信服务器，完成科技情报的推送。

步骤4中，ARFF为Attribute-Relation File Format的缩写；

步骤4到步骤23使用的是支持向量机对文本进行训练并分类；

步骤6中所述训练集的内容是指，通过网络爬虫在中国知网、新浪、科技部门网站所得新闻、论文，并由人工标注确定所属分类的语料库；

步骤23中所述类别标签包括A综合；B农业、林业；C医药、卫生、劳动保护；D矿业；E石油；F能源、核技术；G化工；H冶金；J机械；K电工；L电子元器件与信息技术；M通信、广播；N仪器、仪表；P工程建设；Q建材；R公路、水路运输；S铁路；T车辆；U船舶；V航空、航天；W纺织；X食品；Y轻工、文化与生活用品；Z环境保护，共24个分类；

步骤24到步骤32使用的是分割线算法对图像进行深度挖掘；

步骤34到步骤36中使用的推送方式为微信公众号。

相比现有技术，本发明结合了网络爬虫、文本分类、图像深度挖掘提取以及信息推送，能快速有效的将企业最关心的最新科技情报，以文本和图像的形式获取，方便企业及时获取最新的科技情报动态。

附图说明

图1为本发明具体实施方式的流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如附图1所示，本发明实施方案按照以下步骤进行：

步骤1、企业定制研究方向信息；

步骤2、网络爬虫读取步骤1中企业定制的研究方向信息；

步骤6、读取训练集，并将其转换成ARFF格式的文件train.arff；

步骤20、保存步骤19所得的分类器模型；

步骤24、获取文档图像；

步骤26、对文档进行图像提取，执行步骤28；

步骤34、通过HTTP协议连接微信服务器，获取登录token；

步骤4中，ARFF为Attribute-Relation File Format的缩写；

步骤4到步骤23使用的是支持向量机对文本进行训练并分类；

步骤24到步骤32使用的是分割线算法对图像进行深度挖掘；

步骤34到步骤36中使用的推送方式为微信公众号。

为了更好地说明本方法的有效性，在微信公众号GetImpo中，使用了上述方法对用户关心领域进行定制获取与推送。

在微信公众号获取信息的后台，网络爬虫定时抓取互联网中的新闻、论文和专利等信息，并对抓取到的不同种类的信息进行不同结构化组织处理。针对抓取到的新闻信息，通过文本分类方法，将抓取到的新闻信息进行分类保存，以便后期的快速、高效的信息查询获取；针对抓取到的论文信息，先通过文本分类方法，将抓取到的论文信息进行分类组织，然后，通过图像提取方法，提取抓取到的论文信息中的图像形式的信息并保存在本地，以便满足快速、高效的查询需求和用户阅读不同形式信息的需求；针对抓取到的专利信息，先通过文本分类方法，将抓取到的专利信息进行分类组织，然后，通过图像提取方法，提取抓取到的专利信息中的图像形式的信息并保存在本地，以便满足快速、高效的查询需求和用户阅读不同形式信息的需求。

用户关注微信公众号GetImpo后，发送00+定制科技领域关键词，系统获取定制方向信息，开始步骤1，通过步骤1至步骤36的执行，返回用户关注的与定制方向相关的新闻信息、论文图像信息和专利图像信息。通过微信公众号GetImpo，用户随时随地都可进行关注方向的定制、修改。

本发明可与计算机系统结合，从而自动完成对情报信息的收集与微信公众号推送。

本发明创新的结合了网络爬虫、文本分类以及图像深度挖掘提取，能快速有效的将企业最关心的最新科技情报，以文本和图像的形式获取，方便企业及时获取最新的科技情报动态。

Claims

1.一种基于文本分类和图像深度挖掘的科技情报获取与推送方法，其特征在于：根据用户的定制，获取用户关注的科技领域的关键词，利用Python语言编写网络爬虫，通过HTTP协议获取网页中与用户关注的科技领域的关键词相关的论文、新闻、专利，利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类，并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存，最终通过微信公众号对获取的科技情报内容数据进行推送，具体包括以下步骤：

步骤1、企业定制研究方向信息；

步骤2、网络爬虫读取步骤1中企业定制的研究方向信息；

步骤6、读取训练集，并将其转换成ARFF格式的文件train.arff；

步骤14、根据公式pos＝len*threshold计算阈值的索引值，其中，len表示W’的

长度，pos表示数组的索引值，并在W’中读取索引为pos的卡方值，即新的阈值threshold’；

步骤20、保存步骤19所得的分类器模型；

步骤24、获取文档图像；

步骤26、对文档进行图像提取，执行步骤28；

步骤34、通过HTTP协议连接微信服务器，获取登录token；

2.根据权利要求1所述的一种基于文本分类和图像深度挖掘的科技情报获取与推送方法，其特征在于：

步骤4中，ARFF为Attribute-Relation File Format的缩写；

步骤4到步骤23使用的是支持向量机对文本进行训练并分类；

步骤24到步骤32使用的是分割线算法对图像进行深度挖掘；

步骤34到步骤36中使用的推送方式为微信公众号。