CN104035997B - 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法 - Google Patents

一种基于文本分类和图像深度挖掘的科技情报获取与推送方法 Download PDF

Info

Publication number
CN104035997B
CN104035997B CN201410260379.XA CN201410260379A CN104035997B CN 104035997 B CN104035997 B CN 104035997B CN 201410260379 A CN201410260379 A CN 201410260379A CN 104035997 B CN104035997 B CN 104035997B
Authority
CN
China
Prior art keywords
information
text
scientific
cut
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410260379.XA
Other languages
English (en)
Other versions
CN104035997A (zh
Inventor
朱全银
严云洋
李翔
张永军
陈孚
尹永华
孙佩佩
黄丽民
费飞
周泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Hongtu Intelligent Technology Co.,Ltd.
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201410260379.XA priority Critical patent/CN104035997B/zh
Publication of CN104035997A publication Critical patent/CN104035997A/zh
Application granted granted Critical
Publication of CN104035997B publication Critical patent/CN104035997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Abstract

本发明公开了一种基于文本分类和图像深度挖掘的科技情报获取与推送方法,其特征在于:根据用户的定制,获取用户关注的科技领域的关键词,利用Python语言编写网络爬虫,通过HTTP协议获取网页中与用户关注的科技领域的关键词相关的论文、新闻、专利,利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类,并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存,最终通过微信公众号对获取的科技情报内容数据进行推送。

Description

一种基于文本分类和图像深度挖掘的科技情报获取与推送 方法
技术领域
本发明属于科技情报获取与处理领域,特别涉及一种基于文本分类和图像深度挖掘的科技情报获取与推送方法,可应用于新闻、论文、专利信息的获取与推送。
背景技术
如今,随着互联网的高速发展,每天都有海量的数据在互联网上发布、共享。海量的信息在为互联网用户提供更多信息的同时,也为互联网用户带来了获取有效信息价值的难度。在互联网的海量数据中,不同的信息对于不同需求的用户的价值有着很大的差距,大量的信息对于不同需求的用户来说是没有一点价值的,而往往只有少量的信息是互联网用户所关注的。所以如何快速的在海量的数据中为特定的互联网用户抓取所需的信息,对于更好的为互联网用户提供高效的有效信息获取的服务,方便互联网用户对信息的使用有很重要的研究和实用的意义和价值。
在为不同需求的互联网用户成功的抓取特定信息后,尽管相对互联网中的海量数据,成功抓取到有效信息的数据量已经很小,但对于用户来说有效信息的数据量还是很大。不同信息在互联网上不同的发布和呈现形式也影响了用户进一步从有效信息中获取信息的价值,增加了用户获取有效信息的难度。如何使用户快速、高效的获取有效信息,并充分挖掘获取有效信息中的价值,为用户提供更高效有价值的信息推送服务,成为了另一个亟待需要研究解决的问题。
处于信息大爆炸时代和快节奏生活下的用户人群,越来越倾向于查看可视化的信息,对于文本类的信息往往也只关注其摘要。所以,图像类信息成为了广大用户的首选关注点,图像的直观化呈现,在快餐式的知识获取时代中,更加直观生动的呈现了所要表述的信息,给了用户更好的阅读体验,同时使得用户更加快速、高效的获取有效信息中的价值。因此,如何从文本信息中提取其中存在的图像形式的信息,为用户提供更灵活的信息阅读分析方式,同样成为了一个有着研究和实用意义的问题。
在现有的信息获取和推送方法中,往往都只解决了上述几个问题中的部分问题。
如中国专利文献号CN201110393795.3,授权日2014-05-07,公开了一种应用信息推送方法和系统,通过综合分析处理平台接受服务器发送的终端用户的多种信息,来获取用户的偏好特征,从而使得服务器根据判定的用户不同的偏好特征推送不同的应用信息。尽管该文献中的方法和系统能够针对不同用户的偏好特征,推送个性化应用信息,但通过用户行为信息确定关键词,相比用户指定关键词的信息推送,在精确推送上有着一定的差距,不能满足用户灵活的应用需求。
中国专利文献号CN201110393795.3,授权日2014-05-07,公开了一种信息推送方法与装置,通过收集多客户端同一用户输入的关键词,分析关键词集中不同关键词间的联系,从而分析判断用户的行为属性和关注热点。用户关键词确定后,即可为用户推送个性化的信息或个性化界面。尽管该文献中的方法和装置能够针对不同用户的行为属性,推送个性化信息,但该文献中的方法和装置并未对推送的信息进行分类组织,导致了在推送信息时个性化信息查询获取的低效,不能满足快速、高效的信息推送需求。
中国专利文献号CN201010578685.X,授权日2013-10-09,公开了一种实时信息推送方法及设备,服务器获取用户输入的关键词后,进行定时的信息收索获取和推送。尽管该文献中的方法及设备,能够根据用户指定的关键词进行信息的收索查询,并将查询后的信息返回给用户,但该文献中的方法和设备还局限于文本信息的推送,不能满足当今社会中,不同用户对多种格式信息的获取阅读的需求。
当然,目前还存在很多的信息推送方法,很多基于现有的信息推送进行改进优化的方法也在被不断的提出。但现有的方法往往都只关注于信息推送问题中的某一点,很多方法通过分析用户行为属性确定用户的关注关键词,在关键词的确定上缺乏了灵活性,导致不能满足用户可定制关注信息的需求;部分方法从互联网中抓取到所需信息后,并没有进一步的对抓取到的信息进行结构化的分类组织,尽管减小了用户查询信息的数据量,但还是在一定程度上限制了用户查询所需信息的速度,不能满足用户高效获取所需信息的需求;大多数的方法都只对文本信息进行了抓取推送,忽视了直观可视化的图像形式的信息,不能满足用户快速、高效获取信息中的有效信息的需求。
综上所述,研究发明一种能根据不同用户的实际要求进行关键词的定制,能将从互联网中抓取到的信息进行分类组织,能提取文本信息中的图像形式的信息的方法是十分必要的。
而针对以上所诉的问题,朱全银等给出了文本分类方法、图像形式的信息提取方法和定制关键词推送的方法(Fu Chen,Chengjie Xu,Quanyin Zhu.A Design of a Sci-tech Information Retrieval Platform Based on Apache Solr and WebMining.Applied Mechanics and Materials,Vols.530-531(2014),pp.883-886;Yin YongHua,Jin Ying,Zhu Quan Yin,Yan Yun Yang.Extracting Images from Chinese PDFDocuments.Applied Mechanics and Materials,2014,Vols.530-531,pp.887-890;SunPei Pei,Zhu Quan Yin,Zhou Lei,Zhang Yong Jun.Comparativeanalysis of TextCategorizer on Science and Technology Intelligence.Applied Mechanics andMaterials,2014,Vols.530-531,pp.502-505)。
发明内容
本发明的目的是通过对Internet的信息进行访问,获取用户定制的特定的新闻、论文、专利内容,并利用向量机分类算法将内容进行分类,同时利用分割线算法对内容中图像信息进行提取并通过微信公众号进行推送。
本发明的技术方案是根据用户的定制,获取用户关注的科技领域的关键词,利用Python语言编写的网络爬虫,通过HTTP协议获取网页中与用户关注方向相关的论文、新闻、专利,利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类,并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存,最终通过微信公众号对获取的科技情报内容数据进行推送。
具体的说,本发明方案通过如下各步骤实现对互联网中新闻、论文、专利内容的获取、分类和图像提取:
步骤1、企业定制研究方向信息;
步骤2、网络爬虫读取步骤1中企业定制的研究方向信息;
步骤3、网络爬虫根据步骤2中读取的相关信息,基于广度优先搜索策略,使用HTTP协议访问互联网并获取网页信息;
步骤4、读取步骤3中的网页信息文本,并将其转换成ARFF格式文件text.arff;
步骤5、判断训练完成的支持向量机分类器模型SMO.model是否存在,存在执行步骤13,不存在执行步骤6;
步骤6、读取训练集,并将其转换成ARFF格式的文件train.arff;
步骤7、对文件train.arff进行预处理,包括:文本格式转换、分词、停用词去除;
步骤8、将步骤7中预处理后的train.arff文件转换成行为文本名,列为特征词的向量空间模型,该模型表示特征词在每个文本中出现的频度,同时将转换过程中得到的词频和文档频度加入集合wordset中;
步骤9、根据公式计算集合wordset中每个特征词在每个分类中的卡方权重,并将该值赋给该词在该分类中的卡方统计量,其中χ2(t,c)表示特征词t在类别c中的卡方权重,N表示统计样本集中文档总数,A表示每个词的正文档出现频率、B表示负文档出现频率、C表示正文档不出现频率、D表示负文档不出现频率;
步骤10、读取裁剪阈值,表示为threshold,threshold可以是比例,也可以是特定值;
步骤11、阈值为全局的,执行步骤12到步骤15,阈值为局部的,执行步骤16到步骤18;
步骤12、阈值是比例类型,执行步骤13到步骤14,阈值是特定值类型,执行步骤15;
步骤13、从wordset中获取每个特征词在不同分类中卡方权重的最大值,得到集合W={w1,w2,w3...wn},将W中的元素按从小到大的顺序排列得到W’;
步骤14、根据公式pos=len*threshold计算阈值的索引值,其中,len表示W’的长度,pos表示数组的索引值,并在W’中读取索引为pos的卡方值,即新的阈值threshold’;
步骤15、遍历步骤9获得的集合wordset中所有特征词,特征词在所有分类中的权重最大值不大于threshold,则将该特征词从集合wordset中移除,得到并保存新的特征词集word.arff,执行步骤19;
步骤16、局部阈值是比例类型,执行步骤17,阈值是特定值类型,执行步骤18;
步骤17、计算阈值threshold在每个类别中对应的阈值特定值,得到集合T,T表示每个分类特征裁剪的阈值;
步骤18、遍历步骤9获得的wordset中所有特征词和集合T,特征词在所有分类的卡方值都不大于当前分类的阈值,则将特征词移除;
步骤19、利用Weka中自带的SMO算法训练支持向量机分类器模型,训练数据为特征选择后的训练集,训练结束后,将得到的科技情报支持向量机分类模型保存为SMO.model;
步骤20、保存步骤19所得的分类器模型;
步骤21、对文件text.arff进行预处理,包括:文本格式转换、分词、停用词去除;
步骤22、读取训练阶段保存的特征词集word.arff,并根据特征词集对待分类文本进行文本表示;
步骤23、对执行步骤21后的文本进行分类,并返回类别标签Ci
步骤24、获取文档图像;
步骤25、判断文档图像的排版方式,文档图像的排版方式为单栏,执行步骤26;文档图像的排版方式为多栏,执行步骤27;
步骤26、对文档进行图像提取,执行步骤28;
步骤27、将文档分为宽度相等的左右两部分,左右两部分分开进行图像提取,执行步骤28;
步骤28、横向扫描文档图像,将相邻的白色像素点连接起来,填充成黑色像素点,构成横向分割线,并记录分割线在图像中的位置;
步骤29、遍历步骤28中记录的分割线,两条间隔的分割线间的间距小于设定的阀值240,将分割线间的像素点都填充为黑色;两条间隔的分割线间的间距大于设定的阀值240,记录两条分割线的位置;
步骤30、遍历步骤29中记录的分割线对,从左边界纵向扫描分割线对间的区域,将相邻的白色像素点连接起来,填充成黑色像素点,直到扫描遇到黑色像素点或已扫描至右边界,则停止扫描,并记录分割线位置;
步骤31、遍历步骤29中记录的分割线对,从右边界纵向扫描分割线对间的区域,将相邻的白色像素点连接起来,填充成黑色像素点,直到扫描到黑色像素点或已扫描至左边界则停止扫描,并记录分割线位置;
步骤32、遍历步骤29、30、31中记录的分割线对,分割线对形成的区域即被视为文档中的图像区域,从文档中提取图像;
步骤33、根据步骤23中获得的分类标签,将步骤32中的图片保存在获得的分类中;
步骤34、通过HTTP协议连接微信服务器,获取登录token;
步骤35、将步骤34中的token,以及步骤33中保存的图像及分类标签,转换成XML格式数据;
步骤36、将步骤35中生成的XML,通过HTTP请求发送给微信服务器,完成科技情报的推送。
步骤4中,ARFF为Attribute-Relation File Format的缩写;
步骤4到步骤23使用的是支持向量机对文本进行训练并分类;
步骤6中所述训练集的内容是指,通过网络爬虫在中国知网、新浪、科技部门网站所得新闻、论文,并由人工标注确定所属分类的语料库;
步骤23中所述类别标签包括A综合;B农业、林业;C医药、卫生、劳动保护;D矿业;E石油;F能源、核技术;G化工;H冶金;J机械;K电工;L电子元器件与信息技术;M通信、广播;N仪器、仪表;P工程建设;Q建材;R公路、水路运输;S铁路;T车辆;U船舶;V航空、航天;W纺织;X食品;Y轻工、文化与生活用品;Z环境保护,共24个分类;
步骤24到步骤32使用的是分割线算法对图像进行深度挖掘;
步骤34到步骤36中使用的推送方式为微信公众号。
相比现有技术,本发明结合了网络爬虫、文本分类、图像深度挖掘提取以及信息推送,能快速有效的将企业最关心的最新科技情报,以文本和图像的形式获取,方便企业及时获取最新的科技情报动态。
附图说明
图1为本发明具体实施方式的流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如附图1所示,本发明实施方案按照以下步骤进行:
步骤1、企业定制研究方向信息;
步骤2、网络爬虫读取步骤1中企业定制的研究方向信息;
步骤3、网络爬虫根据步骤2中读取的相关信息,基于广度优先搜索策略,使用HTTP协议访问互联网并获取网页信息;
步骤4、读取步骤3中的网页信息文本,并将其转换成ARFF格式文件text.arff;
步骤5、判断训练完成的支持向量机分类器模型SMO.model是否存在,存在执行步骤13,不存在执行步骤6;
步骤6、读取训练集,并将其转换成ARFF格式的文件train.arff;
步骤7、对文件train.arff进行预处理,包括:文本格式转换、分词、停用词去除;
步骤8、将步骤7中预处理后的train.arff文件转换成行为文本名,列为特征词的向量空间模型,该模型表示特征词在每个文本中出现的频度,同时将转换过程中得到的词频和文档频度加入集合wordset中;
步骤9、根据公式计算集合wordset中每个特征词在每个分类中的卡方权重,并将该值赋给该词在该分类中的卡方统计量,其中χ2(t,c)表示特征词t在类别c中的卡方权重,N表示统计样本集中文档总数,A表示每个词的正文档出现频率、B表示负文档出现频率、C表示正文档不出现频率、D表示负文档不出现频率;
步骤10、读取裁剪阈值,表示为threshold,threshold可以是比例,也可以是特定值;
步骤11、阈值为全局的,执行步骤12到步骤15,阈值为局部的,执行步骤16到步骤18;
步骤12、阈值是比例类型,执行步骤13到步骤14,阈值是特定值类型,执行步骤15;
步骤13、从wordset中获取每个特征词在不同分类中卡方权重的最大值,得到集合W={w1,w2,w3...wn},将W中的元素按从小到大的顺序排列得到W’;
步骤14、根据公式pos=len*threshold计算阈值的索引值,其中,len表示W’的长度,pos表示数组的索引值,并在W’中读取索引为pos的卡方值,即新的阈值threshold’;
步骤15、遍历步骤9获得的集合wordset中所有特征词,特征词在所有分类中的权重最大值不大于threshold,则将该特征词从集合wordset中移除,得到并保存新的特征词集word.arff,执行步骤19;
步骤16、局部阈值是比例类型,执行步骤17,阈值是特定值类型,执行步骤18;
步骤17、计算阈值threshold在每个类别中对应的阈值特定值,得到集合T,T表示每个分类特征裁剪的阈值;
步骤18、遍历步骤9获得的wordset中所有特征词和集合T,特征词在所有分类的卡方值都不大于当前分类的阈值,则将特征词移除;
步骤19、利用Weka中自带的SMO算法训练支持向量机分类器模型,训练数据为特征选择后的训练集,训练结束后,将得到的科技情报支持向量机分类模型保存为SMO.model;
步骤20、保存步骤19所得的分类器模型;
步骤21、对文件text.arff进行预处理,包括:文本格式转换、分词、停用词去除;
步骤22、读取训练阶段保存的特征词集word.arff,并根据特征词集对待分类文本进行文本表示;
步骤23、对执行步骤21后的文本进行分类,并返回类别标签Ci
步骤24、获取文档图像;
步骤25、判断文档图像的排版方式,文档图像的排版方式为单栏,执行步骤26;文档图像的排版方式为多栏,执行步骤27;
步骤26、对文档进行图像提取,执行步骤28;
步骤27、将文档分为宽度相等的左右两部分,左右两部分分开进行图像提取,执行步骤28;
步骤28、横向扫描文档图像,将相邻的白色像素点连接起来,填充成黑色像素点,构成横向分割线,并记录分割线在图像中的位置;
步骤29、遍历步骤28中记录的分割线,两条间隔的分割线间的间距小于设定的阀值240,将分割线间的像素点都填充为黑色;两条间隔的分割线间的间距大于设定的阀值240,记录两条分割线的位置;
步骤30、遍历步骤29中记录的分割线对,从左边界纵向扫描分割线对间的区域,将相邻的白色像素点连接起来,填充成黑色像素点,直到扫描遇到黑色像素点或已扫描至右边界,则停止扫描,并记录分割线位置;
步骤31、遍历步骤29中记录的分割线对,从右边界纵向扫描分割线对间的区域,将相邻的白色像素点连接起来,填充成黑色像素点,直到扫描到黑色像素点或已扫描至左边界则停止扫描,并记录分割线位置;
步骤32、遍历步骤29、30、31中记录的分割线对,分割线对形成的区域即被视为文档中的图像区域,从文档中提取图像;
步骤33、根据步骤23中获得的分类标签,将步骤32中的图片保存在获得的分类中;
步骤34、通过HTTP协议连接微信服务器,获取登录token;
步骤35、将步骤34中的token,以及步骤33中保存的图像及分类标签,转换成XML格式数据;
步骤36、将步骤35中生成的XML,通过HTTP请求发送给微信服务器,完成科技情报的推送。
步骤4中,ARFF为Attribute-Relation File Format的缩写;
步骤4到步骤23使用的是支持向量机对文本进行训练并分类;
步骤6中所述训练集的内容是指,通过网络爬虫在中国知网、新浪、科技部门网站所得新闻、论文,并由人工标注确定所属分类的语料库;
步骤23中所述类别标签包括A综合;B农业、林业;C医药、卫生、劳动保护;D矿业;E石油;F能源、核技术;G化工;H冶金;J机械;K电工;L电子元器件与信息技术;M通信、广播;N仪器、仪表;P工程建设;Q建材;R公路、水路运输;S铁路;T车辆;U船舶;V航空、航天;W纺织;X食品;Y轻工、文化与生活用品;Z环境保护,共24个分类;
步骤24到步骤32使用的是分割线算法对图像进行深度挖掘;
步骤34到步骤36中使用的推送方式为微信公众号。
为了更好地说明本方法的有效性,在微信公众号GetImpo中,使用了上述方法对用户关心领域进行定制获取与推送。
在微信公众号获取信息的后台,网络爬虫定时抓取互联网中的新闻、论文和专利等信息,并对抓取到的不同种类的信息进行不同结构化组织处理。针对抓取到的新闻信息,通过文本分类方法,将抓取到的新闻信息进行分类保存,以便后期的快速、高效的信息查询获取;针对抓取到的论文信息,先通过文本分类方法,将抓取到的论文信息进行分类组织,然后,通过图像提取方法,提取抓取到的论文信息中的图像形式的信息并保存在本地,以便满足快速、高效的查询需求和用户阅读不同形式信息的需求;针对抓取到的专利信息,先通过文本分类方法,将抓取到的专利信息进行分类组织,然后,通过图像提取方法,提取抓取到的专利信息中的图像形式的信息并保存在本地,以便满足快速、高效的查询需求和用户阅读不同形式信息的需求。
用户关注微信公众号GetImpo后,发送00+定制科技领域关键词,系统获取定制方向信息,开始步骤1,通过步骤1至步骤36的执行,返回用户关注的与定制方向相关的新闻信息、论文图像信息和专利图像信息。通过微信公众号GetImpo,用户随时随地都可进行关注方向的定制、修改。
本发明可与计算机系统结合,从而自动完成对情报信息的收集与微信公众号推送。
本发明创新的结合了网络爬虫、文本分类以及图像深度挖掘提取,能快速有效的将企业最关心的最新科技情报,以文本和图像的形式获取,方便企业及时获取最新的科技情报动态。

Claims (2)

1.一种基于文本分类和图像深度挖掘的科技情报获取与推送方法,其特征在于:根据用户的定制,获取用户关注的科技领域的关键词,利用Python语言编写网络爬虫,通过HTTP协议获取网页中与用户关注的科技领域的关键词相关的论文、新闻、专利,利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类,并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存,最终通过微信公众号对获取的科技情报内容数据进行推送,具体包括以下步骤:
步骤1、企业定制研究方向信息;
步骤2、网络爬虫读取步骤1中企业定制的研究方向信息;
步骤3、网络爬虫根据步骤2中读取的相关信息,基于广度优先搜索策略,使用HTTP协议访问互联网并获取网页信息;
步骤4、读取步骤3中的网页信息文本,并将其转换成ARFF格式文件text.arff;
步骤5、判断训练完成的支持向量机分类器模型SMO.model是否存在,存在执行步骤13,不存在执行步骤6;
步骤6、读取训练集,并将其转换成ARFF格式的文件train.arff;
步骤7、对文件train.arff进行预处理,包括:文本格式转换、分词、停用词去除;
步骤8、将步骤7中预处理后的train.arff文件转换成行为文本名,列为特征词的向量空间模型,该模型表示特征词在每个文本中出现的频度,同时将转换过程中得到的词频和文档频度加入集合wordset中;
步骤9、根据公式计算集合wordset中每个特征词在每个分类中的卡方权重,并将该值赋给该词在该分类中的卡方统计量,其中χ2(t,c)表示特征词t在类别c中的卡方权重,N表示统计样本集中文档总数,A表示每个词的正文档出现频率、B表示负文档出现频率、C表示正文档不出现频率、D表示负文档不出现频率;
步骤10、读取裁剪阈值,表示为threshold,threshold可以是比例,也可以是特定值;
步骤11、阈值为全局的,执行步骤12到步骤15,阈值为局部的,执行步骤16到步骤18;
步骤12、阈值是比例类型,执行步骤13到步骤14,阈值是特定值类型,执行步骤15;
步骤13、从wordset中获取每个特征词在不同分类中卡方权重的最大值,得到集合W={w1,w2,w3...wn},将W中的元素按从小到大的顺序排列得到W’;
步骤14、根据公式pos=len*threshold计算阈值的索引值,其中,len表示W’的
长度,pos表示数组的索引值,并在W’中读取索引为pos的卡方值,即新的阈值threshold’;
步骤15、遍历步骤9获得的集合wordset中所有特征词,特征词在所有分类中的权重最大值不大于threshold,则将该特征词从集合wordset中移除,得到并保存新的特征词集word.arff,执行步骤19;
步骤16、局部阈值是比例类型,执行步骤17,阈值是特定值类型,执行步骤18;
步骤17、计算阈值threshold在每个类别中对应的阈值特定值,得到集合T,T表示每个分类特征裁剪的阈值;
步骤18、遍历步骤9获得的wordset中所有特征词和集合T,特征词在所有分类的卡方值都不大于当前分类的阈值,则将特征词移除;
步骤19、利用Weka中自带的SMO算法训练支持向量机分类器模型,训练数据为特征选择后的训练集,训练结束后,将得到的科技情报支持向量机分类模型保存为SMO.model;
步骤20、保存步骤19所得的分类器模型;
步骤21、对文件text.arff进行预处理,包括:文本格式转换、分词、停用词去除;
步骤22、读取训练阶段保存的特征词集word.arff,并根据特征词集对待分类文本进行文本表示;
步骤23、对执行步骤21后的文本进行分类,并返回类别标签Ci
步骤24、获取文档图像;
步骤25、判断文档图像的排版方式,文档图像的排版方式为单栏,执行步骤26;文档图像的排版方式为多栏,执行步骤27;
步骤26、对文档进行图像提取,执行步骤28;
步骤27、将文档分为宽度相等的左右两部分,左右两部分分开进行图像提取,执行步骤28;
步骤28、横向扫描文档图像,将相邻的白色像素点连接起来,填充成黑色像素点,构成横向分割线,并记录分割线在图像中的位置;
步骤29、遍历步骤28中记录的分割线,两条间隔的分割线间的间距小于设定的阀值240,将分割线间的像素点都填充为黑色;两条间隔的分割线间的间距大于设定的阀值240,记录两条分割线的位置;
步骤30、遍历步骤29中记录的分割线对,从左边界纵向扫描分割线对间的区域,将相邻的白色像素点连接起来,填充成黑色像素点,直到扫描遇到黑色像素点或已扫描至右边界,则停止扫描,并记录分割线位置;
步骤31、遍历步骤29中记录的分割线对,从右边界纵向扫描分割线对间的区域,将相邻的白色像素点连接起来,填充成黑色像素点,直到扫描到黑色像素点或已扫描至左边界则停止扫描,并记录分割线位置;
步骤32、遍历步骤29、30、31中记录的分割线对,分割线对形成的区域即被视为文档中的图像区域,从文档中提取图像;
步骤33、根据步骤23中获得的分类标签,将步骤32中的图片保存在获得的分类中;
步骤34、通过HTTP协议连接微信服务器,获取登录token;
步骤35、将步骤34中的token,以及步骤33中保存的图像及分类标签,转换成XML格式数据;
步骤36、将步骤35中生成的XML,通过HTTP请求发送给微信服务器,完成科技情报的推送。
2.根据权利要求1所述的一种基于文本分类和图像深度挖掘的科技情报获取与推送方法,其特征在于:
步骤4中,ARFF为Attribute-Relation File Format的缩写;
步骤4到步骤23使用的是支持向量机对文本进行训练并分类;
步骤6中所述训练集的内容是指,通过网络爬虫在中国知网、新浪、科技部门网站所得新闻、论文,并由人工标注确定所属分类的语料库;
步骤23中所述类别标签包括A综合;B农业、林业;C医药、卫生、劳动保护;D矿业;E石油;F能源、核技术;G化工;H冶金;J机械;K电工;L电子元器件与信息技术;M通信、广播;N仪器、仪表;P工程建设;Q建材;R公路、水路运输;S铁路;T车辆;U船舶;V航空、航天;W纺织;X食品;Y轻工、文化与生活用品;Z环境保护,共24个分类;
步骤24到步骤32使用的是分割线算法对图像进行深度挖掘;
步骤34到步骤36中使用的推送方式为微信公众号。
CN201410260379.XA 2014-06-13 2014-06-13 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法 Active CN104035997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410260379.XA CN104035997B (zh) 2014-06-13 2014-06-13 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410260379.XA CN104035997B (zh) 2014-06-13 2014-06-13 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法

Publications (2)

Publication Number Publication Date
CN104035997A CN104035997A (zh) 2014-09-10
CN104035997B true CN104035997B (zh) 2017-05-10

Family

ID=51466767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410260379.XA Active CN104035997B (zh) 2014-06-13 2014-06-13 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法

Country Status (1)

Country Link
CN (1) CN104035997B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016145587A1 (zh) * 2015-03-14 2016-09-22 王志强 自动买卖股票时的专利信息提醒方法以及股票买卖系统
CN105049320A (zh) * 2015-05-22 2015-11-11 广西天海信息科技有限公司 一种同时管理多个微信公众账号的系统及方法
WO2016192028A1 (zh) * 2015-06-01 2016-12-08 阮元 提醒视频更新时的专利信息推送方法以及信息提醒系统
WO2016201622A1 (zh) * 2015-06-16 2016-12-22 深圳市华阳信通科技发展有限公司 将用户分类实现分类信息传输的系统及方法
CN105095402A (zh) * 2015-07-08 2015-11-25 广西天海信息科技有限公司 一种微信素材的搜集方法
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
WO2017024506A1 (zh) * 2015-08-11 2017-02-16 常平 播放影视前插入广告时的信息提示方法和广告推送系统
WO2017028094A1 (zh) * 2015-08-16 2017-02-23 常平 识别用户兴趣时的信息提醒方法和数据处理系统
WO2017028098A1 (zh) * 2015-08-16 2017-02-23 常平 推荐网站时显示技术信息的方法和网站推荐系统
WO2017028192A1 (zh) * 2015-08-18 2017-02-23 黄冠明 基于流量对在线电子书收费时的信息推送方法和收费系统
WO2017028194A1 (zh) * 2015-08-18 2017-02-23 黄冠明 基于流量对在线视频收费时的信息推送方法和收费系统
CN108366526B (zh) * 2015-10-12 2021-04-09 德罗纳斯德公司 通过自动生物特征数据的优先级简化林业信息管理的系统及方法
CN105490839B (zh) * 2015-11-25 2018-11-27 山东中创软件商用中间件股份有限公司 一种网站数据安全的告警方法及装置
WO2017128340A1 (zh) * 2016-01-29 2017-08-03 杨钰 一种分享链接信息时的专利情报展示方法及移动终端
WO2017132886A1 (zh) * 2016-02-03 2017-08-10 刘芬 一种根据目的地推送信息时的专利提醒方法及服务器
WO2018018332A1 (zh) * 2016-07-24 2018-02-01 张鹏华 一种查询单词时的信息提醒方法和阅读系统
WO2018023234A1 (zh) * 2016-07-31 2018-02-08 杨洁 音乐与用户互动时的信息推送方法和音乐播放器
WO2018023439A1 (zh) * 2016-08-02 2018-02-08 步晓芳 一种充值话费时的信息提示方案以及手机
WO2018027780A1 (zh) * 2016-08-11 2018-02-15 王志远 推荐书籍时的技术权属信息展示方法和推送系统
CN108109086A (zh) * 2016-11-24 2018-06-01 广州市优专网络科技有限公司 一种基于互联网用户行为的专利运营系统及方法
CN107315816A (zh) * 2017-06-29 2017-11-03 朱峰 一种专利智能分析系统
CN107948052A (zh) * 2017-11-14 2018-04-20 福建中金在线信息科技有限公司 信息爬取方法、装置、电子设备和系统
CN108804501B (zh) * 2018-04-08 2020-12-11 深圳市腾讯计算机系统有限公司 一种检测有效信息的方法及装置
CN108628832B (zh) * 2018-05-08 2022-03-18 中国联合网络通信集团有限公司 一种信息情报关键字获取方法及装置
CN109635714B (zh) * 2018-12-07 2023-05-30 光典信息发展有限公司 文档扫描图像的矫正方法及装置
CN110321471A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于政策性资源汇聚的互联网科技金融智能匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185560B1 (en) * 1998-04-15 2001-02-06 Sungard Eprocess Intelligance Inc. System for automatically organizing data in accordance with pattern hierarchies therein
CN101582080A (zh) * 2009-06-22 2009-11-18 浙江大学 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185560B1 (en) * 1998-04-15 2001-02-06 Sungard Eprocess Intelligance Inc. System for automatically organizing data in accordance with pattern hierarchies therein
CN101582080A (zh) * 2009-06-22 2009-11-18 浙江大学 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The face database development of science and technology expects based on web mining;Chunxia Yang etc.;《2012Fourth International Conference on Multimedia Information Networking and Security》;20121231;全文 *

Also Published As

Publication number Publication date
CN104035997A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN104035997B (zh) 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN106354861A (zh) 电影标签自动标引方法及自动标引系统
CN103577462B (zh) 一种文档分类方法及装置
CN103886020B (zh) 一种房地产信息快速搜索方法
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
CN109345006A (zh) 一种基于区域发展目标的招商政策分析优化方法及系统
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN101751403B (zh) 将超文字标签语言文件转换成纯文字文件的方法
CN107239787A (zh) 一种利用多来源数据具有隐私保护功能的图象分类方法
Pappas et al. Extracting informative textual parts from web pages containing user-generated content
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
Gali et al. Extracting representative image from web page
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN106777124B (zh) 语义认知方法、装置及系统
Cao et al. Extraction of informative blocks from web pages
CN107368610A (zh) 基于全文的大文本 crf 和规则分类方法和系统
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN110059316B (zh) 一种基于数据感知的动态科技资源语义分析方法
Agombar et al. A clustering backed deep learning approach for document layout analysis
Lupu et al. Patent images-a glass-encased tool: opening the case

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 223400 8th floor, Anton building, 10 Haian Road, Lianshui County, Jiangsu.

Patentee after: Huaijin Polytechnical College

Address before: 223005 Jiangsu Huaian Higher Education Park 1 East Road

Patentee before: Huaijin Polytechnical College

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20190627

Address after: 223005 No. 9 Haikou Road, Huaian Economic and Technological Development Zone, Jiangsu Province

Patentee after: HUAI'AN FUN SOFTWARE CO., LTD.

Address before: 223400 8th floor, Anton building, 10 Haian Road, Lianshui County, Jiangsu.

Patentee before: Huaijin Polytechnical College

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210817

Address after: 215313 No. 555, hengchangjing Road, Zhoushi Town, Kunshan City, Suzhou City, Jiangsu Province

Patentee after: Suzhou Hongtu Intelligent Technology Co.,Ltd.

Address before: 223005 No. 9 Haikou Road, Huaian Economic and Technological Development Zone, Jiangsu Province

Patentee before: HUAIAN FUN SOFWARE Co.,Ltd.

TR01 Transfer of patent right