CN108875019B - 一种资源结构化链接的信息快速分类方法 - Google Patents

一种资源结构化链接的信息快速分类方法 Download PDF

Info

Publication number
CN108875019B
CN108875019B CN201810635588.6A CN201810635588A CN108875019B CN 108875019 B CN108875019 B CN 108875019B CN 201810635588 A CN201810635588 A CN 201810635588A CN 108875019 B CN108875019 B CN 108875019B
Authority
CN
China
Prior art keywords
classified
resource
word
classification
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810635588.6A
Other languages
English (en)
Other versions
CN108875019A (zh
Inventor
周泓
潘舒新
朱全银
李翔
高尚兵
胡荣林
冯万利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201810635588.6A priority Critical patent/CN108875019B/zh
Publication of CN108875019A publication Critical patent/CN108875019A/zh
Application granted granted Critical
Publication of CN108875019B publication Critical patent/CN108875019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本专利公开发明了一种资源结构化链接的信息快速分类方法,本专利首先统计文本语料库中的词汇,将词汇表示为一个唯一的id号,设置文本词汇的长度,将所有的文本映射为具有固定长度的id序列,使用卷积神经网络对文本语料库进行训练,得到文本分类器,接着将资源结构化链接切分,将切分的数据使用第三方翻译接口进行英‑汉转换,得到待分类资源结构化链接的分类词集,然后设定分类词阈值,统计每一个待分类资源结构化链接的分类词数量,分类词数小于阈值时,使用脚本爬取资源结构化链接的网页信息,并进行分类,分类词数大于阈值时,将分类词进行倒序排序,得到待分类资源结构化链接的分类结果。本发明方法有效的提取了资源结构化链接中的有效信息,提高了网页分类的效率。

Description

一种资源结构化链接的信息快速分类方法
技术领域
本发明属于网页信息内容完整性评估技术领域,特别涉及一种资源结构化链接的信息快速分类方法。
背景技术
网页分类对于对实现人员的行为习惯分析有着重要的作用和意义。传统的网页分类技术,在分类时往往需要对待分类的网页进行访问并爬取网页信息,增加了网页分类的时间,降低了网页分类的效率,已经不能满足社会信息化发展的需求。近年来,针对网页爬取效率低,导致网页分类时间冗长的问题,研究者提出了相应的解决方法,如网页正则对比、手工标注等。
朱全银、潘舒新等人已有的研究基础包括:李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,SunqunCao.A Novel Classifier-independent Feature Selection Algorithm forImbalancedDatasets.2009,p:77-82;QuanyinZhu,YunyangYan,JinDing,JinQian.TheCase Study for Price Extracting ofMobile Phone Sell Online.2011,p:282-285;ZhuQuanyin,Pan Lu,Yin Yonghua LiXiang.Influence on Normalization and MagnitudeNormalization for PriceForecasting ofAgricultural Products.InformationTechnology Journal(ITJ).2013.Vol.12(15):3046-3057;Quanyin Zhu,Jin Ding,Yonghua Yin,Pei Zhou.A Hybrid Approach for New Products Discovery of CellPhone Based on Web Mining.Journal of Information and Computational Science(JICS).2012,Vol.9(16):5039-5046;Pan S,Fan J,Yu S,et al.AMethod ofBehaviorEvaluation Based on Web Browsing Information.Smart Grid and ElectricalAutomation(ICSGEA),2017International Conference on.IEEE,2017:697-700.朱全银、潘舒新等人申请、公开与授权的相关专利:朱全银,尹永华,严云杨,曹苏群等,一种基于神经网络的多品种商品价格预测的数据预处理方法.中国专利:ZL 2012 1 0325368.6,2016.06.08;朱全银,严云洋,李翔,张永军等,一种基于文本分类和图像深度挖掘的科技情报获取与推送方法.中国专利:CN 104035997 B,2017.05.10;朱全银,张宇洋,刘文儒,张亮等,一种校园个性化掌上服务及用户行为习惯分析的实现方法.中国专利:CN 104731971B;朱全银,辛诚,李翔,潘舒新等,一种基于K-means和LDA双向验证的网络行为习惯聚类方法.中国专利公开号:CN106202480A,2016.12.07;朱全银,辛诚,刘斌,潘舒新等,一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法.中国专利公开号:CN106202498A,2016.12.07;朱全银,潘舒新,李翔,贾笑颖等,一种多维度的网页浏览行为评估方法.中国专利公开号:CN106886577A,2017.06.23;严云洋、瞿学新、朱全银等,一种基于Bagging和离群点的分类结果置信度的度量方法.中国专利公开号:CN 106874944 A,2017.07.14;朱全银、严云洋、胡荣林等,一种基于互信息和关联规则的文本特征提取方法.中国专利公开号:CN 107766323 A,2018.03.30;朱全银、邵武杰、唐海波等,一种科学新闻标题的多层次多分类方法.中国专利公开号:CN 105760524 A,2016.08.10;肖绍章、朱全银、钱凯、潘舒新等,一种学生浏览网页分类方法.中国公开专利号:CN 107506472 A,2018.01.16。
现有技术分析:
汤奇峰、吴军在2016年申请的发明专利《基于超链分析的页面语义信息提取方法及系统》(中国专利公开号CN 105243091 A,2016.01.13)提出从某一个网站的首页开始,逐层抓取所有的超链信息,并针对抓取的结果进行统计学习匹配,从而产生一种url模板;董雄飞在2016年申请的发明专利《一种基于本体思想的网页信息提取方法》(中国专利公开号CN 106202259 A,2016.12.07)提出了一种基于本体思想的网页信息提取方法,通过对网页分词结果进行分析得到特征词并计算特征权值,从而提高网页提取的质量;张磊在2015年申请的发明专利《一种网页分类方法及装置》(中国专利公开号CN 104820674 A,2015.08.05)提出对域名的每一层进行分类,得到域名的分类关系表。
虽然上述三种典型的网页分类方式都提高了传统的网页分类效率,但是没有考虑到随着动态网站的流行,网页链接从传统的无规则的数字转变为具有结构化的网页链接,即网页链接中也存在着有效的、可以用来分类的信息,如果不充分考虑URL中存在的信息,只通过网页爬取的方式进行分类,往往会导致网页分类不准确或者网页分类效率较低的情况出现。
资源结构化链接:
资源结构化链接来源于REST(Representational State Transfer)思想。要使网络上的一个资源能够被识别,需要有一个唯一标识,在Web中这个唯一标识就是URI(Uniform Resource Identifier)。URI既可以看作是资源的地址,也可以看作是资源的名称。如果某些信息没有使用URI来表示,那它就不能算是一个资源,只能算是资源的一些信息而已。URI的设计应遵循可寻址性原则,具有自描述性,需要在形式上给人以直觉上的关联。曾经Web上的URI多使用冰冷的数字或者无意义的字符串,但现在越来越多的网站使用_或-来分隔一些单词,让URI看上去更为人性化。我们将这些使用单词或者具有明显特征的网页链接,称为资源结构化链接。
卷积神经网络:
卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像、语音识别和文本分类等方面能够取得更好的效果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习模型。
传统的网页分类都是直接通过使用脚本爬取网页,获取网页信息,然后再进行分类,就会存在这样的问题:每一次分类都对网页进行爬取,网页分类的时间大部分浪费在了网页爬取上,降低了网页分类的效率。
发明内容
发明目的针对传统方法存在的问题,本发明提供一种通过卷积神经网络训练文本分类器,采用一种资源结构化链接的信息快速分类方法,在使用人员进行网页分类时,以提高分类效率的资源结构化链接的信息快速分类方法。
技术方案:本发明提出一种资源结构化链接的信息快速分类方法,包括如下步骤:
(1)统计文本语料库中的词汇,并将每个词汇表示为一个唯一的id号,设置文本词汇的长度,将所有的文本映射为具有固定长度的id序列,使用卷积神经网络对文本语料库中的训练集进行训练,得到基于卷积神经网络的文本分类器CNN-CLA;
(2)统计待分类的资源结构化链接中的“/”和“.”的数量,将资源结构化链接进行切分,使用第三方翻译接口对切分的数据进行英-汉转换,将翻译后的数据放入CNN-CLA中进行分类,得到待分类资源结构化链接的分类词集;
(3)设定分类词阈值,统计每一个待分类资源结构化链接的分类词数量,如果分类词数量小于阈值,则使用脚本爬取资源结构化链接的网页内容,并使用CNN-CLA对网页进行分类,如果分类词数量大于阈值,将分类词进行倒序排序,得到待分类资源结构化链接的分类结果。
进一步的,所述步骤(1)中得到基于卷积神经网络的文本分类器CNN-CLA的具体步骤如下:
(1.1)定义文本分类集;
(1.2)统计训练集中的文本,并为文本中的每个词汇分配具有唯一属性的id号;
(1.3)为文本分类集中的每一个分类分配具有唯一性质的id号;
(1.4)设定文本词汇的长度,将所有的训练集词汇映射为具有固定长度的id序列;
(1.5)设定CNN的词向量维度、序列长度、卷积神经网络、总迭代次数;
(1.6)使用CNN对文本训练集进行训练,得到基于卷积神经网络的文本分类器CNN-CLA。
进一步的,所述步骤(2)中得到待分类资源结构化链接的分类词集的具体步骤如下:
(2.1)定义待分类资源结构化链接地址集;
(2.2)将待分类资源结构化链接按照“.”和“/”进行切分;
(2.3)使用第三方翻译接口,对切分后的数据进行英-汉转换;
(2.4)将翻译后的数据与原始数据相交然后做差,得到待分类资源结构化链接词汇集;
(2.5)使用CNN-CLA对待分类资源结构化链接词汇集进行分类,得到待分类资源结构化链接分类词集。
进一步的,所述步骤(3)中得到待分类资源结构化链接的分类结果的具体步骤如下:
(3.1)统计待分类资源结构化链接分类词集的数量;
(3.2)定义分类词数量阈值;
(3.3)当分类词数量小于阈值时,使用脚本爬取资源结构化链接的网页信息并进行分类;
(3.4)当分类词数量大于或等于阈值时,对分类词集进行倒序排序,得到待分类资源结构化链接分类中的最多的一项分类结果;
(3.5)得到资源结构化链接分类集。
进一步的,所述步骤(1)中得到基于卷积神经网络的文本分类器CNN-CLA的详细步骤如下:
(1.1)定义CT1,CT2,CT3,CT4,CT5,CT6,CT7,CT8,CT9,CT10,分别为体育,财经,房产,家具,教育,科技,时尚,时政,游戏,娱乐文本,定义文本分类集UR LFCT={CT1,CT2,CT3,CT4,CT5,CT6,CT7,CT8,CT9,CT10},CTi={txti1,txti2,...txtin},其中txtin为CTi文本集中的第n篇文章,i∈[1,10],n为CTi的文章数;
(1.2)从每个CT中拷贝50000个文件,并按照5:2:3的比例进行切割,得到文本训练集WTRAIN,文本测试集WTEST,文本验证集WVAL;
(1.3)统计WTRAIN中的文本,得到WTRAIN的词汇表集WVOC={word1,w ord2,...,words};
(1.4)统计WVOC的中的元素,得到词汇-id表集WVOCId={word1,1,word2,2,...,words,s};其中,words,s为词汇words,的id编号是s;
(1.5)定义分类-id集,CTId={CT1,1,CT2,2,...,CT10,10},其中,CTk,k为分类为CTk的id编号为k;
(1.6)将WVOCId翻转,得到id-词汇表集IdWVOC={word1,1,word2,2,...,words,s};其中,words,s为第s个id编号对应的词汇是words
(1.7)将测试集WTRAIN中的词汇转变为固定长度的id序列,得到文本训练id序列集Wid={tid1,tid2,...tidin},其中,tidin为CTi文本集中的第n篇文章的id序列;
(1.8)设定CNN的词向量维度、序列长度、卷积核数目、总迭代次数;
(1.9)使用TensorFlow框架,用CNN算法训练Wid,得到最终的分类准确率;
(1.10)得到基于卷积神经网络的文本分类器CNN-CLA。
进一步的,所述步骤(2)中得到待分类资源结构化链接的分类词集的详细步骤如下:
(2.1)定义待分类资源结构化链接地址集WEB={web1,web2,…,webn};
(2.2)定义变量k,并赋初值k=1;
(2.3)如果k<=n,转到步骤2.4;否则,转到步骤2.10;
(2.4)去除webk中的“https://”和“http://”,统计webk中“.”和“/”的数量为NUM;
(2.5)将webk按照“.”和“/”进行切分,得到待分类资源结构化链接域名集WEBUrl={webu1,webu2,...,webuNUM+1},其中,NUM是webk中“.”和“/”的数量;
(2.6)使用第三方翻译接口,对待分类资源结构化链接域名集进行英-汉转换,得到待分类资源结构化链接域名翻译集WEBTran={webt1,webt2,…,webtNUM+1};
(2.7)将待分类资源结构化链接域名翻译集与待分类网页域名集相交,然后与待分类资源结构化链接域名翻译集做差,得到待资源结构化链接网页词汇集WEBWord=WEBTran-(WEBTran∩WEBUrl)={word1,word2…wordm};
(2.8)使用文本分类器CNN-CLA对WEBWord中的词进行分类,得到待分类资源结构化链接分类词集WEBCla={cla1,cla2,..,clam};
(2.9)k=k+1;
(2.10)得到待分类资源结构化链接总词集
Figure BDA0001701446290000061
其中,
Figure BDA0001701446290000062
为编号为n的待分类资源结构化链接,其所对应的待分类资源结构化链接分类词集为WEBClan
进一步的,所述步骤(3)中得到待分类资源结构化链接的分类结果的详细步骤如下:
(3.1)统计待分类资源结构化链接总词集中每个待分类资源结构化链接的分类词数量,得到待分类资源结构化链接分类数量集WEBCount={count1,count2,…,countn},其中,countn代表第n个待分类资源结构化链接所对对应的分类词数量为count;
(3.2)定义分类词数量阈值为Y;
(3.3)定义变量f,并赋初值f=1;
(3.4)如果f<=n,转到步骤2.5;否则,转到步骤3.11;
(3.5)如果countf<Y,转到步骤3.6;否则,转到步骤3.8;
(3.6)使用脚本爬取资源结构化链接webn,得到资源结构化链接的网页内容,使用文本分类器CNN-CLA对网页内容进行分类;
(3.7)f=f+1;
(3.8)对webf对应的待分类资源结构化链接分类词集WEBClaf进行统计,得到待分类资源结构化链接统计集WEBNum={cla1,1,cla2,2…,claq,qn};其中,claq,qn为分类结果为CTq的词数量为qn,q=10;
(3.9)对待分类资源结构化链接统计集WEBNum中的元素进行倒序排序,得到待分类资源结构化链接分类最多的一项分类结果;
(3.10)f=f+1;
(3.11)得到资源结构化链接分类集WEBFin={fin1,fin2,…,finn}。
本发明采用上述技术方案,具有以下有益效果:本专利首先统计文本预料库中的词汇,将词汇表示为一个唯一的id号码,设置文本词汇的长度,将所有的id号映射为具有固定长度的id序列,使用卷积神经网络对文本语料库进行训练,得到文本分类器,接着将资源结构化链接切分,将切分的数据使用第三方翻译接口进行英-汉转换,得到待分类资源结构化链接的分类词集,然后设定分类词阈值,统计每一个待分类资源结构化链接的分类词数量,分类词数小于阈值时,使用脚本爬取资源结构化链接的网页内容,并进行分类,分类词数大于阈值时,将分类词进行倒序排序,得到待分类资源结构化链接的分类结果。本发明方法有效的提取了资源结构化链接中的有效信息,提高了网页分类的效率。
附图说明
图1为本发明的整体流程图;
图2为图1中基于卷积神经网络文本分类器训练流程图;
图3为图1中提取资源结构化链接信息流程图;
图4为图1中基于提取资源结构化链接信息的网页分类流程图;
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-4所示,本发明所述的一种资源结构化链接的信息快速分类方法,包括如下步骤:
步骤一:统计文本语料库中的词汇,并将每个词汇表示为一个唯一的id号,设置文本词汇的长度,将所有的文本映射为具有固定长度的id序列,使用卷积神经网络对文本语料库中的训练集进行训练,得到基于卷积神经网络的文本分类器CNN-CLA,具体的如图2所示:
步骤1.1:定义CT1,CT2,CT3,CT4,CT5,CT6,CT7,CT8,CT9,CT10,分别为体育,财经,房产,家具,教育,科技,时尚,时政,游戏,娱乐文本,定义文本分类集URLFCT={CT1,CT2,CT3,CT4,CT5,CT6,CT7,CT8,CT9,CT10},CTi={txti1,txti2,...txt in},其中txtin为CTi文本集中的第n篇文章,i∈[1,10],n为CTi的文章数;
步骤1.2:从每个CT中拷贝50000个文件,并按照5:2:3的比例进行切割,得到文本训练集WTRAIN,文本测试集WTEST,文本验证集WVAL;
步骤1.3:统计WTRAIN中的文本,得到WTRAIN的词汇表集WVOC={word1,word2,...,words};
步骤1.4:统计WVOC的中的元素,得到词汇-id表集WVOCId={word1,1,word2,2,...,words,s}。其中,words,s为词汇words,的id编号是s;
步骤1.5:定义分类-id集,CTId={CT1,1,CT2,2,...,CT10,10},其中,CTk,k为分类为CTk的id编号为k;
步骤1.6:将WVOCId翻转,得到id-词汇表集IdWVOC={word1,1,word2,2,...,words,s}。其中,words,s为第s个id编号对应的词汇是words
步骤1.7:将测试集WTRAIN中的词汇转变为固定长度的id序列,得到文本训练id序列集Wid={tid1,tid2,...tidin},其中,tidin为CTi文本集中的第n篇文章的id序列;
步骤1.8:设定CNN的词向量维度、序列长度、卷积核数目、总迭代次数;
步骤1.9:使用TensorFlow框架,用CNN算法训练Wid,得到最终的分类准确率;
步骤1.10:得到基于卷积神经网络的文本分类器CNN-CLA。
步骤二:统计待分类的资源结构化链接中的“/”和“.”的数量,将资源结构化链接进行切分,使用第三方翻译接口对切分的数据进行英-汉转换,将翻译后的数据放入CNN-CLA中进行分类,得到待分类资源结构化链接的分类词集,具体的如图3所示:
步骤2.1:定义待分类资源结构化链接地址集WEB={web1,web2,…,webn};
步骤2.2:定义变量k,并赋初值k=1;
步骤2.3:如果k<=n,转到步骤2.4;否则,转到步骤2.10;
步骤2.4:去除webk中的“https://”和“http://”,统计webk中“.”和“/”的数量为NUM;
步骤2.5:将webk按照“.”和“/”进行切分,得到待分类资源结构化链接域名集WEBUrl={webu1,webu2,...,webuNUM+1},其中,NUM是webk中“.”和“/”的数量;
步骤2.6:使用第三方翻译接口,对待分类资源结构化链接域名集进行英-汉转换,得到待分类资源结构化链接域名翻译集WEBTran={webt1,webt2,…,webtNUM+1};
步骤2.7:将待分类资源结构化链接域名翻译集与待分类网页域名集相交,然后与待分类资源结构化链接域名翻译集做差,得到待资源结构化链接网页词汇集WEBWord=WEBTran-(WEBTran∩WEBUrl)={word1,word2…wordm};
步骤2.8:使用文本分类器CNN-CLA对WEBWord中的词进行分类,得到待分类资源结构化链接分类词集WEBCla={cla1,cla2,..,clam};
步骤2.9:k=k+1;
步骤2.10:得到待分类资源结构化链接总词集
Figure BDA0001701446290000091
其中,
Figure BDA0001701446290000092
为编号为n的待分类资源结构化链接,其所对应的待分类资源结构化链接分类词集为WEBClan
步骤三:设定分类词阈值,统计每一个待分类资源结构化链接的分类词数量,如果分类词数量小于阈值,则使用脚本爬取资源结构化链接的网页内容,并使用CNN-CLA对网页进行分类,如果分类词数量大于阈值,将分类词进行倒序排序,得到待分类资源结构化链接的分类结果,具体的如图4所示:
步骤3.1:统计待分类资源结构化链接总词集
Figure BDA0001701446290000093
中每个待分类资源结构化链接的分类词数量,得到待分类资源结构化链接分类数量集WEBCount={count1,count2,…,countn},其中,countn代表第n个待分类资源结构化链接所对对应的分类词数量为count;
步骤3.2:定义分类词数量阈值为Y;
步骤3.3:定义变量f,并赋初值f=1;
步骤3.4:如果f<=n,转到步骤2.5;否则,转到步骤3.11;
步骤3.5:如果countf<Y,转到步骤3.6;否则,转到步骤3.8;
步骤3.6:使用脚本爬取资源结构化链接webn,得到资源结构化链接的网页内容,使用文本分类器CNN-CLA对网页内容进行分类;
步骤3.7:f=f+1;
步骤3.8:对webf对应的待分类资源结构化链接分类词集WEBClaf进行统计,得到待分类资源结构化链接统计集WEBNum={cla1,1,cla2,2…,claq,qn}。其中,claq,qn为分类结果为CTq的词数量为qn,q=10;
步骤3.9:对待分类资源结构化链接统计集WEBNum中的元素进行倒序排序,得到待分类资源结构化链接分类最多的一项分类结果;
步:3.10:f=f+1;
步骤3.11:得到资源结构化链接分类集WEBFin={fin1,fin2,…,finn}。
为了更好的说明本方法的有效性,抽取10000条符合资源结构化链接的URL进行分析。首先通过脚本爬取URL所对应的网页信息,使用训练好的CNN-CLA文本分类器进行网页分类,可以确定2803条URL的类型,占总数的28.03%,消耗时间35分钟;使用本发明方法的步骤,能够确定8961条URL的类型,占总数的89.61%,消耗时间8分钟,相比传统的网页爬取的网页分类方法,URL类型确认率提高了61.58%,消耗时间缩短了27分钟。

Claims (6)

1.一种资源结构化链接的信息快速分类方法,其特征在于,包括如下步骤:
(1)统计文本语料库中的词汇,并将每个词汇表示为一个唯一的id号,设置词汇的长度,将所有的词汇映射为具有固定长度的id序列,使用卷积神经网络对文本语料库中的训练集进行训练,得到基于卷积神经网络的文本分类器CNN-CLA;
(2)统计待分类的资源结构化链接中的“/”和“.”的数量,将资源结构化链接进行切分,使用第三方翻译接口对切分的数据进行英-汉转换,将翻译后的数据放入CNN-CLA中进行分类,得到待分类资源结构化链接的分类词集;
(3)设定分类词阈值,统计每一个待分类资源结构化链接的分类词数量,如果分类词数量小于阈值,则使用脚本爬取资源结构化链接的网页内容,并使用CNN-CLA对网页进行分类,如果分类词数量大于阈值,将分类词进行倒序排序,得到待分类资源结构化链接的分类结果。
2.根据权利要求1所述的一种资源结构化链接的信息快速分类方法,其特征在于,所述步骤(1)中得到基于卷积神经网络的文本分类器CNN-CLA的具体步骤如下:
(1.1)定义文本分类集;
(1.2)统计训练集中的词汇,并为每个词汇分配具有唯一属性的id号;
(1.3)为文本分类集中的每一个分类分配具有唯一性质的id号;
(1.4)设定词汇的长度,将所有的训练集词汇映射为具有固定长度的id序列;
(1.5)设定CNN的词向量维度、序列长度、卷积核数量、总迭代次数;
(1.6)使用CNN对训练集进行训练,得到基于卷积神经网络的文本分类器CNN-CLA。
3.根据权利要求2所述的一种资源结构化链接的信息快速分类方法,其特征在于,所述步骤(2)中得到待分类资源结构化链接的分类词集的具体步骤如下:
(2.1)定义待分类资源结构化链接地址集;
(2.2)将待分类资源结构化链接按照“.”和“/”进行切分;
(2.3)使用第三方翻译接口,对切分后的数据进行英-汉转换;
(2.4)将翻译后的数据与原始数据相交然后做差,得到待分类资源结构化链接词汇集;
(2.5)使用CNN-CLA对待分类资源结构化链接词汇集进行分类,得到待分类资源结构化链接分类词集。
4.根据权利要求1所述的一种资源结构化链接的信息快速分类方法,其特征在于,所述步骤(1)中得到基于卷积神经网络的文本分类器CNN-CLA的详细步骤如下:
(1.1)定义CT1,CT2,CT3,CT4,CT5,CT6,CT7,CT8,CT9,CT10,分别为体育,财经,房产,家具,教育,科技,时尚,时政,游戏,娱乐文本,定义文本分类集URLFCT={CT1,CT2,CT3,CT4,CT5,CT6,CT7,CT8,CT9,CT10},CTi={txti1,txti2,...txtin},其中txtin为CTi文本集中的第n篇文章,i∈[1,10],n为CTi的文章数;
(1.2)从每个文本分类中拷贝50000个文件,并按照5:2:3的比例进行切割,得到文本训练集WTRAIN,文本测试集WTEST,文本验证集WVAL;
(1.3)统计WTRAIN中的文本,得到WTRAIN的词汇表集WVOC={word1,word2,...,words};
(1.4)统计WVOC的中的元素,得到词汇-id表集WVOCId={word1,1,word2,2,...,wordsw,sd};其中,wordsw,sd为词汇wordsw的id编号是sd;
(1.5)定义分类-id集,CTId={CT1,1,CT2,2,...,CT10,10},其中,CTk,k为分类为CTk的id编号为k;
(1.6)将WVOCId翻转,得到id-词汇表集IdWVOC={word1,1,word2,2,...,wordidwoc,wordwoc};其中,wordidwoc,wordwoc表示第idwoc个id编号对应的词汇是wordwordwoc
(1.7)将训练集WTRAIN中的词汇转变为固定长度的id序列,得到文本训练id序列集Wid={W1,W2,...W10},Wi={tidi,1,tidi,2,...tidi,n}其中,tidi,n为CTi文本集中的第n篇文章的id序列;
(1.8)设定CNN的词向量维度、序列长度、卷积核数目、总迭代次数;
(1.9)使用TensorFlow框架,用CNN算法训练Wid,得到最终的分类准确率;
(1.10)得到基于卷积神经网络的文本分类器CNN-CLA。
5.根据权利要求4所述的一种资源结构化链接的信息快速分类方法,其特征在于,所述步骤(2)中得到待分类资源结构化链接的分类词集的详细步骤如下:
(2.1)定义待分类资源结构化链接地址集WEB={web1,web2,…,webg};
(2.2)定义变量k,并赋初值k=1;
(2.3)如果k<=g,转到步骤2.4;否则,转到步骤2.10;
(2.4)去除webk中的“https://”和“http://”,统计webk中“.”和“/”的数量为NUM;
(2.5)将webk按照“.”和“/”进行切分,得到待分类资源结构化链接域名集WEBUrl={webu1,webu2,...,webuNUM+1},其中,NUM是webk中“.”和“/”的数量;
(2.6)使用第三方翻译接口,对待分类资源结构化链接域名集进行英-汉转换,得到待分类资源结构化链接域名翻译集WEBTran={webt1,webt2,…,webtNUM+1};
(2.7)将待分类资源结构化链接域名翻译集与待分类资源结构化链接域名集相交,然后与待分类资源结构化链接域名翻译集做差,得到待分类资源结构化链接网页词汇集WEBWord=WEBTran-(WEBTran∩WEBUrl)={word1,word2…wordm};
(2.8)使用文本分类器CNN-CLA对WEBWord中的词进行分类,得到待分类资源结构化链接分类词集WEBCla={cla1,cla2,..,clam};
(2.9)k=k+1;
(2.10)得到待分类资源结构化链接总词集WEBACLa={WEBCla1,WEBCla2,...,WEBClag},其中,WEBClag表示第g个待分类资源结构化链接地址所对应的待分类资源结构化链接分类词集。
6.根据权利要求5所述的一种资源结构化链接的信息快速分类方法,其特征在于,所述步骤(3)中得到待分类资源结构化链接的分类结果的详细步骤如下:
(3.1)统计待分类资源结构化链接总词集WEBACLa={WEBCla1,WEBCla2,...,WEBClag}中每个待分类资源结构化链接的分类词数量,得到待分类资源结构化链接分类数量集WEBCount={count1,count2,…,countg},其中,countg代表第g个待分类资源结构化链接所对应的分类词数量;
(3.2)定义分类词数量阈值为Y;
(3.3)定义变量f,并赋初值f=1;
(3.4)如果f<=g,转到步骤3.5;否则,转到步骤3.11;
(3.5)如果countf<Y,转到步骤3.6;否则,转到步骤3.8;
(3.6)使用脚本爬取资源结构化链接webf,得到资源结构化链接的网页内容,使用文本分类器CNN-CLA对网页内容进行分类;
(3.7)f=f+1;
(3.8)对webf对应的待分类资源结构化链接分类词集WEBClaf进行统计,得到待分类资源结构化链接统计集WEBNum={X1,X2…,X10};其中,Xi表示分类结果为CTi的词数量;
(3.9)对待分类资源结构化链接统计集WEBNum中的元素进行倒序排序,得到待分类资源结构化链接分类最多的一项分类结果;
(3.10)f=f+1;
(3.11)得到资源结构化链接分类集WEBFin={fin1,fin2,…,fing}。
CN201810635588.6A 2018-06-20 2018-06-20 一种资源结构化链接的信息快速分类方法 Active CN108875019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810635588.6A CN108875019B (zh) 2018-06-20 2018-06-20 一种资源结构化链接的信息快速分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810635588.6A CN108875019B (zh) 2018-06-20 2018-06-20 一种资源结构化链接的信息快速分类方法

Publications (2)

Publication Number Publication Date
CN108875019A CN108875019A (zh) 2018-11-23
CN108875019B true CN108875019B (zh) 2022-07-26

Family

ID=64340517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810635588.6A Active CN108875019B (zh) 2018-06-20 2018-06-20 一种资源结构化链接的信息快速分类方法

Country Status (1)

Country Link
CN (1) CN108875019B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020024B (zh) * 2019-03-15 2021-07-30 中国人民解放军军事科学院军事科学信息研究中心 一种科技文献中链接资源的分类方法、系统、设备
CN114897478B (zh) * 2022-06-06 2023-12-22 壹沓科技(上海)有限公司 一种数据处理方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243091A (zh) * 2015-09-11 2016-01-13 晶赞广告(上海)有限公司 基于超链分析的页面语义信息提取方法及系统
CN106599155A (zh) * 2016-12-07 2017-04-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统
CN107066548A (zh) * 2017-03-21 2017-08-18 华中科技大学 一种双维度分类提取网页链接的方法
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243091A (zh) * 2015-09-11 2016-01-13 晶赞广告(上海)有限公司 基于超链分析的页面语义信息提取方法及系统
CN106599155A (zh) * 2016-12-07 2017-04-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统
CN107066548A (zh) * 2017-03-21 2017-08-18 华中科技大学 一种双维度分类提取网页链接的方法
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An Algorithm for Title Classification on Scientific News;Wujie Shao等;《Proceeding of the 2016 2nd Workshop on Advanced Research and Technology in Industry Applications》;20160531;第1883-1887页 *

Also Published As

Publication number Publication date
CN108875019A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN106599022B (zh) 基于用户访问数据的用户画像形成方法
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
US20210191509A1 (en) Information recommendation method, device and storage medium
CN105446973B (zh) 社交网络中用户推荐模型的建立及应用方法和装置
WO2022033199A1 (zh) 一种获得用户画像的方法及相关装置
CN101266620B (zh) 向用户提供目标信息的方法及设备
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
US11797634B2 (en) System and method for providing a content item based on computer vision processing of images
Hensinger et al. Modelling and predicting news popularity
JP5740228B2 (ja) 代表的なコメント抽出方法およびプログラム
Zhang et al. Boosted random contextual semantic space based representation for visual recognition
CN108875019B (zh) 一种资源结构化链接的信息快速分类方法
CN109034953B (zh) 一种电影推荐方法
Wang et al. Flickr group recommendation with auxiliary information in heterogeneous information networks
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
Huang et al. An empirical study of personalized advertising recommendation based on DBSCAN clustering of sina weibo user-generated content
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
Yang et al. The recommendation systems for smart tv
CN106886577B (zh) 一种多维度网页浏览行为评估方法
Gan et al. CDMF: a deep learning model based on convolutional and dense-layer matrix factorization for context-aware recommendation
Liu et al. Joint learning of lstms-cnn and prototype for micro-video venue classification
Sivaramakrishnan et al. Validating effective resume based on employer’s interest with recommendation system
Huo et al. Collaborative filtering fusing label features based on SDAE
Almeida et al. A rank aggregation framework for video interestingness prediction
CN104462316B (zh) 一种标签匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181123

Assignee: JIANGSU AOFAN TECHNOLOGY CO.,LTD.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2022980027215

Denomination of invention: A fast information classification method based on structured link of resources

Granted publication date: 20220726

License type: Common License

Record date: 20221229

EE01 Entry into force of recordation of patent licensing contract