CN109284385A - 基于机器学习的文本分类方法及终端设备 - Google Patents
基于机器学习的文本分类方法及终端设备 Download PDFInfo
- Publication number
- CN109284385A CN109284385A CN201811197171.2A CN201811197171A CN109284385A CN 109284385 A CN109284385 A CN 109284385A CN 201811197171 A CN201811197171 A CN 201811197171A CN 109284385 A CN109284385 A CN 109284385A
- Authority
- CN
- China
- Prior art keywords
- webpage
- text
- subclass
- phrase
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010801 machine learning Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000013145 classification model Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 244000144980 herd Species 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于机器学习的文本分类方法及终端设备,通过网络爬虫抓取多个网页;针对多个网页中的任一网页,获取网页的统一资源定位符URL和锚文本;对网页的URL和锚文本进行处理,获得第一词组集合;根据第一词组集合和预设置的第二词组集合,计算网页与预设类别的相关度;对与预设类别的相关度大于第一预设值的网页进行处理得到网页文本;通过预设训练集对预设置的深度神经网络文本分类模型进行训练,并通过深度神经网络文本分类模型对网页文本进行文本分类处理,得到网页的子类别。本发明通过与预设类别相对应的文本分类模型,对与该预设类别相关度大于第一预设值的网页文本进行分类,得到该网页文本的子类别,提高了网页文本的分类精度。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种基于机器学习的文本分类方法及终端设备。
背景技术
随着互联网技术的发展,web(万维网)信息急速膨胀,给人们提供了非常丰富的网络资源,与此同时,由于web数据存在多样复杂性、动态性强等特点,使得人们无法快速找到有效的信息并加以利用。
通过web信息采集技术可以帮助人们迅速获取互联网上的资源,它是通过网络爬虫程序来分析网页的HTML(HyperText Mark-up Language,超文本标记语言)代码,获取网页的超级链接信息,使用广度优先搜索算法和增量存储算法,实现自动的连续分析链接和抓取文件。
对网络爬虫爬取到的文档进行分类具有诸多好处,例如可通过网络爬虫为某一特定行业提供系统收集服务,根据爬虫爬取到的页面进行归类于统计分析,及时向用户推送分类后的有效信息等。然而,现有技术没有针对网络爬虫爬取到的文档进行有效分类的方法。
发明内容
有鉴于此,本发明实施例提供了一种基于机器学习的文本分类方法及终端设备,以解决现有技术中无法对爬虫爬取到的文档进行精准分类的问题。
本发明实施例的第一方面提供了一种基于机器学习的文本分类方法,包括:
通过网络爬虫抓取多个网页;
针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;
对所述网页的URL和锚文本进行处理,获得第一词组集合;
根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;
若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;
获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;
通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
通过网络爬虫抓取多个网页;
针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;
对所述网页的URL和锚文本进行处理,获得第一词组集合;
根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;
若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;
获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;
通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
通过网络爬虫抓取多个网页;
针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;
对所述网页的URL和锚文本进行处理,获得第一词组集合;
根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;
若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;
获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;
通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。
本发明提供了一种基于机器学习的文本分类方法及终端设备,本发明建立与预设类别相对应的文本分类模型,并通过该文本分类模型对与该预设类别相关度大于第一预设值的网页文本进行分类,得到该网页文本的子类别,该网页文本的子类别是预设类别的一种子类别,从而提高了网页文本的分类精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于机器学习的文本分类方法的流程示意图;
图2为本发明实施例提供的另一种基于机器学习的文本分类方法的流程示意图;
图3为本发明实施例提供的又一种基于机器学习的文本分类方法的流程示意图;
图4为本发明实施例提供的一种基于机器学习的文本分类装置的结构框图;
图5为本发明实施例提供的一种终端设备示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
本发明实施例提供了一种基于机器学习的文本分类方法。结合图1,该方法包括:
S101,通过网络爬虫抓取多个网页。
可选的,可通过类别爬行系统抓取预设类别的网页,类别爬行系统是基于类别信息驱动的web数据采集系统,通过基于类别的网络爬虫,可爬取与类别相关的网页。
在本发明实施例中,可预设类别,将预设类别作为输入,编写对应的爬虫程序,并将爬虫代码封装到docker容器中,上传到云服务器。当需要一个子服务器对该预设类别的内容进行爬取时,子服务器在云服务器下载该docker容器,实现对该预设类别网页的爬取。
S102,针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本。
网络爬虫爬取到的每一个网页都对应有一个URL(Uniform Resource Locator,统一资源定位符)和锚文本,该网页的URL和锚文本中包含有用来描述该网页的文本信息。
S103,对所述网页的URL和锚文本进行处理,获得第一词组集合。
对网页的URL和锚文本进行处理的过程至少包括:进行分词处理,去除预设停用词,如“的”“了”以及其他与网页关联度较小的词,去除标点符号,进一步的,还可以进行词频分析,按照词频降序排序,去除排在后预设比例,如排除后10%的词汇,得到第一词组集合。具体的,本发明实施例对获得第一词组集合的方法不做限定。
S104,根据所述第一词组集合和预设置的第二词组集合,计算所述网页与所述预设类别的相关度。
其中,所述第二词组集合中的词组用于标识所述预设类别。
对于一个特定的类别,如农业,该预设类别包含很多与该预设类别相关的词汇,如气象、施肥、价格、种植、养殖、行情、农产品等。基于对一个预设类别相关词汇的收集,可得到该预设类别所对应的第二词组集合。
由于网络爬虫爬取到的网页与预设类别的相关度可能较低,不具有分类并推送的价值,或者,即使网络爬虫是基于预设类别进行网页的爬取,爬取到的网页也存在大量的噪声,即存在大量与预设类别相关度较低或不相关的网页,此时,需要计算爬取到的网页与预设类别的相关度,进而提升网页分类的精度。
可选的,若所述第二词组包括m个词组,通过如下方法计算网页与预设类别的相关度:获取第一词组集合中属于第二词组集合的词组的个数n,根据n与m的比值,计算所述网页与所述预设类别的相关度。比值越高,说明网页与该预设类别的相关度越高,比值越低,说明该网页与该预设类别的相关度越低。
S105,若所述网页与所述预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本。
另一种可行的实施方式,由于对于一个预设类别,其第二词组集合中的词组的个数是固定的,可通过n的个数来判断网页文本是否与预设类别相关,例如,当n≥2时,可判断该网页与预设类别相关。
当然,若在实际分类的过程中,发现与该预设类别相关的词汇没有录入第二词组集合中,或出现了一些与预设类别相关的新词,需要及时将未录入的词汇录入,定期更新第二词组集合列表。
S106,获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别。
可选的,基于论坛网站的内容通常代表着某种类别,基于论坛的这种特性,例如需要获取农业相关的网页,可爬取农业论坛的网站,爬取精度较高。
因此,通过论坛网站,获取与所述预设类别相关的多个网页,通过对处理后的所述多个网页的网页文本进行人工分类,得到所述训练集。通过这种方法得到的训练集,是与预设类别相关度高的训练集。
S107,通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。
可选的,通过训练集对深度神经网络文本分类模型进行训练包括:通过所述训练集对所述文本分类模型的学习率、训练次数、批数量和终止误差进行训练,直至达到预设训练终止条件,其中,所述预设训练终止条件为达到所述训练次数或分词结果误差低于所述终止误差。
具体的,所述深度神经网络文本分类模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述网页文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节点,所述第二隐藏层包括第二预设数目的节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为所述网页文本为所述预设子类别列表中每一种子类别的概率,所述输出层的激活函数为logistics函数。
可选的,输入层包括一个节点,该输入层节点的输入为对网页文本进行特征提取后得到的特征向量;
第一隐藏层包括100个节点,包括1×100维,激活函数为relu函数;
第二隐藏层包括200个节点,包括1×200维,激活函数为relu函数;
输出层的激活函数为logistics函数,输出结果为网页文本子类别的概率,如在训练集中将预设类别分为20个子类别,则输出层输出的是该网页文本为这20个子类别中每一类的概率。
本发明实施例提供了一种基于机器学习的文本分类方法,通过网络爬虫爬取网页,并判断获得的网页与预设类别的相关度,只提取与该预设类别相关度高于预设值的网页作为目标网页,通过训练好的与该预设类别相关的深度神经网络分类模型对目标网页进行分类,提高了文本分类的精度。
进一步的,由于对一个预设类别的子类别分类,是基于人工的分类,如将一个大的类别,如农业,分为多个小的子类别,如农业气象、农业新闻、农业政策、种植技术、水产、畜牧等,是人工分类的,其分类方法不一定非常符合实际情况,导致可能出现这样的情况:对于预设类别的一个子类别,与之相关的网页很少。为解决这一问题,结合图3,本发明实施例还提供了一种基于机器学习的文本分类方法,该方法包括:
S201,获取测试集,所述测试集中包含多个经人工分类的网页文本。
测试集的获取方法与训练集的获取方法相同,本发明实施例对此不再赘述。
具体的,若训练集的获取是基于网络爬虫对论坛数据的爬取,测试集的获取可以是该爬虫在爬取训练集数据之后,按照预设时间间隔获取的。通过这种方法获得的测试集,更能体现训练集的人工分类是否合理。
S202,针对所述训练集中的任一子类别的所有网页文本,通过聚类分析算法得到该子类别所对应的簇。
例如,预设类别为农业,其一个子类别用于表示与某一种种植技术有关,属于该子类别的网页文本有20个,通过聚类分析算法,如通过DBSCAN(Density-Based SpatialClustering of Applications with Noise)算法对该子类别进行聚类分析,DBSCAN是一个比较有代表性的基于密度的聚类算法,可以基于密度聚类,得到该类比所对应的簇,簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,在此也可称为该子类别所对应的子类别画像。
S203,获得该子类别所对应的簇的中心点和半径。
S204,依次计算所述测试集中的网页文本与所述中心点的距离。
对于测试集中的网页文本,若其与该子类别中心点的距离大于该子类别簇的半径,说明该网页文本与该子类别的相关度较小,若其与该子类别中心点的距离小于该子类别簇的半径,说明该网页文本与该子类别的相关度较大。
S205,将与所述中心点的距离小于等于所述半径的网页文本标记为目标网页文本。
S206,若目标网页文本的数目低于预设数目,则在训练集中删除该子类别以及该子类别所对应的所有网页文本。
若目标网页文本的数目低于预设值,例如对于S302中所述的与一种种植技术有关的子类别,说明与该子类别相关度高的网页很少,又由于测试集的获取是在训练集获取之后获取的,说明该子类别的设置不合理,在训练集中删除该子类别以及该子类别所对应的所有网页文本,同时在预设子类别列表中删除该子类别,更新训练集,进而提高了分类精度。
本发明实施例提供了一种基于机器学习的文本分类方法,通过聚类分析得到训练集中一个子类别的簇,通过测试集与该子类别簇的中心点的距离关系,判断与该子类别相关度较大的测试网页文本的数目,又由于测试网页文本是通过网络爬虫,在获取训练集之后获取的,若测试集中与一个子类别相关度较大的网页文本的数目很少,则说明该子类别的设置不合理,此时在预设子类别列表中删除该子类别,并在训练集中删除属于该子类别的所有网页文本,再次对深度神经网络文本分类模型进行训练,进一步提高了文本分类精度。
进一步的,结合图3,在步骤S107之后,为保证获取到的数据是最新的数据,本发明实施例所提供的方法还包括:
S301,将所述网页的URL放入预设数据库。
将完成分类的网页的URL放入预设数据库。
S302,通过所述网络爬虫按照预设时间间隔抓取所述预设类别的网页。
S303,针对所述网络爬虫抓取到的任一网页,根据所述网页的URL判断所述网页的URL是否属于第一预设数据库中的URL。
对于已经抓取过的网页,爬虫再次抓取到该网页后,通过第一预设数据库中的URL进行比对,若预设数据库中已经包含该URL,则丢弃该网页,减少重复分类,降低计算量和减少资源的消耗。
S304,若所述网页的URL属于第一预设数据库中的URL,则丢弃所述网页。
进一步的,只通过URL是否相同进行判断,无法区分网页是否更新,此时,在所述预设数据库中为所述网页的URL、所述网页所对应的网页文本的子类别和抓取所述网页的时间建立唯一映射关系;判断预设数据库中存储的抓取所述网页的时间和此次抓取所述网页的时间之间,所述网页是否存在更新;若所述网页存在更新,则通过所述深度神经网络文本分类模型对所述网页的网页文本进行分类处理,并在所述预设数据库中更新所述网页的URL、所述网页所对应的子类别和抓取所述网页的时间的唯一映射关系;若所述网页不存在更新,则丢弃所述网页。
本发明实施例提供了一种基于机器学习的文本分类方法,通过网络爬虫不断爬取预设类别的网页,并对网页的网页文本进行分类,可将分类结果推送给特定的用户,或将分类结果放入对应的子类别中供用户查看和下载等,网络爬虫按照预设时间间隔不断的爬取网页数据,将新爬取到的网页的URL与预设数据库中已经爬取到的网页的URL进行比对,及时丢弃已经分类过的网页,减少了分类的次数,进一步的,通过在预设数据库中建立网页的爬取时间与网页URL的唯一映射关机,可在爬虫后续爬取到该网页后,在预设数据库中更新该网页的爬取时间,且判断上次爬取到该网页的时间与本次爬取到该网页的时间这一时间段内,该网页是否存在更新,若该网页存在更新,则对更新后的该网页再次分类,使得分类结果具有实时性,使用户能够及时获取最新的数据。
结合图4,本发明实施例提供了一种基于机器学习的文本分类装置,该装置包括:抓取单元41、第一获取单元42、第二获取单元43、第一计算单元44、第一处理单元45、第三获取单元46和分类单元47;
抓取单元41,用于通过网络爬虫抓取多个网页;
第一获取单元42,用于针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;
第二获取单元43,用于对所述网页的URL和锚文本进行处理,获得第一词组集合;
第一计算单元44,用于根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;
若第一计算单元44计算所述网页与预设类别的相关度大于第一预设值,则第一处理单元45用于对所述网页进行处理得到网页文本;
第三获取单元46,用于获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;
分类单元47,用于通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。
所述第二词组包括m个词组,所述第一计算单元44具体用于:
获取第一词组集合中属于第二词组集合的词组的个数n;
根据n与m的比值,计算所述网页与所述预设类别的相关度。
可选的,该装置还包括存储单元48、判断单元49和第二处理单元410,
存储单元48用于将所述网页的URL放入预设数据库;
抓取单元41还用于:通过所述网络爬虫按照预设时间间隔抓取所述预设类别的网页;
判断单元49用于针对所述网络爬虫抓取到的任一网页,根据所述网页的URL判断所述网页的URL是否属于预设数据库中的URL;
若判断单元49判断所述网页的URL属于预设数据库中的URL,则第二处理单元410丢弃所述网页。
可选的,该装置还包括:建立单元411;
建立单元411,用于在所述预设数据库中为所述网页的URL、所述网页所对应的网页文本的子类别和抓取所述网页的时间建立唯一映射关系;
判断单元49还用于判断预设数据库中存储的抓取所述网页的时间和此次抓取所述网页的时间之间,所述网页是否存在更新;
若判断单元49判断所述网页存在更新,则分类单元47通过所述深度神经网络文本分类模型对所述网页的网页文本进行分类处理,建立单元411在所述预设数据库中更新所述网页的URL、所述网页所对应的子类别和抓取所述网页的时间的唯一映射关系;
若判断单元49判断所述网页不存在更新,则第二处理单元410丢弃所述网页。
可选的,所述深度神经网络文本分类模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述网页文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节点,所述第二隐藏层包括第二预设数目的节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为所述网页文本为所述预设子类别列表中每一种子类别的概率,所述输出层的激活函数为logistics函数。
可选的,第三获取单元46具体用于:通过论坛网站,获取与所述预设类别相关的多个网页;通过对处理后的所述多个网页的网页文本进行人工分类,得到所述训练集。
可选的,该装置还包括聚类单元412、第四获取单元413、第二计算单元414和第三处理单元415;
第三获取单元46还用于:获取测试集,所述测试集中包含多个经人工分类的网页文本;
聚类单元412,用于针对所述训练集中的任一子类别的所有网页文本,通过聚类分析算法得到该子类别所对应的簇;
第四获取单元413,用于获得该子类别所对应的簇的中心点和半径;
第二计算单元414,用于依次计算所述测试集中的网页文本与所述中心点的距离;将与所述中心点的距离小于等于所述半径的网页文本标记为目标网页文本;
第三处理单元415,用于若目标网页文本的数目低于预设数目,则在训练集中删除该子类别以及该子类别所对应的所有网页文本。
本发明实施例提供了一种基于机器学习的文本分类装置,通过网络爬虫爬取网页,并判断获得的网页与预设类别的相关度,只提取与该预设类别相关度高于预设值的网页作为目标网页,通过训练好的与该预设类别相关的深度神经网络分类模型对目标网页进行分类,提高了文本分类的精度。
图5为本发明实施例提供的一种终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如基于机器学习的文本分类程序。所述处理器50执行所述计算机程序52时实现上述各个文本分类方法实施例中的步骤,例如图1所示的步骤101至107,或图2所示的步骤201至206,或图3所示的步骤301至304,或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块41至415的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。
所述文本分类终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文本分类终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述文本分类方法的步骤。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的文本分类方法,其特征在于,该方法包括:
通过网络爬虫抓取多个网页;
针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;
对所述网页的URL和锚文本进行处理,获得第一词组集合;
根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;
若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;
获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;
通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。
2.根据权利要求1所述的文本分类方法,其特征在于,所述第二词组包括m个词组,所述根据所述第一词组集合和预设置的第二词组集合,计算所述网页与所述预设类别的相关度包括:
获取第一词组集合中属于第二词组集合的词组的个数n;
根据n与m的比值,计算所述网页与所述预设类别的相关度。
3.根据权利要求1所述的文本分类方法,其特征在于,在将所述网页文本进行文本分类处理之后,该方法还包括:
将所述网页的URL放入预设数据库;
通过所述网络爬虫按照预设时间间隔抓取所述预设类别的网页;
针对所述网络爬虫抓取到的任一网页,根据所述网页的URL判断所述网页的URL是否属于预设数据库中的URL;
若所述网页的URL属于预设数据库中的URL,则丢弃所述网页。
4.根据权利要求3所述的文本分类方法,其特征在于,在丢弃所述网页之前,该方法还包括:
在所述预设数据库中为所述网页的URL、所述网页所对应的网页文本的子类别和抓取所述网页的时间建立唯一映射关系;
判断预设数据库中存储的抓取所述网页的时间和此次抓取所述网页的时间之间,所述网页是否存在更新;
若所述网页存在更新,则通过所述深度神经网络文本分类模型对所述网页的网页文本进行分类处理,并在所述预设数据库中更新所述网页的URL、所述网页所对应的子类别和抓取所述网页的时间的唯一映射关系;
若所述网页不存在更新,则丢弃所述网页。
5.根据权利要求1-4任一项所述的文本分类方法,其特征在于,所述深度神经网络文本分类模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述网页文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节点,所述第二隐藏层包括第二预设数目的节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为所述网页文本为所述预设子类别列表中每一种子类别的概率,所述输出层的激活函数为logistics函数。
6.根据权利要求1所述的文本分类方法,其特征在于,所述获取预设训练集包括:
通过论坛网站,获取与所述预设类别相关的多个网页;
通过对处理后的所述多个网页的网页文本进行人工分类,得到所述训练集。
7.根据权利要求1所述的文本分类方法,其特征在于,该方法还包括:
获取测试集,所述测试集中包含多个经人工分类的网页文本;
针对所述训练集中的任一子类别的所有网页文本,通过聚类分析算法得到该子类别所对应的簇;
获得该子类别所对应的簇的中心点和半径;
依次计算所述测试集中的网页文本与所述中心点的距离;
将与所述中心点的距离小于等于所述半径的网页文本标记为目标网页文本;
若目标网页文本的数目低于预设数目,则在训练集中删除该子类别以及该子类别所对应的所有网页文本。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
通过网络爬虫抓取多个网页;
针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;
对所述网页的URL和锚文本进行处理,获得第一词组集合;
根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;
若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;
获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;
通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。
10.根据权利要求9所述的终端设备,其特征在于,所述第二词组包括m个词组,所述根据所述第一词组集合和预设置的第二词组集合,计算所述网页与所述预设类别的相关度包括:
获取第一词组集合中属于第二词组集合的词组的个数n;
根据n与m的比值,计算所述网页与所述预设类别的相关度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811197171.2A CN109284385A (zh) | 2018-10-15 | 2018-10-15 | 基于机器学习的文本分类方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811197171.2A CN109284385A (zh) | 2018-10-15 | 2018-10-15 | 基于机器学习的文本分类方法及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109284385A true CN109284385A (zh) | 2019-01-29 |
Family
ID=65176439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811197171.2A Pending CN109284385A (zh) | 2018-10-15 | 2018-10-15 | 基于机器学习的文本分类方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284385A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472022A (zh) * | 2018-10-15 | 2019-03-15 | 平安科技(深圳)有限公司 | 基于机器学习的新词识别方法及终端设备 |
CN110069690A (zh) * | 2019-04-24 | 2019-07-30 | 成都市映潮科技股份有限公司 | 一种主题网络爬虫方法、装置及介质 |
CN110493088A (zh) * | 2019-09-24 | 2019-11-22 | 国家计算机网络与信息安全管理中心 | 一种基于url的移动互联网流量分类方法 |
CN110674442A (zh) * | 2019-09-17 | 2020-01-10 | 中国银联股份有限公司 | 页面监控方法、装置、设备及计算机可读存储介质 |
CN110990562A (zh) * | 2019-10-29 | 2020-04-10 | 新智认知数字科技股份有限公司 | 警情分类方法及其系统 |
CN111159525A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 一种文本信息采集方法及装置 |
CN112632271A (zh) * | 2019-10-08 | 2021-04-09 | 中国移动通信集团浙江有限公司 | 文本分类服务部署方法、装置、设备及计算机存储介质 |
CN113688291A (zh) * | 2021-08-24 | 2021-11-23 | 北京恒安嘉新安全技术有限公司 | 一种流媒体网络数据的异常行为检测方法和装置 |
CN114595689A (zh) * | 2022-02-28 | 2022-06-07 | 深圳依时货拉拉科技有限公司 | 数据处理方法、装置、存储介质和计算机设备 |
CN114595689B (zh) * | 2022-02-28 | 2024-10-29 | 深圳依时货拉拉科技有限公司 | 数据处理方法、装置、存储介质和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
CN104281710A (zh) * | 2014-10-27 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种网络数据挖掘方法 |
CN105101124A (zh) * | 2015-08-07 | 2015-11-25 | 北京奇虎科技有限公司 | 标注短信类别的方法及装置 |
CN105956002A (zh) * | 2016-04-20 | 2016-09-21 | 广州精点计算机科技有限公司 | 一种基于url分析的网页分类方法及装置 |
-
2018
- 2018-10-15 CN CN201811197171.2A patent/CN109284385A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
CN104281710A (zh) * | 2014-10-27 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种网络数据挖掘方法 |
CN105101124A (zh) * | 2015-08-07 | 2015-11-25 | 北京奇虎科技有限公司 | 标注短信类别的方法及装置 |
CN105956002A (zh) * | 2016-04-20 | 2016-09-21 | 广州精点计算机科技有限公司 | 一种基于url分析的网页分类方法及装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472022A (zh) * | 2018-10-15 | 2019-03-15 | 平安科技(深圳)有限公司 | 基于机器学习的新词识别方法及终端设备 |
CN110069690A (zh) * | 2019-04-24 | 2019-07-30 | 成都市映潮科技股份有限公司 | 一种主题网络爬虫方法、装置及介质 |
CN110069690B (zh) * | 2019-04-24 | 2021-12-07 | 成都映潮科技股份有限公司 | 一种主题网络爬虫方法、装置及介质 |
CN110674442A (zh) * | 2019-09-17 | 2020-01-10 | 中国银联股份有限公司 | 页面监控方法、装置、设备及计算机可读存储介质 |
CN110674442B (zh) * | 2019-09-17 | 2023-08-18 | 中国银联股份有限公司 | 页面监控方法、装置、设备及计算机可读存储介质 |
CN110493088B (zh) * | 2019-09-24 | 2021-06-01 | 国家计算机网络与信息安全管理中心 | 一种基于url的移动互联网流量分类方法 |
CN110493088A (zh) * | 2019-09-24 | 2019-11-22 | 国家计算机网络与信息安全管理中心 | 一种基于url的移动互联网流量分类方法 |
CN112632271A (zh) * | 2019-10-08 | 2021-04-09 | 中国移动通信集团浙江有限公司 | 文本分类服务部署方法、装置、设备及计算机存储介质 |
CN110990562A (zh) * | 2019-10-29 | 2020-04-10 | 新智认知数字科技股份有限公司 | 警情分类方法及其系统 |
CN110990562B (zh) * | 2019-10-29 | 2022-08-26 | 新智认知数字科技股份有限公司 | 警情分类方法及其系统 |
CN111159525A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 一种文本信息采集方法及装置 |
CN113688291A (zh) * | 2021-08-24 | 2021-11-23 | 北京恒安嘉新安全技术有限公司 | 一种流媒体网络数据的异常行为检测方法和装置 |
CN113688291B (zh) * | 2021-08-24 | 2023-09-01 | 北京恒安嘉新安全技术有限公司 | 一种流媒体网络数据的异常行为检测方法和装置 |
CN114595689A (zh) * | 2022-02-28 | 2022-06-07 | 深圳依时货拉拉科技有限公司 | 数据处理方法、装置、存储介质和计算机设备 |
CN114595689B (zh) * | 2022-02-28 | 2024-10-29 | 深圳依时货拉拉科技有限公司 | 数据处理方法、装置、存储介质和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284385A (zh) | 基于机器学习的文本分类方法及终端设备 | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN109471937A (zh) | 一种基于机器学习的文本分类方法及终端设备 | |
CN108427708B (zh) | 数据处理方法、装置、存储介质和电子装置 | |
Lee et al. | Neural networks for web content filtering | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和系统 | |
CN106997549A (zh) | 一种广告信息的推送方法及系统 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN112749284A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
Martín-Bautista et al. | User profiles and fuzzy logic for web retrieval issues | |
CN111538931A (zh) | 基于大数据的舆情监控方法、装置、计算机设备及介质 | |
CN106446124B (zh) | 一种基于网络关系图的网站分类方法 | |
CN113139052B (zh) | 基于图神经网络特征聚合的谣言检测方法及装置 | |
CN108830630B (zh) | 一种虚假消息的识别方法及其设备 | |
CN113361258A (zh) | 基于图卷积网络和选择注意力的方面级情感分析方法及系统 | |
CN112131578A (zh) | 攻击信息预测模型的训练方法、装置、电子设备及存储介质 | |
CN109472022A (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN108229170A (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN107861945A (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN106778851A (zh) | 基于手机取证数据的社交关系预测系统及其方法 | |
CN108959293A (zh) | 一种文本数据分类方法及服务器 | |
CN113239268A (zh) | 一种商品推荐方法、装置及系统 | |
Mahmoudi et al. | Web spam detection based on discriminative content and link features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |