CN113656738A - 网站分类方法、装置、电子设备及可读存储介质 - Google Patents
网站分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113656738A CN113656738A CN202110983685.6A CN202110983685A CN113656738A CN 113656738 A CN113656738 A CN 113656738A CN 202110983685 A CN202110983685 A CN 202110983685A CN 113656738 A CN113656738 A CN 113656738A
- Authority
- CN
- China
- Prior art keywords
- classification
- website
- classified
- sample
- information set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013145 classification model Methods 0.000 claims abstract description 76
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000000513 principal component analysis Methods 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 17
- 230000009466 transformation Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000000265 homogenisation Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 9
- 241000283690 Bos taurus Species 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000036541 health Effects 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 241000234435 Lilium Species 0.000 description 2
- 241000256856 Vespidae Species 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例提供了一种网站分类方法、装置、电子设备及可读存储介质,涉及计算机技术领域。该方法应用于电子设备,电子设备中存储有分类模型,分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,该方法包括:根据待分类网站的描述信息,获得待分类网站的第一特征信息集;根据目标转换矩阵对第一特征信息集进行降维处理,得到第二特征信息集,目标转换矩阵为在获得分类模型时对样本描述信息进行主成分分析时确定的矩阵,第二特征信息集的维度数量小于第一特征信息集的维度数量;基于分类模型,根据第二特征信息集获得待分类网站的分类结果。如此,可节省大量的人力,提高分类效率及分类结果的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种网站分类方法、装置、电子设备及可读存储介质。
背景技术
目前的网站资源比较多,为了便于人们查找和使用,会对网站资源进行分类,形成网站资源分类。目前只要是人工对目标网站进行浏览和查看,从而判断网站的类型。比如,确定一个网站是视频网站。这种方式需要大量的人工参与、成本较高、效率低,并且人工分类时需要依靠主观判断,会存在分类不准确的情况,也即人工构建的网站分类存在偏差。
发明内容
本申请实施例提供了一种网站分类方法、装置、电子设备及可读存储介质,其能够根据待分类网站的描述信息,利用预先训练好的分类模型,快速确定该待分类网站的分类结果,可节省大量的人力,提高分类效率,同时降低人力成本,提高分类结果的准确性。
本申请的实施例可以这样实现:
第一方面,本申请实施例提供一种网站分类方法,应用于电子设备,所述电子设备中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,所述方法包括:
根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集;
根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集,其中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析时确定的矩阵,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量;
基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。
第二方面,本申请实施例提供一种网站分类装置,应用于电子设备,所述电子设备中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,所述装置包括:
信息获取模块,用于根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集;
处理模块,用于根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集,其中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析时确定的矩阵,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量;
分类模块,用于基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式中任意一项所述的网站分类方法。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任意一项所述的网站分类方法。
本申请实施例提供的网站分类方法、装置、电子设备及可读存储介质,根据待分类网站的描述信息,获得该待分类网站的第一特征信息集;进而利用在获得分类模型时对已分类网站的样本描述信息进行主成分信息时确定的目标矩阵,对该第一特征信息集进行降维处理,得到第二特征信息集,其中,上述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到;接着,则可以基于该分类模型,根据该第二特征信息集对该待分类网站进行分类,得到该待分类网站的分类结果。如此,可节省大量的人力,网站分类速快,可针对大量网站进行批量化分类;并且,由于分类时使用的分类模型是基于已分类网站的信息得到的,使得该分类模型更加依赖于数据本身所隐藏的数据分布特征,无需增加过多的专家的主观判断,由此使得得到的分类结果更加准确和客观。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图;
图2为本申请实施例提供的网站分类方法的流程示意图;
图3为本申请实施例提供的待分类网站信息示意图;
图4为图2中步骤S210包括的子步骤的流程示意图;
图5为本申请实施例提供的获得分类模型的过程示意图;
图6为本申请实施例提供的已分类网站信息示意图;
图7为图5中步骤S120包括的子步骤的流程示意图;
图8为本申请实施例提供的样本分类结果的处理结果和第一样本特征信息集的示意图;
图9为本申请实施例提供的提供的构建xgboost分类模型的示意图;
图10为本申请实施例提供的网站分类装置的方框示意图。
图标:100-电子设备;110-存储器;120-处理器;130-通信单元;200-网站分类装置;210-信息获取模块;220-处理模块;230-分类模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前主要是通过人工对目标网站进行浏览和查看,判断网站类型。通过这种方式进行网站分类,通过需要依赖于人工对不同类网站的熟悉程度,在熟悉程度非常高的情况下,才能做出比较准确的判断。并且,通过人工进网站分类,需要大量人工参与,人力成本比较高且效率低。
同时,人工构建网站分类,依赖于专家的先验知识。由于对同一个网站的不同认知,会存在理解上的偏差,因此,人工构建的网站分类也存在偏差。也即,人工进行网站分类时会出现分类不准确的情况。
针对上述情况,本申请实施例提出了一种网站分类方法、装置、电子设备及可读存储介质,其能够根据待分类网站的描述信息,利用预先训练好的分类模型,快速确定该待分类网站的分类结果,可节省大量的人力,提高分类效率,同时降低人力成本,提高分类结果的准确性。其中,值得说明的是,针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得到的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应是发明人在本申请过程中对本申请做出的贡献。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的电子设备100的方框示意图。所述电子设备100可以是,但不限于,电脑、服务器等。所述电子设备100可以包括存储器110、处理器120及通信单元130。所述存储器110、处理器120以及通信单元130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。比如,存储器110中存储有网站分类装置200,所述网站分类装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本申请实施例中的网站分类装置200,从而执行各种功能应用以及数据处理,即实现本申请实施例中的网站分类方法。
通信单元130用于通过网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2为本申请实施例提供的网站分类方法的流程示意图。所述网站分类方法可应用于上述电子设备100,该电子设备100中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到。下面对网站分类方法的具体流程进行详细阐述。所述网站分类方法可以包括步骤S210~步骤S230。
步骤S210,根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集。
在本实施例中,所述待分类网站为需要被进行分类的网站,具体可以由实际情况确定。在确定待分类网站的情况下,可获得该待分类网站的相关信息作为该待分类网站的描述信息。其中,所述描述信息的具体内容可以结合实际需求确定。在获得所述待分类网站的描述信息情况下,可将该描述信息处于为第一特征集,以便后续分类使用。
步骤S220,根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集。
在本实施例中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析(Principal Component Analysis,PCA)时确定的矩阵。主成分分析是一种将多个变量通过线性变换以选出较少个数重要变量的多元统计分析方法。通过主成分分析既可以实现降维,同时可以减少一些不要维度的特征值的影响。
在获得第一特征信息集的情况下,可利用该目标转换矩阵对该第一特征信息进行降维处理,从而获得第二特征信息集。其中,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量。所述第二特征信息集中的具体维度数量可以由所述目标转换矩阵确定,比如,6个。
步骤S230,基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。
可将所述第二特征信息集,输入到所述分类模型中,从而得到该待分类网站的网站类别,也即,获得该待分类网站的分类结果。
如此,可根据预先基于已分类网站的样本描述信息及样本分类结果得到的分类模型以及待分类网站的描述信息,获得待分类网站的分类结果。该方式的网站分类效率高,可针对大量网站进行批量化分类,无需投入大量的人工进行批注和判断,可节省大量的人力成本;并且,由于分类时不是基于专家经验进行分类,而是基于已分类网站的信息得到的分类模型,更加依赖于数据本身所隐藏的数据分布特征,无需增加过多的专家的主观判断,由此使得得到的分类结果更加准确和客观。
可选地,在确定所述待分类网站的情况下,可以根据该待分类网站的网址信息,收集该待分类网站的描述信息。可以理解的是,也可以通过其他方式获得所述待分类网站的描述信息。
作为一种可能的实现方式,所述描述信息可以包括标题及简介,也即包括待分类网站的网站标题及网站简介。
如图3所示,在待分类网站为健康160时,可根据健康160的网址ww.91160.com,获得健康160的标题及简介,作为健康160的描述信息。其中,标题为:健康160(就医160挂号网)-互联网医疗服务平台;简介为:健康160(原就医160网)-让健康更简单,汇聚全国3000多家大型医院及47万医生医院,提供预约挂号、在线咨询、海外医疗等健康管理服务,累计服务人次2.5亿。健康160已于2015年12月挂牌新三板,成为中国移动医疗第一股,股票代码834750,股票名称:宁远科技。待分类网站还可以为百合网、清风DJ音乐、马蜂窝、全景网等,百合网、清风DJ音乐、马蜂窝、全景网各自对应的标题及简介的具体内容如图3所示,在此不再具体说明。
请参照图4,图4为图2中步骤S210包括的子步骤的流程示意图。步骤S210可以包括子步骤S211~子步骤S213。
子步骤S211,对所述标题及简介中的无效字符进行剔除,得到处理后的标题及处理后的简介。
在得到所述待分类网站的标题及简介之后,可将所述标题及简介中的乱码、表情包等无效字符进行剔除,以避免无效字符对后续的网站分类造成不良影响。其中,具体的无效字符可以结合实际情况设定。
子步骤S212,对处理后的标题及处理后的简介进行拼接,得到拼接结果。
可在处理后的标题与处理后的简介之后设置一预设标点符号(比如,中文句号),进行拼接,从而得到包括处理后的标题和处理后的简介的拼接结果。并且,在针对该拼接结果构造词向量时,也不会出现将处理后的标题中的文字与处理后的简介中的文字作为一个词的情况。
子步骤S213,获得所述拼接结果的词向量。
在获得拼接结果的情况下,可采用word2vec、CBOW(Continuous Bag-of-Words,连续词袋)、GloVe、TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)算法等,构造词向量。
在获得所述待分类网站的词向量的情况下,可利用所述目标转换矩阵对该词向量进行降维处理,得到第二特征信息集中;然后将该第二特征信息集中所包括的特征值(即特征信息)输入到所述分类模型中,所述分类模型输出该待分类网站的分类结果。
在本实施例中,所述分类模型可以是所述电子设备100经过预先训练得到的,也可以是所述电子设备100通过接收其他设备发送的训练好的分类模型的方式得到的,在此不做具体限定。
作为一种可选的实施方式,可通过图5所示方式训练得到所述分类模型。请参照图5,图5为本申请实施例提供的获得分类模型的过程示意图。获得所述分类模型的过程可以包括步骤S110及步骤S120。
步骤S110,获得多个已分类网站各自的样本描述信息及样本分类结果。
可从公开的互联网分类网站上,收集已经分类好的网站列表,得到多个已分类网站的样本描述信息以及初始分类结果。其中,一个已分类网站的样本描述信息可以包括该已分类网站的标题及简介等,该已分类网站的初始分类结果为该已分类网站当前的分类结果(即,该已分类网站的类型)。
请参照图6,图6为本申请实施例提供的已分类网站信息示意图。如图6所示,在一个已分类网站为牛游戏网的情况下,可获得牛游戏网目前的分类结果(即图6中的网站类别)游戏作为初始分类结果,并获得牛游戏网的标题及简介作为牛游戏网的样本描述信息。其中,标题为:单机游戏下在大全_好玩的电脑单机游戏下载排行榜_牛游戏网;简介为:牛游戏网提供最新最热门的好玩的单机游戏下载,同时还有相关资讯、攻略和补丁。并有最齐全的电脑单机游戏排行榜,是你们最理想的电脑单机游戏下载平台。已分类网站还可以为爱奇艺、京东、17吉他网、CCT5-体育频道等,爱奇艺、京东、17吉他网、CCT5-体育频道各自对应的初始分类结果、标题及简介的具体内容如图6所示,在此不再具体说明。
在获得已分类网站的样本描述信息及初始分类结果的情况下,可判断一个已分类网站的样本描述信息中的简介字数是否小于预设值。其中,所述预设值可以根据实际情况设置。比如,若通过统计分析发现绝大多数的已分类网站的简介字数都大于10,那么则可以将预设值设置为10。
若一个已分类网站的简介字数小于预设值,则可以剔除该已分类网站,由此可筛选出简介字数不少于预设值的已分类网站。如此,便于后续提取关键词,进而便于训练得到所述分类模型。
对于采集到的多个已分类网站的初始分类结果,进行同质化分类,也即进行类别合并,从而得到各已分类网站的样本分类结果。也即,样本分类结果为经过对多个已分类网站的初始分类结果进行同质化分类后确定的分类结果。可选地,同质化分类针对的对象可以是经过基于简介字数筛选后的已分类网站的初始分类结果。比如,将网游、页游、游戏等,均划分为游戏。通过合并后,可得到游戏、新闻、视频、邮箱、小说、社交、音乐、财经等24个分类。如此,可增加相同样本分类结果对应的样本量,减小不同样本量的数量差异,保证所述分类模型的训练效果。
步骤S120,根据所述样本描述信息及样本分类结果,训练得到所述分类模型。
可选地,作为一种可选的实施方式,可通过图7所示方式基于所述样本描述信息及样本分类结果,得到所述分类模型。请参照图7,图7为图5中步骤S120包括的子步骤的流程示意图。步骤S120可以包括子步骤S121~子步骤S123。
子步骤S121,根据每个已分类网站的样本描述信息,获得每个已分类网站的第一样本特征信息集。
在本实施例中,可每个已分类网站,将该已分类网站的样本描述信息中的无效字符剔除,得到处理后的样本描述信息,也即得到处理后的简介和标题,以避免无效字符对分类模型的训练产生不良影响。其中,可选地,可在基于简介字数进行筛选之后,进行上述无效字符剔除处理。
接着,可针对每个已分类网站处理后的简介和标题,按照预设预设标点符号(比如,中文句号)进行拼接,得到样本拼接结果,以便提取关键词。其中,在一个样本拼接结果中,已分类网站处理后的标题与已分类网站处理后的简介之间存在所述预设标点符号。
可针对每个已分类网站的样本拼接结果,采用word2vec、CBOW(Continuous Bag-of-Words,连续词袋)、GloVe、TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)算法等,构造每个已分类网站的词向量作为该已分类网站的样本词向量。一个已分类网站的第一样本特征信息集包括该已分类网站的样本词向量。
在采用TF-IDF算法针对图6所示的已分类网站:牛游戏网、爱奇艺、京东、17吉他网、CCTC5-体育频道等,分别进行词向量构造后,可获得每个已分类网站的样本词向量。其中,牛游戏网、爱奇艺、京东、17吉他网、CCTC5-体育频道各自的样本词向量可如图8所示。其中,一个已分类网站的样本词向量具体该已分类网站在图8所对应的W1-Wn的具体数值组成。其中,W1-Wn的具体数值表示一个词w对应的TF-IDF分值。
为便于后续训练分类模型使用,还可以将每个已分类网站的样本分类结果采用one-hot编码。比如,如图8所示,牛游戏网的样本分类结果为游戏,在one-hot编码之后,游戏的分类编码为1000…000。
子步骤S122,针对所获得的第一样本特征信息集,进行主成分分析,确定所述目标转换矩阵,并根据所述目标转换矩阵对每个已分类网站的第一样本特征信息集进行降维处理,得到每个已分类网站的第二样本特征信息集。
可将经子步骤S122得到的多个已分类网站各自的样本词向量,组成一个词向量矩阵。该词向量矩阵比较稀疏,直接使用的效果比较差。可采用PCA进行降维处理。其中,在降维处理过程中,可根据主成分的贡献度,选取一定数量的主成分,比如,6个主成分的累计贡献已超过0.95,则可以在降维处理之后只保留这6个主成分。
经过主成分分析,可确定出实现降维的目标转换矩阵。可根据该目标转换矩阵对每个已分类网站的第一样本特征信息进行降维处理,从而得到每个已分类网站的第二样本特征信息集。
子步骤S123,根据每个已分类网站的第二样本特征信息集及样本分类结果,训练得到所述分类模型。
可选地,可利用任意方式基于每个已分类网站的第二样本特征信息集及样本分类结果,通过训练,得到所述分类模型。
作为一种可能的实现方式,可基于已分类网站的第二样本特征信息集及样本分类结果,对基于xgboost算法的初始模型进行训练,获得所述分类模型。如此,即使每种类别对应的样本量差异较大,也可以保证训练出的分类模型的分类效果。
下面以采用xgboost算法为例,结合图9对获得分类模型的过程进行简要说明。
输入层:输入处理好的已分类网站1、2、3等的样本描述信息及样本分类结果。
特征提取层:针对处理好的已分类网站的样本描述信息,采用TF-IDF算法,构造词向量;并采用PCA针对稀疏的词向量进行进行降维,从而得到每个已分类网站的第二样本特征集。其中,图9中的每个网站对应的w1、w2、w3、w4、w5、…表示该网站的第一样本特征信息集,图9中每个网站对应的f1、f2、f3表示该网站的第二样本特征信息集。
输出层:构建xgboost分类模型,得到基于特征提取层提取的特征得到的网站分类结果。其中,图9中的T1、T2、T3、…表示由xgboost算法生成的一系列树模型。网站分类结果是由这一系列的树模型加权得到的一个最终结果。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种网站分类装置200的实现方式,可选地,该网站分类装置200可以采用上述图1所示的电子设备100的器件结构。进一步地,请参照图10,图10为本申请实施例提供的网站分类装置200的方框示意图。需要说明的是,本实施例所提供的网站分类装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。所述网站分类装置200可应用于电子设备100,所述电子设备100中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到。所述网站分类装置200可以包括信息获取模块210、处理模块220及分类模块230。
所述信息获取模块210,用于根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集。
所述处理模块220,用于根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集。其中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析时确定的矩阵,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量。
所述分类模块230,用于基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。
可选地,在本实施例中,所述描述信息包括标题及简介,所述第一特征信息集包括词向量,所述信息获取模块210具体用于:对所述标题及简介中的无效字符进行剔除,得到处理后的标题及处理后的简介;对处理后的标题及处理后的简介进行拼接,得到拼接结果,其中,在所述拼接结果中,处理后的标题与处理后的简介之间存在预设标点符号;获得所述拼接结果的词向量。
可选地,在本实施例中,所述信息获取模块210具体用于:针对所述拼接结果,采用词频-逆向文件频率TF-IDF算法,构造词向量。
可选地,在本实施例中,所述分类模型通过如下方式得到:获得多个已分类网站各自的样本描述信息及样本分类结果,其中,所述样本分类结果为经过对所述多个已分类网站的初始分类结果进行同质化分类后确定的分类结果;根据所述样本描述信息及样本分类结果,训练得到所述分类模型。
可选地,在本实施例中,可通过如下方式根据所述样本描述信息及样本分类结果,训练得到所述分类模型:根据每个已分类网站的样本描述信息,获得每个已分类网站的第一样本特征信息集;针对所获得的第一样本特征信息集,进行主成分分析,确定所述目标转换矩阵,并根据所述目标转换矩阵对每个已分类网站的第一样本特征信息集进行降维处理,得到每个已分类网站的第二样本特征信息集;根据每个已分类网站的第二样本特征信息集及样本分类结果,训练得到所述分类模型。
可选地,在本实施例中,可对基于xgboost算法的初始模型进行训练,获得所述分类模型。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于电子设备100的操作系统(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的网站分类方法。
综上所述,本申请实施例提供一种网站分类方法、装置、电子设备及可读存储介质,根据待分类网站的描述信息,获得该待分类网站的第一特征信息集;进而利用在获得分类模型时对已分类网站的样本描述信息进行主成分信息时确定的目标矩阵,对该第一特征信息集进行降维处理,得到第二特征信息集,其中,上述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到;接着,则可以基于该分类模型,根据该第二特征信息集对该待分类网站进行分类,得到该待分类网站的分类结果。如此,可节省大量的人力,网站分类速快,可针对大量网站进行批量化分类;并且,由于分类时使用的分类模型是基于已分类网站的信息得到的,使得该分类模型更加依赖于数据本身所隐藏的数据分布特征,无需增加过多的专家的主观判断,由此使得得到的分类结果更加准确和客观。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的可选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种网站分类方法,其特征在于,应用于电子设备,所述电子设备中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,所述方法包括:
根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集;
根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集,其中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析时确定的矩阵,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量;
基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述描述信息包括标题及简介,所述第一特征信息集包括词向量,所述根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集,包括:
对所述标题及简介中的无效字符进行剔除,得到处理后的标题及处理后的简介;
对处理后的标题及处理后的简介进行拼接,得到拼接结果,其中,在所述拼接结果中,处理后的标题与处理后的简介之间存在预设标点符号;
获得所述拼接结果的词向量。
3.根据权利要求2所述的方法,其特征在于,所述获得所述拼接结果的词向量,包括:
针对所述拼接结果,采用词频-逆向文件频率TF-IDF算法,构造词向量。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述分类模型通过如下方式得到:
获得多个已分类网站各自的样本描述信息及样本分类结果,其中,所述样本分类结果为经过对所述多个已分类网站的初始分类结果进行同质化分类后确定的分类结果;
根据所述样本描述信息及样本分类结果,训练得到所述分类模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述样本描述信息及样本分类结果,训练得到所述分类模型,包括:
根据每个已分类网站的样本描述信息,获得每个已分类网站的第一样本特征信息集;
针对所获得的第一样本特征信息集,进行主成分分析,确定所述目标转换矩阵,并根据所述目标转换矩阵对每个已分类网站的第一样本特征信息集进行降维处理,得到每个已分类网站的第二样本特征信息集;
根据每个已分类网站的第二样本特征信息集及样本分类结果,训练得到所述分类模型。
6.根据权利要求4所述的方法,其特征在于,所述训练得到所述分类模型,包括:
对基于xgboost算法的初始模型进行训练,获得所述分类模型。
7.一种网站分类装置,其特征在于,应用于电子设备,所述电子设备中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,所述装置包括:
信息获取模块,用于根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集;
处理模块,用于根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集,其中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析时确定的矩阵,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量;
分类模块,用于基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。
8.根据权利要求7所述的装置,其特征在于,所述分类模型通过如下方式得到:
获得多个已分类网站各自的样本描述信息及样本分类结果,其中,所述样本分类结果为经过对所述多个已分类网站的初始分类结果进行同质化分类后确定的分类结果;
根据所述样本描述信息及样本分类结果,训练得到所述分类模型。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-6中任意一项所述的网站分类方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述的网站分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110983685.6A CN113656738A (zh) | 2021-08-25 | 2021-08-25 | 网站分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110983685.6A CN113656738A (zh) | 2021-08-25 | 2021-08-25 | 网站分类方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113656738A true CN113656738A (zh) | 2021-11-16 |
Family
ID=78482033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110983685.6A Pending CN113656738A (zh) | 2021-08-25 | 2021-08-25 | 网站分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656738A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962327A (zh) * | 2021-11-12 | 2022-01-21 | 上海冰鉴信息科技有限公司 | 数据分类方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408809A (zh) * | 2018-09-25 | 2019-03-01 | 天津大学 | 一种基于词向量的针对汽车产品评论的情感分析方法 |
CN110516074A (zh) * | 2019-10-23 | 2019-11-29 | 中国人民解放军国防科技大学 | 一种基于深度学习的网站主题分类方法及装置 |
CN111984792A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 网站分类方法、装置、计算机设备及存储介质 |
CN112417863A (zh) * | 2020-11-27 | 2021-02-26 | 中国科学院电子学研究所苏州研究院 | 基于预训练词向量模型与随机森林算法的中文文本分类方法 |
-
2021
- 2021-08-25 CN CN202110983685.6A patent/CN113656738A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408809A (zh) * | 2018-09-25 | 2019-03-01 | 天津大学 | 一种基于词向量的针对汽车产品评论的情感分析方法 |
CN110516074A (zh) * | 2019-10-23 | 2019-11-29 | 中国人民解放军国防科技大学 | 一种基于深度学习的网站主题分类方法及装置 |
CN111984792A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 网站分类方法、装置、计算机设备及存储介质 |
CN112417863A (zh) * | 2020-11-27 | 2021-02-26 | 中国科学院电子学研究所苏州研究院 | 基于预训练词向量模型与随机森林算法的中文文本分类方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962327A (zh) * | 2021-11-12 | 2022-01-21 | 上海冰鉴信息科技有限公司 | 数据分类方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325146B (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
US20090319449A1 (en) | Providing context for web articles | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN110569349A (zh) | 基于大数据的患教文章推送方法、系统、设备及存储介质 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN108182287A (zh) | 一种自动问答方法、装置及服务器 | |
CN113688310A (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN109819002B (zh) | 数据推送方法和装置、存储介质及电子装置 | |
EP2613275B1 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
CN111639485A (zh) | 基于文本相似性的课程推荐方法及相关设备 | |
CN113656738A (zh) | 网站分类方法、装置、电子设备及可读存储介质 | |
CN112269906B (zh) | 网页正文的自动抽取方法及装置 | |
CN110717008A (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN111611781B (zh) | 数据标注方法、问答方法、装置及电子设备 | |
CN114428910A (zh) | 资源推荐方法、装置、电子设备、产品及介质 | |
Liu et al. | A method to acquire cross‐domain requirements based on syntax direct technique | |
CN116610872A (zh) | 新闻推荐模型的训练方法及装置 | |
CN104424300A (zh) | 个性化搜索提示方法及装置 | |
CN108415959B (zh) | 一种文本分类方法及装置 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN116578777A (zh) | 一种消息推送方法及装置、存储介质、计算机设备 | |
CN113724817A (zh) | 基于人工智能的知识推荐方法、装置、计算机设备及介质 | |
CN114520035A (zh) | 一种志愿者筛选方法、装置、电子设备及存储介质 | |
Butcher | Contract Information Extraction Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211116 |