CN113076453A - 域名分类方法、设备及计算机可读存储介质 - Google Patents
域名分类方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113076453A CN113076453A CN202110305374.4A CN202110305374A CN113076453A CN 113076453 A CN113076453 A CN 113076453A CN 202110305374 A CN202110305374 A CN 202110305374A CN 113076453 A CN113076453 A CN 113076453A
- Authority
- CN
- China
- Prior art keywords
- domain name
- model
- classification
- name classification
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000013145 classification model Methods 0.000 claims description 114
- 230000006870 function Effects 0.000 claims description 61
- 238000012549 training Methods 0.000 claims description 42
- 238000012795 verification Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000009193 crawling Effects 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000010200 validation analysis Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种域名分类方法、设备及计算机可读存储介质,所述域名分类方法通过直接提取待分类域名的页面标签特征来作为模型的输入,从而减少了特征工程的复杂性;通过预先在模型中定义具有层次结构的域名类别体系,使得能够基于此挖掘待分类域名所属域名类型之间的层次依赖关系,使得此层次依赖关系能够得到利用;通过在模型中添加递归正则化方法,使得层次依赖关系能够融入到模型参数的正则化结构中;通过利用层级依赖关系与正则化的递归结构进行模型参数估计,使得层次中临近域名类型的参数相似,有助于在估计模型参数时利用域名层次中相近类型的信息,从而提高了域名分类方法的准确度。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种域名分类方法、设备及计算机可读存储介质。
背景技术
域名分类是将域名分配给一个或多个预定义类别的过程,在内容推荐、特定主题的网络分析、上下文搜索优化中起着重要作用。根据类别标签的不同,域名分类问题可以分为域名主题分类,域名功能类型分类等不同问题。域名功能类型可以看作是域名所提供给用户的功能标签,例如在线购物,新闻媒体,政府组织,资源下载和搜索引擎等,在线购物网站的目的是为用户提供搜索产品的界面并允许用户在线购物和付款。
现有的面向功能类型的域名分类方法通常以特征工程为核心,依赖于不同类型的特征,对域名所属类型之间包含的关系揭示不足,难以发现域名不同类型之间关系,从而导致了域名分类的准确度不高的技术问题。
发明内容
本发明的主要目的在于提供一种域名分类方法、设备及计算机可读存储介质,旨在解决现有的域名分类方法的域名分类准确度不高的技术问题。
为实现上述目的,本发明提供一种域名分类方法,所述域名分类方法包括:
获取待分类域名,提取所述待分类域名的页面标签特征;
将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;
基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;
利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。
可选地,所述基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系的步骤包括:
使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。
可选地,所述利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计的步骤包括:
基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;
基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。
可选地,所述获取待分类域名的步骤之前,还包括:
爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;
根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;
根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。
可选地,所述基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型的步骤包括:
将所述域名分类数据集按照预设比例随机切分为训练集、验证集和测试集;
对所述训练集进行训练,得到初始域名分类模型;
利用所述验证集验证所述初始域名分类模型是否过拟合;
若是,则判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准;
若是,则判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准;
若是,则将所述初始域名分类模型作为所述目标域名分类模型。
可选地,所述利用所述验证集验证所述初始域名分类模型是否过拟合的步骤之后,还包括:
若否,则继续对所述初始域名分类模型进行训练;
所述判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准的步骤之后,还包括:
若否,则调整所述初始域名分类模型的模型参数,并重新训练模型参数调整后的初始域名分类模型;
所述判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准的步骤之后,还包括:
若否,则对所述域名分类数据集进行重划分,以基于重划分后的域名分类数据集进行模型训练。
可选地,所述对所述训练集进行训练,得到初始域名分类模型的步骤包括:
在所述输入层,将所述样本域名与所述样本域名描述信息转换为特定形式的输入文本序列,以将所述输入文本序列输入所述嵌入层;
在所述嵌入层,对所述输入文本序列进行词嵌入得到词嵌入结果,以将所述词嵌入结果输入所述编码层;
在所述编码层,利用预设词袋模型捕获所述词嵌入结果的局部上下文信息,以供预设线性分类器基于所述局部上下文信息得到初始分类结果,将所述初始分类结果输入所述输出层;
在所述输出层,基于所述初始分类结果进行模型参数估计,以得到所述初始域名分类模型。
可选地,所述获取待分类域名,提取所述待分类域名的页面标签特征的步骤包括:
利用爬虫技术模拟访问所述待分类域名,提取所述待分类域名的首页源代码中meta标签的标题信息与描述信息;
将所述标题信息与描述信息拼接成所述待分类域名的meta标签特征,以作为所述页面标签特征。
此外,为实现上述目的,本发明还提供一种域名分类装置,所述域名分类装置包括:
标签特征提取模块,用于获取待分类域名,提取所述待分类域名的页面标签特征;
标签特征输入模块,用于将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;
层次关系分析模块,用于基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;
目标标签获取模块,用于利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。
可选地,所述层次关系分析模块包括:
层次分类单元,用于使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。
可选地,所述目标标签获取模块包括:
递归正则化单元,用于基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;
基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。
可选地,所述域名分类装置还包括:
样本信息爬取模块,用于爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;
类型层次划分模块,用于根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;
目标模型训练模块,用于根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。
可选地,所述目标模型训练模块还包括:
数据划分单元,用于将所述域名分类数据集按照预设比例随机切分为训练集、验证集和测试集;
初始模型获取单元,用于对所述训练集进行训练,得到初始域名分类模型;
模型拟合验证单元,用于利用所述验证集验证所述初始域名分类模型是否过拟合;
第一标准判断单元,用于若是,则判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准;
第二标准判断单元,用于若是,则判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准;
目标模型获取单元,用于若是,则将所述初始域名分类模型作为所述目标域名分类模型。
可选地,所述目标模型训练模块还包括:
模型拟合判定单元,用于若否,则继续对所述初始域名分类模型进行训练;
第一标准判定单元,用于若否,则调整所述初始域名分类模型的模型参数,并重新训练模型参数调整后的初始域名分类模型;
第二标准判定单元,用于若否,则对所述域名分类数据集进行重划分,以基于重划分后的域名分类数据集进行模型训练。
可选地,所述初始模型获取单元还用于:
在所述输入层,将所述样本域名与所述样本域名描述信息转换为特定形式的输入文本序列,以将所述输入文本序列输入所述嵌入层;
在所述嵌入层,对所述输入文本序列进行词嵌入得到词嵌入结果,以将所述词嵌入结果输入所述编码层;
在所述编码层,利用预设词袋模型捕获所述词嵌入结果的局部上下文信息,以供预设线性分类器基于所述局部上下文信息得到初始分类结果,将所述初始分类结果输入所述输出层;
在所述输出层,基于所述初始分类结果进行模型参数估计,以得到所述初始域名分类模型。
可选地,所述标签特征提取模块包括:
标签信息提取单元,用于利用爬虫技术模拟访问所述待分类域名,提取所述待分类域名的首页源代码中meta标签的标题信息与描述信息;
标签特征拼接单元,用于将所述标题信息与描述信息拼接成所述待分类域名的meta标签特征,以作为所述页面标签特征。
此外,为实现上述目的,本发明还提供一种域名分类设备,所述域名分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的域名分类程序,所述域名分类程序被所述处理器执行时实现如上述方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有域名分类程序,所述域名分类程序被处理器执行时实现如上述方法的步骤。
本发明提供一种域名分类方法、设备及计算机可读存储介质。所述域名分类方法通过直接提取待分类域名的页面标签特征来作为模型的输入,从而减少了特征工程的复杂性;通过预先在模型中定义具有层次结构的域名类别体系,使得能够基于此挖掘待分类域名所属域名类型之间的层次依赖关系,使得此层次依赖关系能够得到利用;通过在模型中添加递归正则化方法,使得层次依赖关系能够融入到模型参数的正则化结构中;通过利用层级依赖关系与正则化的递归结构进行模型参数估计,使得层次中临近域名类型的参数相似,有助于在估计模型参数时利用域名层次中相近类型的信息,从而提高了域名分类方法的准确度,解决了现有的域名分类方法的域名分类准确度不高的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的域名分类设备结构示意图;
图2为本发明域名分类方法第一实施例的流程示意图;
图3为本发明域名分类方法第三实施例的爬取流程示意图;
图4为本发明域名分类方法第三实施例的域名类别体系示意图;
图5为本发明域名分类方法第三实施例的模型训练流程示意图;
图6为本发明域名分类装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的域名分类设备结构示意图。
如图1所示,该域名分类设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。可选的用户接口1003可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory)。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
本领域技术人员可以理解,图1中示出的域名分类设备结构并不构成对域名分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及域名分类程序。
在图1所示的域名分类设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的域名分类程序,并执行本发明实施例提供的域名分类方法。
基于上述硬件结构,提出本发明域名分类方法的各个实施例。
域名分类是将域名分配给一个或多个预定义类别的过程,在内容推荐、特定主题的网络分析、上下文搜索优化中起着重要作用。根据类别标签的不同,域名分类问题可以分为域名主题分类,域名功能类型分类等不同问题。域名功能类型可以看作是域名所提供给用户的功能标签,例如在线购物,新闻媒体,政府组织,资源下载和搜索引擎等,在线购物网站的目的是为用户提供搜索产品的界面并允许用户在线购物和付款。
现有的面向功能类型的域名分类方法通常以特征工程为核心,依赖于不同类型的特征,对域名所属类型之间包含的关系揭示不足,难以发现域名不同类型之间关系,从而导致了域名分类的准确度不高的技术问题。
为解决上述技术问题,本发明提供一种域名分类方法,即直接提取待分类域名的页面标签特征来作为模型的输入,从而减少了特征工程的复杂性;通过预先在模型中定义具有层次结构的域名类别体系,使得能够基于此挖掘待分类域名所属域名类型之间的层次依赖关系,使得此层次依赖关系能够得到利用;通过在模型中添加递归正则化方法,使得层次依赖关系能够融入到模型参数的正则化结构中;通过利用层级依赖关系与正则化的递归结构进行模型参数估计,使得层次中临近域名类型的参数相似,有助于在估计模型参数时利用域名层次中相近类型的信息,从而提高了域名分类方法的准确度,解决了现有的域名分类方法的域名分类准确度不高的技术问题。
参照图2,图2为域名分类方法第一实施例的流程示意图。
本发明第一实施例提供一种域名分类方法,所述域名分类方法包括:
步骤S10,获取待分类域名,提取所述待分类域名的页面标签特征;
步骤S20,将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;
在本实施例中,本方法应用于终端设备。终端在获取到一个或多个的待分类域名时,从待分类域名的页面标签中提取特征,将提取到的页面标签特征作为预训练模型的输入。
待分类域名指的是在本次域名分类任务中需要进行分类的域名,可以为一个,也可以为多个。
页面标签特征指的是待分类域名所在的HTML页面中的标签特征。例如meta标签特征。
目标域名分类模型指的是预先已训练好的用于进行域名分类的模型,可对域名进行功能分类,或是对域名进行主题分类等。
域名类别体系指的是预先定义的对于域名的功能类型或是主题类型的层次结构体系。以下均以功能类型为例,层次结构由域名自身的功能类型和领域专家确定。域名可以具有一种或者多种功能类型即包含一个或者多个功能标签,因此,多标签分类方法更适合于捕获域名的功能类型。根据域名功能类型分类问题的以上属性可以将其映射到层次多标签分类的机器学习任务,其中域名可以属于多个功能类型并且类型之间具有层次结构。
步骤S30,基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;
步骤S40,利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。
在本实施例中,目标分类标签指的是模型最终输出的待分类域名的具体分类标签,每一待分类域名可对应一个目标分类标签,也可对应多个目标分类标签。
目标域名分类模型利用凸损失函数对多个域名类型进行层次分类,得到初步预测的待分类域名所属的多个域名类型在域名类别体系上的层次依赖关系,然后基于预设的递归正则化方式,将层次依赖关系融入模型参数的正则化结构中,最后基于预设公式,结合凸损失函数、调节参数以及正则化结构进行模型参数估计,以得到最终的目标分类标签并输出。
在本实施例中,通过获取待分类域名,提取所述待分类域名的页面标签特征;将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。通过上述方式,本发明通过直接提取待分类域名的页面标签特征来作为模型的输入,从而减少了特征工程的复杂性;通过预先在模型中定义具有层次结构的域名类别体系,使得能够基于此挖掘待分类域名所属域名类型之间的层次依赖关系,使得此层次依赖关系能够得到利用;通过在模型中添加递归正则化方法,使得层次依赖关系能够融入到模型参数的正则化结构中;通过利用层级依赖关系与正则化的递归结构进行模型参数估计,使得层次中临近域名类型的参数相似,有助于在估计模型参数时利用域名层次中相近类型的信息,从而提高了域名分类方法的准确度,解决了现有的域名分类方法的域名分类准确度不高的技术问题。
进一步地,基于上述图2所示的第一实施例,提出本发明域名分类方法的第二实施例,在本实施例中,步骤S30包括:
使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。
在本实施例中,模型利用BCEWithLogitsLoss或其他种类的凸损失函数对待分类域名所属的多个域名功能类型(域名功能标签)进行层次分类基于预先定义的域名功能类别体系确定出多个域名功能类型之间的层次依赖关系。
进一步地,所述利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计的步骤包括:
基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;
基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。
在本实施例中,将预测函数形式化为一组参数:
W={wn,n∈N},
其中,层次结构中的每个域名功能类型n都与一个参数向量wn相关联。预测功能类型标签由一组参数w进行参数化,然后在学习过程中对这些参数进行估计:
其中,Remp表示域名功能类型在训练数据集上的经验风险或损失,λ(w)表示正则化项,C是调节拟合训练实例与分层多标签分类模型的复杂性的参数(即上述的调节参数)。
经验风险Remp被定义未在层次结构叶子节点上的实例所引起的损失:
其中,L可以是任何凸损失函数,例如BCEWithLogitsLoss函数,wn为域名功能类型n对应的参数向量,M表示训练样本集合,yin为样本i的真实标签,xi表示样本i的预测标签。
将递归结构合并至正则化项的表达式为:
这种正则化的递归形式考虑了域名功能类型的层次依赖关系,使得层次中邻近域名功能类型的参数相似,有助于在估计模型参数时利用域名层次中相近的功能类型的信息。
进一步地,步骤S10包括:
利用爬虫技术模拟访问所述待分类域名,提取所述待分类域名的首页源代码中meta标签的标题信息与描述信息;
将所述标题信息与描述信息拼接成所述待分类域名的meta标签特征,以作为所述页面标签特征。
在本实施例中,针对待分类的域名,终端利用爬虫技术模拟访问待分类域名,提取待分类域名首页源代码中的meta标签的title及description信息(也即是上述的标题信息与描述信息),拼接成待分类域名的meta标签特征。其中,meta标签,是在HTML网页源代码中一个重要的html标签。meta标签用来描述一个HTML网页文档的属性,例如作者、日期和时间、网页描述、关键词、页面刷新等。
本实施例进一步通过在模型中添加递归正则化方法,使得层次依赖关系能够融入到模型参数的正则化结构中;通过利用层级依赖关系与正则化的递归结构进行模型参数估计,使得层次中临近域名类型的参数相似,有助于在估计模型参数时利用域名层次中相近类型的信息,从而提高了域名分类方法的准确度;通过仅利用从meta标签提取的特征作为模型的输入,从而减少了特征工程的复杂度。
进一步地,基于上述图2所示的第一实施例,提出本发明域名分类方法的第三实施例,在本实施例中,步骤S10之前,还包括:
爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;
根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;
根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。
在本实施例中,指定网站具体可为爱站网中文网站排行榜及站长之家网站排行榜等。其中爱站网排行榜收集了国内各行各业排名的知名网站,按照百度爱好度、alexa等进行排名,中文网站排行榜是国内最专业、最权威的中文网站排行榜;站长之家网站排行榜是站长之家旗下专业提供中文网站排名服务的栏目,收集了国内各行业排名前列的众多知名网站,是国内专业、领先的中文网站排行榜。
具体地,终端利用网络爬虫技术爬取爱站网中文网站排行榜及站长之家网站排行榜列表中的域名分页列表,然后遍历每个域名分页获取具体的域名、域名类型、域名描述信息,爬取流程如图3所示。终端模拟访问排行榜的分页页面,然后根据排行榜分页的源代码模拟访问并解析特定分页的域名信息,最后提取特定域名的域名地址、域名类型、域名标题以及描述信息作为域名样本信息。
域名类别体系具体可指域名功能类别体系。域名功能类型指的是域名提供给互联网用户的域名功能及目的,其层次结构由域名自身的功能类型和领域专家确定。根据爬取的域名地址和域名类型,可将域名功能类别体系分为大类和亚类两个层次,具体地,设置10个大类,109个亚类,10个大类与部分亚类类型及层次关系如图4所示。10个大类包括:休闲娱乐、生活服务、网上购物、网络科技、体育健身、旅游出行、新闻媒体、政府组织、教育文化和医疗健康。而休闲娱乐大类下可包括视频电影、游戏网站等亚类,生活服务大类下可包括餐饮美食、求职招聘等亚类,网上购物大类下可包括返利折扣、网上商城等亚类,网络科技大类下可包括手机数码、云盘相册等亚类,体育健身大类下可包括体育指标、户外休闲等亚类,旅游出行大类下可包括旅游电商、游记攻略等亚类,新闻媒体大类下可包括新闻门户、广播电视等亚类,政府组织大类下可包括政府门户、事业单位等亚类、教育文化大类下可包括在线教育、学校网站等亚类,医疗健康大类下可包括美容整形、医院诊所等亚类。
最后终端根据域名类别体系将域名样本信息构建为域名层次多标签分类数据集,并基于神经网络模型架构对域名层次多标签分类数据集进行训练,训练得到包括输入层、嵌入层、编码层和输出层的目标域名分类模型。
本实施例进一步通过为域名类型划分层次结构并建立体系,有助于规范域名类型以及分析域名不同类型之间的关系。
进一步地,所述基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型的步骤包括:
将所述域名分类数据集按照预设比例随机切分为训练集、验证集和测试集;
对所述训练集进行训练,得到初始域名分类模型;
利用所述验证集验证所述初始域名分类模型是否过拟合;
若是,则判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准;
若是,则判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准;
若是,则将所述初始域名分类模型作为所述目标域名分类模型。
进一步地,所述利用所述验证集验证所述初始域名分类模型是否过拟合的步骤之后,还包括:
若否,则继续对所述初始域名分类模型进行训练;
所述判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准的步骤之后,还包括:
若否,则调整所述初始域名分类模型的模型参数,并重新训练模型参数调整后的初始域名分类模型;
所述判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准的步骤之后,还包括:
若否,则对所述域名分类数据集进行重划分,以基于重划分后的域名分类数据集进行模型训练。
在本实施例中,预设比例可根据实际情况灵活设置,本实施例不做具体限定。预设第一标准可设置为超于预设第一阈值,预设第二标准可设置为超出预设第二阈值,其中第一阈值与第二阈值可设置为相同,也可设置为不同,根据具体情况而定。
作为一具体实施例,如图5所示。终端按照一定比例将域名功能类型层次多标签分类数据集随机切分为训练集、验证集与测试集,然后对训练集开始一轮训练,得到了初始的域名功能类型层次多标签分类模型(即上述初始目标域名分类模型)。终端利用验证集验证该模型是否过拟合,若该模型未过拟合则继续对该模型进行训练;若该模型过拟合则继续判断是否满意该模型在验证集上的正确率,若不满意其在验证集上的正确率,则调整模型参数重新对模型进行训练;若满意其在验证集上的正确率,则继续判断是否满意该模型在测试集上的正确率,若不满意其在测试集上的正确率,则对域名功能类型层次多标签数据集进行分析,重新将其划分新的训练集、验证集与测试集;若满意其在测试集上的正确率,则说明此时模型已训练成功。
进一步地,所述对所述训练集进行训练,得到初始域名分类模型的步骤包括:
在所述输入层,将所述样本域名与所述样本域名描述信息转换为特定形式的输入文本序列,以将所述输入文本序列输入所述嵌入层;
在所述嵌入层,对所述输入文本序列进行词嵌入得到词嵌入结果,以将所述词嵌入结果输入所述编码层;
在所述编码层,利用预设词袋模型捕获所述词嵌入结果的局部上下文信息,以供预设线性分类器基于所述局部上下文信息得到初始分类结果,将所述初始分类结果输入所述输出层;
在所述输出层,基于所述初始分类结果进行模型参数估计,以得到所述初始域名分类模型。
在本实施例中,在输入层,将提取数据集中的标题及描述信息作为域名元信息,这些元信息被作为输入文本序列处理,表示成单词标记及其N元模型n-gram形式。
在嵌入层,针对输入层的输入数据利用区域嵌入的监督词嵌入方法进行词嵌入,嵌入后词的表示包括词本身的嵌入和与本地上下文进行交互的加权矩阵,并将词特征及经过区域嵌入的上下文信息作为编码层的输入。
在编码层,利用词袋模型作为附加特征捕获词的局部上下文信息,然后将其提供给线性分类器。文本表示形式是一个隐藏变量,可以潜在地重用,其中中间单词被标签代替。
在输出层,使用凸损失函数例如BCEWithLogitsLoss进行层次分类并添加了一个递归正则化方法,可以将域名功能标签之间的层次依赖关系融入到参数的正则化结构中。基于此提高预测精确度,最终准确的输出域名类型分类结果。
如图6所示,本发明还提供一种域名分类装置,所述域名分类装置包括:
标签特征提取模块10,用于获取待分类域名,提取所述待分类域名的页面标签特征;
标签特征输入模块20,用于将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;
层次关系分析模块30,用于基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;
目标标签获取模块40,用于利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。
本发明还提供一种域名分类设备。
所述域名分类设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的域名分类程序,其中所述域名分类程序被所述处理器执行时,实现如上所述的域名分类方法的步骤。
其中,所述域名分类程序被执行时所实现的方法可参照本发明域名分类方法的各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有域名分类程序,所述域名分类程序被处理器执行时实现如上所述的域名分类方法的步骤。
其中,所述域名分类程序被执行时所实现的方法可参照本发明域名分类方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台域名分类设备执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种域名分类方法,其特征在于,所述域名分类方法包括:
获取待分类域名,提取所述待分类域名的页面标签特征;
将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;
基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;
利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。
2.如权利要求1所述的域名分类方法,其特征在于,所述基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系的步骤包括:
使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。
3.如权利要求2所述的域名分类方法,其特征在于,所述利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计的步骤包括:
基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;
基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。
4.如权利要求1所述的域名分类方法,其特征在于,所述获取待分类域名的步骤之前,还包括:
爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;
根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;
根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。
5.如权利要求4所述的域名分类方法,其特征在于,所述基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型的步骤包括:
将所述域名分类数据集按照预设比例随机切分为训练集、验证集和测试集;
对所述训练集进行训练,得到初始域名分类模型;
利用所述验证集验证所述初始域名分类模型是否过拟合;
若是,则判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准;
若是,则判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准;
若是,则将所述初始域名分类模型作为所述目标域名分类模型。
6.如权利要求5所述的域名分类方法,其特征在于,所述利用所述验证集验证所述初始域名分类模型是否过拟合的步骤之后,还包括:
若否,则继续对所述初始域名分类模型进行训练;
所述判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准的步骤之后,还包括:
若否,则调整所述初始域名分类模型的模型参数,并重新训练模型参数调整后的初始域名分类模型;
所述判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准的步骤之后,还包括:
若否,则对所述域名分类数据集进行重划分,以基于重划分后的域名分类数据集进行模型训练。
7.如权利要求5所述的域名分类方法,其特征在于,所述对所述训练集进行训练,得到初始域名分类模型的步骤包括:
在所述输入层,将所述样本域名与所述样本域名描述信息转换为特定形式的输入文本序列,以将所述输入文本序列输入所述嵌入层;
在所述嵌入层,对所述输入文本序列进行词嵌入得到词嵌入结果,以将所述词嵌入结果输入所述编码层;
在所述编码层,利用预设词袋模型捕获所述词嵌入结果的局部上下文信息,以供预设线性分类器基于所述局部上下文信息得到初始分类结果,将所述初始分类结果输入所述输出层;
在所述输出层,基于所述初始分类结果进行模型参数估计,以得到所述初始域名分类模型。
8.如权利要求1-7中任一项所述的域名分类方法,其特征在于,所述获取待分类域名,提取所述待分类域名的页面标签特征的步骤包括:
利用爬虫技术模拟访问所述待分类域名,提取所述待分类域名的首页源代码中meta标签的标题信息与描述信息;
将所述标题信息与描述信息拼接成所述待分类域名的meta标签特征,以作为所述页面标签特征。
9.一种域名分类设备,其特征在于,所述域名分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的域名分类程序,所述域名分类程序被所述处理器执行时实现如权利要求1-8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有域名分类程序,所述域名分类程序被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110305374.4A CN113076453A (zh) | 2021-03-22 | 2021-03-22 | 域名分类方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110305374.4A CN113076453A (zh) | 2021-03-22 | 2021-03-22 | 域名分类方法、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113076453A true CN113076453A (zh) | 2021-07-06 |
Family
ID=76613206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110305374.4A Pending CN113076453A (zh) | 2021-03-22 | 2021-03-22 | 域名分类方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076453A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708369A (zh) * | 2023-08-02 | 2023-09-05 | 闪捷信息科技有限公司 | 网络应用信息合并方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218241A1 (en) * | 2015-05-08 | 2018-08-02 | Guangzhou Ucweb Computer Technology Co., Ltd. | Webpage classification method and apparatus, calculation device and machine readable storage medium |
CN109388710A (zh) * | 2018-08-24 | 2019-02-26 | 国家计算机网络与信息安全管理中心 | 一种ip地址业务属性标定方法及装置 |
-
2021
- 2021-03-22 CN CN202110305374.4A patent/CN113076453A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218241A1 (en) * | 2015-05-08 | 2018-08-02 | Guangzhou Ucweb Computer Technology Co., Ltd. | Webpage classification method and apparatus, calculation device and machine readable storage medium |
CN109388710A (zh) * | 2018-08-24 | 2019-02-26 | 国家计算机网络与信息安全管理中心 | 一种ip地址业务属性标定方法及装置 |
Non-Patent Citations (1)
Title |
---|
HAO PENG 等: "Large-Scale Hierarchical Text Classification with Recursively Regularized Deep Graph-CNN", PROCEEDINGS OF THE WORLD WIDE WEB CONFERENCE, 27 April 2018 (2018-04-27), pages 1063 - 1072, XP058652578, DOI: 10.1145/3178876.3186005 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708369A (zh) * | 2023-08-02 | 2023-09-05 | 闪捷信息科技有限公司 | 网络应用信息合并方法、装置、电子设备和存储介质 |
CN116708369B (zh) * | 2023-08-02 | 2023-10-27 | 闪捷信息科技有限公司 | 网络应用信息合并方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444428B (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
US9449271B2 (en) | Classifying resources using a deep network | |
US9514405B2 (en) | Scoring concept terms using a deep network | |
CN111898031B (zh) | 一种获得用户画像的方法及装置 | |
Bhaskaran et al. | An efficient personalized trust based hybrid recommendation (tbhr) strategy for e-learning system in cloud computing | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
US20170316519A1 (en) | Mutually reinforcing ranking of social media accounts and contents | |
CN111737582B (zh) | 一种内容推荐方法及装置 | |
US20170235836A1 (en) | Information identification and extraction | |
WO2021155691A1 (zh) | 用户画像生成方法、装置、存储介质及设备 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN115659008B (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
Rawat et al. | A comprehensive study on recommendation systems their issues and future research direction in e-learning domain | |
CN116401466B (zh) | 一种图书分级分类推荐方法和系统 | |
CN113076453A (zh) | 域名分类方法、设备及计算机可读存储介质 | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN111639485A (zh) | 基于文本相似性的课程推荐方法及相关设备 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN116958622A (zh) | 数据的分类方法、装置、设备、介质及程序产品 | |
CN111914201B (zh) | 网络页面的处理方法及装置 | |
CN114580533A (zh) | 特征提取模型的训练方法、装置、设备、介质及程序产品 | |
CN116628236B (zh) | 多媒体信息的投放方法、装置、电子设备及存储介质 | |
CN116028617B (zh) | 资讯推荐方法、装置、设备、可读存储介质及程序产品 | |
Basile et al. | Augmenting a content-based recommender system with tags for cultural heritage personalization | |
Chen et al. | Expert2Vec: distributed expert representation learning in question answering community |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |