CN117743719A - 一种页面元素的识别方法 - Google Patents
一种页面元素的识别方法 Download PDFInfo
- Publication number
- CN117743719A CN117743719A CN202311783222.0A CN202311783222A CN117743719A CN 117743719 A CN117743719 A CN 117743719A CN 202311783222 A CN202311783222 A CN 202311783222A CN 117743719 A CN117743719 A CN 117743719A
- Authority
- CN
- China
- Prior art keywords
- training
- real
- feature
- sample set
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 173
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000003066 decision tree Methods 0.000 claims description 75
- 230000006870 function Effects 0.000 claims description 60
- 239000013598 vector Substances 0.000 claims description 45
- 238000013528 artificial neural network Methods 0.000 claims description 39
- 238000007637 random forest analysis Methods 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 210000002569 neuron Anatomy 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 abstract description 15
- 238000011161 development Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种页面元素的识别方法,属于前端网页设计技术领域,解决现有网页元素识别方法的准确性低、效率低的技术问题。该方法包括收集真实前端页面元素进行预处理,得到真实样本集;基于所述真实样本集,对随机函数优化的生成对抗网络模型进行训练,得到训练好的生成对抗网络模型;基于训练好的生成对抗网络模型中的生成器获取生成样本集;将所述真实样本集和所述生成样本集组成训练样本集;基于所述训练样本集训练元素识别模型,达到预定训练迭代次数后得到训练好的元素识别模型;获取真实前端页面元素,基于训练好的元素识别模型,得到真实页面元素的识别结果。实现了前端页面元素自动化识别。
Description
技术领域
本发明涉及前端网页设计技术领域,尤其涉及一种页面元素的识别方法。
背景技术
在现代的网站和网络应用中,前端网页设计和开发的重要性日益增加。前端网页不仅需要提供视觉上的吸引力,还需要确保良好的用户体验和高效的交互性能。随着网站功能的不断增强和设计的日益复杂,对自动化处理网页元素的需求变得越来越迫切。
传统的前端网页设计和开发过程中,前端网页元素(如按钮、输入框、下拉菜单、图片和链接等)的识别和处理主要依赖于人工操作。设计师和开发人员需要花费大量时间手动识别这些元素,并编写相应的代码来实现所需的功能。这个过程不仅耗时耗力,而且容易出错,尤其是在处理复杂或动态变化的网页元素时。因此,自动化识别和处理前端网页元素的技术成为了提高开发效率和质量的关键。
随着人工智能和机器学习技术的快速发展,自动识别网页元素的技术也得到了显著的发展。通过训练机器学习模型来识别和处理网页元素,可以大幅度减少人工参与,提高处理速度和准确性。然而,传统的机器学习方法在处理前端网页元素时面临诸多挑战。例如,样本不足、模型泛化能力弱、过拟合问题等,这些问题严重影响了模型的实际应用效果。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种页面元素的识别方法,用以解决现有网页元素识别方法准确性低、效率低的技术问题。
本发明实施例提供了一种页面元素的识别方法,包括如下步骤:
收集真实前端页面元素进行预处理,得到真实样本集;
基于所述真实样本集,对随机函数优化的生成对抗网络模型进行训练,得到训练好的生成对抗网络模型;基于训练好的生成对抗网络模型中的生成器获取生成样本集;将所述真实样本集和所述生成样本集组成训练样本集;
基于所述训练样本集训练元素识别模型,达到预定训练迭代次数后得到训练好的元素识别模型;
获取真实前端页面元素,基于训练好的元素识别模型,得到真实页面元素的识别结果。
进一步地,所述元素识别模型包括基于循环重新启动策略的神经网络模型和随机森林算法模型;
所基于所述训练样本集训练元素识别模型,包括:
基于所述训练样本集,训练基于循环重新启动策略的神经网络模型,得到训练好的神经网络模型;将训练样本集输入训练好的神经网络模型进行样本特征提取,得到训练样本集的元素特征集;
基于所述元素特征集,训练随机森林算法模型,得到训练好的随机森林算法模型。
进一步地,所述基于所述真实样本集,对随机函数优化的生成对抗网络模型进行训练,得到训练好的生成对抗网络模型,包括:
在一个迭代周期内,首先固定生成器,利用切比雪夫不等式调整随机噪声向量的分布得到随机噪声向量;将所述随机噪声向量输入生成器得到生成样本集;
所述生成样本集和真实样本集输入判别器,训练判别器区分真实样本和生成样本,通过反向传播优化算法更新判别器参数,其中,输入判别器的生成样本数量和真实样本数量相等;
然后固定判别器,计算所述生成样本和真实样本的切比雪夫距离,利用基于所述切比雪夫距离的梯度下降法优化所述生成器参数θg,该迭代周期结束后进入下一个迭代周期;
多次迭代训练,直至达到预定最大迭代次数或损失函数达到收敛状态,得到训练好的基于随机函数优化的生成对抗网络模型;
将所述随机噪声向量输入所述训练好的基于随机函数优化的生成对抗网络模型中的所述生成器,得到生成样本集。
进一步地,所述利用切比雪夫不等式调整随机噪声向量的分布,包括:
设μ和σ2分别为随机噪声向量z的均值和方差,根据切比雪夫不等式调整策略,对于任意正实数k,如下:
通过调整k,生成随机噪声向量z;
在训练初期,设定较大的k值以快速探索新空间,随着训练的进行,逐渐减小k值以精细调整,如下:
其中,t为当前迭代次数,k(t)为第t次迭代k的值,T为总迭代次数,kmax和kmin分别为k的最大值和最小值。
进一步地,计算所述生成样本和真实样本的切比雪夫距离,利用基于所述切比雪夫距离的梯度下降法优化生成器的参数θg包括:
设参与当前迭代训练的生成样本集Gz和真实样本集X的均值分别为和μX,方差分别为和切比雪夫距离dCheb的计算,如下:
计算Gz与X的方差,如下:
其中,n为样本数量,参与当前迭代训练的生成样本与真实样本数量之和;
通过最小化切比雪夫距离dCheb,利用梯度下降法来优化生成器的参数θg,如下:
其中,为第t+1次迭代的生成器的参数值,为第t次迭代的生成器的参数值,第t次即为当前次,α为学习率,为生成器参数θg的梯度。
进一步地,在对基于循环重新启动策略的神经网络训练时,
在每个训练周期结束时,从网络参数中选择梯度为0或者无穷大的参数进行重置,包括对权重和偏置的重置;
重置后,继续执行下一个训练周期的训练,直至达到预设训练周期,停止训练;
在每次训练周期中,根据输入训练样本的变化和所述神经网络的输出,动态调整神经元之间的连接权重和偏置。
进一步地,所述动态调整神经元之间的连接权重和偏置,通过基于梯度下降法计算;
计算神经网络损失函数关于神经网络权重和偏置的梯度,表示第l层的权重调整量,计算如下:
其中,为第i个神经元与下一层第j个神经元的权重,η是学习率,是交叉熵损失函数;
表示第l层的第i个神经元的偏置调整量,计算如下:
其中,为第l层的第i个神经元的偏置;
对于神经网络的每个权重和偏置,将所述权重调整量和所述偏置调整量分别应用于当前权重和偏置。
进一步地,所述训练随机森林算法模型包括:
将所述特征数据集,分为特征训练集和特征验证集;
根据随机森林超参数设置的决策树的个数M,将所述特征训练集分为M个特征训练子集;
对应每个特征训练子集构建一棵决策树,每棵决策树所使用的特征不同;
在每棵决策树的节点分裂过程中,基于高级特征选择机制选择特征进行节点分裂,形成完整的决策树;
对于所有的所有决策树,采用改进的投票机制决定最终的分类决策;
当所述决策树在所述特征验证集上的性能达到预设阈值或达到预定训练次数得到训练好的随机森林。
进一步地,所述高级特征选择机制,如下:
在一棵决策树的每个节点N,选择特征s进行分裂,s的选择表示为:
其中,Sk为该决策树对应的特征训练子集,Infor-Gain(s,N)是基于特征s的信息增益计算公式;
针对特征s和节点N,信息增益计算,如下:
其中,Entropy(N)是节点N的熵,Values(s)是特征s的所有可能值的集合,Nv是N分裂后子节点数,|N|和|Nv|分别是节点N和Nv的特征数量。
进一步地,所述采用改进的投票机制决定最终的分类决策,在投票权重计算时,每棵决策树的投票权重wk计算,如下:
wk=αkAccuracy(Tk,Dval)+βk·Diversity(Tk,{T1,…,Tk-1})
其中,Accuracy(Tk,Dval)是决策树Tk在特征验证集Dval上的准确率,Diversity(Tk,{T1,…,Tk-1})是决策树Tk与其他决策树的多样性指标,αk和βk是权重因子,特征验证集为样本特征集中样本的一部分;
决策树Tk与其他决策树的多样性,如下:
其中,δ(Tk,Ti)是决策树Tk与树Ti在决策路径上的差异度量,所述差异度量为决策树的参数数量的差值。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、通过基于随机函数优化的生成对抗网络,本发明能够生成更多样化和高质量的训练样本,有助于模型更好地理解和识别各种前端网页元素。这种增强的数据集使模型在实际应用中具有更强的适应性和泛化能力;
2、采用基于循环重新启动策略的神经网络算法,使得特征提取过程更加精确和有效。定期重置部分网络参数有助于避免局部最优和过拟合,使模型能够更全面地学习和理解复杂的数据特征;
3、基于德卡尔特的随机森林算法提供了更深入的数据分析和高级特征选择机制,使得分类器在处理复杂和多变的前端元素时更为精确。改进的投票机制考虑了决策树间的多样性,增加了分类结果的准确性和稳定性。
总之,上述技术创新使得元素识别模型能够更准确地识别和处理前端页面元素,从而有助于自动化和优化网页设计过程,提高了前端开发的效率。同时,对于动态网页设计和交互体验的提升也具有重要意义。有效解决传统前端网页元素识别方法中的多个问题,如样本不足、模型泛化能力弱、过拟合等,同时提高了前端开发的自动化水平和效率。通过自动化识别和处理网页元素,本技术不仅减少了人工干预的需求,还提升了网页设计的整体质量和用户交互体验。这种技术的应用对于快速发展的网页设计和开发领域具有重要意义,特别是在处理复杂或大规模网页项目时,能够显著提升工作效率和输出质量。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为一种页面元素的识别方法流程图;
图2为基于随机函数优化的生成对抗网络算法扩充样本示意图;
图3为基于循环重新启动策略的神经网络算法提取样本特征示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明提出一种页面元素的识别方法,主要解决提升前端网页元素识别的准确性和效率,同时增强模型对多样化和复杂网页设计的适应性和泛化能力。包括处理前端网页元素样本数量不足、避免模型过拟合、提高识别精度,并优化前端网页设计和交互体验。通过这些技术创新,本发明旨在减少人工参与网页元素识别的需要,提升前端开发的自动化水平和效率,从而在前端网页元素的自动识别和处理领域实现显著的技术进步。
如图1所示,公开了一种页面元素的识别方法,包括如下步骤:
步骤S1,收集真实前端页面元素进行预处理,得到真实样本集;
步骤S2,基于所述真实样本集,对随机函数优化的生成对抗网络模型进行训练,得到训练好的生成对抗网络模型;基于训练好的生成对抗网络模型中的生成器获取生成样本集;将所述真实样本集和所述生成样本集组成训练样本集;
步骤S3,基于所述训练样本集训练元素识别模型,达到预定训练迭代次数后得到训练好的元素识别模型;
步骤S4,获取真实前端页面元素,基于训练好的元素识别模型,得到真实页面元素的识别结果。
本发明的页面元素的识别方法由元素识别模型进行识别,所述元素识别模型由训练得到。
步骤S1,包括步骤S11-S12,具体地。
构造前端网页元素训练用的真实样本数据集。包括真实样本数据的收集、预处理。
步骤S11,收集真实前端页面元素,得到真实样本。
收集前端网页元素,包括按钮、文本框、下拉菜单、图像、超链接(包括文本链接和图像链接),收集方式可以从现有的网页设计中提取或从UI设计工具中进行获取。
示例性地,可以通过爬虫爬取获取前端页面上的元素。另外,人工制造页面元素也是一种方式。
一个文本框、一个下拉菜单、一个图像等,都是一个样本数据。
步骤S12,对真实样本进行预处理,得到真实样本集。
(1)将收集到的前端网页元素转成大小统一的图像格式。
将提取的前端网页元素转换为适合元素识别模型输入的格式,包括将收集到的网页元素格式转为JPG图像格式,将JPG图像大小统一设置为256×256×3。
第一个数字‘256’和第二个数字‘256’分别表示图像的高度和宽度是256个像素;
第三个数字‘3’表示图像的通道数,即红色(R)、绿色(G)、蓝色(B),即RGB彩色图像。
采集的前端网页元素数据以RGB三通道的形式存储,每个像素点包含红色(R)、绿色(G)、蓝色(B)三个颜色通道的值。
设图像尺寸为W×H,其中W是宽度,H是高度。每个像素点的颜色值表示为Rij,Gij,Bij,其中i=1,2,…,H且j=1,2,…,W。其中,W为256,H为256。
(2)样本标注:为真实样本集中的每个元素进行标注,明确其类别,元素类别包括:按钮、文本框、下拉菜单、图像、超链接。
示例性的,标注方式采用人工标注方式。
该步骤的作用为从实际的前端网页中收集并预处理真实样本,得到真实样本集。
步骤S2,包括步骤S21-S22,具体地。
步骤S21,基于所述真实样本集,对随机函数优化的生成对抗网络模型进行训练,得到训练好的生成对抗网络模型。
所述基于所述真实样本集,对随机函数优化的生成对抗网络模型进行训练,得到训练好的生成对抗网络模型,包括:
在一个迭代周期内,首先固定生成器,利用切比雪夫不等式调整随机噪声向量的分布得到随机噪声向量;将所述随机噪声向量输入生成器得到生成样本集;
所述生成样本集和真实样本集输入判别器,训练判别器区分真实样本和生成样本,通过反向传播优化算法更新判别器参数,其中,输入判别器的生成样本数量和真实样本数量相等;
然后固定判别器,计算所述生成样本和真实样本的切比雪夫距离,利用基于所述切比雪夫距离的梯度下降法优化所述生成器参数θg,该迭代周期结束后进入下一个迭代周期;
多次迭代训练,直至达到预定最大迭代次数或损失函数达到收敛状态,得到训练好的基于随机函数优化的生成对抗网络模型;
步骤S21分为步骤S211-S214,具体地。
构造前端网页元素训练用的和真实样本逼真的生成样本集。
训练样本集的采集获取、样本预处理耗时耗力,且训练样本不足容易导致模型泛化能力差,同时影响元素识别模型的精度。
本发明通过数据扩充的方式增强训练样本集的多样性和鲁棒性,从而提高前端网页元素分类的准确性和泛化能力。
基于传统的生成对抗网络,本发明提出一种基于随机函数优化的生成对抗网络模型,生成器和判别器通过对抗学习相互提升性能。
本发明在此基础上引入随机函数优化机制,通过改变随机噪声的分布和结构,提高生成器产生多样化图像的能力。
此外,本发明将切比雪夫理论理论应用于生成对抗网络的训练过程中,以更精确地控制样本数据的质量和多样性。
如图2所示,生成器网络的输入是一维随机噪声向量,生成器生成生成样本,生成器的作用是通过学习输入的随机噪声向量得到逼真的样本数据,得到生成样本。
判别器的任务是对输入数据样本进行分类,判断输入数据是生成样本还是真实样本;判别器判断的输入的内容是真实样本还是生成器输出的生成样本,输出值为0或1。
0:代表生成样本;1:代表真实样本。
目标:理想化所有样本都是1。
步骤S211,进行生成对抗网络初始化;
初始化定义G为生成器网络,D为判别器网络,z为输入到生成器的随机噪声向量,θg为生成器网络的参数,Wg为生成器网络的权重矩阵,bg为生成器网络的偏置向量,θd为判别器网络的参数,Wd为判别器网络的权重矩阵,bd为判别器网络的偏置向量,x为真实样本图像数据,μ为随机噪声向量的均值,σ2为随机噪声向量的方差,k为切比雪夫不等式中的常数,t为当前迭代次数,T为总迭代次数,kmax为k的最大值,kmin为k的最小值,V(D,G)为生成对抗网络的值函数,为期望值符号,pdata为真实数据的分布,pz为噪声数据的分布,LG为生成器的损失函数,LD为判别器的损失函数,m为批次大小,是一个批次内的样本数量,为生成样本图像集合的均值,μX为真实样本图像集合的均值,为生成样本图像集合的方差,为真实样本图像集合的方差,dCheb为切比雪夫距离,n为对抗网络进行样本扩充后的总的训练样本数量,包括真实样本集和生成样本集中样本数量。
设定生成器和判别器的网络结构,初始化权重和偏置。选取随机噪声向量作为生成器的输入。
具体的,在此阶段,初始化生成器G和判别器D的网络结构,并初始化权重和偏置。设定初始随机噪声向量z。则在生成器初始化时,令G(z;θg)表示生成器,其中,z是输入的一维随机噪声向量,θg是生成器的参数,生成器的生成方式,表示为:
G(z;θg)=tanh(Wg·z+bg) 公式(1)
其中,Wg和bg分别为生成器的权重和偏置,初始化为随机小数。
生成器输出和真实样本逼真的生成样本。
在判别器初始化时,令D(x;θd)表示判别器,其中,x是输入真实样本图像,θd是判别器的参数,则判别器的判别方式可以表示为:
D(x;θd)=sigmoid(Wd·x+bd) 公式(2)
其中,Wd和bd分别为判别器的权重和偏置,初始化为随机小数。
生成器权重初始化时,生成器的权重Wg的每个元素的权重初始化为从正态分布中随机采样的值,其中,σ是标准差,一般设置为较小的值,表示为:
示例性地,标准差σ设置为0.1。
在生成器偏置初始化时,生成器的偏置bg的每个元素初始化为0,表示为:
判别器权重Wd和偏置bd同理进行初始化。
步骤S212,在一个迭代周期内,首先固定生成器,利用切比雪夫不等式调整随机噪声向量的分布得到随机噪声向量;将所述随机噪声向量输入生成器得到生成样本集;
所述生成样本集和真实样本集输入判别器,训练判别器区分真实样本和生成样本,通过反向传播优化算法更新判别器参数,其中,输入判别器的生成样本数量和真实样本数量相等;
在每个迭代周期内,根据切比雪夫不等式调整随机噪声的分布,确保生成样本图像覆盖真实样本集中未充分表示的区域,以改善生成随机噪声图像的多样性。
在噪声分布调整时,所述利用切比雪夫不等式调整随机噪声向量的分布,包括:设μ和σ2分别为随机噪声向量z的均值和方差,根据切比雪夫不等式调整策略,对于任意正实数k,有:
通过调整k,生成随机噪声向量z;
利用切比雪夫不等式调整策略控制随机噪声分布的扩散程度,生成一维随机噪声向量,从而实现生成随机噪声图像的多样性。
每次训练可以得到随机噪声向量z的均值μ和方差σ2。
具体的,k的调整方式为动态调整,根据训练进度动态调整k的值。
在训练初期,设定较大的k值以快速探索新空间,随着训练的进行,逐渐减小k值以精细调整,表示为:
其中,t为当前迭代次数,k(t)为第t次迭代k的值,T为总迭代次数,kmax和kmin分别为k的最大值和最小值。
示例性地,预设总迭代次数T为1000次,预设值kmax取为10,kmin取为1。
利用随机噪声向量z的均值μ和方差σ2,使用高斯分布,生成一维随机噪声向量z。
将所述随机噪声向量输入生成器得到生成样本集。
步骤S213,固定判别器,计算所述生成样本和真实样本的切比雪夫距离,利用基于所述切比雪夫距离的梯度下降法优化所述生成器参数θg,该迭代周期结束后进入下一个迭代周期;
具体的,固定判别器,将生成器输出的生成样本集,以及真实样本集,输入判别器,判别器判断输入样本图像的真伪,是生成样本还是真实样本。在循环过程中,对抗损失函数表示为:
其中,表示期望,pdata和pz分别表示真实样本图像数据和噪声生成样本图像数据的分布。
该步骤中,期望生成器的能力越来越强,判别器损失越来越大。
LG表示生成器的损失函数,用于衡量生成样本图像和真实样本图像的差异,如下:
其中,m是批次大小,每个批次输入生成器G的随机噪声数量,为预设值,一般为12个或16个样本,zi是一个批次中第i个随机噪声向量。
一个批次中,生成样本和真实样本是一一对应关系,即有几个真实样本,就有几个生成样本。
LD表示判别器的损失函数,用于衡量判别器区分真实样本和生成样本图像的能力,如下:
其中,xi是第i个真实样本图像。
在每轮迭代训练结束时,根据切比雪夫不等式计算生成样本图像与真实样本图像在统计特性上的偏差,并据此调整生成器的参数θg。
模型训练好后,就只剩下生成器G来输出生成样本了。
具体的,应用切比雪夫理论来调整生成器参数θg,减少生成样本图像与真实样本图像的统计差异。
计算所述生成样本和真实样本的切比雪夫距离,利用基于所述切比雪夫距离的梯度下降法优化生成器的参数θg包括:
设参与当前迭代训练的生成样本图像集合Gz和真实样本图像集合X的均值分别为和μX,方差分别为和切比雪夫距离dCheb的计算,如下:
通过最小化切比雪夫距离dCheb,优化生成器G的参数θg以生成更逼真的样本图像。
计算Gz和X的方差,如下:
其中,n为样本数量,参与当前迭代训练的生成样本与真实样本数量之和;
利用梯度下降法来优化生成器G的参数θg,目的是最小化切比雪夫距离dCheb。
通过最小化切比雪夫距离dCheb,利用梯度下降法来优化生成器的参数θg,如下:
其中,为第t+1次迭代的生成器的参数值,为第t次迭代的生成器的参数值,第t次即为当前次,α为学习率,为生成器参数θg的梯度。
步骤S214,多次迭代训练,直至达到预定最大迭代次数或损失函数达到收敛状态,得到训练好的基于随机函数优化的生成对抗网络模型;
步骤S22,将所述随机噪声向量输入所述训练好的基于随机函数优化的生成对抗网络模型中的所述生成器,得到生成样本集。
当迭代次数达到预设的最大迭代次数时,或者损失函数达到收敛状态时,停止生成对抗网络的训练,得到训练好的基于随机函数优化的生成对抗网络模型。示例性地,预设的最大迭代次数为1000次。
生成器G输出的样本数据作为扩充的生成样本集。
该步骤使用生成对抗网络对真实样本集进行扩充,生成更多样、更丰富的前端网页元素样本图像,增加训练样本的多样性和覆盖性。至此,真实样本集和生成样本集作为元素识别模型的训练样本集。
步骤S3,包括步骤S31-S32,具体地。
所述元素识别模型包括基于循环重新启动策略的神经网络模型和随机森林算法模型;
所基于所述训练样本集训练元素识别模型,包括:
基于所述训练样本集,训练基于循环重新启动策略的神经网络模型,得到训练好的神经网络模型;将训练样本集输入训练好的神经网络模型进行样本特征提取,得到训练样本集的元素特征集;
基于所述元素特征集,训练随机森林算法模型,得到训练好的随机森林算法模型。
步骤S31,基于所述训练样本集,训练基于循环重新启动策略的神经网络模型,得到训练好的神经网络模型;将训练样本集输入训练好的神经网络模型进行样本特征提取,得到训练样本集的元素特征集;
采用基于循环重新启动策略的神经网络算法进行特征提取,在特征提取神经网络的训练过程中重置参数,以避免局部最优和过拟合,有助于神经网络在学习过程中探索更多的可能性,从而提取更加丰富和精确的特征。
输入:训练样本集,包括真实样本集和生成样本集;输出:训练样本集的元素特征集。
如图3所示,
在对基于循环重新启动策略的神经网络训练时,
在每个训练周期结束时,从网络参数中选择梯度为0或者无穷大的参数进行重置,包括对权重和偏置的重置;
重置后,继续执行下一个训练周期的训练,直至达到预设训练周期,停止训练;
在每次训练周期中,根据输入训练样本的变化和所述神经网络的输出,动态调整神经元之间的连接权重和偏置。
步骤S31,分为步骤S311-S314,具体地。
步骤S311,神经网络初始化。
基于循环重新启动策略的神经网络包括:输入层、3个隐藏层和输出层。
设定神经网络的初始结构和参数。网络包含多个层次,3个隐藏层。
每个层次都有多个神经元。示例性地,每层有100个神经元。
具体的,在初始化阶段,神经网络的每个神经元的权重W和偏置b都被随机设置。对于第l层的神经元,其权重W[l]初始化为:
其中,表示均值为0,方差为σ2的正态分布,为当前层第i个神经元与下一层第j个神经元的权重。
偏置初始化:对于第l层的神经元,其偏置b[l]初始化为0。
其中,W为神经网络中的权重矩阵,b为神经网络中的偏置向量,l为表示神经网络的层级,W[l]为第l层隐藏层的权重矩阵,b[l]为第l层的偏置向量。
步骤S312,在每个训练周期结束时,从网络参数中选择梯度为0或者无穷大的参数进行重置,包括对权重和偏置的重置;
循环训练与重新启动,在每个训练循环中,神经网络根据训练样本集中的样本图像数据进行学习。
当达到预设的迭代次数后,算法将随机选择一部分网络参数进行重置,以便网络能够从新的状态开始学习。
具体的,在每个训练周期结束时,随机选择一部分网络参数进行重置,包括对权重和偏置进行重置。如果R表示被选中重置的参数集合,那么对于R中的每个参数p,执行:
ps←resetvalue(p)公式(16)
其中,resetvalue(p)是根据参数类型选定的重置值。p为神经网络中的需要重置的单个参数。ps为重置后的参数值。
重置过程中把梯度为0或者为无穷大参数放入集合R中进行重置。
重置后,继续执行下一个训练周期的训练,直至达到预设训练周期,停止训练;
步骤S313、在每次训练周期中,根据输入训练样本的变化和所述神经网络的输出,动态调整神经元之间的连接权重和偏置;
动态权重和偏置调整,在每次迭代过程中,根据输入样本数据集数据的变化和神经网络的当前输出,动态调整神经元间的连接权重和偏置。
这一步骤是通过基于梯度一个特殊的优化算法实现,该算法可据样本数据集数据的特征和神经网络的反馈来调整权重。
所述动态调整神经元之间的连接权重和偏置,通过基于梯度下降法计算;
计算神经网络损失函数关于神经网络权重和偏置的梯度,表示第l层的权重调整量,计算如下:
其中,为第i个神经元与下一层第j个神经元的权重,η是学习率,是交叉熵损失函数;
表示第l层的第i个神经元的偏置调整量,计算如下:
其中,为第l层的第i个神经元的偏置;
对于神经网络的每个权重和偏置,将所述权重调整量和所述偏置调整量应用于当前权重和偏置,如下所示:
该权重调整方法在每次迭代中更好的适应输入样本训练集的变化,提高神经网络输出的准确性和符合度。
步骤S314,达到预定迭代次数得到训练好的神经网络模型,基于训练好的神经网络模型,输入训练样本集提取对应的特征数据集。
对训练好的神经网络输入训练样本集,提取关键特征作为特征数据集。特征数据集合将作为下一步骤随机森林分类器的输入数据。
当训练神经网络达到预定的迭代次数时,停止训练。
示例性地,预定迭代次数为1000次。
具体的,通过训练好的神经网络提取特征,对于输入真实样本向量x,通过神经网络提取特征f(x),表示为:
f(x)=σ(W[L]σ(W[L-1]…σ(W[1]x+b[1])…+b[L-1])+b[L])公式(21)
其中,向量f(x)为提取的特征,L是总的网络层数,σ是激活函数。对于输入生成样本向量z,通过神经网络提取特征f(z),表示为:
f(z)=σ(W[L]σ(W[L-1]…σ(W[1]z+b[1])…+b[L-1])+b[L])公式(22)
示例性地,激活函数可以选用sigmoid函数。
步骤S32,基于所述元素特征集,训练随机森林算法模型,得到训练好的随机森林算法模型。
步骤S32分为步骤S321-S324,具体地。
所述训练随机森林算法模型包括:
将所述特征数据集,分为特征训练集和特征验证集;
根据随机森林超参数设置的决策树的个数M,将所述特征训练集分为M个特征训练子集;
对应每个特征训练子集构建一棵决策树,每棵决策树所使用的特征不同;
在每棵决策树的节点分裂过程中,基于高级特征选择机制选择特征进行节点分裂,形成完整的决策树;
对于所有的所有决策树,采用改进的投票机制决定最终的分类决策;
当所述决策树在所述特征验证集上的性能达到预设阈值或达到预定训练次数得到训练好的随机森林。
输入:样本训练集基于神经网络模型学习到的特征数据集,每个元素特征为f(x)或f(z)。
输出:随机森林算法对于每个输入特征进行判别,输出元素的识别结果。
元素识别结果包括:前端网页元素类别。
识别结果包括:按钮、文本框、下拉菜单、图像、超链接等。
本发明基于德卡尔特的随机森林算法进行前端页面元素识别。随机森林是一种集成学习方法,通过构建多棵决策树并将它们的预测结果汇总来提高整体的分类性能。
步骤S321,将所述特征数据集,分为特征训练集和特征验证集。
特征数据集的80%数据量作为特征训练集,20%数据量作为特征验证集。
本发明在传统随机森林的基础上,引入了德卡尔特哲学思想中的理性思考与深入分析及合成原则,即在构建每棵决策树时,先对数据进行更细致的分析,然后在合成阶段集成这些分析结果。
在树的构建过程中,本发明引入了高级特征选择机制,不仅基于统计数据,还结合了数据的语义和结构信息。此外,合成阶段采用了一种新的投票机制,不仅考虑了每棵树的预测准确性,还考虑了树之间的多样性。
首先,定义D为特征提取后的特征数据集,f(x)或f(z)代表其中一个特征,f(D)为应用于数据集D的特征选择函数,g(di)为单个数据点di的特征选择函数,di为数据集D中的第i个数据点,为D中的第i个特征(其中,数据点为真实样本和生成样本数据集中的样本的数量),hj(di)为应用于数据点di的第j个特征选择方法,m为特征选择方法的总数,Tk为随机森林中的第k棵决策树,Sk为用于构建树Tk的特征子集,BuildTree(Sk,D)为基于特征子集Sk和数据集D构建决策树的函数,InformationGain(s,N)为基于特征s和节点N的信息增益计算函数,ntropy(N)为节点N的熵,Values(s)为特征s的所有可能值,Nv为基于特征s的值v分裂后得到的子节点,wk为决策树Tk的投票权重,αk、βk为权重因子,Accuracy(Tk,Dval)为树Tk在验证集Dval上的准确率函数,Diversity(Tk,{T1,…,Tk-1})为树Tk与其他树的多样性计算函数,δ(Tk,Ti)为树Tk与树Ti之间的差异度量函数,Dval为验证数据集,为综合性能评估函数,I为指示函数,用于准确率计算,predict(Tk,d)为树Tk对数据点d的预测标签,truelabel(d)为数据点d的真实标签。
特征分析阶段,在构建每棵决策树之前,先对特征数据集(包括特征训练集和特征验证集)进行深入分析,包括统计分析、语义分析和结构分析,以提取更多有价值的特征。具体的,在构建决策树之前,对数据进行深入分析,以提取有价值的特征。对于特征数据集D,特征选择函数f(D)表示为:
其中,g(di)是对单个数据点di进行的特征选择函数,在一个实施例中,特征选择函数可以是基于信息熵的特征选择函数,也可以是基于决策树gini指数的特征选择函数,也可以是基于混淆矩阵的特征选择函数,n是数据点的数量。
在另一个实施例中,基于gini指数的特征选择函数在进行特征选择时,按照gini指数从大到小排序,取前Nx个特征作为筛选选出来的特征,其中,Nx基于人为经验预设,可以为20。
进一步地,针对单个数据点di,特征选择函数g(di)可以表示为:
g(di)=(h1(di),h2(di),…,hm(di)) 公式(24)
其中,hj(di)表示应用于数据点di的第j个特征选择方法,m是特征选择方法的总数。
步骤S322,根据随机森林超参数设置的决策树的个数M,将所述特征训练集分为M个特征训练子集;对应每个特征训练子集构建一棵决策树,每棵决策树所使用的特征不同;在每棵决策树的节点分裂过程中,基于高级特征选择机制选择特征进行节点分裂,形成完整的决策树;
对于决策树的构建,根据分析得到的特征构建决策树。根据随机森林超参数设置的决策树的个数M,将所述特征训练集分为M个特征训练子集,对应每个特征训练子集构建一棵决策树,M个特征训练子集构建多棵决策树,对于每棵决策树都使用不同的特征子集,以增加森林的多样性。
具体的,每棵树使用不同的特征子集,增加随机森林的多样性。对于每棵决策树Tk,其构建基于特征子集Sk的方式可以表示为:
Tk=BuildTree(Sk,D) 公式(25)
其中,Sk是从f(D)中利用特征选择函数选择得到的特征子集。
结合数据的统计、语义和结构特征进行决策。
所述高级特征选择机制,如下:
在一棵决策树的每个节点N,选择特征s进行分裂,s的选择表示为:
其中,Sk为该决策树对应的特征训练子集,Infor-Gain(s,N)是基于特征s的信息增益计算公式;
针对特征s和节点N,信息增益计算,如下:
其中,Entropy(N)是节点N的熵,Values(s)是特征s的所有可能值的集合,Nv是N分裂后子节点数,|N|和|Nv|分别是节点N和Nv的特征数量。
该高级特征选择机制,可以提高决策树的构建效率,同时提高基于德卡尔特的随机森林算法的分类识别精度。
对于特征s的所有可能值集合,具体来说,对于某个特征,其所有可能的取值构成特征的取值空间。例如:考虑表示颜色的特征,可能的取值包括红色、蓝色、绿色等。
步骤S323,对于所有的所有决策树,采用改进的投票机制决定最终的分类决策;
在所有决策树完成训练后,采用一种改进的投票机制来进行分类决策。每棵树的投票权重不仅取决于其准确性,还取决于其与其他树的差异性。
所述采用改进的投票机制决定最终的分类决策,在投票权重计算时,每棵决策树的投票权重wk计算,如下:
wk=αk·Accuracy(Tk,Dval)+βk·Diversity(Tk,{T1,…,Tk-1})
公式(28)
其中,Accuracy(Tk,Dval)是树Tk在验证集Dval上的准确率,Diversity(Tk,{T1,…,Tk-1})是树Tk与其他树的多样性指标,αk和βk是权重因子,验证集为样本特征集中样本的一部分;
树Tk与其他树的多样性可以计算为:
其中,δ(Tk,Ti)是树Tk与树Ti在结构或决策路径上的差异度量,所述差异度量为决策树的参数数量的差值。
改进的投票机制根据每棵决策树的性能和多样性进行动态权衡,有助于随机森林算法模型更快的收敛,提升模型训练效率。
步骤S324,当所述决策树在所述特征验证集上的性能达到预设阈值或达到预定训练次数得到训练好的随机森林。
随机森林训练终止条件判断,当决策树在特征验证集上的性能达到预设的阈值或训练达到预定次数时,停止训练。
具体的,根据预设标准判断是否终止训练,在性能评估时,使用综合性能评估函数判断性能,表示为:
进一步地,决策树Tk在特征验证集Dval上的准确率计算为:
其中,I是指示函数,predict(Tk,d)是决策树Tk对数据点d的预测标签,truelabel(d)是d的真实标签。
当达到预定阈值Xac或训练次数达到上限时或在验证集上的精度达到预设的阈值Xab时停止训练,即,随机森林算法模型训练结束。
示例性地,Xac为98%,训练次数可以为100次,Xab为99%。
至此,得到训练好的元素识别模型。
步骤S4,具体地。
获取要识别的真实前端页面,获取真实前端页面元素,基于训练好的元素识别模型,得到真实页面元素的识别结果。
通过训练得到的元素识别模型,对前端页面元素进行自动识别分类,避免人工在海量元素库中进行挑选,进而通过人工拖动的方式实现前端页面元素布局。
元素识别模型准确地识别前端页面中的各种页面元素,如按钮、文本框、图像等;
在页面加载时,根据元素识别结果,初始化前端页面布局。包括创建布局容器和设置元素的初始位置;
例如,根据实际需要,在前端页面需增加一个临时优惠活动,这个优惠活动为图片链接,应该放在前端页面的哪个位置,使用元素识别模型识别当前网页元素,为图片链接推荐布局位置,前端设计师根据推荐位置拖拽图片链接布局前端页面元素。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、通过基于随机函数优化的生成对抗网络,本发明能够生成更多样化和高质量的训练样本,有助于模型更好地理解和识别各种前端网页元素。这种增强的数据集使模型在实际应用中具有更强的适应性和泛化能力;
2、采用基于循环重新启动策略的神经网络算法,使得特征提取过程更加精确和有效。定期重置部分网络参数有助于避免局部最优和过拟合,使模型能够更全面地学习和理解复杂的数据特征;
3、基于德卡尔特的随机森林算法提供了更深入的数据分析和高级特征选择机制,使得分类器在处理复杂和多变的前端元素时更为精确。改进的投票机制考虑了决策树间的多样性,增加了分类结果的准确性和稳定性。
总之,上述技术创新使得元素识别模型能够更准确地识别和处理前端页面元素,从而有助于自动化和优化网页设计过程,提高了前端开发的效率。同时,对于动态网页设计和交互体验的提升也具有重要意义。有效解决传统前端网页元素识别方法中的多个问题,如样本不足、模型泛化能力弱、过拟合等,同时提高了前端开发的自动化水平和效率。通过自动化识别和处理网页元素,本技术不仅减少了人工干预的需求,还提升了网页设计的整体质量和用户交互体验。这种技术的应用对于快速发展的网页设计和开发领域具有重要意义,特别是在处理复杂或大规模网页项目时,能够显著提升工作效率和输出质量。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种页面元素的识别方法,其特征在于,包括如下步骤:
收集真实前端页面元素进行预处理,得到真实样本集;
基于所述真实样本集,对随机函数优化的生成对抗网络模型进行训练,得到训练好的生成对抗网络模型;基于训练好的生成对抗网络模型中的生成器获取生成样本集;将所述真实样本集和所述生成样本集组成训练样本集;
基于所述训练样本集训练元素识别模型,达到预定训练迭代次数后得到训练好的元素识别模型;
获取真实前端页面元素,基于训练好的元素识别模型,得到真实页面元素的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述元素识别模型包括基于循环重新启动策略的神经网络模型和随机森林算法模型;
所基于所述训练样本集训练元素识别模型,包括:
基于所述训练样本集,训练基于循环重新启动策略的神经网络模型,得到训练好的神经网络模型;将训练样本集输入训练好的神经网络模型进行样本特征提取,得到训练样本集的元素特征集;
基于所述元素特征集,训练随机森林算法模型,得到训练好的随机森林算法模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述真实样本集,对随机函数优化的生成对抗网络模型进行训练,得到训练好的生成对抗网络模型,包括:
在一个迭代周期内,首先固定生成器,利用切比雪夫不等式调整随机噪声向量的分布得到随机噪声向量;将所述随机噪声向量输入生成器得到生成样本集;
所述生成样本集和真实样本集输入判别器,训练判别器区分真实样本和生成样本,通过反向传播优化算法更新判别器参数,其中,输入判别器的生成样本数量和真实样本数量相等;
然后固定判别器,计算所述生成样本和真实样本的切比雪夫距离,利用基于所述切比雪夫距离的梯度下降法优化所述生成器参数θg,该迭代周期结束后进入下一个迭代周期;
多次迭代训练,直至达到预定最大迭代次数或损失函数达到收敛状态,得到训练好的基于随机函数优化的生成对抗网络模型;
将所述随机噪声向量输入所述训练好的基于随机函数优化的生成对抗网络模型中的所述生成器,得到生成样本集。
4.根据权利要求3所述的方法,其特征在于,所述利用切比雪夫不等式调整随机噪声向量的分布,包括:
设μ和σ2分别为随机噪声向量z的均值和方差,根据切比雪夫不等式调整策略,对于任意正实数k,如下:
通过调整k,生成随机噪声向量z;
在训练初期,设定较大的k值以快速探索新空间,随着训练的进行,逐渐减小k值以精细调整,如下:
其中,t为当前迭代次数,k(t)为第t次迭代k的值,T为总迭代次数,kmax和kmin分别为k的最大值和最小值。
5.根据权利要求4所述的方法,其特征在于,计算所述生成样本和真实样本的切比雪夫距离,利用基于所述切比雪夫距离的梯度下降法优化生成器的参数θg包括:
设参与当前迭代训练的生成样本集Gz和真实样本集X的均值分别为和μX,方差分别为和切比雪夫距离dCheb的计算,如下:
计算Gz与X的方差,如下:
其中,n为样本数量,参与当前迭代训练的生成样本与真实样本数量之和;
通过最小化切比雪夫距离dCheb,利用梯度下降法来优化生成器的参数θg,如下:
其中,为第t+1次迭代的生成器的参数值,为第t次迭代的生成器的参数值,第t次即为当前次,α为学习率,为生成器参数θg的梯度。
6.根据权利要求5所述的方法,其特征在于,在对基于循环重新启动策略的神经网络训练时,
在每个训练周期结束时,从网络参数中选择梯度为0或者无穷大的参数进行重置,包括对权重和偏置的重置;
重置后,继续执行下一个训练周期的训练,直至达到预设训练周期,停止训练;
在每次训练周期中,根据输入训练样本的变化和所述神经网络的输出,动态调整神经元之间的连接权重和偏置。
7.根据权利要求6所述的方法,其特征在于,所述动态调整神经元之间的连接权重和偏置,通过基于梯度下降法计算;
计算神经网络损失函数关于神经网络权重和偏置的梯度,表示第l层的权重调整量,计算如下:
其中,为第i个神经元与下一层第j个神经元的权重,η是学习率,是交叉熵损失函数;
表示第l层的第i个神经元的偏置调整量,计算如下:
其中,为第l层的第i个神经元的偏置;
对于神经网络的每个权重和偏置,将所述权重调整量和所述偏置调整量分别应用于当前权重和偏置。
8.根据权利要求7所述的方法,其特征在于,所述训练随机森林算法模型包括:
将所述特征数据集,分为特征训练集和特征验证集;
根据随机森林超参数设置的决策树的个数M,将所述特征训练集分为M个特征训练子集;
对应每个特征训练子集构建一棵决策树,每棵决策树所使用的特征不同;
在每棵决策树的节点分裂过程中,基于高级特征选择机制选择特征进行节点分裂,形成完整的决策树;
对于所有的所有决策树,采用改进的投票机制决定最终的分类决策;
当所述决策树在所述特征验证集上的性能达到预设阈值或达到预定训练次数得到训练好的随机森林。
9.根据权利要求8所述的方法,其特征在于,所述高级特征选择机制,如下:
在一棵决策树的每个节点N,选择特征s进行分裂,s的选择表示为:
其中,Sk为该决策树对应的特征训练子集,Infor-Gain(s,N)是基于特征s的信息增益计算公式;
针对特征s和节点N,信息增益计算,如下:
其中,Entropy(N)是节点N的熵,Values(s)是特征s的所有可能值的集合,Nv是N分裂后子节点数,|N|和|Nv|分别是节点N和Nv的特征数量。
10.根据权利要求8所述的方法,其特征在于,所述采用改进的投票机制决定最终的分类决策,在投票权重计算时,每棵决策树的投票权重wk计算,如下:
wk=αk·Accuracy(Tk,Dval)+βk·Diversity(Tk,{T1,…,Tk-1})
其中,Accuracy(Tk,Dval)是决策树Tk在特征验证集Dval上的准确率,Diversity(Tk,{T1,…,Tk-1})是决策树Tk与其他决策树的多样性指标,αk和βk是权重因子,特征验证集为样本特征集中样本的一部分;
决策树Tk与其他决策树的多样性,如下:
其中,δ(Tk,Ti)是决策树Tk与树Ti在决策路径上的差异度量,所述差异度量为决策树的参数数量的差值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311783222.0A CN117743719B (zh) | 2023-12-22 | 2023-12-22 | 一种页面元素的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311783222.0A CN117743719B (zh) | 2023-12-22 | 2023-12-22 | 一种页面元素的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117743719A true CN117743719A (zh) | 2024-03-22 |
CN117743719B CN117743719B (zh) | 2024-07-09 |
Family
ID=90258956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311783222.0A Active CN117743719B (zh) | 2023-12-22 | 2023-12-22 | 一种页面元素的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743719B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973522A (zh) * | 2024-04-02 | 2024-05-03 | 成都派沃特科技股份有限公司 | 基于知识数据训练技术的应用模型构建方法及系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5764797A (en) * | 1995-04-25 | 1998-06-09 | Microsoft Corporation | Method and system for modeling handwriting using polynomials as a function of time |
JP2000338869A (ja) * | 1999-05-31 | 2000-12-08 | Communication Research Laboratory Mpt | 擬似雑音系列の出力システム、出力装置、出力方法、および、情報記録媒体 |
JP2007065491A (ja) * | 2005-09-01 | 2007-03-15 | Asahi Kasei Corp | パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置 |
CN108921123A (zh) * | 2018-07-17 | 2018-11-30 | 重庆科技学院 | 一种基于双重数据增强的人脸识别方法 |
WO2019041202A1 (en) * | 2017-08-30 | 2019-03-07 | Vita-Course Technologies Co., Ltd. | SYSTEM AND METHOD FOR USER IDENTIFICATION |
CN110532436A (zh) * | 2019-07-17 | 2019-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
CN110823576A (zh) * | 2019-11-18 | 2020-02-21 | 苏州大学 | 基于生成对抗网络的机械异常检测方法 |
CN111126794A (zh) * | 2019-12-06 | 2020-05-08 | 北京京航计算通讯研究所 | 基于小样本的数据增强及神经网络对抗训练系统 |
CN111259157A (zh) * | 2020-02-20 | 2020-06-09 | 广东工业大学 | 一种基于混合双向循环胶囊网络模型的中文文本分类方法 |
CN111275115A (zh) * | 2020-01-20 | 2020-06-12 | 星汉智能科技股份有限公司 | 一种基于生成对抗网络的对抗攻击样本的生成方法 |
CN111540193A (zh) * | 2020-03-13 | 2020-08-14 | 华南理工大学 | 一种基于图卷积时序生成对抗网络的交通数据修复方法 |
CN111767861A (zh) * | 2020-06-30 | 2020-10-13 | 苏州兴钊防务研究院有限公司 | 一种基于多判别器生成对抗网络的sar图像目标识别方法 |
CN111990989A (zh) * | 2020-08-31 | 2020-11-27 | 武汉大学 | 一种基于生成对抗及卷积循环网络的心电信号识别方法 |
CN113657444A (zh) * | 2021-07-13 | 2021-11-16 | 珠海金智维信息科技有限公司 | 一种界面元素识别方法及系统 |
CN113688941A (zh) * | 2021-09-09 | 2021-11-23 | 西北工业大学 | 基于生成对抗网络的小样本声呐图像分类识别优化方法 |
CN115086607A (zh) * | 2022-06-14 | 2022-09-20 | 国网山东省电力公司电力科学研究院 | 一种电力施工监控系统、监控方法、计算机设备 |
CN115271089A (zh) * | 2022-06-15 | 2022-11-01 | 京信数据科技有限公司 | 一种基于区块链的联邦学习可信训练方法及装置 |
-
2023
- 2023-12-22 CN CN202311783222.0A patent/CN117743719B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5764797A (en) * | 1995-04-25 | 1998-06-09 | Microsoft Corporation | Method and system for modeling handwriting using polynomials as a function of time |
JP2000338869A (ja) * | 1999-05-31 | 2000-12-08 | Communication Research Laboratory Mpt | 擬似雑音系列の出力システム、出力装置、出力方法、および、情報記録媒体 |
JP2007065491A (ja) * | 2005-09-01 | 2007-03-15 | Asahi Kasei Corp | パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置 |
WO2019041202A1 (en) * | 2017-08-30 | 2019-03-07 | Vita-Course Technologies Co., Ltd. | SYSTEM AND METHOD FOR USER IDENTIFICATION |
CN108921123A (zh) * | 2018-07-17 | 2018-11-30 | 重庆科技学院 | 一种基于双重数据增强的人脸识别方法 |
CN110532436A (zh) * | 2019-07-17 | 2019-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
CN110823576A (zh) * | 2019-11-18 | 2020-02-21 | 苏州大学 | 基于生成对抗网络的机械异常检测方法 |
CN111126794A (zh) * | 2019-12-06 | 2020-05-08 | 北京京航计算通讯研究所 | 基于小样本的数据增强及神经网络对抗训练系统 |
CN111275115A (zh) * | 2020-01-20 | 2020-06-12 | 星汉智能科技股份有限公司 | 一种基于生成对抗网络的对抗攻击样本的生成方法 |
CN111259157A (zh) * | 2020-02-20 | 2020-06-09 | 广东工业大学 | 一种基于混合双向循环胶囊网络模型的中文文本分类方法 |
CN111540193A (zh) * | 2020-03-13 | 2020-08-14 | 华南理工大学 | 一种基于图卷积时序生成对抗网络的交通数据修复方法 |
CN111767861A (zh) * | 2020-06-30 | 2020-10-13 | 苏州兴钊防务研究院有限公司 | 一种基于多判别器生成对抗网络的sar图像目标识别方法 |
CN111990989A (zh) * | 2020-08-31 | 2020-11-27 | 武汉大学 | 一种基于生成对抗及卷积循环网络的心电信号识别方法 |
CN113657444A (zh) * | 2021-07-13 | 2021-11-16 | 珠海金智维信息科技有限公司 | 一种界面元素识别方法及系统 |
CN113688941A (zh) * | 2021-09-09 | 2021-11-23 | 西北工业大学 | 基于生成对抗网络的小样本声呐图像分类识别优化方法 |
CN115086607A (zh) * | 2022-06-14 | 2022-09-20 | 国网山东省电力公司电力科学研究院 | 一种电力施工监控系统、监控方法、计算机设备 |
CN115271089A (zh) * | 2022-06-15 | 2022-11-01 | 京信数据科技有限公司 | 一种基于区块链的联邦学习可信训练方法及装置 |
Non-Patent Citations (2)
Title |
---|
KHAJA RAOUFUDDIN AHMED 等: "Improved Squirrel Optimization based Generative Adversarial Network for Skin Cancer Classification", 2023 IEEE 2ND NATIONAL BIOMEDICAL ENGINEERING CONFERENCE (NBEC), 19 December 2023 (2023-12-19), pages 121 - 126 * |
胡冬: "基于深度学习的复杂背景下稻田杂草图像识别研究", 中国优秀硕士学位论文全文数据库 (农业科技辑), 15 February 2023 (2023-02-15), pages 046 - 744 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973522A (zh) * | 2024-04-02 | 2024-05-03 | 成都派沃特科技股份有限公司 | 基于知识数据训练技术的应用模型构建方法及系统 |
CN117973522B (zh) * | 2024-04-02 | 2024-06-04 | 成都派沃特科技股份有限公司 | 基于知识数据训练技术的应用模型构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117743719B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Peephole: Predicting network performance before training | |
Sener et al. | Unsupervised learning and segmentation of complex activities from video | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN111723674B (zh) | 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法 | |
CN117743719B (zh) | 一种页面元素的识别方法 | |
CN113128369B (zh) | 一种融合均衡损失的轻量级网络人脸表情识别方法 | |
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN114998220B (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN110516537B (zh) | 一种基于自步学习的人脸年龄估计方法 | |
SG171858A1 (en) | A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine | |
Qi et al. | Personalized sketch-based image retrieval by convolutional neural network and deep transfer learning | |
CN113065520B (zh) | 一种面向多模态数据的遥感图像分类方法 | |
CN114741519A (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN110825850A (zh) | 一种自然语言主题分类方法及装置 | |
CN117690178B (zh) | 一种基于计算机视觉的人脸图像识别方法与系统 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN111815582B (zh) | 改进背景先验和前景先验的二维码区域检测方法 | |
CN101021926A (zh) | 一种个性化形象设计平台及用其进行设计的方法 | |
CN107729942A (zh) | 一种结构化视图缺失数据的分类方法 | |
CN109033941B (zh) | 一种基于稀疏投影学习的微表情识别方法 | |
CN115168634A (zh) | 一种基于多层级表征的面料跨模态图文检索方法 | |
CN111767825B (zh) | 一种人脸属性不变鲁棒性人脸识别方法及系统 | |
Das et al. | GOGGLES: Automatic training data generation with affinity coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |