CN116822502B - 网页内容识别方法、装置、计算机设备和存储介质 - Google Patents
网页内容识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116822502B CN116822502B CN202311101220.9A CN202311101220A CN116822502B CN 116822502 B CN116822502 B CN 116822502B CN 202311101220 A CN202311101220 A CN 202311101220A CN 116822502 B CN116822502 B CN 116822502B
- Authority
- CN
- China
- Prior art keywords
- text
- webpage
- target
- identified
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000012549 training Methods 0.000 claims abstract description 112
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 238000002372 labelling Methods 0.000 claims description 102
- 238000012545 processing Methods 0.000 claims description 78
- 238000012795 verification Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 26
- 238000013519 translation Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 11
- 230000002829 reductive effect Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000010979 ruby Substances 0.000 description 2
- 229910001750 ruby Inorganic materials 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 108091029480 NONCODE Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及一种网页内容识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:将待识别网页对应的网页文本输入目标网页类型识别模型,得到待识别网页对应的预测网页类型标签;目标网页类型识别模型是基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练得到的,无标注文本对中的文本是未标注网页类型的网页对应的网页文本,无标注文本对中的各个文本是相似的文本;在待识别网页对应的预测网页类型标签表征待识别网页属于目标网页类型时,将待识别网页对应的网页文本和预设对象集合进行匹配,得到待识别网页涉及的目标对象;基于目标对象确定待识别网页对应的网页内容识别结果。采用本方法能够提高网页内容识别效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种网页内容识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的不断发展,互联网已经成为了人们生活和工作中不可或缺的组成部分,用户能够在互联网上访问海量的网页。随着互联网的发展,网页数量剧增,对网页的内容进行识别的要求也日趋迫切。
传统技术中,通常是基于网页文本中的关键字来识别网页内容。然而,盲目基于网页文本中的关键字来识别网页内容,容易导致网页内容识别效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高网页内容识别效率的网页内容识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
本申请提供了一种网页内容识别方法。所述方法包括:
获取待识别网页对应的网页文本;
将所述待识别网页对应的网页文本输入目标网页类型识别模型,得到所述待识别网页对应的预测网页类型标签;所述目标网页类型识别模型是基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练得到的,所述有标注文本是已标注网页类型的网页对应的网页文本,所述无标注文本对中的文本是未标注网页类型的网页对应的网页文本,所述无标注文本对中的各个文本是相似的文本;
在所述待识别网页对应的预测网页类型标签表征所述待识别网页属于目标网页类型时,将所述待识别网页对应的网页文本和预设对象集合进行匹配,得到所述待识别网页涉及的目标对象;
基于所述目标对象,确定所述待识别网页对应的网页内容识别结果。
本申请还提供了一种网页内容识别装置。所述装置包括:
网页文本获取模块,用于获取待识别网页对应的网页文本;
网页类型识别模块,用于将所述待识别网页对应的网页文本输入目标网页类型识别模型,得到所述待识别网页对应的预测网页类型标签;所述目标网页类型识别模型是基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练得到的,所述有标注文本是已标注网页类型的网页对应的网页文本,所述无标注文本对中的文本是未标注网页类型的网页对应的网页文本,所述无标注文本对中的各个文本是相似的文本;
网页文本匹配模块,用于在所述待识别网页对应的预测网页类型标签表征所述待识别网页属于目标网页类型时,将所述待识别网页对应的网页文本和预设对象集合进行匹配,得到所述待识别网页涉及的目标对象;
网页内容识别模块,用于基于所述目标对象,确定所述待识别网页对应的网页内容识别结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述网页类型识别模型训练方法所述的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述网页内容识别方法所述的步骤。
一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述网页内容识别方法所述的步骤。
上述网页内容识别方法、装置、计算机设备、存储介质和计算机程序产品,获取待识别网页对应的网页文本;将待识别网页对应的网页文本输入目标网页类型识别模型,得到待识别网页对应的预测网页类型标签;目标网页类型识别模型是基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练得到的,有标注文本是已标注网页类型的网页对应的网页文本,无标注文本对中的文本是未标注网页类型的网页对应的网页文本,无标注文本对中的各个文本是相似的文本;在待识别网页对应的预测网页类型标签表征待识别网页属于目标网页类型时,将待识别网页对应的网页文本和预设对象集合进行匹配,得到待识别网页涉及的目标对象;基于目标对象,确定待识别网页对应的网页内容识别结果。这样,通过目标网页类型识别模型快速识别待识别网页对应的网页类型,在待识别网页属于目标网页类型时,进一步通过预设对象集合识别待识别网页涉及的目标对象,最终基于目标对象确定待识别网页对应的网页内容识别结果。根据目标网页类型识别模型的网页类型识别结果按需进行网页内容识别,避免盲目进行网页内容识别,能够有效提高网页内容识别效率。并且,针对模型训练,无标注文本对是无需标注的训练数据,能够减轻训练数据的标注压力,只需进行少量训练数据的标注得到有标注文本,进而基于无标注文本对和有标注文本对初始网页类型识别模型进行训练,能够快速训练得到目标网页类型识别模型,从而有助于有效提高网页内容识别效率。
附图说明
图1为一个实施例中网页内容识别方法的应用环境图;
图2为一个实施例中网页内容识别方法的流程示意图;
图3为一个实施例中获取有标注文本的流程示意图;
图4为一个实施例中基于伪标签进行无标签数据类别平衡化的流程示意图;
图5为一个实施例中获取无标签数据回译对的流程示意图;
图6为一个实施例中训练网页类型识别模型的流程示意图;
图7为一个实施例中网页类型识别模型的结构示意图;
图8为另一个实施例中训练网页类型识别模型的流程示意图;
图9为一个实施例中对象字典树的流程示意图;
图10为一个实施例中网址关联信息的流程示意图;
图11为一个实施例中真假扫码验真网页识别方法的流程示意图;
图12为另一个实施例中真假扫码验真网页识别方法的流程示意图;
图13为一个实施例中网页内容识别装置的结构框图;
图14为一个实施例中计算机设备的内部结构图;
图15为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的方案涉及人工智能的机器学习、自然语言处理等技术,具体通过如下实施例进行说明:
本申请实施例提供的网页内容识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
终端和服务器均可单独用于执行本申请实施例中提供的网页内容识别方法。
例如,服务器获取待识别网页对应的网页文本,将待识别网页对应的网页文本输入目标网页类型识别模型,得到待识别网页对应的预测网页类型标签。目标网页类型识别模型是基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练得到的,有标注文本是已标注网页类型的网页对应的网页文本,无标注文本对中的文本是未标注网页类型的网页对应的网页文本,无标注文本对中的各个文本是相似的文本。在待识别网页对应的预测网页类型标签表征待识别网页属于目标网页类型时,服务器将待识别网页对应的网页文本和预设对象集合进行匹配,得到待识别网页涉及的目标对象。服务器基于目标对象,确定待识别网页对应的网页内容识别结果。
终端和服务器也可协同用于执行本申请实施例中提供的网页内容识别方法。
例如,服务器从终端获取待识别网页对应的网页文本,服务器将待识别网页对应的网页文本输入目标网页类型识别模型,得到待识别网页对应的预测网页类型标签。在待识别网页对应的预测网页类型标签表征待识别网页属于目标网页类型时,服务器将待识别网页对应的网页文本和预设对象集合进行匹配,得到待识别网页涉及的目标对象。服务器基于目标对象,确定待识别网页对应的网页内容识别结果。服务器可以将网页内容识别结果发送至终端。
在一个实施例中,如图2所示,提供了一种网页内容识别方法,以该方法应用于计算机设备来举例说明,计算机设备可以是终端或服务器,该方法可以由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。参考图2,网页内容识别方法包括以下步骤:
步骤S202,获取待识别网页对应的网页文本。
其中,网页对应的网页文本是指网页的文本内容。例如,网页文本包括网页标题、网页正文、网页标签等与网页相关的文本。待识别网页是指待识别其网页类型的网页。待识别网页可以是任意的网页。
具体地,计算机设备可以在本地或从其他设备上获取待识别网页对应的网页文本,对待识别网页对应的网页文本进行数据分析,得到待识别网页对应的网页内容识别结果。
步骤S204,将待识别网页对应的网页文本输入目标网页类型识别模型,得到待识别网页对应的预测网页类型标签;目标网页类型识别模型是基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练得到的,有标注文本是已标注网页类型的网页对应的网页文本,无标注文本对中的文本是未标注网页类型的网页对应的网页文本,无标注文本对中的各个文本是相似的文本。
其中,网页类型识别模型是机器学习模型,用于识别网页对应的网页类型。网页类型识别模型的输入数据为网页对应的网页文本,输出数据为网页对应的预测网页类型标签。可以理解,网页类型识别模型的模型结构可以采用常用的文本分类模型的模型结构,也可以采用自定义的模型结构。初始网页类型识别模型是指待训练的网页类型识别模型。目标网页类型识别模型是指完成训练的网页类型识别模型。
有标注文本是已标注网页类型的网页对应的网页文本。有标注文本存在对应的标注网页类型标签,标注网页类型标签为训练标签,标注网页类型标签是表征网页文本所属网页对应的正确的网页类型的标签。也就是,有标注文本是已知网页类型的网页对应的网页文本,有标注文本对应的训练标签为已知的网页类型。
无标注文本对包括一对网页文本。无标注文本对中的文本是未标注网页类型的网页对应的网页文本,也就是,无标注文本对中的文本是未知网页类型的网页对应的网页文本。无标注文本对中的各个文本是相似的文本,也就是,无标注文本对包含的一对网页文本是彼此相似的网页文本。无标注文本对包括第一文本和第二文本,第一文本和第二文本为相似的网页文本。例如,第一文本是某个网页对应的标准的网页文本,第二文本是对第一文本进行回译处理得到的文本;第一文本是某个网页对应的标准的网页文本,第二文本是对第一文本中的关键词进行同义词转换或近义词转换得到的文本;等等。
基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练,得到目标网页类型识别模型。模型的训练目标是针对有标注文本输出与标注网页类型标签相似的预测网页类型标签,针对无标注文本对中的第一文本和第二文本输出相似的预测网页类型标签。
具体地,计算机设备将待识别网页对应的网页文本输入目标网页类型识别模型,模型输出待识别网页对应的预测网页类型标签。
在一个实施例中,预测网页类型标签可以用预测置信度来表示。预测置信度表示网页文本所属的网页属于目标网页类型的置信程度、概率。网页文本对应的预测置信度越高,网页文本所属的网页属于目标网页类型的概率越高。例如,若预测置信度大于预设置信度,则确定网页文本所属网页对应的网页类型是目标网页类型,若预测置信度小于或等于预设置信度,则确定网页文本所属网页对应的网页类型不是目标网页类型。
在一个实施例中,用于模型训练的有标注文本的数量少于用于模型训练的无标注文本对的数量,从而基于大量无标注文本对和少量有标注文本,对初始网页类型识别模型进行模型训练,能够有效减少训练数据的标注时间,提高模型训练效率。
在一个实施例中,获取多个不相似的待标注文本,对待标注文本进行网页类型标注,得到有标注文本和有标注文本对应的标注网页类型标签。用于模型训练的多个有标注文本是彼此不相似的文本,这些有标注文本能够在有限训练数据的基础上最大程度给模型训练提供更多的信息。并且,对不相似的待标注文本进行网页类型标注,也能够减少对相似的待标注文本的重复标注操作,提高标注效率。
步骤S206,在待识别网页对应的预测网页类型标签表征待识别网页属于目标网页类型时,将待识别网页对应的网页文本和预设对象集合进行匹配,得到待识别网页涉及的目标对象。
其中,有标注文本对应的标注网页类型标签包括正标签和负标签。正标签表示网页文本所属网页对应的网页类型是目标网页类型,即网页文本所属网页属于目标网页类型。负标签表示网页文本所属网页对应的网页类型不是目标网页类型,即网页文本所属网页不属于目标网页类型。目标网页类型具体可以根据实际需要进行设置。例如,目标网页类型可以是产品验真网页类型;目标网页类型可以是金融网页类型;目标网页类型可以是广告网页类型;等等。
预设对象集合包括预设的各个对象各自的对象标识。对象具体可以根据实际需要进行设置。例如,对象可以是企业;对象可以是产品;等等。对象标识是一种标识,用于标识对象,例如,对象标识可以是对象名称。
具体地,网页类型识别模型的训练数据包括属于目标网页类型的网页和不属于目标网页类型的网页的相关数据,目标网页类型识别模型用于识别属于目标网页类型的网页。将待识别网页的网页文本输入目标网页类型识别模型,模型输出预测网页类型标签。例如,预测网页类型标签用预测置信度来表示,预设置信度越高,待识别网页属于目标网页类型的概率越高,若预测置信度大于预设置信度,则确定待识别网页属于目标网页类型,预测网页类型标签属于正标签,若预测置信度小于或等于预设置信度,则确定待识别网页不属于目标网页类型,预测网页类型标签属于负标签。
在预测网页类型标签为正标签时,计算机设备将待识别网页对应的网页文本和预设对象集合进行匹配,将预设对象集合中匹配成功的对象标识所对应的对象作为待识别网页涉及的目标对象。
可以理解,在预测网页类型标签为负标签时,计算机设备无需对待识别网页进行后续处理。
步骤S208,基于目标对象,确定待识别网页对应的网页内容识别结果。
具体地,计算机设备基于待识别网页涉及的目标对象,确定待识别网页对应的网页内容识别结果。例如,可以分析待识别网页和目标对象之间的匹配度,得到网页内容识别结果;可以分析待识别网页针对目标对象的语义倾向,得到网页内容识别结果;等等。
例如,在金融场景下,网页类型识别模型的训练数据包括金融网页和非金融网页的相关数据,目标网页类型识别模型用于识别金融网页类型的网页。将待识别网页对应的网页文本输入目标网页类型识别模型,根据目标网页类型识别模型的输出数据确定待识别网页是否属于金融网页类型,若待识别网页属于金融网页类型,可以进一步提取出金融网页中提及的金融机构名称,基于金融网页的网页内容和提及的金融机构名称做语义倾向分析等处理,进而得到待识别网页对应的网页内容识别结果。
例如,在广告场景下,网页类型识别模型的训练数据包括广告网页和非广告网页的相关数据,目标网页类型识别模型用于识别广告网页类型的网页。将待识别网页对应的网页文本输入目标网页类型识别模型,根据目标网页类型识别模型的输出数据确定待识别网页是否属于广告网页类型,若待识别网页属于广告网页类型,可以进一步提取出广告网页中提及的企业名称或品牌名称,基于广告网页的网页内容和提及的企业名称或品牌名称做商业分析或者违规广告监测等处理,进而得到待识别网页对应的网页内容识别结果。
上述网页内容识别方法中,通过目标网页类型识别模型快速识别待识别网页对应的网页类型,在待识别网页属于目标网页类型时,进一步通过预设对象集合识别待识别网页涉及的目标对象,最终基于目标对象确定待识别网页对应的网页内容识别结果。根据目标网页类型识别模型的网页类型识别结果按需进行网页内容识别,避免盲目进行网页内容识别,能够有效提高网页内容识别效率。并且,针对模型训练,无标注文本对是无需标注的训练数据,能够减轻训练数据的标注压力,只需进行少量训练数据的标注得到有标注文本,进而基于无标注文本对和有标注文本对初始网页类型识别模型进行训练,能够快速训练得到目标网页类型识别模型,从而有助于有效提高网页内容识别效率。
在一个实施例中,网页内容识别方法还包括:
获取多个待标注文本,提取各个待标注文本分别对应的文本特征;从各个待标注文本中确定当前文本;基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果;当查询结果为查找到当前文本对应的目标相似文本时,将当前文本加入第一文本集,当查询结果为未查找到当前文本对应的目标相似文本时,将当前文本分别加入第一文本集和第二文本集;从各个待标注文本中获取下一待标注文本作为当前文本,返回基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果的步骤执行,直至各个待标注文本均查询完毕;对最终得到的第二文本集中的各个待标注文本所属的网页进行网页类型标注,得到多个有标注文本。
其中,待标注文本是指需要标注其所属网页对应的网页类型的网页文本,也就是,待标注文本是未知网页类型的网页对应的网页文本。待标注文本对应的目标相似文本是指与待标注文本相似的其他待标注文本。
对网页文本所属的网页进行网页类型标注是指标注网页文本所属网页对应的网页类型。例如,可以人工进行网页类型标注。
具体地,网页的数量比较庞大,其中包含较多比较相似的网页,大量比较相似的网页无法给模型训练提供太多新的信息,因此,大量比较相似的网页的重复标记是冗余操作,会降低网页类型标注的效率,进而降低模型训练效率。因此,为了提高模型训练质量,可以从大量网页中筛选出没那么相似的网页对应的网页文本来得到用于模型训练的有标注文本。
计算机设备可以获取多个待标注文本,提取各个待标注文本分别对应的文本特征,基于待标注文本对应的文本特征从各个待标注文本中找出不太相似的待标注文本来得到有标注文本。可以从各个待标注文本中随机选取一个待标注文本作为当前文本,基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,若从第一文本集中查找到当前文本对应的目标相似文本,说明在各个待标注文本中存在与当前文本相似的文本,那么可以将当前文本加入第一文本集,第一文本集用于存储待标注文本。若从第一文本集中未查找到当前文本对应的目标相似文本,说明在各个待标注文本中不存在与当前文本相似的文本,此时不仅可以将当前文本加入第一文本集,还可以将当前文本加入第二文本集,第二文本集用于存储彼此不太相似的待标注文本。进而,计算机设备可以从各个待标注文本中获取下一个待标注文本作为当前文本,基于是否可以从当前的第一文本集中查找到当前文本对应的目标相似文本,确定是否将当前文本加入第二文本集,并直接将当前文本加入第一文本集。以此类推,计算机设备将各个待标注文本不断加入第一文本集,将从第一文本集中查找不到对应的目标相似文本的待标注文本加入第二文本集,使得最终的第二文本集包括各个待标注文本中彼此不太相似的待标注文本。计算机设备对最终的第二文本集中的各个待标注文本所属的网页进行网页类型标注,得到多个彼此不太相似的有标注文本。
可以理解,文本对应的文本特征的提取方式可以根据实际需要进行设置,例如,可以通过机器学习模型进行文本特征提取。
上述实施例中,将各个待标注文本依次作为当前文本,针对任意一个当前文本,若从第一文本集中查找当前文本对应的目标相似文本,则只将当前文本加入第一文本集,若从第一文本集中未查找当前文本对应的目标相似文本,则将当前文本分别加入第一文本集和第二文本集,从而使得第一文本集不断扩充,第一文本集包括各式各样的待标注文本,第一文本集始终有助于筛选出内容比较新颖的待标注文本,从而使得第二文本集包括彼此不太相似的待标注文本。进而,后续对第二文本集中的文本所属的网页进行网页类型标注,能够避免相似文本的重复标注,提高标注效率。通过网页类型标注得到的有标注文本是彼此不太相似的有标注文本,能够在有限的训练数据的基础上给模型训练尽可能提供更多的信息,从而提高模型训练质量,提高模型训练效率。
在一个实施例中,提取各个待标注文本分别对应的文本特征,包括:分别对各个待标注文本各自的词频信息进行哈希处理,得到各个待标注文本分别对应的文本特征。
具体地,文本对应的词频信息是指文本中出现的各个词语在文本中的出现频次。词频信息在一定程度上可以反映文本的语义信息,有助于查找相似的文本。在提取待标注文本对应的文本特征时,可以是计算待标注文本对应的词频信息,对词频信息进行哈希处理,得到哈希值,将哈希值作为待标注文本对应的文本特征。可以理解,词频信息通常数据量较大,而基于词频信息计算得到的哈希值在保留数据特性的基础上压缩了数据量,将哈希值作为文本特征有助于在查找相似文本时提高查找效率。
在一个实施例中,基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果,包括:
基于当前文本对应的文本特征分别和第一文本集中各个文本各自的文本特征之间的特征相似度,从第一文本集包含的各个文本中确定当前文本对应的初始相似文本;在当前文本和对应的初始相似文本之间的编辑距离大于或等于预设距离时,将当前文本对应的初始相似文本作为当前文本对应的目标相似文本,得到查询结果;在当前文本和对应的初始相似文本之间的编辑距离小于预设距离,或者当前文本不存在对应的初始相似文本时,确定查询结果为未查找到当前文本对应的目标相似文本。
其中,两个特征之间的特征相似度用于表示两个特征之间的相似程度。两个特征之间的特征相似度越大,表明两个特征之间越相似。可以采用各种相似度计算算法来计算两个特征之间的特征相似度,例如,可以计算两个特征之间的余弦距离或欧式距离等表示两个特征之间距离的数据作为特征相似度;可以计算两个特征之间的交集元素和并集元素的比值作为特征相似度;等等。
两个文本之间的编辑距离是指,从一个文本转换为另一个文本所需的最少编辑操作次数。如果两个文本之间的编辑距离越大,说明两个文本越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
当前文本对应的初始相似文本是根据文本特征从第一文本集中直接查找到的与当前文本相似的文本。当前文本对应的目标相似文本是对当前文本对应的初始相似文本进行进一步筛选得到的与当前文本相似的文本。当前文本对应的目标相似文本是与当前文本的编辑距离大于预设距离的初始相似文本。可以理解,预设距离是预设的编辑距离阈值,预设距离的数值可以根据实际需要进行设置。
具体地,计算机设备可以基于当前文本对应的文本特征先从第一文本集中查找到当前文本对应的初始相似文本,再基于当前文本和对应的初始相似文本之间的编辑距离,从当前文本对应的初始相似文本中确定当前文本对应的目标相似文本。
计算机设备可以计算当前文本对应的文本特征分别和第一文本集中各个文本各自的文本特征之间的特征相似度,基于特征相似度从第一文本集包含的各个文本中确定当前文本对应的初始相似文本。例如,可以将第一文本集中与当前文本的特征相似度大于预设相似度的文本作为当前文本对应的初始相似文本;可以按照特征相似度从大到小将第一文本集中各个文本进行排序,将排序靠前的若干个文本作为当前文本对应的初始相似文本。若从第一文本集中查找不到当前文本对应的初始相似文本,则确定查询结果为未查找到当前文本对应的目标相似文本。若从第一文本集中查找到当前文本对应的初始相似文本,则计算机设备进一步计算当前文本分别和对应的各个初始相似文本之间的编辑距离,将与当前文本的编辑距离大于或等于预设距离的初始相似文本作为当前文本对应的目标相似文本,确定查询结果为查询到当前文本对应的目标相似文本。若当前文本和对应的初始相似文本之间的编辑距离小于预设距离,说明当前文本和对应的初始相似文本之间不够相似,则确定查询结果为未查找到当前文本对应的目标相似文本。
上述实施例中,文本特征的提取速度比编辑距离的计算速度快,先基于文本特征从第一文本集中确定当前文本对应的初始相似文本,可以快速查找出与当前文本大致相似的文本,再基于编辑距离从当前文本对应的初始相似文本中确定当前文本对应的目标相似文本,可以准确查找出与当前文本足够相似的文本,通过双重筛选能够快速确定当前文本对应的准确的目标相似文本。
在一个实施例中,网页类型识别模型需要有标签数据指导训练才能获得较好的模型预测效果,因此人工标注工作通常是无可避免的。在标注过程中,会有部分网页的内容高度类似,对这些网页重复标记并不能给模型训练提供太多新的信息,因此,高度相似网页的重复标记是冗余操作,会降低标注的效率。为了提高标注效率,参考图3,本申请方法提出了一种针对大量网页的软去重方案。首先获取大量网页,然后对大量网页进行智能软去重,去除重复、相似的网页,对剩余的不太相似的网页进行人工标注,得到少量正样本和负样本,正样本为目标网页类型的网页对应的网页文本,负样本为非目标网页类型的网页对应的网页文本。
针对智能软去重方案,首先对网页对应的网页文本进行分词,根据网页文本的分词结果构建网页对应的词频矩阵,通过Minhash算法基于词频矩阵计算网页对应的哈希值(即hash值),将哈希值作为网页对应的文本特征。接着构建LSH(Locality SensitiveHashing,局部敏感哈希)池,一开始LSH池是空的,将各个网页对应的哈希值以流式进入到LSH池中,每加入一个哈希值就从LSH池中查找对应的相似哈希值。如果基于当前网页对应的哈希值从LSH池中查找到相似哈希值,则获取相似哈希值对应的网页作为当前网页对应的初始相似网页,并计算当前网页对应的网页文本和初始相似文本对应的网页文本之间的编辑距离,若编辑距离大于或等于预设距离,则将初始相似网页确定为当前网页对应的高度相似网页(即目标相似网页)。若当前网页存在对应的目标相似网页,则只将当前网页对应的哈希值存入LSH池中,若当前网页没有基于LSH池提取到初始相似网页,或者当前网页对应的网页文本和初始相似网页对应的网页文本之间的编辑距离小于预设距离,则将当前网页存入待标签数据集中,并将当前网页对应的哈希值存入LSH池中。将各个网页对应的哈希值以流式进入到LSH池中,循环执行上述过程判断网页是否需要存入待标签数据集中,直到数据遍历完成,最终的待标签数据集中的网页即为较不相似的网页,具有更大的标记价值。
在一个实施例中,网页内容识别方法还包括:
获取有标注文本集和无标注文本集;基于有标注文本集对候选网页类型识别模型进行训练,得到中间网页类型识别模型;将无标注文本集中各个无标注文本输入中间网页类型识别模型,得到各个无标注文本分别对应的预测网页类型标签;无标注文本对应的预测网页类型标签用于作为无标注文本对应的伪标签;基于伪标签对各个无标注文本进行筛选,得到目标无标注文本集;对目标无标注文本集中的各个目标无标注文本分别进行相似变换,得到各个目标无标注文本分别对应的相似文本;将目标无标注文本和对应的相似文本组成无标注文本对,得到多个无标注文本对。
其中,有标注文本集包括多个有标注文本,有标注文本是指已知网页类型的网页对应的网页文本。无标注文本集包括多个无标注文本,无标注文本是指未知网页类型的网页对应的网页文本。
目标无标注文本集包括多个目标无标注文本,目标无标注文本是从多个有标注文本筛选得到的。
对文本进行相似变换是指将文本变换为另一文本,变换前后的文本为相似的文本。例如,相似变换可以是将文本中的关键词替换为同义词或近义词;相似变换可以是将文本进行回译处理;相似变换可以是通过随机插入、随机交换、随机删除等方式编辑文本中的词语或句子;等等。
候选网页类型识别模型是指待训练的网页类型识别模型。可以理解,候选网页类型识别模型的模型参数和初始网页类型识别模型的模型参数可以相同,也可以不同。
具体地,计算机设备可以基于有标注文本集对候选网页类型识别模型进行训练,得到中间网页类型识别模型,通过中间网页类型识别模型对无标注文本集中的数据进行过滤,得到目标无标注文本集,基于目标无标注文本集生成无标注文本对。
计算机设备可以基于有标注文本集对候选网页类型识别模型进行有监督训练,得到中间网页类型识别模型。例如,将有标注文本集中的有标注文本输入候选网页类型识别模型,得到有标注文本对应的预测网页类型标签,基于有标注文本对应的预测网页类型标签和标注网页类型标签生成模型损失,将模型损失进行反向传播来调整模型参数,直至满足收敛条件,得到中间网页类型识别模型。
通过中间网页类型识别模型识别无标注文本所属网页对应的网页类型,将无标注文本集中各个无标注文本输入中间网页类型识别模型,模型输出各个无标注文本分别对应的预测网页类型标签。无标注文本对应的预测网页类型标签用于作为无标注文本对应的伪标签。基于伪标签对各个无标注文本进行筛选,得到多个目标无标注文本,将各个目标无标注文本组成目标无标注文本集。例如,伪标签包括正标签和负标签,从各个无标注文本中获取n个具有正标签的无标注文本和n个具有负标签的无标注文本分别作为目标无标注文本。进而,对目标无标注文本集中的各个目标无标注文本分别进行相似变换,得到各个目标无标注文本分别对应的相似文本,将目标无标注文本和对应的相似文本组成无标注文本对,最终得到多个无标注文本对。
在一个实施例中,在基于有标注文本集对候选网页类型识别模型进行训练时,用于计算模型损失的损失函数如下:
其中,表示模型损失。/>表示第j个有标注文本。/>表示第j个有标注文本对应的预测结果,即第j个有标注文本对应的预测网页类型标签。/>表示第j个有标注文本对应的训练标签,即第j个有标注文本对应的标注网页类型标签。/>是独热格式的标签。k表示当前模型迭代轮次中使用的有标注文本的文本数量。训练过程以降低模型损失为目标。当损失函数的曲线无明显下降或模型迭代次数达到预设迭代次数时,训练停止,得到中间网页类型识别模型。
在一个实施例中,有标注文本集中有标注文本的文本数量小于无标注文本集中无标注文本的文本数量。基于少量的有标注文本对候选网页类型识别模型进行初步训练,得到中间网页类型识别模型,中间网页类型识别模型在区分不同类型的网页对应的网页文本上具有一定的准确性。基于中间网页类型识别模型对大量无标注文本进行过滤,将剩余的无标注文本作为目标无标注文本,使得各个目标无标注文本能够在一定程度上达到类型均衡化。进而,对目标无标注文本进行相似变换,得到目标无标注文本对应的相似文本,将目标无标注文本和对应的相似文本组成无标注文本对,使得各个无标注文本对能够在一定程度上达到类型均衡化。
上述实施例中,基于有标注文本集对候选网页类型识别模型进行训练,得到中间网页类型识别模型,中间网页类型识别模型在识别无标注文本所属网页对应的网页类型上具有一定的准确性。将无标注文本集中各个无标注文本输入中间网页类型识别模型,得到各个无标注文本分别对应的预测网页类型标签,基于伪标签对各个无标注文本进行筛选,得到目标无标注文本集,使得目标无标注文本集包括所属网页类型相对比较均衡的无标注文本。对目标无标注文本集中的各个目标无标注文本分别进行相似变换,得到各个目标无标注文本分别对应的相似文本,将目标无标注文本和对应的相似文本组成无标注文本对,得到多个无标注文本对,使得各个无标注文本对对应的网页类型相对比较均衡,基于这样的无标注文本进行模型训练能够提高模型的拟合能力、泛化能力。
在一个实施例中,基于伪标签对各个无标注文本进行筛选,得到目标无标注文本集,包括:
统计各个伪标签中正标签和负标签的数量,得到正标签数量和负标签数量;从正标签数量和负标签数量中获取更少的标签数量作为参考标签数量,将参考标签数量对应的网页类型标签作为参考标签;从具有参考标签的各个无标注文本中,获取第一数量的无标注文本作为目标无标注文本;第一数量小于参考标签数量;从不具有参考标签的各个无标注文本中,获取第二数量的无标注文本作为目标无标注文本;第一数量和第二数量之比在预设比例范围内;基于各个目标无标注文本得到目标无标注文本集。
其中,网页类型标签包括正标签和负标签。正标签表示网页文本所属网页对应的网页类型是目标网页类型,负标签表示网页文本所属网页对应的网页类型不是目标网页类型。例如,目标网页类型为游戏类,正标签表示网页文本所属网页对应的网页类型是游戏类,负标签表示网页文本所属网页对应的网页类型不是游戏类;目标网页类型为产品验真类,正标签表示网页文本所属网页对应的网页类型为产品验真类型;负标签表示网页文本所属网页对应的网页类型不是产品验真类型;等等。
正标签数量是指在各个无标注文本对应的伪标签中,正标签的总数。负标签数量是指在各个无标注文本对应的伪标签中,负标签的总数。参考标签数量是在正标签数量和负标签数量中,数量更小的标签数量。参考标签是指参考标签数量对应的网页类型标签。例如,正标签数量为100,负标签数量为50,则参考标签数量为50,参考标签为负标签。
第一数量小于参考标签数量。第一数量和第二数量可以根据实际需要进行设置,但是,第一数量和第二数量之比在预设比例范围内。预设比例范围是预先设置的比例范围,可以根据实际需要进行设置。例如,预设比例范围为[0.5,2]。
具体地,在基于伪标签对各个无标注文本进行筛选时,计算机设备可以基于伪标签进行网页类型的均衡化,使得筛选出的正负样本的数量尽量均衡。对各个无标注文本对应的伪标签进行标签类型统计,得到正标签数量和负标签数量,从正标签数量和负标签数量中获取更少的标签数量作为参考标签数量,将参考标签数量对应的网页类型标签作为参考标签。从具有参考标签的各个无标注文本中,获取第一数量的无标注文本作为目标无标注文本,从不具有参考标签的各个无标注文本中,获取第二数量的无标注文本作为目标无标注文本,从而得到多个目标无标注文本,最终将各个目标无标注文本组成目标无标注文本集。
例如,第一数量和第二数量之比为1,即第一数量和第二数量相同,从伪标签为正标签的各个无标注文本中随机选取n个无标注文本作为目标无标注文本,从伪标签为负标签的各个无标注文本中随机选取n个无标注文本作为目标无标注文本。
上述实施例中,统计各个伪标签中正标签和负标签的数量,得到正标签数量和负标签数量,从正标签数量和负标签数量中获取更少的标签数量作为参考标签数量,将参考标签数量对应的网页类型标签作为参考标签,基于参考标签数量和预设比例范围确定第一数量和第二数量,从具有参考标签的各个无标注文本中,获取第一数量的无标注文本作为目标无标注文本;从不具有参考标签的各个无标注文本中,获取第二数量的无标注文本作为目标无标注文本,使得伪标签为正标签的目标无标注文本的数量和伪标签为负标签的目标无标注文本的数量之比在预设比例范围内,使得伪标签为正标签的目标无标注文本的数量和伪标签为负标签的目标无标注文本的数量均衡化。
在一个实施例中,对目标无标注文本集中的各个目标无标注文本分别进行相似变换,得到各个目标无标注文本分别对应的相似文本,包括:
对目标无标注文本集中的各个目标无标注文本分别进行回译处理,得到各个目标无标注文本分别对应的回译后文本,将目标无标注文本对应的回译后文本作为目标无标注文本对应的相似文本。
其中,对文本进行回译处理是指将文本从A语言翻译成B语言,再从B语言翻译回A语言。例如,回译处理可以是将文本从中文翻译成英文,再从英文翻译回中文。回译后文本是指翻译回A语言得到的文本。
具体地,相似变换可以是回译处理。计算机设备对目标无标注文本集中的各个目标无标注文本分别进行回译处理,得到各个目标无标注文本分别对应的回译后文本,将目标无标注文本对应的回译后文本作为目标无标注文本对应的相似文本,将目标无标注文本和对应的回译后文本组成无标注文本对。
上述实施例中,对目标无标注文本进行回译处理得到目标无标注文本对应的回译后文本,能够使得回译后文本在保留目标无标注文本原来语义的基础上,具有多样性,将目标无标注文本和对应的回译后文本组成无标注文本对,这样的无标注文本对能够给模型训练提供更多的信息,提高模型的拟合能力、泛化能力。
在一个实施例中,参考图4,本申请方法提出了一种基于伪标签进行无标签数据类别平衡化的方法。获取大量原始网页,这些原始网页并没有标注网页类型标签,因此称之为无标签网页。利用中间网页类型识别模型,对这些无标签网页进行网页类型识别,将无标签网页的网页文本输入中间网页类型识别模型,将中间网页类型识别模型输出的预测网页类型标签作为无标签网页的伪标签,伪标签包括正标签和负标签。根据伪标签对无标签网页进行类别均衡化,使得正负样本的数量尽量均衡,最终获得均衡化无标签数据集U。例如,从伪标签数量最少的那个标签类别的无标签网页中获取n个网页的网页文本,从另外一个标签类别的无标签网页中根据下采样策略同样获取n个网页的网页文本,将获取到的2n个网页文本组合成为均衡化无标签数据集U。
参考图5,利用类别平衡化后的数据进行回译,获得大量的无标签数据回译对。对均衡化无标签数据集U,提取出其中的网页文本,网页文本包括网页标题和网页正文,利用业界已有的翻译接口,将网页文本进行中英翻译,而后再将英语翻译回中文,这种中-英-中的翻译方式,被称为回译。经过回译后,对均衡化无标签数据集U中的每个网页文本,都会有一个对应的回译后的网页文本,回译后的网页文本组成均衡化无标签数据集U对应的回译版本数据集U’。原始的网页文本和回译后的网页文本组成无标签数据回译对。
在一个实施例中,如图6所示,网页内容识别方法还包括:
步骤S602,将有标注文本、无标注文本对中的第一文本和第二文本分别输入初始网页类型识别模型,得到有标注文本、第一文本和第二文本分别对应的预测网页类型标签。
步骤S604,基于有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失。
步骤S606,基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失。
其中,有标注文本对应的标注网页类型标签是表征有标注文本所属网页对应的正确的网页类型的标签。有标注文本对应的预测网页类型标签是模型基于有标注文本预测得到的有标注文本所属网页对应的网页类型的标签。模型的训练目标是让有标注文本对应的预测网页类型标签和有标注文本对应的训练网页类型标签越接近越好,从而使得模型能够输出正确的标签。
无标注文本对中的第一文本和第二文本是相似的文本,模型的训练目标是让第一文本对应的预测网页类型标签和第二文本对应的预测网页类型标签越接近越好,从而使得模型针对相似的文本能够输出一致的标签。
具体地,计算机设备可以将有标注文本输入初始网页类型识别模型,模型对有标注文本进行数据处理,输出有标注文本对应的预测网页类型标签。计算机设备可以将无标注文本对中的第一文本输入初始网页类型识别模型,模型对第一文本进行数据处理,输出第一文本对应的预测网页类型标签。计算机设备可以将无标注文本对中的第二文本输入初始网页类型识别模型,模型对第二文本进行数据处理,输出第二文本对应的预测网页类型标签。
计算机设备可以基于有标注文本对应的预测网页类型标签和标注网页类型标签计算第一损失,例如,计算有标注文本对应的预测网页类型标签和标注网页类型标签之间的均方误差得到第一损失;基于有标注文本对应的预测网页类型标签和标注网页类型标签计算交叉熵损失作为第一损失;等等。第一损失可以反映有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异。计算机设备可以基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签计算第二损失,例如,计算无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的距离作为第二损失;计算无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的距离,将该距离和常量之和作为第二损失;等等。第二损失可以反映无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异。
在一个实施例中,第一损失的计算公式如下:
其中,表示第一损失。/>表示第i个有标注文本。/>表示第i个有标注文本对应的预测结果,即第i个有标注文本对应的预测网页类型标签。/>表示第i个有标注文本对应的训练标签,即第i个有标注文本对应的标注网页类型标签。/>是独热格式的标签。m表示当前模型迭代轮次中使用的有标注文本的文本数量。训练过程以降低第一损失为目标。
在一个实施例中,第二损失的计算公式如下:
/>
其中,表示第二损失。/>和/>组成第i个无标注文本对。/>表示第i个无标注文本对中的第一文本对应的预测结果,即第i个无标注文本对中的第一文本对应的预测网页类型标签。/>表示第i个无标注文本对中的第二文本对应的预测结果,即第i个无标注文本对中的第二文本对应的预测网页类型标签。n表示当前模型迭代轮次中使用的无标注文本对的文本对数量。训练过程以降低第二损失为目标。
步骤S608,基于第一损失和第二损失,调整初始网页类型识别模型的模型参数,直至满足收敛条件,得到目标网页类型识别模型。
其中,收敛条件是指判断模型是否达到收敛的条件,收敛条件包括但不限于模型损失小于预设损失值、模型迭代次数大于预设迭代次数、或模型损失的变化率小于预设变化率等中的至少一者。
具体地,计算机设备可以基于第一损失和第二损失得到目标损失,例如,计算第一损失和第二损失之和作为目标损失;将第一损失和第二损失进行加权求和得到目标损失,第一损失和第二损失分别对应的损失权重可以根据实际需要进行设置;等等。进而,计算机设备可以将目标损失进行反向传播来调整初始网页类型识别模型的模型参数,直至满足收敛条件,得到目标网页类型识别模型。例如,可以通过梯度下降算法基于目标损失调整初始网页类型识别模型的模型参数。
可以理解,模型的训练过程是一个不断完善和优化模型参数的过程,是一个不断迭代训练的过程。计算机设备基于第一损失和第二损失,调整初始网页类型识别模型的模型参数,得到更新网页类型识别模型,将更新网页类型识别模型作为新的初始网页类型识别模型,返回获取有标注文本和无标注文本对的步骤执行,以进行迭代训练,通过多次模型迭代,直至满足收敛条件,得到目标网页类型识别模型。
例如,计算机设备获取多个有标注文本和多个无标注文本对,将有标注文本输入初始网页类型识别模型,得到有标注文本对应的预测网页类型标签,将无标注文本对中的第一文本和第二文本分别输入初始网页类型识别模型,得到无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签,基于各个有标注文本对应的预测网页类型标签和标注网页类型标签得到第一损失,基于各个无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签得到第二损失,基于第一损失和第二损失计算目标损失,基于目标损失调整初始网页类型识别模型的模型参数,得到更新网页类型识别模型,将更新网页类型识别模型作为新的初始网页类型识别模型,返回获取多个有标注文本和多个无标注文本对的步骤执行,继续进行迭代训练。若预设迭代次数为 50,则获取第 51次调整得到的更新网页类型识别模型作为目标网页类型识别模型。
可以理解,一次模型迭代或一个模型迭代轮次是指获取训练数据,基于训练数据和模型计算目标损失,基于目标损失对模型的模型参数进行一次调整的过程。
在一个实施例中,参考图7,网页类型识别模型包括第一处理层、第二处理层和综合处理层。第一处理层用于处理网页文本中的网页标题,第二处理层用于处理网页文本中的网页正文。综合处理层用于处理第一处理层和第二处理层的输出数据。第一处理层和第二处理层的结构类似,第一处理层和第二处理层均包括嵌入层、卷积层和池化层,嵌入层用于获取字或词对应的嵌入表征(embedding),卷积层用于对输入数据进行卷积处理,提取输入数据中的语义信息,池化层用于对输入数据进行池化处理,压缩输入数据的数据量,减少冗余信息。例如,卷积层可以是基于CNN(Convolutional Neural Network,卷积神经网络)实现,池化层可以是最大池化层、平均池化层。综合处理层包括注意力层和前向网络,注意力层(attention层)用于对输入数据进行注意力处理,增强输入数据中的语义信息,前向网络为全连接层,用于将输入数据进行压缩,并且根据压缩后的数据完成模型的分类功能、识别功能。
将网页对应的网页文本输入网页类型识别模型,网页文本中的网页标题输入模型中的第一处理层,第一处理层输出第一文本特征,网页文本中的网页正文输入模型中的第二处理层,第二处理层输出第二文本特征,第一文本特征和第二文本特征输入综合处理层,综合处理层输出预测结果,预测结果就是网页对应的预测网页类型标签。
在第一处理层中,网页标题中的各个字输入网页标题字嵌入层获取嵌入表征,网页标题字嵌入层的输出数据输入卷积层1进行卷积处理,网页标题中的各个词输入网页标题词嵌入层获取嵌入表征,网页标题词嵌入层的输出数据输入卷积层2进行卷积处理,卷积层1和卷积层2的输出数据输入池化层1进行池化处理,池化层1输出第一文本特征。在第二处理层中,网页正文中的各个字输入网页正文字嵌入层获取嵌入表征,网页正文字嵌入层的输出数据输入卷积层3进行卷积处理,网页正文中的各个词输入网页正文词嵌入层获取嵌入表征,网页正文词嵌入层的输出数据输入卷积层4进行卷积处理,卷积层3和卷积层4的输出数据输入池化层2进行池化处理,池化层2输出第二文本特征。池化层1和池化层2的输出数据输入综合处理层,在综合处理层中,池化层1和池化层2的输出数据输入注意力层进行注意力处理,注意力层的输出数据输入前向网络进行分类,前向网络输出预测结果。
可以理解,卷积层也可以更换为其他可以提取语义信息的网络,例如,卷积层可以替换为基于BERT(Bidirectional Encoder Representations from Transformers,基于Transformer构建的双向语义编码表征模型)实现的网络。
在一个实施例中,目标损失的计算公式如下:
其中,表示目标损失,/>表示第一损失,/>表示第二损失,/>表示调整第一损失和第二损失占比的参数。/>可以根据实际需要进行设置。
上述实施例中,无标注文本对是无需标注的训练数据,能够减轻训练数据的标注压力,只需进行少量训练数据的标注得到有标注文本,进而基于无标注文本对和有标注文本对初始网页类型识别模型进行训练,能够快速训练得到目标网页类型识别模型,能够有效提高模型训练效率。进一步的,在模型训练时,模型损失包括第一损失和第二损失,第一损失是基于有标注文本对应的预测网页类型标签和标注网页类型标签得到的,基于第一损失调整模型参数有助于模型针对有标注文本输出接近于标注网页类型标签的预测网页类型标签,第二损失是基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异得到的,基于第二损失调整模型参数有助于模型针对相似的文本输出相近的预测网页类型标签,基于第一损失和第二损失调整模型参数,能够提高模型训练质量,保障训练得到的模型的预测准确性。
在一个实施例中,基于有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失,包括:
在各个有标注文本中,过滤预测网页类型标签的数值大于预设阈值的有标注文本;在剩余的各个有标注文本中,基于同一有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失。
其中,预设阈值是预先设置的阈值,可以根据实际需要进行设置。
具体地,在基于有标注文本和无标注文本对联合训练模型的过程中,由于有标注文本较少,模型可能很快对训练数据集过拟合,为了防止模型对有标注文本快速过拟合,在计算第一损失的时候,不计对有标注文本预测过于自信的相关数据,这部分数据的误差无法反向传递,从而避免模型进一步过拟合到这些有标注文本。因此,在各个有标注文本中,滤除预测网页类型标签的数值小于预设阈值的有标注文本。例如,预测网页类型标签用预测置信度来表示,在计算第一损失时,不考虑预测置信度大于预设阈值的有标注文本。在剩余的各个有标注文本中,基于同一有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失。例如,基于单个有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一子损失,各个有标注文本存在对应的第一子损失,融合各个第一子损失得到第一损失。
上述实施例中,在计算第一损失的时候,不考虑预测置信度过高的有标签数据,从而基于第一损失调整模型参数的时候,预测置信度过高的有标签数据的误差无法反向传递,从而避免模型进一步过拟合到预测置信度过高的有标签数据。
在一个实施例中,预设阈值大于或等于参考值,参考值是根据标注网页类型标签对应的标签种类数量对预测网页类型标签对应的取值范围进行划分得到的;预设阈值随着模型迭代轮次的增加而增加。
其中,标注网页类型标签对应的标签种类数量是指一共有几种标注网页类型标签。例如,标注网页类型标签包括正标签和负标签,正标签表示网页文本所属网页对应的网页类型是特定类型,负标签表示网页文本所属网页对应的网页类型不是特定类型,则标注网页类型标签对应的标签种类数量为2。
预测网页类型标签用预测置信度来表示,预测网页类型标签对应的取值范围表示预测置信度的取值范围。例如,若预测置信度的取值范围为[0,1],则预测网页类型标签对应的取值范围为[0,1]。
具体地,根据标注网页类型标签对应的标签种类数量对预测网页类型标签对应的取值范围进行划分,得到参考值。例如,根据标签种类数量对取值范围进行等分,得到参考值。在计算第一损失时使用的预设阈值大于或等于参考值,从而避免在模型训练时过度过滤有标签文本。
其中,一次模型迭代或一个模型迭代轮次是指获取训练数据,基于训练数据和模型计算目标损失,基于目标损失对模型的模型参数进行一次调整的过程。例如,获取50个有标签文本和100个无标签文本对作为训练数据,将训练数据中的文本输入模型,得到文本对应的预测网页类型标签,基于训练数据中有标签文本对应的预测网页类型标签和标注网页类型标签计算第一损失,基于无标签文本对中文本对应的预测网页类型标签之间的差异计算第二损失,基于第一损失和第二损失得到目标损失,基于目标损失对模型的模型参数进行一次调整,即为一个模型迭代轮次。
上述实施例中,计算第一损失时使用的预设阈值随着模型迭代轮次的增加而增加,在起始的模型迭代轮次中,模型还不具备网页类型识别能力,为了防止模型快速过拟合,可以将预设阈值的数值设置小一点,随着模型迭代轮次的增加,模型逐渐具备网页类型识别能力,模型过拟合的概率降低,可以将预设阈值的数值设置大一点,让更多的有标签文本参与到第一损失的计算中,让更多有标签数据的误差反向传递来更好地调整模型参数。
在一个实施例中,基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失,包括:
在各个无标注文本对中,过滤预测网页类型标签的数值在预设区间内的无标注文本对;预设区间是预测网页类型标签对应的取值范围中的中位区间;在剩余的各个无标注文本对中,基于同一无标注文本对中第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失。
其中,预设区间是预测网页类型标签对应的取值范围中的中位区间,中位区间是指包含取值范围中的中位值的区间。可以理解,中文区间的区间长度小于取值范围的总长度。例如,预测网页类型标签对应的取值范围为[0,1],取值范围的中位值为0.5,预设区间可以是[0.45,0.55]。
具体地,在基于有标注文本和无标注文本对联合训练模型的过程中,当有标签数据很少时,模型对样本的认知不足,无标签数据的预测分布可能会很平坦,在计算目标损失时,主要贡献的部分将来自于有标签数据,这与利用无标签数据的思路是相悖的。考虑到比较丰富的数据分布是比较有利于模型训练的,因此在各个无标注文本对中,滤除预测网页类型标签的数值在预设区间内的无标注文本对。例如,预测网页类型标签用预测置信度来表示,在计算第二损失时,不考虑预测置信度在0.5附近的无标注文本对,若无标注文本对应的预测置信度在0.5附近,说明模型对这个无标注文本的预测结果没有把握,无法区分这个无标注文本是属于正标签还是属于负标签。进而,在剩余的各个无标注文本对中,基于同一无标注文本对中第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失。例如,基于单个无标注文本对中第一文本和第二文本对应的预测网页类型标签之间的差异,得到第二子损失,各个无标注文本对存在对应的第二子损失,融合各个第二子损失得到第二损失。
上述实施例中,在计算第二损失的时候,不考虑预测置信度在预设区间内的无标注文本对,从而基于第二损失调整模型参数的时候,模型预测没把握、不自信的无标签数据的误差无法反向传递,有助于提高模型对样本的区分能力。
在一个实施例中,基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失,包括:
基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到标签损失;基于同一预测网页类型标签包含的各个预测置信度进行信息熵计算,分别得到各个无标注文本对所对应的信息熵;基于各个无标注文本对所对应的信息熵,得到信息熵损失;基于标签损失和信息熵损失,得到第二损失。
其中,预测网页类型标签包括在正标签和负标签上分别对应的预测置信度。在正标签上的预测置信度表示网页文本所属网页对应的网页类型属于正标签的置信程度、概率。在负标签上的预测置信度表示网页文本所属网页对应的网页类型属于负标签的置信程度、概率。例如,正标签表示网页文本所属网页对应的网页类型是游戏类,负标签表示网页文本所属网页对应的网页类型不是游戏类,在正标签上的预测置信度越高,则网页文本所属网页对应的网页类型是游戏类的概率越大,在负标签上的预测置信度越高,则网页文本所属网页对应的网页类型不是游戏类的概率越大。
信息熵用于描述信息源各可能事件发生的不确定性。信息熵计算是指计算预测置信度的信息熵。信息熵计算的计算公式为:。/>表示在第i个类别上的预测置信度,n表示类别数量,H表示信息熵。可以理解,信息熵越大,说明在正标签和负标签上分别对应的预测置信度越接近;信息熵越小,说明在正标签和负标签上分别对应的预测置信度差异越大。
具体地,为了让同一网页文本在正标签和负标签上分别对应的预测置信度差异越大,即为了让模型可以明确识别网页文本所属网页对应的网页类型,在计算第二损失的时候可以加上信息熵的计算。
计算机设备可以基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到标签损失。标签损失用于指导模型针对相似的文本能够输出一致的标签。计算机设备基于同一预测网页类型标签包含的各个预测置信度进行信息熵计算,分别得到各个无标注文本对所对应的信息熵,基于各个无标注文本对所对应的信息熵,得到信息熵损失。例如,计算各个信息熵的总和作为信息熵损失。最终,计算机设备基于标签损失和信息熵损失,得到第二损失。例如,将标签损失和信息熵损失的总和作为第二损失;将标签损失和信息熵损失进行加权求和得到第二损失,标签损失和信息熵损失分别对应的损失权重可以根据实际需要进行设置。
可以理解,若预测网页类型标签包括在正标签和负标签上分别对应的预测置信度,前述各个实施例中通常使用预测网页类型标签在正标签上对应的预测置信度。
上述实施例中,第二损失包括标签损失和信息熵损失,基于第二损失调整模型参数的时候,有助于提高模型对样本的区分能力。
在一个实施例中,网页类型识别模型的训练过程参考图8。获取少量有标签数据L,将有标签数据L中的有标签文本(即有标注文本)输入初始网页类型识别模型,得到有标签文本对应的预测网页类型标签,基于有标签文本对应的预测网页类型标签和标注网页类型标签计算有标签损失H。在计算有标签损失H时,提出一种信号缓释的策略来优化有标签损失H,以防止训练过程中有标签数据的快速过拟合。在训练的t时刻(即第t个模型迭代轮次),设置一个阈值 ηt,且1/K≤ηt≤1,其中,K是训练标签的类别数。当某个有标签文本对应的预测置信度大于阈值 ηt,就将该有标签文本移除出计算有标签损失的过程,基于当前模型迭代轮次中的其余有标签文本的相关数据计算有标签损失。阈值 ηt随着模型迭代轮次的增加而增加。
获取大量无标签数据对,一个无标签数据对包括U和U’,将无标签数据对中的无标签文本(即无标注文本)输入初始网页类型识别模型,得到无标签文本对应的预测网页类型标签,基于无标签数据对中无标签文本对应的预测网页类型标签之间的差异计算无标签损失U。在计算无标签损失U时,提出一种输出分布锐化的策略,以丰富无标签数据的预测分布。输出分布锐化的策略包括两种,一种是将预测效果不好的无标签数据对除出计算无标签损失的过程,即将预测置信度在预设区间内的无标签数据对除出计算无标签损失的过程,另一种是加上信息熵的计算。
在得到有标签损失H和无标签损失U后,基于有标签损失H和无标签损失U计算联合损失,联合损失=U+λH。通过梯度下降算法基于联合损失计算回传梯度,基于回传梯度来调整初始网页类型识别模型的模型参数。在基于回传梯度来调整初始网页类型识别模型的模型参数时,可以通过学习率来控制调整幅度,学习率随着模型迭代轮次的增加而减小。
经过模型迭代训练后,得到目标网页类型识别模型。目标网页类型识别模需要在测试集上进行测试,如果测试的结果大于设定的准确率阈值,则可以上线目标网页类型识别模,将目标网页类型识别模投入使用。如果测试结果小于或等于设定的准确率阈值,则需要标注更多数据,重新进行模型训练。
在一个实施例中,将所述待识别网页对应的网页文本和预设对象集合进行匹配,得到所述待识别网页涉及的目标对象,包括:
获取对象字典树和字表;对象字典树是基于预设对象集合生成的,字表包括预设对象集合中各个对象标识之间非重复的字;从待识别网页对应的网页文本中确定目标字;当在字表中查找到目标字时,将目标字对应的目标字符串和对象字典树进行匹配;目标字对应的目标字符串包括目标字和目标字在待识别网页对应的网页文本中的后向字符串;当目标字对应的目标字符串在对象字典树中匹配到子树时,将匹配到的子树对应的对象作为待识别网页中涉及的目标对象;从待识别网页对应的网页文本中获取下一个字作为目标字,返回当在字表中查找到目标字时,将目标字对应的目标字符串和对象字典树进行匹配的步骤执行,直至待识别网页对应的网页文本中各个字均参与匹配,得到待识别网页涉及的各个目标对象。
其中,对象字典树是一种查找对象的字典树。字典树是一种用于加速匹配的数据结构。基于预设对象集合生成对象字典树。在对象字典树中,根节点和叶子节点不包含字符,除根节点和叶子节点外每一个节点都只包含一个字符,从根节点到某一叶子节点,路径上经过的字符连接起来,为一个对象对应的对象标识。对象字典树包括多个子树,一个子树对应一个对象标识。
例如,若预设对象集合包括4个对象名称,分别为Python、Java、J2ee和Ruby,基于预设对象集合生成的对象字典树可以参考图9。其中,start节点表示根节点,EOT节点表示叶子节点。P、y、t、h、o、n分别对应的节点组成一个子树,J、a、v、a分别对应的节点组成一个子树,J、2、e、e分别对应的节点组成一个子树,R、u、b、y分别对应的节点组成一个子树。
字表包括预设对象集合中各个对象标识之间非重复的字。例如,若预设对象集合包括4个对象名称,分别为Python、Java、J2ee和Ruby,则字表包括P、y、t、h、o、n、J、a、v、2、e、R、u、b。
具体地,计算机设备可以将待识别网页对应的网页文本和对象字典树进行匹配来确定待识别网页涉及的目标对象。
从待识别网页对应的网页文本中获取第一个字作为目标字,为了提高匹配速度,先从字表中查找是否存在目标字,若存在,再将目标字对应的目标字符串和对象字典树进行匹配,若不存在,则从待识别网页对应的网页文本中获取下一个字作为目标字,从字表中查找是否存在新的目标字。
若从字表中查找目标字,则将目标字对应的目标字符串和对象字典树进行匹配,目标字对应的目标字符串包括目标字和目标字在待识别网页对应的网页文本中的后向字符串,如果对象字典树中存在与目标字对应的目标字符串匹配的子树,则确定待识别网页对应的网页文本中出现了该子树对应的对象,将匹配到的子树对应的对象作为待识别网页中涉及的目标对象。也就是,以目标字为起始的文本字符串,输入到对象字典树中进行匹配,如果能够成功从根节点匹配到叶子节点,则输出路径对应的匹配字符串,这个匹配字符串即为目标对象对应的对象标识。
在将目标字对应的目标字符串和对象字典树进行匹配后,从待识别网页对应的网页文本中获取下一个字作为目标字,返回从字表中查找是否存在目标字的步骤执行,直至待识别网页对应的网页文本中各个字均参与匹配,即直至待识别网页对应的网页文本中各个字均作为过目标字,最终得到待识别网页涉及的各个目标对象。
上述实施例中,将待识别网页对应的网页文本包含的各个字依次作为目标字,针对任意的目标字,先确定字表中是否存在目标字,若存在,再从对象字典树中查找是否存在相应的匹配字符串,能够避免盲目从对象字典树中查找字符串,提高待识别网页涉及的对象的查找效率。
在一个实施例中,网页内容识别方法还包括:
获取关联数据字典树;关联数据字典树是基于预设关联数据集合生成的,预设关联数据集合包括预设对象集合对应的各个对象分别对应的关联数据的关联数据标识;字表包括预设对象集合和预设关联数据集合中涉及的各个非重复的字;当待识别网页对应的网页文本和对象字典树匹配失败时,将待识别网页对应的网页文本和关联数据字典树进行匹配,得到待识别网页涉及的各个目标关联数据;将各个目标关联数据分别对应的对象作为待识别网页涉及的各个目标对象。
其中,关联数据是与对象有关联的数据。例如,若对象为企业,关联数据可以是企业所提供的产品;若对象为名人,关联数据可以是名人所提供的作品。
关联数据字典树是一种查找关联数据的字典树。基于预设关联数据集合生成关联数据字典树。预设关联数据集合包括预设对象集合对应的各个对象分别对应的关联数据的关联数据标识。关联数据标识是一种标识,用于标识关联数据,例如,关联数据标识可以是关联数据名称。
字表包括预设对象集合和预设关联数据集合中涉及的各个非重复的字。
具体地,若待识别网页对应的网页文本和对象字典树匹配失败,则计算机设备可以获取关联数据字典树,将待识别网页对应的网页文本和关联数据字典树进行进一步的匹配来确定待识别网页涉及的目标对象。将待识别网页对应的网页文本和关联数据字典树进行匹配的方式和将待识别网页对应的网页文本和对象字典树进行匹配的方式相同,将待识别网页对应的网页文本包含的各个字依次作为目标字,针对存在于字表中但是在对象字典树中匹配失败的目标字,再从关联数据字典树中查找是否存在匹配的子树,若存在,则确定待识别网页对应的网页文本中出现了该子树对应的关联数据,将待识别网页涉及的各个关联数据分别对应的对象作为待识别网页涉及的各个目标对象。
上述实施例中,在从对象字典树中查找不到待识别网页中涉及的目标对象时,可以进一步从关联数据字典树中查找待识别网页中涉及的关联数据,将关联数据所属的对象作为待识别网页涉及的目标对象,保障查找网页涉及的对象的全面性、准确性。
在一个实施例中,目标网页类型为产品验真网页类型,目标对象为目标产品提供方。基于目标对象,确定待识别网页对应的网页内容识别结果,包括:
获取待识别网页对应的网址关联信息;网址关联信息包括待识别网页对应的网站备案信息、网络协议地址信息、网站提供方注册信息中的至少一者;基于网址关联信息和目标产品提供方,对待识别网页进行仿冒识别,得到待识别网页对应的网页内容识别结果。
其中,目标网页类型为产品验真网页类型。标注网页类型标签包括表征网页属于产品验真网页类型的正标签、表征网页不属于产品验真网页类型的负标签。属于产品验真网页类型的网页为产品验真网页,产品验真网页是说明产品是否为正品的网页。例如,产品验真网页可以是扫码验真网页,扫码验真网页是通过移动终端扫码产品包装上的验真二维码而跳转到的验真网页,网页中会说明该产品是否为正品。
针对产品验真网页,对象为产品提供方,目标对象为目标产品提供方。产品提供方是指提供产品的组织或个人。产品提供方标识是一种标识,用于标识产品提供方。例如,产品提供方是产品所属企业,产品提供方标识可以是企业名称。可以理解,针对产品验真网页,对象为产品提供方,将产品验真网页对应的网页文本和预设产品提供方集合进行匹配,以确定产品验真网页涉及的目标产品提供方。进一步的,若对象为产品提供方,关联数据为产品提供方所提供的产品。
网站备案信息是将网站向有关部门备案登记得到的信息。例如,网站备案信息可以是ICP备案信息;网站备案信息可以是WHOIS备案信息。网站备案信息用于记录网站的基本信息,例如网站所属方、网站域名、网站地址、网站创建时间等基本信息。网站备案信息包括备案产品提供方,备案产品提供方是指网站备案登记时记录的产品提供方。网站备案信息包括备案时间信息,备案时间信息是指网站备案登记时记录的与时间相关的信息,例如,备案时间信息可以是网站创建时间,备案时间信息可以是网站过期时间。可以理解,某个产品的产品验真网页的网站所属方通常为该产品的产品提供方。
网络协议地址信息是指网站的IP地址(Internet Protocol Address,网际协议地址)信息。网络协议地址信息用于记录网站IP地址的相关信息,例如IP地址、IP地址所在地、最近一次IP地址切换时间等IP相关信息。
在一个实施例中,网址关联信息包括ICP备案信息、WHOIS备案信息、IP地址信息。参考图10,ICP备案信息包括网站域名、网站所属单位的单位名称、单位性质、网站名称、网站备案号、审核时间、网站地址。WHOIS备案信息包括网站域名、网站的创建时间、注册时间、更新时间、过期时间、注册人、注册email(邮箱)、注册email恶意强度。IP地址信息包括网站对应的各个IP地址、IP地址的地理位置、状态、DNS(Domain Name System,域名系统)解析时间、IP恶意等级、IP属性、恶意状态、详情。网站提供方注册信息是指网站提供方的工商注册信息,即提供网站的企业或个人的工商注册信息,网站所属方的工商注册信息。网站提供方注册信息包括网站提供方的注册状态,网站提供方的注册状态是指网站提供方的经营状态。
对网页进行仿冒识别是指识别网页是否是假冒的。
具体地,产品验真网页是一种防伪手段,但是针对假冒的产品也存在假冒的产品验证网页,从海量网页中识别出假冒的产品验真网页有助于识别出假冒产品。
网页类型识别模型的训练数据包括产品验真网页和非产品验真网页的相关数据,目标网页类型识别模型用于识别产品验真网页。将待识别网页的网页文本输入目标网页类型识别模型,模型输出预测网页类型标签。例如,预测网页类型标签用预测置信度来表示,预设置信度越高,待识别网页属于产品验真网页的概率越高,若预测置信度大于预设置信度,则确定待识别网页是产品验真网页,预测网页类型标签属于正标签,若预测置信度小于或等于预设置信度,则确定待识别网页不是产品验真网页,预测网页类型标签属于负标签。
在预测网页类型标签为正标签时,计算机设备将待识别网页对应的网页文本和预设产品提供方集合进行匹配,将预设产品提供方集合中匹配成功的产品提供方作为待识别网页涉及的目标产品提供方。进而,计算机设备基于待识别网页对应的网址获取待识别网页对应的网址关联信息,基于待识别网页对应的网址关联信息和目标产品提供方,对待识别网页进行仿冒识别,得到待识别网页对应的网页内容识别结果。例如,网址关联信息可以包括待识别网页的注册企业名称,若待识别网页的注册企业名称和待识别网页中涉及的企业名称不一致,则确定待识别网页为假冒网页,网页内容识别结果为待识别网页属于假冒的产品验真网页。
可以理解,在预测网页类型标签为负标签时,计算机设备无需对待识别网页进行后续处理来进行仿冒识别。在待识别网页不涉及产品提供方时,计算机设备也可以无需对待识别网页进行仿冒识别。
上述实施例中,在通过模型识别到待识别网页属于产品验真网页时,将待识别网页对应的网页文本和预设产品提供方集合进行匹配,得到待识别网页涉及的目标产品提供方,目标产品提供方可以反映产品验真网页的相关内容,待识别网页对应的网址关联信息可以提供产品验真网页的相关内容,基于待识别网页对应的网址关联信息和目标产品提供方,对待识别网页进行仿冒识别,能够保障仿冒识别的准确性,也可以节省人力,提高仿冒识别效率。
在一个实施例中,基于网址关联信息和目标产品提供方,对待识别网页进行仿冒识别,得到待识别网页对应的网页内容识别结果,包括:
基于网站备案信息中的备案产品提供方和目标产品提供方之间的差异,确定待识别网页对应的第一仿冒度;基于网站备案信息中的备案时间信息,确定待识别网页对应的第二仿冒度;基于网络协议地址信息,确定待识别网页对应的第三仿冒度;基于网站提供方注册信息中的注册状态,确定待识别网页对应的第四仿冒度;基于第一仿冒度、第二仿冒度、第三仿冒度、第四仿冒度中的至少一者,确定待识别网页对应的网页内容识别结果。
其中,仿冒度用于表征网页的仿冒程度。仿冒度越高,网页属于仿冒网页的概率越大。
具体地,计算机设备可以基于待识别网页对应的网址关联信息和目标产品提供方确定待识别网页对应的仿冒度,根据仿冒度确定待识别网页是否属于仿冒网页,得到待识别网页对应的网页内容识别结果。
针对网站备案信息,可以基于网站备案信息中的备案产品提供方和目标产品提供方之间的差异,确定待识别网页对应的第一仿冒度。例如,若备案产品提供方和目标产品提供方相同,则将第一预设值作为第一仿冒度,若备案产品提供方和目标产品提供方不同,则将第二预设值作为第一仿冒度,第一预设值小于第二预设值。此外,也可以基于网站备案信息中的备案时间信息,确定待识别网页对应的第二仿冒度。例如,备案时间信息中的备案时间和当前时间之间的时间间隔越小,说明待识别网页越新,而仿冒网页一般寿命较短,仿冒网页一般都是最近新建的网页,因此,备案时间信息中的备案时间和当前时间之间的时间间隔越小,第二仿冒度可以越大。又例如,若当前时间未超过备案时间信息中的过期时间,则将第三预设值作为第二仿冒度,若当前时间已经超过备案时间信息中的过期时间,则将第四预设值作为第二仿冒度,第三预设值小于第四预设值。
针对网络协议地址信息,基于网络协议地址信息,确定待识别网页对应的第三仿冒度。例如,网络协议地址信息包括最近一次IP地址切换时间,仿冒网页一般会频繁切换IP地址,因此,最近一次IP地址切换时间和当前时间之间的时间间隔越小,第三仿冒度越大。又例如,网络协议地址信息包括IP地址所在地,若IP地址所在地位于境内,则将第五预设值作为第三仿冒度,若IP地址所在地位于境外,则将第六预设值作为第三仿冒度,第五预设值小于第六预设值。
针对网站提供方注册信息,基于网站提供方注册信息中的注册状态,确定待识别网页对应的第四仿冒度。例如,注册状态包括注销、吊销和存续,若注册状态为存续,则将第七预设值作为第四仿冒度,若注册状态为注销或吊销,则将第八预设值作为第四仿冒度,第七预设值小于第八预设值。
网址关联信息包括待识别网页对应的网站备案信息、网络协议地址信息、网站提供方注册信息中的至少一者,计算机设备可以基于第一仿冒度、第二仿冒度、第三仿冒度、第四仿冒度中的至少一者,确定待识别网页对应的网页内容识别结果。
上述实施例中,根据不同类型的网址关联信息分别确定相应的仿冒度,基于各种仿冒度,确定待识别网页对应的仿冒识别结果,能够保障仿冒识别的准确性。
在一个实施例中,基于第一仿冒度、第二仿冒度、第三仿冒度、第四仿冒度中的至少一者,确定待识别网页对应的网页内容识别结果,包括:
融合第一仿冒度、第二仿冒度、第三仿冒度、第四仿冒度中的至少一者,得到目标仿冒度;当目标仿冒度大于或等于预设仿冒度时,确定待识别网页对应的网页内容识别结果为待识别网页属于仿冒网页;当目标仿冒度小于预设仿冒度时,确定待识别网页对应的网页内容识别结果为待识别网页不属于仿冒网页。
其中,预设仿冒度是预先设置的仿冒度阈值,具体可以根据实际需要进行设置。
具体地,融合第一仿冒度、第二仿冒度、第三仿冒度、第四仿冒度中的至少一者,得到目标仿冒度。例如,将各种仿冒度求和得到目标仿冒度;将各种仿冒度进行加权求和得到目标仿冒度,各种仿冒度分别对应的权重可以根据实际需要进行设置。目标仿冒度越大,网页属于仿冒网页的概率越大,因此若目标仿冒度大于或等于预设仿冒度,则计算机设备可以确定待识别网页对应的网页内容识别结果为待识别网页属于仿冒网页,若目标仿冒度小于预设仿冒度,则计算机设备可以确定待识别网页对应的网页内容识别结果为待识别网页不属于仿冒网页。
上述实施例中,融合第一仿冒度、第二仿冒度、第三仿冒度、第四仿冒度中的至少一者,得到目标仿冒度,将目标仿冒度和预设仿冒度进行比较,可以快速确定待识别网页是否属于仿冒网页。
在一个实施例中,针对产品验真网页,网页内容和网址可以假冒,但网页的元信息,如ICP备案、WHOIS备案、IP地址等是难以假冒的。可以通过网络相关接口获取待识别网页如表1所示的元信息。进一步的,参考表2,将待识别网页的元信息进行解析和特征转换,得到8种特征。进一步的,以基础分0分为起始分数,即score=0,基于以下特征分析情况进行score的增减:针对特征1+特征2,ICP备案与页面产品所属主体是否为同个企业,以及WHOIS注册人与页面产品所属主体是否为同个企业,若其中有一个不是,则score = score+60,若都不是,则score无变化;针对特征3,WHOIS创建距今天数,若天数<30,则score=score+10,若30<天数<180,则score=score+5;针对特征4,WHOIS是否已过期,若以过期,则score=score+10,否则无变化;针对特征5,备案单位性质是否为企业,若不是,则score=score+20,否则无变化;针对特征6,IP所在地是否为境内,若是,则score无变化,若不是,则score=score+10;针对特征7,最近一次IP地址切换时间距今天数,若天数<30,则score=score+10,若30<天数<180,则score=score+5;针对特征8,企业存续状态,若企业存续状态为吊销或者注销的,score = score+10。设定阈值为80,若最终计算得到的score≥80,则待识别网页被视为假冒网页、仿冒网页。
表1
表2
在一个实施例中,目标网页类型为金融网页类型,目标对象为目标金融机构。基于目标对象,确定待识别网页对应的网页内容识别结果,包括:
对待识别网页进行针对目标金融机构的语义倾向分析,得到待识别网页对应的网页内容识别结果。
其中,目标网页类型为金融网页类型。标注网页类型标签包括表征网页属于金融网页类型的正标签、表征网页不属于金融网页类型的负标签。属于金融网页类型的网页为金融网页。金融网页一般会涉及金融产品。目标对象为目标金融机构。金融机构即为提供金融产品的机构。
对金融网页进行针对网页涉及的金融机构的语义倾向分析是指,针对网页涉及的金融机构,分析金融网页的网页内容表达的意思或情感色彩是正向还是反向的,是积极还是消极的。
具体地,网页类型识别模型的训练数据包括金融网页和非金融网页的相关数据,目标网页类型识别模型用于识别金融网页。将待识别网页的网页文本输入目标网页类型识别模型,模型输出预测网页类型标签。例如,预测网页类型标签用预测置信度来表示,预设置信度越高,待识别网页属于金融网页的概率越高,若预测置信度大于预设置信度,则确定待识别网页是金融网页,预测网页类型标签属于正标签,若预测置信度小于或等于预设置信度,则确定待识别网页不是金融网页,预测网页类型标签属于负标签。
在预测网页类型标签为正标签时,计算机设备将待识别网页对应的网页文本和预设金融机构集合进行匹配,确定待识别网页涉及的目标金融机构,进而对待识别网页进行针对目标金融机构的语义倾向分析,确定待识别网页进行针对目标金融机构的语义倾向,将待识别网页进行针对目标金融机构的语义倾向作为待识别网页对应的网页内容识别结果。例如,将待识别网页对应的网页文本中的词语和预设正向语义词语集合进行匹配,确定待识别网页涉及的正向语义词语数量,将待识别网页对应的网页文本中的词语和预设反向语义词语集合进行匹配,确定待识别网页涉及的反向语义词语数量,基于正向语义词语数量和反向语义词语数量确定待识别网页进行针对目标金融机构的语义倾向。正向语义词语数量大于反向语义词语数量,或者正向语义词语数量比反向语义词语数量多预设数量,则确定待识别网页进行针对目标金融机构的语义倾向为正向。
可以理解,在预测网页类型标签为负标签时,计算机设备无需对待识别网页进行后续处理来进行语义倾向分析。在待识别网页不涉及金融机构时,计算机设备也可以无需对待识别网页进行语义倾向分析。
上述实施例中,在通过模型识别到待识别网页属于金融网页时,将待识别网页对应的网页文本和预设金融机构集合进行匹配,得到待识别网页涉及的目标金融机构,对待识别网页进行针对目标金融机构的语义倾向分析,得到待识别网页对应的网页内容识别结果。这样,可以从海量网页中快速准确识别出金融网页,进行对金融网页进行针对涉及的金融机构的语义倾向分析,语义倾向分析结果有助于对金融机构进行优化。
在一个具体的实施例中,本申请方法可以应用于针对扫码验真网页的仿冒识别场景下。现有技术中,线上线下假货线索隐藏很深、线索特征复杂多样导致的假货容易漏检误检,本申请提出了一种基于互联网扫码验真网页的假货线索识别方法,能够提高假货识别效率和准确性。
参考图11,本申请方法包括三个部分,分别为扫码验真网页识别、网页扫码产品所属企业挖掘、基于网页元信息的真假扫码验真网页研判。本申请方法的输入数据包括待识别网页的网页URL(Uniform Resource Locator,统一资源定位器)、网页内容(包括网页标题和网页正文),输出数据包括待识别网页的真假识别结果。
针对扫码验真网页识别环节,构建基于深度学习的扫码验真网页识别模型,扫码验真网页识别模型用于对网页的文本信息进行分析和特征提取以识别网页是否为扫码验真网页。扫码验真网页识别模型需要有标签数据指导训练才能获得较好的模型预测效果,因此人工标注工作通常是无可避免的。互联网中存在海量网页,扫码验真网页在互联网中的占比通常较小,人工从海量网页中大量获取扫码验真网页是比较困难的。在模型训练过程中,为了在有标签数据有限的前提下进一步提升模型的训练效果,采用了半监督的训练方式,充分利用有限的有标签数据与海量的无标签数据来训练模型。通过少量的人工标注即可得到有标签数据,例如,标记1000张正负样本,正样本为扫码验证网页,负样本为非扫码验真网页。进一步的,可以先获取待标注数据,相似网页的重复标注是冗余操作,会降低人工标注的效率,因此过滤待标注数据中比较相似的样本,将剩余的待标注数据进行人工标注,从而得到有标签数据。在模型训练过程中,基于有限的有标签数据和大量的无标签数据对,对模型进行训练,得到完成训练的模型。将训练得到的模型在测试集上进行测试,如果测试的结果超过设定的准确率阈值,则模型可以上线。如果测试结果未超过设定的准确率阈值,则需要标注更多数据,重新训练。该环节能够以较低的训练成本获得效果良好的模型,并利用模型从纷繁复杂的互联网数据中挖掘出各式各样的扫码验真网页,为后续环节提供良好的前置数据。
针对网页扫码产品所属企业挖掘环节,从互联网中搜寻企业品牌目录信息来构建企业品牌大全,为了提高企业品牌大全与扫码验真网页的匹配速度,基于企业品牌大全构建企业字典树和品牌字典树,将扫码验真网页的网页内容和企业字典树、品牌字典树进行匹配来确定网页扫码产品所属企业。该环节能准确提取得到网页中扫码产品的企业信息,为后续环节提供良好的前置数据。
针对基于网页元信息的真假扫码验真网页研判环节,获取扫码验真网页的网页元信息,基于网页元信息和挖掘出的扫码产品所属企业判断扫码验真网页的真假情况。
参考图12,获取待识别网页的网页URL(即网址)、网页标题和网页正文,将网页标题和网页正文输入深度学习模型(即扫码验真网页识别模型)来确定待识别网页是否为扫码验真网页。若待识别网页不是扫码验真网页,则无需进行后续处理。若待识别网页为扫码验真网页,则将网页标题和网页正文先和企业字典树进行匹配,确定网页中扫码产品所属企业,若从企业字典树中无法确定网页中扫码产品所属企业,再将网页标题和网页正文和品牌字典树进行匹配,确定网页中扫码产品所属品牌,将网页中扫码产品所属品牌对应的企业作为网页中扫码产品所属企业。若无法确定网页中扫码产品所属企业,则无需进行后续处理。在确定网页中扫码产品所属企业后,获取网页元信息,如WHOIS备案、ICP备案、IP地址、工商信息等信息。基于网页中扫码产品所属企业将网页元信息进行解析和特征化,得到待识别网页对应的网页元特征。如网页元特征为[网页中产品所属企业名称、ICP备案与页面产品所属主体是否为同个企业、WHOIS注册人与页面产品所属主体是否为同个企业、WHOIS创建距今天数、WHOIS是否已过期、备案单位性质是否为企业、IP所在地是否为境内、最近一次IP地址切换时间距今天数、企业存续状态]。将待识别网页对应的网页元特征输入策略模型进行打分,得到待识别网页对应的仿冒分数(score),若待识别网页对应的仿冒分数大于或等于分数阈值,则确定待识别网页属于假冒的、仿冒的扫码验真网页,若待识别网页对应的仿冒分数小于分数阈值,则确定待识别网页不属于假冒的、仿冒的扫码验真网页。可以理解,本申请方法可以由计算机设备执行,计算机设备是定期执行本申请方法,每次执行时获取海量的网页,海量的网页可以是不限范围的网页,参考表3,每次执行时输出受到仿冒的企业名称和仿冒链接,受到仿冒的企业名称和仿冒链接为假货线索。
表3
本申请方法,从扫码验真这种客户操作的角度切入,以侧面挖掘假货线索,并且无需预先给定企业,而是在广泛的互联网网页中进行自动的识别和挖掘研判,能够输出整个互联网上被侵犯的所有企业的线索数据,具有高精度、高召回率、范围广、成本低、检出多的特点。通过本申请方法可以识别出大量的假冒扫码验真网页,具有极高的精度、召回率。这些假货线索,一方面可以提供给对应的企业进行维权操作,另一方面也可以提供给相关部门进行系统性的打假操作,维护市场公平公正。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的网页内容识别方法的网页内容识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个网页内容识别装置实施例中的具体限定可以参见上文中对于网页内容识别方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供了一种网页内容识别装置,包括:网页文本获取模块1302、网页类型识别模块1304、网页文本匹配模块1306和网页内容识别模块1308,其中:
网页文本获取模块1302,用于获取待识别网页对应的网页文本。
网页类型识别模块1304,用于将待识别网页对应的网页文本输入目标网页类型识别模型,得到待识别网页对应的预测网页类型标签;目标网页类型识别模型是基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练得到的,有标注文本是已标注网页类型的网页对应的网页文本,无标注文本对中的文本是未标注网页类型的网页对应的网页文本,无标注文本对中的各个文本是相似的文本。
网页文本匹配模块1306,用于在待识别网页对应的预测网页类型标签表征待识别网页属于目标网页类型时,将待识别网页对应的网页文本和预设对象集合进行匹配,得到待识别网页涉及的目标对象。
网页内容识别模块1308,用于基于目标对象,确定待识别网页对应的网页内容识别结果。
在一个实施例中,网页内容识别装置还用于:
获取多个待标注文本,提取各个待标注文本分别对应的文本特征;
从各个待标注文本中确定当前文本;
基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果;
当查询结果为查找到当前文本对应的目标相似文本时,将当前文本加入第一文本集,当查询结果为未查找到当前文本对应的目标相似文本时,将当前文本分别加入第一文本集和第二文本集;
从各个待标注文本中获取下一待标注文本作为当前文本,返回基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果的步骤执行,直至各个待标注文本均查询完毕;
对最终得到的第二文本集中的各个待标注文本所属的网页进行网页类型标注,得到多个有标注文本。
在一个实施例中,网页内容识别装置还用于:
基于当前文本对应的文本特征分别和第一文本集中各个文本各自的文本特征之间的特征相似度,从第一文本集包含的各个文本中确定当前文本对应的初始相似文本;
在当前文本和对应的初始相似文本之间的编辑距离大于或等于预设距离时,将当前文本对应的初始相似文本作为当前文本对应的目标相似文本,得到查询结果;
在当前文本和对应的初始相似文本之间的编辑距离小于预设距离,或者当前文本不存在对应的初始相似文本时,确定查询结果为未查找到当前文本对应的目标相似文本。
在一个实施例中,网页内容识别装置还用于:
获取有标注文本集和无标注文本集;
基于有标注文本集对候选网页类型识别模型进行训练,得到中间网页类型识别模型;
将无标注文本集中各个无标注文本输入中间网页类型识别模型,得到各个无标注文本分别对应的预测网页类型标签;无标注文本对应的预测网页类型标签用于作为无标注文本对应的伪标签;
基于伪标签对各个无标注文本进行筛选,得到目标无标注文本集;
对目标无标注文本集中的各个目标无标注文本分别进行相似变换,得到各个目标无标注文本分别对应的相似文本;
将目标无标注文本和对应的相似文本组成无标注文本对,得到多个无标注文本对。
在一个实施例中,网页内容识别装置还用于:
统计各个伪标签中正标签和负标签的数量,得到正标签数量和负标签数量;
从正标签数量和负标签数量中获取更少的标签数量作为参考标签数量,将参考标签数量对应的网页类型标签作为参考标签;
从具有参考标签的各个无标注文本中,获取第一数量的无标注文本作为目标无标注文本;第一数量小于参考标签数量;
从不具有参考标签的各个无标注文本中,获取第二数量的无标注文本作为目标无标注文本;第一数量和第二数量之比在预设比例范围内;
基于各个目标无标注文本得到目标无标注文本集。
在一个实施例中,网页内容识别装置还用于:
对目标无标注文本集中的各个目标无标注文本分别进行回译处理,得到各个目标无标注文本分别对应的回译后文本,将目标无标注文本对应的回译后文本作为目标无标注文本对应的相似文本。
在一个实施例中,网页内容识别装置还用于:
将有标注文本、无标注文本对中的第一文本和第二文本分别输入初始网页类型识别模型,得到有标注文本、第一文本和第二文本分别对应的预测网页类型标签;
基于有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失,基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失;
基于第一损失和第二损失,调整初始网页类型识别模型的模型参数,直至满足收敛条件,得到目标网页类型识别模型。
在一个实施例中,网页内容识别装置还用于:
在各个有标注文本中,过滤预测网页类型标签的数值大于预设阈值的有标注文本;
在剩余的各个有标注文本中,基于同一有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失。
在一个实施例中,预设阈值大于或等于参考值,参考值是根据标注网页类型标签对应的标签种类数量对预测网页类型标签对应的取值范围进行划分得到的;预设阈值随着模型迭代轮次的增加而增加。
在一个实施例中,网页内容识别装置还用于:
在各个无标注文本对中,过滤预测网页类型标签的数值在预设区间内的无标注文本对;预设区间是预测网页类型标签对应的取值范围中的中位区间;
在剩余的各个无标注文本对中,基于同一无标注文本对中第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失。
在一个实施例中,预测网页类型标签包括在正标签和负标签上分别对应的预测置信度。网页内容识别装置还用于:
基于无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到标签损失;
基于同一预测网页类型标签包含的各个预测置信度进行信息熵计算,分别得到各个无标注文本对所对应的信息熵;
基于各个无标注文本对所对应的信息熵,得到信息熵损失;
基于标签损失和信息熵损失,得到第二损失。
在一个实施例中,网页文本匹配模块1306还用于:
获取对象字典树和字表;对象字典树是基于预设对象集合生成的,字表包括预设对象集合中各个对象标识之间非重复的字;
从待识别网页对应的网页文本中确定目标字;
当在字表中查找到目标字时,将目标字对应的目标字符串和对象字典树进行匹配;目标字对应的目标字符串包括目标字和目标字在待识别网页对应的网页文本中的后向字符串;
当目标字对应的目标字符串在对象字典树中匹配到子树时,将匹配到的子树对应的对象作为待识别网页中涉及的目标对象;
从待识别网页对应的网页文本中获取下一个字作为目标字,返回当在字表中查找到目标字时,将目标字对应的目标字符串和对象字典树进行匹配的步骤执行,直至待识别网页对应的网页文本中各个字均参与匹配,得到待识别网页涉及的各个目标对象。
在一个实施例中,网页文本匹配模块1306还用于:
获取关联数据字典树;关联数据字典树是基于预设关联数据集合生成的,预设关联数据集合包括预设对象集合对应的各个对象分别对应的关联数据的关联数据标识;字表包括预设对象集合和预设关联数据集合中涉及的各个非重复的字;
当待识别网页对应的网页文本和对象字典树匹配失败时,将待识别网页对应的网页文本和关联数据字典树进行匹配,得到待识别网页涉及的各个目标关联数据;
将各个目标关联数据分别对应的对象作为待识别网页涉及的各个目标对象。
在一个实施例中,目标网页类型为产品验真网页类型,目标对象为目标产品提供方。网页内容识别模块1308还用于:
获取待识别网页对应的网址关联信息;网址关联信息包括待识别网页对应的网站备案信息、网络协议地址信息、网站提供方注册信息中的至少一者;
基于网址关联信息和目标产品提供方,对待识别网页进行仿冒识别,得到待识别网页对应的网页内容识别结果。
在一个实施例中,网页内容识别模块1308还用于:
基于网站备案信息中的备案产品提供方和目标产品提供方之间的差异,确定待识别网页对应的第一仿冒度;
基于网站备案信息中的备案时间信息,确定待识别网页对应的第二仿冒度;
基于网络协议地址信息,确定待识别网页对应的第三仿冒度;
基于网站提供方注册信息中的注册状态,确定待识别网页对应的第四仿冒度;
基于第一仿冒度、第二仿冒度、第三仿冒度、第四仿冒度中的至少一者,确定待识别网页对应的网页内容识别结果。
在一个实施例中,网页内容识别模块1308还用于:
融合第一仿冒度、第二仿冒度、第三仿冒度、第四仿冒度中的至少一者,得到目标仿冒度;
当目标仿冒度大于或等于预设仿冒度时,确定待识别网页对应的网页内容识别结果为待识别网页属于仿冒网页;
当目标仿冒度小于预设仿冒度时,确定待识别网页对应的网页内容识别结果为待识别网页不属于仿冒网页。
在一个实施例中,目标网页类型为金融网页类型,目标对象为目标金融机构。网页内容识别模块1308还用于:
对待识别网页进行针对目标金融机构的语义倾向分析,得到待识别网页对应的网页内容识别结果。
上述网页内容识别装置,通过目标网页类型识别模型快速识别待识别网页对应的网页类型,在待识别网页属于目标网页类型时,进一步通过预设对象集合识别待识别网页涉及的目标对象,最终基于目标对象确定待识别网页对应的网页内容识别结果。根据目标网页类型识别模型的网页类型识别结果按需进行网页内容识别,避免盲目进行网页内容识别,能够有效提高网页内容识别效率。并且,针对模型训练,无标注文本对是无需标注的训练数据,能够减轻训练数据的标注压力,只需进行少量训练数据的标注得到有标注文本,进而基于无标注文本对和有标注文本对初始网页类型识别模型进行训练,能够快速训练得到目标网页类型识别模型,从而有助于有效提高网页内容识别效率。
上述网页内容识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据、模型、字典树等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页内容识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种网页内容识别方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14、15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (36)
1.一种网页内容识别方法,其特征在于,所述方法包括:
获取待识别网页对应的网页文本;
将所述待识别网页对应的网页文本输入目标网页类型识别模型,得到所述待识别网页对应的预测网页类型标签;
在所述待识别网页对应的预测网页类型标签表征所述待识别网页属于目标网页类型时,将所述待识别网页对应的网页文本和预设对象集合进行匹配,得到所述待识别网页涉及的目标对象;
基于所述目标对象,确定所述待识别网页对应的网页内容识别结果;在所述目标网页类型为产品验真网页类型,所述目标对象为目标产品提供方时,所述网页内容识别结果为网页仿冒识别结果;
所述目标网页类型识别模型的训练过程包括:
将有标注文本、无标注文本对中的第一文本和第二文本分别输入初始网页类型识别模型,得到所述有标注文本、所述第一文本和所述第二文本分别对应的预测网页类型标签;所述有标注文本是已标注网页类型的网页对应的网页文本,所述无标注文本对中的文本是未标注网页类型的网页对应的网页文本,所述无标注文本对中的各个文本是相似的文本;
基于所述有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失;
基于所述无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失,包括:在各个无标注文本对中,过滤预测网页类型标签的数值在预设区间内的无标注文本对,所述预设区间是预测网页类型标签对应的取值范围中的中位区间,在剩余的各个无标注文本对中,基于同一无标注文本对中第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失;
基于所述第一损失和所述第二损失,调整所述初始网页类型识别模型的模型参数,直至满足收敛条件,得到所述目标网页类型识别模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个待标注文本,提取各个待标注文本分别对应的文本特征;
从所述各个待标注文本中确定当前文本;
基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果;
当所述查询结果为查找到当前文本对应的目标相似文本时,将当前文本加入第一文本集,当查询结果为未查找到当前文本对应的目标相似文本时,将当前文本分别加入第一文本集和第二文本集;
从所述各个待标注文本中获取下一待标注文本作为当前文本,返回所述基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果的步骤执行,直至所述各个待标注文本均查询完毕;
对最终得到的第二文本集中的各个待标注文本所属的网页进行网页类型标注,得到多个有标注文本。
3.根据权利要求2所述的方法,其特征在于,所述基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果,包括:
基于当前文本对应的文本特征分别和第一文本集中各个文本各自的文本特征之间的特征相似度,从第一文本集包含的各个文本中确定当前文本对应的初始相似文本;
在当前文本和对应的初始相似文本之间的编辑距离大于或等于预设距离时,将当前文本对应的初始相似文本作为当前文本对应的目标相似文本,得到查询结果;
在当前文本和对应的初始相似文本之间的编辑距离小于所述预设距离,或者当前文本不存在对应的初始相似文本时,确定查询结果为未查找到当前文本对应的目标相似文本。
4.根据权利要求2所述的方法,其特征在于,所述提取各个待标注文本分别对应的文本特征,包括:
计算各个待标注文本各自的词频信息;
分别对所述各个待标注文本各自的词频信息进行哈希处理,得到所述各个待标注文本分别对应的文本特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取有标注文本集和无标注文本集;
基于所述有标注文本集对候选网页类型识别模型进行训练,得到中间网页类型识别模型;
将所述无标注文本集中各个无标注文本输入所述中间网页类型识别模型,得到所述各个无标注文本分别对应的预测网页类型标签;所述无标注文本对应的预测网页类型标签用于作为无标注文本对应的伪标签;
基于所述伪标签对所述各个无标注文本进行筛选,得到目标无标注文本集;
对所述目标无标注文本集中的各个目标无标注文本分别进行相似变换,得到所述各个目标无标注文本分别对应的相似文本;
将目标无标注文本和对应的相似文本组成无标注文本对,得到多个无标注文本对。
6.根据权利要求5所述的方法,其特征在于,所述基于所述伪标签对所述各个无标注文本进行筛选,得到目标无标注文本集,包括:
统计各个伪标签中正标签和负标签的数量,得到正标签数量和负标签数量;
从所述正标签数量和所述负标签数量中获取更少的标签数量作为参考标签数量,将所述参考标签数量对应的网页类型标签作为参考标签;
从具有所述参考标签的各个无标注文本中,获取第一数量的无标注文本作为目标无标注文本;所述第一数量小于所述参考标签数量;
从不具有所述参考标签的各个无标注文本中,获取第二数量的无标注文本作为目标无标注文本;所述第一数量和所述第二数量之比在预设比例范围内;
基于各个目标无标注文本得到目标无标注文本集。
7.根据权利要求5所述的方法,其特征在于,所述对所述目标无标注文本集中的各个目标无标注文本分别进行相似变换,得到所述各个目标无标注文本分别对应的相似文本,包括:
对所述目标无标注文本集中的各个目标无标注文本分别进行回译处理,得到所述各个目标无标注文本分别对应的回译后文本,将目标无标注文本对应的回译后文本作为目标无标注文本对应的相似文本。
8.根据权利要求1所述的方法,其特征在于,所述基于所述有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失,包括:
在各个有标注文本中,过滤预测网页类型标签的数值大于预设阈值的有标注文本;
在剩余的各个有标注文本中,基于同一有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失。
9.根据权利要求8所述的方法,其特征在于,所述预设阈值大于或等于参考值,所述参考值是根据标注网页类型标签对应的标签种类数量对预测网页类型标签对应的取值范围进行划分得到的;所述预设阈值随着模型迭代轮次的增加而增加。
10.根据权利要求1所述的方法,其特征在于,所述待识别网页对应的网页文本包括所述待识别网页对应的网页标题和网页正文;
所述将所述待识别网页对应的网页文本输入目标网页类型识别模型,得到所述待识别网页对应的预测网页类型标签,包括:
将所述待识别网页对应的网页标题输入目标网页类型识别模型中的第一处理层,所述第一处理层输出所述待识别网页对应的第一文本特征;所述第一处理层包括嵌入层、卷积层和池化层;
将所述待识别网页对应的网页正文输入所述目标网页类型识别模型中的第二处理层,所述第二处理层输出所述待识别网页对应的第二文本特征;所述第二处理层包括嵌入层、卷积层和池化层;
将所述第一文本特征和所述第二文本特征输入所述目标网页类型识别模型中的综合处理层,所述综合处理层输出所述待识别网页对应的预测网页类型标签;所述综合处理层包括注意力层和前向网络。
11.根据权利要求1所述的方法,其特征在于,所述预测网页类型标签包括在正标签和负标签上分别对应的预测置信度;
所述基于所述无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失,包括:
基于所述无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到标签损失;
基于同一预测网页类型标签包含的各个预测置信度进行信息熵计算,分别得到所述各个无标注文本对所对应的信息熵;
基于各个无标注文本对所对应的信息熵,得到信息熵损失;
基于所述标签损失和所述信息熵损失,得到第二损失。
12.根据权利要求1所述的方法,其特征在于,所述将所述待识别网页对应的网页文本和预设对象集合进行匹配,得到所述待识别网页涉及的目标对象,包括:
获取对象字典树和字表;所述对象字典树是基于预设对象集合生成的,所述字表包括所述预设对象集合中各个对象标识之间非重复的字;
从所述待识别网页对应的网页文本中确定目标字;
当在所述字表中查找到目标字时,将目标字对应的目标字符串和所述对象字典树进行匹配;目标字对应的目标字符串包括目标字和目标字在所述待识别网页对应的网页文本中的后向字符串;
当目标字对应的目标字符串在所述对象字典树中匹配到子树时,将匹配到的子树对应的对象作为所述待识别网页中涉及的目标对象;
从所述待识别网页对应的网页文本中获取下一个字作为目标字,返回所述当在所述字表中查找到目标字时,将目标字对应的目标字符串和所述对象字典树进行匹配的步骤执行,直至所述待识别网页对应的网页文本中各个字均参与匹配,得到所述待识别网页涉及的各个目标对象。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
获取关联数据字典树;所述关联数据字典树是基于预设关联数据集合生成的,所述预设关联数据集合包括所述预设对象集合对应的各个对象分别对应的关联数据的关联数据标识;所述字表包括所述预设对象集合和所述预设关联数据集合中涉及的各个非重复的字;
当所述待识别网页对应的网页文本和所述对象字典树匹配失败时,将所述待识别网页对应的网页文本和所述关联数据字典树进行匹配,得到所述待识别网页涉及的各个目标关联数据;
将所述各个目标关联数据分别对应的对象作为所述待识别网页涉及的各个目标对象。
14.根据权利要求1所述的方法,其特征在于,所述目标网页类型为产品验真网页类型,所述目标对象为目标产品提供方;
所述基于所述目标对象,确定所述待识别网页对应的网页内容识别结果,包括:
获取所述待识别网页对应的网址关联信息;所述网址关联信息包括所述待识别网页对应的网站备案信息、网络协议地址信息、网站提供方注册信息中的至少一者;
基于所述网址关联信息和所述目标产品提供方,对所述待识别网页进行仿冒识别,得到所述待识别网页对应的网页内容识别结果。
15.根据权利要求14所述的方法,其特征在于,所述基于所述网址关联信息和所述目标产品提供方,对所述待识别网页进行仿冒识别,得到所述待识别网页对应的网页内容识别结果,包括:
基于所述网站备案信息中的备案产品提供方和所述目标产品提供方之间的差异,确定所述待识别网页对应的第一仿冒度;
基于所述网站备案信息中的备案时间信息,确定所述待识别网页对应的第二仿冒度;
基于所述网络协议地址信息,确定所述待识别网页对应的第三仿冒度;
基于所述网站提供方注册信息中的注册状态,确定所述待识别网页对应的第四仿冒度;
基于所述第一仿冒度、所述第二仿冒度、所述第三仿冒度、所述第四仿冒度中的至少一者,确定所述待识别网页对应的网页内容识别结果。
16.根据权利要求15所述的方法,其特征在于,所述基于所述第一仿冒度、所述第二仿冒度、所述第三仿冒度、所述第四仿冒度中的至少一者,确定所述待识别网页对应的网页内容识别结果,包括:
融合所述第一仿冒度、所述第二仿冒度、所述第三仿冒度、所述第四仿冒度中的至少一者,得到目标仿冒度;
当所述目标仿冒度大于或等于预设仿冒度时,确定所述待识别网页对应的网页内容识别结果为所述待识别网页属于仿冒网页;
当所述目标仿冒度小于所述预设仿冒度时,确定所述待识别网页对应的网页内容识别结果为所述待识别网页不属于仿冒网页。
17.根据权利要求1所述的方法,其特征在于,所述目标网页类型为金融网页类型,所述目标对象为目标金融机构;
所述基于所述目标对象,确定所述待识别网页对应的网页内容识别结果,包括:
对所述待识别网页进行针对所述目标金融机构的语义倾向分析,得到所述待识别网页对应的网页内容识别结果。
18.一种网页内容识别装置,其特征在于,所述装置包括:
网页文本获取模块,用于获取待识别网页对应的网页文本;
网页类型识别模块,用于将所述待识别网页对应的网页文本输入目标网页类型识别模型,得到所述待识别网页对应的预测网页类型标签;所述目标网页类型识别模型是基于有标注文本和无标注文本对,对初始网页类型识别模型进行训练得到的,所述有标注文本是已标注网页类型的网页对应的网页文本,所述无标注文本对中的文本是未标注网页类型的网页对应的网页文本,所述无标注文本对中的各个文本是相似的文本;
网页文本匹配模块,用于在所述待识别网页对应的预测网页类型标签表征所述待识别网页属于目标网页类型时,将所述待识别网页对应的网页文本和预设对象集合进行匹配,得到所述待识别网页涉及的目标对象;
网页内容识别模块,用于基于所述目标对象,确定所述待识别网页对应的网页内容识别结果;在所述目标网页类型为产品验真网页类型,所述目标对象为目标产品提供方时,所述网页内容识别结果为网页仿冒识别结果;
所述目标网页类型识别模型的训练过程包括:
将有标注文本、无标注文本对中的第一文本和第二文本分别输入初始网页类型识别模型,得到所述有标注文本、所述第一文本和所述第二文本分别对应的预测网页类型标签;所述有标注文本是已标注网页类型的网页对应的网页文本,所述无标注文本对中的文本是未标注网页类型的网页对应的网页文本,所述无标注文本对中的各个文本是相似的文本;
基于所述有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失;
基于所述无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失,包括:在各个无标注文本对中,过滤预测网页类型标签的数值在预设区间内的无标注文本对,所述预设区间是预测网页类型标签对应的取值范围中的中位区间,在剩余的各个无标注文本对中,基于同一无标注文本对中第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到第二损失;
基于所述第一损失和所述第二损失,调整所述初始网页类型识别模型的模型参数,直至满足收敛条件,得到所述目标网页类型识别模型。
19.根据权利要求18所述的装置,其特征在于,所述装置还用于:
获取多个待标注文本,提取各个待标注文本分别对应的文本特征;
从所述各个待标注文本中确定当前文本;
基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果;
当所述查询结果为查找到当前文本对应的目标相似文本时,将当前文本加入第一文本集,当查询结果为未查找到当前文本对应的目标相似文本时,将当前文本分别加入第一文本集和第二文本集;
从所述各个待标注文本中获取下一待标注文本作为当前文本,返回所述基于当前文本对应的文本特征从第一文本集中查找当前文本对应的目标相似文本,得到查询结果的步骤执行,直至所述各个待标注文本均查询完毕;
对最终得到的第二文本集中的各个待标注文本所属的网页进行网页类型标注,得到多个有标注文本。
20.根据权利要求19所述的装置,其特征在于,所述装置还用于:
基于当前文本对应的文本特征分别和第一文本集中各个文本各自的文本特征之间的特征相似度,从第一文本集包含的各个文本中确定当前文本对应的初始相似文本;
在当前文本和对应的初始相似文本之间的编辑距离大于或等于预设距离时,将当前文本对应的初始相似文本作为当前文本对应的目标相似文本,得到查询结果;
在当前文本和对应的初始相似文本之间的编辑距离小于所述预设距离,或者当前文本不存在对应的初始相似文本时,确定查询结果为未查找到当前文本对应的目标相似文本。
21.根据权利要求19所述的装置,其特征在于,所述装置还用于:
计算各个待标注文本各自的词频信息;
分别对所述各个待标注文本各自的词频信息进行哈希处理,得到所述各个待标注文本分别对应的文本特征。
22.根据权利要求18所述的装置,其特征在于,所述装置还用于:
获取有标注文本集和无标注文本集;
基于所述有标注文本集对候选网页类型识别模型进行训练,得到中间网页类型识别模型;
将所述无标注文本集中各个无标注文本输入所述中间网页类型识别模型,得到所述各个无标注文本分别对应的预测网页类型标签;所述无标注文本对应的预测网页类型标签用于作为无标注文本对应的伪标签;
基于所述伪标签对所述各个无标注文本进行筛选,得到目标无标注文本集;
对所述目标无标注文本集中的各个目标无标注文本分别进行相似变换,得到所述各个目标无标注文本分别对应的相似文本;
将目标无标注文本和对应的相似文本组成无标注文本对,得到多个无标注文本对。
23.根据权利要求22所述的装置,其特征在于,所述装置还用于:
统计各个伪标签中正标签和负标签的数量,得到正标签数量和负标签数量;
从所述正标签数量和所述负标签数量中获取更少的标签数量作为参考标签数量,将所述参考标签数量对应的网页类型标签作为参考标签;
从具有所述参考标签的各个无标注文本中,获取第一数量的无标注文本作为目标无标注文本;所述第一数量小于所述参考标签数量;
从不具有所述参考标签的各个无标注文本中,获取第二数量的无标注文本作为目标无标注文本;所述第一数量和所述第二数量之比在预设比例范围内;
基于各个目标无标注文本得到目标无标注文本集。
24.根据权利要求22所述的装置,其特征在于,所述装置还用于:
对所述目标无标注文本集中的各个目标无标注文本分别进行回译处理,得到所述各个目标无标注文本分别对应的回译后文本,将目标无标注文本对应的回译后文本作为目标无标注文本对应的相似文本。
25.根据权利要求18所述的装置,其特征在于,所述装置还用于:
在各个有标注文本中,过滤预测网页类型标签的数值大于预设阈值的有标注文本;
在剩余的各个有标注文本中,基于同一有标注文本对应的预测网页类型标签和标注网页类型标签之间的差异,得到第一损失。
26.根据权利要求25所述的装置,其特征在于,所述预设阈值大于或等于参考值,所述参考值是根据标注网页类型标签对应的标签种类数量对预测网页类型标签对应的取值范围进行划分得到的;所述预设阈值随着模型迭代轮次的增加而增加。
27.根据权利要求18所述的装置,其特征在于,所述待识别网页对应的网页文本包括所述待识别网页对应的网页标题和网页正文;
所述网页类型识别模块还用于:
将所述待识别网页对应的网页标题输入目标网页类型识别模型中的第一处理层,所述第一处理层输出所述待识别网页对应的第一文本特征;所述第一处理层包括嵌入层、卷积层和池化层;
将所述待识别网页对应的网页正文输入所述目标网页类型识别模型中的第二处理层,所述第二处理层输出所述待识别网页对应的第二文本特征;所述第二处理层包括嵌入层、卷积层和池化层;
将所述第一文本特征和所述第二文本特征输入所述目标网页类型识别模型中的综合处理层,所述综合处理层输出所述待识别网页对应的预测网页类型标签;所述综合处理层包括注意力层和前向网络。
28.根据权利要求18所述的装置,其特征在于,所述预测网页类型标签包括在正标签和负标签上分别对应的预测置信度,所述装置还用于:
基于所述无标注文本对中的第一文本和第二文本分别对应的预测网页类型标签之间的差异,得到标签损失;
基于同一预测网页类型标签包含的各个预测置信度进行信息熵计算,分别得到所述各个无标注文本对所对应的信息熵;
基于各个无标注文本对所对应的信息熵,得到信息熵损失;
基于所述标签损失和所述信息熵损失,得到第二损失。
29.根据权利要求18所述的装置,其特征在于,所述网页文本匹配模块还用于:
获取对象字典树和字表;所述对象字典树是基于预设对象集合生成的,所述字表包括所述预设对象集合中各个对象标识之间非重复的字;
从所述待识别网页对应的网页文本中确定目标字;
当在所述字表中查找到目标字时,将目标字对应的目标字符串和所述对象字典树进行匹配;目标字对应的目标字符串包括目标字和目标字在所述待识别网页对应的网页文本中的后向字符串;
当目标字对应的目标字符串在所述对象字典树中匹配到子树时,将匹配到的子树对应的对象作为所述待识别网页中涉及的目标对象;
从所述待识别网页对应的网页文本中获取下一个字作为目标字,返回所述当在所述字表中查找到目标字时,将目标字对应的目标字符串和所述对象字典树进行匹配的步骤执行,直至所述待识别网页对应的网页文本中各个字均参与匹配,得到所述待识别网页涉及的各个目标对象。
30.根据权利要求29所述的装置,其特征在于,所述网页文本匹配模块还用于:
获取关联数据字典树;所述关联数据字典树是基于预设关联数据集合生成的,所述预设关联数据集合包括所述预设对象集合对应的各个对象分别对应的关联数据的关联数据标识;所述字表包括所述预设对象集合和所述预设关联数据集合中涉及的各个非重复的字;
当所述待识别网页对应的网页文本和所述对象字典树匹配失败时,将所述待识别网页对应的网页文本和所述关联数据字典树进行匹配,得到所述待识别网页涉及的各个目标关联数据;
将所述各个目标关联数据分别对应的对象作为所述待识别网页涉及的各个目标对象。
31.根据权利要求18所述的装置,其特征在于,所述目标网页类型为产品验真网页类型,所述目标对象为目标产品提供方;所述网页内容识别模块还用于:
获取所述待识别网页对应的网址关联信息;所述网址关联信息包括所述待识别网页对应的网站备案信息、网络协议地址信息、网站提供方注册信息中的至少一者;
基于所述网址关联信息和所述目标产品提供方,对所述待识别网页进行仿冒识别,得到所述待识别网页对应的网页内容识别结果。
32.根据权利要求31所述的装置,其特征在于,所述网页内容识别模块还用于:
基于所述网站备案信息中的备案产品提供方和所述目标产品提供方之间的差异,确定所述待识别网页对应的第一仿冒度;
基于所述网站备案信息中的备案时间信息,确定所述待识别网页对应的第二仿冒度;
基于所述网络协议地址信息,确定所述待识别网页对应的第三仿冒度;
基于所述网站提供方注册信息中的注册状态,确定所述待识别网页对应的第四仿冒度;
基于所述第一仿冒度、所述第二仿冒度、所述第三仿冒度、所述第四仿冒度中的至少一者,确定所述待识别网页对应的网页内容识别结果。
33.根据权利要求32所述的装置,其特征在于,所述网页内容识别模块还用于:
融合所述第一仿冒度、所述第二仿冒度、所述第三仿冒度、所述第四仿冒度中的至少一者,得到目标仿冒度;
当所述目标仿冒度大于或等于预设仿冒度时,确定所述待识别网页对应的网页内容识别结果为所述待识别网页属于仿冒网页;
当所述目标仿冒度小于所述预设仿冒度时,确定所述待识别网页对应的网页内容识别结果为所述待识别网页不属于仿冒网页。
34.根据权利要求18所述的装置,其特征在于,所述目标网页类型为金融网页类型,所述目标对象为目标金融机构;所述网页内容识别模块还用于:
对所述待识别网页进行针对所述目标金融机构的语义倾向分析,得到所述待识别网页对应的网页内容识别结果。
35.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至17中任一项所述的方法的步骤。
36.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至17中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311101220.9A CN116822502B (zh) | 2023-08-30 | 2023-08-30 | 网页内容识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311101220.9A CN116822502B (zh) | 2023-08-30 | 2023-08-30 | 网页内容识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116822502A CN116822502A (zh) | 2023-09-29 |
CN116822502B true CN116822502B (zh) | 2023-11-21 |
Family
ID=88114910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311101220.9A Active CN116822502B (zh) | 2023-08-30 | 2023-08-30 | 网页内容识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822502B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及系统 |
CN112084291A (zh) * | 2020-08-27 | 2020-12-15 | 广州新视展投资咨询有限公司 | 信息推荐方法及装置 |
CN113901376A (zh) * | 2021-12-09 | 2022-01-07 | 中国电子科技集团公司信息科学研究院 | 恶意网站检测方法、装置、电子设备和计算机存储介质 |
US11444978B1 (en) * | 2021-09-14 | 2022-09-13 | Netskope, Inc. | Machine learning-based system for detecting phishing websites using the URLS, word encodings and images of content pages |
CN115115969A (zh) * | 2022-05-19 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、设备、存储介质和程序产品 |
CN115757991A (zh) * | 2021-09-02 | 2023-03-07 | 广州腾讯科技有限公司 | 一种网页识别方法、装置、电子设备和存储介质 |
-
2023
- 2023-08-30 CN CN202311101220.9A patent/CN116822502B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及系统 |
CN112084291A (zh) * | 2020-08-27 | 2020-12-15 | 广州新视展投资咨询有限公司 | 信息推荐方法及装置 |
CN115757991A (zh) * | 2021-09-02 | 2023-03-07 | 广州腾讯科技有限公司 | 一种网页识别方法、装置、电子设备和存储介质 |
US11444978B1 (en) * | 2021-09-14 | 2022-09-13 | Netskope, Inc. | Machine learning-based system for detecting phishing websites using the URLS, word encodings and images of content pages |
CN113901376A (zh) * | 2021-12-09 | 2022-01-07 | 中国电子科技集团公司信息科学研究院 | 恶意网站检测方法、装置、电子设备和计算机存储介质 |
CN115115969A (zh) * | 2022-05-19 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、设备、存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN116822502A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2686590C1 (ru) | Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений | |
CN111597304B (zh) | 一种中文企业名实体精准识别二次匹配方法 | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
WO2023108980A1 (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN114661861B (zh) | 文本匹配方法及装置、存储介质、终端 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN110110218B (zh) | 一种身份关联方法及终端 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN116822502B (zh) | 网页内容识别方法、装置、计算机设备和存储介质 | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
Malik et al. | Multimodal semantic analysis with regularized semantic autoencoder | |
Ziv et al. | CompanyName2Vec: Company entity matching based on job ads | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN111625722B (zh) | 一种基于深度学习的人才推荐方法、系统及存储介质 | |
CN115203532A (zh) | 一种项目推荐方法、装置、电子设备及存储介质 | |
CN113779248A (zh) | 数据分类模型训练方法、数据处理方法及存储介质 | |
CN114662480B (zh) | 同义标签判断方法、装置、计算机设备和存储介质 | |
CN110633446B (zh) | 网页栏目识别模型训练方法、使用方法、装置和存储介质 | |
CN114238663B (zh) | 一种材料数据用知识图谱分析方法、系统、电子设备及介质 | |
CN112287184B (zh) | 基于神经网络的迁移标注方法、装置、设备及存储介质 | |
Wang et al. | A Stable‐Matching‐Based User Linking Method with User Preference Order | |
CN116975198A (zh) | 信息查询方法、装置、设备和介质 | |
CN117931858A (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN118093881A (zh) | 一种基于知识图谱的审计对象画像建模方法和系统 | |
Vieira et al. | A distantly supervised approach for recognizing product mentions in user-generated content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |