CN115221523B - 数据处理方法、装置及设备 - Google Patents
数据处理方法、装置及设备 Download PDFInfo
- Publication number
- CN115221523B CN115221523B CN202211140635.2A CN202211140635A CN115221523B CN 115221523 B CN115221523 B CN 115221523B CN 202211140635 A CN202211140635 A CN 202211140635A CN 115221523 B CN115221523 B CN 115221523B
- Authority
- CN
- China
- Prior art keywords
- page
- target
- sub
- text information
- target page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种数据处理方法、装置及设备,所述方法包括:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
Description
技术领域
本说明书实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
随着互联网行业的迅速发展,网络服务的数量和类型越来越多,网络风险也随之增多,如何为用户提供更加安全的网络环境,成为网络服务商关注的焦点。
在风控场景下,可以通过人工对网络页面进行巡检的方式,确定网络页面是否为存在风险的页面,但是,在黑产的欺诈手法发生新的变化时,会出现风控数据量大、更新速度快等情况,因而,人工巡检的方式会使得数据巡检压力大,数据训练效率低,这就可能导致无法及时准确的确定某页面是否为存在风险的页面,因此,需要一种在风控场景下,能及时准确的确定页面是否为存在风险的页面,以进行风险控制的解决方案。
发明内容
本说明书实施例的目的是提供一种数据处理方法、装置及设备,以提供一种在风控场景下,能及时准确的确定页面是否为存在风险的页面,以进行风险控制的解决方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
第一方面,本说明书实施例提供了一种数据处理方法,包括:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
第二方面,本说明书实施例提供了一种数据处理装置,所述装置包括:页面获取模块,用于获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;类型确定模块,用于基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;风险确定模块,用于基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
第三方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
第四方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1A为本说明书一种数据处理方法实施例的流程图;
图1B为本说明书一种数据处理方法实施例的处理过程示意图;
图2为本说明书一种目标页面的文本信息示意图;
图3为本说明书另一种数据处理方法实施例的处理过程示意图;
图4为本说明书一种页面类型的确定过程示意图;
图5为本说明书一种目标页面的页面类型的确定过程示意图;
图6为本说明书一种数据处理装置实施例的结构示意图;
图7为本说明书一种数据处理设备的结构示意图。
具体实施方式
本说明书实施例提供一种数据处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1A和图1B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为终端设备或服务器,终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S102中,获取待检测的目标页面,并将目标页面包含的文本信息划分为多个子文本信息。
其中,目标页面可以是任意待检测的一个或多个页面,例如,目标页面可以是某网站的预设页面(如某网站的第一个页面等),或者,目标页面还可以是某应用程序的预设页面(如资源转移应用的信息更新页面或资源转移页面等),目标页面包含的文本信息可以是基于目标页面的页面内容得到的任意文本信息,例如,若目标页面包含图像、音频、视频等元素,则可以对上述元素进行文本转换处理,并基于文本转换处理得到的文本数据构建目标页面包含的文本信息,即目标页面的文本信息可以包含对上述元素进行文本转换处理得到的文本数据,对目标页面包含的文本信息进行划分得到多个子文本信息的方法以及子文本信息的数量可以有多种,可以实际应用场景的不同而有所不同。
在实施中,随着互联网行业的迅速发展,网络服务的数量和类型越来越多,网络风险也随之增多,如何为用户提供更加安全的网络环境,成为网络服务商关注的焦点。在风控场景下,可以通过人工对网络页面进行巡检的方式,确定网络页面是否为存在风险的页面,但是,在黑产的欺诈手法发生新的变化时,会出现风控数据量大、更新速度快等情况,因而,人工巡检的方式会使得数据巡检压力大,数据训练效率低,这就可能导致无法及时准确的确定某页面是否为存在风险的页面,因此,需要一种在风控场景下,能及时准确的确定页面是否为存在风险的页面,以进行风险控制的解决方案。为此,本说明书实施例提供一种可以解决上述问题的技术方案,具体可以参见下述内容。
以待检测的目标页面为电子设备(即终端设备或服务器)中安装的资源管理应用程序中的资源转移页面为例,用户可以触发启动资源管理应用程序,并在该资源管理应用程序的资源转移页面触发执行资源转移业务。
可以根据目标页面包含的多媒体元素,确定目标页面包含的文本信息了,其中,目标页面可以包含图片元素、文本框元素、视频元素、音频元素等多媒体元素中的一个或多个。
如图2所示,以目标页面可以包括元素1(即包含文本数据的图片元素)、元素2与元素3(即包含文本数据的文本框),以及元素4(即包含文本数据的视频元素)为例。可以对元素1和元素4进行文本转换处理,即可以通过文本转换处理得到元素1和元素4包含的文本数据,可以将元素1、元素2、元素3以及元素4包含的文本数据,确定为目标页面包含的文本信息。
此外,目标页面包含的元素可以有多种,上述目标页面包含的文本信息的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,例如,可以根据预设检测需求,确定对应的元素类型,在基于确定的元素类型获取目标页面包含的元素,并基于目标页面包含的元素,确定目标页面包含的文本信息,具体如,若预设检测需求为对页面包含的视频进行检测,则可以基于上述目标页面的元素4进行文本转换处理得到的文本数据,确定该目标页面包含的文本信息,目标页面包含的文本信息的确定方法可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
在确定目标页面包含的文本信息后,可以根据目标页面的文本信息对应的元素的不同,将文本信息划分为多个子文本信息。例如,上述目标页面包含的文本信息包括元素1、元素2、元素3以及元素4包含的文本数据,其中,元素2和元素3为文本框元素,元素1为图片元素、元素4为视频元素,则可以将该目标页面包含的文本信息划分为由元素1得到的文本数据确定的子文本信息1、由元素2和元素4的文本数据确定的子文本信息2,以及由元素3得到的文本数据确定的子文本信息3。
上述将目标页面包含的文本信息划分为多个子文本信息的方法是一种可选地、可实现的方法,在实际应用场景中,还可以有多种不同的划分方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
在S104中,基于每个子文本信息对应的文本特征向量、目标页面对应的图像特征向量、目标页面的布局信息,以及预先训练的类型确定模型,确定目标页面的页面类型。
其中,类型确定模型可以用于基于多模态数据(由两种或两种以上模态组成的数据,即多模态数据包含如文本数据、图片数据、音频数据、混合数据等不同形态的数据)确定页面的页面类型,目标页面的布局信息包括每个子文本信息在目标页面的第一位置信息,以及图像特征向量对应的图像在目标页面的第二位置信息,页面类型可以有多种,例如,页面类型可以包括风险型、无风险型、其他类型等,页面类型可以根据实际应用场景的不同设置不同的类型,本说明书实施例对页面类型不作具体限定。
在实施中,可以获取目标页面包含的图像数据和/或视频数据等,然后可以对获取的图像数据和/或视频数据进行特征提取处理,得到目标页面对应的图像特征向量,并对每个子文本信息进行特征提取处理,得到每个子文本信息对应的文本特征向量。
例如,如图2所示,以目标页面包含元素1、元素2、元素3和元素4为例,可以基于上述四个元素确定子文本信息,并对确定的子文本信息进行特征提取处理,得到每个子文本信息对应的文本特征向量,再对元素1和元素4进行特征提取处理,得到与元素1对应的图像特征向量1,以及与元素4对应的图像特征向量2。
可以基于每个子文本信息对应的元素在目标页面的位置信息,确定每个子文本信息在目标页面的第一位置信息,例如,假设上述目标页面包含由元素1得到的文本数据确定的子文本信息1、由元素2和元素4的文本数据确定的子文本信息2,以及由元素3得到的文本数据确定的子文本信息3,则可以基于元素1在目标页面的位置信息,确定子文本信息1在目标页面的第一位置信息1,基于元素2和元素4在目标页面的位置信息,确定子文本信息2在目标页面的第一位置信息2,基于元素3在目标页面的位置信息,确定子文本信息3在目标页面的第一位置信息3。
同样的,也可以基于元素1在目标页面的位置信息,确定图像特征向量1在目标页面的第二位置信息1,以及基于元素4在目标页面的位置信息,确定图像特征向量2在目标页面的第二位置信息2。
上述第一位置信息以及第二位置信息的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不作具体限定。
以类型确定模型为基于多模态数据训练得到的Layout模型为例,可以将每个子文本信息对应的文本特征向量、目标页面对应的图像特征向量,以及由第一位置信息和第二位置信息构成的目标页面的布局信息,输入预先训练的Layout模型,以得到目标页面的页面类型。
在S106中,基于目标页面的页面类型,确定目标页面是否为存在风险的页面。
在实施中,例如,假设页面类型包括风险型、无风险型和其他类型,若目标页面的页面类型为风险型,则可以确定目标页面为存在风险的页面,若目标页面的页面类型为无风险型,则可以确定目标页面为不存在风险的页面,若目标页面的页面类型为其他类型,则可以对目标页面进行二次巡检,以确定目标页面是否为存在风险的页面,例如,若目标页面的页面类型为其他类型,则可以通过人工巡检的方式对目标页面进行二次巡检,以确定该目标页面是否为存在风险的页面。
此外,在确定目标页面为存在风险的页面的情况下,还可以输出预设提示信息,以提示相关人员(如用户、巡检人员等)该目标页面存在风险。
本说明书实施例提供一种数据处理方法,获取待检测的目标页面,并将目标页面包含的文本信息划分为多个子文本信息,基于每个子文本信息对应的文本特征向量、目标页面对应的图像特征向量、目标页面的布局信息,以及预先训练的类型确定模型,确定目标页面的页面类型,类型确定模型用于基于多模态数据确定页面的页面类型,目标页面的布局信息包括每个子文本信息在目标页面的第一位置信息,以及图像特征向量对应的图像在目标页面的第二位置信息,基于目标页面的页面类型,确定目标页面是否为存在风险的页面。这样,可以通过目标页面包含的子文本信息、目标页面对应的图像特征向量以及目标页面的布局信息,准确的确定目标页面的类型,另外,通过类型确定模型确定目标页面的类型,可以提高目标页面类型的确定效率,避免了人工巡检方式存在的数据处理压力大,数据处理效率低的问题,即在风控数据量大的情况下,可以在风控场景下通过目标页面的类型确定目标页面是否为存在风险的页面,以及时准确的进行风险控制。
实施例二
如图3所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为终端设备或服务器,终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S302中,获取历史页面以及历史页面的页面类型。
其中,历史页面可以是任意多个页面,例如,历史页面可以是某网站的预设页面(如某网站的第一个页面等),或者,历史页面还可以是某应用程序的预设页面(如资源转移应用的信息更新页面或资源转移页面等)。
在实施中,可以获取预设检测周期内存储的多个历史页面,并获取每个历史页面的页面类型,在实际应用中,上述获取历史页面的页面类型的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤三处理:
步骤一,对历史页面进行字符识别处理,得到历史页面包含的文本信息。
在实施中,可以获取历史页面包含的元素,并对获取的元素进行文本转换处理,并对文本转换处理得到的文本数据进行字符识别处理(Optical Character Recognition,OCR),以得到历史页面包含的文本信息。
步骤二,基于历史页面包含的文本信息,确定历史页面对应的目标特征向量。
其中,历史页面的目标特征向量可以用于表征历史页面包含的文本信息的重要程度。
在实施中,上述步骤二的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤A1~步骤A3处理:
在A1中,基于每个历史页面包含的文本信息,确定每个历史页面包含的目标关键词,并基于每个历史页面包含的目标关键词,构建文本信息库。
在实施中,可以基于预先训练的关键词提取模型,对历史页面进行关键词提取处理,得到历史页面包含的目标关键词,其中,关键词提取模型可以是基于任意机器学习算法构建的关键词提取模型。或者,还可以基于预设构建的关键词库和历史页面包含的文本信息,对历史页面进行关键词匹配处理,得到每个历史页面包含的目标关键词。
历史页面包含的目标关键词的确定方法可以有多种,可以根据实际应用场景的不同选取不同的确定方法,本说明书实施例对此不作具体限定。
在确定了每个历史页面包含的目标关键词后,可以对历史页面包含的目标关键词进行去重处理,并基于去重处理后的目标关键词,构建文本信息库。
在A2中,基于文本信息库中包含的目标关键词以及每个历史页面包含的目标关键词,确定每个历史页面包含的目标关键词的词频以及逆文本频率指数,并基于每个历史页面包含的目标关键词的词频以及逆文本频率指数,确定每个历史页面包含的目标关键词的重要性参数。
在实施中,可以基于文本信息库中包含的目标关键词以及每个历史页面包含的目标关键词,确定每个历史页面包含的目标关键词的词频(Term Frequency,TF)以及逆文本频率指数(Inverse Document Frequency,IDF),并基于目标关键词的词频以及逆文本频率指数,确定每个历史页面包含的目标关键词的TF-IDF值,每个目标关键词的TF-IDF值即为目标关键词的重要性参数。
在A3中,基于历史页面包含的目标关键词的重要性参数,确定历史页面对应的目标特征向量。
在实施中,可以基于历史页面包含的每个目标关键词的重要性参数(如TF-IDF值),构建历史页面对应的目标特征向量。
步骤三,基于预设聚类算法和每个历史页面对应的目标特征向量,对历史页面进行聚类处理,得到历史页面的页面类型。
其中,预设聚类算法可以是任意聚类算法,例如,预设聚类算法可以为K-means算法、KNN算法、DBSCAN算法等。
在实施中,以预设聚类算法为DBSCAN算法为例,可以采用欧氏距离,预设半径(如半径可以为0.8),预设阈值(如阈值可以为2),基于历史页面对应的目标特征向量,对历史页面进行聚类处理,得到历史页面的页面类型。
这样,如图4所示,基于历史页面包含的文本信息,对历史页面进行聚类处理,可以提高对历史页面的页面类型的获取效率,以便于基于历史页面以及历史页面的页面类型对类型确定模型的训练效率(即可以提高对类型确定模型进行度量学习的数据处理效率)。另外,由于风险页面的图像特征的相似度较高,因此,通过历史页面包含的文本信息确定历史页面的页面类型,可以避免仅通过历史页面的图像特征确定历史页面的页面类型的准确性低的问题,即可以通过历史页面的文本信息,提高历史页面的页面类型的确定准确性。
在S304中,将历史页面包含的文本信息划分为多个历史子文本信息。
在实施中,对历史页面进行划分的方法可以参见实施例一S102中对目标页面包含的文本信息进行划分的方法,在此不再赘述。
在S306中,对历史页面进行图像识别处理,得到与历史页面对应的历史图像。
在S308中,将历史图像划分为多个子图像,并确定每个历史图像的子图像对应的第二特征向量,以及每个历史图像的子图像在历史页面的位置信息。
在实施中,可以将历史页面作为历史图像,然后可以基于预设分割比例,将历史图像划分为多个子图像,例如,如图5所示,可以基于2*2的分割比例,将历史页面对应的历史图像划分为4个子图像。然后可以对历史图像的每个子图像进行特征提取处理,得到历史图像的每个子图像对应的第二特征向量。
在S310中,基于每个历史子文本信息对应的文本特征向量、每个历史图像的子图像对应的第二特征向量、每个历史子文本信息在历史页面的位置信息、每个历史图像的子图像在历史页面的位置信息,以及类型确定模型,确定历史页面的预测类型。
在实施中,上述S310的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤二处理:
步骤一,基于每个历史子文本信息对应的文本特征向量、每个历史图像的子图像对应的第二特征向量、每个历史子文本信息在历史页面的位置信息、每个历史图像的子图像在历史页面的位置信息,以及类型确定模型的向量提取层,确定历史页面的目标特征向量。
在实施中,如图5所示,假设历史页面包括3个历史子文本信息,则可以通过Transformer Layers(即特征提取处理)分别对历史子文本信息进行处理,得到对应的文本特征向量,例如,可以对由t1、t2和t3构成的历史子文本信息1进行处理,得到对应的文本特征向量T1,以此类推,可以得到与历史子文本信息2对应的文本特征向量T2,以及与历史子文本信息3对应的文本特征向量T3。其中,特征向量1用于标识不同类型的数据,具体如,“c”可以用于标识图像特征向量(即第二特征向量),“A”可以用于标识文本特征向量,特征向量2可以用于标识相同类型的特征向量的位置信息,例如,第二特征向量V2的特征向量2为“1”,即表明第二特征向量V2为第二特征向量中的第2个特征向量。
假设将历史页面划分为4个子图像,则可以分别对这四个子图像进行特征提取处理,得到与子图像1对应的第二特征向量V1、与子图像2对应的第二特征向量V2,与子图像3对应的第二特征向量V3,以及与子图像4对应的第二特征向量V4。
此外,如图5所示,可以将历史子文本信息对应的元素在历史页面的box标签作为历史子文本信息在历史页面的位置信息,将子图像在历史页面的box标签作为子图像在历史页面的位置信息。
如图5所示,可以基于历史页面的文本信息(即文本特征向量)、视觉特征(即第二特征向量)以及页面布局特征(即位置信息),得到融合的特征向量(即历史页面的目标特征向量)。
步骤二,基于历史页面的目标特征向量和类型确定模型的类型确定层,确定历史页面的预测类型。
在S312中,基于历史页面的预测类型、历史页面的页面类型,以及预设损失函数,确定模型损失值。
在实施中,以预设损失函数为面部识别损失函数为例,由于通过聚类处理得到的历史页面的页面类型可能存在样本不平衡的问题,因而,可以根据页面类型对应的历史页面的数量,设计带有权重的交叉熵损失函数,其中,每个页面类型的权重可以是该页面类型对应的历史页面的数量的倒数。
在S314中,基于模型损失值,确定类型确定模型是否收敛,如果未收敛,则基于历史页面继续对类型确定模型进行训练,直到类型确定模型收敛,得到训练后的类型确定模型。
在S102中,获取待检测的目标页面。
在S316中,对目标页面进行字符识别处理,得到目标页面包含的文本信息。
在实施中,确定目标页面包含的文本信息的处理过程可以参见上述S302中确定历史页面包含的文本信息的处理过程,此处不再赘述。
在S318中,基于预设文本划分规则,对目标页面包含的文本信息进行划分处理,得到多个子文本信息。
在实施中,预设文本划分规则可以根据实际应用场景的不同设计不同的划分规则,例如,可以根据文本信息包含的标点符号,对文本信息进行划分处理,以得到多个子文本信息,例如,若文本信息为“基于预设文本划分规则,对目标页面包含的文本信息进行划分处理,得到多个子文本信息”,则可以将该文本信息划分为3个子文本信息,分别为子文本信息1:“基于预设文本划分规则”、子文本信息2:“对目标页面包含的文本信息进行划分处理”、子文本信息3:“得到多个子文本信息”。
在S320中,基于预先训练的文本特征提取模型,对每个子文本信息进行特征提取处理,得到每个子文本信息对应的文本特征向量。
在S322中,对目标页面进行图像识别处理,得到与目标页面对应的目标图像。
在S324中,将目标图像划分为多个子图像,并确定与每个子图像对应的第一特征向量,以及每个子图像在目标页面的子位置信息。
在S326中,基于每个子文本信息对应的文本特征向量、每个子图像对应的第一特征向量、每个子文本信息在目标页面的第一位置信息、每个子图像在目标页面的子位置信息,以及预先训练的类型确定模型,确定目标页面的页面类型。
其中,目标页面对应的图像特征向量可以包括多个第一特征向量,第二位置信息可以包括多个子位置信息。
在S328中,基于每个子文本信息对应的文本特征向量、目标页面对应的图像特征向量、目标页面的布局信息,以及预先训练的类型确定模型,确定目标页面包含的每个子文本信息的文本类型。
在实施中,类型确定模型还可以基于多媒体数据确定页面包含的子文本信息的文本类型,子文本信息的文本类型可以根据实际应用场景的不同设置不同的类型,例如,针对资源转移场景,子文本信息的文本类型可以包括资源转移数量类、资源转移时间类等,针对游戏场景,子文本信息的文本类型可以包括道具购买类型、信息更新类等。
在S330中,基于目标页面包含的每个子文本信息的文本类型,获取目标页面包含的子文本信息中与预设风险检测需求匹配的目标子文本信息,并基于预设风险检测规则,对目标子文本信息进行风险检测,得到目标检测结果。
在实施中,假设预设风险检测需求为对资源转移数量和资源转移时间进行检测,则可以将文本类型为资源转移数量类和资源转移时间类的子文本信息确定为目标子文本信息,并基于预设风险检测规则,对资源转移数量类和资源转移时间类的子文本信息进行风险检测,以得到目标检测结果。
其中,预设风险检测规则可以是与预设风险检测需要对应的规则,风险检测规则可以有多种,例如,假设预设风险检测需求为对资源转移数量和资源转移时间进行检测,则对应的预设风险检测规则可以是检测资源转移数量是否超过预设数量阈值,以及资源转移时间是否处于预设转移时间范围等,或者,风险检测规则还可以是基于由历史资源转移数量和历史资源转移时间对由机器学习算法构建的风险检测模型进行训练得到的风险检测模型,以及获取的资源转移数量和资源转移时间进行风险检测的规则等,风险检测规则可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
在S332中,基于目标检测结果和目标页面的页面类型,确定目标页面是否为存在风险的页面。
在实施中,若目标检测结果为存在风险且目标页面的页面类型为风险型,则可以确定目标页面为存在风险的页面。
本说明书实施例提供一种数据处理方法,获取待检测的目标页面,并将目标页面包含的文本信息划分为多个子文本信息,基于每个子文本信息对应的文本特征向量、目标页面对应的图像特征向量、目标页面的布局信息,以及预先训练的类型确定模型,确定目标页面的页面类型,类型确定模型用于基于多模态数据确定页面的页面类型,目标页面的布局信息包括每个子文本信息在目标页面的第一位置信息,以及图像特征向量对应的图像在目标页面的第二位置信息,基于目标页面的页面类型,确定目标页面是否为存在风险的页面。这样,可以通过目标页面包含的子文本信息、目标页面对应的图像特征向量以及目标页面的布局信息,准确的确定目标页面的类型,另外,通过类型确定模型确定目标页面的类型,可以提高目标页面类型的确定效率,避免了人工巡检方式存在的数据处理压力大,数据处理效率低的问题,即在风控数据量大的情况下,可以在风控场景下通过目标页面的类型确定目标页面是否为存在风险的页面,以及时准确的进行风险控制。
实施例三
以上为本说明书实施例提供的数据处理方法,基于同样的思路,本说明书实施例还提供一种数据处理装置,如图6所示。
该数据处理装置包括:页面获取模块601、类型确定模块602和风险确定模块603,其中:
页面获取模块601,用于获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;
类型确定模块602,用于基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;
风险确定模块603,用于基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
本说明书实施例中,所述页面获取模块601,用于:
对所述目标页面进行字符识别处理,得到所述目标页面包含的文本信息;
基于预设文本划分规则,对所述目标页面包含的文本信息进行划分处理,得到所述多个子文本信息;
所述装置,还包括:
提取模块,用于基于预先训练的文本特征提取模型,对每个所述子文本信息进行特征提取处理,得到每个所述子文本信息对应的文本特征向量。
本说明书实施例中,所述装置,还包括:
第一识别模块,用于对所述目标页面进行图像识别处理,得到与所述目标页面对应的目标图像;
第一划分模块,用于将所述目标图像划分为多个子图像,并确定与每个所述子图像对应的第一特征向量,以及每个所述子图像在所述目标页面的子位置信息;
所述目标页面对应的图像特征向量包括多个所述第一特征向量,所述第二位置信息包括多个所述子位置信息,所述类型确定模型602,用于:
基于每个所述子文本信息对应的文本特征向量、每个所述子图像对应的所述第一特征向量、每个所述子文本信息在所述目标页面的第一位置信息、每个所述子图像在所述目标页面的子位置信息,以及所述预先训练的类型确定模型,确定所述目标页面的页面类型。
本说明书实施例中,还包括:
类型获取模块,用于获取历史页面以及所述历史页面的页面类型;
第二划分模块,用于将所述历史页面包含的文本信息划分为多个历史子文本信息;
第二识别模块,用于对所述历史页面进行图像识别处理,得到与所述历史页面对应的历史图像;
第三划分模块,用于将所述历史图像划分为多个子图像,并确定每个所述历史图像的子图像对应的第二特征向量,以及每个所述历史图像的子图像在所述历史页面的位置信息;
类型预测模块,用于基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型,确定所述历史页面的预测类型;
损失确定模块,用于基于所述历史页面的预测类型、所述历史页面的页面类型,以及预设损失函数,确定模型损失值;
模型确定模块,用于基于所述模型损失值,确定所述类型确定模型是否收敛,如果未收敛,则基于所述历史页面继续对所述类型确定模型进行训练,直到所述类型确定模型收敛,得到所述训练后的类型确定模型。
本说明书实施例中,所述类型预测模块,用于:
基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型的向量提取层,确定所述历史页面的目标特征向量;
基于所述历史页面的目标特征向量和所述类型确定模型的类型确定层,确定所述历史页面的预测类型。
本说明书实施例中,所述类型获取模块,用于:
对所述历史页面进行字符识别处理,得到所述历史页面包含的文本信息;
基于所述历史页面包含的文本信息,确定所述历史页面对应的目标特征向量,所述目标特征向量用于表征所述历史页面包含的文本信息的重要程度;
基于预设聚类算法和每个所述历史页面对应的目标特征向量,对所述历史页面进行聚类处理,得到所述历史页面的页面类型。
本说明书实施例中,所述类型获取模块,用于:
基于每个所述历史页面包含的文本信息,确定每个所述历史页面包含的目标关键词,并基于每个所述历史页面包含的目标关键词,构建文本信息库;
基于所述文本信息库中包含的目标关键词以及每个所述历史页面包含的目标关键词,确定每个所述历史页面包含的目标关键词的词频以及逆文本频率指数,并基于每个所述历史页面包含的目标关键词的词频以及逆文本频率指数,确定每个所述历史页面包含的目标关键词的重要性参数;
基于所述历史页面包含的目标关键词的重要性参数,确定所述历史页面对应的目标特征向量。
本说明书实施例中,所述类型确定模型还用于基于多模态数据确定页面中包含的子文本信息的文本类型,所述风险确定模块603,用于:
基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及所述预先训练的类型确定模型,确定所述目标页面包含的每个所述子文本信息的文本类型;
基于所述目标页面包含的每个所述子文本信息的文本类型,获取所述目标页面包含的子文本信息中与预设风险检测需求匹配的目标子文本信息,并基于预设风险检测规则,对所述目标子文本信息进行风险检测,得到目标检测结果;
基于所述目标检测结果和所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
本说明书实施例提供一种数据处理装置,获取待检测的目标页面,并将目标页面包含的文本信息划分为多个子文本信息,基于每个子文本信息对应的文本特征向量、目标页面对应的图像特征向量、目标页面的布局信息,以及预先训练的类型确定模型,确定目标页面的页面类型,类型确定模型用于基于多模态数据确定页面的页面类型,目标页面的布局信息包括每个子文本信息在目标页面的第一位置信息,以及图像特征向量对应的图像在目标页面的第二位置信息,基于目标页面的页面类型,确定目标页面是否为存在风险的页面。这样,可以通过目标页面包含的子文本信息、目标页面对应的图像特征向量以及目标页面的布局信息,准确的确定目标页面的类型,另外,通过类型确定模型确定目标页面的类型,可以提高目标页面类型的确定效率,避免了人工巡检方式存在的数据处理压力大,数据处理效率低的问题,即在风控数据量大的情况下,可以在风控场景下通过目标页面的类型确定目标页面是否为存在风险的页面,以及时准确的进行风险控制。
实施例四
基于同样的思路,本说明书实施例还提供一种数据处理设备,如图7所示。
数据处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或一个以上存储应用程序或数据。其中,存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据处理设备中的一系列计算机可执行指令。更进一步地,处理器701可以设置为与存储器702通信,在数据处理设备上执行存储器702中的一系列计算机可执行指令。数据处理设备还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704,一个或一个以上输入输出接口705,一个或一个以上键盘706。
具体在本实施例中,数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;
基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;
基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
可选地,所述将所述目标页面包含的文本信息划分为多个子文本信息,包括:
对所述目标页面进行字符识别处理,得到所述目标页面包含的文本信息;
基于预设文本划分规则,对所述目标页面包含的文本信息进行划分处理,得到所述多个子文本信息;
在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:
基于预先训练的文本特征提取模型,对每个所述子文本信息进行特征提取处理,得到每个所述子文本信息对应的文本特征向量。
可选地,在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:
对所述目标页面进行图像识别处理,得到与所述目标页面对应的目标图像;
将所述目标图像划分为多个子图像,并确定与每个所述子图像对应的第一特征向量,以及每个所述子图像在所述目标页面的子位置信息;
所述目标页面对应的图像特征向量包括多个所述第一特征向量,所述第二位置信息包括多个所述子位置信息,所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,包括:
基于每个所述子文本信息对应的文本特征向量、每个所述子图像对应的所述第一特征向量、每个所述子文本信息在所述目标页面的第一位置信息、每个所述子图像在所述目标页面的子位置信息,以及所述预先训练的类型确定模型,确定所述目标页面的页面类型。
可选地,在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:
获取历史页面以及所述历史页面的页面类型;
将所述历史页面包含的文本信息划分为多个历史子文本信息;
对所述历史页面进行图像识别处理,得到与所述历史页面对应的历史图像;
将所述历史图像划分为多个子图像,并确定每个所述历史图像的子图像对应的第二特征向量,以及每个所述历史图像的子图像在所述历史页面的位置信息;
基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型,确定所述历史页面的预测类型;
基于所述历史页面的预测类型、所述历史页面的页面类型,以及预设损失函数,确定模型损失值;
基于所述模型损失值,确定所述类型确定模型是否收敛,如果未收敛,则基于所述历史页面继续对所述类型确定模型进行训练,直到所述类型确定模型收敛,得到所述训练后的类型确定模型。
可选地,所述基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型,确定所述历史页面的预测类型,包括:
基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型的向量提取层,确定所述历史页面的目标特征向量;
基于所述历史页面的目标特征向量和所述类型确定模型的类型确定层,确定所述历史页面的预测类型。
可选地,所述获取所述历史页面的页面类型,包括:
对所述历史页面进行字符识别处理,得到所述历史页面包含的文本信息;
基于所述历史页面包含的文本信息,确定所述历史页面对应的目标特征向量,所述目标特征向量用于表征所述历史页面包含的文本信息的重要程度;
基于预设聚类算法和每个所述历史页面对应的目标特征向量,对所述历史页面进行聚类处理,得到所述历史页面的页面类型。
可选地,所述基于所述历史页面包含的文本信息,确定所述历史页面对应的目标特征向量,包括:
基于每个所述历史页面包含的文本信息,确定每个所述历史页面包含的目标关键词,并基于每个所述历史页面包含的目标关键词,构建文本信息库;
基于所述文本信息库中包含的目标关键词以及每个所述历史页面包含的目标关键词,确定每个所述历史页面包含的目标关键词的词频以及逆文本频率指数,并基于每个所述历史页面包含的目标关键词的词频以及逆文本频率指数,确定每个所述历史页面包含的目标关键词的重要性参数;
基于所述历史页面包含的目标关键词的重要性参数,确定所述历史页面对应的目标特征向量。
可选地,所述类型确定模型还用于基于多模态数据确定页面中包含的子文本信息的文本类型,所述基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面,包括:
基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及所述预先训练的类型确定模型,确定所述目标页面包含的每个所述子文本信息的文本类型;
基于所述目标页面包含的每个所述子文本信息的文本类型,获取所述目标页面包含的子文本信息中与预设风险检测需求匹配的目标子文本信息,并基于预设风险检测规则,对所述目标子文本信息进行风险检测,得到目标检测结果;
基于所述目标检测结果和所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
本说明书实施例提供一种数据处理设备,获取待检测的目标页面,并将目标页面包含的文本信息划分为多个子文本信息,基于每个子文本信息对应的文本特征向量、目标页面对应的图像特征向量、目标页面的布局信息,以及预先训练的类型确定模型,确定目标页面的页面类型,类型确定模型用于基于多模态数据确定页面的页面类型,目标页面的布局信息包括每个子文本信息在目标页面的第一位置信息,以及图像特征向量对应的图像在目标页面的第二位置信息,基于目标页面的页面类型,确定目标页面是否为存在风险的页面。这样,可以通过目标页面包含的子文本信息、目标页面对应的图像特征向量以及目标页面的布局信息,准确的确定目标页面的类型,另外,通过类型确定模型确定目标页面的类型,可以提高目标页面类型的确定效率,避免了人工巡检方式存在的数据处理压力大,数据处理效率低的问题,即在风控数据量大的情况下,可以在风控场景下通过目标页面的类型确定目标页面是否为存在风险的页面,以及时准确的进行风险控制。
实施例五
本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书实施例提供一种计算机可读存储介质,获取待检测的目标页面,并将目标页面包含的文本信息划分为多个子文本信息,基于每个子文本信息对应的文本特征向量、目标页面对应的图像特征向量、目标页面的布局信息,以及预先训练的类型确定模型,确定目标页面的页面类型,类型确定模型用于基于多模态数据确定页面的页面类型,目标页面的布局信息包括每个子文本信息在目标页面的第一位置信息,以及图像特征向量对应的图像在目标页面的第二位置信息,基于目标页面的页面类型,确定目标页面是否为存在风险的页面。这样,可以通过目标页面包含的子文本信息、目标页面对应的图像特征向量以及目标页面的布局信息,准确的确定目标页面的类型,另外,通过类型确定模型确定目标页面的类型,可以提高目标页面类型的确定效率,避免了人工巡检方式存在的数据处理压力大,数据处理效率低的问题,即在风控数据量大的情况下,可以在风控场景下通过目标页面的类型确定目标页面是否为存在风险的页面,以及时准确的进行风险控制。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (11)
1.一种数据处理方法,包括:
获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;
基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;
基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
2.根据权利要求1所述的方法,所述将所述目标页面包含的文本信息划分为多个子文本信息,包括:
对所述目标页面进行字符识别处理,得到所述目标页面包含的文本信息;
基于预设文本划分规则,对所述目标页面包含的文本信息进行划分处理,得到所述多个子文本信息;
在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:
基于预先训练的文本特征提取模型,对每个所述子文本信息进行特征提取处理,得到每个所述子文本信息对应的文本特征向量。
3.根据权利要求2所述的方法,在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:
对所述目标页面进行图像识别处理,得到与所述目标页面对应的目标图像;
将所述目标图像划分为多个子图像,并确定与每个所述子图像对应的第一特征向量,以及每个所述子图像在所述目标页面的子位置信息;
所述目标页面对应的图像特征向量包括多个所述第一特征向量,所述第二位置信息包括多个所述子位置信息,所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,包括:
基于每个所述子文本信息对应的文本特征向量、每个所述子图像对应的所述第一特征向量、每个所述子文本信息在所述目标页面的第一位置信息、每个所述子图像在所述目标页面的子位置信息,以及所述预先训练的类型确定模型,确定所述目标页面的页面类型。
4.根据权利要求3所述的方法,在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:
获取历史页面以及所述历史页面的页面类型;
将所述历史页面包含的文本信息划分为多个历史子文本信息;
对所述历史页面进行图像识别处理,得到与所述历史页面对应的历史图像;
将所述历史图像划分为多个子图像,并确定每个所述历史图像的子图像对应的第二特征向量,以及每个所述历史图像的子图像在所述历史页面的位置信息;
基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型,确定所述历史页面的预测类型;
基于所述历史页面的预测类型、所述历史页面的页面类型,以及预设损失函数,确定模型损失值;
基于所述模型损失值,确定所述类型确定模型是否收敛,如果未收敛,则基于所述历史页面继续对所述类型确定模型进行训练,直到所述类型确定模型收敛,得到所述训练后的类型确定模型。
5.根据权利要求4所述的方法,所述基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型,确定所述历史页面的预测类型,包括:
基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型的向量提取层,确定所述历史页面的目标特征向量;
基于所述历史页面的目标特征向量和所述类型确定模型的类型确定层,确定所述历史页面的预测类型。
6.根据权利要求5所述的方法,所述获取所述历史页面的页面类型,包括:
对所述历史页面进行字符识别处理,得到所述历史页面包含的文本信息;
基于所述历史页面包含的文本信息,确定所述历史页面对应的目标特征向量,所述目标特征向量用于表征所述历史页面包含的文本信息的重要程度;
基于预设聚类算法和每个所述历史页面对应的目标特征向量,对所述历史页面进行聚类处理,得到所述历史页面的页面类型。
7.根据权利要求6所述的方法,所述基于所述历史页面包含的文本信息,确定所述历史页面对应的目标特征向量,包括:
基于每个所述历史页面包含的文本信息,确定每个所述历史页面包含的目标关键词,并基于每个所述历史页面包含的目标关键词,构建文本信息库;
基于所述文本信息库中包含的目标关键词以及每个所述历史页面包含的目标关键词,确定每个所述历史页面包含的目标关键词的词频以及逆文本频率指数,并基于每个所述历史页面包含的目标关键词的词频以及逆文本频率指数,确定每个所述历史页面包含的目标关键词的重要性参数;
基于所述历史页面包含的目标关键词的重要性参数,确定所述历史页面对应的目标特征向量。
8.根据权利要求7所述的方法,所述类型确定模型还用于基于多模态数据确定页面中包含的子文本信息的文本类型,所述基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面,包括:
基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及所述预先训练的类型确定模型,确定所述目标页面包含的每个所述子文本信息的文本类型;
基于所述目标页面包含的每个所述子文本信息的文本类型,获取所述目标页面包含的子文本信息中与预设风险检测需求匹配的目标子文本信息,并基于预设风险检测规则,对所述目标子文本信息进行风险检测,得到目标检测结果;
基于所述目标检测结果和所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
9.一种数据处理装置,包括:
页面获取模块,用于获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;
类型确定模块,用于基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;
风险确定模块,用于基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
10.一种数据处理设备,所述数据处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;
基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;
基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
11.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:
获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;
基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;
基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211140635.2A CN115221523B (zh) | 2022-09-20 | 2022-09-20 | 数据处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211140635.2A CN115221523B (zh) | 2022-09-20 | 2022-09-20 | 数据处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115221523A CN115221523A (zh) | 2022-10-21 |
CN115221523B true CN115221523B (zh) | 2022-12-27 |
Family
ID=83617637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211140635.2A Active CN115221523B (zh) | 2022-09-20 | 2022-09-20 | 数据处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221523B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392694B (zh) * | 2023-12-07 | 2024-04-19 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807197A (zh) * | 2019-10-31 | 2020-02-18 | 支付宝(杭州)信息技术有限公司 | 识别模型的训练方法及装置、风险网站识别方法及装置 |
CN111078552A (zh) * | 2019-12-16 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 页面显示异常的检测方法、装置及存储介质 |
CN111142988A (zh) * | 2019-12-03 | 2020-05-12 | 东软集团股份有限公司 | 页面测试方法、装置、存储介质及电子设备 |
CN111401416A (zh) * | 2020-03-05 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 异常网站的识别方法、装置和异常对抗行为的识别方法 |
CN111563551A (zh) * | 2020-04-30 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
CN113222022A (zh) * | 2021-05-13 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种网页分类识别方法及装置 |
CN113822272A (zh) * | 2020-11-12 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 数据处理方法和装置 |
CN113849760A (zh) * | 2021-12-02 | 2021-12-28 | 云账户技术(天津)有限公司 | 敏感信息风险评估方法、系统和存储介质 |
CN114398994A (zh) * | 2022-01-19 | 2022-04-26 | 平安科技(深圳)有限公司 | 基于图像识别的业务异常检测方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11244205B2 (en) * | 2019-03-29 | 2022-02-08 | Microsoft Technology Licensing, Llc | Generating multi modal image representation for an image |
-
2022
- 2022-09-20 CN CN202211140635.2A patent/CN115221523B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807197A (zh) * | 2019-10-31 | 2020-02-18 | 支付宝(杭州)信息技术有限公司 | 识别模型的训练方法及装置、风险网站识别方法及装置 |
CN111142988A (zh) * | 2019-12-03 | 2020-05-12 | 东软集团股份有限公司 | 页面测试方法、装置、存储介质及电子设备 |
CN111078552A (zh) * | 2019-12-16 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 页面显示异常的检测方法、装置及存储介质 |
CN111401416A (zh) * | 2020-03-05 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 异常网站的识别方法、装置和异常对抗行为的识别方法 |
CN111563551A (zh) * | 2020-04-30 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
CN113822272A (zh) * | 2020-11-12 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 数据处理方法和装置 |
CN113222022A (zh) * | 2021-05-13 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种网页分类识别方法及装置 |
CN113849760A (zh) * | 2021-12-02 | 2021-12-28 | 云账户技术(天津)有限公司 | 敏感信息风险评估方法、系统和存储介质 |
CN114398994A (zh) * | 2022-01-19 | 2022-04-26 | 平安科技(深圳)有限公司 | 基于图像识别的业务异常检测方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
Intelligent web-phishing detection and protection scheme using integrated features of Images, frames and text;M.A.Adebowale 等;《Expert Systems with Applications》;20190131;第115卷;第300-313页 * |
高校风险沟通网页的多模态话语分析;高晨;《文化创新比较研究》;20210910;第5卷(第25期);第122-125页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115221523A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930809A (zh) | 数据处理方法、装置及设备 | |
CN110046637B (zh) | 一种合同段落标注模型的训练方法、装置及设备 | |
CN112308113A (zh) | 一种基于半监督的目标识别方法、设备及介质 | |
CN113221555A (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN115221523B (zh) | 数据处理方法、装置及设备 | |
CN115712866A (zh) | 数据处理方法、装置及设备 | |
CN114332873A (zh) | 一种识别模型的训练方法及装置 | |
CN113079201B (zh) | 一种信息的处理系统、方法、装置及设备 | |
CN115600157A (zh) | 一种数据处理的方法、装置、存储介质及电子设备 | |
CN116186330B (zh) | 一种基于多模态学习的视频去重方法及装置 | |
CN110443007B (zh) | 一种多媒体数据的溯源检测方法、装置及设备 | |
CN115147227B (zh) | 一种交易风险的检测方法、装置及设备 | |
CN115130621B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN114926437A (zh) | 一种图像质量评价方法及装置 | |
CN109325127B (zh) | 一种风险识别方法和装置 | |
CN115423485B (zh) | 数据处理方法、装置及设备 | |
CN112287130A (zh) | 一种图形题目的搜索方法、装置以及设备 | |
CN115859975B (zh) | 数据处理方法、装置及设备 | |
CN115017915B (zh) | 一种模型训练、任务执行的方法及装置 | |
CN112115952B (zh) | 一种基于全卷积神经网络的图像分类方法、设备及介质 | |
CN113642603B (zh) | 一种数据匹配方法、装置、存储介质及电子设备 | |
CN117271611B (zh) | 一种基于大模型的信息检索方法、装置及设备 | |
CN115880527A (zh) | 一种模型压缩的方法、装置、存储介质及电子设备 | |
CN115617638A (zh) | 一种测试脚本生成方法、装置、存储介质及设备 | |
CN116824580A (zh) | 图像处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |