CN115099909A - 基于电商意图数据库挖掘的信息处理方法及系统 - Google Patents
基于电商意图数据库挖掘的信息处理方法及系统 Download PDFInfo
- Publication number
- CN115099909A CN115099909A CN202211014493.5A CN202211014493A CN115099909A CN 115099909 A CN115099909 A CN 115099909A CN 202211014493 A CN202211014493 A CN 202211014493A CN 115099909 A CN115099909 A CN 115099909A
- Authority
- CN
- China
- Prior art keywords
- data
- commerce
- picture
- pictures
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0605—Supply or demand aggregation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Multimedia (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于电商意图数据库挖掘的信息处理方法及系统,所述方法包括以下步骤:对目标更新电商需求数据进行识别分选,分选数据包括常规浏览数据以及敏感浏览数据;常规数据板块显示常规浏览数据,综合数据板块显示常规浏览数据以及敏感浏览数据。本发明通过将数据分选为敏感数据和常规数据,常规数据正常推送至电商软件的的进入页面,敏感数据隐藏,根据用户需求可选择是否点开,该数据处理方法将生成数据中的敏感数据分离后隐藏显示,从而避免用户在浏览敏感数据后,软件的进入页面直接推送敏感信息,可有效保护用户的隐私,避免用户在公共场合点开软件时尴尬,有利于提高用户浏览意图和购买意图。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于电商意图数据库挖掘的信息处理方法及系统。
背景技术
随着人工智能和数据库技术的发展,依托于人工智能和数据库技术建立起的电子商务平台系统,得到了极其快速的发展。消费者用户可以足不出户通过电子商务平台系统购买到心仪的各种实体商品和互联网服务商品,给消费者用户的生活带来了极大的便利。
专利号CN114155039A公开了一种基于电商意图数据库挖掘的信息处理方法及数据库系统,通过从电商意图热力图中获取满足预设条件的目标电商意图,基于目标电商意图从热点电商板块中获取对应的热点电商需求数据,并基于热点电商需求数据从热点电商板块绑定的热点电商内容数据源中获取对应的目标热点电商内容数据后,向电商内容服务系统进行内容推荐,获取电商内容服务系统提交针对目标热点电商内容数据的情感倾向特征数据,并依据情感倾向特征数据生成对应的目标更新电商需求数据,由此基于情感倾向特征维度进行电商需求的进一步更新,可以便于后续基于目标更新电商需求数据进行内容推荐优化,提高内容推荐与相关用户的匹配度。
现有技术存在以下不足:
上述信息处理方法主要基于情感倾向特征维度进行电商需求的进一步更新,可以便于后续基于目标更新电商需求数据进行内容推荐优化,提高内容推荐与相关用户的匹配度,实际运行过程中,电商软件根据用户的浏览记录以及数据库对比,会向用户推送与相关用户的高匹配度的内容,但是,若用户浏览的信息为某些敏感信息(例如穿着暴露)时,由于推送与相关用户的高匹配度的内容,电商软件的进入页面就会推送敏感信息,此时若用户处于公共场合打开电商软件,可能会尴尬,或者用户在打开电商软件的一瞬间及时关闭软件,从而降低用户的浏览意图和购买意图。
发明内容
本发明的目的是提供基于电商意图数据库挖掘的信息处理方法及系统,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:基于电商意图数据库挖掘的信息处理方法,所述方法包括以下步骤:
S1:基于数据库比对以及用户的电商意图热力图生成与用户相关的情感倾向特征数据,并依据所述情感倾向特征数据生成对应的目标更新电商需求数据;
S2:对目标更新电商需求数据进行识别分选,分选数据包括常规浏览数据以及敏感浏览数据;
S3:电商软件进入页面分为常规数据板块以及综合数据板块,综合数据板块隐藏并位于常规数据板块上任一处,且常规数据板块显示常规浏览数据,综合数据板块显示常规浏览数据以及敏感浏览数据。
优选的,所述常规浏览数据以及敏感浏览数据分选方法包括对图片的空间颜色以及肤色模型识别。
优选的,所述空间颜色通过HSV模型空间数字化处理,需要将RGB颜色空间转换为HSV颜色空间,具体如下:
式中,H是色调,S是饱和度,V是亮度,通过上式(1)(2)(3)得出H、S以及V的值,使RGB颜色空间转换为HSV颜色空间。
优选的,所述肤色模型识别通过高斯混合模型提取,高斯混合模型通过K个单高斯模型来表征像素点的特征,拟合复杂光照条件下的肤色分布。
优选的,所述常规浏览数据以及敏感浏览数据分选方法还包括人脸检测以及皮肤纹理识别,其中人脸检测通过人脸肤色数据来改进肤色模型,皮肤纹理识别通过皮肤的光滑特征,使用统计分析法排除图中的粗糙区域。
优选的,皮肤纹理识别具有相同属性的像素点的固有空间属性,包括没有明显的纹理单元,平坦而光滑以及没有显著的方向性。
优选的,所述数据库建立步骤为:
(1)图片输入:从网上获取良性图片和不良图片构建数据库,并对图片标记正确的类别标签;
(2)数据预处理:通过单边滑动窗口方法将图片分为多个图像碎片;
(3)图片分选:碎片送入ResNet进行分类;
(4)对分值进行统计和计算并结合阈值划分为良性图片或不良图片。
优选的,步骤(4)中对良性图片与不良图片的分选方法为:
A、取分值最大的类别n和分值s;
B、n=0或1,分类为良性图片;
C、n取值在2-4之间,则s=s*1.2;
D、n取值在5-8之间,则s=s*0.92;
E、求出s≥0.85,则分类为不良图片。
优选的,所述单边滑动窗口方法包括以下步骤:
(1)设待处理图片中最短边resize为224,另一边进行同比例的resize;
(2)用224*224的窗口在图片上沿最长边滑动,步长设置为50;
(3)再将每个图片碎片输入模型处理中,按照阈值被分类为不良图片,不再继续滑动。
本发明还提供一种基于电商意图数据库挖掘的信息处理系统,其特征在于:包括机器可读存储介质和处理器,机器可读存储介质存储有程序,处理器执行程序时以执行基于电商意图数据库挖掘的信息处理方法。
在上述技术方案中,本发明提供的技术效果和优点:
1、本发明在获取生成对应的目标更新电商需求数据后,将数据分选为敏感数据和常规数据,常规数据正常推送至电商软件的的进入页面,敏感数据隐藏,根据用户需求可选择是否点开,该数据处理方法将生成数据中的敏感数据分离后隐藏显示,从而避免用户在浏览敏感数据后,软件的进入页面直接推送敏感信息,可有效保护用户的隐私,避免用户在公共场合点开软件时尴尬,有利于提高用户浏览意图和购买意图;
2、本发明通过对图片中的空间颜色以及肤色模型进行整体分析,再加上人脸检测或者皮肤纹理等手段判断封面图片是否为敏感图片,有利于提高对不良图片的检测精度以及检测效率;
3、本发明通过单边滑动窗口方法以将滑动窗口产生的图片碎片保持在3到5个之间,在保留了图片的比例信息的同时有效减少数据量,在将每个图片碎片输入模型处理的过程中,如果按照阈值被分类为不良图片,则不再继续滑动,通过单边滑动窗口处理图片,有利于减小数据量提高处理速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的数据处理流程图。
图2为本发明电商软件进入页面的展示图。
图3为本发明推送内容的更新流程图。
图4为本发明HSV模型的结构示意图。
图5为本发明图片识别的框架示意图。
图6为本发明单边滑动窗口方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1所示,本实施例所述基于电商意图数据库挖掘的信息处理方法,所述方法包括以下步骤:
基于数据库比对以及用户的电商意图热力图生成与用户相关的情感倾向特征数据,并依据所述情感倾向特征数据生成对应的目标更新电商需求数据;对目标更新电商需求数据进行识别分选,分选数据包括常规浏览数据以及敏感浏览数据;电商软件进入页面分为常规数据板块以及综合数据板块,综合数据板块隐藏并位于常规数据板块上任一处;常规数据板块主要用于显示常规浏览数据,综合数据板块用于显示常规浏览数据以及敏感浏览数据;
用户打开电商软件,进入页面主要推送常规浏览数据,点开综合数据板块后,可看到所有的推送数据,该数据处理在获取生成对应的目标更新电商需求数据后,将数据分选为敏感数据和常规数据,常规数据正常推送至电商软件的的进入页面,敏感数据隐藏,根据用户需求可选择是否点开,该数据处理方法将生成数据中的敏感数据分离后隐藏显示,从而避免用户在浏览敏感数据后,软件的进入页面直接推送敏感信息,可有效保护用户的隐私,避免用户在公共场合点开软件时尴尬,有利于提高用户浏览意图和购买意图。
请参阅图2所示,上述步骤的可视化方法为:
在电商软件的进入页面分为常规数据板块以及综合数据板块,常规数据板块推送常规信息,综合数据板块推送常规信息与敏感信息,综合数据板块在软件进入页面开启时,为隐藏状态(隐藏图标可通过图形或区域代替,并在综合数据板块上设置文字用于提示)用户正常浏览时,进入页面仅显示常规信息,若用户需要浏览敏感信息,则可以点击综合数据板块,此时综合数据板块展开覆盖常规数据板块,显示所用浏览信息。
本实施例中,用户的电商意图热力图可以用于表达相关用户的电商意图的置信度分布,电商意图热力图中获取满足预设条件的目标电商意图。
其中,所述预设条件包括电商意图的置信度大于预设置信度,或者电商意图的置信度在预设时间范围的浮动变化率大于预设变化率。
电商意图从热点电商板块中获取对应的热点电商需求数据,并基于所述热点电商需求数据从所述热点电商板块绑定的热点电商内容数据源中获取对应的目标热点电商内容数据后,向所述电商内容服务系统进行内容推荐。
每个热点电商板块都具有对应的与不同电商意图存在映射关系的热点电商需求数据,因此可以针对性地从热点电商板块中获取对应的热点电商需求数据,在确定热点电商需求数据后,可以从所述热点电商板块绑定的热点电商内容数据源(如各大电商平台)中获取对应的目标热点电商内容数据后,向所述电商内容服务系统进行内容推荐。
获取电商内容服务系统提交针对目标热点电商内容数据的情感倾向特征数据,并依据所述情感倾向特征数据生成对应的目标更新电商需求数据。
基于以上步骤,通过从电商意图热力图中获取满足预设条件的目标电商意图,基于目标电商意图从热点电商板块中获取对应的热点电商需求数据,并基于热点电商需求数据从热点电商板块绑定的热点电商内容数据源中获取对应的目标热点电商内容数据后,向电商内容服务系统进行内容推荐,获取电商内容服务系统提交针对目标热点电商内容数据的情感倾向特征数据,并依据情感倾向特征数据生成对应的目标更新电商需求数据,由此基于情感倾向特征维度进行电商需求的进一步更新,可以便于后续基于目标更新电商需求数据进行内容推荐优化,提高内容推荐与相关用户的匹配度。
所述目标更新电商需求数据通过以下步骤实现:
(1)获取所述电商内容服务系统发送的情感倾向特征数据,其中,所述情感倾向特征数据代表所述电商内容服务系统当前针对所述目标热点电商内容数据中每个浏览内容的情感倾向状态特征。
(2)对所述情感倾向特征数据进行挖掘,获得所述情感倾向特征数据中携带的所述电商内容服务系统反馈当前针对所述目标热点电商内容数据中每个浏览内容的情感倾向状态特征的反馈业务节点。
(3)依据预先存储的业务上线路径确定所述反馈业务节点对应的业务上线节点,其中,在所述业务上线路径下所述反馈业务节点与所述业务上线节点之间存在映射特征。
(4)获取所述电商内容服务系统在所述业务上线节点对应的业务服务板块内反馈标的电商内容得到的标的电商内容数据。
(5)对所述标的电商内容数据进行挖掘,并依据挖掘特征数据和所述情感倾向特征数据表征的所述电商内容服务系统当前针对所述目标热点电商内容数据中每个浏览内容的情感倾向状态特征,生成对应的目标更新电商需求数据。
(6)将所述目标更新电商需求数据下发到所述电商内容服务系统,其中,所述电商内容服务系统用于依据所述目标更新电商需求数据进行订阅优化指引。
上述步骤(5)中,主要通过以下示例性步骤实现:
(50)对候选电商内容数据进行扩展,获得扩展电商内容数据,其中,所述候选电商内容数据为所述电商内容服务系统在所述业务上线节点对应的业务服务板块内反馈标的电商内容得到的所述标的电商内容数据,所述候选电商内容数据包括持续定点浏览的多个电商内容对象。
(51)对所述扩展电商内容数据进行挖掘,获得电商内容特征数据。
(52)分析所述情感倾向特征数据表征的所述电商内容服务系统当前针对所述目标热点电商内容数据中每个浏览内容的情感倾向状态特征是否与所述电商内容特征数据存在有效关联性。
(53)若所述情感倾向特征数据表征的所述电商内容服务系统当前针对所述目标热点电商内容数据中每个浏览内容的情感倾向状态特征与所述电商内容特征数据存在有效关联性,则依据所述电商内容特征数据生成对应的目标更新电商需求数据。
上诉步骤(50)中,所述对候选电商内容数据进行扩展,获得扩展电商内容数据包括:
(500)对应于候选电商内容数据包括的多个电商内容主题特征中的每个电商内容主题特征,确定该电商内容主题特征与每个其它电商内容主题特征之间的知识点关联度。
(501)依据每两个所述电商内容主题特征之间的所述知识点关联度,对所述候选电商内容数据包括的多个电商内容主题特征进行聚类,以聚集所述多个电商内容主题特征中的关联电商内容主题特征,获得多个候选电商内容数据对象。
(502)对应于每个所述候选电商内容数据对象,确定该候选电商内容数据对象与其它每个候选电商内容数据对象之间的知识点关联度的汇总关联度,获得该候选电商内容数据对象对应的参考关联度。
(503)依据每个所述候选电商内容数据对象对应的参考关联度确定出多个目标候选电商内容数据对象,并依据所述多个目标候选电商内容数据对象中每个目标候选电商内容数据对象与所述多个目标候选电商内容数据对象之外的其它每个候选电商内容数据对象之间的知识点关联度,将所述多个候选电商内容数据对象进行聚团,获得多个候选电商内容数据对象团。
(504)将预设的多个在先兴趣目标分别与每个所述候选电商内容数据对象团包括的候选电商内容数据对象进行关联分析,确定每个所述候选电商内容数据对象团中具有所述在先兴趣目标的候选电商内容数据对象的频度,获得每个所述候选电商内容数据对象团对应的第一频度。
(505)对应于每个所述候选电商内容数据对象团,依据该候选电商内容数据对象团对应的第一频度和该候选电商内容数据对象团包括的候选电商内容数据对象的频度,获得该候选电商内容数据对象团对应的第一对比频度。
(506)对应于每个所述候选电商内容数据对象团,依据该候选电商内容数据对象团对应的第一频度和所述多个在先兴趣目标的频度,获得该候选电商内容数据对象团对应的第二对比频度。
(507)依据每个所述候选电商内容数据对象团对应的第一对比频度和第二对比频度,在多个所述候选电商内容数据对象团中确定出至少一个目标候选电商内容数据对象团,并在所述至少一个目标候选电商内容数据对象团包括的候选电商内容数据对象中,确定出多个扩展电商内容数据对象,并依据所述多个扩展电商内容数据对象构成扩展电商内容数据。
实施例2
上述实施例1中推送内容是根据用户的浏览进行更新的,因此,请参阅图3所示,本实施例提出一种推送内容的更新方法,具体如下:
(1)获取所述电商内容服务系统基于所述目标更新电商需求数据的电商需求订阅数据,其中,所述电商需求订阅数据代表所述电商内容服务系统基于所述目标更新电商需求数据之后,是否已经依据所述目标更新电商需求数据进行订阅优化指引订阅的电商需求,所述电商内容服务系统依据订阅所述电商需求请求对应的特定电商内容。
(2)依据所述电商需求订阅数据的订阅行为确定是否对所述电商内容服务系统执行内容推送更新,其中,若所述电商需求订阅数据表征所述电商内容服务系统基于所述目标更新电商需求数据之后,已经依据所述目标更新电商需求数据进行订阅优化指引订阅的电商需求,则确定对所述电商内容服务系统执行所述内容推送更新,若所述电商需求订阅数据表征所述电商内容服务系统基于所述目标更新电商需求数据之后,未依据所述目标更新电商需求数据进行订阅优化指引订阅的电商需求,则确定不对所述电商内容服务系统执行所述内容推送更新。
(3)若确定对所述电商内容服务系统执行所述内容推送更新,则生成对所述电商内容服务系统进行内容推送更新的内容推送模板,并基于所述内容推送模板对所述电商内容服务系统执行所述内容推送更新。
所述用户电商意图热力图通过以下步骤获取:
(1)提取与热点电商板块关联的电商内容服务系统的电商行为事件数据库中的推送衔接数据和所述推送衔接数据对应的推送衔接属性,将推送衔接属性满足预设要求的推送衔接数据作为目标推送挖掘数据。
该预设要求可以包括但不限于推送衔接属性所对应的推送衔接评价值大于预设评价值,推送衔接评价值可以代表电商行为事件数据库中相关的推送活动与传递活动衔接的评价度,评价度越高,表示推送活动与传递活动存在直接业务衔接关系的可能性越大,即表示推送活动与传递活动存在紧密关联,因此可以通过针对不同评价度范围确定对应的推送衔接属性。
(2)基于预先训练的电商意图决策模型对所述目标推送挖掘数据进行电商意图决策,获得所述目标推送挖掘数据对应的电商意图热力图。
该电商意图决策模型可以用于对所述目标推送挖掘数据进行电商意图决策,进而确定电商内容服务系统的相关用户的各个不同电商意图在每个电商对象中的概率值分布,从而生成所述目标推送挖掘数据对应的电商意图热力图。
(3)基于所述目标推送挖掘数据对应的电商意图热力图对所述电商内容服务系统进行与所述热点电商板块对应的电商内容推荐。
基于以上步骤,本实施例通过提取与热点电商板块关联的电商内容服务系统的电商行为事件数据库中的推送衔接数据和推送衔接数据对应的推送衔接属性,将推送衔接属性满足预设要求的推送衔接数据作为目标推送挖掘数据,基于预先训练的电商意图决策模型对目标推送挖掘数据进行电商意图决策,获得目标推送挖掘数据对应的电商意图热力图,基于目标推送挖掘数据对应的电商意图热力图对电商内容服务系统进行与热点电商板块对应的电商内容推荐,由此以电商内容推送过程中的推送衔接维度为关键维度确定出目标推送挖掘数据进行电商意图决策,进而进行电商内容推荐,可以提高电商内容推荐的准确性。
(4)获取电商行为事件数据库中的内容传递活动向量和内容推送活动向。
实施例3
由于电商软件的进入页面通常展示为店铺的封面图片,因此,本实施例中,对目标更新电商需求数据识别分选主要是对图片的识别分选,将敏感图片与常规图片区分,即可完成对敏感数据与常规数据的分选。
因此,所述对目标更新电商需求数据识别分选包括以下步骤:
(1)根据实际观察发现,绝大多数封面图片(敏感数据)的一个显著特征是大量的裸露皮肤,因此,可将大片的皮肤裸露区域作为封面图片的一个重要评判标准,将肤色区域作为感兴趣区域,通过皮肤检测算法提取出图片中的人物皮肤区域,结合皮肤区域的大小、形状、比例等特征,可以对图片的属性做出一个初步的判断,将皮肤暴露过多(皮肤像素比例超过设定阈值)的图片标注为不良图片。
虽然人体的肤色因人种、地区以及图片光照等而不同,但人体肤色在某些颜色空间中具有很好的聚集性,图片中肤色像素的分布与非肤色像素的分布具有显著的可分性,因此通过肤色像素比例初步过滤掉含肤色像素较少的常规图片是可行的。
请参阅图4所示,通过HSV模型空间数字化处理图片中的颜色,HSV颜色空间也被称为六角锥体模型,六角锥体模型的H是色调,用角度度量,取值范围为(0,360),红色为0,绿色为120,蓝色为240;
S是饱和度,表示颜色接近光谱色的程度,值越大,颜色越饱和,取值范围为0%~100%,记为(0.0,1.0);
V是亮度,表示颜色的明亮程度,通常取值范围为0%(黑色)到100%(白色),记为(0.0,1.0);
图像输入时,主要为RGB格式,需要将RGB颜色空间转换为HSV颜色空间,具体如下:
通过上式(1)(2)(3)即可得出H、S以及V的值,完成RGB颜色空间转换为HSV颜色空间。
(2)利用高斯混合模型提取肤色区域,高斯混合模型是通过K (一般为3到5)个单高斯模型来表征像素点的特征,常用于将图像的前景和背景进行分割,高斯混合模型可以很好地拟合复杂光照条件下的肤色分布。
(3)选定空间颜色以及肤色模型后,为降低类肤色像素的误检率,往往还需要通过一些辅助手段来确认皮肤区域,可利用人体肤色的一致性,通过增加人脸检测的方法,利用人脸肤色数据来改进和增强肤色模型,以减少类肤色像素的干扰,同时利用人体结构的姿态性特点,以合适的形状和比例特征对提取出的肤色区域进一步的判断,可以有效提升皮肤检测的准确率;
而利用皮肤纹理的光滑特征,通过统计分析法或Gabor滤波法等技术排除图中的粗糙区域,也可以进一步提升皮肤区域的检出率,纹理表示的是具有相同属性的像素点的固有空间属性,与单个像素点无关,皮肤纹理具有独特的特征,包括没有明显的纹理单元,平坦而光滑以及没有显著的方向性等。
通过对图片中的空间颜色以及肤色模型进行整体分析,再加上人脸检测或者皮肤纹理等手段判断封面图片是否为敏感图片,有利于提高对不良图片的检测精度以及检测效率。
实施例4
在对上述实施例3中的封面图片进行空间颜色以及肤色模型进行整体分析时,需要判定何种封面图片才能算做不良图片,因此,需要建立数据库,通过数据库中类似图片的比对来筛分不良图片,具体步骤如下:
请参阅图5所示,
(1)图片输入:首先从网上获取良性图片和不良图片构建数据库,并对图片标记正确的类别标签;
(2)数据预处理:再通过单边滑动窗口方法将图片分为多个图像碎片;
(3)图片分选:将这些碎片送入ResNet进行分类,最后对分值进行统计和计算并结合合适的阈值划分为良性图片或不良图片。
请参阅图6所示,CNN模型在处理不同尺度的图片时采用滑动窗口机制,基于网络模型的输入大小作为滑动窗口,在不良图片过滤领域,由于敏感内容只是图片中的一小部分,将图片直接resize到网络的输入大小会导致一定的尺度比例损失,而采用普通的滑动窗口机制,在两条边上以较小步长(一般为2)滑动会产生较多的图片碎片,导致时间性能的下降和造成一定的误判。
在网络模型输出各类别的分值后,softmax分类器对良性图片与不良图片的分选方法如下:
(1)取分值最大的类别n和分值s;
(2)若n=0或1,分类为良性图片;
(3)若n取值在2-4之间,则s=s*1.2;
(4)若n取值在5-8之间,则s=s*0.92;
(5)基于步骤(3)和(4),若求出s≥0.85,分类为不良图片。
所述ResNet对图片碎片分类,可以利用更深层次的网络解决训练误差随网络层数的增加而增大的问题,为了解决该问题,ResNet对传统的平原网络结构进行了调整,其关键结构是将基本的网络单元增加了一个恒等的快捷连接,通过将拟合目标函数转变为拟合残差函数,把输出变为拟合和输入的叠加,使得网络对输出与输入之间的微小波动更加敏感。
上述良性图片与不良图片的分类特征主要从网上下载,并被分为训练数据库和测试数据库,由于实际中无法构建百万级的大规模不良图片数据库,因此,
首先利用ImageNet 1000数据库进行预训练,以学习到可以在接下来的训练中利用的参数权值,减少训练所需的时间;
然后再在训练数据库上进行训练,并在测试数据库上测试模型的分类效果,直至网络收敛。
在每进行20个epoch之后,从每个类别中随机挑选100张图片,分别测试模型的分类准确率,对准确率小于0. 9的类别,定向增加其训练样本的容量,包括增加与测试样本具有相似特征的图片以及不同肤色的图片等边缘案例,再继续进行训练,多次重新设计和构建训练数据库直到模型可以挖掘出更优质的特征。
本实施例中,通过一种单边滑动窗口的机制进行数据的预处理,先将待处理图片中最短边resize为224,另一边进行同比例的resize,然后用224*224的窗口在图片上沿最长边滑动,步长设置为50,由于大多数图片的长宽比在1: 1到2: 1之间,很少有图片超过2:1的长宽比,采用50的步长可以将滑动窗口产生的图片碎片保持在3到5个之间,在保留了图片的比例信息的同时有效减少数据量,在将每个图片碎片输入模型处理的过程中,如果按照阈值被分类为不良图片,则不再继续滑动,通过单边滑动窗口处理图片,有利于减小数据量提高处理速度。
实施例5
本实施例提供所述基于电商意图数据库挖掘的信息处理系统,包括机器可读存储介质和处理器,机器可读存储介质存储有计算机程序,所述处理器执行程序时以执行基于电商意图数据库挖掘的信息处理方法。
具体为:至少一个处理器执行机器可读存储介质存储的执行指令,使得处理器可以执行如上方法实施例的基于电商意图数据库挖掘的信息处理方法,处理器、机器可读存储介质以及收发器通过总线连接,处理器可以用于控制收发器的收发动作,从而可以与前述的电商内容服务系统进行数据收发。
处理器的具体实现过程可参见上述数据库系统执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
可读存储介质中预设有执行指令,当处理器执行指令时,实现如上基于电商意图数据库挖掘的信息处理方法。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(randomaccessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.基于电商意图数据库挖掘的信息处理方法,其特征在于:所述方法包括以下步骤:
S1:基于数据库比对以及用户的电商意图热力图生成与用户相关的情感倾向特征数据,并依据所述情感倾向特征数据生成对应的目标更新电商需求数据;
S2:对目标更新电商需求数据进行识别分选,分选数据包括常规浏览数据以及敏感浏览数据;
S3:电商软件进入页面分为常规数据板块以及综合数据板块,综合数据板块隐藏并位于常规数据板块上任一处,且常规数据板块显示常规浏览数据,综合数据板块显示常规浏览数据以及敏感浏览数据。
2.根据权利要求1所述的基于电商意图数据库挖掘的信息处理方法,其特征在于:所述常规浏览数据以及敏感浏览数据分选方法包括对图片的空间颜色以及肤色模型识别。
4.根据权利要求3所述的基于电商意图数据库挖掘的信息处理方法,其特征在于:所述肤色模型识别通过高斯混合模型提取,高斯混合模型通过K个单高斯模型来表征像素点的特征,拟合复杂光照条件下的肤色分布。
5.根据权利要求4所述的基于电商意图数据库挖掘的信息处理方法,其特征在于:所述常规浏览数据以及敏感浏览数据分选方法还包括人脸检测以及皮肤纹理识别,其中人脸检测通过人脸肤色数据来改进肤色模型,皮肤纹理识别通过皮肤的光滑特征,使用统计分析法排除图中的粗糙区域。
6.根据权利要求5所述的基于电商意图数据库挖掘的信息处理方法,其特征在于:皮肤纹理识别具有相同属性的像素点的固有空间属性,包括没有明显的纹理单元,平坦而光滑以及没有显著的方向性。
7.根据权利要求1所述的基于电商意图数据库挖掘的信息处理方法,其特征在于:所述数据库建立步骤为:
(1)图片输入:从网上获取良性图片和不良图片构建数据库,并对图片标记正确的类别标签;
(2)数据预处理:通过单边滑动窗口方法将图片分为多个图像碎片;
(3)图片分选:碎片送入ResNet进行分类;
(4)对分值进行统计和计算并结合阈值划分为良性图片或不良图片。
8.根据权利要求7所述的基于电商意图数据库挖掘的信息处理方法,其特征在于:步骤(4)中对良性图片与不良图片的分选方法为:
A、取分值最大的类别n和分值s;
B、n=0或1,分类为良性图片;
C、n取值在2-4之间,则s=s*1.2;
D、n取值在5-8之间,则s=s*0.92;
E、求出s≥0.85,则分类为不良图片。
9.根据权利要求8所述的基于电商意图数据库挖掘的信息处理方法,其特征在于:所述单边滑动窗口方法包括以下步骤:
(1)设待处理图片中最短边resize为224,另一边进行同比例的resize;
(2)用224*224的窗口在图片上沿最长边滑动,步长设置为50;
(3)再将每个图片碎片输入模型处理中,按照阈值被分类为不良图片,不再继续滑动。
10.一种基于电商意图数据库挖掘的信息处理系统,其特征在于:包括机器可读存储介质和处理器,机器可读存储介质存储有程序,处理器执行程序时以执行权利要求1-9中任一项所述的基于电商意图数据库挖掘的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211014493.5A CN115099909A (zh) | 2022-08-23 | 2022-08-23 | 基于电商意图数据库挖掘的信息处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211014493.5A CN115099909A (zh) | 2022-08-23 | 2022-08-23 | 基于电商意图数据库挖掘的信息处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115099909A true CN115099909A (zh) | 2022-09-23 |
Family
ID=83300556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211014493.5A Pending CN115099909A (zh) | 2022-08-23 | 2022-08-23 | 基于电商意图数据库挖掘的信息处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115099909A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103839037A (zh) * | 2012-11-23 | 2014-06-04 | 华中科技大学 | 一种基于众核和gpu的网络视频流不良内容检测方法和系统 |
CN110489642A (zh) * | 2019-07-25 | 2019-11-22 | 山东大学 | 基于行为特征分析的商品推荐方法、系统、设备及介质 |
CN110598441A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 用户隐私保护方法及装置 |
CN111127153A (zh) * | 2019-12-24 | 2020-05-08 | 武汉同创元盛科技有限公司 | 一种一站式电商服务管理平台 |
CN112163160A (zh) * | 2020-10-12 | 2021-01-01 | 广西师范大学 | 基于知识图谱的敏感识别方法 |
CN112711241A (zh) * | 2021-03-26 | 2021-04-27 | 北京孵家科技股份有限公司 | 一种基于人工智能的创意优化管控方法、装置及系统 |
CN114155039A (zh) * | 2021-12-10 | 2022-03-08 | 云南联达信息科技有限公司 | 基于电商意图大数据挖掘的信息处理方法及大数据系统 |
CN114612178A (zh) * | 2022-02-28 | 2022-06-10 | 阿里健康科技(杭州)有限公司 | 商品信息的处理方法及商品信息的处理装置 |
US20220245282A1 (en) * | 2021-01-29 | 2022-08-04 | Walmart Apollo, Llc | Methods and apparatuses for identifying privacy-sensitive users in recommender systems |
-
2022
- 2022-08-23 CN CN202211014493.5A patent/CN115099909A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103839037A (zh) * | 2012-11-23 | 2014-06-04 | 华中科技大学 | 一种基于众核和gpu的网络视频流不良内容检测方法和系统 |
CN110489642A (zh) * | 2019-07-25 | 2019-11-22 | 山东大学 | 基于行为特征分析的商品推荐方法、系统、设备及介质 |
CN110598441A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 用户隐私保护方法及装置 |
CN111127153A (zh) * | 2019-12-24 | 2020-05-08 | 武汉同创元盛科技有限公司 | 一种一站式电商服务管理平台 |
CN112163160A (zh) * | 2020-10-12 | 2021-01-01 | 广西师范大学 | 基于知识图谱的敏感识别方法 |
US20220245282A1 (en) * | 2021-01-29 | 2022-08-04 | Walmart Apollo, Llc | Methods and apparatuses for identifying privacy-sensitive users in recommender systems |
CN112711241A (zh) * | 2021-03-26 | 2021-04-27 | 北京孵家科技股份有限公司 | 一种基于人工智能的创意优化管控方法、装置及系统 |
CN114155039A (zh) * | 2021-12-10 | 2022-03-08 | 云南联达信息科技有限公司 | 基于电商意图大数据挖掘的信息处理方法及大数据系统 |
CN114612178A (zh) * | 2022-02-28 | 2022-06-10 | 阿里健康科技(杭州)有限公司 | 商品信息的处理方法及商品信息的处理装置 |
Non-Patent Citations (2)
Title |
---|
毛郁欣等: "面向电商环境下商品推荐服务的隐私镜像暴露问题研究", 《电子商务》 * |
王景中等: "基于多分类和ResNet的不良图片识别框架", 《计算机系统应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9330111B2 (en) | Hierarchical ranking of facial attributes | |
Chen et al. | Combining discriminant analysis and neural networks for corn variety identification | |
Narihira et al. | Learning lightness from human judgement on relative reflectance | |
Cheng et al. | Multimedia features for click prediction of new ads in display advertising | |
JP5450681B2 (ja) | コンテキスト画像入り広告の生成 | |
US20110142335A1 (en) | Image Comparison System and Method | |
Perez et al. | Gender classification from face images using mutual information and feature fusion | |
CN111212303B (zh) | 视频推荐方法、服务器和计算机可读存储介质 | |
Li et al. | Evaluating combinational illumination estimation methods on real-world images | |
Xiao et al. | Salient object detection based on eye tracking data | |
CN108009560B (zh) | 商品图像相似类别判定方法及装置 | |
Tan et al. | Target recognition of SAR images by partially matching of target outlines | |
Southwell et al. | Human object recognition using colour and depth information from an RGB-D Kinect sensor | |
CN114997956B (zh) | 基于大数据的母婴产品智能推荐系统 | |
CN111881901A (zh) | 截图内容检测方法、设备及计算机可读存储介质 | |
CN111222530A (zh) | 一种细粒度图像分类方法、系统、装置和存储介质 | |
Balasubramaniyan et al. | Color contour texture based peanut classification using deep spread spectral features classification model for assortment identification | |
CN112131477A (zh) | 一种基于用户画像的图书馆图书推荐系统及方法 | |
CN113128329A (zh) | 用于在自主驾驶应用中更新对象检测模型的视觉分析平台 | |
CN115099909A (zh) | 基于电商意图数据库挖掘的信息处理方法及系统 | |
Mahmoodi et al. | SDD: A skin detection dataset for training and assessment of human skin classifiers | |
Rehman et al. | Modified texture features from histogram and gray level co-occurence matrix of facial data for ethnicity detection | |
Solli et al. | Color harmony for image indexing | |
CN112597695B (zh) | 一种基于感知特征聚类的计算机辅助设计方法及系统 | |
Rimiru et al. | GaborNet: investigating the importance of color space, scale and orientation for image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |