CN112085553A - 一种特定商品检测方法及装置 - Google Patents
一种特定商品检测方法及装置 Download PDFInfo
- Publication number
- CN112085553A CN112085553A CN201911063742.8A CN201911063742A CN112085553A CN 112085553 A CN112085553 A CN 112085553A CN 201911063742 A CN201911063742 A CN 201911063742A CN 112085553 A CN112085553 A CN 112085553A
- Authority
- CN
- China
- Prior art keywords
- commodity
- specific
- merchandise
- attribute information
- user search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 238000013145 classification model Methods 0.000 claims abstract description 78
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000006399 behavior Effects 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims 2
- 238000012423 maintenance Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种特定商品检测方法及装置。所述方法包括:获取商品的属性信息和商品的用户搜索数据,得到至少一条包括商品的属性信息和商品的用户搜索数据中包含的查询序列的商品特征向量;将商品特征向量输入特定商品分类模型中,输出商品是否为特定商品的分类结果。本发明解决了现有技术中特定商品检测准确性和有效性差的问题。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种特定商品检测方法及装置。
背景技术
电子商务平台作为提供网上交易洽谈的平台,用户(即买家)和卖家可以使用电子商务平台提供的网络基础设施、支付平台、安全平台、管理平台等共享资源有效地、低成本地开展商品交易,提高了商品交易的方便性。然而电子商务平台的一些卖家为了牟取不正当利益,会在电子商务平台上发布一些特定商品,包括违规商品,例如色青暴力的图像电影,或者不符合国家法律法规的服务商品,例如发票买卖。电子商务平台为了维护正当交易,减少或避免这些特定商品的交易,需要投入大量的管理和维护成本。
现有技术中,电子商务平台一般采用基于关键词拦截和人工校验结合的审核机制来进行特定商品检测,通过预设的关键词库进行关键词拦截筛选出可能的特定商品,再通过人工校验方式审核是否为特定商品,但是,为了对抗这种特定商品检测方式,卖家可以通过修改商品的文本信息,避免使用特定商品相关的词汇,采用同义词甚至完全和特定商品不相关的词汇作为该特定商品的文本描述内容,然而用户仍然能够通过改变搜索词汇查找到该特定商品,造成特定商品流通。与基于关键词拦截和人工校验结合的审核机制相类似的,电子商务平台还可以通过将商品的文本信息作为特征,采用基于特征提取的机器学习方法训练分类模型,或者,采用基于特征提取的深度学习方法训练分类模型,通过分类模型对商品进行分类检测特定商品,但是,卖家为了躲避电子商务平台的审查,将特定商品的文本信息修改的比较隐晦或者与普通商品相似,预先训练好的分类模型很难很快的捕捉到特定商品的文本信息变化,造成特定商品误检或者漏检,分类模型得到的分类结果的准确性差,特定商品检测成功率低下,用户还是能够在电子商务平台查找到特定商品并完成商品交易,因此这种方式也不能非常好的满足特定商品检测的需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种特定商品检测方法和装置。
第一方面,本发明实施例提供一种特定商品检测方法,包括如下步骤:
获取商品的属性信息和用户搜索数据,得到至少一条包括所述商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
将所述商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果。
第二方面,本发明实施例提供一种特定商品检测装置,包括:
生成模块,用于获取商品的属性信息和用户搜索数据,得到至少一条包括所述商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
预测模块,用于将所述商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果。
第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的特定商品检测方法。
第四方面,本发明实施例提供一种计算机设备,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行上述的特定商品检测方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
通过获取商品的属性信息和商品的用户搜索数据,在特定商品分类模型中,预测得到商品是否为特定商品的分类结果,实现对特定商品的检测。将用户搜索数据中包含的查询序列和商品的属性信息作为商品特征向量进行特定商品检测,在特定商品分类模型中进行预测时,商品的特征不仅包括商品本身的信息还包括用户搜索信息,使得分类结果更准确;而且,由于卖家无法直接改变用户的想法和搜索行为,用户能够根据查询序列查找到商品,甚至完成交易行为,所以用户搜索数据中蕴含着大量与商品相关联的信息,将用户搜索数据作为商品特征,充实了特定商品分类模型预测时的特征信息,提高了特定商品检测的准确性和有效性,减少特定商品漏检或误检,提高了特定商品检测的成功率。本发明实施例提供的特定商品检测方法能够更准确、有效的检测特定商品,便于电子商务平台维护人员及时召回仍然流窜在电子商务平台的特定商品,避免特定商品通过电子商务平台传播,对电子商务平台、用户甚至社会造成更大的危害。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中特定商品检测方法流程图;
图2为本发明实施例中特定商品分类模型训练方法流程图;
图3为本发明实施例中特定商品分类模型训练原理示意图;
图4为本发明实施例中另一特定商品检测方法流程图;
图5为本发明实施例中特定商品分类模型对商品进行检测的原理示意图;
图6为本发明实施例中特定商品检测装置示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例针对上述现有技术存在的问题,提供了一种特定商品检测方法,其流程参照图1所示,包括如下步骤:
S101:获取商品的属性信息和用户搜索数据,得到至少一条包括商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
上述步骤S101中获取的商品的属性信息,可以是,卖家在电子商务平台提交的商品的文本信息,例如商品名称、商品标题或商品的描述内容信息;还可以是,商品的统计信息,例如,商品在电子商务平台上的分类类别信息,商品的成交信息、商品的评价信息等。商品的属性信息,可以从电子商务平台中商品的发布信息中提取得到,也可以是根据搜索记录从电子商务平台的行为数据中获取到的。上述步骤S101中与商品的用户搜索数据,为用户在完成商品搜索行为时在电子商务平台进行的搜索行为的数据,包括用户向电子商务平台提交的包括搜索词汇或语句,其中,用户在任一时刻向电子商务平台提交的包括搜索词汇或语句的一个询问query生成一条查询记录。
需要说明的是,对于特定商品,由于用户的第一个搜索词汇或语句通常是特定商品的直接描述,在搜索结果不理想的情况下,用户会不断修改搜索词汇或语句,最终找到目标商品,甚至完成商品交易,因此用户在搜索到目标商品时,会得到至少一个查询记录并加入到行为数据中;对于普通商品,用户能够通过一次搜索就找到目标商品,也可能通过不断修改搜索词汇或语句,最终找到目标商品,因此在搜索到目标商品时,也会得到一个或多个查询记录。因此,上述步骤S101中对用户搜索数据关联的查询记录按照时间顺序进行排序,就可以得到用户在搜索商品时向电子商务平台提交的包括至少一个查询记录的查询序列。也就是说,每个商品的用户搜索数据都有一个查询序列。将商品的用户搜索数据中包含的查询序列和对应的商品的属性信息组织在一起,即得到商品特征向量。
S102:将商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果。
上述步骤S102中特定商品分类模型为通过将电子商务平台的商品集合中的商品作为训练样本训练得到的。可以是,收集历史积累的多个特定商品样本作为正样本,选取多个普通商品样本作为负样本,根据正样本和负样本的商品属性信息以及与正样本和负样本的用户搜索数据训练得到的。
本发明实施例提供的特定商品检测方法中,所说的特定商品可以是不符合电子商务平台规则的违规商品,包括不符合国家法律法规的实体商品和服务商品,例如色青暴力的图像电影或买卖发票服务商品,或者是其他欺骗消费者的广告商品、夸大宣传效果的商品、骗取网站搜索流量的商品和商品分类摆放不正确的商品。
本发明实施例提供的特定商品检测方法,通过获取商品的属性信息和商品的用户搜索数据,在特定商品分类模型中,预测得到商品是否为特定商品的分类结果,实现对特定商品的检测。将用户搜索数据中包含的查询序列和商品的属性信息作为商品特征向量进行特定商品检测,在特定商品分类模型中进行预测时,商品的特征不仅包括商品本身的信息还包括用户搜索信息,使得分类结果更准确;而且,由于卖家无法直接改变用户的想法和搜索行为,用户能够根据查询序列查找到商品,甚至完成交易行为,所以用户搜索数据中蕴含着大量与商品相关联的信息,将用户搜索数据作为商品特征,充实了特定商品分类模型预测时的特征信息,提高了特定商品检测的准确性和有效性,减少特定商品漏检或误检,提高了特定商品检测的成功率。本发明实施例提供的特定商品检测方法能够更准确、有效的检测特定商品,便于电子商务平台维护人员及时召回仍然流窜在电子商务平台的特定商品,避免特定商品通过电子商务平台传播,对电子商务平台、用户甚至社会造成更大的危害。
在一个可选的实施例中,本发明实施例提供的特定商品检测方法,还包括:
S103:统计每个商品在对应所有用户搜索行为时的分类结果为特定商品的数量,根据所述数量对商品进行排序并展示排序结果。
因为电子商务平台上的每个商品一般都会有多个用户对其进行搜索,因此,会产生多个不同的用户搜索行为,通过上述步骤S103,统计每个商品在对应所有用户搜索行为时的分类结果为特定商品的数量,按照分类结果为特定商品的数量的多少,对商品进行排序。分类结果为特定商品的数量的越多,说明该商品通过电子商务平台传播或扩散的可能性越大,因此,需要电子商务平台维护人员进行优先关注和处理。
本发明实施例提供的特定商品检测方法,不仅考虑特定商品分类模型输出的分类结果,同时也统计每个商品预测为特定商品的分类结果的数量,得到更加精确的特定商品检测结果的同时,便于电子商务平台维护人员按照商品可能通过电子商务平台传播的或扩散的可能性大小对特定商品按顺序进行处理。
由于对一个商品来说,可能会有多个用户产生多个不同的用户搜索行为并完成购买行为,因此会产生多笔交易记录,将每笔交易记录对应的商品特征向量输入到特定商品分类模型就会产生一个分类结果,这些分类结果可以是均为特定商品的分类结果、部分为特定商品的分类结果或没有特定商品的分类结果。由于电子商务平台上的商品数量非常庞大,为了便于对特定商品及时进行处理,可以统计每个商品的所有交易记录中的分类结果为特定商品的数量,针对所有商品按照分类结果为特定商品的数量进行排序并展示排序结果。例如,可以将排序结果发送到电子商务平台的维护监控端进行展示,由电子商务平台的维护人员根据特定商品的数量多少,对每个特定商品进行处理。具体来说,还可以是,如果一个商品对应的多笔交易记录中分类结果为特定商品的数量超过预设数量值时,维护监控端可以发出监控报警信息,提醒电子商务平台维护人员人工干预,对该商品进行人工审核;或者维护监控端可以向卖家发出商品特定的警告信息,提示卖家对发布的商品进行自检。
本发明的发明人在实践中发现,现有技术中,电子商务平台主要依赖于商品本身蕴含的信息,即商品的文本信息对特定商品进行检测。然而,由于卖家可以相对容易的将商品文本信息进行修改,而规避电子商务平台对特定商品的检测,因此已有的方法很难高效的检测特定商品。电子商务平台对特定商品的检测一般采用下述两种方法:
1)基于敏感关键词拦截的方法:通过电子商务平台已有的业务积累,由领域专家启发式的提出与特定商品相关的拦截关键词,形成关键词库,以及可以根据电子商务平台的业务变化,随时增添关键词,通过对商品相关的关键词进行查询,检测卖家是否发布特定商品。然而这种方法不够灵活,关键词库中会有很多的词汇漏洞,无法有效的检测特定商品,而且很难应对卖家为了躲避已有的关键词库而创造的新词或者对商品进行新的描述。
2)基于特征提取的机器学习或者深度学习方法:利用商品的文本信息作为特征,训练机器学习或者深度学习分类模型,以理解卖家提交到电子商务平台上的商品文本中蕴含的语义,通过商品文本信息检测商品是否为特定商品。然而,由于特定商品的卖家为了躲避电子商务平台的审查,常常将商品的文本信息修改的比较隐晦或者与普通商品相似,通过已有的基于机器学习或深度学习的分类模型很难捕捉到有效的特定商品的语义,造成特定商品漏检。而且,由于这些分类模型需要大量的训练语料,但是由商品的文本信息,如商品标题或者描述内容信息,很难很快的捕捉到卖家对特定商品的文本信息进行修改后的变化,训练好的分类模型很难应对卖家对特定商品的文本信息进行变更的情况,因此,在使用训练好的分类模型进行商品检测时,并不能非常好的满足电子商务平台的特定商品的检测需求。
通过上述两种方法的描述可以得出,现有技术中仅仅依赖于卖家在电子商务平台发布的商品的文本信息对特定商品进行检测,特定商品检测的效果较差。本发明的发明人通过训练特定商品分类模型,在训练时,将用户搜索数据包含的查询序列作为特征进行学习,由于用户在进行商品搜索时提交的查询序列也关联到目标商品,因此查询序列中蕴含着与商品相关联的特征信息,通过特定商品和普通商品的用户搜索数据中包含的查询序列和商品的属性信息组成的商品特征向量训练得到的特定商品分类模型,对商品是否为特定商品进行检测时,即使卖家对发布的商品的文本信息进行了修改,分类模型仍能够根据用户在进行商品搜索时产生的查询序列中蕴含的商品的特征信息,检测到特定商品,对特定商品检测的准确性和有效性更高,检测效果更好。
本发明实施例提供的特定商品检测方法中,特定商品分类模型的训练过程,参照图2所示,可以包括下述步骤:
S201:获取特定商品样本的商品属性信息和用户搜索数据,以及获取普通商品样本的商品属性信息和用户搜索数据;
S202:对所述特定商品样本和普通商品样本的商品属性信息及用户搜索数据进行学习,得到特定商品分类模型。
在一个具体实施例中,上述步骤S202中,对所述特定商品样本和普通商品样本的商品属性信息及用户搜索数据进行学习,得到特定商品分类模型,包括:
针对每个特定商品样本和普通商品样本,得到至少一条包括商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
将得到的多条商品特征向量输入到机器学习分类模型中进行学习,训练得到商品检测的特定商品分类模型。
作为本发明实施例的一个具体实施方式,可以是,训练特定商品分类模型时,获取的商品为历史交易数据中预设时间段内完成交易时存在用户搜索行为的商品,特定商品分类模型的训练过程,包括下述步骤:
(1)、在商品集合中收集历史积累的m个特定商品作为正样本,计为集合A={a1,a2,...,am};在商品集合中随机抽取n个普通商品作为负样本,计为集合B={b1,b2,...,bn},其中,m和n分别为在训练机器学习分类模型时,特定商品的数量和普通商品的个数,且m和n为正整数;
(2)、获取集合A和集合B中的各商品的属性信息,以及从历史交易数据中查找集合A和集合B中的各商品在预设时间期限内的所有交易记录,针对每笔交易记录,提取与该笔交易记录相关联的用户搜索数据;具体的,可以是,通过分布式计算MapReduce对历史交易数据进行处理,根据存在交易行为的商品的用户信息,得到集合A和集合B中的各商品在预设时间期限内与用户信息相关联的至少一笔交易的交易记录。上述商品的用户信息可以是用户的ID信息。
(3)、针对得到的每笔交易记录,从用户搜索数据提取与该笔交易记录相关联的查询序列。
具体的,可以是,每笔交易记录中记载了用户向电子商务平台发送会话请求、在会话过程中产生的用户搜索数据、点击关联信息、确定目标商品以及完成商品交易等信息,点击关联信息包括了用户在购买商品时产生的用户搜索数据中的各个查询记录的时间、顺序等信息,通过点击关联信息将用户搜索数据中的各个查询记录按照时间顺序进行排列,即得到用户为了购买该商品时在电子商务平台上提交的查询序列。
参照图3所示,有多个用户分别购买了集合A和集合B中的商品,产生了多个查询序列。以集合A中的商品a1为例,在预设时间期限内有两个用户u1和u2都产生过购买行为,且在购买时按照时间顺序,分别提交了三个查询记录q11、q12、q13和q21、q22、q23,最终完成了对商品a1的交易行为,那么,对于商品a1,两个用户u1和u2就产生了两条查询序列[q11,q12,q13]和[q21,q22,q23]。同理,参照图3所示,对于集合A和集合B中的其他商品也可以得到对应的至少一条查询序列。
(4)、将集合A和集合B中各商品对应的每笔交易记录相关联的查询序列和各商品的属性信息组织成商品特征向量输入机器学习模型进行学习,训练得到特定商品分类模型。
以集合A中的商品a1为例,将每笔交易记录相关联的查询序列和商品a1的属性信息组织成商品特征向量f1和f2:f1=[q11,q12,q13,a1];f2=[q21,q22,q23,a1],将f1和f2输入机器学习分类模型中进行学习;同理,对于集合A和集合B中的其他商品也可以得到对应的至少一条商品特征向量。
本发明实施例中提供的机器学习分类模型可以是基于tensorflow或pytorch等学习训练框架的分类模型,例如可以是,支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、基端梯度提升(Extreme Gradient Boosting,XGBoost)等线性分类模型;也可以是卷积神经网络(Convolutional Neural Networks,CNN)、递归神经网络(Recurrent Neural Networks,RNN)、注意力机制(Attention Mechanism)等深度神经网络分类模型。需要说明的是,本发明实施例中对机器学习分类模型的类型不作具体限定,只要能够通过学习训练得到特定商品分类模型,实现特定商品的检测即可。
本发明实施例中,训练得到的特定商品分类模型是可以实时更新的,模型训练时的商品既可以是从历史行为数据中,也可以是从实时行为数据中获取。通过上述方法训练得到的特定商品分类模型既可以用来对历史商品集合中的商品进行检测,也可以用来对实时产生用户搜索行为的商品集合中的商品进行检测。即获取商品的属性信息之前,可以采用下列方式中的至少一个获取存在用户搜索行为的商品:
从历史行为数据中获取预设时间段内存在用户搜索行为的商品;
从实时行为数据中获取实时产生用户搜索行为的商品。
在一个具体的实施例中,对于电子商务平台上的每个商品,如果发生了交易行为,商品就会产生流通,如果商品是特定商品,例如违规商品,那么商品通过电子商务平台传播,就会对电子商务平台、用户甚至社会造成危害。本发明实施例提供的特定商品检测方法,可以用于对存在交易行为的商品进行检测。此时,上述步骤S101中所述的获取商品的属性信息和用户搜索数据,得到至少一条包括所述商品的属性信息和用户搜索数据中包含的一个查询序列的商品特征向量,包括:
获取存在交易行为的商品的属性信息和与每笔交易记录相关联的用户搜索数据;
针对每笔交易记录,得到至少一条包括商品的属性信息和该笔交易记录相关联的用户搜索数据中包含的查询序列的商品特征向量。
在一个具体实施例中,上述步骤S101中,获取商品的用户搜索数据,包括:提取用户完成搜索行为时的一个会话的预设时间区间内的查询序列,所述查询序列中包括至少一条查询记录。
需要说明的是,对电子商务平台上发生了交易行为的商品进行检测时,可以从历史行为数据中的历史交易数据中获取预设时间段内完成交易时存在用户搜索行为的商品,或,从实时行为数据中的实时交易数据获取实时完成交易时存在用户搜索行为的商品,从而获取存在交易行为的商品的属性信息和与每笔交易记录相关联的用户搜索数据。
针对每笔交易记录,提取用户在完成该笔商品交易时的一个会话session中的预设时间区间内的查询序列,所述查询序列中包括至少一条查询记录。在一个会话过程中,由于用户完成一笔商品交易时提交的查询序列中可能包括了多个查询记录,而多个查询记录的时间间隔较长,最早提交的查询记录中的信息可能与目标商品的关联性较低,因此设置一个预设时间区间,在查询序列中仅选择距离完成确定目标商品较近的时间区间内的查询记录,比如,设置时间区间的长度为确定目标商品后向前推算2个小时;同时,在一个会话过程中,用户可能在完成目标商品的交易之前还搜索了其他与目标商品无关的其他商品,因此为了去除输入到特定商品分类模型中的查询序列中的噪声,还可以,根据商品的属性信息对得到的查询序列中包括的查询记录进行筛选,筛选出与目标商品相关的至少一条查询记录,得到筛选后的查询序列。
针对每笔交易记录,将每笔交易记录相关联的筛选后的查询序列和商品属性信息组织成商品特征向量,输入预先训练的特定商品分类模型中,就可以得到该笔交易记录所涉及的商品是否为特定商品的分类结果。
相应的,上述步骤S102中,将所述商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果中,包括:
在特定商品分类模型中,根据所述商品特征向量确定该笔交易记录涉及的商品属于特定商品的概率值;
判断所述概率值是否大于预设值,若是,则输出该笔交易记录涉及的商品为特定商品的分类结果。
具体的,可以是,对于电子商务平台上卖家发布的任一商品,假设有x个用户搜索并购买了该商品,那么,就会产生x条交易记录,因此,可以得到x条商品特征向量,即特定商品分类模型输出x个结果,其中,x为正整数。特定商品分类模型输出的分类结果分为表示商品为普通商品的分类结果和表示商品为特定商品的分类结果,例如可以是,采用数字0和1表示分类结果,则特定商品分类模型输出的对应该商品的分类结果0和1的数量之和为x。在特定商品分类模型中,根据所述商品特征向量确定该笔交易记录涉及的商品属于特定商品的概率值;若判断所述概率值大于预设值,则输出0,若判断所述概率值小于等于预设值,则输出1,即当特定商品分类模型输出0时,表示该条交易记录涉及的商品为特定商品,输出1时,表示该条交易记录涉及的商品为普通商品。
作为本发明实施例的一种具体实施方式,参照图4所示,以对实时产生交易行为的商品集合中的商品进行检测的过程,对本发明实施例提供的特定商品检测方法进行说明,包括下述步骤:
S301:从实时交易数据中确定出所有存在交易行为的商品,获取商品的属性信息;
S302:获取所有存在交易行为的商品交易记录,针对每笔交易记录,提取与每笔交易记录相关的用户搜索数据;
S303:针对每笔交易记录,从用户搜索数据提取与该笔交易记录相关联的查询序列;
参照图5所示,有多个用户分别在电子商务平台完成了商品交易行为,产生了多个查询序列。以商品a'1为例,在预设时间区间内有两个用户u'1和u'2都产生过购买行为,且在购买时按照时间顺序,分别提交了三个查询记录q'11、q'12、q'13和q'21、q'22、q'23,最终完成了对商品a'1的交易行为,那么,对于商品a'1就产生了两条查询序列[q'11、q'12、q'13]和[q'21、q'22、q'23]。同理,参照图5所示,对于其他商品,例如,b'1或c'1也可以得到对应的至少一条查询序列。
S304:针对每笔交易记录,得到包括商品的属性信息和该笔交易记录相关联的查询序列的商品特征向量,并输入特定商品分类模型中;
S305:根据所述商品特征向量确定该笔交易记录涉及的商品属于特定商品的概率值;
S306:判断所述概率值是否大于预设值,若是,则输出该笔交易记录涉及的商品为特定商品的分类结果;
S307:统计每个商品的所有交易记录中的分类结果为特定商品的数量,根据所述数量对商品进行排序并展示排序结果。
在本实施例中获取商品交易记录、用户搜索数据、查询序列以及商品特征向量的方式与训练特定商品分类模型时的方式相类似,具体的获取过程可以参照上述实施例的描述,在此不再赘述。
本发明实施例提供的特定商品检测方法,不仅考虑特定商品分类模型输出的分类结果,同时也统计输出商品为特定商品的分类结果的数量,得到更加精确的特定商品检测结果的同时,便于电子商务平台维护人员按照特定商品通过电子商务平台传播的数量多少对特定商品进行处理。
基于同一发明构思,本发明实施例还提供了一种特定商品检测装置、相关存储介质和设备,由于这些装置、相关存储介质和设备所解决问题的原理与前述特定商品检测方法相似,因此该装置、相关存储介质和设备的实施可以参见前述方法的实施,重复之处不再赘述。
参照图6所示,本发明实施例提供一种特定商品检测装置,包括:
生成模块61,用于获取商品的属性信息和用户搜索数据,得到至少一条包括所述商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
预测模块62,用于将所述商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果。
在一个实施例中,本发明实施例提供的特定商品检测装置,还包括:统计模块63,用于统计每个商品在对应所有用户搜索行为时的分类结果为特定商品的数量,根据所述数量对商品进行排序并展示排序结果。
本发明实施例提供的特定商品检测装置可以设置在服务器端,从电子商务平台的数据库中获取行为数据,包括,商品交易数据,进行特定商品检测,设置该特定商品检测装置的服务器与电子商务平台的维护客户端进行通信,将检测结果发送到电子商务平台的维护客户端,向维护客户端发送监控报警,提醒电子商务平台维护人员人工干预,由电子商务平台维护人员根据维护客户端得到的监控报警信息对卖家发布的特定商品进行人工审核或召回,或者,向卖家客户端发出警告,告知卖家违反了电子商务平台的商品发布规则,由卖家对发布的商品进行自检或下架特定商品。
在一个实施例中,所述生成模块61获取商品的属性信息和用户搜索数据,得到至少一条包括所述商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量,包括:
获取存在交易行为的商品的属性信息和与每笔交易记录相关联的用户搜索数据;
针对每笔交易记录,得到至少一条包括商品的属性信息和该笔交易记录相关联的用户搜索数据中包含的查询序列的商品特征向量。
在一个实施例中,生成模块61在获取商品的属性信息之前,还用于采用下列方式中的至少一个获取存在用户搜索行为的商品:
从历史行为数据中获取预设时间段内存在用户搜索行为的商品;
从实时行为数据中获取实时产生用户搜索行为的商品。
在一个实施例中,生成模块61获取商品的用户搜索数据,包括:
提取用户完成搜索行为时的一个会话的预设时间区间内的查询序列,所述查询序列中包括至少一条查询记录。
在一个实施例中,生成模块61,还用于根据商品的属性信息对所述查询序列中包括的查询记录进行筛选,筛选出与所述商品相关的查询记录,得到筛选后的查询序列。
在一个实施例中,预测模块62将所述商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果,包括:
在特定商品分类模型中,根据所述商品特征向量确定所述商品属于特定商品的概率值;
判断所述概率值是否大于预设值,若是,则输出所述商品为特定商品的分类结果。
在一个实施例中,本发明实施例提供的特定商品检测装置,还包括:机器学习模块64,训练得到特定商品分类模型时:
获取模块61,用于获取特定商品样本的商品属性信息和用户搜索数据,以及获取普通商品样本的商品属性信息和用户搜索数据;
机器学习模块64,用于对所述特定商品样本和普通商品样本的商品属性信息及用户搜索数据进行学习,得到特定商品分类模型。
在一个实施例中,机器学习模块64对所述特定商品样本和普通商品样本的商品属性信息及用户搜索数据进行学习,得到特定商品分类模型,包括:
针对每个特定商品样本和普通商品样本,得到至少一条包括商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
将得到的多条商品特征向量输入到机器学习分类模型中进行学习,训练得到商品检测的特定商品分类模型。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的特定商品检测方法。
本发明实施例还提供了一种计算机设备,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行上述的特定商品检测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种特定商品检测方法,其特征在于,包括:
获取商品的属性信息和用户搜索数据,得到至少一条包括所述商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
将所述商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果。
2.如权利要求1所述的特定商品检测方法,其特征在于,获取商品的属性信息和用户搜索数据,得到至少一条包括所述商品的属性信息和用户搜索数据中包含的一个查询序列的商品特征向量,包括:
获取存在交易行为的商品的属性信息和与每笔交易记录相关联的用户搜索数据;
针对每笔交易记录,得到至少一条包括商品的属性信息和该笔交易记录相关联的用户搜索数据中包含的查询序列的商品特征向量。
3.如权利要求1所述的特定商品检测方法,其特征在于,获取商品的属性信息之前,还包括采用下列方式中的至少一个获取存在用户搜索行为的商品:
从历史行为数据中获取预设时间段内存在用户搜索行为的商品;
从实时行为数据中获取实时产生用户搜索行为的商品。
4.如权利要求3所述的特定商品检测方法,其特征在于,获取商品的用户搜索数据,包括:
提取用户完成搜索行为时的一个会话的预设时间区间内的查询序列,所述查询序列中包括至少一条查询记录。
5.如权利要求4所述的特定商品检测方法,其特征在于,还包括:
根据商品的属性信息对所述查询序列中包括的查询记录进行筛选,筛选出与所述商品相关的查询记录,得到筛选后的查询序列。
6.如权利要求1所述的特定商品检测方法,其特征在于,将所述商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果,包括:
在特定商品分类模型中,根据所述商品特征向量确定所述商品属于特定商品的概率值;
判断所述概率值是否大于预设值,若是,则输出所述商品为特定商品的分类结果。
7.如权利要求1所述的特定商品检测方法,其特征在于,还包括:
统计每个商品在对应所有用户搜索行为时的分类结果为特定商品的数量,根据所述数量对商品进行排序并展示排序结果。
8.如权利要求1-7任一项所述的特定商品检测方法,其特征在于,所述特定商品分类模型通过下述方式得到:
获取特定商品样本的商品属性信息和用户搜索数据,以及获取普通商品样本的商品属性信息和用户搜索数据;
对所述特定商品样本和普通商品样本的商品属性信息及用户搜索数据进行学习,得到特定商品分类模型。
9.如权利要求8所述的特定商品检测方法,其特征在于,所述对所述特定商品样本和普通商品样本的商品属性信息及用户搜索数据进行学习,得到特定商品分类模型,包括:
针对每个特定商品样本和普通商品样本,得到至少一条包括商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
将得到的多条商品特征向量输入到机器学习分类模型中进行学习,训练得到商品检测的特定商品分类模型。
10.一种特定商品检测装置,其特征在于,包括:
生成模块,用于获取商品的属性信息和用户搜索数据,得到至少一条包括所述商品的属性信息和用户搜索数据中包含的查询序列的商品特征向量;
预测模块,用于将所述商品特征向量输入特定商品分类模型中,输出所述商品是否为特定商品的分类结果。
11.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-9任一项所述的特定商品检测方法。
12.一种计算机设备,其特征在于,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行如权利要求1-9任一项所述的特定商品检测方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910506841 | 2019-06-12 | ||
CN2019105068412 | 2019-06-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112085553A true CN112085553A (zh) | 2020-12-15 |
Family
ID=73733533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911063742.8A Pending CN112085553A (zh) | 2019-06-12 | 2019-11-04 | 一种特定商品检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085553A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379557A (zh) * | 2021-06-30 | 2021-09-10 | 杭州东忠科技股份有限公司 | 一种基于空间站的礼物智能匹配方法、系统及储存介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782998A (zh) * | 2009-01-20 | 2010-07-21 | 复旦大学 | 一种违规在线产品信息的智能判断方法与系统 |
US20110131105A1 (en) * | 2009-12-02 | 2011-06-02 | Seiko Epson Corporation | Degree of Fraud Calculating Device, Control Method for a Degree of Fraud Calculating Device, and Store Surveillance System |
CN102253936A (zh) * | 2010-05-18 | 2011-11-23 | 阿里巴巴集团控股有限公司 | 记录用户访问商品信息的方法及搜索方法和服务器 |
US20120143816A1 (en) * | 2009-08-27 | 2012-06-07 | Alibaba Group Holding Limited | Method and System of Information Matching in Electronic Commerce Website |
CN102663025A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种违规在线商品检测方法 |
CN103455476A (zh) * | 2012-05-29 | 2013-12-18 | 阿里巴巴集团控股有限公司 | 网络信息的处理方法和抽象语法树的建立方法及其装置 |
CN104679771A (zh) * | 2013-11-29 | 2015-06-03 | 阿里巴巴集团控股有限公司 | 一种个性化数据搜索方法和装置 |
CN105022830A (zh) * | 2015-08-05 | 2015-11-04 | 焦点科技股份有限公司 | 一种基于用户行为的加权轨迹数据集构建方法 |
KR20160027265A (ko) * | 2014-08-28 | 2016-03-10 | 황호연 | 균일가 판매상품을 거래하기 위한 균일가상품거래시스템 및 균일가상품거래방법 |
CN105981012A (zh) * | 2014-02-28 | 2016-09-28 | 富士胶片株式会社 | 商品搜索装置、方法及系统 |
CN106296343A (zh) * | 2016-08-01 | 2017-01-04 | 王四春 | 一种基于互联网和大数据的电子商务交易监测方法 |
CN107491433A (zh) * | 2017-07-24 | 2017-12-19 | 成都知数科技有限公司 | 基于深度学习的电商异常金融商品识别方法 |
CN107545422A (zh) * | 2017-08-02 | 2018-01-05 | 中国银联股份有限公司 | 一种套现检测方法及装置 |
CN108269167A (zh) * | 2017-12-22 | 2018-07-10 | 合肥天源迪科信息技术有限公司 | 一种基于大数据处理的电子商务运营管理方法 |
CN108537544A (zh) * | 2018-04-04 | 2018-09-14 | 中南大学 | 一种交易系统实时监控方法及其监控系统 |
-
2019
- 2019-11-04 CN CN201911063742.8A patent/CN112085553A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782998A (zh) * | 2009-01-20 | 2010-07-21 | 复旦大学 | 一种违规在线产品信息的智能判断方法与系统 |
US20120143816A1 (en) * | 2009-08-27 | 2012-06-07 | Alibaba Group Holding Limited | Method and System of Information Matching in Electronic Commerce Website |
US20110131105A1 (en) * | 2009-12-02 | 2011-06-02 | Seiko Epson Corporation | Degree of Fraud Calculating Device, Control Method for a Degree of Fraud Calculating Device, and Store Surveillance System |
CN102253936A (zh) * | 2010-05-18 | 2011-11-23 | 阿里巴巴集团控股有限公司 | 记录用户访问商品信息的方法及搜索方法和服务器 |
CN102663025A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种违规在线商品检测方法 |
CN103455476A (zh) * | 2012-05-29 | 2013-12-18 | 阿里巴巴集团控股有限公司 | 网络信息的处理方法和抽象语法树的建立方法及其装置 |
CN104679771A (zh) * | 2013-11-29 | 2015-06-03 | 阿里巴巴集团控股有限公司 | 一种个性化数据搜索方法和装置 |
CN105981012A (zh) * | 2014-02-28 | 2016-09-28 | 富士胶片株式会社 | 商品搜索装置、方法及系统 |
KR20160027265A (ko) * | 2014-08-28 | 2016-03-10 | 황호연 | 균일가 판매상품을 거래하기 위한 균일가상품거래시스템 및 균일가상품거래방법 |
CN105022830A (zh) * | 2015-08-05 | 2015-11-04 | 焦点科技股份有限公司 | 一种基于用户行为的加权轨迹数据集构建方法 |
CN106296343A (zh) * | 2016-08-01 | 2017-01-04 | 王四春 | 一种基于互联网和大数据的电子商务交易监测方法 |
CN107491433A (zh) * | 2017-07-24 | 2017-12-19 | 成都知数科技有限公司 | 基于深度学习的电商异常金融商品识别方法 |
CN107545422A (zh) * | 2017-08-02 | 2018-01-05 | 中国银联股份有限公司 | 一种套现检测方法及装置 |
CN108269167A (zh) * | 2017-12-22 | 2018-07-10 | 合肥天源迪科信息技术有限公司 | 一种基于大数据处理的电子商务运营管理方法 |
CN108537544A (zh) * | 2018-04-04 | 2018-09-14 | 中南大学 | 一种交易系统实时监控方法及其监控系统 |
Non-Patent Citations (1)
Title |
---|
蒋胜;王忠群;汪千松;: "一种C2C市场中网购商品虚增销量的识别模型", 长江大学学报(自科版), no. 13, 10 July 2017 (2017-07-10), pages 54 - 59 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379557A (zh) * | 2021-06-30 | 2021-09-10 | 杭州东忠科技股份有限公司 | 一种基于空间站的礼物智能匹配方法、系统及储存介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heydari et al. | Detection of fake opinions using time series | |
Wang et al. | Identify online store review spammers via social review graph | |
US9799035B2 (en) | Customer feedback analyzer | |
Zhang et al. | Mining millions of reviews: a technique to rank products based on importance of reviews | |
CN103294592B (zh) | 利用用户工具交互来自动分析其服务交付中的缺陷的方法与系统 | |
US8799193B2 (en) | Method for training and using a classification model with association rule models | |
CN110689438A (zh) | 企业类金融风险评分方法、装置、计算机设备及存储介质 | |
US11176586B2 (en) | Data analysis method and system thereof | |
Jiang et al. | Recommending new features from mobile app descriptions | |
US20120323739A1 (en) | Mapping descriptions | |
KR102407057B1 (ko) | Sns 사용자 채널에 대한 공개 데이터를 분석하여 영향력 리포트를 제공하는 시스템 및 방법 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
US20170178149A1 (en) | Method and system for purchase pattern extraction from point of sale data | |
Zhang et al. | Automatically predicting the helpfulness of online reviews | |
CN106991425B (zh) | 商品交易质量的检测方法和装置 | |
KR102407056B1 (ko) | Sns 사용자 채널에 대한 공개 데이터를 수집하고, 수집된 공개 데이터를 기반으로 영향력을 측정하는 시스템 및 방법 | |
US8738459B2 (en) | Product recommendation | |
CN108737138B (zh) | 服务提供方法及服务平台 | |
JPWO2019142345A1 (ja) | セキュリティ情報処理装置、情報処理方法及びプログラム | |
CN112085553A (zh) | 一种特定商品检测方法及装置 | |
KR102299525B1 (ko) | 제품 평가 마이닝 방법 및 이를 수행하는 장치 | |
Neumann | Recommender systems for information providers: designing customer centric paths to information | |
Nasiri et al. | Aspect category detection on indonesian e-commerce mobile application review | |
CN111091416A (zh) | 一种预测酒店购买机器人的概率的方法和装置 | |
US11107139B1 (en) | Computing system learning of a merchant category code |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |