CN106021448A - 一种淘宝网店属于某地的自动化判别方法 - Google Patents

一种淘宝网店属于某地的自动化判别方法 Download PDF

Info

Publication number
CN106021448A
CN106021448A CN201610324376.7A CN201610324376A CN106021448A CN 106021448 A CN106021448 A CN 106021448A CN 201610324376 A CN201610324376 A CN 201610324376A CN 106021448 A CN106021448 A CN 106021448A
Authority
CN
China
Prior art keywords
somewhere
shop
value
taobao
takes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610324376.7A
Other languages
English (en)
Inventor
程新党
张新刚
于波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanyang Normal University
Original Assignee
Nanyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanyang Normal University filed Critical Nanyang Normal University
Priority to CN201610324376.7A priority Critical patent/CN106021448A/zh
Publication of CN106021448A publication Critical patent/CN106021448A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种淘宝网店属于某地的自动化判别方法,通过设立模型,并利用该模型对淘宝店铺的属地进行判别,从而得到该店铺是否属于某个地区;本发明有益效果:利用本发明所提供的方法对淘宝店铺的归属地进行判别,从而得到其是否属于某个地区,方便有效且准确率高,具备通用性和可推广型。

Description

一种淘宝网店属于某地的自动化判别方法
技术领域
本发明涉及淘宝网店属地判别,具体地说是一种淘宝网店属于某地的自动化判别方法。
背景技术
淘宝网的交易量与日俱增,但各种投诉并不能得到合理的解决,鉴于工商属地管理的责任,各地工商系统有责任监管经营人为本地的淘宝网商,但淘宝网商并不在本地工商系统注册登记,因此属地工商比较难于管理。
目前部分地市工商管理部门采用人工筛选、逐个核实的方式查找本地的淘宝电商,这种方式虽然准确但太耗时费力。
鉴于此,提出一种自动化的查找方法,这种方法可以通过对淘宝店铺网页进行分析,通过有监督的机器学习技术,自动找出属于本地的淘宝电商,而且准确率较高。目前自动化判别淘宝经营人属地的方法本发明尚属首次。
发明内容
本发明所要解决的技术问题是提供一种淘宝网店属于某地的自动化判别方法,该方法通过对样本的学习,得到感知机模型,然后利用该模型对淘宝店铺进行判别,从而得到其是否属于某个地区,解决了目前淘宝店铺属地判别困难的问题。
本发明为解决上述技术问题所采用的技术方案是:一种淘宝网店属于某地的自动化判别方法,包括以下步骤:
步骤一、对淘宝店铺页面标题中的地域信息进行标记取值,取值原则为:如果标题中明确含有“某地”则取1,明确标注为除“某地”之外的其它地区则取0,不含地域信息的情况取0.5;
步骤二、对店铺页面中的其他属地相关信息进行取值,取值原则为:对出现“某地”的次数进行求和,如果和小于10,则取值0;和大于10且小于30则取值0.5;和大于30则取1;
步骤三、对淘宝店铺的物流页面的所属地信息进行取值,取值原则为:明确标注含有“某地”则取1;明确标注不含“某地”则取0;标注为某地所在省的情况取值0.6;为空的情况取值0.5;
步骤四、对于淘宝店铺商品详情页面中的配送信息进行取值,取值原则为:如果配送信息的始发地明确标注含有“某地”则取1;明确标注不含“某地”则取0;始发地为空的情况则取0.5;
步骤五、根据步骤一至步骤四得到每一个淘宝店铺的4个特征,第i个淘宝店铺表示为一个4维特征向量di=(di1,di2,di3,di4),其中di1、di2、di3和di4分别为第i个淘宝店中每个特征的取值;
步骤六、将步骤五得到的特征向量代入以下符号函数模型:f(di)=sign(0.15 di1+0.7 di2+1.03 di3+1.65 di4 -1.7),通过计算该模型得出该店铺所在地是否属于“某地”,如f(di)=1则属于“某地”,f(di)=-1则不属于“某地”。
本发明的有益效果是:利用本发明所提供的方法对淘宝店铺的归属地进行判别,从而得到其是否属于某个地区,方便有效且准确率高,具备通用性和可推广型,解决了目前淘宝店铺属地判别困难的问题。
具体实施方式
一种淘宝网店属于某地的自动化判别方法,包括以下步骤:
步骤一、对淘宝店铺页面标题中的地域信息进行标记取值,取值原则为:如果标题中明确含有“某地”则取1,明确标注为除“某地”之外的其它地区则取0,不含地域信息的情况取0.5;
步骤二、对店铺页面中的其他属地相关信息进行取值,取值原则为:对出现“某地”的次数进行求和,如果和小于10,则取值0;和大于10且小于30则取值0.5;和大于30则取1;
步骤三、对淘宝店铺的物流页面的所属地信息进行取值,取值原则为:明确标注含有“某地”则取1;明确标注不含“某地”则取0;标注为某地所在省的情况取值0.6;为空的情况取值0.5;
步骤四、对于淘宝店铺商品详情页面中的配送信息进行取值,取值原则为:如果配送信息的始发地明确标注含有“某地”则取1;明确标注不含“某地”则取0;始发地为空的情况则取0.5;
步骤五、根据步骤一至步骤四得到每一个淘宝店铺的4个特征,第i个淘宝店铺表示为一个4维特征向量di=(di1,di2,di3,di4),其中di1、di2、di3和di4分别为第i个淘宝店中每个特征的取值;
步骤六、将步骤五得到的特征向量代入以下符号函数模型:f(di)=sign(0.15 di1+0.7 di2+1.03 di3+1.65 di4 -1.7),通过计算该模型得出该店铺所在地是否属于“某地”,如f(di)=1则属于“某地”,f(di)=-1则不属于“某地”。
下面结合实施例对本发明做进一步阐述:
对淘宝店铺,进行了大量分析,能够反映其属地特征的主要有以下几个地方:
(1)页面标题中的地域信息,以“南阳”为例,比如“南阳百草堂” 和“南阳艾柱批发”,事实证明“南阳百草堂”属地确实为南阳,但“南阳艾柱批发”的属地却不一定为南阳。取值原则为:如果标题信息中明确标注含有“南阳”则取1,明确标注为其他地区时则取0,对于不含地域信息的情况则取0.5(对地域只精确到省、市)。
(2)店铺页面中的其他属地相关的信息,比如商品名和商品描述:“韩国进口南阳咖啡”、“南阳金艾条”,“天然南阳独山玉”,这些信息,由于存在同名的地名或者经营外地特产,地域属性可信度较低。目前的取值方式如下:对出现南阳的次数求和,如果小于10,则为0;大于10且小于30则取0.5,对于大于30则取1;对于取30的选择,则因为多数淘宝店铺主页显示的商品数为30~60件;
(3)在淘宝店铺的物流页面,有所属地信息,但多数店铺为空或者所填地域偏大甚至为假,比如:南阳的店铺,可能被商家标注为“河南”;对该特征的取值原则为:明确标注中含有“南阳”则取1,明确标注不含“南阳”则取0,对于标注为河南的情况取值0.6,对于为空的情况则取0.5。
(4)商品的详情页面中的配送信息:该信息准确度较高,但也存在店铺的经营者与发货不同地的情况。取值原则为:如果配送信息的始发地明确标注中含有“南阳”则取1,明确标注不含“南阳”则取0,对于为空的情况则取0.5。
根据上述特征的选择方式,淘宝店铺的总特征数为4,因为淘宝店铺页面结构类似性,对页面的处理则较为简单,这样第i个淘宝店铺可以可以表示为一个4维特征向di=(di1,di2,d3,di4); 则淘宝店铺集合可以表示为:
Am*n=
本发明采用感知机二类分类模型,通过细微地调节权重值来减少感知机的期望输出和实际输出之间的差别。找到能够将训练数据进行线性划分的分类超平面,该方法采用基于误分类的损失函数对分类进行评估,然后利用梯度下降法对损失函数进行极小值运算,从而得到感知机模型。
为了求得感知机的分类模型,通过人工查找,电话确认的方法,找到了属于南阳地区的店铺120家,确定不属于南阳的420个,然后又随机加上了60个未确认的店铺到不属于南阳的集合中,共600个样本。
在试验中对样本数据采用店铺<URL,分类标贴>对的形式表示,即一个店铺可以表示为:Di={URLi,Yi}, 比如
D1={https://zhat.taobao.com,1}表示该店铺属于某地南阳,
D2={https://sulbin.taobao.com,-1} 不属于某地南阳,将类似的{URL,值}存入数据表中,然后通过采集程序访问指定页面,将店铺向量化,步骤如下:
取店铺首页面title值按照上述规则转化为实数,存为d1
计算页面中“南阳”关键字的个数,然后按照上述规则取存为d2
进入物流页面,查找“所在地”信息,标注为“河南南阳”或“南阳”取值为1,为空取值0.5,为“河南”时取值0.6,明确为其他地区时取值为 0,存入d3
通过店铺地址访问其中任一个商品详情页面,取配送信息,发货地为“河南南阳”则取值1,否则取值0,为空取0.5 ,存为d4
经过上述4步,每个店铺成功向量化。
对向量化之后的数据进行检查,发现部分数据店铺向量相同,分类标贴也相同,程序首先剔除这部分重复数据,剩余数据称为原始样本;原始样本中还有一部分数据为店铺向量相同,但分类标贴却不同,即同一个点却属于不同的类别,对该类数据采取的策略是先从样本中剔除。剔除重复和互相矛盾的数据后,样本数据剩余97组。采取交叉留存验证,计算分类的准确率和召回率。
实验进行60次,每次随机选取10个作为验证数据,剩余数据作为训练数据;取60次试验中错误率为0时的 w={0.15,0.7,1.03,1.65},b=-1.7
这样用来分类的感知机模型为:
f(x)=sign(w·x+b)=sign(0.15x1+0.7x2+1.03x3 +1.65x4 -1.7)
使用爬虫程序自动抓取每个淘宝店铺,首先向量化,然后通过上述模型计算出该店铺的地域是否属于某个特定地区,即为1即属于,-1 则不属于。

Claims (1)

1.一种淘宝网店属于某地的自动化判别方法,其特征在于:包括以下步骤:
步骤一、对淘宝店铺页面标题中的地域信息进行标记取值,取值原则为:如果标题中明确含有“某地”则取1,明确标注为除“某地”之外的其它地区则取0,不含地域信息的情况取0.5;
步骤二、对店铺页面中的其他属地相关信息进行取值,取值原则为:对出现“某地”的次数进行求和,如果和小于10,则取值0;和大于10且小于30则取值0.5;和大于30则取1;
步骤三、对淘宝店铺的物流页面的所属地信息进行取值,取值原则为:明确标注含有“某地”则取1;明确标注不含“某地”则取0;标注为某地所在省的情况取值0.6;为空的情况取值0.5;
步骤四、对于淘宝店铺商品详情页面中的配送信息进行取值,取值原则为:如果配送信息的始发地明确标注含有“某地”则取1;明确标注不含“某地”则取0;始发地为空的情况则取0.5;
步骤五、根据步骤一至步骤四得到每一个淘宝店铺的4个特征,第i个淘宝店铺表示为一个4维特征向量di=(di1,di2,di3,di4),其中di1、di2、di3和di4分别为第i个淘宝店中每个特征的取值;
步骤六、将步骤五得到的特征向量代入以下符号函数模型:f(di)=sign(0.15 di1+0.7 di2+1.03 di3+1.65 di4 -1.7),通过计算该模型得出该店铺所在地是否属于“某地”,如f(di)=1则属于“某地”,f(di)=-1则不属于“某地”。
CN201610324376.7A 2016-05-17 2016-05-17 一种淘宝网店属于某地的自动化判别方法 Pending CN106021448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610324376.7A CN106021448A (zh) 2016-05-17 2016-05-17 一种淘宝网店属于某地的自动化判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610324376.7A CN106021448A (zh) 2016-05-17 2016-05-17 一种淘宝网店属于某地的自动化判别方法

Publications (1)

Publication Number Publication Date
CN106021448A true CN106021448A (zh) 2016-10-12

Family

ID=57098129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610324376.7A Pending CN106021448A (zh) 2016-05-17 2016-05-17 一种淘宝网店属于某地的自动化判别方法

Country Status (1)

Country Link
CN (1) CN106021448A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597972A (zh) * 2020-05-14 2020-08-28 南开大学 基于集成学习的妆容推荐方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597972A (zh) * 2020-05-14 2020-08-28 南开大学 基于集成学习的妆容推荐方法
CN111597972B (zh) * 2020-05-14 2022-08-12 南开大学 基于集成学习的妆容推荐方法

Similar Documents

Publication Publication Date Title
US8682881B1 (en) System and method for extracting structured data from classified websites
CN104346370A (zh) 图像搜索、获取图像文本信息的方法及装置
CN104166732B (zh) 一种基于全局评分信息的项目协同过滤推荐方法
CN107632984A (zh) 一种聚类数据表的展现方法、装置和系统
CN111080339B (zh) 基于场景的类目偏好数据生成方法及装置
CN106776609A (zh) 网站转载数量的统计方法及装置
CN109145110A (zh) 基于标签的信息分类处理、标签查询方法和装置
US20210065260A1 (en) Unsupervised embeddings disentanglement using a gan for merchant recommendations
CN107705259A (zh) 一种在移动终端预览、拍摄模式下的数据增强方法及装置
CN109213921A (zh) 一种商品信息的搜索方法及装置
CN107679103B (zh) 用于实体的属性分析方法及系统
CN108230040B (zh) 到店预测方法及装置
CN106844407A (zh) 基于数据集相关性的标签网络产生方法和系统
CN109284498A (zh) 自提柜推荐方法、自提柜推荐装置和电子装置
CN103793717A (zh) 判断图像主体显著性及训练其分类器的方法和系统
CN106846088A (zh) 一种快消品电商网站的商品推荐方法
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN111369294B (zh) 软件造价估算方法及装置
CN106997350A (zh) 一种数据处理的方法及装置
KR20150121945A (ko) 아이템 추천 시스템 및 아이템 추천 방법
CN110147504A (zh) 区域教育资源满足度评价方法及系统
CN106980639A (zh) 短文本数据聚合系统及方法
CN107038593B (zh) 一种基于防伪溯源系统的异常数据处理方法及系统
CN109815391A (zh) 基于大数据的新闻数据分析方法及装置、电子终端
CN106021448A (zh) 一种淘宝网店属于某地的自动化判别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication