CN102663025B - 一种违规在线商品检测方法 - Google Patents

一种违规在线商品检测方法 Download PDF

Info

Publication number
CN102663025B
CN102663025B CN201210078995.4A CN201210078995A CN102663025B CN 102663025 B CN102663025 B CN 102663025B CN 201210078995 A CN201210078995 A CN 201210078995A CN 102663025 B CN102663025 B CN 102663025B
Authority
CN
China
Prior art keywords
word
commodity
violation
page
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210078995.4A
Other languages
English (en)
Other versions
CN102663025A (zh
Inventor
张兰兰
田宁
谭磊
刘崟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Panshi Information Technology Co., Ltd.
Original Assignee
ZHEJIANG PANSHI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHEJIANG PANSHI INFORMATION TECHNOLOGY Co Ltd filed Critical ZHEJIANG PANSHI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201210078995.4A priority Critical patent/CN102663025B/zh
Publication of CN102663025A publication Critical patent/CN102663025A/zh
Application granted granted Critical
Publication of CN102663025B publication Critical patent/CN102663025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种违规在线商品检测方法,包括以下步骤:(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取;(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,找到包含网页中多个结构相似的信息块的最小深度的节点为临界节点,形成相关联信息点进行抽取的规则并建立模板,从爬虫获取的网页信息中提取商品属性信息数据;(3)建立语义字典,对提取的商品属性信息通过基于字符匹配的方法进行分词;(4)采用人工建立违规语义库,通过函数IllegalList将违规语义库中的词汇,和经过分词的商品属性信息相关内容词语字段进行识别判断,根据函数返回结果,判定违规在线商品的违规类别。本发明简化计算、及时性良好、适合多变的页面模式。

Description

一种违规在线商品检测方法
技术领域
本发明涉及计算机网络技术,尤其是一种违规在线商品检测方法。
背景技术
近年来电子商务飞速发展,网络购物颠覆了传统的购物方式。互联网用户可以通过网络获取更广大的购物空间,突破地域的限制,可以随时购买自己想要的东西,没有营业时间的限制;可以按照自己需要的类别进行挑选,比对不同的价格,实现真正的自主购物;虽然看不到实物,选择的过程中可以参照已购者的评价和专家的建议,不用和商家进行接触,避免了讨价还价的环节中可能出现的摩擦和精神消耗,而且支付也异常快捷,可以避免现实中钱财被盗的现象,足不出户便可买到自己所需要的商品,网络购物可谓是省时省力。
网上购物因为方便快捷逐渐成为大家喜爱的一种购物方式,但是面对网络这样一种虚拟的环境,不免也存在一些信息的可信度问题。比如说商品的真伪,商品的描述故意夸大其功能,商品信息的描述隐含了非法内容等,商家经营权限的自主扩大,这些都严重扰乱了电子商务的次序,对消费者的合法权益造成伤害,对电子工商部门的监管带来了挑战。
现存的违规在线商品的智能判断方法,主要是利用元搜索引擎抽取商品的信息,返回的信息来自多个搜索引擎,需要做排重和重新排序处理后作为自己的搜索结果返回,筛选工作复杂而且信息处理是在信息抓取完成后进行,不具有即时性,对商品信息的抽取时采用正则表达式匹配进行抽取,不适合多变的页面模式。
发明内容
为了克服已有违规在线商品检测方法的计算复杂、不具有即时性、不适合多变的页面模式的不足,本发明提供一种简化计算、具有即时性、适合多变的页面模式的违规在线商品检测方法。
本发明解决其技术问题所采用的技术方案是:
一种违规在线商品检测方法,所述检测方法包括以下步骤:
(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取:
(11)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度并设定阀值,过滤掉与主题相关度小于阀值的页面,保留与主题密切的链接放入队列,根据优先级从队列选取链接爬取,直到存放页面URL的队列为空为止;
(12)对网络爬虫抓取的HTML网页,利用HTMLCleaner解析其结构层次关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构;
(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,查找网页中与商品相关的信息在DOM树中的位置,并通过分析商品信息在DOM树中的位置,找到包含网页中多个结构相似的信息块的最小深度的节点作为临界节点,形成相关联信息点进行抽取的规则:
(a)临界节点只可能是块类型节点的子集,不可能是其他类型节点;
(b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型节点;
(c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的节点名称及相似的属性;
根据抽取的规则建立模板,从爬虫获取的网页信息中提取商品属性信息数据;
(3)建立语义字典:首先对产品标记和产品属性采用人工方法进行语义提取,形成语义字典的静态部分;其次对电子商务产品涉及的概念,结合产品分类体系进行人工语义提取与构建;最后在人工构造初级字典的基础上,对语义字典进行扩充;
对提取的商品属性信息进行分词采用基于字符匹配的方法,在匹配词和分字典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,此对象为词,则返回查找结果并储存,若不是一个词,则查找返回以所查询词开头位置最靠前的词;若不在字典,检查以给定字符串开头的其他词返回;
(4)采用人工建立违规语义库,通过函数IllegalList,将违规语义库中的词汇和经过分词的商品属性信息相关内容词语字段进行比对识别判断,根据函数返回的结果,判定违规在线商品的违规类别。
进一步,所述步骤(11)中,计算网页与商品信息主题相关度公式:
sim ( t i , t j ) = cos < t i , t j > = &Sigma; k = 1 n ( &omega; ik , &omega; jk ) ( &Sigma; k = 1 n &omega; ik 2 ) ( &Sigma; k = 1 n &omega; jk 2 )
其中,ti表示页面特征向量,tj表示主题中心向量,ωik表示词i在页面k中的权重。
所述步骤(3)中,对商品信息的语义分析,包括商品的全球贸易专利代码、全球位置编码、产品中文名称、产品英文名称、规格型号、商标中文名称、产品分类、产品目标市场、包装形态代码、包装尺寸、度量单位、原产地、产品保持期、中英文关键字、上市时间、下市时间、中英文产品短描述和网址。
再进一步,所述步骤(3)中,所述的人工构造初级语义字典的基础上对字典进行扩充,是对外部词典进行正规化,对解释进行分词,只保留名词、形容词和量词,然后获取基本概念词汇表中的词和其词性,查询外部词典的解释,若此词存在于解释中,且和词条的词性相同,两者之间并能够具有极高的相似度,则认为是同义词。
更进一步,所述步骤(3)中,在对商品信息进行分词后,基于词汇对商品的重要性分析,来对词汇进行特征提取,采用以下的TF*IDF公式:
w=w0×L_weight×pos_weight
其中,L_weight为特征词词条的长度;
pos_weight为特征词所在标签的权重;
w0为传统的TF*IDF公式, w 0 = t &CenterDot; f ( t , d &RightArrow; ) &times; log ( N / n ) &Sigma; t &Element; d &OverBar; [ t &CenterDot; f ( t , d &RightArrow; ) &times; log ( N / n ) ] 2
式中,w0为词t在文档中的权重,而为词t在文档d中的词频,N为训练文档数,n为训练文档集中出现t的文档数。
所述步骤(5)中,检测出的在线违规商品的违规类别包括产品是否合乎规范要求、商家是否有相应商品的经营权限、商品的宣传是否夸大和广告宣传页面是否含有违法信息。
本发明的技术构思为:本申请提出的方法是利用自己的网络爬虫进行页面信息自动抓取,对抓取的信息能进行更彻底的监管,更具有针对性;对商品信息的抽取是建立在对页面的DOM树结构分析的基础上,立足DOM树节点进行抽取;对信息的处理采用边爬虫边分析处理的方式,检测结果随商品信息同步更新,及时准确;当互联网用户提交查询申请后,可在查询界面展示评测结果。本发明旨在给互联网用户网上购物提供一定的安全参考信息,给工商部门对在线违规商品的监管提供一种方法。
本发明的有益效果主要表现在:(1)、采用自己的网络爬虫来抽取页面信息,可以爬取到任意一张页面的信息,相对于元搜索引擎返回的信息更为简洁,对信息的监管更加彻底;(2)、对数据信息的处理过程不是抓取完所有的数据存储起来后再处理,是而边爬取信息边进行分析处理,随时捕捉商品所在页面信息的变化,这样的分析结果更具有即时性;(3)在从页面信息中抽取商品相关属性信息的时候,不是利用正则表达式,而是根据DOM树结构形成抽取的模板,抽取的结果更加准确;(4)对商品的监测依据不仅依照电子商务领域的产品分类规范,而且添加违规商品信息中可能存在的违法和违禁词汇,人工建立违规语义库;(5)展示结果不仅展示商品是否合乎规范要求,而且展示商家是否有经营权限,商品的宣传是否夸大,广告宣传页面是否含有违法信息等,涵盖的检测面更广。
附图说明
图1是违规商品检测方法技术结构图。
图2是网络爬虫提取商品所在页面结构图。
图3是抽取商品信息并进行判断结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种违规在先商品检测方法,所述检测方法包括以下步骤:
(1)互联网用户提交查询申请,网络爬虫对商品所在页面的信息进行爬取。
(11)本发明中的网络爬虫是按事先确定的商品相关主题,对下载的页面内容及页面URL进行分析,计算页面与商品信息主题的相关率并设定阀值,预测下一步要处理的URL,确保在爬行过程中获取与主题关系较密切的页面,对不能找到目标页面的路径减少爬取,在此过程中要过滤掉与主题相关度小于阀值的页面,保留主题密切的链接放入队列,根据优先级从队列选取链接爬取,直到存放页面URL的队列为空为止。
计算网页与商品信息主题相似度公式:
其中,ti表示页面特征向量,tj表示主题中心向量,ωik表示词i在页面k中的权重。
(12)网络爬虫抓取与商品相关的Web页面信息后,利用HTMLCleaner解析网络爬虫抓取的HTML网页的结构层次关系,获取页面的DOM树结构,并删除style、font等形式标签,分析页面的结构。
(2)基于对DOM树结构的分析实现对在线商品属性相关信息的提取。
通过分析电子商务网站的DOM树结构,查找网页中与商品相关的信息在DOM树中的位置,并通过分析商品信息在DOM树中的位置,找到包含网页中多个结构相似的信息块的最小深度的节点——临界节点,形成相关联信息点进行抽取的规则:
(a)临界节点只可能是块类型节点的子集,不可能是其他类型节点
(b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型节点
(c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的节点名称及相似的属性。
根据抽取规则建立模板,从爬虫获取的网页信息中提取商品属性相关信息数据。
(3)建立语义字典,并对商品信息进行分词处理。
(3.1)建立语义字典。
建立语义字典是采用人工构造和自动生成相结合。首先对产品标记和产品属性采用人工方法进行语义提取,形成语义字典的静态部分;其次对电子商务产品涉及的概念,结合通用的产品分类体系进行人工语义提取与构建;最后在人工构造初级字典的基础上,对语义字典进行扩充。
对商品信息的语义分析,包括商品的全球贸易专利代码、全球位置编码、产品中文名称、产品英文名称、规格型号、商标中文名称、产品分类、产品目标市场、包装形态代码、包装尺寸、度量单位、原产地、产品保持期、关键字(中英文)、上市时间、下市时间、产品短描述(中英文)、网址等信息的分析和抽取,使得获得的商品信息更完整准确。
电子商务领域使用较多的商品分类规范:UNSPSC、国家分类代码标准、全球产品分类、全球贸易产品与服务代码标准、国家产品编码标准等。
所述的人工构造初级语义字典的基础上对字典进行扩充,是对外部词典进行正规化,对解释进行分词,只保留名词、形容词和量词,然后获取基本概念词汇表中的词和其词性,查询外部词典的解释,若此词存在于解释中,且和词条的词性相同,两者之间并能够具有极高的相似度,则认为是同义词。
(32)对提取的商品信息进行分词处理。
对提取的商品信息进行分词采用基于字符匹配的方法,在匹配词和分字典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,此对象为词,则返回查找结果并储存,若不是一个词,则查找返回以所查询词开头位置最靠前的词;若不在字典,检查以给定字符串开头的其他词返回。
在对商品信息进行分词后,基于词汇对商品的重要性分析,来对词汇进行特征提取,本发明采用改进的TF*IDF的方法来实现。由于词条越长,可能包含更多的信息,故改进的TF*IDF公式考虑到了词条的长度,同样词在文档中的位置也是决定其权重的重要因素,需要考虑词所在标签的权重。故有以下的TF*IDF公式:
w=w0×L_weight×pos_weight
其中,L_weight为特征词词条的长度;
pos_weight为特征词所在标签的权重;
w0为传统的TF*IDF公式, w 0 = t &CenterDot; f ( t , d &RightArrow; ) &times; log ( N / n ) &Sigma; t &Element; d &OverBar; [ t &CenterDot; f ( t , d &RightArrow; ) &times; log ( N / n ) ] 2
式中,w0为词t在文档
Figure BDA0000146089370000082
中的权重,而
Figure BDA0000146089370000083
为词t在文档d中的词频,N为训练文档数,n为训练文档集中出现t的文档数。
(4)建立违规语义库,对处理完的商品相关数据进行匹配检测。
本发明根据商品虚假信息、超范围经营、过度宣传这些不同的违规方式分别建立违规语义库,并进行违规描述。违规语义库包括了生产商、产地、报价、发布网站、网站注册情况、违法词汇、等监管部门、税务部门、外贸部门、互联网管理部门和互联网买家所关注的词汇。采用人工建立基础的违规语义库,并在训练中不断扩充完善。
违规商品信息内容的发现通过函数IllegalList实现,方法是通过建立链表存储商品信息的关键词,从链表取出的关键词和违规语义库词汇进行比对,若出现在违规语义库中则返回true,同时返回此违规语义库的违规类别分析;否则返回false,并取下一个特征词,直到链表为空。函数IllegalList的作用是将违规语义库中的词汇,和经过分词的商品信息相关内容词语字段进行识别判断,发现商家在经营资质、经营行为和宣传广告中的违规信息。
(5)展示检测结果
在用户查询后弹出页面显示检测结果。监测结果的内容包括商家名称、来源、经营资质、产品信息、违规内容展示、违规性质分析。消费者可以清晰的了解商品,对自己的购买行为做出判断。

Claims (6)

1.一种违规在线商品检测方法,其特征在于:所述检测方法包括以下步骤:
(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取:
(1.1)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度并设定阀值,过滤掉与主题相关度小于阀值的页面,保留主题密切的链接放入队列,根据优先级从队列选取链接爬取,直到存放页面URL的队列为空为止;
(1.2)利用HTMLCleaner解析网络爬虫抓取的HTML网页的结构层次关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构;
(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,查找网页中与商品相关的信息在DOM树中的位置,并通过分析商品信息在DOM树中的位置,找到包含网页中多个结构相似的信息块的最小深度的节点作为临界节点,形成相关联信息点进行抽取的规则:
(a)临界节点只可能是块类型节点的子集,不可能是其他类型节点;
(b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型节点;
(c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的节点名称及相似的属性;
根据抽取的规则建立模板,从爬虫获取的网页信息中提取商品属性信息数据;
(3)建立语义字典:首先对产品标记和产品属性采用人工方法进行语义提取,形成语义字典的静态部分;其次对电子商务产品涉及的概念,结合产品分类体系进行人工语义提取与构建;最后在人工构造初级字典的基础上,对语义字典进行扩充;
对提取的商品属性信息进行分词采用基于字符匹配的方法,在匹配词和分字典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,此对象为词,则返回查找结果并储存,若不是一个词,则查找返回以所查询词开头位置最靠前的词;若不在字典,检查以给定字符串开头的其他词返回;
(4)采用人工建立违规语义库,通过函数IllegalList将违规语义库中的词汇,和经过分词的商品属性信息相关内容词语字段进行判断,根据函数返回的结果,判定违规在线商品的违规类别。
2.如权利要求1所述的一种违规在线商品检测方法,其特征在于:所述步骤(1.1)中,计算网页与商品信息主题相关度公式:
sim ( t i , t j ) = cos < t i , t j > = &Sigma; k = 1 n ( &omega; ik , &omega; jk ) ( &Sigma; k = 1 n &omega; ik 2 ) ( &Sigma; k = 1 n &omega; jk 2 )
其中,ti表示页面特征向量,tj表示主题中心向量,ωik表示词i在页面j中的权重。
3.如权利要求1或2所述的一种违规在线商品检测方法,其特征在于:所述步骤(3)中,对商品信息的语义分析,包括商品的全球贸易专利代码、全球位置编码、产品中文名称、产品英文名称、规格型号、商标中文名称、产品分类、产品目标市场、包装形态代码、包装尺寸、度量单位、原产地、产品保持期、中英文关键字、上市时间、下市时间、中英文产品短描述和网址。
4.如权利要求3所述的一种违规在线商品检测方法,其特征在于:所述步骤(3)中,所述的人工构造初级语义字典的基础上对字典进行扩充,是对外部词典进行正规化,对解释进行分词,只保留名词、形容词和量词,然后获取基本概念词汇表中的词和其词性,查询外部词典的解释,若此词存在于解释中,且和词条的词性相同,两者之间并能够具有极高的相似度,则认为是同义词。
5.如权利要求1或2所述的一种违规在线商品检测方法,其特征在于:所述步骤(3)中,在对商品信息进行分词后,基于词汇对商品的重要性分析,来对词汇进行特征提取,采用以下的TF*IDF公式:
w=w0×L_weight×pos_weight
其中,L_weight为特征词词条的长度;
pos_weight为特征词所在标签的权重;
w0为传统的TF*UDF公式,
Figure FDA0000375840350000034
式中,w0为词t在文档
Figure FDA0000375840350000032
中的权重,而
Figure FDA0000375840350000033
为词t在文档d中的词频,N为训练文档数,n为训练文档集中出现t的文档数。
6.如权利要求1或2所述的一种违规在线商品检测方法,其特征在于:所述步骤(4)中,检测出的在线违规商品的违规类别包括产品是否合乎规范要求、商家是否有相应商品的经营权限、商品的宣传是否夸大和广告宣传页面是否含有违法信息。
CN201210078995.4A 2012-03-22 2012-03-22 一种违规在线商品检测方法 Active CN102663025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210078995.4A CN102663025B (zh) 2012-03-22 2012-03-22 一种违规在线商品检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210078995.4A CN102663025B (zh) 2012-03-22 2012-03-22 一种违规在线商品检测方法

Publications (2)

Publication Number Publication Date
CN102663025A CN102663025A (zh) 2012-09-12
CN102663025B true CN102663025B (zh) 2014-04-02

Family

ID=46772516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210078995.4A Active CN102663025B (zh) 2012-03-22 2012-03-22 一种违规在线商品检测方法

Country Status (1)

Country Link
CN (1) CN102663025B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902757B (zh) * 2012-09-25 2015-07-29 姚明东 一种电子商务字典自动生成方法
CN103902598B (zh) * 2012-12-27 2018-11-09 北京京东尚科信息技术有限公司 移动终端及商品信息查询方法
WO2016154839A1 (zh) * 2015-03-29 2016-10-06 王志强 查询商标时显示相关含义的方法以及信息提醒系统
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置
CN105095463B (zh) * 2015-07-30 2018-09-11 北京奇虎科技有限公司 物料链接地址的巡查方法、装置及系统
CN105069107B (zh) * 2015-08-07 2019-03-05 北京百度网讯科技有限公司 监控网站的方法和装置
CN107341160B (zh) * 2016-05-03 2020-09-01 北京京东尚科信息技术有限公司 一种拦截爬虫的方法及装置
CN107545505B (zh) * 2016-06-24 2020-09-29 深圳壹账通智能科技有限公司 保险理财产品信息的识别方法及系统
CN108960952A (zh) * 2017-05-24 2018-12-07 阿里巴巴集团控股有限公司 一种违禁信息的检测方法及装置
CN107886240B (zh) * 2017-11-09 2021-09-28 上海海事大学 一种基于规则的跨境电商商品质量风险识别方法
CN108829680A (zh) * 2018-06-22 2018-11-16 北京百悟科技有限公司 一种违规宣传检测方法和装置、计算机可读存储介质
CN109359299A (zh) * 2018-09-28 2019-02-19 中国电子科技集团公司信息科学研究院 一种基于商品数据的物联网设备能力本体自构建方法
CN109471923A (zh) * 2018-10-15 2019-03-15 电子科技大学 一种基于同义词扩充的客服聊天机器人本体半自动构建的方法
CN109934596A (zh) * 2019-01-23 2019-06-25 成都数之联科技有限公司 一种网络餐饮商家超范围经营判断方法
CN112085553A (zh) * 2019-06-12 2020-12-15 阿里巴巴集团控股有限公司 一种特定商品检测方法及装置
CN112396484A (zh) * 2019-08-16 2021-02-23 阿里巴巴集团控股有限公司 商品的验证方法及装置、存储介质和处理器
CN112528638B (zh) * 2019-08-29 2024-07-16 北京沃东天骏信息技术有限公司 异常对象识别方法及装置、电子设备、存储介质
CN110968604A (zh) * 2019-12-05 2020-04-07 长春嘉诚信息技术股份有限公司 一种自动检索互联网经营企业违规经营的方法
CN111061975B (zh) * 2019-12-13 2021-09-07 腾讯科技(深圳)有限公司 一种页面中无关内容的处理方法、装置
CN112990938B (zh) * 2019-12-17 2024-08-06 阿里巴巴集团控股有限公司 检测对象的方法、装置和系统
CN111506791A (zh) * 2020-04-10 2020-08-07 安徽博约信息科技股份有限公司 一种属地网站医药内容监测方法
CN113744014A (zh) * 2020-09-29 2021-12-03 北京沃东天骏信息技术有限公司 物品信息监控方法、装置、设备及计算机可读存储介质
CN114116988B (zh) * 2022-01-27 2022-05-06 国家邮政局邮政业安全中心 寄递物品识别方法及装置
CN116051132B (zh) * 2023-04-03 2023-06-30 之江实验室 一种违规商品识别方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1255680A (zh) * 1998-12-01 2000-06-07 韩国电子通信研究院 联机商店产品信息自动检索方法和系统
CN101782998A (zh) * 2009-01-20 2010-07-21 复旦大学 一种违规在线产品信息的智能判断方法与系统
CN101847161A (zh) * 2010-06-02 2010-09-29 苏州搜图网络技术有限公司 搜索网页的方法和建立数据库的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030071696A (ko) * 2003-08-11 2003-09-06 한동훈 상품 정보 제공 서비스 방법
US8055548B2 (en) * 2006-06-23 2011-11-08 Stb Enterprises, Llc System for collaborative internet competitive sales analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1255680A (zh) * 1998-12-01 2000-06-07 韩国电子通信研究院 联机商店产品信息自动检索方法和系统
CN101782998A (zh) * 2009-01-20 2010-07-21 复旦大学 一种违规在线产品信息的智能判断方法与系统
CN101847161A (zh) * 2010-06-02 2010-09-29 苏州搜图网络技术有限公司 搜索网页的方法和建立数据库的方法

Also Published As

Publication number Publication date
CN102663025A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102663025B (zh) 一种违规在线商品检测方法
CN103544436B (zh) 一种钓鱼网站鉴别系统和方法
CN104462156B (zh) 一种基于用户行为的特征提取、个性化推荐方法和系统
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
CN108965245A (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN107886240B (zh) 一种基于规则的跨境电商商品质量风险识别方法
CN101436186A (zh) 一种提供相关搜索的方法及系统
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN105824822A (zh) 一种由钓鱼网页聚类定位目标网页的方法
US11763376B2 (en) System, manufacture, and method for efficiently identifying and segmenting product webpages on an eCommerce website
KR20090000691A (ko) 컨텍스트 광고 정보를 노출하는 광고 방법 및 시스템
EP3289487B1 (en) Computer-implemented methods of website analysis
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN106530017A (zh) 一种网店优惠券自动获取和购物组合推荐的方法
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN101937432A (zh) 一种按照供需信息进行两方撮合的系统与方法
CN110781497B (zh) 网页链接的检测方法及存储介质
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
Lim et al. Rule-based personalized comparison shopping including delivery cost
KR20100046421A (ko) 상품 선호도를 평가하는 방법 및 쇼핑몰 서버
CN105183828A (zh) 一种商品链接导航系统及其导航方法
CN114880540A (zh) 一种基于智慧金融文本评论的智能提醒方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: ZHEJIANG PANSHI INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER NAME: ZHEJIANG PANSHI INFORMATION TECHNOLOGY LTD.

CP01 Change in the name or title of a patent holder

Address after: Hangzhou City, Zhejiang province 310011 Gongshu District Xiangyuan Road No. 45 Building Rock

Patentee after: Zhejiang Panshi Information Technology Co., Ltd.

Address before: Hangzhou City, Zhejiang province 310011 Gongshu District Xiangyuan Road No. 45 Building Rock

Patentee before: Zhejiang Panshi Information Technology Co., Ltd.