CN113420198A - 一种针对网络商品的专利侵权线索网络爬虫方法 - Google Patents
一种针对网络商品的专利侵权线索网络爬虫方法 Download PDFInfo
- Publication number
- CN113420198A CN113420198A CN202110582488.3A CN202110582488A CN113420198A CN 113420198 A CN113420198 A CN 113420198A CN 202110582488 A CN202110582488 A CN 202110582488A CN 113420198 A CN113420198 A CN 113420198A
- Authority
- CN
- China
- Prior art keywords
- similarity
- captured
- calculating
- picture
- queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000008569 process Effects 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000003708 edge detection Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 229910045601 alloy Inorganic materials 0.000 description 10
- 239000000956 alloy Substances 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 3
- 241001122767 Theaceae Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 229910001234 light alloy Inorganic materials 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对网络商品的专利侵权线索网络爬虫方法,包括:构建专利侵权线索模板,根据高风险侵权产品、用户投诉的相关信息或相关专家经验自动挑选关键字、图片、技术特征,将这些关键字、图片放入待抓取队列;从待抓取队列中取出待抓取关键字、图片,放入搜索引擎中,并将搜索到对应的URL网页下载下来,存储进已下载URL网页库中;此外,将这些网页放进已抓取队列;分析已抓取队列中的URL网页,分析已抓取URL网页中包含的其他URL网页,并且将这些URL放入待抓取URL队列,从而进入第二次抓取,以此循环下去;分析最终抓取URL中的下载数据,获得相关产品的信息,最后推送到页面上。本发明可有效提高网络专利侵权假冒线索分析判断的精准度。
Description
技术领域
本发明属于大数据及人工智能算法技术应用领域,具体涉及知识产权领域的一种针对网络商品的专利侵权线索网络爬虫方法。
背景技术
随着网络上商品的爆炸式增长,我国专利申请量呈逐年攀升之势,以12330举报投诉数据库、现有专利执法案件数据库、侵权假冒暗访信息库、已有的侵权假冒人员及企业信息库、电子商务领域专利侵权判定咨询数据库等相继建立起来了,其主要内容包括:
(1)利用大数据技术,在现有侵权数据基础上,加强专利重复侵权的监测
项目通过整合12330举报投诉数据、现有专利执法案件数据、侵权假冒暗访信息、已有的侵权假冒人员及企业信息、电子商务领域专利侵权判定咨询数据等,获取被侵权企业的名称、产品名称、专利、产品功能、销售价格等;获取侵权人(销售者、生产者)企业的名称、产品名称、专利、产品功能(产品亮点、产品信息)、销售价格等;对侵权企业实施监控,如果发现这些企业产品销量一段时间突然增加,价格严重背离市场价格(如类似商品的销售平均价)。根据以上数据信息初步确定监控对象,为可疑侵权人的发现提供方向。
(2)利用大数据技术,梳理高危行业和产品,加强专利侵权假冒的预警
高风险行业或产品专利被侵权活动比较广泛,一些企业一旦出现受市场欢迎的专利技术,生产产品投放市场,很快同行之间产品仿冒和技术抄袭的现象不断出现。通过对以往专利执法实践分析可以锁定一些专利侵权假冒行为频繁发生的高风险行业和产品,针对这些产品和行业建立前期监控,形成快速维权的纠纷处理机制,从源头上解决侵权违法问题。
对以往专利侵权假冒数据进行分析,建立以产品特征为标识的追踪发现机制,根据以往被侵权企业的产品的名称、功能提取出相应的技术特征,对于网络上生产、销售类似功能产品的企业进行追踪和监控。
对以往专利侵权假冒数据进行分析,建立以行业为标识的追踪发现机制,对于高风险行业出现的热点专利产品,获取产品名称、产品功能,提取出相应的技术特征,对于网络上生产、销售类似功能产品的企业进行追踪和监控。
(3)利用大数据技术,建立区域优势企业和产品的专利保护机制,扩展专利执法案源
针对本地重要产业、高新技术企业的专利、高新技术产品建立专利保护机制,首先构建重点专利技术和专利产品的信息库,凝练出相应的技术效果、功能等,通过大数据查询目前本地市场上实体业的产品,或者网络平台上的相似产品,与专利产品或技术进行功能、技术特征等比对,发现相似的,作为可疑侵权人将信息发送给当地执法部门,扩展专利侵权、假冒专利的案源,加强对重点专利权利人的保护。
上述庞大的专利申请量堆积形成了庞大的数据量,使得专利查询难的问题愈发突显出来。特别是针对专利不同类别的专利(发明、实用新型、外观)检索,长期以来都是困扰申请人和代理人的一大难题,一直没有一款既能解决检索效率,又能解决检索精度的有效工具,如能将其产业化具有非常大的创新性、广阔的应用前景和重要的现实意义。
发明内容
针对上述现有技术的不足,本发明根据发明、实用新型、外观设计3种专利侵权假冒的不同特点,建立了一种具有分类型判断策略的针对网络商品的专利侵权线索网络爬虫方法,有效提高网络商品中专利侵权假冒线索分析判断的精准度,提高执法效率。
本发明的技术方案为:
一种针对网络商品的专利侵权线索网络爬虫方法,包括以下步骤:
步骤1,构建专利侵权线索模板:以涉案专利的名称作为关键词,提取技术特征,构建线索模板;
步骤2,根据高风险侵权产品、高风险侵权企业生产的产品、用户投诉的相关信息或相关专家经验自动挑选关键字、图片、技术特征,将这些关键字、图片、技术特征放入待抓取队列;从待抓取队列中取出待抓取关键字、图片、技术特征,放入搜索引擎中,并将搜索到对应的URL网页下载下来,存储进已下载URL网页库中;此外,将这些网页放进已抓取队列;
步骤3,分析已抓取队列中的URL网页,分析已抓取URL网页中包含的其他URL网页,并且将这些URL放入待抓取URL队列,从而进入第二次抓取,以此循环下去;
步骤4,分析最终抓取URL中的下载数据,获得相关产品的标题、价格、产品介绍、规格参数、评价、所涉及到的专利、产品功能、产品配件、技术方案信息,最后推送到页面上。
进一步,所述步骤2中,将待抓取队列中取出待关键字,放入搜索引擎中进行搜索的具体过程为:
(1)抓取页面
步骤1.1:按主题数据库的专利名去搜索引擎搜索,抓取页面,统计网页总数为M;
步骤1.2:提取网页中的关键词,统计出第一个页面专利名关键词出现的次数为N;
步骤1.3:计算第一个页面中第一个词在该页面中出现的次数为n,以及在其他页面出现的次数为m,根据tf-idf算出值:为n/N/(m/M);
步骤1.4:重复步骤1.3,计算出一个网页所有词的tf-idf值;
步骤1.5:重复步骤1.4,计算出所有网页每个词的tf-idf值;
(2)用户查询
步骤2.1,提取主题数据库中专利名关键词;
步骤2.2,计算每个词的tf-idf值;
(3)相似度计算
用余弦相似度算法来计算用户查询和每个网页之间的相似度;
(4)举例说明
假如为句子A和B,其内容分别是:句子A:超轻太阳眼镜,采用最新、最轻合金制成眼镜架;句子B:超轻太阳眼镜,眼镜架采取最先进,最轻型合金制成。
进一步,句子A和句子B的相似度计算如下:
步骤4.1、划分分词
句子A:超轻/太阳眼镜,采用/最新、最轻/合金/制成/眼镜架;
句子B:超轻/太阳眼镜,眼镜架/采用/最先进,最轻型/合金/制成;
计算词频,即tf-idf值
句子A:太阳眼镜1,采用1,最2,轻2,合金1,制成1,新1,先进0;
句子B:太阳眼镜1,采用1,最2,轻2,合金1,制成1,新0,先进1;
步骤4.2、组成词频向量
句子A:{1,1,2,2,1,1,1,0}
句子B:{1,1,2,2,1,1,0,1}
步骤4.3、相似度计算
若计算出A和B的余弦夹角值,则说明句子A和句子B的相似度为该余弦夹角的值。
进一步,所述步骤3中将待抓取队列中取出图片,放入搜索引擎中进行搜索的具体过程为:
a、待检测专利的提取:提取所要寻找的专利原图images作为标准比对库,假如为眼镜盒、眼镜、茶杯、衣服产品;
b、图片预处理:对图片进行目标显著性检测,提取目标区域,通过图像显著性目标区域提取截取所要比对的目标区域,保证图片上的有效信息只有目标区域,减少了图片比对时候的计算时间,同时也增加计算的准确度;图片尺度统一化,设定图片的像素尺度大小,将处理好的图片建立特征库,其中包括待检测物体的所有显著性区域检测处理,以及尺度统一处理的结果图;
c、待检测数据包的抓取包括:图片、超链接,按前述同样的方法对抓取的图片进行目标区域提取和尺度统一处理;
d、相似度的计算:计算经处理后的图片image1与步骤B所建立的图片库中的图片images的相似度S;
e、相似性的判断:设定比较阈阈值,当相似度S大于指定阈值时,则表明该图片所在的数据包是所要抓取的数据,根据数据包里的超链接抓取相关数据内容,更新数据包信息并保存。
进一步,所述计算经处理后的图片image1与步骤B所建立的图片库中的图片images的相似度S的具体过程为:
统计图片的颜色直方图;
计算标准库中的每一张图片images和待检测的图片image1的颜色直方图距离;
计算标准库中的每一张图片image和待检测图片image1的相似度Si;
计算相似度Si的平均值,得到最终的图片的颜色相似度Scolor;
计算图片的纹理特征,计算图片的hog(方向梯度直方图)来表示;
计算hog的距离得到纹理相似度Sj;
计算Sj的平均值,得到最终的图片的纹理相似度Stexture;
计算相似度,计算公式S=α*Scolor+β*Stexture,其中α、β表示权重,其值视具体情况而定。
进一步,还包括:对于只是画出来的设计图片的检测过程如下:
对原图像和抓取的数据包内图像进行边缘检测处理得到纹理图;
计算图像的Harris角点特征以及LBP直方图;
计算原图像与待检测图像的Harris角点特征的相似度SH和LBP直方图的距离SL;
计算图像相似度S=α*SH+β*SL,其中α、β表示权重,SL为Harris角点纹理相似度;其值视具体情况而定;根据阈值判断图片所在数据包是否为所要抓取的数据包。
进一步,所述步骤2中将待抓取队列中取出待抓取的技术特征,放入搜索引擎中进行搜索的具体过程为:
本发明对技术特征部分进行特征抽取,将描述技术特征的句子抽取为若干个技术特征三元组的形式T(N1,V,N2),其中N1、N2是句子中的技术元素,而V是连接N1和N2之间关系词,具体抽取步骤如下:
步骤H,依存句法分析,使用LTP句法分析器对预处理后的句子进行依存分析,结果以依存树形式表示;具体过程为:
步骤I,剪枝,根据词性标注删除依存树叶子节点中的停用词、代词、形容词、标点,只保留其中代表技术要素的词;
步骤J,并列关系处理,如果依存树中某节点存在并列依存关系,将属于并列关系的子树移动到该节点的父节点下;如果不存在,则进行下一步;
步骤K,最短依存路径提取,以树中所有关系动词(如果关系动词不存在,则使用根节点)为父节点,如果存在左右子树,则提取左右子树中叶子结点两两之间的最短依存路径;
步骤L,过滤,由于存在一棵树中包含多棵子树的情况,不同元素间的最短依存路径存在重叠和交叉,导致生成不属于两个元素关系的依存路径,利用启发式规则对步骤K中的最短依存路径进行筛选;
步骤M,特征抽取,分别从最短依存路径两侧的叶子节点向上遍历,如果父节点也是技术词,且两者属于定中关系ATT、状中结构VOB或者左右附加关系LAD/RAD之一,则父子节点合并;如果合并,继续遍历;否则,停止遍历;此时,根节点(关系动词)即为V,叶子节点即为N1、N2;
由于特征包含两个层次,第一层为特征中的谓语中心词V,第二层为特征中谓语中心词的有效支配成分N,在计算其相似度时对不同层次的计算赋予不同的权重,对于三元组T1(N1,V1,N2)和T2(N3,V3,N4)之间的相似度计算方法如公式1所示:
Sim(T1,T2)=β·SimDep(P1,P2)+(1-β)·Sim(V1,V2) (公式1)
其中,β是可调权重系数,满足0.5<β≤1。Sim(V1,V2)表示关系词V1和V2的相似度,SimDep(P1,P2)表示实体对P1={N1,N2}和P2={N3,N4}的相似度,计算方法如公式2所示:
式中P1×P2表示P1,P2中元素的笛卡尔积,max()表示选择相似度最大值,并将得出最大相似度值的两个元素对应起来,remain()表示实体对中去除已经建立对应关系的元素后剩余的元素,Sim()表示计算词汇间的相似度,计算方法如公式3:
式中w1,w2为变量;CosSim()表示计算使用word2vec向量化后的词向量之间的余弦相似度,Simhownet是基于HowNet的词汇语义相似度,当词汇属于同义词或者直接上下位词时,此方法计算得到的相似度值为1,而如果HowNet中不存在该词汇时,相似度值为0。
进一步,所述步骤4中,获得相关产品的标题、价格、产品介绍、规格参数、评价、所涉及到的专利、产品功能、产品配件、技术方案信息的具体过程为:
步骤5.1,给出待爬取的产品的标题、价格、产品介绍、规格参数、评价、所涉及到的专利、产品功能、产品配件、技术方案信息URL;
步骤4.2,系统收到爬取URL的请求;
步骤4.3,根据请求返回HTML文档;
步骤4.4,系统接受HTML文档;
步骤4.5,筛选HTML文档,从而得到感兴趣的所有数据;
步骤4.6,将感兴趣的信息存入相应数据库,分析网页中的超链接,检查这些链接是否全部访问过,将未访问的URL加入未访问队列,将访问过的加入已访问队列,循环爬取,直至达到计数条件或队列为空;
步骤4.7,返回解析结果。
本发明具有以下技术效果:本发明针对监控对象,进行网络数据抓取,通过大数据、人工智能技术等先进技术和手段开展与可能被侵权的产品功能介绍进行比对,或与专利数据库进行比对,挖掘可疑侵权假冒人,实现从海量商品中识别出疑似侵权假冒商品,提高发现侵权假冒的效率,减少对企业的取证打扰,提高不同地域的执法效率。具体实现路径包括:专利侵权假冒线索来源即监控对象的选择,线索数据的获取,线索数据的分析与线索的推送。通过建立相应的分类型判断策略,可有效提高网络专利侵权假冒线索分析判断的精准度,大大提高了执法效率。
附图说明
图1为本发明的实施流程图;
图2为本发明的外观专利图示例;
图3为本发明的图片预处理效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,本发明的一种针对商品的专利侵权线索网络爬虫方法,包括以下步骤:
一、构建专利侵权线索模板:从涉案专利的名称、摘要、权利要求书、说明书及其附图中提取关键字、图片、技术特征,将这些关键字、图片、技术特征放入待抓取队列;
针对发明专利:由于发明专利的技术主题包括产品和方法两大类别,两者在技术特征的认定方面有明显差别,所以进行分类判断。
(一)产品类
(1)以涉案专利的名称等作为关键词,在搜索引擎中检索相关内容;
(2)提取技术特征,明确涉案专利所表达的技术方案,该技术特征应以“A+B+C+D”的形式体现;
(3)将网络环境中搜索到的相关产品进行分解,该分解过程通过对产品说明书等内容进行关键词抓取来实现,形成相应技术方案,抓取结果也应当以“A+B+C+D”的形式体现;
(4)将涉案专利技术方案和涉嫌侵权产品技术方案进行技术特征的逐一比对,该比对以文字对比为基础(严格依照侵权判定原则进行),人工比对为辅助;
(5)将比对结果以相似度为标准进行排序,并形成发送各地方局的线索模板。
(二)方法工艺类
(1)以涉案专利的名称等作为关键词,在搜索引擎中检索相关内容(包括相似工艺及由该工艺产生的直接产品);
(2)若检索到相似工艺,则需将涉案专利所体现的工艺进行分解,该分解应当按逻辑顺序进行(工艺步骤不得随意调换),将分解后的工艺进行比较,得出是否落入保护范围的判定结论;
(3)若检索到由该工艺直接产生的产品,则按照专利侵权行为(2)、(3)、(4)所示流程进行;
(4)将比对结果以相似度为标准进行排序,并形成发送各地方局的线索模板。
针对实用新型专利:
与发明专利相比,实用新型专利仅指产品,其专利侵权行为处理流程基本与产品类发明专利侵权行为处理流程相似,但在明确涉案专利技术方案环节,说明书附图应当作为体现该技术方案的关键内容之一,同时也是与涉嫌侵权产品进行比对的重要内容之一。
针对外观设计专利:
1、以涉案专利的名称等作为关键词,在搜索引擎中检索相关内容;
2、以涉案专利各视图为基础(以主视图为主),结合简要说明,确定涉案专利保护范围;
3、对检索到的相关图片进行分类(按六面视图标准进行),并与涉案专利相应的视图进行对比,得出是否落入专利保护范围的判定结论;
4、将比对结果以相似度为标准进行排序,并形成发送各地方局的线索模板。
二、根据高风险侵权产品、高风险侵权企业生产的产品、用户投诉的相关信息或相关专家经验自动挑选关键字、图片、商品特征,将这些关键字、图片、商品特征放入待抓取队列;
三、从待抓取队列中取出待抓取关键字、图片、商品特征,放入搜索引擎中,并将搜索到对应的URL网页下载下来,存储进已下载URL网页库中;此外,将这些网页放进已抓取队列;其中将待抓取队列中取出待抓取关键字,放入搜索引擎中进行搜索的具体过程为:
(1)抓取页面
步骤1.1:按主题数据库的专利名去搜索引擎搜索,抓取页面,统计网页总数,假设网页总数为M;
步骤1.2:提取网页中的关键词,统计出第一个页面关键词出现的次数为N;
步骤1.3:计算第一个页面中第一个词在该页面中出现的次数为n,以及在其他页面出现的次数为m,根据tf-idf算出值:为n/N/(m/M);
步骤1.4:重复步骤1.3,计算出一个网页所有词的tf-idf值;
步骤1.5:重复步骤1.4,计算出所有网页每个词的tf-idf值;
(2)用户查询
步骤2.1,提取主题数据库中相关的关键词;
步骤2.2,计算每个词的tf-idf值;
(3)相似度计算
用余弦相似度算法来计算用户查询和每个网页之间的相似度;
(4)举例说明
如有句子A和B,其内容分别是:句子A:超轻太阳眼镜,采用最新、最轻合金制成眼镜架;句子B:超轻太阳眼镜,眼镜架采取最先进,最轻型合金制成;
上述句子A和句子B的相似度计算如下:
步骤4.1、分词
句子A:超轻/太阳眼镜,采用/最新、最轻/合金/制成/眼镜架;
句子B:超轻/太阳眼镜,眼镜架/采用/最先进,最轻型/合金/制成;
计算词频,即tf-idf值
句子A:太阳眼镜1,采用1,最2,轻2,合金1,制成1,新1,先进0;
句子B:太阳眼镜1,采用1,最2,轻2,合金1,制成1,新0,先进1;
步骤4.2、词频向量
句子A:{1,1,2,2,1,1,1,0}
句子B:{1,1,2,2,1,1,0,1}
步骤4.3、相似度计算
若计算出A和B的余弦夹角值,则说明句子A和句子B的相似度为该余弦夹角的值。
步骤2中将待抓取队列中取出图片,放入搜索引擎中进行搜索的具体过程为:
a、待检测专利的提取:提取所要寻找的专利原图images作为标准比对库,假如为眼镜盒、眼镜、茶杯、衣服产品;
b、图片预处理:对图片进行目标显著性检测,提取目标区域,如图2所示的外观专利图处理效果如图3所示。通过图像显著性目标区域提取截取所要比对的目标区域,保证图片上的有效信息只有目标区域,减少了图片比对时候的计算时间,同时也增加计算的准确度;图片尺度统一化,设定图片的像素尺度大小(多张图片大小统一),将处理好的图片建立特征库,其中包括待检测物体的所有显著性区域检测处理,以及尺度统一处理的结果图;
c、待检测数据包的抓取包括:图片、超链接,按前述同样的方法对抓取的图片进行目标区域提取和尺度统一处理;
d、相似度的计算:计算经处理后的图片image1与步骤b所建立的图片库中的图片images的相似度S的具体过程为:
统计图片的颜色直方图;
计算标准库中的每一张图片images和待检测的图片image1的颜色直方图距离;
计算标准库中的每一张图片image和待检测图片image1的相似度Si;
计算相似度Si的平均值,得到最终的图片的颜色相似度Scolor;
计算图片的纹理特征,计算图片的hog(方向梯度直方图)来表示;
计算hog的距离得到纹理相似度Sj;
计算Sj的平均值,得到最终的图片的纹理相似度Stexture;
计算相似度,计算公式S=α*Scolor+β*Stexture,其中α、β表示权重,其值视具体情况而定。
E、相似性的判断:设定比较阈阈值,当相似度S大于指定阈值时,则表明该图片所在的数据包是所要抓取的数据,根据数据包里的超链接抓取相关数据内容,更新数据包信息(添加相似度一项以备后期处理使用)并保存。
上述步骤还包括:对于只是画出来的设计图片的检测过程如下:
对原图像和抓取的数据包内图像进行边缘检测处理得到纹理图;
计算图像的Harris角点特征以及LBP直方图;
计算原图像与待检测图像的Harris角点特征的相似度SH和LBP直方图的距离SL;
计算图像相似度S=α*SH+β*SL,其中α、β表示权重,SL为Harris角点纹理相似度;其值视具体情况而定;根据阈值判断图片所在数据包是否为所要抓取的数据包。
步骤2中将待抓取队列中取出待抓取的技术特征,放入搜索引擎中进行搜索的具体过程为:
为了既能保留必要的句法信息和语义信息,又能减少句子中的噪声干扰。本发明对技术特征进行特征抽取,将描述技术特征的句子抽取为若干个技术特征三元组的形式T(N1,V,N2),其中N1、N2是句子中的技术元素,而V是连接N1和N2之间关系词,这种简单的结构可以很好地表示技术元素之间的关系;具体抽取步骤如下:
步骤H,依存句法分析,使用LTP句法分析器对预处理后的句子进行依存分析,结果以依存树形式表示;具体过程为:
步骤I,剪枝,根据词性标注删除依存树叶子节点中的停用词、代词、形容词、标点,只保留其中代表技术要素的词;
步骤J,并列关系处理,如果依存树中某节点存在并列依存关系(COO),将属于并列关系的子树移动到该节点的父节点下;如果不存在,则进行下一步;
步骤K,最短依存路径提取,以树中所有关系动词(如果关系动词不存在,则使用根节点)为父节点,如果存在左右子树,则提取左右子树中叶子结点两两之间的最短依存路径;
步骤L,过滤,由于存在一棵树中包含多棵子树的情况,不同元素间的最短依存路径存在重叠和交叉,导致生成不属于两个元素关系的依存路径,利用启发式规则对步骤K中的最短依存路径进行筛选;
步骤M,特征抽取,分别从最短依存路径两侧的叶子节点向上遍历,如果父节点也是技术词,且两者属于定中关系ATT、状中结构VOB或者左右附加关系LAD/RAD之一,则父子节点合并;如果合并,继续遍历;否则,停止遍历;此时,根节点(关系动词)即为V,叶子节点即为N1、N2。
由于特征包含两个层次,第一层为特征中的谓语中心词V,第二层为特征中谓语中心词的有效支配成分N,在计算其相似度时对不同层次的计算赋予不同的权重。对于三元组T1(N1,V1,N2)和T2(N3,V3,N4)之间的相似度计算方法如公式1所示。
Sim(T1,T2)=β·SimDep(P1,P2)+(1-β)·Sim(V1,V2) (公式1)
其中,β是可调权重系数,满足0.5<β≤1。Sim(V1,V2)表示关系词V1和V2的相似度,SimDep(P1,P2)表示实体对P1={N1,N2}和P2={N3,N4}的相似度,计算方法如公式2所示。
式中P1×P2表示P1,P2中元素的笛卡尔积,max()表示选择相似度最大值,并将得出最大相似度值的两个元素对应起来,remain()表示实体对中去除已经建立对应关系的元素后剩余的元素,Sim()表示计算词汇间的相似度,计算方法如公式3。
式中w1,w2为变量;CosSim()表示计算使用word2vec向量化后的词向量之间的余弦相似度,Simhownet是基于HowNet的词汇语义相似度,当词汇属于同义词或者直接上下位词时,此方法计算得到的相似度值为1,而如果HowNet中不存在该词汇时,相似度值为0。
四、分析已抓取队列中的URL网页,分析已抓取URL网页中包含的其他URL网页,并且将这些URL放入待抓取URL队列,从而进入第二次抓取,以此循环下去;
五、分析最终抓取URL中的下载数据,获得相关产品的标题、价格、产品介绍、规格参数、评价、所涉及到的专利、产品功能、产品配件、技术方案信息,最后推送到页面上。
上述步骤五中,获得相关产品的标题、价格、产品介绍、规格参数、评价、所涉及到的专利、产品功能、产品配件、技术方案信息的具体过程为:
步骤5.1,给出待爬取的产品信息URL;
步骤5.2,系统收到爬取URL的请求;
步骤5.3,根据请求返回HTML文档;
步骤5.4,系统接受HTML文档;
步骤5.5,筛选HTML文档,从而得到感兴趣的所有数据;
步骤5.6,将感兴趣的信息存入相应数据库,分析网页中的超链接,检查这些链接是否全部访问过,将未访问的URL加入未访问队列,将访问过的加入已访问队列,循环爬取,直至达到计数条件或队列为空;
步骤5.7,返回解析结果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (7)
1.一种针对网络商品的专利侵权线索网络爬虫方法,其特征在于,包括以下步骤:
步骤1,构建专利侵权线索模板:从涉案专利的名称、摘要、权利要求书、说明书及其附图中提取关键字、图片、技术特征,将这些关键字、图片、技术特征放入待抓取队列;
步骤2,根据高风险侵权产品、高风险侵权企业生产的产品、用户投诉的相关信息或相关专家经验自动挑选关键字、图片、技术特征,将这些关键字、图片、技术特征放入待抓取队列;从待抓取队列中取出待抓取关键字、图片、技术特征,放入搜索引擎中,并将搜索到对应的URL网页下载下来,存储进已下载URL网页库中;此外,将这些网页放进已抓取队列;
步骤3,分析已抓取队列中的URL网页,分析已抓取URL网页中包含的其他URL网页,并且将这些URL放入待抓取URL队列,从而进入第二次抓取,以此循环下去;
步骤4,分析最终抓取URL中的下载数据,获得相关产品的标题、价格、产品介绍、规格参数、评价、所涉及到的专利、产品功能、产品配件、技术方案信息,最后推送到页面上。
2.根据权利要求1所述的一种针对网络商品的专利侵权线索网络爬虫方法,其特征在于,所述步骤2中,将待抓取队列中取出关键字,放入搜索引擎中进行搜索的具体过程为:
(1)抓取页面
步骤1.1:按主题数据库的专利名去搜索引擎搜索,抓取页面,统计网页总数为M;
步骤1.2:提取网页中的关键词,统计出第一个页面专利名关键词出现的次数为N;
步骤1.3:计算第一个页面中第一个词在该页面中出现的次数为n,以及在其他页面出现的次数为m,根据tf-idf算出值:为n/N/(m/M);
步骤1.4:重复步骤1.3,计算出一个网页所有词的tf-idf值;
步骤1.5:重复步骤1.4,计算出所有网页每个词的tf-idf值;
(2)用户查询
步骤2.1,提取主题数据库中专利名关键词;
步骤2.2,计算每个词的tf-idf值;
(3)相似度计算
用余弦相似度算法来计算用户查询和每个抓取网页之间的相似度。
3.根据权利要求1所述的一种针对网络商品的专利侵权线索网络爬虫方法,其特征在于,所述步骤2中将待抓取队列中取出图片,放入搜索引擎中进行搜索的具体过程为:
a、待检测专利的提取:提取所要寻找的专利原图images作为标准比对库;
b、图片预处理:对图片进行目标显著性检测,提取目标区域,通过图像显著性目标区域提取截取所要比对的目标区域,保证图片上的有效信息只有目标区域,减少了图片比对时候的计算时间,同时也增加计算的准确度;图片尺度统一化,设定图片的像素尺度大小,将处理好的图片建立特征库,其中包括待检测物体的所有显著性区域检测处理,以及尺度统一处理的结果图;
c、待检测数据包的抓取包括:图片、超链接,按前述同样的方法对抓取的图片进行目标区域提取和尺度统一处理;
d、相似度的计算:计算经处理后的图片image1与步骤b所建立的图片库中的图片images的相似度S;
e、相似性的判断:设定比较阈阈值,当相似度S大于指定阈值时,则表明该图片所在的数据包是所要抓取的数据,根据数据包里的超链接抓取相关数据内容,更新数据包信息并保存。
4.根据权利要求3所述的一种针对网络商品的专利侵权线索网络爬虫方法,其特征在于,所述计算经处理后的图片image1与步骤b所建立的图片库中的图片images的相似度S的具体过程为:
统计图片的颜色直方图;
计算标准库中的每一张图片images和待检测的图片image1的颜色直方图距离;
计算标准库中的每一张图片image和待检测图片image1的相似度Si;
计算相似度Si的平均值,得到最终的图片的颜色相似度Scolor;
计算图片的纹理特征,计算图片的hog(方向梯度直方图)来表示;
计算hog的距离得到纹理相似度Sj;
计算Sj的平均值,得到最终的图片的纹理相似度Stexture;
计算相似度,计算公式S=α*Scolor+β*Stexture,其中α、β表示权重,其值视具体情况而定。
5.根据权利要求3所述的一种针对网络商品的专利侵权线索网络爬虫方法,其特征在于,还包括:对于只是画出来的设计图片的检测过程如下:
对原图像和抓取的数据包内图像进行边缘检测处理得到纹理图;
计算图像的Harris角点特征以及LBP直方图;
计算原图像与待检测图像的Harris角点特征的相似度SH和LBP直方图的距离SL;
计算图像相似度S=α*SH+β*SL,其中α、β表示权重,SL为Harris角点纹理相似度;其值视具体情况而定;根据阈值判断图片所在数据包是否为所要抓取的数据包。
6.根据权利要求1所述的一种针对网络商品的专利侵权线索网络爬虫方法,其特征在于,所述步骤2中将待抓取队列中取出待抓取的技术特征,放入搜索引擎中进行搜索的具体过程为:
本发明对技术特征部分进行特征抽取,将描述技术特征的句子抽取为若干个技术特征三元组的形式T(N1,V,N2),其中N1、N2是句子中的技术元素,而V是连接N1和N2之间关系词,具体抽取步骤如下:
步骤H,依存句法分析,使用LTP句法分析器对预处理后的句子进行依存分析,结果以依存树形式表示;具体过程为:
步骤I,剪枝,根据词性标注删除依存树叶子节点中的停用词、代词、形容词、标点,只保留其中代表技术要素的词;
步骤J,并列关系处理,如果依存树中某节点存在并列依存关系,将属于并列关系的子树移动到该节点的父节点下;如果不存在,则进行下一步;
步骤K,最短依存路径提取,以树中所有关系动词(如果关系动词不存在,则使用根节点)为父节点,如果存在左右子树,则提取左右子树中叶子结点两两之间的最短依存路径;
步骤L,过滤,由于存在一棵树中包含多棵子树的情况,不同元素间的最短依存路径存在重叠和交叉,导致生成不属于两个元素关系的依存路径,利用启发式规则对步骤K中的最短依存路径进行筛选;
步骤M,特征抽取,分别从最短依存路径两侧的叶子节点向上遍历,如果父节点也是技术词,且两者属于定中关系ATT、状中结构VOB或者左右附加关系LAD/RAD之一,则父子节点合并;如果合并,继续遍历;否则,停止遍历;此时,根节点(关系动词)即为V,叶子节点即为N1、N2;
由于特征包含两个层次,第一层为特征中的谓语中心词V,第二层为特征中谓语中心词的有效支配成分N,在计算其相似度时对不同层次的计算赋予不同的权重,对于三元组T1(N1,V1,N2)和T2(N3,V3,N4)之间的相似度计算方法如公式1所示:
Sim(T1,T2)=β·SimDep(P1,P2)+(1-β)·Sim(V1,V2) (1)
其中,β是可调权重系数,满足0.5<β≤1。Sim(V1,V2)表示关系词V1和V2的相似度,SimDep(P1,P2)表示实体对P1={N1,N2}和P2={N3,N4}的相似度,计算方法如公式2所示:
式中P1×P2表示P1,P2中元素的笛卡尔积,max()表示选择相似度最大值,并将得出最大相似度值的两个元素对应起来,remain()表示实体对中去除已经建立对应关系的元素后剩余的元素,Sim()表示计算词汇间的相似度,计算方法如公式3:
式中w1,w2为变量;CosSim()表示计算使用word2vec向量化后的词向量之间的余弦相似度,Simhownet是基于HowNet的词汇语义相似度,当词汇属于同义词或者直接上下位词时,此方法计算得到的相似度值为1,而如果HowNet中不存在该词汇时,相似度值为0。
7.根据权利要求1所述的一种针对网络商品的专利侵权线索网络爬虫方法,其特征在于,所述步骤4中,获得相关产品的标题、价格、产品介绍、规格参数、评价、所涉及到的专利、产品功能、产品配件、技术方案信息的具体过程为:
步骤4.1,给出待爬取的产品的标题、价格、产品介绍、规格参数、评价、所涉及到的专利、产品功能、产品配件、技术方案信息URL;
步骤4.2,系统收到爬取URL的请求;
步骤4.3,根据请求返回HTML文档;
步骤4.4,系统接受HTML文档;
步骤4.5,筛选HTML文档,从而得到感兴趣的所有数据;
步骤4.6,将感兴趣的信息存入相应数据库,分析网页中的超链接,检查这些链接是否全部访问过,将未访问的URL加入未访问队列,将访问过的加入已访问队列,循环爬取,直至达到计数条件或队列为空;
步骤4.7,返回解析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110582488.3A CN113420198A (zh) | 2021-05-27 | 2021-05-27 | 一种针对网络商品的专利侵权线索网络爬虫方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110582488.3A CN113420198A (zh) | 2021-05-27 | 2021-05-27 | 一种针对网络商品的专利侵权线索网络爬虫方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420198A true CN113420198A (zh) | 2021-09-21 |
Family
ID=77713057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110582488.3A Pending CN113420198A (zh) | 2021-05-27 | 2021-05-27 | 一种针对网络商品的专利侵权线索网络爬虫方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420198A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997398A (zh) * | 2022-03-09 | 2022-09-02 | 哈尔滨工业大学 | 一种基于关系抽取的知识库融合方法 |
CN116432871A (zh) * | 2023-06-13 | 2023-07-14 | 北京化工大学 | 一种基于AdaBoost算法的公交调度优化方法 |
CN117874319A (zh) * | 2024-03-11 | 2024-04-12 | 江西顶易科技发展有限公司 | 基于搜索引擎的信息挖掘方法、装置及计算机设备 |
-
2021
- 2021-05-27 CN CN202110582488.3A patent/CN113420198A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997398A (zh) * | 2022-03-09 | 2022-09-02 | 哈尔滨工业大学 | 一种基于关系抽取的知识库融合方法 |
CN116432871A (zh) * | 2023-06-13 | 2023-07-14 | 北京化工大学 | 一种基于AdaBoost算法的公交调度优化方法 |
CN117874319A (zh) * | 2024-03-11 | 2024-04-12 | 江西顶易科技发展有限公司 | 基于搜索引擎的信息挖掘方法、装置及计算机设备 |
CN117874319B (zh) * | 2024-03-11 | 2024-05-17 | 江西顶易科技发展有限公司 | 基于搜索引擎的信息挖掘方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113420198A (zh) | 一种针对网络商品的专利侵权线索网络爬虫方法 | |
CN103823824B (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
CN102929873B (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
US7707162B2 (en) | Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification | |
US20170228599A1 (en) | Content-Based Video Representation | |
US7751592B1 (en) | Scoring items | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN110263248A (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN110287292B (zh) | 一种裁判量刑偏离度预测方法及装置 | |
TWI645348B (zh) | 商品相關網路文章之自動圖文摘要方法及系統 | |
CN112685642A (zh) | 一种标签推荐方法、装置、电子设备及存储介质 | |
CN106446124B (zh) | 一种基于网络关系图的网站分类方法 | |
CN100416556C (zh) | 信息检索方法和系统、数据处理设备和视频采集处理设备 | |
CN103914538B (zh) | 基于锚文本上下文和链接分析的主题抓取方法 | |
Yu et al. | A survey about algorithms utilized by focused web crawler | |
CN103729374B (zh) | 一种信息搜索方法及搜索引擎 | |
CN100449534C (zh) | 信息存储和检索 | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
CN116049243A (zh) | 企业知识产权大数据情报分析系统、方法及存储介质 | |
CN116431895A (zh) | 安全生产知识个性化推荐方法及系统 | |
CN114417860A (zh) | 一种信息检测方法、装置及设备 | |
CN106708904A (zh) | 对图像进行搜索的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |