CN105138651A - 一种企业商标公告信息抓取与管理的方法 - Google Patents

一种企业商标公告信息抓取与管理的方法 Download PDF

Info

Publication number
CN105138651A
CN105138651A CN201510539909.9A CN201510539909A CN105138651A CN 105138651 A CN105138651 A CN 105138651A CN 201510539909 A CN201510539909 A CN 201510539909A CN 105138651 A CN105138651 A CN 105138651A
Authority
CN
China
Prior art keywords
information code
information
data
enterprise
empty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510539909.9A
Other languages
English (en)
Inventor
黄庆梅
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan City Heng Nanwei Science And Technology Ltd
Original Assignee
Foshan City Heng Nanwei Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan City Heng Nanwei Science And Technology Ltd filed Critical Foshan City Heng Nanwei Science And Technology Ltd
Priority to CN201510539909.9A priority Critical patent/CN105138651A/zh
Publication of CN105138651A publication Critical patent/CN105138651A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种企业商标公告信息抓取与管理的方法。本发明公开了一种基于商标的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理的方法。

Description

一种企业商标公告信息抓取与管理的方法
技术领域
本发明主要涉及一种企业商标公告信息抓取与管理的方法,尤其是通过商标公告公布网站的页面信息抓取、分析、整理和建档的方法。
背景技术
目前,商标公告的信息获取大多基于通过相关部门所公开的数据接口来实现知识产权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业知识产权的信息获取显得难以胜任,并且应用成本高,风险大,不利于中小中介服务机构推广应用。
商标公告的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提高自身服务质量的有力支持。
发明内容
为了解决上述问题,本发明提出了一种基于商标的知识产权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业商标公告信息抓取与管理的方法。
一种企业商标公告信息抓取与管理的方法,其特征包括,其主要包含以下步骤:
步骤S102,在企业信息库中读出企业名称的待查数据;
步骤S103,将步骤S102所读出的企业名称通过函数转为下列所列的UTF8方式的数据编码;
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量,其中商标公告信息中,第一变量为明文,不进行加密;
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL;
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取;
步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;通过如下标记截取生成第二信息码:开始标记为“regNum”,结束标记为“regNum”;
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和步骤S109,并设置第三信息码的值为“0”;当第二信息码不为空时,执行步骤S108;
步骤S108,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“没有”,结束标记为“结果”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码的值为“1”;
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有商标的企业信息库中;
将所有数据执行步骤S110存入商标的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止,执行步骤S111结束。
执行步骤S102前执行步骤S101进行企业信息查询中,进行企业类型进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据。
步骤S110还可以通过将数据存贮在步骤S101所述的企业信息表对应的字段中,同时将相应的执行标记字段的值标记为已执行,然后步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
步骤SS109所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种商标类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何商标的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
所述的S107所述的商标类型为商标时,当第二信息码不为空时,通过设置第四信息码的值为“1”而不采集生成第三信息码。
步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式。
步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码。
步骤S104所述的URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密。
附图说明
图1一种企业商标公告信息抓取与管理的方法流程图。
具体实施方式
一种企业商标公告信息抓取与管理的方法,其主要包含以下步骤:
步骤S101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。
步骤S102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。
步骤S103,根据三种类别将步骤S102所读出的企业名称通过函数转为下UTF8编码方式。
其中UTF8编码的需要在文件头加入以下代码段:
<scriptlanguage="javaScript"runat="Server">
functionce(str)
{
returnencodeURIComponent(str)
}
</script>
<head>
<metahttp-equiv="Content-Type"content="text/html;charset=UTF8">
<metahttp-equiv="Content-Language"content="zh-cn">
</head>
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量;URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),两次加密的方式为cc=ce(""&bb&""),多次加密的方法类似。
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL,使用ASP开发语言表达如下:第一变量假设为cname:
假设商标公告数据发布网站为www.abcdb.com:
http://www.abcdb.com/tmois/wszhcx_getLikeCondition.xhtml?appCnName=<%cname%>&intCls=&paiType=0。
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取。
步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;通过如下标记截取生成第二信息码:商标类型的开始标记为“regNum”,结束标记为“regNum”。
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和步骤S109,并设置第四信息码的值为“0”;当第二信息码不为空时,执行步骤S108。
步骤S108,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“没有”,结束标记为“结果”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码的值为“1”。
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有商标申请的企业信息库中,辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
将所有数据执行步骤S110存入商标申请的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有商标申请的一定量的企业,以及没有任何商标申请的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
上述实施方式仅仅为本发明的其中实施方式之一。

Claims (9)

1.一种企业商标公告信息抓取与管理的方法,其特征包括,其主要包含以下步骤:
步骤S102,在企业信息库中读出企业名称的待查数据;
步骤S103,将步骤S102所读出的企业名称通过函数转为下列所列的UTF8方式的数据编码;
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量,其中商标公告信息中,第一变量为明文,不进行加密;
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL;
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取;
步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;通过如下标记截取生成第二信息码:开始标记为“regNum”,结束标记为“regNum”;
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和步骤S109,并设置第三信息码的值为“0”;当第二信息码不为空时,执行步骤S108;
步骤S108,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“没有”,结束标记为“结果”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码的值为“1”;
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有商标的企业信息库中;
将所有数据执行步骤S110存入商标的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止,执行步骤S111结束。
2.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,执行步骤S102前执行步骤S101进行企业信息查询中,进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据。
3.根据权利要求1和权利要求2所述的一种企业商标公告信息抓取与管理的方法,其特征包括,所述的步骤S110还可以通过将数据存贮在步骤S101所述的企业信息表对应的字段中,同时将相应的执行标记字段的值标记为已执行,然后步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
4.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,步骤SS109所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
5.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种商标类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何商标的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
6.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,所述的S107所述的商标类型为商标时,当第二信息码不为空时,通过设置第四信息码的值为“1”而不采集生成第三信息码。
7.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式。
8.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码。
9.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,步骤S104所述的URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密。
CN201510539909.9A 2015-08-31 2015-08-31 一种企业商标公告信息抓取与管理的方法 Pending CN105138651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510539909.9A CN105138651A (zh) 2015-08-31 2015-08-31 一种企业商标公告信息抓取与管理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510539909.9A CN105138651A (zh) 2015-08-31 2015-08-31 一种企业商标公告信息抓取与管理的方法

Publications (1)

Publication Number Publication Date
CN105138651A true CN105138651A (zh) 2015-12-09

Family

ID=54723999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510539909.9A Pending CN105138651A (zh) 2015-08-31 2015-08-31 一种企业商标公告信息抓取与管理的方法

Country Status (1)

Country Link
CN (1) CN105138651A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117303A (zh) * 2009-12-31 2011-07-06 潘晓梅 一种专利数据分析方法和系统
US20140201608A1 (en) * 2013-01-17 2014-07-17 Xerox Corporation Method and system for generating a document from multiple sources
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117303A (zh) * 2009-12-31 2011-07-06 潘晓梅 一种专利数据分析方法和系统
US20140201608A1 (en) * 2013-01-17 2014-07-17 Xerox Corporation Method and system for generating a document from multiple sources
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法

Similar Documents

Publication Publication Date Title
CN100489879C (zh) 一种对页面数据进行校验的方法、系统和服务器
CN104185845A (zh) 用于提供网页的二进制表示的系统和方法
CN107220274B (zh) 一种可视化数据接口集市实现方法
CN103095823A (zh) 一种物联网系统中对象的描述方法及对象信息交互系统
Jirka et al. A lightweight approach for the sensor observation service to share environmental data across Europe
US10049369B2 (en) Group targeting system and method for internet service or advertisement
CN105760380A (zh) 数据库查询方法、装置及系统
CN103870583A (zh) 一种基于关系型数据库的在线可控浏览pdf文档的方法
CN103729479A (zh) 基于分布式文件存储的网站页面内容统计的方法和系统
US20080313291A1 (en) Method and apparatus for encoding data
US20120315931A1 (en) Short message processing method and apparatus
CN105426492A (zh) 一种知识产权信息抓取与管理的方法
WO2014182419A1 (en) Offline searching of encrypted content
CN105160471A (zh) 一种实现区域企业专利信息摸底与管理的方法
CN105426503A (zh) 一种商标预警的方法
CN107402951A (zh) 一种快速提取Android微信朋友圈数据的方法
CN105138651A (zh) 一种企业商标公告信息抓取与管理的方法
CN105139309A (zh) 一种企业软件著作权公告信息抓取与管理的方法
CN100437740C (zh) 站点点击与网页上链接的关联
CN105117848A (zh) 一种企业知识产权信息抓取与管理系统
CN105278965A (zh) 一种专利信息管理的方法
CN105205588A (zh) 一种企业专利公告信息抓取与管理的方法
CN104301182A (zh) 一种慢速网站访问异常信息的查询方法及装置
CN105160472A (zh) 一种企业软件著作权公告信息抓取与管理系统
CN105577462A (zh) 移动设备的流量统计方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151209