CN105183822A - 一种企业商标公告信息抓取与管理系统 - Google Patents

一种企业商标公告信息抓取与管理系统 Download PDF

Info

Publication number
CN105183822A
CN105183822A CN201510539948.9A CN201510539948A CN105183822A CN 105183822 A CN105183822 A CN 105183822A CN 201510539948 A CN201510539948 A CN 201510539948A CN 105183822 A CN105183822 A CN 105183822A
Authority
CN
China
Prior art keywords
information
enterprise
information code
data
trademark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510539948.9A
Other languages
English (en)
Inventor
黄庆梅
陈少宜
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan City Heng Nanwei Science And Technology Ltd
Original Assignee
Foshan City Heng Nanwei Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan City Heng Nanwei Science And Technology Ltd filed Critical Foshan City Heng Nanwei Science And Technology Ltd
Priority to CN201510539948.9A priority Critical patent/CN105183822A/zh
Publication of CN105183822A publication Critical patent/CN105183822A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于商标的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理系统。

Description

一种企业商标公告信息抓取与管理系统
技术领域
本发明主要涉及一种企业商标公告信息抓取与管理系统,尤其是通过商标公告公布网站的页面信息抓取、分析、整理和建档的系统。
背景技术
目前,商标公告的信息获取大多基于通过相关部门所公开的数据接口来实现知识产权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业知识产权的信息获取显得难以胜任,并且应用成本高,风险大,不利于中小中介服务机构推广应用。
商标公告的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提高自身服务质量的有力支持。
发明内容
为了解决上述问题,本发明提出了一种基于商标的知识产权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业商标公告信息抓取与管理的系统。
一种企业商标公告信息抓取与管理系统,其主要包含以下结构:
企业信息库、编码管理程序、URLencode/URLDecod加密/解密程序、商标公告公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业商标公告信息库和接口管理模块;其中信息码管理模块由第一信息码、第二信息码和第三信息码组成;企业信息库包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给编码管理程序确定编码方式,同时进行URLencode加密,输出加密后的企业名称,发送到商标公告公布数据采集管理模块生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,然后执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码和第三信息码;当第一信息码为空时,系统将返回重新执行企业信息库的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码不为空,第二信息码为空时,将第三信息码设置为“0”,然后写入第一比对信息库,同时写入企业商标公告信息库;当第二信息码不为空,设置第三信息码为“1”,与辅助信息一并写入第二比对信息库;企业商标公告信息库通过SQL语句与存贮过程共同组成接口,通过接口管理模块供第三方系统调用。
所述的企业信息库所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。
企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
所述的辅助数据包括企业名、当前的系统时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。
每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有商标公告信息的一定量的企业,以及没有任何商标公告信息的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。
所述商标公告公布数据采集管理模块包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,商标公告公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。
URLencode/URLDecod加密/解密程序进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。
附图说明
图1一种企业商标公告信息抓取与管理系统结构图。
图2一种企业商标公告信息抓取与管理的方法流程图。
具体实施方式
如图1,一种企业商标公告信息抓取与管理系统,其主要包含以下结构:
企业信息库(A01)、编码管理程序(A02)、URLencode/URLDecod加密/解密程序(A03)、商标公告公布数据采集管理模块(A04)、信息码管理模块(A05)、第一比对信息库(A06)、第二比对信息库(A07)、企业商标公告信息库(A08)和接口管理模块(A09);其中信息码管理模块(A09)由第一信息码(B11)、第二信息码(B12)和第三信息码(B13)组成;企业信息库(A01)包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给编码管理程序(A02)确定编码方式,同时进行URLencode加密,输出加密后的企业名称,发送到商标公告公布数据采集管理模块(A04)生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块(A05)通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,然后执行信息码管理模块(A05)中的标记识别截取页面信息以对应生成第一信息码(B11)、第二信息码(B12)和第三信息码(B13);当第一信息码(B11)为空时,系统将返回重新执行企业信息库的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码(B11)不为空,第二信息码(B12)为空时,将第三信息码(B13)和第三信息码(B13)设置为“0”,然后写入第一比对信息库(A06),同时写入企业商标公告信息库(A08);当第二信息码(B12)不为空,设置第四信息码(B14)为“1”,与辅助信息一并写入第二比对信息库(A07);企业商标公告信息库(A08)通过SQL语句与存贮过程共同组成接口,通过接口管理模块(A09)供第三方系统调用。
所述的企业信息库(A01)所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。
企业信息库(A01)还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
所述的辅助数据包括企业名、当前的系统时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。
每个企业信息库(A01)还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有商标公告信息的一定量的企业,以及没有任何商标公告信息的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。
所述商标公告公布数据采集管理模块(A04)包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,商标公告公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。
URLencode/URLDecod加密/解密程序(A03)进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。
具体操作方法如图2所示,
一种企业商标公告信息抓取与管理的方法,其主要包含以下步骤:
步骤S101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。
步骤S102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。
步骤S103,根据三种类别将步骤S102所读出的企业名称通过函数转为下UTF8编码方式。
其中UTF8编码的需要在文件头加入以下代码段:
<scriptlanguage="javaScript"runat="Server">
functionce(str)
{
returnencodeURIComponent(str)
}
</script>
<head>
<metahttp-equiv="Content-Type"content="text/html;charset=UTF8">
<metahttp-equiv="Content-Language"content="zh-cn">
</head>
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量;URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),两次加密的方式为cc=ce(""&bb&""),多次加密的方法类似。
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL,使用ASP开发语言表达如下:第一变量假设为cname,商标公告网站的网址为:www.abcdb.com:
商标公告数据:
http://www.abcdb.com/tmois/wszhcx_getLikeCondition.xhtml?appCnName=<%cname%>&intCls=&paiType=0。
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取。
步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;通过如下标记截取生成第二信息码:商标类型的开始标记为“regNum”,结束标记为“regNum”。
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和步骤S109,并设置第四信息码的值为“0”;当第二信息码不为空时,执行步骤S108。
步骤S108,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“没有”,结束标记为“结果”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码的值为“1”。
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有商标申请的企业信息库中,辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
将所有数据执行步骤S110存入商标申请的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有商标申请的一定量的企业,以及没有任何商标申请的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
上述实施方式仅仅为本发明的其中实施方式之一。

Claims (7)

1.一种企业商标公告信息抓取与管理系统,其特征包括,其主要包含以下结构:
企业信息库、编码管理程序、URLencode/URLDecod加密/解密程序、商标公告公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业商标公告信息库和接口管理模块;其中信息码管理模块由第一信息码、第二信息码和第三信息码组成;企业信息库包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给编码管理程序确定编码方式,同时进行URLencode加密,输出加密后的企业名称,发送到商标公告公布数据采集管理模块生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,然后执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码和第三信息码;当第一信息码为空时,系统将返回重新执行企业信息库的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码不为空,第二信息码为空时,将第三信息码设置为“0”,然后写入第一比对信息库,同时写入企业商标公告信息库;当第二信息码不为空,设置第三信息码为“1”,与辅助信息一并写入第二比对信息库;企业商标公告信息库通过SQL语句与存贮过程共同组成接口,通过接口管理模块供第三方系统调用。
2.根据权利要求1所述的一种企业商标公告信息抓取与管理系统,其特征包括,所述的企业信息库所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。
3.根据权利要求1和权利要求2所述的一种企业商标公告信息抓取与管理系统,其特征包括,企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
4.根据权利要求1所述的一种企业商标公告信息抓取与管理系统,其特征包括,所述的辅助数据包括企业名、当前的系统时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。
5.根据权利要求1和权利要求2所述的一种企业商标公告信息抓取与管理系统,其特征包括,每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有商标公告信息的一定量的企业,以及没有任何商标公告信息的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。
6.根据权利要求1所述的一种企业商标公告信息抓取与管理系统,其特征包括,所述商标公告公布数据采集管理模块包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,商标公告公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。
7.根据权利要求1所述的一种企业商标公告信息抓取与管理系统,其特征包括,URLencode/URLDecod加密/解密程序进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。
CN201510539948.9A 2015-08-31 2015-08-31 一种企业商标公告信息抓取与管理系统 Pending CN105183822A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510539948.9A CN105183822A (zh) 2015-08-31 2015-08-31 一种企业商标公告信息抓取与管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510539948.9A CN105183822A (zh) 2015-08-31 2015-08-31 一种企业商标公告信息抓取与管理系统

Publications (1)

Publication Number Publication Date
CN105183822A true CN105183822A (zh) 2015-12-23

Family

ID=54905904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510539948.9A Pending CN105183822A (zh) 2015-08-31 2015-08-31 一种企业商标公告信息抓取与管理系统

Country Status (1)

Country Link
CN (1) CN105183822A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117303A (zh) * 2009-12-31 2011-07-06 潘晓梅 一种专利数据分析方法和系统
CN103838785A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种专利领域的垂直搜索引擎
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117303A (zh) * 2009-12-31 2011-07-06 潘晓梅 一种专利数据分析方法和系统
CN103838785A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种专利领域的垂直搜索引擎
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法

Similar Documents

Publication Publication Date Title
CN100489879C (zh) 一种对页面数据进行校验的方法、系统和服务器
CN104077341B (zh) 即时通讯中生成关键词自动回复映射关系的方法和装置
CN102546668B (zh) 一种独立访问者的统计方法、装置及系统
KR20110024464A (ko) 다양한 포맷의 컨텐츠를 관리하는 미디어 미디에이터 시스템 및 방법
CN104281672A (zh) 日志数据的处理方法和装置
CN107220274B (zh) 一种可视化数据接口集市实现方法
CN109241384B (zh) 一种科研信息的可视化方法及装置
CN101753350A (zh) 一种信息审核方法、装置及系统
CN103389969A (zh) 一种用于移动终端预览pdf文件的方法、装置和系统
CN105786998A (zh) 数据库中间件系统及利用其处理数据的方法
Jirka et al. A lightweight approach for the sensor observation service to share environmental data across Europe
Chen et al. Design and implementation of bilingual digital reader based on artificial intelligence and big data technology
CN103729479A (zh) 基于分布式文件存储的网站页面内容统计的方法和系统
CN101354706A (zh) 一种收集网页信息的方法及装置
CN102096670A (zh) 一种数据字典生成方法以及装置
CN105426492A (zh) 一种知识产权信息抓取与管理的方法
CN114625407A (zh) 一种ab实验的实现方法、系统、设备及存储介质
CN105160471A (zh) 一种实现区域企业专利信息摸底与管理的方法
CN105117848A (zh) 一种企业知识产权信息抓取与管理系统
CN105183822A (zh) 一种企业商标公告信息抓取与管理系统
CN105160472A (zh) 一种企业软件著作权公告信息抓取与管理系统
CN105468745A (zh) 一种商标预警的系统
CN105426503A (zh) 一种商标预警的方法
CN105069585A (zh) 一种企业专利公告信息抓取与管理系统
CN105138651A (zh) 一种企业商标公告信息抓取与管理的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151223

WD01 Invention patent application deemed withdrawn after publication