CN108563740A - 一种企业软件著作权公告信息抓取方法 - Google Patents
一种企业软件著作权公告信息抓取方法 Download PDFInfo
- Publication number
- CN108563740A CN108563740A CN201810324746.6A CN201810324746A CN108563740A CN 108563740 A CN108563740 A CN 108563740A CN 201810324746 A CN201810324746 A CN 201810324746A CN 108563740 A CN108563740 A CN 108563740A
- Authority
- CN
- China
- Prior art keywords
- information
- information code
- enterprise
- software copyright
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000013481 data capture Methods 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 239000012535 impurity Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000006748 scratching Methods 0.000 abstract description 2
- 230000002393 scratching effect Effects 0.000 abstract description 2
- 238000007792 addition Methods 0.000 description 1
- 238000005202 decontamination Methods 0.000 description 1
- 230000003588 decontaminative effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer And Data Communications (AREA)
Abstract
一种企业软件著作权公告信息抓取方法,本发明公开了一种基于软件著作权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理的方法。
Description
技术领域
本发明主要涉及一种企业软件著作权公告信息抓取方法,尤其是通过软件著作权公布网站的页面信息抓取、分析、整理和建档的系统。
背景技术
目前,软件著作权的信息获取大多基于通过相关部门所公开的数据接口来实现软件著作权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业软件著作权的信息获取显得难以胜任,并且应用成本高,风险大,不利于中小中介服务机构推广应用。
软件著作权的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提高自身服务质量的有力支持。
发明内容
为了解决上述问题,本发明提出了一种基于软件著作权的公众公开的登记或变更公告数据的页面级别的通过 getHTTPPage 方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一软件著作权信息库和第二软件著作权信息库,以备不同的场合使用的一种企业软件著作权公告信息抓取与管理的系统。
一种企业软件著作权公告信息抓取方法,其主要包含以下结构 :
企业信息库、编码管理程序、软件著作权公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业软件著作权公告信息库和接口管理模块 ;其中信息码管理模块由第一信息码、第二信息码、第三信息码和第四信息码组成 ;企业信息库包含企业信息数据和 SQL 语句管理模块,其通过 SQL 语句条件检索后返回值给编码管理程序确定编码方式,然后输出对应编码方式编码后的企业名称,同时发送到软件著作权公布数据采集管理模块生成相应的以上述编码后的企业名称为变量的 URL,信息码管理模块通过getHTTPPage 方式访问生成的URL,并将获得的页面 HTML 静态化,同时执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码、第三信息码和第四信息码 ;当第一信息码为空时,系统将返回重新执行企业信息库的 SQL 语句操作,并检查网络、数据可靠性以及各模块运作是否正常 ;当第一信息码不为空,第二信息码为空时,将第三信息码和第四信息码设置为“0”,然后写入第一比对信息库,同时写入企业软件著作权公告信息库 ;当第二信息码不为空,通过信息码管理模块标记识别截取页面信息,去杂后生成第三信息码,当第三信息码也为空时,设置第四信息码为“1”,当第三信息码不为空时,设置第四信息码的值与第三信息码的值相同,与辅助信息一并写入第二比对信息库,同时写入企业软件著作权公告信息库 ;企业软件著作权公告信息库通过 SQL 语句与存贮过程共同组成接口,通过接口管理模块供第三方系统调用。
所述的企业信息库所包含的 SQL 语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的 SQL 语句或 SQL 语句集合。
企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
所述的辅助数据包括企业名、当前的系统时间、操作人员的 session 值或值的组合和数据对比的次数的信息的一种或多种的集合。
每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有软件著作权公告的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过 SQL 语句检索获得相应的数据。
当第二信息码不为空时,信息码管理模块还可以设置第四信息码的值为“1”而不采集生成第三信息码。
所述软件著作权公布数据采集管理模块包含手动设置 URL、编码方式和采集规则的程序,当官方机构公布的 URL、发布的编码方式、发布的数据结构发生变更时,软件著作权公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。
附图说明
图 1 一种企业软件著作权公告信息抓取方法结构图。
具体实施方式
如图 1,一种企业软件著作权公告信息抓取方法,其主要包含以下结构 :企业信息库(A01)、编码管理程序(A02)、软件著作权公布数据采集管理模块(A03)、信息码管理模块(A04)、第一比对信息库(A05)、第二比对信息库(A06)、企业软件著作权公告信息库(A07)和接口管理模块(A08);其中信息码管理模块(A04)由第一信息码(B11)、第二信息码(B12)、第三信息码(B13)和第四信息码(B14)组成 ;企业信息库(A01)包含企业信息数据和 SQL语句管理模块,其通过 SQL 语句条件检索后返回值给编码管理程序(A02)确定编码方式,然后输出对应编码方式编码后的企业名称,同时发送到软件著作权公布数据采集管理模块(A03)生成相应的以上述编码后的企业名称为变量的 URL,信息码管理模块(A04)通过getHTTPPage 方式访问生成的 URL,并将获得的页面 HTML 静态化,同时执行信息码管理模块(A04)中的标记识别截取页面信息以对应生成第一信息码(B11)、第二信息码(B12)、第三信息码(B13)和第四信息码(B14);当第一信息码(B11)为空时,系统将返回重新执行企业信息库(A01)的 SQL 语句操作,并检查网络、数据可靠性以及各模块运作是否正常 ;当第一信息码(B11)不为空,第二信息码(B12)为空时,将第三信息码(B13)和第四信息码(B14)设置为“0”,然后写入第一比对信息库(A05),同时写入企业软件著作权公告信息库(A07);当第二信息码(B12)不为空,通过信息码管理模块(A04)标记识别截取页面信息,去杂后生成第三信息码(B13),当第三信息码(B13)也为空时,设置第四信息码(B14)为“1”,当第三信息码(B13)不为空时,设置第四信息码(B14)的值与第三信息码(B13)的值相同,与辅助信息一并写入第二比对信息库(A06),同时写入企业软件著作权公告信息库
(A07);企业软件著作权公告信息库(A07)通过 SQL 语句与存贮过程共同组成接口,通过接口管理模块(A08)供第三方系统调用。
所述的企业信息库(A01)所包含的 SQL 语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的 SQL 语句或 SQL 语句集合。
企业信息库(A01)还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
所述的辅助数据包括企业名、当前的系统时间、操作人员的 session 值或值的组合和数据对比的次数的信息的一种或多种的集合。
每个企业信息库(A01)还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有软件著作权公告的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过 SQL 语句检索获得相应的数据。
当第二信息码(B12)不为空时,信息码管理模块(A04)还可以设置第四信息码(B14)的值为“1”而不采集生成第三信息码(B13)。
所述软件著作权公布数据采集管理模块(A03)包含手动设置 URL、编码方式和采集规则的程序,当官方机构公布的 URL、发布的编码方式、发布的数据结构发生变更时,软件著作权公布数据采集管理模块(A03)的手动设置程序对所发生的变化进行容错更正。
一种企业软件著作权公告信息抓取方法,其主要包含以下步骤 :
步骤S101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。
步骤 S102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。
步骤 S103,根据三种类别将步骤 S102 所读出的企业名称通过函数转为下列所列的对应数据编码,设变量为“bb”:软件著作权公告信息对应编码方式为 GB2312。
其中读取 URL 的页面需要在文件头加入以下代码段 :
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
步骤 S104,以上述“ bb”变量作为对应的 URL 的对应参数值生成第一 URL,使用 ASP开发语言表达如下 :“ bb”变量假设为 cname,设软件著作权公告公布网站的域名为 www.abcda.com :
http://www.abcda.com/cpcc/RRegisterAction.domethod=list&no=fck&sql_ name=&sql_regnum=&sql_author=<%=cname%>&curPage=1&count=10&sortOrder=&sortLab el=。
步骤 S105,通过 getHTTPPage 方式访问步骤 S104 生成的第一 URL,获得第一URL对应的页面的 HTML 格式的数据源码供步骤 S106 进行标记截取。
步骤 S106,通过 S105 获得的 HTML 格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码 ;通过如下标记生成第二信息码 :开始标记为“登记日期”,结束标记为“>2”;通过如下标记获取第三信息码 :开始标记为“中国”,结束标记为“<td class=”。
当第一信息码的值为空时,返回 S102 步骤,同时检查网络是否正常 ;当第二信息码为空时,跳过步骤 S107 和步骤S108,并设置第四信息码的值为“0”;当第二信息码不为空时,执行步骤 S107。
步骤 S107,生成第四信息码 :当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“[ 总数”,结束标记为“]”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码通过第二信息码去杂质后剩下数字。
步骤S108,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有软件著作权的企业信息库中,辅助数据包括通过步骤S102 所读出的企业名称传递而获得企业名称,通过步骤 S106 和步骤S107 追加获取当前的系统时间。
将所有数据执行步骤 S109 存入软件著作权的企业信息总表,同时返回步骤S101 将已经成功检索的记录的进行已执行的标记然后,返回步骤 S102 循环执行,直至所有符合条件的企业数据检索完成为止。
在执行步骤 S102 前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种软件著作权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
上述实施方式仅仅为本发明的其中实施方式之一。
Claims (7)
1.一种企业软件著作权公告信息抓取方法,其特征包括,其主要包含以下结构:
企业信息库、编码管理程序、软件著作权公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业软件著作权公告信息库和接口管理模块 ;其中信息码管理模块由第一信息码、第二信息码、第三信息码和第四信息码组成 ;企业信息库包含企业信息数据和 SQL 语句管理模块,其通过 SQL 语句条件检索后返回值给编码管理程序确定编码方式,然后输出对应编码方式编码后的企业名称,同时发送到软件著作权公布数据采集管理模块生成相应的以上述编码后的企业名称为变量的 URL,信息码管理模块通过getHTTPPage 方式访问生成的URL,并将获得的页面 HTML 静态化,同时执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码、第三信息码和第四信息码 ;当第一信息码为空时,系统将返回重新执行企业信息库的 SQL 语句操作,并检查网络、数据可靠性以及各模块运作是否正常 ;当第一信息码不为空,第二信息码为空时,将第三信息码和第四信息码设置为“0”,然后写入第一比对信息库,同时写入企业软件著作权公告信息库 ;当第二信息码不为空,通过信息码管理模块标记识别截取页面信息,去杂后生成第三信息码,当第三信息码也为空时,设置第四信息码为“1”,当第三信息码不为空时,设置第四信息码的值与第三信息码的值相同,与辅助信息一并写入第二比对信息库,同时写入企业软件著作权公告信息库 ;企业软件著作权公告信息库通过 SQL 语句与存贮过程共同组成接口,通过接口管理模块供第三方系统调用。
2.根据权利要求 1 所述的一种企业软件著作权公告信息抓取方法,其特征包括,所述的企业信息库所包含的 SQL 语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL 语句或 SQL 语句集合。
3.根据权利要求 1 和权利要求 2 所述的一种企业软件著作权公告信息抓取方法,其特征包括,企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
4.根据权利要求 1 所述的一种企业软件著作权公告信息抓取方法,其特征包括,所述的辅助数据包括企业名、当前的系统时间、操作人员的 session 值或值的组合和数据对比的次数的信息的一种或多种的集合。
5.根据权利要求 1 和权利要求 2 所述的一种企业软件著作权公告信息抓取方法,其特征包括,每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有软件著作权公告的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过 SQL 语句检索获得相应的数据。
6.根据权利要求 1 所述的一种企业软件著作权公告信息抓取方法,其特征包括,当第二信息码不为空时,信息码管理模块还可以设置第四信息码的值为“1”而不采集生成第三信息码。
7.根据权利要求 1 所述的一种企业软件著作权公告信息抓取方法,其特征包括,所述软件著作权公布数据采集管理模块包含手动设置 URL、编码方式和采集规则的程序,当官方机构公布的 URL、发布的编码方式、发布的数据结构发生变更时,软件著作权公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324746.6A CN108563740A (zh) | 2018-04-12 | 2018-04-12 | 一种企业软件著作权公告信息抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324746.6A CN108563740A (zh) | 2018-04-12 | 2018-04-12 | 一种企业软件著作权公告信息抓取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108563740A true CN108563740A (zh) | 2018-09-21 |
Family
ID=63534785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810324746.6A Withdrawn CN108563740A (zh) | 2018-04-12 | 2018-04-12 | 一种企业软件著作权公告信息抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108563740A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117848A (zh) * | 2015-08-31 | 2015-12-02 | 佛山市恒南微科技有限公司 | 一种企业知识产权信息抓取与管理系统 |
CN105139309A (zh) * | 2015-08-31 | 2015-12-09 | 佛山市恒南微科技有限公司 | 一种企业软件著作权公告信息抓取与管理的方法 |
CN105160472A (zh) * | 2015-08-31 | 2015-12-16 | 佛山市恒南微科技有限公司 | 一种企业软件著作权公告信息抓取与管理系统 |
CN105160209A (zh) * | 2015-08-31 | 2015-12-16 | 佛山市恒南微科技有限公司 | 一种实现区域企业软件著作权公告摸底与管理的系统 |
-
2018
- 2018-04-12 CN CN201810324746.6A patent/CN108563740A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117848A (zh) * | 2015-08-31 | 2015-12-02 | 佛山市恒南微科技有限公司 | 一种企业知识产权信息抓取与管理系统 |
CN105139309A (zh) * | 2015-08-31 | 2015-12-09 | 佛山市恒南微科技有限公司 | 一种企业软件著作权公告信息抓取与管理的方法 |
CN105160472A (zh) * | 2015-08-31 | 2015-12-16 | 佛山市恒南微科技有限公司 | 一种企业软件著作权公告信息抓取与管理系统 |
CN105160209A (zh) * | 2015-08-31 | 2015-12-16 | 佛山市恒南微科技有限公司 | 一种实现区域企业软件著作权公告摸底与管理的系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Thiers et al. | Digitization of the new york botanical garden herbarium | |
Lahti et al. | Retrieval and analysis of Eurostat open data with the eurostat package. | |
Schneider et al. | Web sphere analysis: An approach to studying online action | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
Vuong et al. | Characteristics of retracted articles based on retraction data from online sources through February 2019 | |
US20040122841A1 (en) | Method and system for evaluating intellectual property | |
US20240152558A1 (en) | Search activity prediction | |
CN105786961A (zh) | 一种基于金融资讯的数据分类处理方法 | |
CN112990110B (zh) | 从研报中进行关键信息提取方法及相关设备 | |
US20080235297A1 (en) | Method for Indexing a Large Log File, Computer-Readable Medium for Storing a Program for Executing the Method, and System for Performing the Same | |
Walton et al. | A cost analysis of transcription systems | |
Barari et al. | LocalView, a database of public meetings for the study of local politics and policy-making in the United States | |
CN108563740A (zh) | 一种企业软件著作权公告信息抓取方法 | |
Hill et al. | A database of geopositioned onchocerciasis prevalence data | |
CN105160472A (zh) | 一种企业软件著作权公告信息抓取与管理系统 | |
Zavalina et al. | Evaluation of metadata change in authority data over time: An effect of a standard evolution | |
CN114519163B (zh) | 基于正则匹配和Bloom filter的增量新闻URL提取方法 | |
CN105117848A (zh) | 一种企业知识产权信息抓取与管理系统 | |
CN106780192A (zh) | 一种知识产权评价系统 | |
CN113065332B (zh) | 基于阅读模型的文本处理方法、装置、设备及存储介质 | |
JP7221665B2 (ja) | データ管理システム | |
Basu | A step by step tutorial for putting together a minimalistic evidence map and interpret the data | |
Bento dos Santos et al. | Holzforschung: Wood density and chemical composition variation of Eucalyptus urophylla clone in different environments | |
Riondet et al. | Report on Standards | |
Gillespie et al. | Using content analysis to examine news media portrayal of femicide: Sampling and coding considerations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180921 |