CN114840776B - 一种数据发布源收录的方法、装置、电子设备及存储介质 - Google Patents

一种数据发布源收录的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114840776B
CN114840776B CN202210776323.4A CN202210776323A CN114840776B CN 114840776 B CN114840776 B CN 114840776B CN 202210776323 A CN202210776323 A CN 202210776323A CN 114840776 B CN114840776 B CN 114840776B
Authority
CN
China
Prior art keywords
source
data
data release
release source
publishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210776323.4A
Other languages
English (en)
Other versions
CN114840776A (zh
Inventor
贾新
李善平
田小亮
张金坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Swordfish Information Technology Co ltd
Hefei Topnet System Engineering Co ltd
Henan Tupu Computer Network Engineering Co ltd
Beijing Tuopu Fenglian Information Technology Co ltd
Original Assignee
Beijing Swordfish Information Technology Co ltd
Hefei Topnet System Engineering Co ltd
Henan Tupu Computer Network Engineering Co ltd
Beijing Tuopu Fenglian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Swordfish Information Technology Co ltd, Hefei Topnet System Engineering Co ltd, Henan Tupu Computer Network Engineering Co ltd, Beijing Tuopu Fenglian Information Technology Co ltd filed Critical Beijing Swordfish Information Technology Co ltd
Priority to CN202210776323.4A priority Critical patent/CN114840776B/zh
Publication of CN114840776A publication Critical patent/CN114840776A/zh
Application granted granted Critical
Publication of CN114840776B publication Critical patent/CN114840776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据发布源收录的方法、装置、电子设备及存储介质,该方法包括:针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源;根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源;根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源;结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源。本申请基于统一的标准检索,避免依赖人工经验检索,提高了检索的准确度;提高了收录效率,降低了人工成本。

Description

一种数据发布源收录的方法、装置、电子设备及存储介质
技术领域
本申请涉及数据发布源收录技术领域,具体而言,涉及一种数据发布源收录的方法、装置、电子设备及存储介质。
背景技术
数据发布源包括网站或者网页栏目,是用户获取相关数据的主要工具。数据发布源上的数据随着时间变化,会不断进行更新,或者涌现出新的数据发布源,及时收录、及时维护数据发布源是会很有必要的。
现有技术,通过安排专人使用搜索引擎根据进行数据源寻找,其寻源效率严重依赖个人经验,寻源效率非常低。例如,标讯数据发布渠道较多,涉及企事业单位、其他组织等,需要投入较大人力进行数据源查找。另外,已收录的数据发布源其地址及内容也会发生变更,这个过程人是无法预知的,需要人工排查后才能对已收录的数据发布源进行更正。如果存量数据发布源规模较大,人工排查耗费时间周期长、成本高。丞待一种技术能代替人工寻找数据源,提高数据寻源效率、降低数据寻源成本。
发明内容
有鉴于此,本申请的目的在于提供一种数据发布源收录的方法、装置、电子设备及存储介质,解决了现有技术存在的问题。
第一方面,本申请实施例提供了一种数据发布源收录的方法,所述方法包括:针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源;
根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源;
根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源;
结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源。
在本申请一些技术方案中,上述方法还包括:
若所述待收录数据发布源通过审核,将所述待收录数据发布源收录到收录库中;
将所述待收录数据发布源和所述已收录数据发布源进行合并,作为新的已收录数据发布源。
在本申请一些技术方案中,上述方法还包括:
若所述待收录数据发布源未能通过审核,使用所述待收录数据发布源对所述数据发布源垃圾库进行更新。
在本申请一些技术方案中,上述根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源,包括:
所述对预设的参考数据发布源和所述第二数据发布源进行整合,得到第三数据发布源。
在本申请一些技术方案中,上述关联关系为包含关系,通过以下方式确定第四数据发布源:
若所述第三数据发布源包含的第三关键词包含所述第二关键词中的至少一个,将该第三数据发布源作为所述第四数据发布源。
在本申请一些技术方案中,上述方法还包括:
根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词不具有关联关系的第五数据发布源。
在本申请一些技术方案中,上述第五数据发布源包括有初始验证标识;所述方法还包括:
若所述第五数据发布源的初始验证标识不符合预设验证条件,对所述第五数据发布源的初始验证标识进行更新;
将更新后初始验证标识的所述第五数据发布源作为新的第一数据发布源,再次进行收录处理,直至所述第五数据发布源的初始验证标识符合预设验证条件。
第二方面,本申请实施例提供了一种数据发布源收录的装置,所述装置包括:
过滤模块,用于针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源;
调整模块,用于根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源;
第一确定模块,用于根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源;
第二确定模块,用于结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据发布源收录的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的数据发布源收录的方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请的方法包括:针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源;根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源;根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源;结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源。本申请通过第一关键词检索得到第一数据发布源,基于统一的标准检索,避免依赖人工经验检索,提高了检索的准确度;然后第一数据发布源进行过滤,得到第二数据发布源,过滤掉无用的数据发布源,提高了收录效率;为了保证数据发布源的全面性,对第二数据发布源进行调整,得到第三数据发布源;然后对第三数据发布源中进一步筛选出与第二关键词具有关联关系的第四数据发布源,进一步保证了收录的准确性;最后,基于已收录数据发布源和第四数据发布源,确定出待收录数据发布源;提高了收录效率,降低了人工成本。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据发布源收录的方法的流程示意图;
图2示出了本申请实施例所提供的另一种数据发布源收录的方法示意图;
图3示出了本申请实施例所提供的一种数据发布源收录的装置示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
数据发布源包括网站或者网页栏目,是用户获取相关数据的主要工具。数据发布源上的数据随着时间变化,会不断进行更新,或者涌现出新的数据发布源,及时收录、及时更新数据发布源是会很有必要的。
现有技术,通过安排专人使用搜索引擎根据进行数据源寻找,其寻源效率严重依赖个人经验,寻源效率非常低。例如,标讯数据发布渠道较多,涉及事业单位、企业等,需要投入较大人力进行数据源查找。另外,已收录的数据发布源其地址也会发生变更,这个过程人是无法预知的,需要人工排查后才能对已收录的数据发布源进行更正。如果存量数据发布源规模较大,人工排查耗费时间周期长、成本高。丞待一种技术能代替人工寻找数据源,提高数据寻源效率、降低数据寻源成本。
基于此,本申请实施例提供了一种数据发布源收录的方法、装置、电子设备及存储介质,下面通过实施例进行描述。
图1示出了本申请实施例所提供的一种数据发布源收录的方法的流程示意图,其中,该方法包括步骤S201-S204;具体的:
S201、针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源;
S202、根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源;
S203、根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源;
S204、结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源。
本申请通过第一关键词检索得到第一数据发布源,基于统一的标准检索,避免依赖人工经验检索,提高了检索的准确度;然后第一数据发布源进行过滤,得到第二数据发布源,过滤掉无用的数据发布源,提高了收录效率;为了保证数据发布源的全面性,对第二数据发布源进行调整,得到第三数据发布源;然后对第三数据发布源中进一步筛选出与第二关键词具有关联关系的第四数据发布源,进一步保证了收录的准确性;最后,基于已收录数据发布源和第四数据发布源,确定出待收录数据发布源;提高了收录效率,降低了人工成本。
下面对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
S201、针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源。
本申请中的数据发布源包括发布数据的网站或者网站的栏目,为了获取更加全面、及时的数据,需要对数据发布源进行收录,通过收录的数据发布源获取数据。
本申请使用爬虫技术,通过预设的第一关键词在搜索引擎上进行检索,检索得到发布第一关键词的第一数据发布源。这里的第一关键词是根据收录需求设置,第一关键词包括一个独立的文字、两个文字或者两个以上文字组成的词组、更多文字组成的短句。这里的搜索搜索引擎包含但不限于IE/Edge、Chrome、Safari、Opera、Firefox等浏览器。在具体实施时,第一关键词包括但不限于项目名称、企业名称、单位名称等。例如,通过爬虫技术在IE浏览器检索某某招标项目、通过爬虫技术在Opera浏览器检索某某技术公司等。
本申请在检索得到了第一数据发布源之后,为了减少处理的数据量,本申请对第一数据发布源进行了过滤操作,过滤到收录需求不需要的数据发布源。在进行过滤的时候,本申请设置了数据发布源垃圾库,通过数据发布源垃圾库对第一数据发布源进行过滤,得到过滤后的第二数据发布源。在首次进行收录的时候,数据发布源数据库可以根据过滤的历史收录过程进行设置,或者根据人工经验设置。在非首次收录的时候,本申请中数据发布源收录的方法可以对首次设置的数据发布源垃圾库进行更新,以保证对于第一数据发布源过滤的更加准确。
通过预设的数据发布源垃圾库对第一数据发布源进行过滤的具体操作为:针对第一数据发布源和数据发布源垃圾库包括的垃圾数据发布源,分别进行属性信息提取,然后通过第一数据发布源的属性信息与垃圾数据发布源的属性信息进行对比,从第一数据发布源中删除包含的属性信息与垃圾数据发布源的属性信息相同的数据发布源,即可得到第二数据发布源。第二数据发布源中各个数据发布源的属性信息与垃圾数据发布源中的各个数据发布源的属性信息至少有一个不相同。
上述有提到本申请的数据发布源收录的方法能够对首次设置的数据发布源垃圾库进行更新,为了能够实现对于数据发布源更新的功能,本申请对第二数据发布源设置初始验证标识,这里的初始验证标识用于后续对于数据发布源垃圾库进行更新。
S202、根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源。
本申请通过对第一数据发布源进行过滤,得到第二数据发布源之后,为了进一步提高收录的准确性,本申请根据预设的调整规则对第二数据发布源进行了调整。
在对第二数据发布源进行具体调整的时候,本申请设置了参考数据发布源,本申请根据参考数据发布源对第二数据发布源进行整合。
这里的调整规则包括删除和/或增加数据发布源,也就是说,本申请为了保证第二数据发布源的准确性,需要对第二数据发布源包含的数据发布源进行删除操作,和/或对第二数据发布源进行新增数据发布源操作。
在对第二数据发布源进行删除或者新增的时候,本申请需要依据参考数据发布源进行操作。这里的参考数据发布源是根据收录需求和第二数据发布源生成的。具体的,当第二数据发布源较收录需求相差较大的时候,这时第二数据发布源中包含的数据发布源符合收录需求的较少,需要对第二数据发布源补充一些能够直接体现收录需求的数据发布源;当第二数据发布源较收录需求相差较小的时候,这时第二数据发布源包含的数据发布源符合收录需求的较多,需要对第二数据发布源进行再次过滤。本申请设置了参考数据发布源,这里的参考数据发布源用于直接加入到第二数据发布源中,或者用于对第二数据发布源进行过滤,即从第二数据发布源中删除与参考数据发布源相同的数据发布源。
具体的,针对参考数据发布源和第二数据发布源,分别获取参考数据发布源的第一属性信息和所述第二数据发布源的第二属性信息。计算第一属性信息中各个属性与第二属性信息中各个属性的相似度,若得到的任一相似度大于预设的相似度阈值,认为该参考数据发布源和该第二数据发布源为相同的数据发布源,否则为不同的数据发布源。然后从第二数据发布源中删除该参考数据发布源,或者将该参考数据发布源补入第二数据发布源中,进而得到第三数据发布源。
由于本申请中的候选操作需要对数据发布源垃圾库进行更新,所以本申请中的参考数据发布源包含的各个数据发布源也设置了初始验证标识,且参考数据发布源中的初始验证标识与第二数据发布源中的初始验证标识相同。因为第三数据发布源是根据第二数据发布源和参考数据范发布源得到的,所以第三数据发布源包含的各个数据发布源都设置有初始验证标识,以用于后续的验证操作。
S203、根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源。
本申请在得到了第三数据发布源之后,为了提高收录的准确性,对第三数据发布源再次进行了筛选。在对第三数据发布源筛选的时候,本申请设置了第二关键词,根据第三数据发布源与第二关键词之间的关联关系对第三数据发布源进行筛选。这里的第二关键词可以根据人工经验设置,也可以根据历史的收录记录进行设置。第二关键词表征本次收录对数据发布源包含敏感词汇的要求。例如,第二关键词为标讯类敏感词:采购意向、招标公告、合同公告、询价公告、单一来源、变更公告、中标公告等。
进一步的,本申请中第三数据发布源与第二关键词的关联关系为包含关系。也就是说,本申请根据第三数据发布源是否包含预设的第二关键词对第三数据发布源进行筛选。在具体筛选的时候,本申请获取得到第三数据发布源中各个数据发布源包含的第三关键词,然后使用第三关键词与预设的第二关键词进行对比,进而确定第三数据发布源中是否包含该第二关键词。
若第三数据发布源包含的第三关键词包含第二关键词中的至少一个关键词,将该第三数据发布源作为第四数据发布源;如果第三数据发布源包含的第三关键词不包含任何一个第二关键词,将该第三数据发布源作为第五数据发布源。具体的,本申请在判断第三关键词是否包含第二关键词为:第三关键词是否为第二关键词的上位概念,或者第三关键词与第二关键词是否为相同概念。在具体实施时,通过对第三关键词和第二关键词分别进行语义分析,即可确定二者之间的关系。如果第三关键词为第二关键词的上位概念,或者第三关键词与第二关键词为相同概念,则认为第三关键词包括第二关键词。例如,第三关键词为合同(民事主体之间设立、变更、终止民事法律关系的协议),第二关键词为契约(由双方订立的有关买卖、抵押或租赁等事项的文书),该第三关键词与该第二关键词之间为同等概念,则本申请认为该第三关键词包含该第二关键词。再例如,第三关键词为合同(民事主体之间设立、变更、终止民事法律关系的协议),第二关键词为条款(确定当事人权利和义务的根据),该第三关键词为该第二关键词的总称,则本申请认为该第三关键词包含该第二关键词。
本步骤是对第三数据发布源的进一步的筛选,所以该步骤中第三数据发布源的初始验证标识并没有进行改变,对第三数据发布源筛选之后得到的第四数据发布源和第五数据发布源继承了第三数据发布源原本的初始验证标识,即第四数据发布源和第五数据发布源也具有初始验证标识。
S204、结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源。
通过上述的步骤,本申请得到了第四数据发布源和第五数据发布源,由于第四数据发布源是包含了第二关键词的数据发布源,所以本申请认为第四数据发布源是收录需求想要收录的数据发布源。
针对第四数据发布源进行收录之前,本申请为了避免进行重复收录,需要根据收录库中的已收录数据发布源对第四数据发布源再次进行筛选。通过第四数据发布源与已收录数据发布源进行对比,将第四数据发布源与已收录数据发布源不同的数据发布源作为待收录数据发布源,即从第四数据发布源中删除与已收录数据发布源重复的部分,得到待收录数据发布源。待收录发布源用于对收录库进行更新。
为了保证最后入库的准确性,本申请在收录之前,又设置了对于待收录数据发布源的审核步骤。如果待收录数据发布源能够通过审核的话,就将通过审核的待收录数据发布源收录到收录库中,同时将通过审核的待收录数据发布源和已收录数据发布源进行合并,作为新的已收录数据发布源。新的已收录数据发布源用于下次进行收录的时候,对新的第四数据发布源进行筛选。
如果待收录数据发布源未能通过审核的话,则将这部分待收录数据发布源保存到数据发布源垃圾库中,生成新的数据发布源垃圾库。新的数据发布源垃圾库用于下次进行收录的时候,对新的第一数据发布源进行过滤。
本申请实施例中,作为一可选实施例,上述方法还包括通过上述的步骤,本申请得到了第四数据发布源和第五数据发布源,由于第五数据发布源是不包含第二关键词的数据发布源,所以本申请认为第无数据发布源不是收录需求想要收录的数据发布源。对于第五发布源本申请并没有直接舍弃,本申请对第五数据发布源的初始验证标识进行判断,进而确定第五数据发布源的初始验证标识是否符合预设验证条件。当第五数据发布源的初始验证标识符合预设验证条件的时候,本申请才对该第五数据发布源舍弃。当第五数据发布源的初始验证标识不符合预设验证条件的时候,本申请对该第五数据发布源的初始验证标识进行更新,将更新后初始验证标识的第五数据发布源作为新的第一数据发布源,然后返回步骤S201,对新的第一数据发布源再次进行处理,直至第五数据发布源的初始验证标识符合预设验证条件。
例如,本申请中的初始验证标识为验证次数为0,即第五数据发布源(A)的验证次数为0,预设验证条件为验证次数大于5。本申请针对通过对比第五数据发布源(A)的验证次数0和预设验证条件(验证次数大于5)进行比较,则第五数据发布源(A)的验证次数0不符合预设验证条件(验证次数大于5)。本申请中将数据发布源A的验证次数加1,将验证次数为1的数据发布源A作为新的第二数据发布源,再次进行验证。
作为本申请实施例中,一种可选的实施例,本申请具体实施可以如图2所示的步骤进行:
101,预设检索关键词组A1,关键词组包含但不限于项目名称、企业、单位等;
102,计算机根据A1中的关键词,使用相关爬虫技术分别在索引擎上检索,搜索引擎包含但限于IE/Edge,Chrome,Safari,Opera,Firefox等浏览器;
103,提取搜索引擎结果数据,提取内容包含不限于标题、链接等属性。每条结果为一个对象,提取结果为一个对象数组A2;
104,预设链接垃圾数据库A3,用于过滤非目标数据;
105,对新收集的链接A2逐个和A3中链接地址对比,从A2中删除A2和A3的交集部分,生成新集合A4,并设置集合A4每个子集的无效验证次数为0,后续步骤114使用;
R01,预设链接集合B1,集合B1合并至105步骤A4集合中;R01步骤可以根据需要添加或删除;并设置集合A4每个子集的无效验证次数为0,后续步骤114使用;
106,使用爬虫技术分别采集A4集合中对应页面数据,并解析出标题、链接对象;
107,整理106步骤中所有对象集,根据对象中链接属性进行去重,生成集合A5;
R02,预设过滤关键词集合B2,关键词以标讯类敏感词示例如:采购意向、招标公告、合同公告、询价公告、单一来源、变更公告、中标公告等等;
108,逐个取集合A5子集的标题和集合B2中所有关键词进行对比分析,如存在包含关系则判定有效,执行109;否则判定无效,执行110;
109,所有有效数据生成集合A6;
110,所有无效数据生成集合B3;
R03,预设已收录数据源清单A01;
111,删除A6中和A01的交集,生成集合A7;人工审核A7数据,如需收录进入步骤112,否则进步步骤113;
112,步骤111中所有需收录数据为A8,并把A8数据存入集合A01中;
113,步骤111中所有不需收录数据为A9,并把A9数据存入集合A03中;
110,步骤108中所有无效数据生成集合B3,并在每个子集对象上设置无效验证次数加1;
114,判断集合B3所有子集无效验证次数是否达到上限(无效验证次数根据使用场景自定义设置),达到或超过上限测执行115,否则执行116;
115,步骤114所有达到无效验证次数的子集生成集合B5;
116,步骤114所有未达到无效验证次数的子集生成集合B4,并把集合B4再次通过104中的垃圾库A3进行过滤,再次执行收录操作。
本申请将现有技术中人工寻找数据源的关键节点进行结构化、规则化、路径化,然后使用计算机根据预设词库、预设规则、预定路径自动实现自动寻源,并把寻源结果进行过滤、清洗、去重,然后结构化存储。
图3示出了本申请实施例所提供的一种数据发布源收录的装置的结构示意图,所述装置包括:
过滤模块,用于针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源;
调整模块,用于根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源;
第一确定模块,用于根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源;
第二确定模块,用于结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源。
若所述待收录数据发布源通过审核,将所述待收录数据发布源收录到收录库中;
将所述待收录数据发布源和所述已收录数据发布源进行合并,作为新的已收录数据发布源。
若所述待收录数据发布源未能通过审核,使用所述待收录数据发布源对所述数据发布源垃圾库进行更新。
根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源,包括:
所述对预设的参考数据发布源和所述第二数据发布源进行整合,得到第三数据发布源。
所述关联关系为包含关系,通过以下方式确定第四数据发布源:
若所述第三数据发布源包含的第三关键词包含所述第二关键词中的至少一个,将该第三数据发布源作为所述第四数据发布源。
第一确定模块,还用于根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词不具有关联关系的第五数据发布源。
所述第五数据发布源包括有初始验证标识;所述方法还包括:
若所述第五数据发布源的初始验证标识不符合预设验证条件,对所述第五数据发布源的初始验证标识进行更新;
将更新后初始验证标识的所述第五数据发布源作为新的第一数据发布源,再次进行收录处理,直至所述第五数据发布源的初始验证标识符合预设验证条件。
如图4所示,本申请实施例提供了一种电子设备,用于执行本申请中的数据发布源收录的方法,该设备包括存储器、处理器、总线及存储在该存储器上并可在该处理器上运行的计算机程序,其中,上述处理器执行上述计算机程序时实现上述的数据发布源收录的方法的步骤。
具体地,上述存储器和处理器可以为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述的数据发布源收录的方法。
对应于本申请中的数据发布源收录的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的数据发布源收录的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的数据发布源收录的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种数据发布源收录的方法,其特征在于,所述方法包括:
针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源;数据发布源包括发布数据的网站或者网站的栏目的访问地址;所述第二数据发布源设置有初始验证标识,所述初始验证标识用于对所述数据发布源垃圾库进行更新;
根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源;
根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源;
结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源;
所述根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源,包括:
根据预设的参考数据发布源对所述第二数据发布源进行删除和/或增加数据发布源,得到第三数据发布源;
所述方法还包括:
根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词不具有关联关系的第五数据发布源;
若所述第五数据发布源的初始验证标识不符合预设验证条件,对所述第五数据发布源的初始验证标识进行更新;
将更新后初始验证标识的所述第五数据发布源作为新的第一数据发布源,再次进行收录处理,直至所述第五数据发布源的初始验证标识符合预设验证条件;
若所述第五数据发布源的初始验证标识符合预设验证条件,使用所述第五数据发布源对所述数据发布源垃圾库进行更新。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述待收录数据发布源通过审核,将所述待收录数据发布源收录到收录库中;
将所述待收录数据发布源和所述已收录数据发布源进行合并,作为新的已收录数据发布源。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述待收录数据发布源未能通过审核,使用所述待收录数据发布源对所述数据发布源垃圾库进行更新。
4.根据权利要求1所述的方法,其特征在于,根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源,包括:
对预设的参考数据发布源和所述第二数据发布源进行整合,得到第三数据发布源。
5.根据权利要求1所述的方法,其特征在于,所述关联关系为包含关系,通过以下方式确定第四数据发布源:
若所述第三数据发布源包含的第三关键词包含所述第二关键词中的至少一个,将该第三数据发布源作为所述第四数据发布源。
6.一种数据发布源收录的装置,其特征在于,所述装置包括:
过滤模块,用于针对根据预设的第一关键词检索得到的第一数据发布源,通过预设的数据发布源垃圾库对所述第一数据发布源进行过滤,得到第二数据发布源;数据发布源包括发布数据的网站或者网站的栏目的访问地址;所述第二数据发布源设置有初始验证标识,所述初始验证标识用于对所述数据发布源垃圾库进行更新;
调整模块,用于根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源;
第一确定模块,用于根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词具有关联关系的第四数据发布源;
第二确定模块,用于结合所述第四数据发布源和收录库中的已收录数据发布源,确定出待收录数据发布源;
所述根据预设的调整规则,对所述第二数据发布源进行调整,得到第三数据发布源,包括:
根据预设的参考数据发布源对所述第二数据发布源进行删除和/或增加数据发布源,得到第三数据发布源;
第一确定模块,还用于根据所述第三数据发布源包含的第三关键词与预设的第二关键词之间的关联关系,从所述第三数据发布源中,确定出与所述第二关键词不具有关联关系的第五数据发布源;
若所述第五数据发布源的初始验证标识不符合预设验证条件,对所述第五数据发布源的初始验证标识进行更新;
将更新后初始验证标识的所述第五数据发布源作为新的第一数据发布源,再次进行收录处理,直至所述第五数据发布源的初始验证标识符合预设验证条件;
若所述第五数据发布源的初始验证标识符合预设验证条件,使用所述第五数据发布源对所述数据发布源垃圾库进行更新。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的数据发布源收录的方法的步骤。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述的数据发布源收录的方法的步骤。
CN202210776323.4A 2022-07-04 2022-07-04 一种数据发布源收录的方法、装置、电子设备及存储介质 Active CN114840776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210776323.4A CN114840776B (zh) 2022-07-04 2022-07-04 一种数据发布源收录的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210776323.4A CN114840776B (zh) 2022-07-04 2022-07-04 一种数据发布源收录的方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114840776A CN114840776A (zh) 2022-08-02
CN114840776B true CN114840776B (zh) 2022-09-20

Family

ID=82574693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210776323.4A Active CN114840776B (zh) 2022-07-04 2022-07-04 一种数据发布源收录的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114840776B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000295578A (ja) * 1999-04-02 2000-10-20 Toshiba Corp 映像情報再生装置及び映像情報再生方法
CN103226576A (zh) * 2013-04-01 2013-07-31 杭州电子科技大学 基于语义相似度的垃圾评论过滤方法
CN107590169A (zh) * 2017-04-14 2018-01-16 南方科技大学 一种运营商网关数据的预处理方法及系统
CN109101597A (zh) * 2018-07-31 2018-12-28 中电传媒股份有限公司 一种电力新闻数据采集系统
CN109657134A (zh) * 2018-11-06 2019-04-19 北京奇虎科技有限公司 一种数据过滤方法及装置
CN110659277A (zh) * 2019-10-09 2020-01-07 深圳信息职业技术学院 一种能源互联网数据采集方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006114216A (ja) * 2005-12-02 2006-04-27 Sony Corp 再生システム、再生方法
US20120072425A1 (en) * 2010-09-17 2012-03-22 Oracle International Corporation Customer focused keyword search in an enterprise
CN107241319B (zh) * 2017-05-26 2020-06-02 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
EP3467676A1 (en) * 2017-10-05 2019-04-10 Marc Planchette Method and computer program for dynamic update of design and layout of a web page
CN115836517B (zh) * 2020-08-11 2024-01-26 内容权利有限责任公司 信息处理装置、信息处理程序及记录介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000295578A (ja) * 1999-04-02 2000-10-20 Toshiba Corp 映像情報再生装置及び映像情報再生方法
CN103226576A (zh) * 2013-04-01 2013-07-31 杭州电子科技大学 基于语义相似度的垃圾评论过滤方法
CN107590169A (zh) * 2017-04-14 2018-01-16 南方科技大学 一种运营商网关数据的预处理方法及系统
CN109101597A (zh) * 2018-07-31 2018-12-28 中电传媒股份有限公司 一种电力新闻数据采集系统
CN109657134A (zh) * 2018-11-06 2019-04-19 北京奇虎科技有限公司 一种数据过滤方法及装置
CN110659277A (zh) * 2019-10-09 2020-01-07 深圳信息职业技术学院 一种能源互联网数据采集方法及装置

Also Published As

Publication number Publication date
CN114840776A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN111008265B (zh) 企业信息搜索方法及装置
US11455301B1 (en) Method and system for identifying entities
US10146878B2 (en) Method and system for creating filters for social data topic creation
US9779388B1 (en) Disambiguating organization names
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
US11544306B2 (en) System and method for concept-based search summaries
CN110472013B (zh) 一种热门话题更新方法、装置和计算机存储介质
US11886477B2 (en) System and method for quote-based search summaries
CN114091426A (zh) 一种处理数据仓库中字段数据的方法和装置
CN112463737A (zh) 针对多格式数据智能匹配模板快速采集数据的系统及方法
CN110880142A (zh) 一种风险实体获取方法及装置
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN103226601A (zh) 一种图片搜索的方法和装置
CN111191153A (zh) 一种信息技术咨询服务展示装置
CN111078828A (zh) 一种企业历史信息抽取方法及系统
CN115098440A (zh) 电子档案查询方法、装置、存储介质和设备
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN114840776B (zh) 一种数据发布源收录的方法、装置、电子设备及存储介质
CN104240107A (zh) 社群数据筛选系统及其方法
CN107169065B (zh) 一种特定内容的去除方法和装置
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN111428037B (zh) 一种分析行为政策匹配性的方法
CN113407678A (zh) 知识图谱构建方法、装置和设备
Monaco Methods for in-sourcing authority control with MarcEdit, SQL, and regular expressions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant