CN107329956A - 一种项目信息标准化方法及装置 - Google Patents

一种项目信息标准化方法及装置 Download PDF

Info

Publication number
CN107329956A
CN107329956A CN201710616017.3A CN201710616017A CN107329956A CN 107329956 A CN107329956 A CN 107329956A CN 201710616017 A CN201710616017 A CN 201710616017A CN 107329956 A CN107329956 A CN 107329956A
Authority
CN
China
Prior art keywords
project
project information
words
standard
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710616017.3A
Other languages
English (en)
Other versions
CN107329956B (zh
Inventor
赵盼
陈兆亮
王冠军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201710616017.3A priority Critical patent/CN107329956B/zh
Publication of CN107329956A publication Critical patent/CN107329956A/zh
Application granted granted Critical
Publication of CN107329956B publication Critical patent/CN107329956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种项目信息标准化方法,包括:接收外部输入的抓取规则和至少一个标准词;根据所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;针对所述至少一个标准词中的每一个标准词,将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分一个项目信息分组;针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与对应的所述标准项目名称和所述标准项目编码进行关联。本方案能够提高对政务服务事项进行标准化的效率。

Description

一种项目信息标准化方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种项目信息标准化方法及装 置。
背景技术
随着互联网的普及与发展,各地区各部门积极推进网上政府服务平台建 设,开展网上办事,有效优化了政府服务、方便了企业和群众。但同时也存 在网上政务服务内容不规范、政务服务的标准化规范化程度不够高等问题。 为此,各地区各部门按照《“互联网+政务服务”技术体系建设指南》的要 求,在2020年底前,将地方各级政务服务事项进行标准化、规范化,实现政 务服务事项标准化。
目前,各地区各部门在实现政务服务事项标准化的过程中,没有有效的 实时操作途径,只能通过人工操作来实现同一事项具有相同的编码和名称。
但是,政务服务事项的数据量较大,通过人工操作来实现政务服务事项 标准化,需要耗费了各级职能部门大量的时间,造成对政务服务事项进行标 准化的效率较低。
发明内容
本发明实施例提供了一种项目信息标准化方法及装置,能够提高对政务 服务事项进行标准化的效率。
第一方面,本发明实施例提供了一种项目信息标准化方法,包括:接收 外部输入的抓取规则和至少一个标准词;
根据所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
针对所述至少一个标准词中的每一个标准词,将所述至少一个项目信息 中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项 目信息分组;
针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项 目信息关联相同的标准项目名称和标准项目编码;
针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目 信息与对应的所述标准项目名称和所述标准项目编码进行关联。
优选地,所述根据所述抓取规则从至少一个网站中抓取至少一个项目的 项目信息,包括:
根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个 网站;
在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少 一个网站中抓取至少一个项目的项目信息。
优选地,所述将所述至少一个项目信息中所包括项目名称与所述标准词 语义相近的至少一个项目信息划分为一个项目信息分组,包括:
根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词, 其中,各个所述第一相似词之间语义不相近;
针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所 述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语 义不相近;
分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第 一相似词所占的个数比例;
将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为 一组,作为所述标准词对应的项目信息分组。
优选地,在所述根据预先设定的分词规则将所述标准词拆分为至少两个 第一相似词之前,进一步包括:
预先设定至少一个停用词;
将所述标准词所包括的所述停用词删除;
优选地,在所述根据所述分词规则将所述项目信息包括的所述项目名称 拆分为至少两个第二相似词之前,进一步包括:
预先设定至少一个停用词;
将所述项目名称所包括的所述停用词删除。
优选地,所述对所述项目信息分组包括的各个所述项目信息关联相同的 标准项目名称和标准项目编码,包括:
将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别 与所述项目信息分组包括的各个所述项目信息关联;
将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标 准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
第二方面,本发明实施例提供了一种项目信息标准化装置,包括:接收 单元,用于接收外部输入的抓取规则和至少一个标准词;
信息抓取单元,用于根据所述接收单元接收的所述抓取规则,从至少一 个网站中抓取至少一个项目的项目信息;
信息处理单元,用于针对所述接收单元接收的所述至少一个标准词中的 每一个标准词,将所述信息抓取单元抓取的所述至少一个项目信息中所包括 项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分 组;针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项 目信息关联相同的标准项目名称和标准项目编码;
信息关联单元,用于针对每一个所述项目信息,在所述项目信息对应的 网站上,将所述项目信息与所述信息处理单元确定的相应所述标准项目名称 和所述标准项目编码进行关联。
优选地,所述信息抓取单元,根据所述抓取规则包括的至少一个URL, 连接至少一个网站;在预设的爬取时长内,根据所述抓取规则包括的抓取范 围,从所述至少一个网站中抓取至少一个项目的项目信息。
优选地,所述信息处理单元,用于根据预先设定的分词规则,将所述标 准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相 近;针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所 述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语 义不相近;分别确定每一个所述项目信息对应的所述至少两个第二相似词中 所述第一相似词所占的个数比例;将所对应的所述个数比例大于预先设定比 例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
优选地,进一步包括:停用词处理单元;
所述停用词处理单元,用于在所述信息处理单元将所述标准词拆分为至 少两个第一相似词之前,预先设定至少一个停用词;将所述接收单元接收的 所述标准词所包括的所述停用词删除。
优选地,所述停用词处理单元,进一步用于在所述信息处理单元将所述 项目信息包括的所述项目名称拆分为至少两个第二相似词之前,预先设定至 少一个停用词;将通过所述信息抓取单元抓取的所述项目名称所包括的所述 停用词删除。
优选地,所述信息处理单元,用于将所述项目信息分组所对应的所述标 准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目 信息关联;并将与所述项目信息分组对应的所述标准词所对应的项目编码作 为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关 联。
在本发明实施例中,为了实现政务服务事项标准化,需要从网站中抓取 符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语义相 近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一个项 目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项目信 息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上,将项 目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工操作 来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种项目信息标准化方法的流程图;
图2是本发明一实施例提供的另一种项目信息标准化方法的流程图;
图3是本发明一实施例提供的一种项目信息标准化装置的结构示意图;
图4是本发明一实施例提供的另一种项目信息标准化装置的结构示意图;
图5是本发明一实施例提供的又一种项目信息标准化装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发 明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所 获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种项目信息标准化方法,包括:
步骤101:接收外部输入的抓取规则和至少一个标准词;
步骤102:根据所述抓取规则,从至少一个网站中抓取至少一个项目的 项目信息;
步骤103:针对所述至少一个标准词中的每一个标准词,将所述至少一 个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划 分为一个项目信息分组;
步骤104:针对每一个所述项目信息分组,对所述项目信息分组包括的 各个所述项目信息关联相同的标准项目名称和标准项目编码;
步骤105:针对每一个所述项目信息,在所述项目信息对应的网站上, 将所述项目信息与对应的所述标准项目名称和所述标准项目编码进行关联。
在本发明实施例中,为了实现政务服务事项标准化,需要从网站中抓取 符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语义相 近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一个项 目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项目信 息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上,将项 目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工操作 来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
在本发明一实施例中,所述根据所述抓取规则从至少一个网站中抓取至 少一个项目的项目信息,包括:
根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个 网站;
在预设的爬取时长内,根据所述项目抓取规则包括的抓取范围,从所述 至少一个网站中抓取至少一个项目的项目信息。
在本发明实施例中,实现在实现政务服务事项标准化的过程中,不是通 过人工从网站中查找要被执行标准化的服务事项的项目信息,而是通过抓取 规则中的URL,连接要抓取的网站,再根据接收到的抓取范围,从网站中全 程智能抓取项目信息(例如,服务事项名称),无需人工干预,解放了劳动 力,从而提高对政务服务事项进行标准化的效率。
举例来说,在接收外部输入的抓取规则和标准词之后,根据抓取规则中 的URL,可以连接山东省某网站,在23点至5点期间,根据抓取规则中要 抓取的范围为服务栏中的服务事项名称,从山东省某网站上的服务栏中抓取 服务事项名称为“河道采砂管理费的征收”、“权限内河道采砂审核”、“征 收河道采砂管理费”,并保存这些服务事项名称。
在本发明一实施例中,所述将所述至少一个项目信息中所包括项目名称 与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组,包括:
根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词, 其中,各个所述第一相似词之间语义不相近;
针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所 述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语 义不相近;
分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第 一相似词所占的个数比例;
将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为 一组,作为所述标准词对应的项目信息分组。
在本发明实施例中,在抓取到项目信息之后,根据分词规则,将接收到 的标准词中的任意一个标准词,拆分为至少两个第一相似词,同样将每个抓 取到的项目信息拆分为至少两个第二相似词,分别将每个项目信息的第二相 似词与第一相似词比对,确定第二相似词与第一相似词的相似度是否大于预 先设定的阈值,如果是,将第二相似词对应的项目信息划分为标准词对应的 项目信息分组。根据标准词和分词规则,可以将抓取到的项目信息智能分组, 无需人工逐个项目信息后再分组,节约了工作人员实现政务服务事项标准化的时间,从而提高了对政务服务事项进行标准化的效率。
举例来说,根据预先设定的分词规则,将标准词为“河道采砂的管理费 征收”拆分为“河道采砂”、“管理费”和“征收”三个第一相似词。将抓 取到的服务事项名称为“权限内河道采砂审核”拆分为“河道采砂”、“权 限内”和“审核”三个第二相似词,经过将三个第一相似词与三个第二相似 词对比,可以确定第一相似词在第二相似词里所占的个数比例为1/3,而预 设的比例阈值为不小于50%,所以不能将“权限内河道采砂审核”与准词为 “河道采砂的管理费征收”划分为一组。
如果抓取到的服务事项名称为“河道采砂管理费的征收”拆分为“河道 采砂”、“管理费”和“征收”三个第二相似词,经过将三个第二相似词与 三个第一相似词对比,可以确定第一相似词在第二相似词里所占的个数比例 为100%,大于预设的比例阈值,可以将“河道采砂管理费的征收”划分为 标准词的组下,并将“河道采砂管理费的征收”关联上“河道采砂的管理费 征收”。
抓取到的服务事项名称为“征收河道采砂管理费”拆分为“河道采砂”、 “管理费”“征收”三个第二相似词,经过将三个第二相似词与三个第一相 似词对比,可以确定第一相似词在第二相似词里所占的个数比例为100%, 大于预设的比例阈值,可以将“征收河道采砂管理费”划分为标准词的组下, 并将“征收河道采砂管理费”关联上“河道采砂的管理费征收”。
在本发明一实施例中,在所述根据预先设定的分词规则将所述标准词拆 分为至少两个第一相似词之前,进一步包括:
预先设定至少一个停用词;
将所述标准词所包括的所述停用词删除。
在本发明实施例中,在根据分词规则将标准词拆分为至少两个第一相似 词之前,需要根据设定的停用词,先将标准词中的停用词去除,再将去除停 用词的标准词拆分为至少两个第一相似词。将标准词中的停用词去除,能够 提高从拆分的项目名称(例如,服务事项名称)中查找与标准词语义相近项 目名称。
举例来说,预先设定停用词为“的”和“权限内”。在将标准词拆分为 第一相似词之前,先将标准词“河道采砂的管理费征收”中的停用词“的” 去除。
在本发明一实施例中,在所述根据所述分词规则将所述项目信息包括的 所述项目名称拆分为至少两个第二相似词之前,进一步包括:
预先设定至少一个停用词;
将所述项目名称所包括的所述停用词删除。
在本发明实施例中,在根据分词规则将项目名称(例如,服务事项名称) 拆分为至少两个第二相似词之前,需要根据设定的停用词,先将项目名称中 的停用词去除,再将去除停用词的项目名称拆分为至少两个第二相似词。将 项目名称中的停用词去除,能够提高从拆分的项目名称中查找与标准词语义 相近项目名称。
举例来说,预先设定停用词为“的”、“权限内”。将服务项目名称为 “权限内河道采砂审核”,中的停用词“权限内”去除。
在本发明一实施例中,所述对所述项目信息分组包括的各个所述项目信 息关联相同的标准项目名称和标准项目编码,包括:
将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别 与所述项目信息分组包括的各个所述项目信息关联;
将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标 准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
在本发明实施例中,将项目信息分组对应的标准词与该组中所有的项目 信息关联,并将标准词所对应的编码与该组所有的项目信息关联。每一个组 内的项目信息能够根据该组的标准词被关联上相同的名称和编码,无需人工 手动逐个编辑,节约了工作人员实现政务服务事项标准化的时间,从而提高 了对政务服务事项进行标准化的效率。
举例来说,由于“河道采砂管理费的征收”和“征收河道采砂管理费” 被划分为一组,所以将其关联上该组所对应的标准词为“河道采砂的管理费 征收”。标准词“河道采砂的管理费征收”的编码为01012345,将该编码同 时关联在“河道采砂管理费的征收”和“征收河道采砂管理费”上。
为了更加清楚的说明本发明的技术方案及优点,以抓取山东省某网站内 的服务事项名称为例,对本发明实施例提供了一种项目信息标准化方法进行 详细说明,如图2所示,具体可以包括以下步骤:
步骤201:接收外部输入的抓取规则和至少一个标准词。
具体地,为了在实现政务服务事项标准化,需要先接收外部输入的抓取 规则和标准词,根据抓取规则决定要抓取的内容,并将抓取到的内容根据标 准词来分组。
举例来说,语义分析的事项信息采集系统接收外部输入的抓取规则包括 的爬取网站的URL和抓取范围山东省某网站上的服务栏中所有服务事项的 名称,并接收外部输入的标准词为“河道采砂的管理费征收”。
步骤202:根据抓取规则包括的至少一个统一资源定位符URL,连接山 东省某网站。
具体地,在抓取之前,需要先连接被抓去的网站,根据抓取规则中的URL, 可以确定并连接上山东省某网站。
举例来说,通过山东省某网站的URL,连接该网站。
步骤203:在预设的爬取时长内,根据抓取规则包括的抓取范围,从山 东省某网站内抓取至少一个服务事项名称。
具体地,为了实现服务事项标准化,也为了避免在山东省某网站上爬取 的时间太长被禁止爬取,需要设定每次爬取的时长,在爬取时长内抓取符合 抓取范围的服务事项名称,如果一次未抓取完,先断开与该网站的连接,等 一会再连接该网站,在规定的抓去时长内,抓取剩余的服务事项名称。
举例来说,在23点至5点期间,根据抓取范围为服务栏中的所有服务事 项名称,在预设的爬取时长为10min内,从山东省某网站上抓取第一个服务 事项名称为“权限内河道采砂审核”、第二个服务事项名称为“河道采砂管 理费的征收”、第三个服务事项名称为“征收河道采砂管理费”,并将这些 服务事项名称保存在本地的数据库中。
步骤204:设置至少一个停用词,将标准词和服务事项名称所包括的停 用词删除。
具体地,在将标准词和服务事项名称拆分之前,需要将标准词和服务事 项名称中的停用词去除,以使提高服务事项名称与标准词的相似度。
举例来说,设置的停用词为“的”和“权限内”。将标准词“河道采砂 的管理费征收”中的停用词“的”去除,再将抓取到的第一个服务事项名称 为“权限内河道采砂审核”和第二个服务事项名称为“河道采砂管理费的征 收”中的停用词“的”和“权限内”去掉。
步骤205:针对至少一个标准词中的每一个标准词,根据预先设定的分 词规则,将该标准词拆分为至少两个第一相似词。
具体地,为了便于标准词与抓取到的服务项名称对比相似度,需要将标 准词拆分为至少两个第一相似词,其中,各个第一相似词之间语义不相近。
举例来说,根据预先设定的分词规则,将去除停用词的标准词为“河道 采砂管理费征收”,拆分为“河道采砂”、“管理费”和“征收”三个第一 相似词。
步骤206:根据分词规则将每一个项目名称拆分为至少两个第二相似词。
具体地,为了便于标准词与抓取到的服务项名称对比相似度,需要将服 务事项名称拆分为至少两个第二相似词,其中,各个第二相似词之间语义不 相近。
举例来说,根据分词规则,将被去除停用词的第一个服务事项名称为“河 道采砂审核”拆分为“河道采砂”和“审核”两个第二相似词;
被去除停用词的第二个服务事项名称为“河道采砂管理费征收”拆分为 “河道采砂”、“管理费”和“征收”三个第二相似词;
将第三个服务事项名称为“征收河道采砂管理费”拆分为“河道采砂”、 “管理费”“征收”三个第二相似词。
步骤207:分别确定每一个服务事项名称对应的至少两个第二相似词中 第一相似词所占的个数比例。
具体地,为了实现政务服务事项标准化,在将抓取到的服务事项名称根 据标准词分组之前,需要先将拆分的服务事项名称和拆分的标准词来对比, 确定每一个服务事项名称对应的至少两个第二相似词中第一相似词所占的个 数比例。
举例来说,将第一个服务事项名称对应的“河道采砂”和“审核”两个 相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似词对 比,可以确定第一相似词在第二相思地理所占的个数比例为50%。
将第二个服务事项名称对应的“河道采砂”、“管理费”“征收”三个 第二相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似 词对比,可以确定第一相似词在第二相思地理所占的个数比例为100%。
将第二个服务事项名称对应的“河道采砂”、“管理费”“征收”三个 第二相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似 词对比,可以确定第一相似词在第二相思地理所占的个数比例为100%。
步骤208:将所对应的个数比例大于预先设定比例阈值的服务事项名称 划分为一组,作为标准词对应的服务事项分组。
具体地,为了对同一组的所有服务事项名称进行同一命名和同一编码之 前,需要将服务事项名称根据预先设定的比例阈值分组,满足比例阈值的服 务事项名称分为一组,并作为标准词对应的服务事项分组。
举例来说,预设比例阈值为相似度不小于50%,服务事项名称为“权限 内河道采砂审核”与标准词“河道采砂的管理费征收”的相似度为50%,服 务事项名称为“河道采砂管理费的征收”与标准值的相似度为100%,第二 个服务事项名称为“征收河道采砂管理费”与标准值的相似度为100%,可 以确定“河道采砂管理费的征收”和“征收河道采砂管理费”与标准词为同 一类型的事项,将“河道采砂管理费的征收”和“征收河道采砂管理费”划分为一组,组名为“河道采砂的管理费征收分组”。
步骤209:将服务事项分组所对应的标准词作为该组的标准项目名称, 分别于服务事项分组包括的各个服务事项名称关联。
具体地,为了实现政务服务事项标准化,需要将同一组内的所有服务事 项名称与该组对应的标准词关联。
举例来说,将同一组中的“河道采砂管理费的征收”和“征收河道采砂 管理费”关联该组所对应的标准词“河道采砂的管理费征收”。
步骤210:将与服务事项分组对应的标准词所对应的项目编码作为标准 项目编码,分别与服务事项分组包括的各个服务事项名称关联。
具体地,为了实现政务服务事项标准化,需要将同一组内被关联相同标 准词的所有服务事项名称再关联上标准词对应的编码。
举例来说,标准词“河道采砂的管理费征收”对应的编码为01012345, 将同一组内的被关联同一标准词名称的“河道采砂管理费的征收”和“征收 河道采砂管理费”,再统一关联编码01012345。
步骤211:针对每一个服务事项名称,在服务事项名称对应的网站上, 将服务事项名称与对应的标准项目名称和标准项目编码进行关联。
具体地,为了实现网站上所有政务服务事项的标准化,在将服务事项名 称被关联标准项目名称和标准项目编码之后,在该服务事项名称所在的网站 上,关联上该服务事项名称所对应的标准项目名称和标准项目编码,实现同 一事项,同一名称和同一编码。
举例来说,在山东省某网站上,将“河道采砂管理费的征收”和“征收 河道采砂管理费”关联上相同的名称为“河道采砂的管理费征收”和编码 01012345。
如图3所示,本发明实施例提供了一种项目信息标准化装置,包括:
接收单元301,用于接收外部输入的抓取规则和至少一个标准词;
信息抓取单元302,用于根据所述接收单元301接收的所述抓取规则, 从至少一个网站中抓取至少一个项目的项目信息;
信息处理单元303,用于针对所述接收单元301接收的所述至少一个标 准词中的每一个标准词,将所述信息抓取单元302抓取的所述至少一个项目 信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一 个项目信息分组;针对每一个所述项目信息分组,对所述项目信息分组包括 的各个所述项目信息关联相同的标准项目名称和标准项目编码;
信息关联单元304,用于针对每一个所述项目信息,在所述项目信息对 应的网站上,将所述项目信息与所述信息处理单元303确定的相应所述标准 项目名称和所述标准项目编码进行关联。
在本发明实施例中,为了实现政务服务事项标准化,需要通过信息抓取 单元从网站中抓取符合接收单元接收到的抓取规则的项目信息,针对接收单 元接收到每一个标准词,通过信息处理单元将与该标准词语义相近的项目信 息划分为一个项目信息分组,对每个项目信息分组中的每一个项目信息关联 相同的标准项目名称和标准项目编码,并通过信息关联单元与网站上对应的 项目信息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上, 将项目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工 操作来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提 高了对政务服务事项进行标准化的效率。
在本发明一实施例中,所述信息抓取单元,根据所述抓取规则包括的至 少一个统一资源定位符URL,连接至少一个网站;在预设的爬取时长内,根 据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目 的项目信息。
在本发明一实施例中,所述信息处理单元,用于根据预先设定的分词规 则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词 之间语义不相近;针对每一个所述项目信息,根据所述分词规则将所述项目 信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二 相似词之间语义不相近;分别确定每一个所述项目信息对应的所述至少两个 第二相似词中所述第一相似词所占的个数比例;将所对应的所述个数比例大 于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项 目信息分组。
基于图3所示的一种项目信息标准化装置,在本发明一实施例中,如图 4所示,该装置进一步包括:停用词处理单元401;
所述停用词处理单元401,用于在所述信息处理单元将所述标准词拆分 为至少两个第一相似词之前,预先设定至少一个停用词;将所述接收单元301 接收的所述标准词所包括的所述停用词删除。
基于图4所示的一种项目信息标准化装置,本发明一实时例中,如图5 所示,
所述停用词处理单元401,进一步用于在所述信息处理单元将所述项目 信息包括的所述项目名称拆分为至少两个第二相似词之前,预先设定至少一 个停用词;将通过所述信息抓取单元302抓取的所述项目名称所包括的所述 停用词删除。
在本发明一实施例中,所述信息处理单元,用于将所述项目信息分组所 对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的 各个所述项目信息关联;将与所述项目信息分组对应的所述标准词所对应的 项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述 项目信息关联。
本发明各个实施例至少具有如下有益效果:
1、在本发明一实施例中,为了实现政务服务事项标准化,需要从网站中 抓取符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语 义相近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一 个项目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项 目信息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上, 将项目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工 操作来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
2、在本发明一实施例中,实现在实现政务服务事项标准化的过程中,不 是通过人工从网站中查找要被执行标准化的服务事项的项目信息,而是通过 抓取规则中的URL,连接要抓取的网站,再根据接收到的抓取范围,从网站 中全程智能抓取项目信息(例如,服务事项名称),无需人工干预,解放了 劳动力,从而提高对政务服务事项进行标准化的效率。
3、在本发明一实施例中,在抓取到项目信息之后,根据分词规则,将接 收到的标准词中的任意一个标准词,拆分为至少两个第一相似词,同样将每 个抓取到的项目信息拆分为至少两个第二相似词,分别将每个项目信息的第 二相似词与第一相似词比对,确定第二相似词与第一相似词的相似度是否大 于预先设定的阈值,如果是,将第二相似词对应的项目信息划分为标准词对 应的项目信息分组。根据标准词和分词规则,可以将抓取到的项目信息智能 分组,无需人工逐个项目信息后再分组,节约了工作人员实现政务服务事项标准化的时间,从而提高了对政务服务事项进行标准化的效率。
4、在本发明一实施例中,在根据分词规则将标准词拆分为至少两个第一 相似词之前,需要根据设定的停用词,先将标准词中的停用词去除,再将去 除停用词的标准词拆分为至少两个第一相似词。将标准词中的停用词去除, 能够提高从拆分的项目名称(例如,服务事项名称)中查找与标准词语义相 近项目名称。
5、在本发明一实施例中,在根据分词规则将项目名称(例如,服务事项 名称)拆分为至少两个第二相似词之前,需要根据设定的停用词,先将项目 名称中的停用词去除,再将去除停用词的项目名称拆分为至少两个第二相似 词。将项目名称中的停用词去除,能够提高从拆分的项目名称中查找与标准 词语义相近项目名称。
6、在本发明一实施例中,将项目信息分组对应的标准词与该组中所有的 项目信息关联,并将标准词所对应的编码与该组所有的项目信息关联。每一 个组内的项目信息能够根据该组的标准词被关联上相同的名称和编码,无需 人工手动逐个编辑,节约了工作人员实现政务服务事项标准化的时间,从而 提高了对政务服务事项进行标准化的效率。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这 些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系 列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明 确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有 的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定 的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另 外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤 可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取 的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述 的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介 质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本 发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原 则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种项目信息标准化方法,其特征在于,包括:
接收外部输入的抓取规则和至少一个标准词;
根据所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
针对所述至少一个标准词中的每一个标准词,将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组;
针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;
针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与对应的所述标准项目名称和所述标准项目编码进行关联。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述抓取规则从至少一个网站中抓取至少一个项目的项目信息,包括:
根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个网站;
在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目的项目信息。
3.根据权利要求1所述的方法,其特征在于,
所述将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组,包括:
根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相近;
针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语义不相近;
分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第一相似词所占的个数比例;
将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
4.根据权利要求3所述的方法,其特征在于,
在所述根据预先设定的分词规则将所述标准词拆分为至少两个第一相似词之前,进一步包括:
预先设定至少一个停用词;
将所述标准词所包括的所述停用词删除;
和/或,
在所述根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词之前,进一步包括:
预先设定至少一个停用词;
将所述项目名称所包括的所述停用词删除。
5.根据权利要求1至4中任一所述的方法,其特征在于,
所述对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码,包括:
将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目信息关联;
将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
6.一种项目信息标准化装置,其特征在于,包括:
接收单元,用于接收外部输入的抓取规则和至少一个标准词;
信息抓取单元,用于根据所述接收单元接收的所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
信息处理单元,用于针对所述接收单元接收的所述至少一个标准词中的每一个标准词,将所述信息抓取单元抓取的所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组;针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;
信息关联单元,用于针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与所述信息处理单元确定的相应所述标准项目名称和所述标准项目编码进行关联。
7.根据权利要求6所述的装置,其特征在于,
所述信息抓取单元,根据所述抓取规则包括的至少一个URL,连接至少一个网站;在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目的项目信息。
8.根据权利要求6所述的装置,其特征在于,
所述信息处理单元,用于根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相近;针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语义不相近;分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第一相似词所占的个数比例;将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
9.根据权利要求8所述的装置,其特征在于,进一步包括:停用词处理单元;
所述停用词处理单元,用于在所述信息处理单元将所述标准词拆分为至少两个第一相似词之前,预先设定至少一个停用词;将所述接收单元接收的所述标准词所包括的所述停用词删除;
和/或
所述停用词处理单元,进一步用于在所述信息处理单元将所述项目信息包括的所述项目名称拆分为至少两个第二相似词之前,预先设定至少一个停用词;并将通过所述信息抓取单元抓取的所述项目名称所包括的所述停用词删除。
10.根据权利要求6至9中任一所述的装置,其特征在于,
所述信息处理单元,用于将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目信息关联;将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
CN201710616017.3A 2017-07-26 2017-07-26 一种项目信息标准化方法及装置 Active CN107329956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710616017.3A CN107329956B (zh) 2017-07-26 2017-07-26 一种项目信息标准化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710616017.3A CN107329956B (zh) 2017-07-26 2017-07-26 一种项目信息标准化方法及装置

Publications (2)

Publication Number Publication Date
CN107329956A true CN107329956A (zh) 2017-11-07
CN107329956B CN107329956B (zh) 2020-06-16

Family

ID=60227453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710616017.3A Active CN107329956B (zh) 2017-07-26 2017-07-26 一种项目信息标准化方法及装置

Country Status (1)

Country Link
CN (1) CN107329956B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN110610389A (zh) * 2018-06-14 2019-12-24 上海汽车集团股份有限公司 一种目标标准的确定方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257909A1 (en) * 2013-03-11 2014-09-11 International Business Machines Corporation Estimating project cost
CN106408271A (zh) * 2016-10-10 2017-02-15 上海博辕信息技术服务有限公司 一种项目监测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257909A1 (en) * 2013-03-11 2014-09-11 International Business Machines Corporation Estimating project cost
CN106408271A (zh) * 2016-10-10 2017-02-15 上海博辕信息技术服务有限公司 一种项目监测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GIULIA DI PIETRO ET AL.: "Semantic crawling: An approach based on Named Entity Recognition", 《2014 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING》 *
张健 等: "新疆口岸物流信息化建设初探", 《电脑知识与技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610389A (zh) * 2018-06-14 2019-12-24 上海汽车集团股份有限公司 一种目标标准的确定方法及装置
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN107329956B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN105095223B (zh) 文本分类方法及服务器
CN104391881B (zh) 一种基于分词算法的日志解析方法及系统
CN101794390B (zh) 图像指纹提取方法及其设备、信息过滤方法及其系统
CN102722558B (zh) 一种为用户推荐提问的方法和装置
CN107203641A (zh) 一种互联网交通舆情信息采集和处理的方法
CN109658062A (zh) 一种基于深度学习的电子档案智能处理方法
CN101340308B (zh) 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法
CN107832196A (zh) 一种用于实时日志异常内容的监测装置及监测方法
CN106484709A (zh) 一种日志数据的审计方法和审计装置
CN104618132B (zh) 一种应用程序识别规则生成方法和装置
CN109634994A (zh) 一种简历与职位的匹配推送方法及计算机设备和存储介质
CN107203588A (zh) 一种数据分类管理系统
CN103686244A (zh) 视频数据的管理方法及其系统
CN110175730A (zh) 一种基于大数据的政府政策智能与企业匹配的系统及方法
CN108038506A (zh) 一种图书自动分类方法
CN107329956A (zh) 一种项目信息标准化方法及装置
CN110472797A (zh) 一种基于web的城市公交复杂网络自动化生成方法
CN113269244A (zh) 针对工商登记信息中跨企业人员重名实现消歧处理方法、系统、装置、处理器及其存储介质
CN104915388B (zh) 一种基于谱聚类和众包技术的图书标签推荐方法
CN109063054A (zh) 一种机器学习和大数据处理系统
CN104484651B (zh) 人像动态对比方法及系统
CN106447111A (zh) 一种基于大数据的高考志愿填报方法
CN110941836A (zh) 一种分布式垂直爬虫方法及终端设备
CN109740147B (zh) 一种大数量人才简历去重匹配分析方法
CN110083686A (zh) 一种专利自动推荐方法的算法设计

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200515

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant after: Tidal Cloud Information Technology Co.,Ltd.

Address before: 250100 Ji'nan science and technology zone, Shandong high tide Road, No. 1036 wave of science and Technology Park, building S06

Applicant before: SHANDONG INSPUR CLOUD SERVICE INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee after: Inspur cloud Information Technology Co., Ltd

Address before: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee before: Tidal Cloud Information Technology Co.,Ltd.