发明内容
本发明实施例提供了一种项目信息标准化方法及装置,能够提高对政务 服务事项进行标准化的效率。
第一方面,本发明实施例提供了一种项目信息标准化方法,包括:接收 外部输入的抓取规则和至少一个标准词;
根据所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
针对所述至少一个标准词中的每一个标准词,将所述至少一个项目信息 中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项 目信息分组;
针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项 目信息关联相同的标准项目名称和标准项目编码;
针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目 信息与对应的所述标准项目名称和所述标准项目编码进行关联。
优选地,所述根据所述抓取规则从至少一个网站中抓取至少一个项目的 项目信息,包括:
根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个 网站;
在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少 一个网站中抓取至少一个项目的项目信息。
优选地,所述将所述至少一个项目信息中所包括项目名称与所述标准词 语义相近的至少一个项目信息划分为一个项目信息分组,包括:
根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词, 其中,各个所述第一相似词之间语义不相近;
针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所 述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语 义不相近;
分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第 一相似词所占的个数比例;
将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为 一组,作为所述标准词对应的项目信息分组。
优选地,在所述根据预先设定的分词规则将所述标准词拆分为至少两个 第一相似词之前,进一步包括:
预先设定至少一个停用词;
将所述标准词所包括的所述停用词删除;
优选地,在所述根据所述分词规则将所述项目信息包括的所述项目名称 拆分为至少两个第二相似词之前,进一步包括:
预先设定至少一个停用词;
将所述项目名称所包括的所述停用词删除。
优选地,所述对所述项目信息分组包括的各个所述项目信息关联相同的 标准项目名称和标准项目编码,包括:
将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别 与所述项目信息分组包括的各个所述项目信息关联;
将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标 准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
第二方面,本发明实施例提供了一种项目信息标准化装置,包括:接收 单元,用于接收外部输入的抓取规则和至少一个标准词;
信息抓取单元,用于根据所述接收单元接收的所述抓取规则,从至少一 个网站中抓取至少一个项目的项目信息;
信息处理单元,用于针对所述接收单元接收的所述至少一个标准词中的 每一个标准词,将所述信息抓取单元抓取的所述至少一个项目信息中所包括 项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分 组;针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项 目信息关联相同的标准项目名称和标准项目编码;
信息关联单元,用于针对每一个所述项目信息,在所述项目信息对应的 网站上,将所述项目信息与所述信息处理单元确定的相应所述标准项目名称 和所述标准项目编码进行关联。
优选地,所述信息抓取单元,根据所述抓取规则包括的至少一个URL, 连接至少一个网站;在预设的爬取时长内,根据所述抓取规则包括的抓取范 围,从所述至少一个网站中抓取至少一个项目的项目信息。
优选地,所述信息处理单元,用于根据预先设定的分词规则,将所述标 准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相 近;针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所 述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语 义不相近;分别确定每一个所述项目信息对应的所述至少两个第二相似词中 所述第一相似词所占的个数比例;将所对应的所述个数比例大于预先设定比 例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
优选地,进一步包括:停用词处理单元;
所述停用词处理单元,用于在所述信息处理单元将所述标准词拆分为至 少两个第一相似词之前,预先设定至少一个停用词;将所述接收单元接收的 所述标准词所包括的所述停用词删除。
优选地,所述停用词处理单元,进一步用于在所述信息处理单元将所述 项目信息包括的所述项目名称拆分为至少两个第二相似词之前,预先设定至 少一个停用词;将通过所述信息抓取单元抓取的所述项目名称所包括的所述 停用词删除。
优选地,所述信息处理单元,用于将所述项目信息分组所对应的所述标 准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目 信息关联;并将与所述项目信息分组对应的所述标准词所对应的项目编码作 为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关 联。
在本发明实施例中,为了实现政务服务事项标准化,需要从网站中抓取 符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语义相 近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一个项 目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项目信 息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上,将项 目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工操作 来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发 明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所 获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种项目信息标准化方法,包括:
步骤101:接收外部输入的抓取规则和至少一个标准词;
步骤102:根据所述抓取规则,从至少一个网站中抓取至少一个项目的 项目信息;
步骤103:针对所述至少一个标准词中的每一个标准词,将所述至少一 个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划 分为一个项目信息分组;
步骤104:针对每一个所述项目信息分组,对所述项目信息分组包括的 各个所述项目信息关联相同的标准项目名称和标准项目编码;
步骤105:针对每一个所述项目信息,在所述项目信息对应的网站上, 将所述项目信息与对应的所述标准项目名称和所述标准项目编码进行关联。
在本发明实施例中,为了实现政务服务事项标准化,需要从网站中抓取 符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语义相 近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一个项 目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项目信 息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上,将项 目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工操作 来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
在本发明一实施例中,所述根据所述抓取规则从至少一个网站中抓取至 少一个项目的项目信息,包括:
根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个 网站;
在预设的爬取时长内,根据所述项目抓取规则包括的抓取范围,从所述 至少一个网站中抓取至少一个项目的项目信息。
在本发明实施例中,实现在实现政务服务事项标准化的过程中,不是通 过人工从网站中查找要被执行标准化的服务事项的项目信息,而是通过抓取 规则中的URL,连接要抓取的网站,再根据接收到的抓取范围,从网站中全 程智能抓取项目信息(例如,服务事项名称),无需人工干预,解放了劳动 力,从而提高对政务服务事项进行标准化的效率。
举例来说,在接收外部输入的抓取规则和标准词之后,根据抓取规则中 的URL,可以连接山东省某网站,在23点至5点期间,根据抓取规则中要 抓取的范围为服务栏中的服务事项名称,从山东省某网站上的服务栏中抓取 服务事项名称为“河道采砂管理费的征收”、“权限内河道采砂审核”、“征 收河道采砂管理费”,并保存这些服务事项名称。
在本发明一实施例中,所述将所述至少一个项目信息中所包括项目名称 与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组,包括:
根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词, 其中,各个所述第一相似词之间语义不相近;
针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所 述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语 义不相近;
分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第 一相似词所占的个数比例;
将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为 一组,作为所述标准词对应的项目信息分组。
在本发明实施例中,在抓取到项目信息之后,根据分词规则,将接收到 的标准词中的任意一个标准词,拆分为至少两个第一相似词,同样将每个抓 取到的项目信息拆分为至少两个第二相似词,分别将每个项目信息的第二相 似词与第一相似词比对,确定第二相似词与第一相似词的相似度是否大于预 先设定的阈值,如果是,将第二相似词对应的项目信息划分为标准词对应的 项目信息分组。根据标准词和分词规则,可以将抓取到的项目信息智能分组, 无需人工逐个项目信息后再分组,节约了工作人员实现政务服务事项标准化的时间,从而提高了对政务服务事项进行标准化的效率。
举例来说,根据预先设定的分词规则,将标准词为“河道采砂的管理费 征收”拆分为“河道采砂”、“管理费”和“征收”三个第一相似词。将抓 取到的服务事项名称为“权限内河道采砂审核”拆分为“河道采砂”、“权 限内”和“审核”三个第二相似词,经过将三个第一相似词与三个第二相似 词对比,可以确定第一相似词在第二相似词里所占的个数比例为1/3,而预 设的比例阈值为不小于50%,所以不能将“权限内河道采砂审核”与准词为 “河道采砂的管理费征收”划分为一组。
如果抓取到的服务事项名称为“河道采砂管理费的征收”拆分为“河道 采砂”、“管理费”和“征收”三个第二相似词,经过将三个第二相似词与 三个第一相似词对比,可以确定第一相似词在第二相似词里所占的个数比例 为100%,大于预设的比例阈值,可以将“河道采砂管理费的征收”划分为 标准词的组下,并将“河道采砂管理费的征收”关联上“河道采砂的管理费 征收”。
抓取到的服务事项名称为“征收河道采砂管理费”拆分为“河道采砂”、 “管理费”“征收”三个第二相似词,经过将三个第二相似词与三个第一相 似词对比,可以确定第一相似词在第二相似词里所占的个数比例为100%, 大于预设的比例阈值,可以将“征收河道采砂管理费”划分为标准词的组下, 并将“征收河道采砂管理费”关联上“河道采砂的管理费征收”。
在本发明一实施例中,在所述根据预先设定的分词规则将所述标准词拆 分为至少两个第一相似词之前,进一步包括:
预先设定至少一个停用词;
将所述标准词所包括的所述停用词删除。
在本发明实施例中,在根据分词规则将标准词拆分为至少两个第一相似 词之前,需要根据设定的停用词,先将标准词中的停用词去除,再将去除停 用词的标准词拆分为至少两个第一相似词。将标准词中的停用词去除,能够 提高从拆分的项目名称(例如,服务事项名称)中查找与标准词语义相近项 目名称。
举例来说,预先设定停用词为“的”和“权限内”。在将标准词拆分为 第一相似词之前,先将标准词“河道采砂的管理费征收”中的停用词“的” 去除。
在本发明一实施例中,在所述根据所述分词规则将所述项目信息包括的 所述项目名称拆分为至少两个第二相似词之前,进一步包括:
预先设定至少一个停用词;
将所述项目名称所包括的所述停用词删除。
在本发明实施例中,在根据分词规则将项目名称(例如,服务事项名称) 拆分为至少两个第二相似词之前,需要根据设定的停用词,先将项目名称中 的停用词去除,再将去除停用词的项目名称拆分为至少两个第二相似词。将 项目名称中的停用词去除,能够提高从拆分的项目名称中查找与标准词语义 相近项目名称。
举例来说,预先设定停用词为“的”、“权限内”。将服务项目名称为 “权限内河道采砂审核”,中的停用词“权限内”去除。
在本发明一实施例中,所述对所述项目信息分组包括的各个所述项目信 息关联相同的标准项目名称和标准项目编码,包括:
将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别 与所述项目信息分组包括的各个所述项目信息关联;
将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标 准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
在本发明实施例中,将项目信息分组对应的标准词与该组中所有的项目 信息关联,并将标准词所对应的编码与该组所有的项目信息关联。每一个组 内的项目信息能够根据该组的标准词被关联上相同的名称和编码,无需人工 手动逐个编辑,节约了工作人员实现政务服务事项标准化的时间,从而提高 了对政务服务事项进行标准化的效率。
举例来说,由于“河道采砂管理费的征收”和“征收河道采砂管理费” 被划分为一组,所以将其关联上该组所对应的标准词为“河道采砂的管理费 征收”。标准词“河道采砂的管理费征收”的编码为01012345,将该编码同 时关联在“河道采砂管理费的征收”和“征收河道采砂管理费”上。
为了更加清楚的说明本发明的技术方案及优点,以抓取山东省某网站内 的服务事项名称为例,对本发明实施例提供了一种项目信息标准化方法进行 详细说明,如图2所示,具体可以包括以下步骤:
步骤201:接收外部输入的抓取规则和至少一个标准词。
具体地,为了在实现政务服务事项标准化,需要先接收外部输入的抓取 规则和标准词,根据抓取规则决定要抓取的内容,并将抓取到的内容根据标 准词来分组。
举例来说,语义分析的事项信息采集系统接收外部输入的抓取规则包括 的爬取网站的URL和抓取范围山东省某网站上的服务栏中所有服务事项的 名称,并接收外部输入的标准词为“河道采砂的管理费征收”。
步骤202:根据抓取规则包括的至少一个统一资源定位符URL,连接山 东省某网站。
具体地,在抓取之前,需要先连接被抓去的网站,根据抓取规则中的URL, 可以确定并连接上山东省某网站。
举例来说,通过山东省某网站的URL,连接该网站。
步骤203:在预设的爬取时长内,根据抓取规则包括的抓取范围,从山 东省某网站内抓取至少一个服务事项名称。
具体地,为了实现服务事项标准化,也为了避免在山东省某网站上爬取 的时间太长被禁止爬取,需要设定每次爬取的时长,在爬取时长内抓取符合 抓取范围的服务事项名称,如果一次未抓取完,先断开与该网站的连接,等 一会再连接该网站,在规定的抓去时长内,抓取剩余的服务事项名称。
举例来说,在23点至5点期间,根据抓取范围为服务栏中的所有服务事 项名称,在预设的爬取时长为10min内,从山东省某网站上抓取第一个服务 事项名称为“权限内河道采砂审核”、第二个服务事项名称为“河道采砂管 理费的征收”、第三个服务事项名称为“征收河道采砂管理费”,并将这些 服务事项名称保存在本地的数据库中。
步骤204:设置至少一个停用词,将标准词和服务事项名称所包括的停 用词删除。
具体地,在将标准词和服务事项名称拆分之前,需要将标准词和服务事 项名称中的停用词去除,以使提高服务事项名称与标准词的相似度。
举例来说,设置的停用词为“的”和“权限内”。将标准词“河道采砂 的管理费征收”中的停用词“的”去除,再将抓取到的第一个服务事项名称 为“权限内河道采砂审核”和第二个服务事项名称为“河道采砂管理费的征 收”中的停用词“的”和“权限内”去掉。
步骤205:针对至少一个标准词中的每一个标准词,根据预先设定的分 词规则,将该标准词拆分为至少两个第一相似词。
具体地,为了便于标准词与抓取到的服务项名称对比相似度,需要将标 准词拆分为至少两个第一相似词,其中,各个第一相似词之间语义不相近。
举例来说,根据预先设定的分词规则,将去除停用词的标准词为“河道 采砂管理费征收”,拆分为“河道采砂”、“管理费”和“征收”三个第一 相似词。
步骤206:根据分词规则将每一个项目名称拆分为至少两个第二相似词。
具体地,为了便于标准词与抓取到的服务项名称对比相似度,需要将服 务事项名称拆分为至少两个第二相似词,其中,各个第二相似词之间语义不 相近。
举例来说,根据分词规则,将被去除停用词的第一个服务事项名称为“河 道采砂审核”拆分为“河道采砂”和“审核”两个第二相似词;
被去除停用词的第二个服务事项名称为“河道采砂管理费征收”拆分为 “河道采砂”、“管理费”和“征收”三个第二相似词;
将第三个服务事项名称为“征收河道采砂管理费”拆分为“河道采砂”、 “管理费”“征收”三个第二相似词。
步骤207:分别确定每一个服务事项名称对应的至少两个第二相似词中 第一相似词所占的个数比例。
具体地,为了实现政务服务事项标准化,在将抓取到的服务事项名称根 据标准词分组之前,需要先将拆分的服务事项名称和拆分的标准词来对比, 确定每一个服务事项名称对应的至少两个第二相似词中第一相似词所占的个 数比例。
举例来说,将第一个服务事项名称对应的“河道采砂”和“审核”两个 相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似词对 比,可以确定第一相似词在第二相思地理所占的个数比例为50%。
将第二个服务事项名称对应的“河道采砂”、“管理费”“征收”三个 第二相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似 词对比,可以确定第一相似词在第二相思地理所占的个数比例为100%。
将第二个服务事项名称对应的“河道采砂”、“管理费”“征收”三个 第二相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似 词对比,可以确定第一相似词在第二相思地理所占的个数比例为100%。
步骤208:将所对应的个数比例大于预先设定比例阈值的服务事项名称 划分为一组,作为标准词对应的服务事项分组。
具体地,为了对同一组的所有服务事项名称进行同一命名和同一编码之 前,需要将服务事项名称根据预先设定的比例阈值分组,满足比例阈值的服 务事项名称分为一组,并作为标准词对应的服务事项分组。
举例来说,预设比例阈值为相似度不小于50%,服务事项名称为“权限 内河道采砂审核”与标准词“河道采砂的管理费征收”的相似度为50%,服 务事项名称为“河道采砂管理费的征收”与标准值的相似度为100%,第二 个服务事项名称为“征收河道采砂管理费”与标准值的相似度为100%,可 以确定“河道采砂管理费的征收”和“征收河道采砂管理费”与标准词为同 一类型的事项,将“河道采砂管理费的征收”和“征收河道采砂管理费”划分为一组,组名为“河道采砂的管理费征收分组”。
步骤209:将服务事项分组所对应的标准词作为该组的标准项目名称, 分别于服务事项分组包括的各个服务事项名称关联。
具体地,为了实现政务服务事项标准化,需要将同一组内的所有服务事 项名称与该组对应的标准词关联。
举例来说,将同一组中的“河道采砂管理费的征收”和“征收河道采砂 管理费”关联该组所对应的标准词“河道采砂的管理费征收”。
步骤210:将与服务事项分组对应的标准词所对应的项目编码作为标准 项目编码,分别与服务事项分组包括的各个服务事项名称关联。
具体地,为了实现政务服务事项标准化,需要将同一组内被关联相同标 准词的所有服务事项名称再关联上标准词对应的编码。
举例来说,标准词“河道采砂的管理费征收”对应的编码为01012345, 将同一组内的被关联同一标准词名称的“河道采砂管理费的征收”和“征收 河道采砂管理费”,再统一关联编码01012345。
步骤211:针对每一个服务事项名称,在服务事项名称对应的网站上, 将服务事项名称与对应的标准项目名称和标准项目编码进行关联。
具体地,为了实现网站上所有政务服务事项的标准化,在将服务事项名 称被关联标准项目名称和标准项目编码之后,在该服务事项名称所在的网站 上,关联上该服务事项名称所对应的标准项目名称和标准项目编码,实现同 一事项,同一名称和同一编码。
举例来说,在山东省某网站上,将“河道采砂管理费的征收”和“征收 河道采砂管理费”关联上相同的名称为“河道采砂的管理费征收”和编码 01012345。
如图3所示,本发明实施例提供了一种项目信息标准化装置,包括:
接收单元301,用于接收外部输入的抓取规则和至少一个标准词;
信息抓取单元302,用于根据所述接收单元301接收的所述抓取规则, 从至少一个网站中抓取至少一个项目的项目信息;
信息处理单元303,用于针对所述接收单元301接收的所述至少一个标 准词中的每一个标准词,将所述信息抓取单元302抓取的所述至少一个项目 信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一 个项目信息分组;针对每一个所述项目信息分组,对所述项目信息分组包括 的各个所述项目信息关联相同的标准项目名称和标准项目编码;
信息关联单元304,用于针对每一个所述项目信息,在所述项目信息对 应的网站上,将所述项目信息与所述信息处理单元303确定的相应所述标准 项目名称和所述标准项目编码进行关联。
在本发明实施例中,为了实现政务服务事项标准化,需要通过信息抓取 单元从网站中抓取符合接收单元接收到的抓取规则的项目信息,针对接收单 元接收到每一个标准词,通过信息处理单元将与该标准词语义相近的项目信 息划分为一个项目信息分组,对每个项目信息分组中的每一个项目信息关联 相同的标准项目名称和标准项目编码,并通过信息关联单元与网站上对应的 项目信息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上, 将项目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工 操作来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提 高了对政务服务事项进行标准化的效率。
在本发明一实施例中,所述信息抓取单元,根据所述抓取规则包括的至 少一个统一资源定位符URL,连接至少一个网站;在预设的爬取时长内,根 据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目 的项目信息。
在本发明一实施例中,所述信息处理单元,用于根据预先设定的分词规 则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词 之间语义不相近;针对每一个所述项目信息,根据所述分词规则将所述项目 信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二 相似词之间语义不相近;分别确定每一个所述项目信息对应的所述至少两个 第二相似词中所述第一相似词所占的个数比例;将所对应的所述个数比例大 于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项 目信息分组。
基于图3所示的一种项目信息标准化装置,在本发明一实施例中,如图 4所示,该装置进一步包括:停用词处理单元401;
所述停用词处理单元401,用于在所述信息处理单元将所述标准词拆分 为至少两个第一相似词之前,预先设定至少一个停用词;将所述接收单元301 接收的所述标准词所包括的所述停用词删除。
基于图4所示的一种项目信息标准化装置,本发明一实时例中,如图5 所示,
所述停用词处理单元401,进一步用于在所述信息处理单元将所述项目 信息包括的所述项目名称拆分为至少两个第二相似词之前,预先设定至少一 个停用词;将通过所述信息抓取单元302抓取的所述项目名称所包括的所述 停用词删除。
在本发明一实施例中,所述信息处理单元,用于将所述项目信息分组所 对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的 各个所述项目信息关联;将与所述项目信息分组对应的所述标准词所对应的 项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述 项目信息关联。
本发明各个实施例至少具有如下有益效果:
1、在本发明一实施例中,为了实现政务服务事项标准化,需要从网站中 抓取符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语 义相近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一 个项目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项 目信息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上, 将项目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工 操作来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
2、在本发明一实施例中,实现在实现政务服务事项标准化的过程中,不 是通过人工从网站中查找要被执行标准化的服务事项的项目信息,而是通过 抓取规则中的URL,连接要抓取的网站,再根据接收到的抓取范围,从网站 中全程智能抓取项目信息(例如,服务事项名称),无需人工干预,解放了 劳动力,从而提高对政务服务事项进行标准化的效率。
3、在本发明一实施例中,在抓取到项目信息之后,根据分词规则,将接 收到的标准词中的任意一个标准词,拆分为至少两个第一相似词,同样将每 个抓取到的项目信息拆分为至少两个第二相似词,分别将每个项目信息的第 二相似词与第一相似词比对,确定第二相似词与第一相似词的相似度是否大 于预先设定的阈值,如果是,将第二相似词对应的项目信息划分为标准词对 应的项目信息分组。根据标准词和分词规则,可以将抓取到的项目信息智能 分组,无需人工逐个项目信息后再分组,节约了工作人员实现政务服务事项标准化的时间,从而提高了对政务服务事项进行标准化的效率。
4、在本发明一实施例中,在根据分词规则将标准词拆分为至少两个第一 相似词之前,需要根据设定的停用词,先将标准词中的停用词去除,再将去 除停用词的标准词拆分为至少两个第一相似词。将标准词中的停用词去除, 能够提高从拆分的项目名称(例如,服务事项名称)中查找与标准词语义相 近项目名称。
5、在本发明一实施例中,在根据分词规则将项目名称(例如,服务事项 名称)拆分为至少两个第二相似词之前,需要根据设定的停用词,先将项目 名称中的停用词去除,再将去除停用词的项目名称拆分为至少两个第二相似 词。将项目名称中的停用词去除,能够提高从拆分的项目名称中查找与标准 词语义相近项目名称。
6、在本发明一实施例中,将项目信息分组对应的标准词与该组中所有的 项目信息关联,并将标准词所对应的编码与该组所有的项目信息关联。每一 个组内的项目信息能够根据该组的标准词被关联上相同的名称和编码,无需 人工手动逐个编辑,节约了工作人员实现政务服务事项标准化的时间,从而 提高了对政务服务事项进行标准化的效率。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这 些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系 列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明 确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有 的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定 的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另 外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤 可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取 的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述 的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介 质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本 发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原 则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。