CN107329956B - 一种项目信息标准化方法及装置 - Google Patents

一种项目信息标准化方法及装置 Download PDF

Info

Publication number
CN107329956B
CN107329956B CN201710616017.3A CN201710616017A CN107329956B CN 107329956 B CN107329956 B CN 107329956B CN 201710616017 A CN201710616017 A CN 201710616017A CN 107329956 B CN107329956 B CN 107329956B
Authority
CN
China
Prior art keywords
item
standard
item information
word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710616017.3A
Other languages
English (en)
Other versions
CN107329956A (zh
Inventor
赵盼
陈兆亮
王冠军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN201710616017.3A priority Critical patent/CN107329956B/zh
Publication of CN107329956A publication Critical patent/CN107329956A/zh
Application granted granted Critical
Publication of CN107329956B publication Critical patent/CN107329956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种项目信息标准化方法,包括:接收外部输入的抓取规则和至少一个标准词;根据所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;针对所述至少一个标准词中的每一个标准词,将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分一个项目信息分组;针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与对应的所述标准项目名称和所述标准项目编码进行关联。本方案能够提高对政务服务事项进行标准化的效率。

Description

一种项目信息标准化方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种项目信息标准化方法及装置。
背景技术
随着互联网的普及与发展,各地区各部门积极推进网上政府服务平台建设,开展网上办事,有效优化了政府服务、方便了企业和群众。但同时也存在网上政务服务内容不规范、政务服务的标准化规范化程度不够高等问题。为此,各地区各部门按照《“互联网+政务服务”技术体系建设指南》的要求,在2020年底前,将地方各级政务服务事项进行标准化、规范化,实现政务服务事项标准化。
目前,各地区各部门在实现政务服务事项标准化的过程中,没有有效的实时操作途径,只能通过人工操作来实现同一事项具有相同的编码和名称。
但是,政务服务事项的数据量较大,通过人工操作来实现政务服务事项标准化,需要耗费了各级职能部门大量的时间,造成对政务服务事项进行标准化的效率较低。
发明内容
本发明实施例提供了一种项目信息标准化方法及装置,能够提高对政务服务事项进行标准化的效率。
第一方面,本发明实施例提供了一种项目信息标准化方法,包括:接收外部输入的抓取规则和至少一个标准词;
根据所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
针对所述至少一个标准词中的每一个标准词,将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组;
针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;
针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与对应的所述标准项目名称和所述标准项目编码进行关联。
优选地,所述根据所述抓取规则从至少一个网站中抓取至少一个项目的项目信息,包括:
根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个网站;
在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目的项目信息。
优选地,所述将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组,包括:
根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相近;
针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语义不相近;
分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第一相似词所占的个数比例;
将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
优选地,在所述根据预先设定的分词规则将所述标准词拆分为至少两个第一相似词之前,进一步包括:
预先设定至少一个停用词;
将所述标准词所包括的所述停用词删除;
优选地,在所述根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词之前,进一步包括:
预先设定至少一个停用词;
将所述项目名称所包括的所述停用词删除。
优选地,所述对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码,包括:
将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目信息关联;
将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
第二方面,本发明实施例提供了一种项目信息标准化装置,包括:接收单元,用于接收外部输入的抓取规则和至少一个标准词;
信息抓取单元,用于根据所述接收单元接收的所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
信息处理单元,用于针对所述接收单元接收的所述至少一个标准词中的每一个标准词,将所述信息抓取单元抓取的所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组;针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;
信息关联单元,用于针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与所述信息处理单元确定的相应所述标准项目名称和所述标准项目编码进行关联。
优选地,所述信息抓取单元,根据所述抓取规则包括的至少一个URL,连接至少一个网站;在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目的项目信息。
优选地,所述信息处理单元,用于根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相近;针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语义不相近;分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第一相似词所占的个数比例;将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
优选地,进一步包括:停用词处理单元;
所述停用词处理单元,用于在所述信息处理单元将所述标准词拆分为至少两个第一相似词之前,预先设定至少一个停用词;将所述接收单元接收的所述标准词所包括的所述停用词删除。
优选地,所述停用词处理单元,进一步用于在所述信息处理单元将所述项目信息包括的所述项目名称拆分为至少两个第二相似词之前,预先设定至少一个停用词;将通过所述信息抓取单元抓取的所述项目名称所包括的所述停用词删除。
优选地,所述信息处理单元,用于将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目信息关联;并将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
在本发明实施例中,为了实现政务服务事项标准化,需要从网站中抓取符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语义相近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一个项目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项目信息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上,将项目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工操作来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种项目信息标准化方法的流程图;
图2是本发明一实施例提供的另一种项目信息标准化方法的流程图;
图3是本发明一实施例提供的一种项目信息标准化装置的结构示意图;
图4是本发明一实施例提供的另一种项目信息标准化装置的结构示意图;
图5是本发明一实施例提供的又一种项目信息标准化装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种项目信息标准化方法,包括:
步骤101:接收外部输入的抓取规则和至少一个标准词;
步骤102:根据所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
步骤103:针对所述至少一个标准词中的每一个标准词,将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组;
步骤104:针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;
步骤105:针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与对应的所述标准项目名称和所述标准项目编码进行关联。
在本发明实施例中,为了实现政务服务事项标准化,需要从网站中抓取符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语义相近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一个项目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项目信息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上,将项目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工操作来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
在本发明一实施例中,所述根据所述抓取规则从至少一个网站中抓取至少一个项目的项目信息,包括:
根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个网站;
在预设的爬取时长内,根据所述项目抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目的项目信息。
在本发明实施例中,实现在实现政务服务事项标准化的过程中,不是通过人工从网站中查找要被执行标准化的服务事项的项目信息,而是通过抓取规则中的URL,连接要抓取的网站,再根据接收到的抓取范围,从网站中全程智能抓取项目信息(例如,服务事项名称),无需人工干预,解放了劳动力,从而提高对政务服务事项进行标准化的效率。
举例来说,在接收外部输入的抓取规则和标准词之后,根据抓取规则中的URL,可以连接山东省某网站,在23点至5点期间,根据抓取规则中要抓取的范围为服务栏中的服务事项名称,从山东省某网站上的服务栏中抓取服务事项名称为“河道采砂管理费的征收”、“权限内河道采砂审核”、“征收河道采砂管理费”,并保存这些服务事项名称。
在本发明一实施例中,所述将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组,包括:
根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相近;
针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语义不相近;
分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第一相似词所占的个数比例;
将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
在本发明实施例中,在抓取到项目信息之后,根据分词规则,将接收到的标准词中的任意一个标准词,拆分为至少两个第一相似词,同样将每个抓取到的项目信息拆分为至少两个第二相似词,分别将每个项目信息的第二相似词与第一相似词比对,确定第二相似词与第一相似词的相似度是否大于预先设定的阈值,如果是,将第二相似词对应的项目信息划分为标准词对应的项目信息分组。根据标准词和分词规则,可以将抓取到的项目信息智能分组,无需人工逐个项目信息后再分组,节约了工作人员实现政务服务事项标准化的时间,从而提高了对政务服务事项进行标准化的效率。
举例来说,根据预先设定的分词规则,将标准词为“河道采砂的管理费征收”拆分为“河道采砂”、“管理费”和“征收”三个第一相似词。将抓取到的服务事项名称为“权限内河道采砂审核”拆分为“河道采砂”、“权限内”和“审核”三个第二相似词,经过将三个第一相似词与三个第二相似词对比,可以确定第一相似词在第二相似词里所占的个数比例为1/3,而预设的比例阈值为不小于50%,所以不能将“权限内河道采砂审核”与准词为“河道采砂的管理费征收”划分为一组。
如果抓取到的服务事项名称为“河道采砂管理费的征收”拆分为“河道采砂”、“管理费”和“征收”三个第二相似词,经过将三个第二相似词与三个第一相似词对比,可以确定第一相似词在第二相似词里所占的个数比例为100%,大于预设的比例阈值,可以将“河道采砂管理费的征收”划分为标准词的组下,并将“河道采砂管理费的征收”关联上“河道采砂的管理费征收”。
抓取到的服务事项名称为“征收河道采砂管理费”拆分为“河道采砂”、“管理费”“征收”三个第二相似词,经过将三个第二相似词与三个第一相似词对比,可以确定第一相似词在第二相似词里所占的个数比例为100%,大于预设的比例阈值,可以将“征收河道采砂管理费”划分为标准词的组下,并将“征收河道采砂管理费”关联上“河道采砂的管理费征收”。
在本发明一实施例中,在所述根据预先设定的分词规则将所述标准词拆分为至少两个第一相似词之前,进一步包括:
预先设定至少一个停用词;
将所述标准词所包括的所述停用词删除。
在本发明实施例中,在根据分词规则将标准词拆分为至少两个第一相似词之前,需要根据设定的停用词,先将标准词中的停用词去除,再将去除停用词的标准词拆分为至少两个第一相似词。将标准词中的停用词去除,能够提高从拆分的项目名称(例如,服务事项名称)中查找与标准词语义相近项目名称。
举例来说,预先设定停用词为“的”和“权限内”。在将标准词拆分为第一相似词之前,先将标准词“河道采砂的管理费征收”中的停用词“的”去除。
在本发明一实施例中,在所述根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词之前,进一步包括:
预先设定至少一个停用词;
将所述项目名称所包括的所述停用词删除。
在本发明实施例中,在根据分词规则将项目名称(例如,服务事项名称)拆分为至少两个第二相似词之前,需要根据设定的停用词,先将项目名称中的停用词去除,再将去除停用词的项目名称拆分为至少两个第二相似词。将项目名称中的停用词去除,能够提高从拆分的项目名称中查找与标准词语义相近项目名称。
举例来说,预先设定停用词为“的”、“权限内”。将服务项目名称为“权限内河道采砂审核”,中的停用词“权限内”去除。
在本发明一实施例中,所述对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码,包括:
将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目信息关联;
将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
在本发明实施例中,将项目信息分组对应的标准词与该组中所有的项目信息关联,并将标准词所对应的编码与该组所有的项目信息关联。每一个组内的项目信息能够根据该组的标准词被关联上相同的名称和编码,无需人工手动逐个编辑,节约了工作人员实现政务服务事项标准化的时间,从而提高了对政务服务事项进行标准化的效率。
举例来说,由于“河道采砂管理费的征收”和“征收河道采砂管理费”被划分为一组,所以将其关联上该组所对应的标准词为“河道采砂的管理费征收”。标准词“河道采砂的管理费征收”的编码为01012345,将该编码同时关联在“河道采砂管理费的征收”和“征收河道采砂管理费”上。
为了更加清楚的说明本发明的技术方案及优点,以抓取山东省某网站内的服务事项名称为例,对本发明实施例提供了一种项目信息标准化方法进行详细说明,如图2所示,具体可以包括以下步骤:
步骤201:接收外部输入的抓取规则和至少一个标准词。
具体地,为了在实现政务服务事项标准化,需要先接收外部输入的抓取规则和标准词,根据抓取规则决定要抓取的内容,并将抓取到的内容根据标准词来分组。
举例来说,语义分析的事项信息采集系统接收外部输入的抓取规则包括的爬取网站的URL和抓取范围山东省某网站上的服务栏中所有服务事项的名称,并接收外部输入的标准词为“河道采砂的管理费征收”。
步骤202:根据抓取规则包括的至少一个统一资源定位符URL,连接山东省某网站。
具体地,在抓取之前,需要先连接被抓去的网站,根据抓取规则中的URL,可以确定并连接上山东省某网站。
举例来说,通过山东省某网站的URL,连接该网站。
步骤203:在预设的爬取时长内,根据抓取规则包括的抓取范围,从山东省某网站内抓取至少一个服务事项名称。
具体地,为了实现服务事项标准化,也为了避免在山东省某网站上爬取的时间太长被禁止爬取,需要设定每次爬取的时长,在爬取时长内抓取符合抓取范围的服务事项名称,如果一次未抓取完,先断开与该网站的连接,等一会再连接该网站,在规定的抓去时长内,抓取剩余的服务事项名称。
举例来说,在23点至5点期间,根据抓取范围为服务栏中的所有服务事项名称,在预设的爬取时长为10min内,从山东省某网站上抓取第一个服务事项名称为“权限内河道采砂审核”、第二个服务事项名称为“河道采砂管理费的征收”、第三个服务事项名称为“征收河道采砂管理费”,并将这些服务事项名称保存在本地的数据库中。
步骤204:设置至少一个停用词,将标准词和服务事项名称所包括的停用词删除。
具体地,在将标准词和服务事项名称拆分之前,需要将标准词和服务事项名称中的停用词去除,以使提高服务事项名称与标准词的相似度。
举例来说,设置的停用词为“的”和“权限内”。将标准词“河道采砂的管理费征收”中的停用词“的”去除,再将抓取到的第一个服务事项名称为“权限内河道采砂审核”和第二个服务事项名称为“河道采砂管理费的征收”中的停用词“的”和“权限内”去掉。
步骤205:针对至少一个标准词中的每一个标准词,根据预先设定的分词规则,将该标准词拆分为至少两个第一相似词。
具体地,为了便于标准词与抓取到的服务项名称对比相似度,需要将标准词拆分为至少两个第一相似词,其中,各个第一相似词之间语义不相近。
举例来说,根据预先设定的分词规则,将去除停用词的标准词为“河道采砂管理费征收”,拆分为“河道采砂”、“管理费”和“征收”三个第一相似词。
步骤206:根据分词规则将每一个项目名称拆分为至少两个第二相似词。
具体地,为了便于标准词与抓取到的服务项名称对比相似度,需要将服务事项名称拆分为至少两个第二相似词,其中,各个第二相似词之间语义不相近。
举例来说,根据分词规则,将被去除停用词的第一个服务事项名称为“河道采砂审核”拆分为“河道采砂”和“审核”两个第二相似词;
被去除停用词的第二个服务事项名称为“河道采砂管理费征收”拆分为“河道采砂”、“管理费”和“征收”三个第二相似词;
将第三个服务事项名称为“征收河道采砂管理费”拆分为“河道采砂”、“管理费”“征收”三个第二相似词。
步骤207:分别确定每一个服务事项名称对应的至少两个第二相似词中第一相似词所占的个数比例。
具体地,为了实现政务服务事项标准化,在将抓取到的服务事项名称根据标准词分组之前,需要先将拆分的服务事项名称和拆分的标准词来对比,确定每一个服务事项名称对应的至少两个第二相似词中第一相似词所占的个数比例。
举例来说,将第一个服务事项名称对应的“河道采砂”和“审核”两个相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似词对比,可以确定第一相似词在第二相思地理所占的个数比例为50%。
将第二个服务事项名称对应的“河道采砂”、“管理费”“征收”三个第二相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似词对比,可以确定第一相似词在第二相思地理所占的个数比例为100%。
将第二个服务事项名称对应的“河道采砂”、“管理费”“征收”三个第二相似词与标准词的“河道采砂”、“管理费”和“征收”三个第一相似词对比,可以确定第一相似词在第二相思地理所占的个数比例为100%。
步骤208:将所对应的个数比例大于预先设定比例阈值的服务事项名称划分为一组,作为标准词对应的服务事项分组。
具体地,为了对同一组的所有服务事项名称进行同一命名和同一编码之前,需要将服务事项名称根据预先设定的比例阈值分组,满足比例阈值的服务事项名称分为一组,并作为标准词对应的服务事项分组。
举例来说,预设比例阈值为相似度不小于50%,服务事项名称为“权限内河道采砂审核”与标准词“河道采砂的管理费征收”的相似度为50%,服务事项名称为“河道采砂管理费的征收”与标准值的相似度为100%,第二个服务事项名称为“征收河道采砂管理费”与标准值的相似度为100%,可以确定“河道采砂管理费的征收”和“征收河道采砂管理费”与标准词为同一类型的事项,将“河道采砂管理费的征收”和“征收河道采砂管理费”划分为一组,组名为“河道采砂的管理费征收分组”。
步骤209:将服务事项分组所对应的标准词作为该组的标准项目名称,分别于服务事项分组包括的各个服务事项名称关联。
具体地,为了实现政务服务事项标准化,需要将同一组内的所有服务事项名称与该组对应的标准词关联。
举例来说,将同一组中的“河道采砂管理费的征收”和“征收河道采砂管理费”关联该组所对应的标准词“河道采砂的管理费征收”。
步骤210:将与服务事项分组对应的标准词所对应的项目编码作为标准项目编码,分别与服务事项分组包括的各个服务事项名称关联。
具体地,为了实现政务服务事项标准化,需要将同一组内被关联相同标准词的所有服务事项名称再关联上标准词对应的编码。
举例来说,标准词“河道采砂的管理费征收”对应的编码为01012345,将同一组内的被关联同一标准词名称的“河道采砂管理费的征收”和“征收河道采砂管理费”,再统一关联编码01012345。
步骤211:针对每一个服务事项名称,在服务事项名称对应的网站上,将服务事项名称与对应的标准项目名称和标准项目编码进行关联。
具体地,为了实现网站上所有政务服务事项的标准化,在将服务事项名称被关联标准项目名称和标准项目编码之后,在该服务事项名称所在的网站上,关联上该服务事项名称所对应的标准项目名称和标准项目编码,实现同一事项,同一名称和同一编码。
举例来说,在山东省某网站上,将“河道采砂管理费的征收”和“征收河道采砂管理费”关联上相同的名称为“河道采砂的管理费征收”和编码01012345。
如图3所示,本发明实施例提供了一种项目信息标准化装置,包括:
接收单元301,用于接收外部输入的抓取规则和至少一个标准词;
信息抓取单元302,用于根据所述接收单元301接收的所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
信息处理单元303,用于针对所述接收单元301接收的所述至少一个标准词中的每一个标准词,将所述信息抓取单元302抓取的所述至少一个项目信息中所包括项目名称与所述标准词语义相近的至少一个项目信息划分为一个项目信息分组;针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;
信息关联单元304,用于针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与所述信息处理单元303确定的相应所述标准项目名称和所述标准项目编码进行关联。
在本发明实施例中,为了实现政务服务事项标准化,需要通过信息抓取单元从网站中抓取符合接收单元接收到的抓取规则的项目信息,针对接收单元接收到每一个标准词,通过信息处理单元将与该标准词语义相近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一个项目信息关联相同的标准项目名称和标准项目编码,并通过信息关联单元与网站上对应的项目信息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上,将项目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工操作来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
在本发明一实施例中,所述信息抓取单元,根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个网站;在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目的项目信息。
在本发明一实施例中,所述信息处理单元,用于根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相近;针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语义不相近;分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第一相似词所占的个数比例;将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
基于图3所示的一种项目信息标准化装置,在本发明一实施例中,如图4所示,该装置进一步包括:停用词处理单元401;
所述停用词处理单元401,用于在所述信息处理单元将所述标准词拆分为至少两个第一相似词之前,预先设定至少一个停用词;将所述接收单元301接收的所述标准词所包括的所述停用词删除。
基于图4所示的一种项目信息标准化装置,本发明一实时例中,如图5所示,
所述停用词处理单元401,进一步用于在所述信息处理单元将所述项目信息包括的所述项目名称拆分为至少两个第二相似词之前,预先设定至少一个停用词;将通过所述信息抓取单元302抓取的所述项目名称所包括的所述停用词删除。
在本发明一实施例中,所述信息处理单元,用于将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目信息关联;将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
本发明各个实施例至少具有如下有益效果:
1、在本发明一实施例中,为了实现政务服务事项标准化,需要从网站中抓取符合抓取规则的项目信息,针对接收到每一个标准词,将与该标准词语义相近的项目信息划分为一个项目信息分组,对每个项目信息分组中的每一个项目信息关联相同的标准项目名称和标准项目编码,并与网站上对应的项目信息关联相同的名称和编码。综上可见,在每个项目信息对应的网站上,将项目信息与对应的标准项目名称和标准项目编码进行关联,无需通过人工操作来实现政务服务事项标准化,节省了各级职能部门大量的时间,从而提高了对政务服务事项进行标准化的效率。
2、在本发明一实施例中,实现在实现政务服务事项标准化的过程中,不是通过人工从网站中查找要被执行标准化的服务事项的项目信息,而是通过抓取规则中的URL,连接要抓取的网站,再根据接收到的抓取范围,从网站中全程智能抓取项目信息(例如,服务事项名称),无需人工干预,解放了劳动力,从而提高对政务服务事项进行标准化的效率。
3、在本发明一实施例中,在抓取到项目信息之后,根据分词规则,将接收到的标准词中的任意一个标准词,拆分为至少两个第一相似词,同样将每个抓取到的项目信息拆分为至少两个第二相似词,分别将每个项目信息的第二相似词与第一相似词比对,确定第二相似词与第一相似词的相似度是否大于预先设定的阈值,如果是,将第二相似词对应的项目信息划分为标准词对应的项目信息分组。根据标准词和分词规则,可以将抓取到的项目信息智能分组,无需人工逐个项目信息后再分组,节约了工作人员实现政务服务事项标准化的时间,从而提高了对政务服务事项进行标准化的效率。
4、在本发明一实施例中,在根据分词规则将标准词拆分为至少两个第一相似词之前,需要根据设定的停用词,先将标准词中的停用词去除,再将去除停用词的标准词拆分为至少两个第一相似词。将标准词中的停用词去除,能够提高从拆分的项目名称(例如,服务事项名称)中查找与标准词语义相近项目名称。
5、在本发明一实施例中,在根据分词规则将项目名称(例如,服务事项名称)拆分为至少两个第二相似词之前,需要根据设定的停用词,先将项目名称中的停用词去除,再将去除停用词的项目名称拆分为至少两个第二相似词。将项目名称中的停用词去除,能够提高从拆分的项目名称中查找与标准词语义相近项目名称。
6、在本发明一实施例中,将项目信息分组对应的标准词与该组中所有的项目信息关联,并将标准词所对应的编码与该组所有的项目信息关联。每一个组内的项目信息能够根据该组的标准词被关联上相同的名称和编码,无需人工手动逐个编辑,节约了工作人员实现政务服务事项标准化的时间,从而提高了对政务服务事项进行标准化的效率。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种项目信息标准化方法,其特征在于,包括:
接收外部输入的抓取规则和至少一个标准词;
根据所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
针对所述至少一个标准词中的每一个标准词,将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的项目信息划分为一个项目信息分组;
针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;
针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与对应的所述标准项目名称和所述标准项目编码进行关联;
所述根据所述抓取规则从至少一个网站中抓取至少一个项目的项目信息,包括:
根据所述抓取规则包括的至少一个统一资源定位符URL,连接至少一个网站;
在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目的项目信息;
所述将所述至少一个项目信息中所包括项目名称与所述标准词语义相近的项目信息划分为一个项目信息分组,包括:
根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相近;
针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语义不相近;
分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第一相似词所占的个数比例;
将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
2.根据权利要求1所述的方法,其特征在于,
在所述根据预先设定的分词规则将所述标准词拆分为至少两个第一相似词之前,进一步包括:
预先设定至少一个停用词;
将所述标准词所包括的所述停用词删除;
和/或,
在所述根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词之前,进一步包括:
预先设定至少一个停用词;
将所述项目名称所包括的所述停用词删除。
3.根据权利要求1至2中任一所述的方法,其特征在于,
所述对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码,包括:
将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目信息关联;
将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
4.一种项目信息标准化装置,其特征在于,包括:
接收单元,用于接收外部输入的抓取规则和至少一个标准词;
信息抓取单元,用于根据所述接收单元接收的所述抓取规则,从至少一个网站中抓取至少一个项目的项目信息;
信息处理单元,用于针对所述接收单元接收的所述至少一个标准词中的每一个标准词,将所述信息抓取单元抓取的所述至少一个项目信息中所包括项目名称与所述标准词语义相近的项目信息划分为一个项目信息分组;针对每一个所述项目信息分组,对所述项目信息分组包括的各个所述项目信息关联相同的标准项目名称和标准项目编码;
信息关联单元,用于针对每一个所述项目信息,在所述项目信息对应的网站上,将所述项目信息与所述信息处理单元确定的相应所述标准项目名称和所述标准项目编码进行关联;
所述信息抓取单元,根据所述抓取规则包括的至少一个URL,连接至少一个网站;在预设的爬取时长内,根据所述抓取规则包括的抓取范围,从所述至少一个网站中抓取至少一个项目的项目信息;
所述信息处理单元,用于根据预先设定的分词规则,将所述标准词拆分为至少两个第一相似词,其中,各个所述第一相似词之间语义不相近;针对每一个所述项目信息,根据所述分词规则将所述项目信息包括的所述项目名称拆分为至少两个第二相似词,其中,各个所述第二相似词之间语义不相近;分别确定每一个所述项目信息对应的所述至少两个第二相似词中所述第一相似词所占的个数比例;将所对应的所述个数比例大于预先设定比例阈值的所述项目信息划分为一组,作为所述标准词对应的项目信息分组。
5.根据权利要求4所述的装置,其特征在于,进一步包括:停用词处理单元;
所述停用词处理单元,用于在所述信息处理单元将所述标准词拆分为至少两个第一相似词之前,预先设定至少一个停用词;将所述接收单元接收的所述标准词所包括的所述停用词删除;
和/或
所述停用词处理单元,进一步用于在所述信息处理单元将所述项目信息包括的所述项目名称拆分为至少两个第二相似词之前,预先设定至少一个停用词;并将通过所述信息抓取单元抓取的所述项目名称所包括的所述停用词删除。
6.根据权利要求4至5中任一所述的装置,其特征在于,
所述信息处理单元,用于将所述项目信息分组所对应的所述标准词作为所述标准项目名称,分别与所述项目信息分组包括的各个所述项目信息关联;将与所述项目信息分组对应的所述标准词所对应的项目编码作为所述标准项目编码,分别与所述项目信息分组包括的各个所述项目信息关联。
CN201710616017.3A 2017-07-26 2017-07-26 一种项目信息标准化方法及装置 Active CN107329956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710616017.3A CN107329956B (zh) 2017-07-26 2017-07-26 一种项目信息标准化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710616017.3A CN107329956B (zh) 2017-07-26 2017-07-26 一种项目信息标准化方法及装置

Publications (2)

Publication Number Publication Date
CN107329956A CN107329956A (zh) 2017-11-07
CN107329956B true CN107329956B (zh) 2020-06-16

Family

ID=60227453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710616017.3A Active CN107329956B (zh) 2017-07-26 2017-07-26 一种项目信息标准化方法及装置

Country Status (1)

Country Link
CN (1) CN107329956B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610389A (zh) * 2018-06-14 2019-12-24 上海汽车集团股份有限公司 一种目标标准的确定方法及装置
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408271A (zh) * 2016-10-10 2017-02-15 上海博辕信息技术服务有限公司 一种项目监测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257909A1 (en) * 2013-03-11 2014-09-11 International Business Machines Corporation Estimating project cost

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408271A (zh) * 2016-10-10 2017-02-15 上海博辕信息技术服务有限公司 一种项目监测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Semantic crawling: An approach based on Named Entity Recognition;Giulia Di Pietro et al.;《2014 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining》;20140817;第695-699页 *
新疆口岸物流信息化建设初探;张健 等;《电脑知识与技术》;20150331;第11卷(第9期);第266-268页 *

Also Published As

Publication number Publication date
CN107329956A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN103646078B (zh) 一种实现互联网宣传监测目标评估的方法及装置
CN109189888B (zh) 电子装置、侵权分析的方法及存储介质
CN110196848B (zh) 一种面向公共资源交易数据的清洗去重方法及其系统
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
CN110288451B (zh) 一种财务报销方法、系统、设备及存储介质
CN105183710A (zh) 一种文档摘要自动生成的方法
CN107329956B (zh) 一种项目信息标准化方法及装置
CN111191153A (zh) 一种信息技术咨询服务展示装置
CN111222028A (zh) 一种数据智能爬取方法
TW201508509A (zh) 文檔推薦系統及方法
CN103092838B (zh) 一种获取英文词的方法及装置
CN107491530B (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
CN109918638B (zh) 一种网络数据监测方法
CN113836374A (zh) 一种基于大数据的实时政务数据处理系统
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
CN110399431A (zh) 一种关联关系构建方法、装置及设备
CN104951869A (zh) 一种基于工作流的舆情监控方法及装置
CN110147491B (zh) 一种引流信息识别方法和装置
CN110866177B (zh) 化工事故新闻采集方法及机器可读存储介质
CN113592432B (zh) 工单判重方法、装置、电子设备及存储介质
CN109325043B (zh) 一种标记sql语句的方法、装置和电子设备
CN111367879A (zh) 一种法律文书处理方法及装置
CN114492409B (zh) 文件内容的评价方法、装置、电子设备及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200515

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant after: Tidal Cloud Information Technology Co.,Ltd.

Address before: 250100 Ji'nan science and technology zone, Shandong high tide Road, No. 1036 wave of science and Technology Park, building S06

Applicant before: SHANDONG INSPUR CLOUD SERVICE INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee after: Inspur cloud Information Technology Co., Ltd

Address before: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee before: Tidal Cloud Information Technology Co.,Ltd.