CN115310869B - 一种督查事项的联合督查方法、系统、设备以及存储介质 - Google Patents

一种督查事项的联合督查方法、系统、设备以及存储介质 Download PDF

Info

Publication number
CN115310869B
CN115310869B CN202211194650.5A CN202211194650A CN115310869B CN 115310869 B CN115310869 B CN 115310869B CN 202211194650 A CN202211194650 A CN 202211194650A CN 115310869 B CN115310869 B CN 115310869B
Authority
CN
China
Prior art keywords
supervision
matters
items
processed
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211194650.5A
Other languages
English (en)
Other versions
CN115310869A (zh
Inventor
许建兵
朱彦欣
费维进
殷会娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Suncn Pap Information Technology Co ltd
Original Assignee
Anhui Suncn Pap Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Suncn Pap Information Technology Co ltd filed Critical Anhui Suncn Pap Information Technology Co ltd
Priority to CN202211194650.5A priority Critical patent/CN115310869B/zh
Publication of CN115310869A publication Critical patent/CN115310869A/zh
Application granted granted Critical
Publication of CN115310869B publication Critical patent/CN115310869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明提供一种督查事项的联合督查方法、系统、设备以及存储介质,所述联合督查方法包括:构建督查事项库以及督查事项模型;提取待处理督查事项的核心元素,并将核心元素与督查事项库中的内容逐一进行相似度计算;对督查事项库中的所有内容中,是否有内容与核心元素之间的相似度值超过设定阈值进行判断;若没有,则根据督查事项模型,确定处理待处理督查事项的主办单位有哪些,以实现多个主办单位对待处理督查事项进行联合督查。本发明能实现督查事项的联合督查。

Description

一种督查事项的联合督查方法、系统、设备以及存储介质
技术领域
本发明属于政务事项处理技术领域,特别涉及一种督查事项的联合督查方法、系统、设备以及存储介质。
背景技术
政务领域为了及时跟踪事件落实情况,会按照一定计划时间对某件事进行督查。督查也即督促检查,是一项社会活动,涉及领域广泛。在政务领域,政府工作影响社会、经济、民生等各方面,精准的督查工作能够建立高效的反馈机制,及时准确地纠正工作偏差,降低由于工作偏差造成的不利影响。但是在实际运用过程中,普遍存在同一事件的同一个方面由不同单位下发督查事项或同一事件的不同领域由不同的单位在不同时间下发督查事项,这会造成督查事项的主办单位耗费大量的时间和精力去完成不产生任何价值的重复性工作或工作内容分散持续性较长,严重影响其日常工作。
因此,可以设计一种督查事项的联合督查方法、系统、设备以及存储介质,以解决上述技术问题。
发明内容
针对上述问题,本发明提出了一种督查事项的联合督查方法,所述联合督查方法包括:
构建督查事项库以及督查事项模型;
提取待处理督查事项的核心元素,并将核心元素与督查事项库中的内容逐一进行相似度计算;
对督查事项库中的所有内容中,是否有内容与核心元素之间的相似度值超过设定阈值进行判断;
若没有,则根据督查事项模型,确定处理待处理督查事项的主办单位有哪些,以实现多个主办单位对待处理督查事项进行联合督查。
进一步地,所述方法还包括:
若督查事项库中的所有内容中,有内容与核心元素之间的相似度值超过设定阈值,则调取该内容,并告知责任单位待处理督查事项已被督查。
进一步地,构建督查事项库包括:
对指定单位或指定区域中所有单位下发的全部历史督查事项进行汇总,构建督查事项库。
进一步地,还包括构建ES库,其中,构建ES库包括:
根据汇总的全部历史督查事项,对全部历史督查事项中,相似度值超过设定阈值的督查事项进行合并,以构建ES库。
进一步地,构建督查事项模型包括:
根据督查事项库中的全部历史督查事项,构建督查事项模型,其中,
督查事项包括事项本身及其处理记录。
进一步地,根据汇总的全部历史督查事项,对全部历史督查事项中,相似度值超过设定阈值的督查事项进行合并,具体包括:
对汇总的全部历史督查事项中的每个督查事项均进行提取关键词;
对所有的关键词进行相似度计算;
若有至少两个关键词之间的相似度值大于设定阈值,则将至少两个关键词所对应的督查事项进行合并。
进一步地,确定处理待处理督查事项的主办单位有哪些,包括:
确定待处理督查事项涉及到哪几类督查领域;
根据待处理督查事项涉及到的督查领域,确定处理待处理督查事项的多个主办单位;
其中,多个主办单位分别负责督查所述多个督查领域。
进一步地,所述方法还包括:
在确定多个主办单位后,由责任单位下发待处理督查事项至多个主办单位,并下发联合督查建议至多个主办单位。
进一步地,所述联合督查建议的内容包括:
本主办单位负责督查的,待处理督查事项的督查领域名称;
除本主办单位以外,其他主办单位的联合督查名单。
进一步地,所述督查领域的类型包括经济、文化、安全以及民生。
进一步地,提取关键词包括:
运用Fasttext向量化工具,将所有督查事项的标题关键词和正文内容关键词进行向量化,以获取所有标题关键词和所有正文内容关键词的特征向量;
根据所有标题关键词的特征向量,获取标题关键词与该标题关键词对应权重乘积之和title_result;
根据所有正文内容关键词的特征向量,获取正文内容关键词与该正文内容关键词对应权重乘积之和content_result;
根据title_result,获取所有标题关键词的词向量矩阵title_vec;
根据content_result,获取所有正文内容关键词的词向量矩阵content_vec;
根据title_vec以及content_vec,获取所有标题关键词最终向量Sum_vec。
一方面,本发明提供一种督查事项的联合督查系统,所述系统包括:
构建模块,用于构建督查事项库以及督查事项模型;
计算模块,用于提取待处理督查事项的核心元素,并将核心元素与督查事项库中的内容逐一进行相似度计算;
判断模块,用于对督查事项库中的所有内容中,是否有内容与核心元素之间的相似度值超过设定阈值进行判断;
确定模块,用于在督查事项库中的所有内容中,没有内容与核心元素之间的相似度值超过设定阈值时,根据督查事项模型,确定处理待处理督查事项的主办单位有哪些。
进一步地,
构建督查事项库的具体执行步骤包括:
对指定单位或指定区域中所有单位下发的全部历史督查事项进行汇总,以构建督查事项库。
进一步地,
构建督查事项模型的具体执行步骤包括:
根据合并后的督查事项及其对应的历史处理记录,构建督查事项模型。
一方面,本发明还提供一种设备,所述设备包括:
处理器和用于存储能够在所述处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行所述联合督查方法的步骤。
另一方面,本发明还提供一种计算机存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现所述联合督查方法的步骤。
本发明的一种督查事项的联合督查方法、系统、设备以及存储介质,通过提取待处理督查事项的核心元素,并将核心元素与督查事项库中的内容逐一进行相似度计算,从而能避免重复督查。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的一种督查事项的联合督查方法的流程图。
图2示出了根据本发明实施例的一种设备的结构示意图。
图3示出了根据本发明实施例的一种计算机存储介质的结构示意图。
图4示出了根据本发明实施例的一种督查事项的联合督查系统的结构示意图。
图5示出了根据本发明实施例的一种督查事项的联合督查方法的具体实施的流程图。
图6示出了根据本发明实施例中,模块一的具体流程图。
图7示出了根据本发明实施例中,将单个关键词转换成向量的流程图。
图8示出了根据本发明实施例中,督查事项分析的具体流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,在发明中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。
本发明提供一种督查事项的联合督查方法、系统、设备以及存储介质,通过智能化手段对某厅局单位内部或某区域内所有厅局单位的全部督查数据进行汇总分析,当责任单位在下发督查事项时,系统自动匹配关联督查事项库,通过对责任单位输入的督查事项的核心元素进行提取并与督查事项库中的内容进行比对,找到相似度较高(即相似度值超过设定阈值,本发明的实施例中,设定阈值为75%)的内容并显示,告知责任单位该事项已被督查。或在督查事项下发时,系统通过智能模型(督查事项模型)分析该督查事项会涉及到哪些方面,哪些厅局或处室(部门),然后建议下发一件督查事项并按照不同领域由主办单位进行反馈。
具体如下:
督查事项汇总分析
对某厅局内部或某区域的全部厅局下发的全部历史督查事项进行汇总,并对督查事项进行提取关键词,并进行关键词比对分析,对相似度较高的督查事项进行合并,最终保证督查事项库中督查事项相互独立,从而使得督查事项库中督查事项不具备较高的相似性。
督查事项预分析
根据督查事项库中的全部历史督查事项,构建督查事项模型,能够在督查事项发生时,依据督查事项模型中的算法按照经济、文化、教育、民生、发展、安全等领域将督查事项进行分类,并依次将不同领域涉及到的单位或处室进行关联显示,建议这些单位或部门能够联合督查,下发同一件督查事项。
督查事项下发比对
当责任单位在登记待处理督查事项时,通过一种督查事项的联合督查系统依据其登记过程中填写的内容与督查事项库中的内容进行比对,若能够找到相似事项则提示该事件已被督查,并调取所登记督查事项对应的督查历史供该责任单位查看。
下面对本发明的一种督查事项的联合督查方法进行一个详细地说明,如图1所示的,所述联合督查方法包括:
构建督查事项库以及督查事项模型;
提取待处理督查事项的核心元素,并将核心元素与督查事项库中的内容逐一进行相似度计算;
对督查事项库中的所有内容中,是否有内容与核心元素之间的相似度值超过设定阈值(在本实施例中,示例性的,设定阈值为75%)进行判断;
若没有,则根据督查事项模型,确定处理待处理督查事项的主办单位有哪些,以实现多个主办单位对待处理督查事项进行联合督查。
若督查事项库中的所有内容中,有内容与核心元素之间的相似度值超过设定阈值,则调取该内容,并告知责任单位待处理督查事项已被督查。
在本发明的一个实施例中,构建督查事项库包括:
对指定单位(在本发明的实施例中,示例性的,指定单位例如为某厅局)或指定区域中所有单位(在本发明的实施例中,示例性的,指定区域中所有单位例如为某区域的全部厅局)下发的全部历史督查事项进行汇总,构建督查事项库;
根据汇总的全部历史督查事项,对全部历史督查事项中,相似度高(即相似度值超过设定阈值)的督查事项进行合并,以构建ES(Elasticsearch,分布式搜索和分析引擎)库。
在本发明的一个实施例中,根据汇总的全部历史督查事项,对全部历史督查事项中,相似度值超过设定阈值的督查事项进行合并,具体包括:
对汇总的全部历史督查事项中的每个督查事项均进行提取关键词;
进行关键词比对分析,即对所有的关键词进行相似度计算;
若有至少两个关键词之间的相似度值大于设定阈值(示例性的,设定阈值为75%),则将至少两个关键词所对应的督查事项进行合并,低于设定阈值则不合并,最终保证督查事项库中的督查事项间相互独立,不具备较高的相似性。
在本发明的一个实施例中,督查事项包括事项本身及其处理记录,其中,构建督查事项模型包括:
根据合并后的全部历史督查事项,构建督查事项模型。
在本发明的一个实施例中,确定处理待处理督查事项的主办单位有哪些,包括:
确定待处理督查事项涉及到哪几类督查领域;
根据待处理督查事项涉及到的督查领域,确定处理待处理督查事项的多个主办单位;其中,多个主办单位分别负责督查所述多个督查领域。
其中,在本实施例中,确定待处理督查事项涉及到哪几类督查领域,包括:
督查事项模型依据待处理督查事项的标题和内容,将待处理督查事项进行分析,即将待处理督查事项在多个督查领域方面进行分析,判断待处理督查事项属于哪几类督查领域,其判断的依据为:督查事项模型将待处理督查事项与督查历史数据(合并后的全部历史督查事项的数据)进行一一比较,从而确定出待处理督查事项涉及到哪几类督查领域。
在确定出待处理督查事项涉及到哪几类领域后,督查事项模型根据每个督查领域的类型,关联出每个督查领域所对应的主办单位,其关联的依据为:督查事项模型根据督查历史数据,获取督查领域对应由哪个主办单位处理过。其中,在本实施例中,督查领域包括但不限于为经济、文化、安全以及民生等。
在本发明的一个实施例中,所述方法还包括:
在确定多个主办单位后,由责任单位下发待处理督查事项至多个主办单位,并下发联合督查建议至多个主办单位。
在本发明的一个实施例中,所述联合督查建议的内容包括:
本主办单位负责督查的,待处理督查事项的督查领域名称;
除本主办单位以外,其他主办单位的联合督查名单。
本发明的一种实施例中,提供一种设备,其中,如图2所示的,所述设备包括:
处理器和用于存储能够在所述处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述方法的步骤。
本发明的一种实施例中,提供一种计算机存储介质,如图3所示的,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现上述方法的步骤。
本发明的一种实施例中,提供一种督查事项的联合督查系统,其中,如图4所示的,所述系统包括:
构建模块,用于构建督查事项库以及督查事项模型;
计算模块,用于提取待处理督查事项的核心元素,并将核心元素与督查事项库中的内容逐一进行相似度计算;
判断模块,用于对督查事项库中的所有内容中,是否有内容与核心元素之间的相似度值超过设定阈值进行判断;
确定模块,用于在督查事项库中的所有内容中,没有内容与核心元素之间的相似度值超过设定阈值时,根据督查事项模型,确定处理待处理督查事项的主办单位有哪些。
在使用本发明的一种督查事项的联合督查系统时,涉及到如下几个部分:
部分一:督查事项汇总
所有督查事项汇总得到的原始督查信息,是督查事项合并、督查领域模型构建的基础。
部分二:督查事项分析及合并
对汇总的督查事项进行提取关键词,并进行分析,对于同类型的督查事项需要进行合并,并将反馈记录按照时间顺序归集在督查事项库中。最终使得汇总的督查事项之间不具备较高相似性,且新入库的督查事项也需要进行分析合并。
部分三:督查事项模型
分析合并后的督查事项以及历史处理记录,构建督查事项模型,依据督查事项的标题、内容,将其关联领域提取,如经济、文化、安全、民生等,再根据不同单位和部门的职能,将领域与其关联。可以全面的对督查事项进行分析,明确需要督查的主办单位。
部分四:督查事项登记
督查事项登记是按照登记页面字段完成元素填充的过程。针对单个待处理督查事项,通过督查事项库比对分析,若相似度值较低(即相似度值小于75%)时,本发明的一种督查事项的联合督查系统支持登记,当比对发现督查事项库中已存在,则提示不建议重复督查,并调取督查事项库中已存在的(历史的)与待处理督查事项有关的数据,从而详细展示出与待处理督查事项有关的数据,在本实施例中,示例性的,与待处理督查事项有关的数包括待处理督查事项的基本信息(例如标题、交办时间、截止时间、来文时间、内容、分管领导、督办要求、相关附件等)和待处理督查事项对应的督查过程及反馈记录(例如督查时间、督查内容、主办单位名称等)。
下面结合图5,对本发明中,一种督查事项的联合督查系统(以下简称系统)中的督查事项库和督查事项模型建立,以及整个督查事项的联合督查系统的具体执行过程进行详细的描述。
督查事项库以及ES库的建立步骤包括:
将厅局单位或区域内多个厅局单位历史督查数据汇总,以构建督查事项库;
对历史督查事项数据提取、分析以及合并;
根据合并后的历史督查数据,构建ES库;
督查事项模型建立步骤包括:
根据分析合并后的督查事项以及历史处理记录,构建督查事项模型。
通过本系统对待处理督查事项进行处理的过程如下:
(1)首先责任单位进行督查事项登记;
(2)然后通过督查事项库比对分析,对待处理督查事项进行判断相似度值是否超过限值,其中,本系统中,相似度支持系统设置,即:
1、针对相似度值>=75%,表明督查事项库中已督查过该待处理督查事项的内容,属于重复督查,系统提示不建议下发督查事项;
2、针对相似度值<75%,表明不属于重复督查,可以下发督查事项;
(3)若判断相似度值>=75%时,获取督查历史(督查事项库中已存在的(历史的)与待处理督查事项有关的数据)并查看。
(4)若判断相似度值<75%时,则系统通过督查事项模型进行分析待处理督查事项涉及到的领域及关联的单位或处室,以实现联合督查的下发,其中,督查事项模型主要执行如下步骤:
1、根据督查历史数据分析,对待处理督查事项可能涉及到的督查领域进行分析,如经济、文化、安全、发展以及民生等;
2、根据部门职能提取关键词,对不同督查领域所对应的单位或处室进行关联;
3、对督查事项涉及到的督查领域以及单位或处室进行联合督查,只下发一条督查单。
在本发明的一个实施例中,一种督查事项的联合督查方法可通过以下两个模块进行示例性的阐述。
模块一:督查事项汇总以及预分析
本模块主要为:督查事项汇总和事项预分析中相关事项数据处理,主要是能够为督查事项分析做好督查事项库的建立,以及从不同督查领域方面,构建相关模型去关联相关单位为待处理督查事项进行决策分析等。本模块主要涉及事项数据预处理,区域内的不同厅局的已经督查的事项进行事项汇总并整理,事项数据提取关键词,已办结的事项依据不同督查领域进行分类,已办结的事项进行向量化去重整合ES库等。
督察事项汇总的分析中,需要对文本数据进行清洗,再使用jionlp和人工构建的移除业务词表(REMOVE_LIST),并结合Fasttext向量化工具和皮尔逊相关系数(pearsoncorrelation coefficient,pcc)完成督查事项相似合并化。在督查事项预分析中,对数据进行DPCNN(Deep Pyramid Convolutional Neural Networksfor Text Categorization,深度卷积神经网络)事项分类,并结合业务需求完成相关主办单位联合督查同一事项,针对文本输入,能够起到较好的划分到类的效果。其督查事项下发比对中,对输入内容提取关键词为其文本特征,并采用Fasttext向量化表示,进行ES库内结合预定义函数cosineSimilarity函数完成向量快速检索,能够很简单便捷的实现相似督查事项检测等。
如图6所示的,模块一的具体流程为:
1)督查事项数据清洗
对于原始督查过的事件或者待处理的督查事项数据,为了更好的适用于后续智能化流程去智能督查督查事项,需要对其包含的文字格式统一进行去除一些具有干扰性的符号等。数据清洗采用re正则数据清洗方式或者根据大多业务内容制定一个普遍适用的规则(依据业务指定,比如信息内容以符号进行切分,得到各个句子等)。re正则数据清洗:可以是去除空格或者一些特殊符号如:[‘\n’,‘\t’,‘\s’,‘&doop’...],输入文本:“某某a今天和某某b约好一起&doop去图书馆看书。”,输出清洗后:“某某a今天和某某b约好一起去图书馆看书。”
2)提取关键词
与督查事项有关的数据包含督查事项的基本信息,例如一般都含有标题和正文内容等(本文后续都涉及关键词都是标题和正文内容),由于标题中的关键词比较重要,因此,本文结合特征加权的方式提取关键词,具体形式如下:
Sum_num=weight_title*title_num+weigt_content*content_num
其中,Sum_num为标题和正文内容的关键词数量总和,weight_title为标题权重,title_num为此标题关键词数量;标题对于整篇文章来说具有精炼代表作用,因此实施例分开对标题和正文内容提取,weigt_content为正文内容的权重,content_num为正文内容所提取的关键词数量,权重和关键词数量可以随业务调整。
使用jionlp提取关键词,即使用jionlp算法对标题和正文内容分别提取关键词,其指定的关键词数量可配置为:
top_k:返回前几个权重较高关键词;
with_weight=True:返回每个关键词的权重;
remove_words_list:移除词表,关键词中不含这里面的词语,即关键词提取的词可能包含业务不需要或者业务敏感的词语,因此若是提取的关键词中含这类词语即跳过,不展现出来。例子:比如:XXX,XXX表示敏感词,出现再移除词表,若是关键词提取也有XXX,展示环节不展示XXX。
3)关键词向量化
包括:
结合特征加权的方式提取关键词,具体包括:
运用Fasttext向量化工具进行Fasttext向量化,将所有督查事项的标题关键词和正文内容关键词进行向量化,以获取所有标题关键词和所有正文内容关键词的特征向量;
根据所有标题关键词的特征向量,获取标题关键词与该标题关键词对应权重乘积之和title_result;
根据所有正文内容关键词的特征向量,获取正文内容关键词与该正文内容关键词对应权重乘积之和content_result;
根据title_result,获取所有标题关键词的词向量矩阵title_vec;
根据content_result,获取所有正文内容关键词的词向量矩阵content_vec;
根据title_vec以及content_vec,获取所有标题关键词最终向量Sum_vec;以下进行详细的介绍。
通过2)提取关键词,可以获得某项督查事项的全部数据信息。本模块主要是对2)的所有关键词进行同等维度向量化,可以运用Fasttext向量化工具进行向量化,从而将整个标题关键词向量化转化,以下进行说明:
单个关键词转化成向量:例如在有多个的关键词中,单个关键词转换成向量的所用的公式如下:
title_num_vec_1=fasttext(title_num_1)
其中,num为关键词数量,vec为此对应数量关键词对应的总向量(即vec为num数量关键词对应的总向量),title_num_1表示单个关键词,fasttext是向量化转换运算符,title_num_vec_1表示单个关键词在经过fasttext向量化转换后的特征向量。
以标题为例,title_num假设为4,在计算出每个关键词经过向量转换后的对应向量后,进行标题关键词计算:权重乘以关键词(关键词会逐个转换为单个向量,即根据单个关键词转换成向量的方式以及获得的标题和正文内容的关键词数量总和Sum_num,可得到每个标题关键词经过向量转换后的对应向量),计算公式如下:
title_result的公式如下:
title_result=weight_1*title_num_1+weight_2*title_num_2+weight_3*title_num_3+weight_4*title_num_4,
weight_1=Weight_1/(Weight_1+Weight_2+Weight_3+Weight_4);
title_num_1、title_num_2、title_num_3以及title_num_4依次分别为第1、2、3以及4个标题关键词;Weight_1、Weight_2、Weight_3以及Weight_4为经过权重计算后,依次分别为第1、2、3以及4个标题关键词的权重,weight_1为Weight_1归一化后的结果(即weight_1在整个Weight_1、Weight_2、Weight_3以及Weight_4中的占比),同理weight_2为Weight_2归一化的结果,weight_3为Weight_3归一化的结果,weight_4为Weight_4归一化的权重;Weight为权重取值区间为[0,1]之间。
同理,可以根据单个关键词转换成向量的方式以及获得的标题和正文内容的关键词数量总和Sum_num,可得到每个正文内容关键词经过向量转换后的对应向量),即可求出content_result的结果(content_result的公式规则与title_result相同)。
根据求出的title_result和content_result,可计算出title_vec和content_vec,其中,title_vec为所有标题关键词的词向量矩阵,content_vec为所有正文内容关键词的词向量矩阵。
其中,title_vec的公式如下:
title_vec=fasttext(title_result)=weight_1*title_num_vec_1+weight_2*title_num_vec_2+weiqht_3*title_num_vec_3+weight 4*title_num_vec_4;
content_vec的公式规则与title_vec相同。
根据title_vec和content_vec,可对整个标题关键词向量转化,获取整个标题关键词最终向量Sum_vec,向量转化公式为:
Sum_vec=weight_title*title_vec+weigt_content*content_vec
4)督查事项分类
对于1)清洗过后的数据,进行事项分类,即类别判别,输出该文档所归属的类别(即输出待处理督查事项涉及到的督查领域)。该过程使用算法DPCNN进行DPCNN分类,以及需要根据以往督查事项数据的信息以及对该督查事项对应的督查领域标注数据。假设督查领域对应为发展,督查领域可以根据以往督查事项进行标记如(经济,文化,安全,发展,民生等等)。其中,DPCNN算法需要对原始标注的数据进行标签映射以及对其需要离线训练(离线训练,让机器自动学习类别对应的数据信息,然后新的输入信息能够辨别其所有的类别标签)。
其中,标签映射:({“经济”:0,“文化”:1,...}。在督查事项模型训练中,需要关注数据的准确率,召回率,精准率等指标,上述指标越大,其模型效果越好,对于后续输入的上报信息的预测类别跟专业人员判别相同。对以往督查事项进行标注时,注意查看该某一类督查事项有哪些相关部门参与过,对该类别进行事项映射单位,即对该类别进行映射相关主办单位比如{“经济”:[“A局”,“B厅”..],“文化”:[“C局”,“D厅”..]...},尽量标注是跟数据之间相似性最大的标注为一类,类别之间的数据不相关,或者相关性极小等,然后对标注的数据记录与督查相关单位(主办单位)完成上述单位映射,从最终可将类别与单位(主办单位)之间相对应。
5)督查事项汇总
对3)的关键词总体向量化结果以及其本身对应的数据全部进行存储于ES中,在后续匹配过程中,针对其输入的待处理督查事项时,只需要将其处理成向量,就可以和ES中的向量进行匹配,即可找到最相关的向量。以往督查事项之间可能存在高度相似督查事项,可以建立一个无相似过高重复的库(即督查事项库),于是对各个以往的督查事项,根据pcc系数整理相关督查事项(即根据pcc合并相似督查事项),即对每个督查事项都与其他督查事项进行逐个pcc相似度比较,当相似度大于设定阈值(相似度下限,可以人工配置),即将该两个或者多个该类督查事项进行合并成一个督查事项存储于ES中,
本模块中,主要流程如下:
S1.已处理的督查事项间进行pcc相似度比较,当相似系数大于设定阈值即进行合并为一个组合,并最终只取时间最早的督查事项进行存储于ES中,依次逐渐去除存储于ES库中的数据具有相关性,后续匹配某个或者某一类数据时,可以进行数据进行反向查询,主要根据ES库中数据查询到原来归并的一类数据;
S2.ES中使用指定的mapping创建索引。这里需要将向量这个Field“feature_vector”的类型设置为向量“dense_vector”;
S3.将输入的待处理督查事项时,只需要将其处理成向量;
S4.将S2中的所述向量和该处理事项数据相关信息一起所索引到ES库中,完成ES库和类别督查事项库的督查事项库建立。
6)督查事项映射单位
根据4)中分类的结果进行事项单位映射,其事项映射单位主要是某一类别数据中有涉及处理过这类数据的主办单位进行标记,收集形式如{“经济”:[“A局”,“B厅”..],“文化”:[“C局”,“D厅”..]...},等。
模块二:督查事项分析
本模块主要是对待处理督查事项的数据进行分析,一是判断该待处理督查事项的数据是否已经有过相似数据督查在督查事项库中,判断指标即设定阈值(相似度下限,跟以往多个督查事项的数据进行逐一对比,可以人为配置该值),若是相似度超过该值,即认为该类型事项数据已经下发过,建议不需要进行再次下发,只需要调取相似度最高的相似数据,查看相似数据的督查事项的对应记录即可;若低于该相似度下限,即在一定程度上,建议:联合督查,下发该督查事项;另一方面,若是需要下发该督查事项,可以联合多个单位对其进行督查,其督查原则是该待处理督查事项的数据根据以往数据类别划分到该属类别(督查领域),该类别督查事项对应的主办单位会对这该待处理督查事项的数据进行联合督查等,只发一条督查事项,该分析主要涉及数据清洗(本模块跟模块一数据清洗一致、提取关键词和词向量也一致,此处不重复介绍),提取关键词,词向量化,从ES库中搜索,相似度大于设定阈值,返回相似最高的事项督查以及主办单位给定的督查结果意见且归并到以往相似督查事项库中,若是低于设定阈值,即判别该待处理督查事项的所属类别,所有相关主办单位联合督查,下发一条督查事项且新建一个该类别督查事项库存于ES中。
如图8所示的,督查事项分析的具体流程如下:
(1)向量检索
对于待处理督查事项,会根据以往的督查事项,来确定是否有相类似督查事项已经下发过。于是需要待处理督查事项的数据向量化(数据清洗,关键词向量化,与模块一一致,不重复推导)从ES搜索(即从ES库中进行搜索)即可,在搜索中时,使用ES库的script_score的query,在query的scrip脚本中,将用户的向量放到查询语句的参数中,即可进行搜索,这里的搜索不是简单的文本匹配了,而是进行了语义层面的搜索。搜索结果中,将用户最大相似的向量的索引以及相似程度进行进行输出即可。其输入形式可设置为:
input_vector=待处理督查事项的数据向量化
indexName=ES中的数据库索引
Name:最大相似的向量的索引名称
Sim:最大相似的向量之间的相似度
Doc[‘feature_vector’]:原储存督查事项的向量
cosineSimilarity:ES中预定义的相似函数
resp = es.search(index=indexName, body={
"_source": ["name", "sim"],
"query": {
"script_score": {
"query": {
"match_all": {}
},
"script": {
"source": "cosineSimilarity(params.queryVector, doc['feature_vector'])+1",
"params": {
"queryVector": input_vector
}
}
}
}
})
(2)大于阈值(即大于设定阈值)
若(1)中的输出hit[“_source”][“sim”]>设定阈值(相似度下限),即该待处理督查事项有在督查事项库中进行办理过,一定程度上,直接根据hit[“_source”][“name”]查询对应的督查事项,以及该查询的督查事项的处理全部信息以及不需要重复对待处理督查事项进行督查,从而输出最相似督查事项以及该事项督查结果记录,然后将该督查事项归并到相似督查事项的督查事项库中,从而完善督查事项库的汇总。
(3)小于设定阈值
若否,即若(1)中的输出hit[“_source”][“sim”]<设定阈值(相似度下限),即该待处理督查事项没有在督查事项库中进行办理过,即需要相关部门进行督查办理。一方面对该待处理督查事项进行类别判断,判别该待处理督查事项的所属类别,派送或者提醒相关办理过的主办单位进行联合督查,下发该条督查事项及所需信息,另一方面单独建立一个该类别督查事项库存于ES中。
在本实施例中,对于jionlp、REMOVE_LIST、DPCNN、正则(re)、pcc、Fasttext以及Elasticsearch的使用原则,具体如下:
jionlp:可以提取文章中的摘要以及关键词等,其关键词的数量可以人为传入参数控制,同时,允许人工添加具有干扰的词语列表,使最后结果不包含含有该列表的词语。
REMOVE_LIST:将某些具有干扰的词语剔除,使包含该词的短语不出现在最终结果中。
DPCNN:DPCNN跟TEXTCNN相比较,两者工作性能差不多,但是前者很好的修复了后者参数多,容易过拟合的弊端。
正则(re):正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
Fasttext:大型文本集合,并检查每个单词出现的上下文以确定其向量表示。Facebook的词向量模型,其训练速度比word2vec的训练速度更快,效果又不丢失。
pcc:皮尔逊相关系数一般用于计算两个定距向量间联系的紧密程度,它的取值在[−1,+1]之间。相关系数的绝对值越大,则表明向量x与向量y相关度越高。当x与y线性相关时,相关系数取值为1(正线性相关)或−1(负线性相关)。计算公式为:
Figure 539405DEST_PATH_IMAGE001
其中,i表示样本点的序号,例如第一样本点为(x1,y1,i=1)。
Elasticsearch(ES): Elasticsearch是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB(PB是数据存储容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个TB)级别的数据。cosineSimilarity预定义函数为cos函数,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间,计算公式为(即给定两个属性向量,A和B,其余弦相似性
Figure 66595DEST_PATH_IMAGE002
由点积和向量长度给出):
Figure 740153DEST_PATH_IMAGE003
其中,similarity表示
Figure 756695DEST_PATH_IMAGE004
函数的值,i表示样本点的序号,n为单个样本点的个数,N为所有样本点个数的和。
在本实施例中,针对关键词提取,有textrank4zh以及根据一些深度学习模型进行提取的方式,而本实施例,采取的jionlp具有如下优势:
jionlp调取加载简易,适用于业务提取符合业务的关键词短语,其权重可以根据封装好的参数进行归一化,对本实施例所涉及的业务(处理待处理督查事项),效果较好。
在本实施例中,针对分类模型,DPCNN跟现有的TEXTCNN相比较,两者工作性能差不多,但是DPCNN很好的修复了TEXTCNN参数多,容易过拟合的弊端。
在本实施例中,不使用faiss向量快速检索,主要是考虑Fasttext转换为向量的过程耗时短,且ES库支持内置函数查询相似向量和统计其相似程度等,降低后续faiss需要再次计算相似的复杂。
另外,在本发明中,上述督查事项、责任单位、主办单位、批示、相似度、联合督查以及区域的名词解释如下:
督查事项:一般指在政务领域中需要由主办单位及时跟踪反馈的事项,如重点工作、领导批示事项等类别。
责任单位:是指督查事项的主要负责单位,可以是某个单位也可以是某个部门,承担着督查事项的跟踪批示责任,并及时纠正事项在办理过程中出现的偏差,是督查事项的登记下发单位。
主办单位:是指督查事项的主要落实单位,可以是某个单位也可以是某个部门,承担着对督查事项的上报反馈责任,并对责任单位的批示事项进行回复。
批示:是指责任单位或其相关领导在查看主办单位的上报反馈时,对于反馈中存在的问题进行点评的过程,领导批示的内容需要由主办单位进行回复。
相似度:系统默认按照具备75%程度的相似性作为信息合并的关键值,支持设置。
联合督查:是指责任单位有多个的督查事项,联合督查一般是从多个领域对事项进行全面督查的过程。
区域:是指按照行政区域划分的多个单位的合集。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种督查事项的联合督查方法,其特征在于,所述联合督查方法包括:
构建督查事项库以及督查事项模型,其中,构建督查事项模型包括:根据督查事项库中的全部历史督查事项,构建督查事项模型,其中,督查事项包括事项本身及其处理记录;
提取待处理督查事项的核心元素,并将核心元素与督查事项库中的内容逐一进行相似度计算;
对督查事项库中的所有内容中,是否有内容与核心元素之间的相似度值超过设定阈值进行判断;
若没有,则根据督查事项模型,确定处理待处理督查事项的多个主办单位,以实现多个主办单位对待处理督查事项进行联合督查,其中,确定处理待处理督查事项的多个主办单位,包括:确定待处理督查事项涉及到的多个督查领域;根据待处理督查事项涉及到的督查领域,确定处理待处理督查事项的多个主办单位;其中,多个主办单位分别负责督查多个所述督查领域,所述督查领域的类型包括经济、文化、安全以及民生;
若督查事项库中的所有内容中,有内容与核心元素之间的相似度值超过设定阈值,则调取该内容,并告知责任单位待处理督查事项已被督查。
2.根据权利要求1所述的一种督查事项的联合督查方法,其特征在于,构建督查事项库包括:
对指定单位或指定区域中所有单位下发的全部历史督查事项进行汇总,构建督查事项库。
3.根据权利要求2所述的一种督查事项的联合督查方法,其特征在于,还包括构建分布式搜索和分析引擎(ES)库,其中,构建ES库包括:
根据汇总的全部历史督查事项,对全部历史督查事项中,相似度值超过设定阈值的督查事项进行合并,以构建ES库。
4.根据权利要求3所述的一种督查事项的联合督查方法,其特征在于,根据汇总的全部历史督查事项,对全部历史督查事项中,相似度值超过设定阈值的督查事项进行合并,具体包括:
对汇总的全部历史督查事项中的每个督查事项均进行提取关键词;
对所有的关键词进行相似度计算;
若有至少两个关键词之间的相似度值大于设定阈值,则将至少两个关键词所对应的督查事项进行合并。
5.根据权利要求1所述的一种督查事项的联合督查方法,其特征在于,所述方法还包括:
在确定多个主办单位后,由责任单位下发待处理督查事项至多个主办单位,并下发联合督查建议至多个主办单位。
6.根据权利要求5所述的一种督查事项的联合督查方法,其特征在于,所述联合督查建议的内容包括:
本主办单位负责督查的,待处理督查事项的督查领域名称;
除本主办单位以外,其他主办单位的联合督查名单。
7.根据权利要求4所述的一种督查事项的联合督查方法,其特征在于,提取关键词包括:
运用Fasttext向量化工具,将所有督查事项的标题关键词和正文内容关键词进行向量化,以获取所有标题关键词和所有正文内容关键词的特征向量;
根据所有标题关键词的特征向量,获取标题关键词与该标题关键词对应权重乘积之和title_result;
根据所有正文内容关键词的特征向量,获取正文内容关键词与该正文内容关键词对应权重乘积之和content_result;
根据title_result,获取所有标题关键词的词向量矩阵title_vec;
根据content_result,获取所有正文内容关键词的词向量矩阵content_vec;
根据title_vec以及content_vec,获取所有标题关键词最终向量Sum_vec。
8.一种督查事项的联合督查系统,其特征在于,所述系统包括:
构建模块,用于构建督查事项库以及督查事项模型,其中,构建督查事项模型包括:根据督查事项库中的全部历史督查事项,构建督查事项模型,其中,督查事项包括事项本身及其处理记录;
计算模块,用于提取待处理督查事项的核心元素,并将核心元素与督查事项库中的内容逐一进行相似度计算;
判断模块,用于对督查事项库中的所有内容中,是否有内容与核心元素之间的相似度值超过设定阈值进行判断;
确定模块,用于在督查事项库中的所有内容中,没有内容与核心元素之间的相似度值超过设定阈值时,根据督查事项模型,确定处理待处理督查事项的多个主办单位,其中,确定处理待处理督查事项的多个主办单位,包括:确定待处理督查事项涉及到的多个督查领域;根据待处理督查事项涉及到的督查领域,确定处理待处理督查事项的多个主办单位;其中,多个主办单位分别负责督查多个所述督查领域,所述督查领域的类型包括经济、文化、安全以及民生。
9.根据权利要求8所述的一种督查事项的联合督查系统,其特征在于,
构建督查事项库的具体执行步骤包括:
对指定单位或指定区域中所有单位下发的全部历史督查事项进行汇总,以构建督查事项库。
10.根据权利要求9所述的一种督查事项的联合督查系统,其特征在于,
构建督查事项模型的具体执行步骤包括:
根据合并后的督查事项及其对应的历史处理记录,构建督查事项模型。
11.一种设备,其特征在于,所述设备包括:
处理器和用于存储能够在所述处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述联合督查方法的步骤。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述联合督查方法的步骤。
CN202211194650.5A 2022-09-29 2022-09-29 一种督查事项的联合督查方法、系统、设备以及存储介质 Active CN115310869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211194650.5A CN115310869B (zh) 2022-09-29 2022-09-29 一种督查事项的联合督查方法、系统、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211194650.5A CN115310869B (zh) 2022-09-29 2022-09-29 一种督查事项的联合督查方法、系统、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN115310869A CN115310869A (zh) 2022-11-08
CN115310869B true CN115310869B (zh) 2023-03-24

Family

ID=83866529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211194650.5A Active CN115310869B (zh) 2022-09-29 2022-09-29 一种督查事项的联合督查方法、系统、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115310869B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629804B (zh) * 2023-06-06 2024-01-09 河北华正信息工程有限公司 一种信访督查跟踪管理系统及管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686637A (zh) * 2021-01-04 2021-04-20 浪潮云信息技术股份公司 一种政务服务供需对接系统及方法
CN112734615A (zh) * 2021-01-08 2021-04-30 天讯瑞达通信技术有限公司 一种语音事项监控和督办方法、系统及存储介质
CN114598842A (zh) * 2022-01-26 2022-06-07 开利科技股份有限公司 基于监控系统的督察系统和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10044549B2 (en) * 2015-01-27 2018-08-07 Moogsoft, Inc. Distribued system for self updating agents and analytics
CN108537505A (zh) * 2018-03-30 2018-09-14 安徽商信政通信息技术股份有限公司 一种全域督查督办业务的信息化平台
CN108717627A (zh) * 2018-08-07 2018-10-30 安徽商信政通信息技术股份有限公司 一种党政部门重大决策部署贯彻落实机制的信息化平台
CN110647762A (zh) * 2019-10-12 2020-01-03 河北时代电子有限公司 一种基于云桌面的政务督办平台
CN111931500B (zh) * 2020-09-21 2023-06-23 北京百度网讯科技有限公司 搜索信息的处理方法、装置
CN113298486A (zh) * 2021-04-21 2021-08-24 易事软件(厦门)股份有限公司 一种基于大数据的政务监察督查方法及系统
CN113934868A (zh) * 2021-10-14 2022-01-14 山东亿云信息技术有限公司 政务大数据治理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686637A (zh) * 2021-01-04 2021-04-20 浪潮云信息技术股份公司 一种政务服务供需对接系统及方法
CN112734615A (zh) * 2021-01-08 2021-04-30 天讯瑞达通信技术有限公司 一种语音事项监控和督办方法、系统及存储介质
CN114598842A (zh) * 2022-01-26 2022-06-07 开利科技股份有限公司 基于监控系统的督察系统和方法

Also Published As

Publication number Publication date
CN115310869A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
Ur-Rahman et al. Textual data mining for industrial knowledge management and text classification: A business oriented approach
CN110543595B (zh) 一种站内搜索系统及方法
WO2020099550A1 (en) Automated electronic mail assistant
CN108563783B (zh) 一种基于大数据的财务分析管理系统及方法
CA2788435A1 (en) Method and system for conducting legal research using clustering analytics
CN112100149B (zh) 日志自动化分析系统
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN115310869B (zh) 一种督查事项的联合督查方法、系统、设备以及存储介质
CN110222192A (zh) 语料库建立方法及装置
CN111026870A (zh) 一种综合文本分类和图像识别的ict系统故障分析方法
CN111104483A (zh) 基于机器学习的ict系统故障分析及辅助判别方法
Nalini et al. Survey on text classification
Petrus Soft and hard clustering for abstract scientific paper in Indonesian
Rodriguez et al. Master defect record retrieval using network-based feature association
CN108615124B (zh) 基于词频分析的企业评价方法及系统
CN115953041A (zh) 一种营商政策系统的构建方案及系统
Mishra et al. Fault Log Text Classification Using Natural Language Processing And Machine Learning For Decision Support
Liu et al. Internet public opinion hotspot detection research based on k-means algorithm
CN113342844A (zh) 工业智能搜索系统
Mukherjee et al. Content analysis based on text mining using genetic algorithm
Zou et al. An improved model for spam user identification
CN111209375A (zh) 一种通用的条款与文档匹配方法
Imambi et al. Classification of medline documents using global relevant weighing schema

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant