CN113704503A - 政务系统数据清理方法和政务融合系统 - Google Patents
政务系统数据清理方法和政务融合系统 Download PDFInfo
- Publication number
- CN113704503A CN113704503A CN202110903297.2A CN202110903297A CN113704503A CN 113704503 A CN113704503 A CN 113704503A CN 202110903297 A CN202110903297 A CN 202110903297A CN 113704503 A CN113704503 A CN 113704503A
- Authority
- CN
- China
- Prior art keywords
- server
- government affair
- text
- abstract
- government
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Abstract
本发明提供了一种政务数据清理方法和政务融合系统,该方法包括:针对任一政务服务器,计算每个文本的摘要,将文本的摘要发送至云服务器;云服务器接收每个政务服务器发送的文本的摘要,针对任一文本,存储文本的摘要和文本对应的政务服务器的标识信息;政务服务器接收用户的上传文本或下载文本的请求,请求中包含目标文本的摘要;政务服务器向云服务器发送确认请求消息,确认请求消息中包含目标文本的摘要;云服务器通过目标文本的摘要对确认请求进行响应;政务服务器根据云服务器的响应,处理用户的上传文本或下载文本的请求。本发明能够提高政务融合系统的数据质量。
Description
技术领域
本发明属于数据预处理技术领域,尤其涉及一种政务系统数据清理方法和政务融合系统。
背景技术
政务数据开放共享已经成为时代发展的必然趋势,在政务数据开放共享的过程中,数据的质量问题是影响数据价值的关键因素之一。
现有的政务系统,如民政部的婚姻登记系统、殡葬管理系统、儿童福利系统和流浪救助等系统,随着信息化的发展,政务数据经历了多次开发甚至迁移整合等,造成系统数据质量较差,如存在大量重复数据、不一致的数据等。以及,多个政务相关的系统需要进行数据的交互和融合,每个政务系统分别进行数据的存储,造成大量的冗余数据。
如何提高政务系统的数据质量,减小政务数据的存储压力,是现有技术急需解决的问题。
发明内容
有鉴于此,本发明提供了一种政务数据清理方法及政务融合系统,能够提高政务系统的数据质量。
本发明实施例的第一方面提供了一种政务数据清理方法,该方法应用于一种政务融合系统,所述政务融合系统包括云服务器和多个政务服务器,每个政务服务器对应一种政务系统,每个政务服务期存储有多个文本,该方法包括:
针对任一政务服务器,计算每个文本的摘要,将所述文本的摘要发送至云服务器;
所述云服务器接收每个政务服务器发送的文本的摘要,针对任一文本,存储所述文本的摘要和所述文本对应的政务服务器的标识信息;
所述政务服务器接收用户的上传文本或下载文本的请求,所述请求中包含目标文本的摘要;
所述政务服务器向所述云服务器发送确认请求消息,所述确认请求消息中包含所述目标文本的摘要;
所述云服务器通过所述目标文本的摘要对所述确认请求进行响应;
所述政务服务器根据所述云服务器的响应,处理所述用户的上传文本或下载文本的请求。
在一种可能的实现方式中,每个政务服务器通过相同的哈希算法计算每个文本的摘要,在所述云服务器接收每个政务服务器发送的文本的摘要之后,该方法还包括:
若存在至少两个相同的摘要,则保留其中的任意一个摘要;
或,获取每个政务服务器的存储空间信息,根据每个政务服务器的存储空间信息,保留其中的一个摘要。
在一种可能的实现方式中,针对任一政务服务器,在计算每个文本的摘要之前,该方法还包括:
计算所有文本中任意两个文本的相似度,对于相似度大于等于预设阈值的两个文本,保留其中的一个文本。
在一种可能的实现方式中,所述计算所有文本中任意两个文本的相似度包括:
针对任一文本,获取所述文本对应的带有TF-IDF权重的向量;
计算任意两个文本的向量的余弦相似度,得到所述任意两个文本的相似度。
在一种可能的实现方式中,若第一政务服务器接收用户的上传文本的请求,则该方法包括:
所述云服务器根据所述上传文本的请求中的目标文本的摘要,判断是否存储有与所述目标文本的摘要相同的摘要;
若存储有与所述目标文本的摘要相同的摘要,则向所述第一政务服务器发送第一响应消息,所述第一响应消息用于表示所述云服务器存储有与所述目标文本的摘要相同的摘要,所述第一政务服务器根据所述第一响应消息拒绝所述用户的上传文本的请求;
若没有存储与所述目标文本的摘要相同的摘要,则向所述第一政务服务器发送第二响应消息,所述第二响应消息用于表示所述云服务器没有存储与所述目标文本的摘要相同的摘要,所述第一政务服务器根据所述二响应消息同意所述用户的上传文本的请求。
在一种可能的实现方式中,在所述第一政务服务器根据所述二响应消息同意所述用户的上传文本的请求之后,该方法还包括:
所述第一政务服务器将所述目标文本的摘要发送至所述云服务器,以使得所述云服务器存储所述目标文本的摘要和所述第一政务服务器的标识信息。
在一种可能的实现方式中,若第一政务服务器接收到用户的下载文本的请求,则该方法包括:
所述云服务器根据所述下载文本的请求中的目标文本的摘要,判断是否存储有与所述目标文本的摘要相同的摘要;
若存储有与所述目标文本的摘要相同的摘要,则根据所述目标文本的摘要获取所述目标文本对应的政务服务器的标识信息;
向所述第一政务服务器发送第三响应消息,所述第三响应消息中包含所述目标文本对应的政务服务器的标识信息;
所述第一政务服务器根据所述第三响应消息,响应用户的下载文本的请求。
在一种可能的实现方式中,所述第一政务服务器根据所述第三响应消息,响应用户的下载文本的请求包括:
若所述目标文本对应的政务服务器为所述第一政务服务器,则所述第一政务服务器向用户发送所述目标文本;
若所述目标文本对应的政务服务器为第二政务服务器,则所述第一政务服务器向所述第二政务服务器发送文本获取请求,所述文本获取请求中包含所述目标文本的摘要,以使得所述第二政务服务器根据所述目标文本的摘要获取所述目标文本,发送至所述第一政务服务器,所述第一政务服务器将所述目标文本发送至用户。
本发明实施例的第二方面提供了一种政务融合系统,包括云服务器和多个政务服务器,每个政务服务器对应一种政务系统,每个政务服务期存储有多个文本,该系统用于:
针对任一政务服务器,计算每个文本的摘要,将所述文本的摘要发送至云服务器;
所述云服务器接收每个政务服务器发送的文本的摘要,针对任一文本,存储所述文本的摘要和所述文本对应的政务服务器的标识信息;
所述政务服务器接收用户的上传文本或下载文本的请求,所述请求中包含目标文本的摘要;
所述政务服务器向所述云服务器发送确认请求消息,所述确认请求消息中包含所述目标文本的摘要;
所述云服务器通过所述目标文本的摘要对所述确认请求进行响应;
所述政务服务器根据所述云服务器的响应,处理所述用户的上传文本或下载文本的请求。
在一种可能的实现方式中,每个政务服务器通过相同的哈希算法计算每个文本的摘要,在所述云服务器接收每个政务服务器发送的文本的摘要之后,所述云服务器还用于:
若存在至少两个相同的摘要,则保留其中的任意一个摘要;
或,获取每个政务服务器的存储空间信息,根据每个政务服务器的存储空间信息,保留其中的一个摘要。
本发明实施例提供一种政务数据清理方法和政务融合系统,通过一个云服务器对每个政务服务器的文本的摘要进行管理,使得每个政务服务器在处理用户的上传文本请求和下载文本请求时,通过请求中的目标文本的摘要判断如何响应用户的请求,一方面避免了政务融合系统中的数据冗余,另一方面避免了重复数据的上传,提高了整个政务融合系统的数据质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种政务数据清理方法的实现流程图;
图2是本发明实施例提供的一种政务融合系统的结构示意图;
图3是本发明实施例提供的另一种政务数据清理方法的实现流程图;
图4是本发明实施例提供的一种云服务器或政务服务器的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
参见图1,其示出了本发明实施例提供的一种政务数据清理方法的实现流程图,详述如下:
S101,针对任一政务服务器,计算每个文本的摘要,将文本的摘要发送至云服务器。
在现有的多个政务服务系统中,存在系统之间的数据交换。由于业务交叉,政务服务系统之间可能存在相同的文本。如,儿童福利系统和流浪救助系统存在一定的业务交叉,用户可能需要同时将同一个文本A上传至儿童福利系统的服务器和流浪救助系统的服务器,两个系统的服务器各自独立工作,都存储文本A,导致每个政务服务器的存储压力都比较大。
为解决这一问题,本发明实施例提供了一种政务数据清理方法,该方法应用于一种如图2所示的政务融合系统,包括云服务器和多个政务服务器,每个政务服务器对应一种政务系统,每个政务服务期存储有多个文本。每个政务服务器可单独向用户提供服务。
针对任一政务服务器,该政务服务器通过预设的哈希算法计算每个文本的摘要,并将每个文本的摘要发送至云服务器。
S102,云服务器接收每个政务服务器发送的文本的摘要,针对任一文本,存储文本的摘要和文本对应的政务服务器的标识信息。
举例来说,云服务器与三个政务服务器相连,分别为政务服务器1、政务服务器2和政务服务器3。政务服务器存储有1000个文本,政务服务器2存储有1500个文本,政务服务器3存储有2000个文本。
每个政务服务器分别通过预设的哈希算法计算其存储的文本的摘要。政务服务器1将1000个文本对应的1000个文本摘要发送至云服务器,服务器2将1500个文本对应的1500个文本摘要发送至云服务器,服务器3将2000个文本对应的2000个摘要发送至云服务器。
云服务器存储政务服务器1发送的1000个摘要,并记录这1000个摘要对应的政务服务器1的标识信息,用于记录这1000个摘要对应的文本存储于政务服务器1中。
可选的,为进一步提高数据融合系统的数据质量,减少重复数据。每个政务服务器可以通过相同的哈希算法计算文本的摘要。
在所述云服务器接收每个政务服务器发送的文本的摘要之后,该方法还包括:若存在至少两个相同的摘要,则保留其中的任意一个摘要;或,获取每个政务服务器的存储空间信息,根据每个政务服务器的存储空间信息,保留其中的一个摘要。
通过这种方法,可以从服务器侧去除数据融合系统中多个政务服务器中的重复文本。
举例来说,政务服务器1上传的1000个摘要中的150个摘要和政务服务器2上传的1500个摘要中的150个摘要是对应相同的,如政务服务器1上传的摘要1和政务服务器2上传的摘要1相同,如政务服务器1上传的摘要2和政务服务器2上传的摘要2相同……如政务服务器1上传的摘要150和政务服务器2上传的摘要150相同,则云服务器只保留政务服务器1上传的摘要1至摘要150,或者,云服务器只保留政务服务器2上传的摘要1至摘要150。
可选的,若云服务器只保留政务服务器1上传的摘要1至150,则指示政务服务器2删除摘要1至摘要150对应的文本1至150;若云服务器只保留政务服务器2上传的摘要1至150,则指示政务服务器1删除摘要1至摘要150对应的文本1至150。
通过上述方法,减少政务融合系统中的重复文本,提高政务融合系统的数据质量,降低系统中各个服务器的存储压力。
S103,政务服务器接收用户的上传文本或下载文本的请求,请求中包含目标文本的摘要。
如政务服务器1对应的是儿童福利系统,政务服务器2对应的是流浪救助系统。用户可通过政务服务器1向儿童福利系统上传或下载文本,用户可通过政务服务器2向流量救助系统上传或下载文本。
S104,政务服务器向云服务器发送确认请求消息,确认请求消息中包含目标文本的摘要。
举例来说,接收用户上传文本或下载文本的请求的政务服务器为第一政务服务器,则第一政务服务器向云服务器发送确认请求消息,确认请求消息中包含用户的请求中包含的目标文本的摘要。
S105,云服务器通过目标文本的摘要对确认请求进行响应。
本步骤从第一政务服务器接收用户的上传文本的请求或用户的下载文本的请求两种情况进行说明。
第一种情况:若第一政务服务器接收用户的上传文本的请求,则云服务器根据上传文本的请求中的目标文本的摘要,判断是否存储有与目标文本的摘要相同的摘要;若存储有与目标文本的摘要相同的摘要,则向第一政务服务器发送第一响应消息,第一响应消息用于表示云服务器存储有与目标文本的摘要相同的摘要,第一政务服务器根据第一响应消息拒绝用户的上传文本的请求;若没有存储与目标文本的摘要相同的摘要,则向第一政务服务器发送第二响应消息,第二响应消息用于表示云服务器没有存储与目标文本的摘要相同的摘要,第一政务服务器根据二响应消息同意用户的上传文本的请求。
通过上述方法,避免政务融合系统中重复文本的上传。
进一步,在所述第一政务服务器根据所述二响应消息同意所述用户的上传文本的请求之后,该方法还包括:所述第一政务服务器将所述目标文本的摘要发送至所述云服务器,以使得所述云服务器存储所述目标文本的摘要和所述第一政务服务器的标识信息。
第二种情况,若第一政务服务器接收用户下载文本的请求,则所述云服务器根据所述下载文本的请求中的目标文本的摘要,判断是否存储有与所述目标文本的摘要相同的摘要;若存储有与所述目标文本的摘要相同的摘要,则根据所述目标文本的摘要获取所述目标文本对应的政务服务器的标识信息;向所述第一政务服务器发送第三响应消息,所述第三响应消息中包含所述目标文本对应的政务服务器的标识信息;所述第一政务服务器根据所述第三响应消息,响应用户的下载文本的请求。
若所述目标文本对应的政务服务器为所述第一政务服务器,则所述第一政务服务器向用户发送所述目标文本;若所述目标文本对应的政务服务器为第二政务服务器,则所述第一政务服务器向所述第二政务服务器发送文本获取请求,所述文本获取请求中包含所述目标文本的摘要,以使得所述第二政务服务器根据所述目标文本的摘要获取所述目标文本,发送至所述第一政务服务器,所述第一政务服务器将所述目标文本发送至用户。
通过这种方法,只要政务融合系统中有一个政务服务器存储有用户需要下载的目标文本,用户就可以下载到该目标文本。
S106,政务服务器根据云服务器的响应,处理用户的上传文本或下载文本的请求。
本步骤的具体实现方式可参见步骤S105,本步骤不再赘述。
本发明实施例提供了一种政务数据清理方法,通过一个云服务器对每个政务服务器的文本的摘要进行管理,使得每个政务服务器在处理用户的上传文本请求和下载文本请求时,通过请求中的目标文本的摘要判断如何响应用户的请求,一方面避免了政务融合系统中的数据冗余,另一方面避免了重复数据的上传,提高了整个政务融合系统的数据质量。
图3示出了本发明实施例提供的一种政务数据清理方法的实现流程图,该方法应用于图2所示的政务融合系统中的任一政务服务器,详述如下:
S301,计算所有文本中任意两个文本的相似度,对于相似度大于等于预设阈值的两个文本,保留其中的一个文本。
可选的,针对任一文本,获取所述文本对应的带有TF-IDF权重的向量;计算任意两个文本的向量的余弦相似度,得到所述任意两个文本的相似度。
假设一个政务服务器存储有m个文本,m个文本共包含n个特征词,那么这m个文本就可以用一个文本向量矩阵的形式表示,该文本向量矩阵是一个m行n列的矩阵,第i行对应的特征向量即为第i个文本的特征向量。
其中TF-IDF算法经常被用于确定权重,其中TF即词频的意思,可以表示特征词在文档中出现的次数,当一个特征词在文档中多次出现,其TF值就会越高,其在文档中的作用也就越大。
IDF即逆向文档频率,表示对一个特征词出现在文档中的普遍性的量化值。
得到文档中某个词的TF和IDF值之后,二者乘积即为该词的TF-IDF值,此时也就确定了该词的权重值。
通过TF-IDF确定了权重之后,就可以得到一个文本对应的带有TF-IDF权重的特征向量。文本间的相似度即可利用这些特征向量之间的余弦相似度计算得出。
S302,计算每个文本的摘要,将所述文本的摘要发送至云服务器。
具体的,本步骤的具体实现方式可参见步骤S101,本发明实施例对此不再赘述。
由上可知,本发明通过在政务服务器侧先进行文本相似度的计算,对于相似度大于等于预设阈值的两个文本,保留其中的一个文本,通过这种方式,先去除存储的多个文本中的重复文本,然后再计算每个保留下来的文本的摘要,一方面进一步减少了数据融合系统中的重复数据,提高了数据的质量,另一方减少了政务服务器的计算量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图2是本发明实施例提供的一种政务融合系统,结合图2,系统包括云服务器和多个政务服务器,每个政务服务器对应一种政务系统,每个政务服务期存储有多个文本,该系统用于:
针对任一政务服务器,计算每个文本的摘要,将所述文本的摘要发送至云服务器;
所述云服务器接收每个政务服务器发送的文本的摘要,针对任一文本,存储所述文本的摘要和所述文本对应的政务服务器的标识信息;
所述政务服务器接收用户的上传文本或下载文本的请求,所述请求中包含目标文本的摘要;
所述政务服务器向所述云服务器发送确认请求消息,所述确认请求消息中包含所述目标文本的摘要;
所述云服务器通过所述目标文本的摘要对所述确认请求进行响应;
所述政务服务器根据所述云服务器的响应,处理所述用户的上传文本或下载文本的请求。
可选的,每个政务服务器通过相同的哈希算法计算每个文本的摘要,在所述云服务器接收每个政务服务器发送的文本的摘要之后,云服务器还用于:
若存在至少两个相同的摘要,则保留其中的任意一个摘要;
或,获取每个政务服务器的存储空间信息,根据每个政务服务器的存储空间信息,保留其中的一个摘要。
可选的,针对任一政务服务器,在计算每个文本的摘要之前,该政务服务器还用于:
计算所有文本中任意两个文本的相似度,对于相似度大于等于预设阈值的两个文本,保留其中的一个文本。
可选的,政务服务器用于:
针对任一文本,获取所述文本对应的带有TF-IDF权重的向量;
计算任意两个文本的向量的余弦相似度,得到所述任意两个文本的相似度。
可选的,若第一政务服务器接收用户的上传文本的请求,则该系统用于:
所述云服务器根据所述上传文本的请求中的目标文本的摘要,判断是否存储有与所述目标文本的摘要相同的摘要;
若存储有与所述目标文本的摘要相同的摘要,则向所述第一政务服务器发送第一响应消息,所述第一响应消息用于表示所述云服务器存储有与所述目标文本的摘要相同的摘要,所述第一政务服务器根据所述第一响应消息拒绝所述用户的上传文本的请求;
若没有存储与所述目标文本的摘要相同的摘要,则向所述第一政务服务器发送第二响应消息,所述第二响应消息用于表示所述云服务器没有存储与所述目标文本的摘要相同的摘要,所述第一政务服务器根据所述二响应消息同意所述用户的上传文本的请求。
可选的,在所述第一政务服务器根据所述二响应消息同意所述用户的上传文本的请求之后,第一政务服务器还用于:
所述第一政务服务器将所述目标文本的摘要发送至所述云服务器,以使得所述云服务器存储所述目标文本的摘要和所述第一政务服务器的标识信息。
可选的,若第一政务服务器接收到用户的下载文本的请求,则系统用于:
所述云服务器根据所述下载文本的请求中的目标文本的摘要,判断是否存储有与所述目标文本的摘要相同的摘要;
若存储有与所述目标文本的摘要相同的摘要,则根据所述目标文本的摘要获取所述目标文本对应的政务服务器的标识信息;
向所述第一政务服务器发送第三响应消息,所述第三响应消息中包含所述目标文本对应的政务服务器的标识信息;
所述第一政务服务器根据所述第三响应消息,响应用户的下载文本的请求。
可选的,所述第一政务服务器用于:
若所述目标文本对应的政务服务器为所述第一政务服务器,则所述第一政务服务器向用户发送所述目标文本;
若所述目标文本对应的政务服务器为第二政务服务器,则所述第一政务服务器向所述第二政务服务器发送文本获取请求,所述文本获取请求中包含所述目标文本的摘要,以使得所述第二政务服务器根据所述目标文本的摘要获取所述目标文本,发送至所述第一政务服务器,所述第一政务服务器将所述目标文本发送至用户。
本发明实施例提供了一种政务融合系统,通过一个云服务器对每个政务服务器的文本的摘要进行管理,使得每个政务服务器在处理用户的上传文本请求和下载文本请求时,通过请求中的目标文本的摘要判断如何响应用户的请求,一方面避免了政务融合系统中的数据冗余,另一方面避免了重复数据的上传,提高了整个政务融合系统的数据质量。
图4是本发明实施例提供的一种政务服务器或云服务器的示意图。如图4所示,包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个政务数据清理方法实施例中的步骤,例如图1所示的步骤101至步骤106。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述政务服务器/云服务器4中的执行过程。
所述政务服务器/云服务器4可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是政务服务器/云服务器4的示例,并不构成对政务服务器/云服务器4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述政务服务器/云服务器还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述政务服务器/云服务器4的内部存储单元,例如政务服务器/云服务器4的硬盘或内存。所述存储器41也可以是所述政务服务器/云服务器4的外部存储设备,例如所述政务服务器/云服务器4上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述政务服务器/云服务器4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述政务服务器/云服务器所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个政务数据清理方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种政务数据清理方法,其特征在于,该方法应用于一种政务融合系统,所述政务融合系统包括云服务器和多个政务服务器,每个政务服务器对应一种政务系统,每个政务服务期存储有多个文本,该方法包括:
针对任一政务服务器,计算每个文本的摘要,将所述文本的摘要发送至云服务器;
所述云服务器接收每个政务服务器发送的文本的摘要,针对任一文本,存储所述文本的摘要和所述文本对应的政务服务器的标识信息;
所述政务服务器接收用户的上传文本或下载文本的请求,所述请求中包含目标文本的摘要;
所述政务服务器向所述云服务器发送确认请求消息,所述确认请求消息中包含所述目标文本的摘要;
所述云服务器通过所述目标文本的摘要对所述确认请求进行响应;
所述政务服务器根据所述云服务器的响应,处理所述用户的上传文本或下载文本的请求。
2.根据权利要求1所述的方法,特征在于,每个政务服务器通过相同的哈希算法计算每个文本的摘要,在所述云服务器接收每个政务服务器发送的文本的摘要之后,该方法还包括:
若存在至少两个相同的摘要,则保留其中的任意一个摘要;
或,获取每个政务服务器的存储空间信息,根据每个政务服务器的存储空间信息,保留其中的一个摘要。
3.根据权利要求1所述的方法,其特征在于,针对任一政务服务器,在计算每个文本的摘要之前,该方法还包括:
计算所有文本中任意两个文本的相似度,对于相似度大于等于预设阈值的两个文本,保留其中的一个文本。
4.根据权利要求3所述的方法,其特征在于,所述计算所有文本中任意两个文本的相似度包括:
针对任一文本,获取所述文本对应的带有TF-IDF权重的向量;
计算任意两个文本的向量的余弦相似度,得到所述任意两个文本的相似度。
5.根据权利要求1至4任一项所述的方法,其特征在于,若第一政务服务器接收用户的上传文本的请求,则该方法包括:
所述云服务器根据所述上传文本的请求中的目标文本的摘要,判断是否存储有与所述目标文本的摘要相同的摘要;
若存储有与所述目标文本的摘要相同的摘要,则向所述第一政务服务器发送第一响应消息,所述第一响应消息用于表示所述云服务器存储有与所述目标文本的摘要相同的摘要,所述第一政务服务器根据所述第一响应消息拒绝所述用户的上传文本的请求;
若没有存储与所述目标文本的摘要相同的摘要,则向所述第一政务服务器发送第二响应消息,所述第二响应消息用于表示所述云服务器没有存储与所述目标文本的摘要相同的摘要,所述第一政务服务器根据所述二响应消息同意所述用户的上传文本的请求。
6.根据权利要求5所述的方法,其特征在于,在所述第一政务服务器根据所述二响应消息同意所述用户的上传文本的请求之后,该方法还包括:
所述第一政务服务器将所述目标文本的摘要发送至所述云服务器,以使得所述云服务器存储所述目标文本的摘要和所述第一政务服务器的标识信息。
7.根据权利要求1所述的方法,其特征在于,若第一政务服务器接收到用户的下载文本的请求,则该方法包括:
所述云服务器根据所述下载文本的请求中的目标文本的摘要,判断是否存储有与所述目标文本的摘要相同的摘要;
若存储有与所述目标文本的摘要相同的摘要,则根据所述目标文本的摘要获取所述目标文本对应的政务服务器的标识信息;
向所述第一政务服务器发送第三响应消息,所述第三响应消息中包含所述目标文本对应的政务服务器的标识信息;
所述第一政务服务器根据所述第三响应消息,响应用户的下载文本的请求。
8.根据权利要求7所述的方法,其特征在于,所述第一政务服务器根据所述第三响应消息,响应用户的下载文本的请求包括:
若所述目标文本对应的政务服务器为所述第一政务服务器,则所述第一政务服务器向用户发送所述目标文本;
若所述目标文本对应的政务服务器为第二政务服务器,则所述第一政务服务器向所述第二政务服务器发送文本获取请求,所述文本获取请求中包含所述目标文本的摘要,以使得所述第二政务服务器根据所述目标文本的摘要获取所述目标文本,发送至所述第一政务服务器,所述第一政务服务器将所述目标文本发送至用户。
9.一种政务融合系统,其特征在于,包括云服务器和多个政务服务器,每个政务服务器对应一种政务系统,每个政务服务期存储有多个文本,该系统用于:
针对任一政务服务器,计算每个文本的摘要,将所述文本的摘要发送至云服务器;
所述云服务器接收每个政务服务器发送的文本的摘要,针对任一文本,存储所述文本的摘要和所述文本对应的政务服务器的标识信息;
所述政务服务器接收用户的上传文本或下载文本的请求,所述请求中包含目标文本的摘要;
所述政务服务器向所述云服务器发送确认请求消息,所述确认请求消息中包含所述目标文本的摘要;
所述云服务器通过所述目标文本的摘要对所述确认请求进行响应;
所述政务服务器根据所述云服务器的响应,处理所述用户的上传文本或下载文本的请求。
10.根据权利要求9所述的政务融合系统,其特征在于,每个政务服务器通过相同的哈希算法计算每个文本的摘要,在所述云服务器接收每个政务服务器发送的文本的摘要之后,所述云服务器还用于:
若存在至少两个相同的摘要,则保留其中的任意一个摘要;
或,获取每个政务服务器的存储空间信息,根据每个政务服务器的存储空间信息,保留其中的一个摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110903297.2A CN113704503A (zh) | 2021-08-06 | 2021-08-06 | 政务系统数据清理方法和政务融合系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110903297.2A CN113704503A (zh) | 2021-08-06 | 2021-08-06 | 政务系统数据清理方法和政务融合系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704503A true CN113704503A (zh) | 2021-11-26 |
Family
ID=78651887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110903297.2A Pending CN113704503A (zh) | 2021-08-06 | 2021-08-06 | 政务系统数据清理方法和政务融合系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704503A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666159A (zh) * | 2022-04-20 | 2022-06-24 | 青岛聚好联科技有限公司 | 一种云服务系统、方法、装置、设备和介质 |
CN116777288A (zh) * | 2023-06-28 | 2023-09-19 | 广东裕太科技有限公司 | 一种政务系统信息整合系统及其应用方法 |
-
2021
- 2021-08-06 CN CN202110903297.2A patent/CN113704503A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666159A (zh) * | 2022-04-20 | 2022-06-24 | 青岛聚好联科技有限公司 | 一种云服务系统、方法、装置、设备和介质 |
CN114666159B (zh) * | 2022-04-20 | 2024-04-30 | 青岛聚好联科技有限公司 | 一种云服务系统、方法、装置、设备和介质 |
CN116777288A (zh) * | 2023-06-28 | 2023-09-19 | 广东裕太科技有限公司 | 一种政务系统信息整合系统及其应用方法 |
CN116777288B (zh) * | 2023-06-28 | 2024-03-12 | 广东裕太科技有限公司 | 一种政务系统信息整合系统及其应用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084377B (zh) | 用于构建决策树的方法和装置 | |
CN108551452B (zh) | 网络爬虫方法、终端及存储介质 | |
CN110929880A (zh) | 一种联邦学习方法、装置及计算机可读存储介质 | |
CN113704503A (zh) | 政务系统数据清理方法和政务融合系统 | |
CN110222107B (zh) | 一种数据发送方法及相关设备 | |
CN112163412B (zh) | 数据校验方法、装置、电子设备及存储介质 | |
CN108540375B (zh) | 资源传播方法、装置、服务器及计算机可读存储介质 | |
WO2022187005A1 (en) | Replication of parent record having linked child records that were previously replicated asynchronously across data storage regions | |
CN114676205A (zh) | 事件信息的处理方法及装置 | |
CN112751785B (zh) | 待处理请求发送方法、装置、计算机设备及存储介质 | |
CN114254360A (zh) | 模型训练方法、装置、存储介质、系统以及区块链节点 | |
CN111832018A (zh) | 病毒检测方法、装置、计算机装置及存储介质 | |
CN107203724B (zh) | 文件提交方法和装置 | |
US10169082B2 (en) | Accessing data in accordance with an execution deadline | |
CN112182112A (zh) | 基于区块链的分布式数据动态存储方法和电子设备 | |
CN111538566A (zh) | 镜像文件处理方法、装置、系统、电子设备及存储介质 | |
CN114245173B (zh) | 一种图像压缩方法、装置、终端设备和存储介质 | |
CN112148470B (zh) | 参数同步方法、计算机装置及可读存储介质 | |
CN115495770A (zh) | 基于区块链的超期合约处理方法和装置、设备和介质 | |
CN110264383B (zh) | 一种电子合同备案方法、装置、可读存储介质及服务器 | |
WO2022187008A1 (en) | Asynchronous replication of linked parent and child records across data storage regions | |
CN112130779A (zh) | 一种文件管理方法、装置、电子设备以及存储介质 | |
CN110990665A (zh) | 数据处理方法、装置、系统、电子设备及存储介质 | |
CN114519191A (zh) | 医疗数据管理方法及装置 | |
CN112214475A (zh) | 一种多种数据源配置方法、系统、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |