CN116050375B - 政策文件相似度比较方法、装置、系统及电子设备 - Google Patents
政策文件相似度比较方法、装置、系统及电子设备 Download PDFInfo
- Publication number
- CN116050375B CN116050375B CN202211476905.7A CN202211476905A CN116050375B CN 116050375 B CN116050375 B CN 116050375B CN 202211476905 A CN202211476905 A CN 202211476905A CN 116050375 B CN116050375 B CN 116050375B
- Authority
- CN
- China
- Prior art keywords
- policy
- similarity
- compared
- files
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000001914 filtration Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 22
- 230000001788 irregular Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000003058 natural language processing Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000036651 mood Effects 0.000 claims 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000012550 audit Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000013439 planning Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种政策文件相似度比较方法、装置、系统及电子设备,其方法包括:响应于用户指令,确定出至少两个政策文件作为待比对政策文件;通过相似度算法计算出各待比对政策文件两两之间的相似度;根据各待比对政策文件两两之间的相似度生成政策相似度图输出展示,其中,生成的政策相似度图包括与各待比对政策文件一一对应的政策文件标识以及在两两政策文件标识之间的相似度标识。本发明能够有效提高对政策相似度比较的效率以及准确度,同时能够更直观、高效地令用户知道相应的政策文件之间的相似度关系,并且本发明的政策文件相似度比较方法无需对相关的保存政策的系统进行代码改造,可以部署在各不同的系统中直接使用。
Description
技术领域
本发明涉及政策文件比较技术领域,尤其涉及一种政策文件相似度比较方法、装置、系统及电子设备。
背景技术
当前,在政府审计部门项目审计中,会将省、市、区(县)的相关政策纳入部门的政策库中,以便在项目中作为政策依据开展工作。但是对于新的政策文件,有部分政策文件存在新旧沿用或上下级复用的情况,因而会有部分内容与其他政策文件中的内容相似,所以当有新的政策文件纳入部门的政策库中时,需要对该政策文件进行相似度比较,以判断该政策文件是否有发生较大的变化。在现有技术中,对于政策文件的相似度比较,一般都仅是依靠审计人员人工去对比判断,由于内容较多,当审计人员人工对政策文件进行对比的时候,耗时会非常大,并且极容易出现判断的准确度下降的情况。
发明内容
本发明实施例提供一种政策文件相似度比较方法、装置、系统及电子设备,以替代现有技术中的人工对政策文件进行相似度比较的方式,并且能够提高政策文件相似度比较效率,更直观地看出各政策文件之间的相似度关系。
第一方面,本发明实施例提供一种政策文件相似度比较方法,包括:
响应于接收到的第一用户指令,确定出至少两个政策文件作为待比对政策文件;
通过相似度算法计算出各待比对政策文件两两之间的相似度;
根据各待比对政策文件两两之间的相似度生成政策相似度图输出展示,其中,生成的政策相似度图包括与各待比对政策文件一一对应的政策文件标识以及在两两政策文件标识之间的相似度标识。
第二方面,本发明实施例提供了一种政策文件相似度比较装置,包括:
政策文件选择模块,用于响应于接收到的第一用户指令,确定出至少两个政策文件作为待比对政策文件;
相似度计算模块,用于通过相似度算法计算出各待比对政策文件两两之间的相似度;
政策相似度图生成模块,用于根据各待比对政策文件两两之间的相似度生成政策相似度图输出展示,其中,生成的政策相似度图包括与各待比对政策文件一一对应的政策文件标识以及在两两政策文件标识之间的相似度标识。
第三方面,本发明实施例提供了一种政策文件相似度比较系统,包括:
审查系统,保存有政策文件,用于为下述政策文件相似度比较设备提供用于进行相似度比较的待比对政策文件;
政策文件相似度比较设备,用于执行上述第一方面的政策文件相似度比较方法的步骤,以根据第一用户指令对所述审查系统中的选定政策文件进行相似度比较。
第四方面,本发明实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面的政策文件相似度比较方法的步骤。
本发明通过程序替代审计人员人工对政策文件进行相似度比较,能够有效提高对政策相似度比较的效率以及准确度,同时,通过以生成政策相似度图的形式将政策文件之间的相似度展现处理,能够更直观、高效地令用户知道相应的政策文件之间的相似度关系,并且本发明的政策文件相似度比较方法无需对相关的保存政策的系统进行代码改造,可以部署在各不同的系统中直接使用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施方式的政策文件相似度比较方法的流程图;
图2为本发明一实施方式的政策文件相似度比较方法的对待比对政策文件预处理的方法的流程图;
图3为本发明一实施方式的政策文件相似度比对方法生成的政策相似度图示例图;
图4为本发明一实施方式的政策文件相似度比较装置的原理框图;
图5为本发明另一实施方式的政策文件相似度比较装置的原理框图;
图6为本发明一实施方式的政策文件相似度比较系统的原理框图;
图7为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例中的政策文件相似度比较方法可以应用在各种审计系统或装置中,以使得用户能够利用本发明的政策文件相似度比较方法实现提高政策文件相似度比较的效率与准确率,并且能够更直观地看出各政策文件之间的相似度关系,这些审计系统或装置包括但不限于智能手机、智能平板、个人PC、计算机、云端服务器等,本发明对此不作限定。
下面结合附图对本发明作进一步详细的说明。
图1示意性地展示了本发明一实施方式的政策文件相似度比较方法的流程图,参照图1,该方法包括以下步骤:
步骤S11:响应于接收到的第一用户指令,确定出至少两个政策文件作为待比对政策文件;
步骤S12:通过相似度算法计算出各待比对政策文件两两之间的相似度;
步骤S13:根据各待比对政策文件两两之间的相似度生成政策相似度图输出展示,其中,生成的政策相似度图包括与各待比对政策文件一一对应的政策文件标识以及在两两政策文件标识之间的相似度标识。
步骤S11为先确定出要用于进行比对的政策文件的步骤。在步骤S11中,用于确定出待比对政策文件的政策库,可以为预置的存储有相关政策文件的政策库,如在本地或其他系统中的用于存储政策文件的政策库,当该政策库为其他系统中的用于存储政策文件的政策库时,可以通过与该其他系统数据通信的方式以获取该其他系统中的用于存储政策文件的政策库;也可以为基于新上传的政策文件形成的政策库,如在获取到新上传的政策文件时,以一定时间内或上传后暂未存储入本地的政策文件形成用于确定出待比对政策文件时所基于的政策库。确定出的待比对政策文件,为基于接收到的第一用户指令在政策库中确定出的,其中,政策文件可以为Word文件或PDF文件。接收到的第一用户指令,可以是用户发出的政策文件选择指令,以根据第一用户指令在政策库中选定出要作为待比对政策文件的政策文件,如在政策库中勾选出需要作为待比对政策文件的政策文件,以确定出待比对政策文件,也可以是用户发出的确定规则指令,以根据预置的规则,在政策库中确定出要作为待比对政策文件的政策文件,如根据用户发出的指令,将近几年的同一政策的政策文件确定为待比对政策文件。而其中,确定出的待比对政策文件至少需要有两个,以满足比对的最小需求,根据实际情况,确定出的待比对政策文件也可以为三个或者是更多的数量,当确定出的待比对政策文件为两个的时候,只需要对该两个待比对政策文件进行相似度比较即可,若确定出的待比对政策文件具有三个或以上的时候,则需要将确定出的待比对政策文件两两分为若干组,以对各组中的两个待比对政策文件进行相似度比较,得到确定出的待比对政策文件之间两两的相似度。示例性地,用于确定出待比对政策文件的政策库为其他系统中预置的用于存储政策文件的政策库,第一用户指令为用户发出的政策文件选择指令,通过与该其他系统进行数据通信读取相应的政策库,用户从政策库中勾选出需要作为待比对政策文件的政策文件A、政策文件B和政策文件C形成第一用户指令,以响应于用户发出的第一用户指令,将确定出的政策文件A、政策文件B和政策文件C作为待比对政策文件,以继续执行政策文件相似度比较方法的后续步骤。
步骤S12是对确定出的待比对政策文件两两之间的相似度进行计算的步骤。在步骤S12中,若在步骤S11中确定出的待比对政策文件有三个或以上的时候,需要将待比对政策文件进行两两分组,再对每组中的两个待比对政策文件进行相似度计算。在进行相似度计算的时候,所采用的相似度算法,可以为余弦相似度算法,该算法的思路是,先分别对两份拟进行比较的待比对政策文件的拟比对内容进行逐段矩阵化,得到各份政策文件的至少一个矩阵组,之后将两份拟进行比较的待比对政策文件的各矩阵组一对一进行点积和余弦运算,得到与各矩阵组对应的矩阵组间相似度,最后对两份拟进行比较的待比对政策文件的所有矩阵组间相似度进行加权平均得到两份待比对政策文件之间的相似度结果。对于相似度算法的具体计算方法,由于其并非本发明的关键,因而在此不对该部分进行展开说明。在计算得出两两政策文件之间的相似度后,可以通过将各两个政策文件之间的相似度值保存,并形成相似度库,以便于用户在后续的查看,(还可以对相似度库中保存有的相似度值进行修改)并避免再次对相同的两个政策文件之间的相似度值进行计算,提高效率。
在一些实施方式中,为了能够提高相似度算法计算的精确度,可以先对政策文件中的一些无关内容进行过滤处理,如政策文件中特有的格式语句等,图2示意性地展示了本发明一实施方式的政策文件相似度比较方法的过滤处理方法的流程图,参照图2,在执行步骤S12对确定出的待比对政策文件两两之间的相似度进行计算之前,还可以实现为包括以下步骤:
步骤S21:通过自然语言处理对各待比对政策文件中的内容进行分词处理;
步骤S22:根据分词处理结果对各待比对政策文件进行过滤处理,确定出各待比对政策文件中的拟比对内容。
步骤S21和步骤S22是对确定出的待比对政策文件进行预处理的步骤。其中,在步骤S21中,首先需要对各个待比对政策文件中的内容进行分词处理,通过自然语言处理(Natural Language Processing,NLP),就能够对各待比对政策文件中的具体内容进行分词处理,并能够对分词后得到的词语的词性进行标识,以能够有效地将各待比对政策文件中的常规词汇和非常规词汇进行分离。所述的非常规词汇,应理解为在政策文件中,与政策文件中的指标、奖补等内容不相关的词汇,如政策文件中的介词、量词、副词、语气助词、连接词,均为符合本发明所指的非常规词汇。示例性地,以政策文件中的一句话“遵义高新技术产业开发区必须严格遵循国土空间规划等相关规划,按规定程序履行具体用地报批手续,编制开发建设有关规划时依法开展必要的规划环评工作”为例,通过自然语言处理以进行分词处理为例,其分词后得到“遵义高新技术产业开发区,n”、“必须,adv”、“严格,adj”、“遵守,v”、“国土空间规划,n”、“等,aux”、“按,v”、“规定,adj”、“程序,n”、“履行,v”、“具体,adj”、“用地报批手续,n”、“编制,n”、“开发建设,v”、“有关规划,n”、“时,adv”、“依法,aux”、“开展,v”、“必要的,adj”、“规划环评工作,n”这些分词处理后的词语,其中,在分词后得到的结果中,逗号前的内容即为分词得到的分词内容,逗号后的内容即为相应分词对应的词性标识,该词性标识为采用英文缩写表示,基于每一个分词结果中的分词内容对应的词性标识和非常规词汇的定义,就能够分辨出政策文件中的全部非常规词汇。
在步骤S22中,由于已在步骤S21中对各个待比对政策文件中的内容进行了分词处理,因而可以根据对进行分词处理的结果对待比对政策文件中的内容进行筛选,对待比对政策文件中的非常规词汇进行过滤,以能够更好地对两两待比对政策文件之间的相似度进行比较计算。以步骤S21中的示例为例,在其进行分词处理后得到的结果中,其中,“必须,adv”的词性标识,adv是副词,即为在分词处理后得到的副词,根据非常规词汇的定义,副词为非常规词汇,因此在该句话中,“必须”这一词语为非常规词汇,要对其进行过滤处理。在对各待比对政策文件中的各句话进行过滤处理后,剩下的内容即为各待比对政策文件中的拟比对内容。
进一步的,在执行步骤S22的时候可以分为第一过滤处理和第二过滤处理两种不同的过滤处理,其中,第二过滤处理即为前文所述的根据分词处理结果进行的过滤处理,其可以将各待比对政策文件中的非常规词汇过滤出,在第二过滤处理过滤出非常规词汇后,还可以对过滤出的非常规词汇对非常规词汇库进行更新,以能够在进行第二过滤处理之前,根据上一次更新的非常规词汇库对各待比政策文件进行第一过滤处理,以从各待比对政策文件中先滤除与非常规词汇库匹配的非常规词汇,减少第二过滤处理的计算量,该非常规词汇库即为在每一次进行第二过滤处理之后根据确定出的非常规词汇进行汇总整理形成的。具体地,可以在执行第二过滤处理的时候同时记录过滤的非常规词汇,并形成非常规词汇库,可以理解的是,该非常规词汇库中所汇总整理的均为出现在各个政策文件中的被过滤出的非常规词汇。而在对待比对政策文件进行第二过滤处理之前,可以先根据分词处理结果和非常规词汇库对待比对政策文件进行第一过滤处理,在进行第一过滤处理后,再执行对进行过第一过滤处理后的各待比对政策文件进行第二过滤处理,以将各待比对政策文件中的剩余的非常规词汇作进一步的过滤,并在过滤后将这些在第二过滤处理中过滤的非常规词汇更新入非常规词汇库,从而能够有效缩短对待比对政策文件进行处理的时间,并继续扩展非常规词汇库,使得非常规词汇库更完善,以在对后续的其他待比对政策文件进行非常规词汇的过滤处理的时候,能够减少基于分词处理结果对待比对政策文件进行过滤处理的计算量,提高对待比对政策文件进行预处理的效率,实现对后续的其他待比对政策文件中的非常规词汇的快速处理。
步骤S13是根据各待比对政策文件之间的相似度,生成政策相似度图以输出展示的步骤,在步骤S13中,该政策相似度图,可以通过图像数据库软件来生成,在本实施方式中,具体地采用了neo4j软件生成政策相似度图,本领域技术人员在实现该步骤的时候还可以采用其他不同的软件以生成政策相似度图,本实施例对此不作限制。其中,作为生成的政策相似度图的依据的各待比对政策文件之间的相似度,可以直接采用在步骤S12中计算得到的各待比对政策文件之间的相似度,亦可以基于需要生成的政策相似度图中的待比对政策文件,在构建出的相似度库中查询是否已存有需要生成的政策相似度图中的待比对政策文件之间的相似度,若查询到已保存有,则直接调用相似度库中的对应相似度生成政策相似度图,否则则根据步骤S12中计算得到的相似度生成政策相似度图。其中,所生成的政策相似度图是与步骤S11中确定出的待比对政策文件对应的,以响应于第一用户的指令,根据用户的需求输出展示与第一用户指令对应的政策文件的政策相似度图。
具体地,在政策相似度图中,包括有与各待比对政策文件一一对应的政策文件标识以及在两两政策文件标识之间的相似度标识。其中,政策文件标识可以设置为与对应的政策文件名称对应的文字标识,也可以设置为通过图形与颜色来表示与该政策文件标识对应的政策文件,还可以结合上述的两者,即在图形中加入与对应的政策文件名称来表示对应的政策文件,具体的设置方式,可以根据实际情况进行自定义设计,本发明对此不作限制。而相似度标识,在政策相似度图中的位置可以是在两两政策文件标识之间,也可以设置在其他位置,只需要能够表明该相似度标识对应的相似度是对应哪两个政策文件标识即可,具体地,可以将该相似度标识生成为在两个政策文件标识之间的连线,而用于表示两个政策文件标识对应的两个政策文件之间的相似度,可以通过直接在连线上标识出相似度值的方式表示两个政策文件标识对应的两个政策文件之间的相似度,也可以通过连线的粗细、政策文件之间的距离远近等方式来表示两个政策文件标识对应的两个政策文件之间的相似度,其具体可以根据实际情况进行自定义设计,本发明对此也并不作限制。示例性地,生成的政策相似度图可以如图3所示,确定出的待比对政策文件包括有金华市雷电灾害防御和应急实施办法和金华市重大活动档案管理办法,经过计算得到该两份政策文件之间的相似度为12.38%,将两份政策文件标识均设置为圆形的图形,并在圆形的中部加入对应的政策文件名称,相似度标识设置为在政策文件标识之间的连线,并在连线上加入对应的两个政策人家标识对应的两个政策文件之间的相似度,以通过图的形式将政策文件之间的相似度展现处理。
作为一种优选的实施方式,在政策相似度图中,还可以包括有在两两政策文件标识之间的两两政策文件标识对应的政策文件中同时出现频率高于第一阈值的关键词。通过在政策相似度图中加入该关键词,能够令政策文件相似度图可以更加直观地体现出对比的两两政策文件之间的相似部分,使得用户在后续详细阅读两份政策文件的时候能够更好地有针对地阅读政策文件的相关内容。进一步地,为了便于用户查看相关的政策文件内容,还可以在政策相似图中,将政策文件标识设置为能够响应于针对用户发出的第二用户指令,打开该政策文件标识对应的政策文件。其中,该第二用户指令可以为用户发出的选择指令或点选指令等,如,可以将政策文件标识设置为通过鼠标点击跳转的形式以实现打开该政策文件标识对应的政策文件,由于相关政策文件为政策库中的政策文件,因而通过跳转链接的设计能够方便地令用户能够很好地打开政策文件以对相关政策文件进行详细阅读。
由于政策文件之间的相似度,是通过固定的相似度算法进行计算得到的,因而得到的结果会相对较为死板,有可能会因为在对政策文件进行矩阵化的时候出现划分错误而导致相似度计算出现误差,从而使得计算得到的相似度可能会出现错误。针对于该种情况,作为一种优选的实施方式,可以将政策相似度图设置为,能够根据接收到的针对政策相似度图中的相似度标识的第三用户指令,令对相应的相似度标识对应的相似度值作修改,以实现能够通过人工的方式对得到的两两政策之间的相似度进行修正,以提高输出展示的政策相似度图的准确度,其中,第三用户指令与第二用户指令相似,亦可以为用户发出的选择指令或点选指令等,在此不再重复说明。在对相似度标识对应的相似度值进行修改之后,即同时自动更新重置政策相似度图,从而提高输出展示的政策相似度图的准确度。可以理解的是,在修改相似度标识对应的相似度值后,可以将修改后的相似度更新至相似度库中,以及时对相似度库中所保存的错误的相似度值进行更新,保证在后续调用相似度库中保存的相似度值的时候,能够确保其调用的相似度值的准确性。
本发明通过程序替代审计人员人工对政策文件进行相似度比较,能够有效提高对政策相似度比较的效率以及准确度,并且通过将计算得出的相似度值保存形成相似度库,能够使得在后续需要再次对相同的两个政策文件进行相似度计算的时候,减少资源的消耗,并能够快速查看相应政策文件的相似情况,提高效率,同时,通过以生成政策相似度图的形式将政策文件之间的相似度展现处理,能够更直观、高效地令用户知道相应的政策文件之间的相似度关系,并且本发明的政策文件相似度比较方法无需对相关的保存政策的系统进行代码改造,可以部署在各不同的系统中直接使用。
图4示意性地展示了本发明一实施方式的政策文件相似度比较装置的原理框图,参照图4,该装置包括:
政策文件选择模块1,用于响应于接收到的第一用户指令,确定出至少两个政策文件作为待比对政策文件;
相似度计算模块2,用于通过相似度算法计算出各待比对政策文件两两之间的相似度;
政策相似度图生成模块3,用于根据各待比对政策文件两两之间的相似度生成政策相似度图输出展示,其中,生成的政策相似度图包括与各待比对政策文件一一对应的政策文件标识以及在两两政策文件标识之间的相似度标识。
参照图5,作为一种优选的实施方式,该装置还可以包括:
预处理模块4,用于通过自然语言处理对各待比对政策文件进行预处理,其中,预处理包括对待比对政策文件中的非常规词汇进行过滤。
需要说明的是,本发明实施例中的政策文件相似度比较装置的实现过程和实现原理具体可参见上述方法实施例的相应描述,例如方法实施例部分各待比对政策文件两两之间的相似度计算、对待比对政策文件的预处理和政策相似度图的生成及输出等的相应描述,故在此均不再赘述。示例性地,本发明实施例的政策文件相似度比较装置可以是具有处理器的任何智能设备或装置,包括但不限于计算机、智能手机、个人电脑、机器人、云端服务器等。
图6示意性地展示了本发明一实施方式的政策文件相似度比较系统的原理框图,参照图6,包括:
审查系统51,保存有政策文件,用于为下述政策文件相似度比较装置52提供用于进行相似度比较的待比对政策文件;
政策文件相似度比较装置52,用于执行上述的政策文件相似度方法的步骤,以根据第一用户指令对所述审查系统中的选定政策文件进行相似度比较。其中,该政策文件相似度比较装置52也可以采用图4或图5中的政策文件相似度比较装置。
需要说明的是,本发明实施例中的政策文件相似度比较系统可以是增设了政策文件相似度比较装置的各审计系统,该系统的实现过程和实现原理具体可参见上述方法实施例的相应描述,故均在此均不再赘述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项实施例的政策文件相似度比较方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项实施例的政策文件相似度比较方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一实施例的政策文件相似度比较方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任一项实施例的政策文件相似度比较方法。
图7是本申请另一实施例提供的执行政策文件相似度比较方法的电子设备的硬件结构示意图,如图7所示,该设备包括:
一个或多个处理器610以及存储器620,图7中以一个处理器610为例。
执行政策文件相似度比较方法的设备还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的政策文件相似度比较方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的政策文件相似度比较方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据政策文件相似度比较方法的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与图像处理设备的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的政策文件相似度比较方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (6)
1.政策文件相似度比较方法,其特征在于,包括:
响应于接收到的第一用户指令,确定出至少两个政策文件作为待比对政策文件;
通过自然语言处理对各待比对政策文件进行预处理,包括:
通过自然语言处理对各待比对政策文件中的内容进行分词处理;
根据分词处理结果和非常规词汇库对各待比对政策文件进行第一过滤处理;
根据分词处理结果对第一过滤处理后的各待比对政策文件进行第二过滤处理,从第一过滤处理后的各待比对政策文件中滤除非常规词汇,所述非常规词汇为政策文件中的介词、量词、副词、语气助词、连接词;
根据第二过滤处理中过滤出来的非常规词汇更新所述非常规词汇库;
分别对两份拟进行比较的待比对政策文件的拟比对内容进行逐段矩阵化,得到各份政策文件的至少一个矩阵组;
将两份拟进行比较的待比对政策文件的各矩阵组一对一进行点积和余弦运算,得到与各矩阵组对应的矩阵组间相似度;
对两份拟进行比较的待比对政策文件的所有矩阵组间相似度进行加权平均得到两份待比对政策文件之间的相似度结果;
根据各待比对政策文件两两之间的相似度生成政策相似度图输出展示,其中,生成的政策相似度图包括与各待比对政策文件一一对应的政策文件标识、在两两政策文件标识之间的相似度标识以及在两两政策文件标识之间的两两政策文件标识对应的政策文件中同时出现频率高于第一阈值的关键词。
2.根据权利要求1所述的方法,其特征在于,还包括:
响应于针对政策文件标识的第二用户指令,打开政策文件标识对应的政策文件。
3.根据权利要求1所述的方法,其特征在于,还包括:
根据接收到的针对相似度标识的第三用户指令,对相似度标识对应的相似度作修改;
根据修改后的相似度重置所述政策相似度图。
4.政策文件相似度比较装置,其特征在于,包括:
政策文件选择模块,用于响应于接收到第一用户指令,确定出至少两个政策文件作为待比对政策文件;
预处理模块,用于通过自然语言处理对各待比对政策文件进行预处理,包括:通过自然语言处理对各待比对政策文件中的内容进行分词处理;根据分词处理结果和非常规词汇库对各待比对政策文件进行第一过滤处理;根据分词处理结果对第一过滤处理后的各待比对政策文件进行第二过滤处理,从第一过滤处理后的各待比对政策文件中滤除非常规词汇,所述非常规词汇为政策文件中的介词、量词、副词、语气助词、连接词;根据第二过滤处理中过滤出来的非常规词汇更新所述非常规词汇库;
相似度计算模块,用于分别对两份拟进行比较的待比对政策文件的拟比对内容进行逐段矩阵化,得到各份政策文件的至少一个矩阵组;将两份拟进行比较的待比对政策文件的各矩阵组一对一进行点积和余弦运算,得到与各矩阵组对应的矩阵组间相似度;对两份拟进行比较的待比对政策文件的所有矩阵组间相似度进行加权平均得到两份待比对政策文件之间的相似度结果;
政策相似度图生成模块,用于根据各待比对政策文件两两之间的相似度生成政策相似度图输出展示,其中,生成的政策相似度图包括与各待比对政策文件一一对应的政策文件标识、在两两政策文件标识之间的相似度标识以及在两两政策文件标识之间的两两政策文件标识对应的政策文件中同时出现频率高于第一阈值的关键词。
5.政策文件相似度比较系统,其特征在于,
审查系统,保存有政策文件,用于为政策文件相似度比较设备提供用于进行相似度比较的待比对政策文件;
政策文件相似度比较设备,用于执行上述权利要求1至3中任意一项所述的政策文件相似度比较方法的步骤,以根据第一用户指令对所述审查系统中的选定政策文件进行相似度比较。
6.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至3中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211476905.7A CN116050375B (zh) | 2022-11-23 | 2022-11-23 | 政策文件相似度比较方法、装置、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211476905.7A CN116050375B (zh) | 2022-11-23 | 2022-11-23 | 政策文件相似度比较方法、装置、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116050375A CN116050375A (zh) | 2023-05-02 |
CN116050375B true CN116050375B (zh) | 2024-01-30 |
Family
ID=86130264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211476905.7A Active CN116050375B (zh) | 2022-11-23 | 2022-11-23 | 政策文件相似度比较方法、装置、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050375B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202395A (zh) * | 2016-07-11 | 2016-12-07 | 上海智臻智能网络科技股份有限公司 | 文本聚类方法和装置 |
CN114186058A (zh) * | 2021-08-18 | 2022-03-15 | 中电科大数据研究院有限公司 | 一种政策公文标题相似度计算方法 |
CN114398900A (zh) * | 2021-12-21 | 2022-04-26 | 成都量子矩阵科技有限公司 | 一种基于RoBERTa模型的长文本语义相似度计算方法 |
CN114997135A (zh) * | 2022-05-25 | 2022-09-02 | 北京惠及智医科技有限公司 | 差异文本筛选方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2681147A1 (en) * | 2007-04-19 | 2008-10-30 | D-Wave Systems Inc. | Systems, methods, and apparatus for automatic image recognition |
-
2022
- 2022-11-23 CN CN202211476905.7A patent/CN116050375B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202395A (zh) * | 2016-07-11 | 2016-12-07 | 上海智臻智能网络科技股份有限公司 | 文本聚类方法和装置 |
CN114186058A (zh) * | 2021-08-18 | 2022-03-15 | 中电科大数据研究院有限公司 | 一种政策公文标题相似度计算方法 |
CN114398900A (zh) * | 2021-12-21 | 2022-04-26 | 成都量子矩阵科技有限公司 | 一种基于RoBERTa模型的长文本语义相似度计算方法 |
CN114997135A (zh) * | 2022-05-25 | 2022-09-02 | 北京惠及智医科技有限公司 | 差异文本筛选方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116050375A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023138188A1 (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
US11132362B2 (en) | Method and system of optimizing database system, electronic device and storage medium | |
US20200301566A1 (en) | Environmental context based emoji selection in computing devices | |
CN114553784A (zh) | 限流处理方法及装置 | |
TW202123026A (zh) | 資料歸檔方法、裝置、電腦裝置及存儲介質 | |
CN115860717A (zh) | 一种基于知识图谱的故障诊断方法、装置及电子设备 | |
CA3153550A1 (en) | Core recommendation method, device and system | |
CN112149708A (zh) | 数据模型选择优化方法、装置、计算机装置及存储介质 | |
CN107633080B (zh) | 一种用户任务处理方法及装置 | |
CN116050375B (zh) | 政策文件相似度比较方法、装置、系统及电子设备 | |
CN109240916A (zh) | 信息输出控制方法、装置及计算机可读存储介质 | |
CN115994534A (zh) | 政务场景热词挖掘方法、装置、设备及存储介质 | |
CN111078671A (zh) | 数据表字段的修改方法、装置、设备和介质 | |
CN115878864A (zh) | 一种数据检索方法、装置、设备及可读存储介质 | |
CN114385779B (zh) | 一种应急调度指令执行方法、装置及电子设备 | |
CN112767933B (zh) | 公路养护管理系统的语音交互方法、装置、设备及介质 | |
CN114579136A (zh) | 代码处理方法、装置、计算机设备和存储介质 | |
CN110781182B (zh) | 校验逻辑的自动编码方法、装置以及计算机设备 | |
CN112835494A (zh) | 一种语音识别结果纠错方法及装置 | |
CN113127495B (zh) | 一种数据库的更新方法及装置 | |
CN115292194B (zh) | 流程调试的方法、电子设备及计算机可读存储介质 | |
CN114492413B (zh) | 文本校对方法、装置和电子设备 | |
CN111597311B (zh) | 用于输出信息的方法和装置 | |
US20190372846A1 (en) | Cloud-based comparison of different remote configurations of a same system | |
CN114490291A (zh) | 信息处理方法及装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |