CN115858470B - 政策法规文件的匹配方法、系统、服务器及存储介质 - Google Patents
政策法规文件的匹配方法、系统、服务器及存储介质 Download PDFInfo
- Publication number
- CN115858470B CN115858470B CN202211678335.XA CN202211678335A CN115858470B CN 115858470 B CN115858470 B CN 115858470B CN 202211678335 A CN202211678335 A CN 202211678335A CN 115858470 B CN115858470 B CN 115858470B
- Authority
- CN
- China
- Prior art keywords
- classified
- policy
- classification
- word
- regulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种政策法规文件的匹配方法、系统、服务器及存储介质,方法包括将政策法规文件按页数拆分获得若干政策法规文件页;基于预设的分类词库在各政策法规文件页标记出分类关键词;对于每一政策法规文件页收集政策法规文件页分类关键词获得分类文档;对于每一分类文档通过TF‑IDF算法计算得到各个分类关键词的TF‑IDF数值;基于TF‑IDF数值从每一分类文档的各个分类关键词中筛选得到分类代表词集合;对分类代表词集合进行词袋匹配获得政策法规文件所属的分类版块;基于分类版块获得政策查询链接;将政策法规文件存入到政策查询链接对应的文件集中。本发明对文件进行了按页拆分并利用TF‑IDF算法提取每页关键词进行文件分类,无需人工,提高了分类效率。
Description
技术领域
本发明涉及文件匹配技术领域,尤其涉及一种政策法规文件的匹配方法、系统、服务器及存储介质。
背景技术
政策法规文件是指机关部门或组织以正式标准化的格式和文字,对需要完成的特定事件形成的文字材料。政策法规文件的内容一般包括发文机关、秘密等级、紧急程度、发文字号、签发人、标题、主送机关、正文、附件、发布层次、印章、成文时间、附注、主题词、抄送机关、印发机关和时间等组成。企事业单位日常事务审批中经常会使用到政策法规文件进行工作指导,企事业单位如果缺乏有效政策法规文件的指导,便会导致相关业务人员不熟悉相关流程,造成职权滥用、资金使用失衡、资产盲目构建,导致资源浪费和贪污腐败等问题。当前,企事业单位政策法规文件库通常是采用人工的手段进行整理和分类,这就需要人工阅读了解文件中内容,耗费的时间比较长,极大的影响文件分类效率低。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的旨在提供一种政策法规文件的匹配方法、系统、设备及存储介质,以解决背景技术所述的现有技术的问题。
本发明第一方面提供了一种政策法规文件的匹配方法,包括以下步骤:
将政策法规文件按页数进行拆分,获得若干的政策法规文件页;
基于预设的分类词库在各所述政策法规文件页标记出分类关键词;
对于每一所述政策法规文件页,收集所述政策法规文件页具有的所述分类关键词获得分类文档;
对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值;
基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合;
对所述分类代表词集合进行词袋匹配,获得所述政策法规文件所属的分类版块;
基于所述分类版块获得所述政策法规文件对应的政策查询链接;
将所述政策法规文件存入到所述政策查询链接对应的文件集中。
在本发明第一方面一种可选的实施方式中,所述对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值包括:
对于每一所述分类文档,计算各个所述分类关键词在所述分类文档中的词频;
对每一所述分类关键词,计算所述分类关键词在所有所述分类文档中的逆文档频率;
对于每一所述分类关键词,计算所述分类关键词的所述词频与所述逆文档频率的乘积,获得所述分类关键词的所述TF-IDF数值。
在本发明第一方面一种可选的实施方式中,所述基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合包括:
对于每一所述分类文档,将所述分类文档中各个所述分类关键词按照所述TF-IDF数值从大到小的顺序排列;
对于每一所述分类文档,选取所述TF-IDF数值靠前的至少一个所述分类关键词作为所述分类文档的分类代表词;
将各个所述分类文档获得的所述分类代表词进行汇总,得到所述分类代表词集合。
在本发明第一方面一种可选的实施方式中,所述对所述分类代表词集合进行词袋匹配,获得所述政策法规文件的分类版块包括:
获取各个所述分类版块分别对应的分类词袋;
将所述分类代表词集合与各个所述分类版块的所述分类词袋逐一进行对比;
对于每个所述分类词袋,获取所述分类词袋中与所述分类代表词集合的相同词语;
对于每个所述分类词袋,判断所述相同词语的数量是否大于第一阈值,以及所述相同词语在所述分类代表词集合中所占的比例是否大于第二阈值;
对于每个所述分类词袋,若所述相同词语的数量大于所述第一阈值且所述相同词语在所述分类代表词集合中所占的比例大于所述第二阈值,则以所述分类词袋对应的所述分类版块作为所述政策法规文件的所述分类版块。
在本发明第一方面一种可选的实施方式中,所述获取各个所述分类版块分别对应的分类词袋之前包括:
对于每一所述分类版块,获取所述分类版块中所有的已存入政策法规文件;
基于预设的所述分类词库从所有的所述已存入政策法规文件中提取所述分类关键词以作为所述分类词袋中的词语。
在本发明第一方面一种可选的实施方式中,所述基于预设的分类词库在各所述政策法规文件页标记出分类关键词之前包括:
从互联网中收集得到预设数量的公开政策法规文件作为词库样本;
从所述词库样本中挑选出与政策相关的词语汇总得到所述分类词库。
在本发明第一方面一种可选的实施方式中,所述分类版块包括预算业务版块、收支业务版块、采购业务版块、资产管理版块、以及合同管理版块。
本发明第二方面公开了一种政策法规文件的匹配系统,所述政策法规文件的匹配系统包括:
文件拆分模块,用于将政策法规文件按页数进行拆分,获得若干的政策法规文件页;
关键词标记模块,用于基于预设的分类词库在各所述政策法规文件页标记出分类关键词;
关键词整理模块,用于对于每一所述政策法规文件页,收集所述政策法规文件页具有的所述分类关键词获得分类文档;
TF-IDF计算模块,用于对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值;
关键词筛选模块,用于基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合;
词袋匹配模块,用于对所述分类代表词集合进行词袋匹配,获得所述政策法规文件的分类版块;
链接获取模块,用于基于所述分类版块获得所述政策法规文件对应的政策查询链接;
文件存储模块,用于将所述政策法规文件存入到所述政策查询链接对应的文件集中。
本发明第三方面公开了一种服务器,所述服务器包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述服务器执行如权利要求1-7中任一项所述的政策法规文件的匹配方法。
本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的政策法规文件的匹配方法。
有益效果:本发明提供了一种政策法规文件的匹配方法、系统、服务器及存储介质,方法包括将政策法规文件按页数拆分获得若干政策法规文件页;基于预设的分类词库在各政策法规文件页标记出分类关键词;对于每一政策法规文件页收集政策法规文件页分类关键词获得分类文档;对于每一分类文档通过TF-IDF算法计算得到各个分类关键词的TF-IDF数值;基于TF-IDF数值从每一分类文档的各个分类关键词中筛选得到分类代表词集合;对分类代表词集合进行词袋匹配获得政策法规文件所属的分类版块;基于分类版块获得政策查询链接;将政策法规文件存入到政策查询链接对应的文件集中。本发明对文件进行了按页拆分并利用TF-IDF算法提取每页关键词进行文件分类,无需人工,提高了分类效率。
附图说明
图1为本发明一种政策法规文件的匹配方法的一个实施例示意图;
图2为本发明一种政策法规文件的匹配系统的一个实施例示意图;
图3为本发明一种服务器的一个实施例示意图。
具体实施方式
本发明实施例提供了一种政策法规文件的匹配方法、系统、服务器及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示。
或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参阅图1,本发明第一方面提供了一种政策法规文件的匹配方法,包括以下步骤:
S100、将政策法规文件按页数进行拆分,获得若干的政策法规文件页;在本发明中,对文件进行分类之前,主要是从政策法规文件中提取出分类的关键词,本发明提取关键词不是基于政策法规文件整体而是基于每页的提取,这样一方面可以提高关键词的提取效率,另一方面提取得到的关键词可以更加充分的代表政策法规文件中所记载的内容;
S200、基于预设的分类词库在各所述政策法规文件页标记出分类关键词;在本发明中,分类词库中的词语是通过从现有政策法规文件中收集汇总得来,这些词语都是带有政策法规特征的词语,例如XX机关、XX单位、标题、发文字号、成文时间和主题词等等;由于分类词库中的词是从现有大量的政策法规文件收集得来,因此是覆盖了所有类型政策法规文件,在该步骤中,标记分类关键词的作用主要就是用来判断这个文件是不是政策法规文件页,如果在这个文件中标记的关键词的数量少于预设阈值,则证明这个文件可能只是引用了政策法规文件,本身并不是政策法规文件,则这个文件在标记这一步就可以进行排除;
S300、对于每一所述政策法规文件页,收集所述政策法规文件页具有的所述分类关键词获得分类文档;在本发明中,所述政策法规文件页有几页,就会生成几个分类文档,每个分类文档中写入其对应的政策法规文件页中标记出的分类关键词,这些分类关键词按照语言顺序并通过空格作为间隔写在分类文档中;
S400、对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值;在本发明中,在获得了每页所述政策法规文件页对应的所述分类文档之后,会对每份所述分类文档中各个所述分类关键词进行TF-IDF数值的计算,TF-IDF是一种数值统计,可以用来反映一个词语对于语料中某篇文档的重要性,如果某个词在一篇文档中出现的频率越高,即TF越高,并且在语料库中其他文档中很少出现,即DF低,也就是IDF越高,则认为这个词具有很好的类别区分能力。
S500、基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合;在本发明中,通过计算每页所述分类文档的各个所述分类关键词的TF-IDF数值,就可以很容易的从每页所述分类文档获得其各个所述分类关键词的代表性,根据各个所述分类关键词的代表性的强弱,本发明在每页所述分类文档都会挑选其中代表性强的一个或多个分类关键词,最后汇总每页所述分类文档获得的分类关键词组成分类代表词集合;
S600、对所述分类代表词集合进行词袋匹配,获得所述政策法规文件所属的分类版块;在本发明中,每中分类版块都预先设置有其对应的词袋,通过获得的分类代表词集合与分类版块词袋中的各个词语进行对比,当分类代表词集合中的词语与分类版块词袋中的词语达到一定的相似性时,就可以判定所述政策法规文件应该是属于这个分类版块的,在实际分类过程中,有些政策法规文件中可能写有很多方向的政策内容,所以在后续分类中一个所述政策法规文件可能会被分类版块中;所述分类版块包括预算业务版块、收支业务版块、采购业务版块、资产管理版块、以及合同管理版块;
S700、基于所述分类版块获得所述政策法规文件对应的政策查询链接;在本发明中,在获得了所述政策法规文件属于哪个分类版块之后,接着就会去这个分类版块对应政策查询链接,以便于后续将这个政策法规文件于其对应的政策查询链接绑定;
S800、将所述政策法规文件存入到所述政策查询链接对应的文件集中。在本发明中,每个所述政策查询链接都有其对应的文件存储地址,在获得了所述政策查询链接对应的存储地址之后,把政策法规文件存储到对应的文件存储地址即可。
在本发明第一方面一种可选的实施方式中,所述对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值包括:
对于每一所述分类文档,计算各个所述分类关键词在所述分类文档中的词频;对每一所述分类关键词,计算所述分类关键词在所有所述分类文档中的逆文档频率;对于每一所述分类关键词,计算所述分类关键词的所述词频与所述逆文档频率的乘积,获得所述分类关键词的所述TF-IDF数值。
在本发明中所使用的TF-IDF算法与现有技术没有差别,都是先获取到每个所述分类关键词的词频,然后在获取到其对应的逆文档频率,最后将每个所述分类关键词的词频与其对应的逆文档频率相乘来获得TF-IDF数值,在本发明中,为了提高计算效率,在计算各个所述分类关键词分别对应的TF-IDF数值时,可以先将各个所述分类关键词的词频生成词频矩阵,同样的依照词频矩阵中各个分类关键词的顺序生成各个所述分类关键词的逆文档频率矩阵,通过词频矩阵和逆文档频率矩阵相乘获得TF-IDF数值矩阵,然后在从TF-IDF数值矩阵中提取出各个各个所述分类关键词的TF-IDF数值。
在本发明第一方面一种可选的实施方式中,所述基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合包括:
对于每一所述分类文档,将所述分类文档中各个所述分类关键词按照所述TF-IDF数值从大到小的顺序排列;在本发明中,由于TF-IDF数值越大,这个TF-IDF数值对应的所述分类关键词在所述分类文档中的代表性就会越强,通过根据所述TF-IDF数值从大到小对各个所述分类关键词进行排序就可以很容易的从各个所述分类关键词选出分类代表词;
对于每一所述分类文档,选取所述TF-IDF数值靠前的至少一个所述分类关键词作为所述分类文档的分类代表词;在本发明中,根据不同分类的精度要求,在选择分类代表词的,在每份所述分类文档中可以选择一个或多个,当然的也可以通过一段阈值范围来选,例如在一份所述分类文档中,所述TF-IDF数值处于阈值范围内的分类关键词有N个,则把这N个分类关键词都作为分类代表词;
将各个所述分类文档获得的所述分类代表词进行汇总,得到所述分类代表词集合。在本发明中,对每份所述分类文档都执行筛选分类代表词的操作之后,统计从每份所述分类文档中筛选得到的分类代表词,组成分类代表词集合,由于这个代表词是基于每份所述分类文档(即每页所述政策法规文件页)所获得的,这样这些分类代表词就可以很显著的说明所述政策法规文件各页中所表述的政策内容,这样所述政策法规文件就可以被分类的更加细致。
在本发明第一方面一种可选的实施方式中,所述对所述分类代表词集合进行词袋匹配,获得所述政策法规文件的分类版块包括:
获取各个所述分类版块分别对应的分类词袋;在本发明中,每个所述分类版块都有其对应的分类词袋,分类词袋中存储着由这个所述分类版块内的所有政策法规文件得到的词语,这些词语就可以很好的代表所述分类版块政策内容的方向;
将所述分类代表词集合与各个所述分类版块的所述分类词袋逐一进行对比;在本发明中,得到的所述分类代表词集合会逐一与个所述分类版块的所述分类词袋进行对比,对比的内容主要是所述分类代表词集合中具有哪些与所述分类词袋相同的词语;
对于每个所述分类词袋,获取所述分类词袋中与所述分类代表词集合的相同词语;对于每个所述分类词袋,判断所述相同词语的数量是否大于第一阈值,以及所述相同词语在所述分类代表词集合中所占的比例是否大于第二阈值;
对于每个所述分类词袋,若所述相同词语的数量大于所述第一阈值且所述相同词语在所述分类代表词集合中所占的比例大于所述第二阈值,则以所述分类词袋对应的所述分类版块作为所述政策法规文件的所述分类版块。
在本发明中,比对所述分类代表词集合和所述分类词袋主要是判断两者之间的相似性,判断相似性一方面是基于两者之间有多少相同词语,相同词语越多,当然两者就越相近,另一方面就是比对相同词语在所述分类代表词集合中所占的比例,这个比例越高,证明政策法规文件中大部分的政策法规内容都与这个分类版块适配,差异的内容较少,在两个条件都满足的情况下就可以认为这个政策法规文件就属于这个分类版块。
在本发明第一方面一种可选的实施方式中,所述获取各个所述分类版块分别对应的分类词袋之前包括:
对于每一所述分类版块,获取所述分类版块中所有的已存入政策法规文件;基于预设的所述分类词库从所有的所述已存入政策法规文件中提取所述分类关键词以作为所述分类词袋中的词语。在本发明中,每个所述分类版块对应的分类词袋都是基于其目前与已存入政策法规文件获得,这样通过结合之前的分类经验得到的所述分类版块的分类词袋就可以更具有代表性,不断的政策法规文件写入中,所述分类版块的所述分类词袋能够自动更新扩充,从而可以不断的提高匹配的成功率。
在本发明第一方面一种可选的实施方式中,所述基于预设的分类词库在各所述政策法规文件页标记出分类关键词之前包括:
从互联网中收集得到预设数量的公开政策法规文件作为词库样本;从所述词库样本中挑选出与政策相关的词语汇总得到所述分类词库。在本发明中,分类词库中的词语是通过收集大量的现有公开不同类别方向的政策法规文件得来,这样得到的分类词库可以更好的体现出政策法规文件内容的特性,然后在此基础上标记出来的分类关键词就更能体现文件是不是政策法规文件,在是政策法规文件的基础上对分类关键词进行筛选就可以很好的得出策法规文件具体的分类方向。
参见图2,本发明第二方面公开了一种政策法规文件的匹配系统,所述政策法规文件的匹配系统包括:
文件拆分模块10,用于将政策法规文件按页数进行拆分,获得若干的政策法规文件页;
关键词标记模块20,用于基于预设的分类词库在各所述政策法规文件页标记出分类关键词;
关键词整理模块30,用于对于每一所述政策法规文件页,收集所述政策法规文件页具有的所述分类关键词获得分类文档;
TF-IDF计算模块40,用于对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值;
关键词筛选模块50,用于基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合;
词袋匹配模块60,用于对所述分类代表词集合进行词袋匹配,获得所述政策法规文件的分类版块;
链接获取模块70,用于基于所述分类版块获得所述政策法规文件对应的政策查询链接;
文件存储模块80,用于将所述政策法规文件存入到所述政策查询链接对应的文件集中。
在本发明第二方面一种可选的实施方式中,所述TF-IDF计算模块40包括:
词频计算单元,用于对于每一所述分类文档,计算各个所述分类关键词在所述分类文档中的词频;
逆文档频率计算单元,用于对每一所述分类关键词,计算所述分类关键词在所有所述分类文档中的逆文档频率;
TF-IDF数值计算单元,用于对于每一所述分类关键词,计算所述分类关键词的所述词频与所述逆文档频率的乘积,获得所述分类关键词的所述TF-IDF数值。
在本发明第二方面一种可选的实施方式中,所述关键词筛选模块50包括:
排序单元,用于对于每一所述分类文档,将所述分类文档中各个所述分类关键词按照所述TF-IDF数值从大到小的顺序排列;
选取单元,用于对于每一所述分类文档,选取所述TF-IDF数值靠前的至少一个所述分类关键词作为所述分类文档的分类代表词;
汇总单元,用于将各个所述分类文档获得的所述分类代表词进行汇总,得到所述分类代表词集合。
在本发明第二方面一种可选的实施方式中,所述词袋匹配模块60包括:
词袋获取单元,用于获取各个所述分类版块分别对应的分类词袋;
比对单元,用于将所述分类代表词集合与各个所述分类版块的所述分类词袋逐一进行对比;
相同词语获取单元,用于对于每个所述分类词袋,获取所述分类词袋中与所述分类代表词集合的相同词语;
判断单元,用于对于每个所述分类词袋,判断所述相同词语的数量是否大于第一阈值,以及所述相同词语在所述分类代表词集合中所占的比例是否大于第二阈值;
分类版块确定单元,用于对于每个所述分类词袋,若所述相同词语的数量大于所述第一阈值且所述相同词语在所述分类代表词集合中所占的比例大于所述第二阈值,则以所述分类词袋对应的所述分类版块作为所述政策法规文件的所述分类版块。
在本发明第二方面一种可选的实施方式中,所述政策法规文件的匹配系统还包括:
已存入政策法规文件获取模块,用于对于每一所述分类版块,获取所述分类版块中所有的已存入政策法规文件;
分类词袋构建模块,用于基于预设的所述分类词库从所有的所述已存入政策法规文件中提取所述分类关键词以作为所述分类词袋中的词语。
在本发明第二方面一种可选的实施方式中,所述政策法规文件的匹配系统还包括:
公开政策法规文件获取模块,用于从互联网中收集得到预设数量的公开政策法规文件作为词库样本;
分类词库构建模块,用于从所述词库样本中挑选出与政策相关的词语汇总得到所述分类词库。
在本发明第二方面一种可选的实施方式中,所述分类版块包括预算业务版块、收支业务版块、采购业务版块、资产管理版块、以及合同管理版块。
图3是本发明实施例提供的一种服务器的示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器110(central processing units,CPU)(例如,一个或一个以上处理器)和存储器120,一个或一个以上存储应用程序或数据的存储介质130(例如一个或一个以上海量存储设备)。其中,存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对图片发光特效的生成设备中的一系列指令操作。更进一步地,处理器可以设置为与存储介质通信,在接口自动化测试上执行存储介质中的一系列指令操作。
本发明的服务器还可以包括一个或一个以上电源140,一个或一个以上有线或无线网络接口150,一个或一个以上输入输出接口160,和/或,一个或一个以上操作系统,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3示出的服务器结构并不构成对本发明服务器的具体限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述的政策法规文件的匹配方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或系统、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种政策法规文件的匹配方法,其特征在于,包括以下步骤:
将政策法规文件按页数进行拆分,获得若干的政策法规文件页;
基于预设的分类词库在各所述政策法规文件页标记出分类关键词;
对于每一所述政策法规文件页,收集所述政策法规文件页具有的所述分类关键词获得分类文档;
对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值;
基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合;
对所述分类代表词集合进行词袋匹配,获得所述政策法规文件所属的分类版块;
基于所述分类版块获得所述政策法规文件对应的政策查询链接;
将所述政策法规文件存入到所述政策查询链接对应的文件集中。
2.根据权利要求1所述的政策法规文件的匹配方法,其特征在于,所述对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值包括:
对于每一所述分类文档,计算各个所述分类关键词在所述分类文档中的词频;
对每一所述分类关键词,计算所述分类关键词在所有所述分类文档中的逆文档频率;
对于每一所述分类关键词,计算所述分类关键词的所述词频与所述逆文档频率的乘积,获得所述分类关键词的所述TF-IDF数值。
3.根据权利要求1所述的政策法规文件的匹配方法,其特征在于,所述基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合包括:
对于每一所述分类文档,将所述分类文档中各个所述分类关键词按照所述TF-IDF数值从大到小的顺序排列;
对于每一所述分类文档,选取所述TF-IDF数值靠前的至少一个所述分类关键词作为所述分类文档的分类代表词;
将各个所述分类文档获得的所述分类代表词进行汇总,得到所述分类代表词集合。
4.根据权利要求1所述的政策法规文件的匹配方法,其特征在于,所述对所述分类代表词集合进行词袋匹配,获得所述政策法规文件的分类版块包括:
获取各个所述分类版块分别对应的分类词袋;
将所述分类代表词集合与各个所述分类版块的所述分类词袋逐一进行对比;
对于每个所述分类词袋,获取所述分类词袋中与所述分类代表词集合的相同词语;
对于每个所述分类词袋,判断所述相同词语的数量是否大于第一阈值,以及所述相同词语在所述分类代表词集合中所占的比例是否大于第二阈值;
对于每个所述分类词袋,若所述相同词语的数量大于所述第一阈值且所述相同词语在所述分类代表词集合中所占的比例大于所述第二阈值,则以所述分类词袋对应的所述分类版块作为所述政策法规文件的所述分类版块。
5.根据权利要求4所述的政策法规文件的匹配方法,其特征在于,所述获取各个所述分类版块分别对应的分类词袋之前包括:
对于每一所述分类版块,获取所述分类版块中所有的已存入政策法规文件;
基于预设的所述分类词库从所有的所述已存入政策法规文件中提取所述分类关键词以作为所述分类词袋中的词语。
6.根据权利要求1所述的政策法规文件的匹配方法,其特征在于,所述基于预设的分类词库在各所述政策法规文件页标记出分类关键词之前包括:
从互联网中收集得到预设数量的公开政策法规文件作为词库样本;
从所述词库样本中挑选出与政策相关的词语汇总得到所述分类词库。
7.根据权利要求1所述的政策法规文件的匹配方法,其特征在于,所述分类版块包括预算业务版块、收支业务版块、采购业务版块、资产管理版块、以及合同管理版块。
8.一种政策法规文件的匹配系统,其特征在于,所述政策法规文件的匹配系统包括:
文件拆分模块,用于将政策法规文件按页数进行拆分,获得若干的政策法规文件页;
关键词标记模块,用于基于预设的分类词库在各所述政策法规文件页标记出分类关键词;
关键词整理模块,用于对于每一所述政策法规文件页,收集所述政策法规文件页具有的所述分类关键词获得分类文档;
TF-IDF计算模块,用于对于每一所述分类文档,通过TF-IDF算法计算得到各个所述分类关键词的TF-IDF数值;
关键词筛选模块,用于基于所述TF-IDF数值从每一所述分类文档的各个所述分类关键词中筛选得到分类代表词集合;
词袋匹配模块,用于对所述分类代表词集合进行词袋匹配,获得所述政策法规文件的分类版块;
链接获取模块,用于基于所述分类版块获得所述政策法规文件对应的政策查询链接;
文件存储模块,用于将所述政策法规文件存入到所述政策查询链接对应的文件集中。
9.一种服务器,其特征在于,所述服务器包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述服务器执行如权利要求1-7中任一项所述的政策法规文件的匹配方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的政策法规文件的匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211678335.XA CN115858470B (zh) | 2022-12-26 | 2022-12-26 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211678335.XA CN115858470B (zh) | 2022-12-26 | 2022-12-26 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115858470A CN115858470A (zh) | 2023-03-28 |
CN115858470B true CN115858470B (zh) | 2023-09-22 |
Family
ID=85654964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211678335.XA Active CN115858470B (zh) | 2022-12-26 | 2022-12-26 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858470B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874827A (zh) * | 2024-03-12 | 2024-04-12 | 武汉华工安鼎信息技术有限责任公司 | 一种涉密文件的管理方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016103150A (ja) * | 2014-11-28 | 2016-06-02 | 京セラドキュメントソリューションズ株式会社 | 文書処理装置および文書処理プログラム |
CN108614825A (zh) * | 2016-12-12 | 2018-10-02 | 中移(杭州)信息技术有限公司 | 一种网页特征提取方法和装置 |
CN114202443A (zh) * | 2021-12-14 | 2022-03-18 | 深圳壹账通智能科技有限公司 | 政策分类方法、装置、设备及存储介质 |
-
2022
- 2022-12-26 CN CN202211678335.XA patent/CN115858470B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016103150A (ja) * | 2014-11-28 | 2016-06-02 | 京セラドキュメントソリューションズ株式会社 | 文書処理装置および文書処理プログラム |
CN108614825A (zh) * | 2016-12-12 | 2018-10-02 | 中移(杭州)信息技术有限公司 | 一种网页特征提取方法和装置 |
CN114202443A (zh) * | 2021-12-14 | 2022-03-18 | 深圳壹账通智能科技有限公司 | 政策分类方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于用户行为的文档关键词提取方法;王燊,施运梅;《北京信息科技大学学报》;第第33卷卷(第第5期期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115858470A (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Roy et al. | A Machine Learning approach for automation of Resume Recommendation system | |
De Vel et al. | Mining e-mail content for author identification forensics | |
Martin et al. | Profiling enterprise risks in large computer companies using the Leximancer software tool | |
CN103154991A (zh) | 信用风险采集 | |
US20080229187A1 (en) | Methods and systems for categorizing and indexing human-readable data | |
US8965877B2 (en) | Apparatus and method for automatic assignment of industry classification codes | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
WO2013123182A1 (en) | Computer-implemented systems and methods of performing contract review | |
EP0857334B1 (en) | Corporate disclosure and repository system | |
CN115858470B (zh) | 政策法规文件的匹配方法、系统、服务器及存储介质 | |
CN112364645A (zh) | 一种自动审核erp财务系统业务单据的方法及设备 | |
US20220342896A1 (en) | Method and system for document indexing and retrieval | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
Rawte et al. | Analysis of year-over-year changes in risk factors disclosure in 10-k filings | |
CN115409466A (zh) | 基于大数据的数据采集管理系统 | |
Umadevi | Document comparison based on tf-idf metric | |
CN108734021B (zh) | 一种基于去隐私数据的金融贷款大数据风险评估方法与系统 | |
Santamarina et al. | How to code a million missions: Developing bespoke nonprofit activity codes using machine learning algorithms | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及系统 | |
EP2461255A1 (en) | Document data processing device | |
CN115599885A (zh) | 文档全文检索方法、装置、计算机设备、存储介质及产品 | |
WO2022140471A1 (en) | System and method for parsing regulatory and other documents for machine scoring | |
CN113610504A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN110858214B (zh) | 推荐模型训练、及进一步审计程序推荐方法、装置及设备 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |