CN117829140B - 用于规章与法规的自动比对方法及其系统 - Google Patents
用于规章与法规的自动比对方法及其系统 Download PDFInfo
- Publication number
- CN117829140B CN117829140B CN202410238970.9A CN202410238970A CN117829140B CN 117829140 B CN117829140 B CN 117829140B CN 202410238970 A CN202410238970 A CN 202410238970A CN 117829140 B CN117829140 B CN 117829140B
- Authority
- CN
- China
- Prior art keywords
- regulatory
- regulation
- legal
- regulations
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000001105 regulatory effect Effects 0.000 claims abstract description 115
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000007635 classification algorithm Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及用于规章与法规的自动比对方法及其系统,自动比对方法包括:按照条款结构,分别针对待比对的规章制度和法律法规进行条款拆分,以获取规章制度的规章条款数据以及法律法规的法规条款数据;对规章条款数据和法规条款数据执行语义相似度计算,以获取关联条款数据组,其中关联条款数据组包括规章条款数据与法规条款数据中的一组或多组相关联的规章制度条款和法律法规条款;以及针对一组或多组相关联的规章制度条款和法律法规条款执行冲突对比计算,以判断一组或多组相关联的规章制度条款和法律法规条款中是否存在不一致的情形。本申请实施例的自动比对方法及其系统有效提高了内部规章制度与法律法规之间对比的效率与准确性。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及用于规章与法规的自动比对方法及其系统。
背景技术
随着社会的发展和经济环境的不断变化,法律法规也会经常发生调整和更新。对于金融机构或其他受到法规严格约束的机构来说,时刻了解法规的最新变化并确保内部规章与之保持一致,是避免法律风险的关键。
现有方案通常手动跟踪法律法规的变更,并且人工比对内部规章是否与法律法规之间存在冲突,从而能够在存在冲突的情况下及时更新内部规章。人工比对内部规章与法律法规的主要流程往往包括资料整理步骤和内容比对步骤。其中,资料整理步骤包括整理要对比的机构内部规章制度文件和相关法律法规文件;内容比对步骤包括由合规人员手动将法律法规的文件内容与机构的现行内部规章进行对照,以查找出潜在的冲突或不一致之处。
然而,人工比对内部规章与法律法规的方式既费时又易出错。一方面,由于整个比对过程大都依赖于人工操作,从收集信息到发现冲突,经常需要花费大量的时间和精力,因而效率低下;另一方面,人为操作可能出错或遗漏,尤其是在面对大量复杂的法规信息时容易遗漏风险。
发明内容
本申请的实施例提供了一种用于规章与法规的自动比对方法及其系统,其通过自动对比机构内部规章制度与法律法规,显著减少了人工对比机构内部规章制度与法律法规的时间和工作量,有效提高了内部规章制度与法律法规之间对比的效率与准确性。
根据本申请的一方面,提供一种用于规章与法规的自动比对方法,所述自动比对方法包括:按照条款结构,分别针对待比对的规章制度和法律法规进行条款拆分,以获取所述规章制度的规章条款数据以及所述法律法规的法规条款数据;对所述规章条款数据和所述法规条款数据执行语义相似度计算,以获取关联条款数据组,其中所述关联条款数据组包括规章条款数据与法规条款数据中的一组或多组相关联的规章制度条款和法律法规条款;以及针对所述一组或多组相关联的规章制度条款和法律法规条款执行冲突对比计算,以判断所述一组或多组相关联的规章制度条款和法律法规条款中是否存在不一致的情形。
在本申请的一些实施例中,可选地,所述语义相似度计算包括:利用深度学习技术计算所述规章条款数据与所述法规条款数据之间的相似度,以筛选出一组或多组初步相关的规章制度条款和法律法规条款;基于关键词库,针对所述一组或多组初步相关的规章制度条款和法律法规条款,分别从所述规章制度条款中提取规章关键词并且从所述法律法规条款中提取法规关键词;以及基于所提取的规章关键词和法规关键词,从所述一组或多组初步相关的规章制度条款和法律法规条款中进一步筛选出所述一组或多组相关联的规章制度条款和法律法规条款。
在本申请的一些实施例中,可选地,所述自动比对方法还包括:基于所述语义相似度计算确定所述规章条款数据中是否存在遗漏的法律法规条款。
在本申请的一些实施例中,可选地,通过以下方式确定所述规章条款数据中是否存在遗漏的法律法规条款:判断所提取的规章关键词中是否包含所有的法规关键词;并且在存在法规关键词未被所述规章关键词包含的情况下,基于未被包含的法规关键词确定所述规章条款数据中遗漏的法规条款。
在本申请的一些实施例中,可选地,所述自动比对方法还包括:当所述一组或多组相关联的规章制度条款和法律法规条款中存在不一致的情形时,展示所述一组或多组相关联的规章制度条款和法律法规条款中不一致的部分以供用户标注。
在本申请的一些实施例中,可选地,所述语义相似度计算基于语义相似度算法来执行;并且所述自动比对方法还包括根据用户的标注来优化所述语义相似度算法。
在本申请的一些实施例中,可选地,所述冲突对比计算基于句子对分类算法来执行;并且所述自动比对方法还包括根据用户的标注来优化所述句子对分类算法。
在本申请的一些实施例中,可选地,所述关键词库利用动态关键词技术来形成;并且所述自动比对方法还包括根据用户的标注来更新所述关键词库,其中更新所述关键词库包括添加遗漏的关键词或者移除不再相关的关键词。
根据本申请的另一方面,提供一种用于规章与法规的自动比对系统,所述自动比对系统包括:存储器,其配置成存储指令;和处理器,其配置成执行所述指令使得所述自动比对系统执行如上文所述的任意一种自动比对方法。
根据本申请的又一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种自动比对方法。
本申请实施例提供了将机构内部规章制度与指定法律法规文件进行自动对比的方法与系统,当内部的规则制度与该法律法规的相关条款出现冲突时,系统可以给出冲突的内部规章制度和相关法律法规的条款信息,以提醒机构合规人员及时更新内部规章制度相关条款。
附图说明
从结合附图的以下详细说明中,将会使本申请的上述和其他目的及优点更加完整清楚,其中,相同或相似的要素采用相同的标号表示。
图1示出了根据本申请的一个实施例的用于规章与法规的自动比对方法的流程图;并且
图2示出了根据本申请的一个实施例的用于规章与法规的自动比对系统的示意图。
具体实施方式
出于简洁和说明性目的,本文主要参考其示范实施例来描述本申请的原理。但是,本领域技术人员将容易地认识到相同的原理可等效地应用于所有类型的用于规章与法规的自动比对方法及其系统,并且可以在其中实施这些相同或相似的原理,任何此类变化不背离本申请的真实精神和范围。
下面将结合图1来描述本申请的一个实施例的用于规章与法规的自动比对方法100。在一些实施例中,用于规章与法规的自动比对方法100可以经由用于规章与法规的自动比对系统200来执行。
图1示出了根据本申请的一个实施例的用于规章与法规的自动比对方法100的流程图。在一些实施例中,用于规章与法规的自动比对方法100可以利用比对算法模型来执行,执行用于规章与法规的自动比对方法100的流程可以划分为数据处理阶段110、冲突对比阶段120和结果展示阶段130。在另一些实施例中,用于规章与法规的自动比对方法100的流程还可以包括模型迭代阶段140,以针对所应用的比对算法模型进行优化和迭代。
在一些实施例中,数据处理阶段110可以包括步骤S111和S112。
在步骤S111中,输入需要对比的法律法规和规章制度。可选地,可以通过文件传输的方式来输入需要对比的法律法规和规章制度,或者可以通过在系统(例如,自动比对系统200)内部选取所存储的文件的方式来输入需要对比的法律法规和规章制度。例如,自动比对系统200的内部可以存储有多个供比对的法律法规文件,用户可以根据需要从中选取需要比对的法律法规的文件,同时用户可以直接将需要比对的规章制度的文件通过文件传输的方式输入到自动比对系统200。在其他实施例中,也可以通过其他方式来输入需要对比的法律法规和规章制度。
本文中所述的“法律法规”可以指某个国家、地区等区域内现行有效的法律、行政法规、司法解释、地方法规、地方规章、部门规章及其他规范性文件。由于法律法规是面向整个国家或者地区的,因而本文中的法律法规也可以称作“外部法律法规”。本文中所述的“规章制度”可以指某个机构(诸如金融机构)内部制定的具有约束力的规范文件。由于规章制度是面向机构内部的,因而本文中的规章制度也可以称作“内部规章制度”、“机构内部规章制度”或“内规”。在步骤S111之后,可以进一步执行步骤S112。
在步骤S112中,对所输入的外部法律法规和机构内部规章制度进行预处理,其中预处理操作可以包括针对外部法律法规和机构内部规章制度进行条款拆分。作为示例,可以按照条款结构,分别针对待比对的规章制度和法律法规进行条款拆分,以获取规章制度的规章条款数据以及法律法规的法规条款数据。
本文中所述的条款拆分可以指:根据法律法规和规章制度中各个条款的结构,对法律法规和规章制度进行拆分,并且在法律法规和/或规章制度包含子条款的情况下,针对其中的子条款进行拆分。通过本申请实施例的条款拆分,可以针对规章制度和法律法规获取到最小条款单元的条款数据。
在本申请的实施例中,若规章制度中的规章制度条款不包含子条款,则经过条款拆分所获取到的规章条款数据可以包括该规章制度条款;若规章制度中的规章制度条款包含子条款,则经过条款拆分所获取到的规章条款数据可以包括由该规章制度条款经过进一步子条款拆分所获取到的规章制度子条款。相应地,法律法规也是如此。若法律法规中的法律法规条款不包含子条款,则经过条款拆分所获取到的法规条款数据可以包括该法律法规条款;若法律法规中的法律法规条款包含子条款,则经过条款拆分所获取到的法规条款数据可以包括由该法律法规条款经过进一步子条款拆分所获取到的法律法规子条款。
在一些实施例中,针对规章制度和法律法规的预处理操作还可以包括对经条款拆分(包含子条款拆分)所获取到的规章条款数据和法规条款数据进行结构化存储。相应地,数据处理阶段110可以将输入的法律法规和内部规章制度按照条款拆分(包含子条款拆分),以形成结构化数据。本申请实施例通过对法律法规和内部规章制度进行条款和子条款的拆分,能够更为精确地进行结构化数据的形成和管理。
本申请实施例的自动比对方法100在数据处理阶段110之后,可以进入冲突对比阶段120。在一些实施例中,自动比对方法100所利用的比对算法模型可以包括语义相似度算法,从而可以基于语义相似度算法来执行语义相似度计算。本申请实施例可以基于语义相似度算法计算筛选出规章条款数据和法规条款数据之间的相关条款,并且将两者之间相关的条款组成关联条款数据组。也就是说,关联条款数据组可以包括规章条款数据与法规条款数据中的一组或多组相关联的规章制度条款和法律法规条款。本申请实施例的冲突对比阶段120可以在对规章条款数据和法规条款数据执行语义相似度计算以获取相关联的规章制度条款与法律法规条款的基础上,进一步执行冲突对比计算以判断相关联的规章制度条款与法律法规条款中是否存在不一致的情形。
在一些实施例中,冲突对比阶段120可以包括步骤S121至S123,其中步骤S121和S122用于执行语义相似度计算,步骤S123用于执行冲突对比计算。
在步骤S121中,利用深度学习技术基于相似度计算模型来计算规章条款数据与法规条款数据(例如,经由步骤S112所获取的)之间的相似度,以筛选出一组或多组初步相关的规章制度条款和法律法规条款。在一些实施例中,相似度计算模型可以包括深度神经网络模型,步骤S121可以通过深度神经网络模型分别从输入的规章条款数据中提取规章条款数据的表示向量以及从输入的法规条款数据中提取法规条款数据的表示向量,再将规章条款数据的表示向量和法规条款数据的表示向量分别输入到距离函数中,以计算出规章条款数据与法规条款数据中相应规章制度条款和法律法规条款的相似度。基于相似度计算,步骤S121可以筛选出一组或多组初步相关的规章制度条款和法律法规条款。在步骤S121之后,可以进一步执行步骤S122。
在步骤S122中,基于关键词库,针对一组或多组初步相关的规章制度条款和法律法规条款(例如,经由步骤S121所获取的),分别从规章制度条款中提取规章关键词以及从法律法规条款中提取法规关键词,并且在提取到规章关键词和法规关键词之后,基于所提取的规章关键词和法规关键词,从一组或多组初步相关的规章制度条款和法律法规条款中进一步筛选出一组或多组相关联的规章制度条款和法律法规条款。
本申请实施例可以基于关键词提取策略来执行语义相似度计算。作为示例,可以使用主题建模(LDA)定期分析法规和规章文本,并且基于关键词库自动提取重要的关键词或短语。在一些实施例中,自动比对方法100所利用的比对算法模型可以包括动态关键词技术(也称为“动态关键词库更新技术”),从而可以基于动态关键词技术来形成关键词库。
结合步骤S121和S122可以看到,本申请实施例可以在步骤S121中,利用深度学习技术初步筛选出初步相关的规章制度条款和法律法规条款,并基于此,进一步执行步骤S122,以利用动态关键词技术执行关键词提取策略,从初步相关的规章制度条款和法律法规条款中进一步筛选出相关联的规章制度条款和法律法规条款。
在一些实施例中,可以结合上下文信息来执行关键词提取策略。相应地,在执行关键词提取策略的过程中,不仅仅基于关键词进行条款筛选,还要考虑关键词所在的上下文。例如,在规章条款数据和法规条款数据中,一个关键词可能在某些上下文中非常重要,但在其他上下文中可能不太相关。基于此,对应于关键词在所处上下文非常重要的情况,系统(例如,自动比对系统200)可以筛选出该关键词,并且针对该关键词进行关键词提取;对应于关键词在所处上下文不太相关的情况,系统(例如,自动比对系统200)可以滤除该关键词,不对该关键词进行关键词提取。
在一些实施例中,在步骤S121和S122执行语义相似度计算期间,还可以确定规章条款数据中是否存在遗漏的法律法规条款。作为示例,可以基于规章关键词和法规关键词之间的比较来确定规章条款数据中是否存在遗漏的法规条款。例如,可以先判断所提取的规章关键词中是否包含所有的法规关键词;并且在存在法规关键词未被规章关键词包含的情况下,基于未被包含的法规关键词确定规章条款数据中遗漏的法规条款。在其他实施例中,可以通过其他方式在语义相似度计算的执行期间,判断规章制度中是否存在遗漏的法律法规条款。在步骤S122之后,可以进一步执行步骤S123。
在步骤S123中,针对一组或多组相关联的规章制度条款和法律法规条款(例如,经由步骤S122所获取的)执行冲突对比计算,以判断相关联的规章制度条款与法律法规条款之间是否存在冲突的情形。本文中所述的冲突的情形可以指相关联的规章制度条款与法律法规条款之间不一致的情形。作为示例,可以基于句子对分类算法来执行冲突对比计算。
在针对一组或多组相关联的规章制度条款与法律法规条款的对比中,所应用的句子对分类算法需要考虑法律文本的精确性、正式性和结构性。为了确保规章制度条款与法律法规条款比对的精确性、正式性和结构性,在一些实施例中,句子对分类算法可以结合规则模型应用多个算法规则。所利用的算法规则可以是,例如,关键词匹配规则、条款结构规则、逻辑关系识别规则、数值对比规则、格式与语法规则、专有名词对比规则、例外情况识别规则。
本文中的关键词匹配规则可以指:基于事先定义好的关键词列表,判断相关条款是否包含某些特定的关键词或短语,这有助于识别可能的相似性或冲突。
本文中的条款结构规则可以指:将相关条款的结构(如,是否有罚款、期限、权限等元素)用作对比的依据,比如,如果相关的规章制度条款与法律法规条款都明确提及罚款但数额不同,那么可能存在冲突。
本文中的逻辑关系识别规则可以指:检测相关条款内的逻辑关系,如“必须”、“不得”、“应当”等,以识别相关条款的强制性、许可性或建议性。
本文中的数值对比规则可以指:对条款中的数字或比率进行直接对比,例如若两个相关条款都规定了数额,但数值不同,则可以视为冲突。
本文中的格式与语法规则可以指:通过相关条款的格式和语法结构(例如,条款的列表结构、条件句、因果句等)来提供额外的对比信息。
本文中的专有名词对比规则可以指:在某些法规条款可能包含专有名词或术语的情况下,通过比对这些专有名词或术语来帮助确认相关条款的主题或内容是否相似。
本文中的例外情况识别规则可以指:通过识别相关条款中的例外情况或特定条件来帮助确定两个相关条款是否在相同的背景或条件下适用。
本申请实施例结合句子对分类模型与规则模型进行冲突比对,从而为内规和外规的对比提供了全面和深入的分析手段。在上文中所述的实施例中,句子对分类模型可以针对冲突进行分类。在其他一些实施例中,可以使用句子对分类三分类模型,其中所述三分类可以指相似、冲突、无关这三方面的分类。相应地,该实施例可以结合句子对三分类模型与规则模型共同比对内规和外规,以针对相似、冲突、无关这三个方面进行分类和对比。
在一些实施例中,可以保存历史版本的法律法规和规章制度文本,当法律法规和规章制度中任一项的新版本发布时,可以首先与相应旧版本进行对比,以识别新增或修改的部分,这有助于精确地确定需要关注的部分。
例如,用于规章与法规的自动比对方法100在冲突对比阶段120还可以包括:在待比对的法律法规存在历史版本的情况下,将待比对的法律法规与历史版本进行对比,以识别待比对的法律法规中更新的法律法规内容,从而可以重点针对更新的法律法规内容进行冲突对比。也就是说,该实施例可以在判定最新发布的法律法规的修改的基础上,重点判断机构内规是否与修改后的外规存在冲突。
例如,用于规章与法规的自动比对方法100在冲突对比阶段120还可以包括:在待比对的规章制度存在历史版本的情况下,将待比对的规章制度与历史版本进行对比,以识别待比对的规章制度中更新的规章制度内容,从而可以重点针对更新的规章制度内容进行冲突对比。也就是说,该实施例可以在判定最新的规章制度的修改的基础上,重点判断修改后的机构内规是否与外规存在冲突。
一方面,本申请实施例通过自动化的对比方法有效提高规章制度与法律法规的比对效率。另一方面,本申请实施例利用结构化数据处理、动态关键词库更新技术以及冲突对比计算,确保了对比结果的高准确度。
在冲突对比阶段120之后,还可以进入结果展示阶段130。结果展示阶段130可以将冲突条款进行展示,以供人工验证展示结果,从而可以基于验证后的结果,来指导修改内部规章制度。在一些实施例中,结果展示阶段130可以包括步骤S131。
在步骤S131中,在一组或多组相关联的规章制度条款和法律法规条款中存在冲突的情况下(例如,经由步骤S123判断出),展示一组或多组相关联的规章制度条款和法律法规条款中的冲突部分以供用户标注(也称为“人工标注”)。本申请实施例可以通过步骤S131以直观的冲突条款展示来帮助机构更容易地识别问题,为修改内部规章制度提供明确的指导,辅助用户决策。例如,在步骤S131中,可以通过机器生成相关条款中的冲突部分以供人工验证,从而用户可以根据机器结果(即,机器生成的相关条款中的冲突部分)进行人工标注。
在上文所述的一些实施例中,通过步骤S131的冲突条款展示,用户可以根据经人工验证的相关条款中的冲突部分来修改机构内部规章制度。在另一些实施例中,结果展示阶段130还可以包括步骤S132,以通过系统(例如,自动比对系统200)来基于冲突条款修改机构内部规章制度。
本申请实施例的自动比对方法100一方面可以通过自动化工具减少大量的人工审查工作,从而节省相关人力和时间成本,另一方面可以自动识别规章制度与法律法规之间的冲突,有助于机构及时调整其内部制度,从而降低法律风险。
在自动比对方法100的执行过程中,可以在诸如数据处理阶段110、冲突对比阶段120和结果展示阶段130等阶段的执行过程中,并行地进入模型迭代阶段140,以迭代和优化比对算法模型。在一些实施例中,模型迭代阶段140可以包括步骤S141至S145。
在步骤S141中,基于初始语料来训练句子对分类算法。在一些实施例中,句子对分类算法的算法模型可以用于执行预处理、句子嵌入和句子表示等各个步骤。在预处理步骤中,可以进行法律术语库整合,以根据已有的法律术语库,辨识并标记规章条款数据和法规条款数据文本中的关键法律术语。在句子嵌入步骤中,可以使用大量法律文档进行预训练,以确保嵌入能够捕捉法律文本的语义特点。在句子表示步骤中,可以基于关键法律术语的标记,使用注意力机制强化它们在句子表示中的权重。
在步骤S142中,使用动态关键词技术形成关键词库。在动态关键词库更新技术的使用过程中,利用主题建模定期分析法规和规章文本,能够自动捕获并更新重要的关键词或短语,从而保持对比的实时性和准确性。在一些实施例中,步骤S142中的动态关键词技术可以包括同义词扩展技术。例如,步骤S142可以使用预训练的词嵌入模型来扩展与已知关键词语义上相似的词汇。在另一些实施例中,步骤S142可以支持用户人工添加同义词。
作为示例,模型迭代阶段140可以基于人工标注来优化所应用的比对算法模型。本申请实施例可以分别通过步骤S143和S144来更新比对算法模型所应用的相似度计算模型和关键词库,并且通过步骤S145来优化比对算法模型所应用的句子对分类算法。
在步骤S143中,根据用户的标注来更新相似度计算模型。在一些实施例中,步骤S143可以基于用户的标注情况,并结合关键词匹配的情况对相似度计算模型进行反馈和动态更新。作为示例,可以基于用户标注和关键词匹配的情况来修正深度神经网络模型。如图1所示,经由步骤S143所更新的相似度计算模型(例如,深度神经网络模型)可以应用于后续的冲突对比阶段120,例如,应用于步骤S121中的相似度计算。
在步骤S144中,根据用户的标注来更新关键词库。步骤S144可以基于用户标注对关键词库进行反馈和动态更新。在一些实施例中,步骤S144可以应用自适应算法,以便在每次使用后都能从用户标注中学习,逐渐优化关键词筛选效果。例如,当识别到某个关键词频繁导致误报或漏报时,算法可以对相应关键词的权重进行调整。在一些实施例中,更新关键词库可以包括:在根据用户标注确定存在遗漏的关键词的情况下,在关键词库中添加遗漏的关键词,或者在根据用户标注确定关键词库中存在不再相关的关键词库的情况下,从关键词库中移除不再相关的关键词。如图1所示,经由步骤S144所更新的关键词库可以应用于后续的冲突对比阶段120,例如,应用于步骤S122中的关键词提取策略。
在步骤S145中,根据用户的标注来优化句子对分类算法。也就是说,步骤S145可以利用用户标注的反馈来强化学习,以优化句子对分类算法。如图1所示,经由步骤S145所优化的句子对分类算法可以应用于后续的冲突对比阶段120,例如,应用于步骤S123中的冲突对比计算。
本申请实施例可以在模型迭代阶段140对比对算法模型进行持续优化,通过引入基于人工标注的机器学习模型迭代方法,使得比对算法模型能够持续学习并优化其性能。
接下来将结合图2来描述本申请的一个实施例的用于规章与法规的自动比对系统200。
图2示出了根据本申请的一个实施例的用于规章与法规的自动比对系统200的示意图。
如图2中所示,用于规章与法规的自动比对系统200可以包括存储器210和处理器220。存储器210与处理器220之间可以互相通信。在一些实施例中,存储器210可以是诸如闪存、ROM、硬盘驱动器、磁盘、光盘之类的非易失存储器。在其它实施例中,存储器210也可以是其他类型的存储器。存储器210可以配置成存储指令。处理器220可以配置成执行所述指令使得用于规章与法规的自动比对系统200执行根据本申请的一个或多个实施例的用于规章与法规的自动比对方法100。
本申请实施例提出的用于机构内部规章制度与法律法规的自动比对方法与系统,为机构提供了一个高效、准确、并具有自我学习能力的法律法规对比工具,是法律合规管理的重要技术支持。基于本申请实施例的自动比对方法和系统,可以确保机构的内部规章制度始终与法律法规保持一致。
根据本申请的另一方面,提供一种计算机可读存储介质,其中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种用于规章与法规的自动比对方法100。本申请中所称的计算机可读介质包括各种类型的计算机存储介质,可以是通用或专用计算机能够存取的任何可用介质。举例而言,计算机可读介质可以包括RAM、ROM、EPROM、E2PROM、寄存器、硬盘、可移动盘、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码单元并能够由通用或专用计算机、或者通用或专用处理器进行存取的任何其他临时性或者非临时性介质。如本文所使用的盘通常磁性地复制数据,而碟则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的保护范围之内。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
Claims (7)
1.一种用于规章与法规的自动比对方法,其特征在于,所述自动比对方法包括:
按照条款结构,分别针对待比对的规章制度和法律法规进行条款拆分,以获取所述规章制度的规章条款数据以及所述法律法规的法规条款数据;
对所述规章条款数据和所述法规条款数据执行语义相似度计算,以获取关联条款数据组,以及基于所述语义相似度计算确定所述规章条款数据中是否存在遗漏的法律法规条款,其中所述关联条款数据组包括规章条款数据与法规条款数据中的一组或多组相关联的规章制度条款和法律法规条款;以及
针对所述一组或多组相关联的规章制度条款和法律法规条款执行冲突对比计算,以判断所述一组或多组相关联的规章制度条款和法律法规条款中是否存在不一致的情形;
其中,所述语义相似度计算包括:
利用深度学习技术计算所述规章条款数据与所述法规条款数据之间的相似度,以筛选出一组或多组初步相关的规章制度条款和法律法规条款;
基于关键词库,针对所述一组或多组初步相关的规章制度条款和法律法规条款,分别从所述规章制度条款中提取规章关键词并且从所述法律法规条款中提取法规关键词;以及
基于所提取的规章关键词和法规关键词,从所述一组或多组初步相关的规章制度条款和法律法规条款中进一步筛选出所述一组或多组相关联的规章制度条款和法律法规条款;
其中,通过以下方式确定所述规章条款数据中是否存在遗漏的法律法规条款:
判断所提取的规章关键词中是否包含所有的法规关键词;并且
在存在法规关键词未被所述规章关键词包含的情况下,基于未被包含的法规关键词确定所述规章条款数据中遗漏的法规条款。
2.根据权利要求1所述的自动比对方法,其特征在于,所述自动比对方法还包括:
当所述一组或多组相关联的规章制度条款和法律法规条款中存在不一致的情形时,展示所述一组或多组相关联的规章制度条款和法律法规条款中不一致的部分以供用户标注。
3.根据权利要求2所述的自动比对方法,其特征在于,所述语义相似度计算基于语义相似度算法来执行;并且
所述自动比对方法还包括根据用户的标注来优化所述语义相似度算法。
4.根据权利要求2所述的自动比对方法,其特征在于,所述冲突对比计算基于句子对分类算法来执行;并且
所述自动比对方法还包括根据用户的标注来优化所述句子对分类算法。
5.根据权利要求2所述的自动比对方法,其特征在于,所述关键词库利用动态关键词技术来形成;并且
所述自动比对方法还包括根据用户的标注来更新所述关键词库,其中更新所述关键词库包括添加遗漏的关键词或者移除不再相关的关键词。
6.一种用于规章与法规的自动比对系统,其特征在于,所述自动比对系统包括:
存储器,其配置成存储指令;和
处理器,其配置成执行所述指令使得所述自动比对系统执行如权利要求1-5中任一项所述的自动比对方法。
7.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如权利要求1-5中任一项所述的自动比对方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410238970.9A CN117829140B (zh) | 2024-03-04 | 2024-03-04 | 用于规章与法规的自动比对方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410238970.9A CN117829140B (zh) | 2024-03-04 | 2024-03-04 | 用于规章与法规的自动比对方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117829140A CN117829140A (zh) | 2024-04-05 |
CN117829140B true CN117829140B (zh) | 2024-05-31 |
Family
ID=90504408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410238970.9A Active CN117829140B (zh) | 2024-03-04 | 2024-03-04 | 用于规章与法规的自动比对方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117829140B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334512A (ja) * | 1994-06-08 | 1995-12-22 | Sharp Corp | 文書データ検索装置 |
KR20090117110A (ko) * | 2008-05-08 | 2009-11-12 | 주식회사 케이티 | 연관어 기반 온톨로지 생성 장치 및 그 방법 |
CN110046241A (zh) * | 2019-04-18 | 2019-07-23 | 武汉大学 | 基于自动对比文章相似度辅助法律文书检错方法及系统 |
AU2018271315A1 (en) * | 2018-05-14 | 2019-11-28 | Chen-McCaig, Zack MR | Document processing and classification systems |
CN111091009A (zh) * | 2019-11-20 | 2020-05-01 | 中国电子科技集团公司第三十研究所 | 一种基于语义分析的文档关联审核方法 |
CN113435182A (zh) * | 2021-07-21 | 2021-09-24 | 唯品会(广州)软件有限公司 | 自然语言处理中分类标注的冲突检测方法、装置和设备 |
CN113821601A (zh) * | 2021-09-26 | 2021-12-21 | 北京中经惠众科技有限公司 | 文本对比方法、装置、设备和介质 |
CN113822063A (zh) * | 2021-11-22 | 2021-12-21 | 华网领业(杭州)软件有限公司 | 一种基于改进的余弦相似性算法的事件相似性比对方法 |
CN114417811A (zh) * | 2021-12-30 | 2022-04-29 | 北京杰思安全科技有限公司 | 一种基于语义的相似度计算方法、装置及存储介质 |
CN115795000A (zh) * | 2023-02-07 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于联合相似度算法对比的围标识别方法和装置 |
KR102623120B1 (ko) * | 2022-12-28 | 2024-01-10 | 대한민국 | 소셜 미디어 대상 재난 안전 관심 주제 탐지 시스템 및 방법 |
KR102625553B1 (ko) * | 2023-05-19 | 2024-01-16 | 주식회사 코딧 | 입력된 쿼리와 관련된 규제법률조항을 도출하는 방법, 컴퓨터-판독가능 기록매체 및 이를 수행하는 컴퓨팅시스템 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060259420A1 (en) * | 2005-05-11 | 2006-11-16 | Schaffer Bret C | System and Method for Regulatory Compliance Assessment of Settlement Statement Data |
US9588963B2 (en) * | 2009-03-18 | 2017-03-07 | Iqintell, Inc. | System and method of grouping and extracting information from data corpora |
US9785693B2 (en) * | 2014-06-30 | 2017-10-10 | Microsoft Technology Licensing, Llc | Intelligent conflict detection and semantic expression of document edits |
-
2024
- 2024-03-04 CN CN202410238970.9A patent/CN117829140B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334512A (ja) * | 1994-06-08 | 1995-12-22 | Sharp Corp | 文書データ検索装置 |
KR20090117110A (ko) * | 2008-05-08 | 2009-11-12 | 주식회사 케이티 | 연관어 기반 온톨로지 생성 장치 및 그 방법 |
AU2018271315A1 (en) * | 2018-05-14 | 2019-11-28 | Chen-McCaig, Zack MR | Document processing and classification systems |
CN110046241A (zh) * | 2019-04-18 | 2019-07-23 | 武汉大学 | 基于自动对比文章相似度辅助法律文书检错方法及系统 |
CN111091009A (zh) * | 2019-11-20 | 2020-05-01 | 中国电子科技集团公司第三十研究所 | 一种基于语义分析的文档关联审核方法 |
CN113435182A (zh) * | 2021-07-21 | 2021-09-24 | 唯品会(广州)软件有限公司 | 自然语言处理中分类标注的冲突检测方法、装置和设备 |
CN113821601A (zh) * | 2021-09-26 | 2021-12-21 | 北京中经惠众科技有限公司 | 文本对比方法、装置、设备和介质 |
CN113822063A (zh) * | 2021-11-22 | 2021-12-21 | 华网领业(杭州)软件有限公司 | 一种基于改进的余弦相似性算法的事件相似性比对方法 |
CN114417811A (zh) * | 2021-12-30 | 2022-04-29 | 北京杰思安全科技有限公司 | 一种基于语义的相似度计算方法、装置及存储介质 |
KR102623120B1 (ko) * | 2022-12-28 | 2024-01-10 | 대한민국 | 소셜 미디어 대상 재난 안전 관심 주제 탐지 시스템 및 방법 |
CN115795000A (zh) * | 2023-02-07 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于联合相似度算法对比的围标识别方法和装置 |
KR102625553B1 (ko) * | 2023-05-19 | 2024-01-16 | 주식회사 코딧 | 입력된 쿼리와 관련된 규제법률조항을 도출하는 방법, 컴퓨터-판독가능 기록매체 및 이를 수행하는 컴퓨팅시스템 |
Also Published As
Publication number | Publication date |
---|---|
CN117829140A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
US20090222395A1 (en) | Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction | |
US20220004545A1 (en) | Method of searching patent documents | |
US20210350125A1 (en) | System for searching natural language documents | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN112000802A (zh) | 基于相似度集成的软件缺陷定位方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN113196278A (zh) | 训练自然语言检索系统的方法、检索系统以及对应的用途 | |
Fernandes et al. | Appellate court modifications extraction for portuguese | |
WO2020091618A1 (ru) | Система определения именованных сущностей с динамическими параметрами | |
Sun | A natural language interface for querying graph databases | |
KR20220068937A (ko) | 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법 | |
Kiyavitskaya et al. | Semi-Automatic Semantic Annotations for Web Documents. | |
CN111339272A (zh) | 代码缺陷报告检索方法及装置 | |
CN117829140B (zh) | 用于规章与法规的自动比对方法及其系统 | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 | |
Hollingsworth et al. | Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining | |
Lazemi et al. | Persian plagirisim detection using CNN s | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
US12039272B2 (en) | Method of training a natural language search system, search system and corresponding use | |
Bolshakova et al. | Automating Hierarchical Subject Index Construction for Scientific Documents | |
Siva Rama Rao et al. | Named Entity Recognition Using Stanford Classes and NLTK | |
Sileno | Legal Text Segmentation Through Breakpoint Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |