CN117851602A - 基于深度学习的法律文件自动分类方法及系统 - Google Patents
基于深度学习的法律文件自动分类方法及系统 Download PDFInfo
- Publication number
- CN117851602A CN117851602A CN202410258416.7A CN202410258416A CN117851602A CN 117851602 A CN117851602 A CN 117851602A CN 202410258416 A CN202410258416 A CN 202410258416A CN 117851602 A CN117851602 A CN 117851602A
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- core
- cluster
- word
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 208
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 46
- 238000004590 computer program Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 6
- 230000001939 inductive effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于深度学习的法律文件自动分类方法及系统,该方法包括如下步骤:基于预设的文件模板预处理所有法律文件;将预处理后的所有法律文件分别进行分词处理,得到多个分词集合;通过预设的核心词汇库提取所有分词集合中的核心关键词;筛选出目标核心关键词;根据目标核心关键词将所有分词集合划分为多个核心分词集合簇和边缘分词集合簇;统计其他分词的分词词频;利用深度聚类算法并根据分词词频分别对多个核心分词集合簇进行重复二分聚类;采用语义分析提取出所有核心分词集合簇的簇主题;基于簇主题并利用主题模型算法将边缘分词集合簇中的分词集合归纳至各个核心分词集合簇中。本发明具有快速完成法律文件自动分类的效果。
Description
技术领域
本发明属于文档分类技术领域,具体是涉及到一种基于深度学习的法律文件自动分类方法及系统。
背景技术
随着时间的推移,网络上可查询下载的法律文件数量的不断增加,包括法规、判决书、法律意见书等各种法律文件。这些文件可能来自不同的时间段和不同的作者,因此它们的格式、结构和命名规则可能存在较大的差异。目前,主要采用人工分类和整理的方法来处理这些法律文件。这种方法需要专业人员逐一查看每个文件,并根据其内容和特征进行分类。然而,由于文件数量庞大且多样化,人工分类和整理的效率非常低下。这不仅增加了分类和整理的成本,而且还容易导致错误和遗漏。
发明内容
本发明提供一种基于深度学习的法律文件自动分类方法及系统,以解决人工分类整理大量法律文件效率低下的问题。
第一方面,本发明提供一种基于深度学习的法律文件自动分类方法,该方法包括如下步骤:
基于预设的文件模板预处理所有法律文件;
将预处理后的所有所述法律文件分别进行分词处理,得到多个分词集合;
通过预设的核心词汇库提取所有所述分词集合中的核心关键词;
基于所述核心关键词的提取来源筛选出目标核心关键词;
根据所述目标核心关键词将所有所述分词集合划分为多个核心分词集合簇和边缘分词集合簇;
统计所述分词集合中除所述核心关键词之外所有其他分词的分词词频;
利用深度聚类算法并根据所述分词词频分别对多个所述核心分词集合簇进行重复二分聚类,直至所有所述核心分词集合簇的簇体积均小于预设的体积阈值;
采用语义分析提取出所有所述核心分词集合簇的簇主题;
基于所述簇主题并利用主题模型算法将边缘分词集合簇中的分词集合归纳至各个所述核心分词集合簇中。
可选的,所述将预处理后的所有所述法律文件分别进行分词处理,得到多个分词集合包括如下步骤:
基于预设的替换标识在所述文件模板中检索得到统一替换名称;
结合所述替换标识和所述统一替换名称在所述法律文件中确定原始分词名称;
将所有所述法律文件中的所述统一替换名称变更为对应的所述原始分词名称;
利用分词工具分别将各个所述法律文件分解为多个初始分词,得到多个初始分词集合;
剔除所有所述初始分词集合内的所有无效分词,得到多个分词集合。
可选的,所述基于所述核心关键词的提取来源筛选出目标核心关键词包括如下步骤:
基于所述核心关键词的提取来源分别统计各个所述核心关键词的提取频次;
根据所述核心关键词的提取来源构建所有所述核心关键词之间的关联关系;
结合所述提取频次和所述关联关系计算所述核心关键词的影响覆盖率;
将所述影响覆盖率超出预设覆盖率阈值的所述核心关键词作为目标核心关键词。
可选的,所述提取频次包括所述核心关键词在各个所述分词集合内的集合内提取次数以及所述核心关键词的提取来源数量,所述结合所述提取频次和所述关联关系计算所述核心关键词的影响覆盖率包括如下步骤:
基于所述提取频次计算所述核心关键词的影响率;
将所述影响率低于预设影响率阈值的所述核心关键词筛除;
统计所述核心关键词的关联关系数量;
结合所述提取频次、所述影响率和所述关联关系数量计算得到所述核心关键词的影响覆盖率,所述影响覆盖率的计算公式如下:
,
式中:,表示第个所述核心关键词,表示第个所述核心关
键词的所述影响覆盖率,表示关联关系影响权重,表示第个所述核心关键词的关联
关系数量,表示第个所述核心关键词的第个存在关联关系的核心关键词,表示第
个存在关联关系的核心关键词的影响率,表示第个存在关联关系的核心关键词的提取
来源数量,表示第个存在关联关系的核心关键词在各个所述分词集合内的集合内提取
次数,表示与第个所述核心关键词存在关联关系且未被筛除的核心关键词数量,表示
集合影响权重,表示第个所述核心关键词的提取来源数量,表示所述分词集合的数
量,表示提取次数影响权重,表示第个所述核心关键词在各个所述分词集合内的集
合内提取次数,表示总分词数量。
可选的,所述利用深度聚类算法并根据所述分词词频分别对多个所述核心分词集合簇进行重复二分聚类,直至所有集合簇的簇体积均小于预设的体积阈值包括如下步骤:
将所述分词词频最大的y个分词作为备选质心;
将所述备选质心和所述核心分词集合簇中的所有分词进行词向量转换;
分别计算各个所述备选质心与所有所述核心分词集合簇的匹配相似度;
将所述匹配相似度最大的u个备选质心作为初始质心,u<y,u为所述核心分词集合簇的数量;
基于所述匹配相似度并按照最优匹配法将各个所述初始质心分配至所有所述核心分词集合簇;
根据分配的所述初始质心对每个所述核心分词集合簇均进行重复二分聚类步骤,直至所有集合簇的簇体积均小于预设的体积阈值。
可选的,所述重复二分聚类步骤包括如下步骤:
基于所述初始质心并采用K均值算法将所述核心分词集合簇分类为两个核心分词子集合簇;
若其中任意一个或两个所述核心分词子集合簇的簇体积大于等于预设的体积阈值,则从所述核心分词子集合簇随机选取一个分词向量作为临时质心,继续采用K均值算法将所述核心分子词集合进行聚类分类。
可选的,所述采用语义分析提取出所有所述核心分词集合簇的簇主题包括如下步骤:
调取所述法律文件的历史检索记录;
从所述历史检索记录中提取出高频检索分词;
基于所述高频检索分词并利用语义分析分别提取出各个所述核心分词集合簇的簇主题。
可选的,所述基于所述簇主题并利用主题模型算法将边缘分词集合簇中的分词集合归纳至各个所述核心分词集合簇中包括如下步骤:
将所有所述簇主题整合为簇主题集;
基于所述簇主题集和所述边缘分词集合簇构建主题模型算法公式,所述主题模型算法公式如下:
,
式中:表示所述边缘分词集合簇中的分词,表示所述边缘分词集合簇,表示
簇主题集中第个簇主题,表示簇主题集中的簇主题数量;
根据所述主题模型算法公式进行随机赋值并迭代完成主题模型算法学习,得到学习收敛结果,基于所述学习收敛结果将边缘分词集合簇中的分词集合归纳至各个所述核心分词集合簇中。
第二方面,本发明还提供一种基于深度学习的法律文件自动分类系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中所述的方法。
第三方面,本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中所述的方法的步骤。
本发明的有益效果是:
本发明所提供的方法采用以下步骤:基于预设的文件模板预处理所有法律文件;将预处理后的所有法律文件分别进行分词处理,得到多个分词集合;通过预设的核心词汇库提取所有分词集合中的核心关键词;基于核心关键词的提取来源筛选出目标核心关键词;根据目标核心关键词将所有分词集合划分为多个核心分词集合簇和边缘分词集合簇;统计分词集合中除核心关键词之外所有其他分词的分词词频;利用深度聚类算法并根据分词词频分别对多个核心分词集合簇进行重复二分聚类,直至所有核心分词集合簇的簇体积均小于预设的体积阈值;采用语义分析提取出所有核心分词集合簇的簇主题;基于簇主题并利用主题模型算法将边缘分词集合簇中的分词集合归纳至各个核心分词集合簇中。
通过上述步骤的执行可以实现基于预设的文件模板、核心词汇库和语义分析的法律文件处理流程,从而将法律文件进行二次分类,并最终提取出核心分词集合簇的簇主题,以将边缘分词集合簇中的分词集合归纳至核心分词集合簇中,实现法律文件的快速自动分类。
附图说明
图1为本申请其中一种实施方式中基于深度学习的法律文件自动分类方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为一个实施例中基于深度学习的法律文件自动分类的流程示意图。应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。如图1所示,本发明所公开的一种法律文件自动分类方法具体包括如下步骤:
S101.基于预设的文件模板预处理所有法律文件。
其中,根据预设的文件模板,对所有法律文件进行预处理。这包括去除非法律内容,提取出所需的法律条款或段落等。例如,如果目标是提取合同文件中的条款,预处理步骤可以包括去除页眉页脚、删除无关段落等。
S102.将预处理后的所有法律文件分别进行分词处理,得到多个分词集合。
其中,使用合适的分词工具(如jieba中文分词库)对每个法律文件进行分词处理。这将把每个法律文件转换为一个分词集合,其中每个分词代表文件中的一个词语。
S103.通过预设的核心词汇库提取所有分词集合中的核心关键词。
其中,根据预设的核心词汇库,从每个分词集合中提取核心关键词。核心词汇库可以包含法律术语、关键概念以及与法律相关的常用词汇。通过匹配分词集合中的词语与核心词汇库中的词语,提取出与核心词汇库匹配的词语作为核心关键词。
S104.基于核心关键词的提取来源筛选出目标核心关键词。
其中,根据预设的核心关键词的提取来源,筛选出目标核心关键词。例如,如果希望提取出与合同文件主题相关的核心关键词,可以筛选出来自合同条款、合同标题等的核心关键词。
S105.根据目标核心关键词将所有分词集合划分为多个核心分词集合簇和边缘分词集合簇。
其中,根据目标核心关键词,将所有分词集合划分为多个核心分词集合簇和边缘分词集合簇。核心分词集合簇包含与目标关键词高度相关的分词集合,而边缘分词集合簇包含与目标关键词相关性较低的分词集合。
S106.统计分词集合中除核心关键词之外所有其他分词的分词词频。
其中,对于每个分词集合,统计除核心关键词之外的其他分词的词频。这可以通过简单地计算每个分词在该集合中出现的次数来实现。
S107.利用深度聚类算法并根据分词词频分别对多个核心分词集合簇进行重复二分聚类,直至所有核心分词集合簇的簇体积均小于预设的体积阈值。
其中,利用深度聚类算法对多个核心分词集合簇进行重复二分聚类,直至所有核心分词集合簇的簇体积小于预设的体积阈值。二分聚类是一种迭代的聚类方法,将一个簇分成两个子簇,然后对子簇进行进一步的划分,直到满足预设的条件。
S108.采用语义分析提取出所有核心分词集合簇的簇主题。
其中,对于每个核心分词集合簇,使用语义分析方法(如词向量模型)提取簇主题。可以通过计算簇中所有分词的语义向量的平均值来表示簇主题。
S109.基于簇主题并利用主题模型算法将边缘分词集合簇中的分词集合归纳至各个核心分词集合簇中。
其中,基于簇主题和主题模型算法,将边缘分词集合簇中的分词集合归纳至各个核心分词集合簇中。通过分析边缘分词集合的词语分布和主题,将其归纳到与之相关的核心分词集合簇中,以增加整体分类的准确性和完整性。
在其中一种实施方式中,步骤S102具体包括如下步骤:
基于预设的替换标识在文件模板中检索得到统一替换名称;
结合替换标识和统一替换名称在法律文件中确定原始分词名称;
将所有法律文件中的统一替换名称变更为对应的原始分词名称;
利用分词工具分别将各个法律文件分解为多个初始分词,得到多个初始分词集合;
剔除所有初始分词集合内的所有无效分词,得到多个分词集合。
在本实施方式中,在某个文件模板中,可能会预设一些替换标识,如“:”或“()”,来标记需要替换的文本部分。这些替换标识有助于自动化地识别和替换文件中的特定信息。可以使用文本解析工具或正则表达式搜索这些替换标识,并记录与它们关联的统一替换名称,如“甲方:”,其中替换标识“:”前置的“甲方”即为统一替换名称。
扫描法律文件,找到替换标识,并将其与文件中实际出现的名称对应起来,记录下原始分词名称。如果法律文件中出现了“甲方:A公司”,则可以确定“甲方”这一统一替换名称对应的原始分词名称为“A公司”。然后遍历法律文件,使用文本替换功能将每个统一替换名称替换为相应的原始分词名称。
对每个法律文件应用分词算法,将文本切分为词语的序列,形成初始分词集合。具体可以使用中文分词工具如jieba对文档进行分词,例如,将“甲方应于2023年1月1日前支付乙方货款”分词为“甲方”、“应”、“于”、“2023年1月1日”、“前”、“支付”、“乙方”、“货款”等。然后对初始分词集合进行处理,移除停用词表中的词汇以及其他无意义的词语,以得到清洁的分词集合。无意义的无效分词包括标点符号、“的”、“了”、“是”等停用词。通过以上步骤,可以将法律文件中的统一替换名称还原为原始分词名称,然后进行分词和无效分词的剔除,最终得到可以用于后续处理(如文本分析、关键词提取等)的分词集合。
在其中一种实施方式中,步骤S104具体包括如下步骤:
基于核心关键词的提取来源分别统计各个核心关键词的提取频次;
根据核心关键词的提取来源构建所有核心关键词之间的关联关系;
结合提取频次和关联关系计算核心关键词的影响覆盖率;
将影响覆盖率超出预设覆盖率阈值的核心关键词作为目标核心关键词。
在本实施方式中,假设我们有多份法律文件,核心关键词提取来源可能包括法律文件标题、条款、附件等。如果“违约责任”这一关键词在多数条款中出现,则统计其在所有条款中出现的总次数。这可以通过计算文本中“违约责任”出现的次数来完成。如果“违约责任”和“赔偿金额”这两个关键词经常在同一条款中共同出现,则它们之间存在较强的关联关系。可以通过构建一个关键词共现矩阵来表示这些关键词之间的关系,其中矩阵的每个元素表示两个关键词共同出现的次数。
具有高提取频次的关键词可能对文本集合有较大的影响。如果“违约责任”这一关键词不仅提取频次高,而且与多个其他关键词(如“赔偿金额”、“履约期限”等)有强关联,则其影响覆盖率较高。影响覆盖率可以通过分析关键词在文档集合中的分布和关联性来确定。设定一个影响覆盖率的阈值,比如70%。对于每个关键词,如果其影响覆盖率超过这个阈值,则认为它是目标核心关键词。例如,“违约责任”如果在70%以上的文档中以高频次出现,并且与其他关键词有强关系,则它会被选定为目标核心关键词。
通过以上步骤,可以精确地识别出法律文件中有重要影响的核心关键词,并据此进行更深入的文本分析,有利于后续的文档分类工作。
在其中一种实施方式中,提取频次包括核心关键词在各个分词集合内的集合内提取次数以及核心关键词的提取来源数量。结合提取频次和关联关系计算核心关键词的影响覆盖率这一步骤具体包括如下步骤:
基于提取频次计算核心关键词的影响率;
将影响率低于预设影响率阈值的核心关键词筛除;
统计核心关键词的关联关系数量;
结合提取频次、影响率和关联关系数量计算得到核心关键词的影响覆盖率。
在本实施方式中,影响覆盖率的计算公式如下:
,
式中:,表示第个核心关键词,表示第个核心关键词的影
响覆盖率,表示关联关系影响权重,表示第个核心关键词的关联关系数量,表示第个核心关键词的第个存在关联关系的核心关键词,表示第个存在关联关系的核心关
键词的影响率,表示第个存在关联关系的核心关键词的提取来源数量,表示第个
存在关联关系的核心关键词在各个所述分词集合内的集合内提取次数,表示与第个核心
关键词存在关联关系且未被筛除的核心关键词数量,表示集合影响权重,表示第个
核心关键词的提取来源数量,表示分词集合的数量,表示提取次数影响权重,表示第个核心关键词在各个分词集合内的集合内提取次数,表示总分词数量。
在其中一种实施方式中,步骤S107具体包括如下步骤:
将分词词频最大的y个分词作为备选质心;
将备选质心和核心分词集合簇中的所有分词进行词向量转换;
分别计算各个备选质心与所有核心分词集合簇的匹配相似度;
将匹配相似度最大的u个备选质心作为初始质心,u<y,u为核心分词集合簇的数量;
基于匹配相似度并按照最优匹配法将各个初始质心分配至所有核心分词集合簇;
根据分配的初始质心对每个核心分词集合簇均进行重复二分聚类步骤,直至所有集合簇的簇体积均小于预设的体积阈值。
在本实施方式中,首先进行文本分词并统计每个分词的出现频率。假设选择y=100,那么词频最高的100个分词将作为备选质心。然后使用如Word2Vec或GloVe等预训练的词向量模型,将上一步骤中的备选质心以及核心分词集合簇中的所有分词转换为词向量。这样每个分词都有了一个向量表示,便于计算相似度。接下来利用余弦相似度等度量方法,计算每个备选质心与每个核心分词集合簇中分词的相似度。
假设有a,b,c三个备选质心以及A、B、C三个核心分词集合簇,若备选质心a与A、B、C三个核心分词集合簇的相似度分别为10%、30%和80%,则将备选质心a分配至核心分词集合簇C。
在本实施方式中,重复二分聚类步骤具体包括如下步骤:
基于初始质心并采用K均值算法将核心分词集合簇分类为两个核心分词子集合簇;
若其中任意一个或两个核心分词子集合簇的簇体积大于等于预设的体积阈值,则从核心分词子集合簇随机选取一个分词向量作为临时质心,继续采用K均值算法将核心分子词集合进行聚类分类。
在其中一种实施方式中,步骤S108具体包括如下步骤:
调取法律文件的历史检索记录;
从历史检索记录中提取出高频检索分词;
基于高频检索分词并利用语义分析分别提取出各个核心分词集合簇的簇主题。
在本实施方式中,预设有一个法律数据库,该数据库记录了多个用户在过去一段时间内对法律文件的检索记录。这些记录可能包括用户搜索的关键词、检索的日期和时间、用户点击查看的文件等。分析这些历史检索记录,可以使用分词工具对用户的搜索查询进行分词,然后统计每个分词的出现频率。例如,“合同”、“违约”、“赔偿”等词汇在检索记录中出现频率很高,则将上述词汇作为高频检索分词。然后利用主题模型(如LDA)或词嵌入模型(如Word2Vec)等语义分析技术理解这些分词的深层含义和它们之间的关联,从而提取出各个核心分词集合簇的簇主题。
在其中一种实施方式中,步骤S109具体包括如下步骤:
将所有簇主题整合为簇主题集;
基于簇主题集和边缘分词集合簇构建主题模型算法公式,主题模型算法公式如下:
,
式中:表示边缘分词集合簇中的分词,表示边缘分词集合簇,表示簇主题集
中第个簇主题,表示簇主题集中的簇主题数量;
根据主题模型算法公式进行随机赋值并迭代完成主题模型算法学习,得到学习收敛结果,基于学习收敛结果将边缘分词集合簇中的分词集合归纳至各个核心分词集合簇中。
在本实施方式中,以簇主题集作为基础,使用隐狄利克雷分配(LDA)模型这一主题模型算法构建主题模型算法公式。边缘分词集合簇中可能包含一些不太常见或者具有多个含义的分词,在LDA模型的初始化阶段,每个文档中的每个词都被随机分配一个主题。随后,模型通过迭代学习的方式,不断更新每个词属于每个主题的概率,以及每个文档中每个主题的概率。在这个过程中,模型可能会发现“abc”这个词在A1簇主题下出现的概率远大于在A2簇主题下出现的概率。经过多次迭代后,当模型的参数变化幅度小于某个阈值时即认为模型已经收敛。
根据LDA模型的学习收敛结果,可以确定每个边缘分词最有可能属于哪个簇主题。例如“abc”这个词在A1簇主题下出现概率较大,则可以将“abc”归纳至A1簇主题所对应的核心分词集合簇中。最终可以将原本在边缘分词集合簇中的分词根据它们最可能属于的簇主题进行重新分类。
本发明还公开一种基于深度学习的法律文件自动分类系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。其中,处理器可以采用中央处理单元(CPU),当然,根据实际的使用情况,也可以采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以采用微处理器或者任何常规的处理器等,本申请对此不做限制。
其中,存储器可以为计算机设备的内部存储单元,例如,计算机设备的硬盘或者内存,也可以为计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等,并且,存储器还可以为计算机设备的内部存储单元与外部存储设备的组合,存储器用于存储计算机程序以及计算机设备所需的其他程序和数据,存储器还可以用于暂时地存储已经输出或者将要输出的数据,本申请对此不做限制。
本发明还公开一种计算机可读存储介质,并且,计算机可读存储介质存储有计算机程序,其中,计算机程序被处理器执行时,采用了上述实施例中的基于深度学习的法律文件自动分类方法。
其中,计算机程序可以存储于计算机可读介质中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间件形式等,计算机可读介质包括能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等,需要说明的是,计算机可读介质包括但不限于上述元器件。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的保护范围限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上的本申请中一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本申请中一个或多个实施例旨在涵盖落入本申请的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请中一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于深度学习的法律文件自动分类方法,其特征在于,包括如下步骤:
基于预设的文件模板预处理所有法律文件;
将预处理后的所有所述法律文件分别进行分词处理,得到多个分词集合;
通过预设的核心词汇库提取所有所述分词集合中的核心关键词;
基于所述核心关键词的提取来源筛选出目标核心关键词;
根据所述目标核心关键词将所有所述分词集合划分为多个核心分词集合簇和边缘分词集合簇;
统计所述分词集合中除所述核心关键词之外所有其他分词的分词词频;
利用深度聚类算法并根据所述分词词频分别对多个所述核心分词集合簇进行重复二分聚类,直至所有所述核心分词集合簇的簇体积均小于预设的体积阈值;
采用语义分析提取出所有所述核心分词集合簇的簇主题;
基于所述簇主题并利用主题模型算法将边缘分词集合簇中的分词集合归纳至各个所述核心分词集合簇中。
2.根据权利要求1所述的基于深度学习的法律文件自动分类方法,其特征在于,所述将预处理后的所有所述法律文件分别进行分词处理,得到多个分词集合包括如下步骤:
基于预设的替换标识在所述文件模板中检索得到统一替换名称;
结合所述替换标识和所述统一替换名称在所述法律文件中确定原始分词名称;
将所有所述法律文件中的所述统一替换名称变更为对应的所述原始分词名称;
利用分词工具分别将各个所述法律文件分解为多个初始分词,得到多个初始分词集合;
剔除所有所述初始分词集合内的所有无效分词,得到多个分词集合。
3.根据权利要求1所述的基于深度学习的法律文件自动分类方法,其特征在于,所述基于所述核心关键词的提取来源筛选出目标核心关键词包括如下步骤:
基于所述核心关键词的提取来源分别统计各个所述核心关键词的提取频次;
根据所述核心关键词的提取来源构建所有所述核心关键词之间的关联关系;
结合所述提取频次和所述关联关系计算所述核心关键词的影响覆盖率;
将所述影响覆盖率超出预设覆盖率阈值的所述核心关键词作为目标核心关键词。
4.根据权利要求3所述的基于深度学习的法律文件自动分类方法,其特征在于,所述提取频次包括所述核心关键词在各个所述分词集合内的集合内提取次数以及所述核心关键词的提取来源数量,所述结合所述提取频次和所述关联关系计算所述核心关键词的影响覆盖率包括如下步骤:
基于所述提取频次计算所述核心关键词的影响率;
将所述影响率低于预设影响率阈值的所述核心关键词筛除;
统计所述核心关键词的关联关系数量;
结合所述提取频次、所述影响率和所述关联关系数量计算得到所述核心关键词的影响覆盖率,所述影响覆盖率的计算公式如下:
,
式中:,表示第个所述核心关键词,表示第个所述核心关键词
的所述影响覆盖率,表示关联关系影响权重,表示第个所述核心关键词的关联关系
数量,表示第个所述核心关键词的第个存在关联关系的核心关键词,表示第个存
在关联关系的核心关键词的影响率,表示第个存在关联关系的核心关键词的提取来源
数量,表示第个存在关联关系的核心关键词在各个所述分词集合内的集合内提取次
数,表示与第个所述核心关键词存在关联关系且未被筛除的核心关键词数量,表示集
合影响权重,表示第个所述核心关键词的提取来源数量,表示所述分词集合的数量,表示提取次数影响权重,表示第个所述核心关键词在各个所述分词集合内的集合内
提取次数,表示总分词数量。
5.根据权利要求1所述的基于深度学习的法律文件自动分类方法,其特征在于,所述利用深度深度聚类算法并根据所述分词词频分别对多个所述核心分词集合簇进行重复二分聚类,直至所有集合簇的簇体积均小于预设的体积阈值包括如下步骤:
将所述分词词频最大的y个分词作为备选质心;
将所述备选质心和所述核心分词集合簇中的所有分词进行词向量转换;
分别计算各个所述备选质心与所有所述核心分词集合簇的匹配相似度;
将所述匹配相似度最大的u个备选质心作为初始质心,u<y,u为所述核心分词集合簇的数量;
基于所述匹配相似度并按照最优匹配法将各个所述初始质心分配至所有所述核心分词集合簇;
根据分配的所述初始质心对每个所述核心分词集合簇均进行重复二分聚类步骤,直至所有集合簇的簇体积均小于预设的体积阈值。
6.根据权利要求5所述的基于深度学习的法律文件自动分类方法,其特征在于,所述重复二分聚类步骤包括如下步骤:
基于所述初始质心并采用K均值算法将所述核心分词集合簇分类为两个核心分词子集合簇;
若其中任意一个或两个所述核心分词子集合簇的簇体积大于等于预设的体积阈值,则从所述核心分词子集合簇随机选取一个分词向量作为临时质心,继续采用K均值算法将所述核心分子词集合进行聚类分类。
7.根据权利要求1所述的基于深度学习的法律文件自动分类方法,其特征在于,所述采用语义分析提取出所有所述核心分词集合簇的簇主题包括如下步骤:
调取所述法律文件的历史检索记录;
从所述历史检索记录中提取出高频检索分词;
基于所述高频检索分词并利用语义分析分别提取出各个所述核心分词集合簇的簇主题。
8.根据权利要求7所述的基于深度学习的法律文件自动分类方法,其特征在于,所述基于所述簇主题并利用主题模型算法将边缘分词集合簇中的分词集合归纳至各个所述核心分词集合簇中包括如下步骤:
将所有所述簇主题整合为簇主题集;
基于所述簇主题集和所述边缘分词集合簇构建主题模型算法公式,所述主题模型算法公式如下:
,
式中:表示所述边缘分词集合簇中的分词,表示所述边缘分词集合簇,表示簇主
题集中第个簇主题,表示簇主题集中的簇主题数量;
根据所述主题模型算法公式进行随机赋值并迭代完成主题模型算法学习,得到学习收敛结果,基于所述学习收敛结果将边缘分词集合簇中的分词集合归纳至各个所述核心分词集合簇中。
9.一种基于深度学习的法律文件自动分类系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410258416.7A CN117851602B (zh) | 2024-03-07 | 2024-03-07 | 基于深度学习的法律文件自动分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410258416.7A CN117851602B (zh) | 2024-03-07 | 2024-03-07 | 基于深度学习的法律文件自动分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117851602A true CN117851602A (zh) | 2024-04-09 |
CN117851602B CN117851602B (zh) | 2024-05-14 |
Family
ID=90534922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410258416.7A Active CN117851602B (zh) | 2024-03-07 | 2024-03-07 | 基于深度学习的法律文件自动分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117851602B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110389932A (zh) * | 2019-07-02 | 2019-10-29 | 华北电力科学研究院有限责任公司 | 电力文件自动分类方法及装置 |
CN110888981A (zh) * | 2019-10-30 | 2020-03-17 | 深圳价值在线信息科技股份有限公司 | 基于标题的文档聚类方法、装置、终端设备及介质 |
CN111191455A (zh) * | 2018-10-26 | 2020-05-22 | 南京大学 | 一种交通事故损害赔偿中法律条文预测方法 |
KR20200139008A (ko) * | 2019-06-03 | 2020-12-11 | 박병훈 | 딥러닝 기술을 활용한 법률서비스 이용자의 의도분석 기반 계약서 추천 및 자동완성 서비스 |
CN112632229A (zh) * | 2020-12-30 | 2021-04-09 | 语联网(武汉)信息技术有限公司 | 文本聚类方法及装置 |
KR20210051293A (ko) * | 2019-10-30 | 2021-05-10 | 광운대학교 산학협력단 | 법률문서 자동 분류 기술 |
CN113127636A (zh) * | 2019-12-31 | 2021-07-16 | 北京国双科技有限公司 | 一种文本聚类类簇中心点选取方法及装置 |
CN113641824A (zh) * | 2021-08-23 | 2021-11-12 | 梅亮 | 基于深度学习的文本分类系统及方法 |
KR20220025540A (ko) * | 2020-08-24 | 2022-03-03 | 성균관대학교산학협력단 | 키워드 클러스터링을 이용한 문서 요약 방법 및 장치 |
CN116501875A (zh) * | 2023-04-28 | 2023-07-28 | 中电科大数据研究院有限公司 | 一种基于自然语言和知识图谱的文档处理方法和系统 |
US20230401247A1 (en) * | 2021-04-07 | 2023-12-14 | Clausehound Inc. | Clause taxonomy system and method for structured document construction and analysis |
-
2024
- 2024-03-07 CN CN202410258416.7A patent/CN117851602B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191455A (zh) * | 2018-10-26 | 2020-05-22 | 南京大学 | 一种交通事故损害赔偿中法律条文预测方法 |
KR20200139008A (ko) * | 2019-06-03 | 2020-12-11 | 박병훈 | 딥러닝 기술을 활용한 법률서비스 이용자의 의도분석 기반 계약서 추천 및 자동완성 서비스 |
CN110389932A (zh) * | 2019-07-02 | 2019-10-29 | 华北电力科学研究院有限责任公司 | 电力文件自动分类方法及装置 |
CN110888981A (zh) * | 2019-10-30 | 2020-03-17 | 深圳价值在线信息科技股份有限公司 | 基于标题的文档聚类方法、装置、终端设备及介质 |
KR20210051293A (ko) * | 2019-10-30 | 2021-05-10 | 광운대학교 산학협력단 | 법률문서 자동 분류 기술 |
CN113127636A (zh) * | 2019-12-31 | 2021-07-16 | 北京国双科技有限公司 | 一种文本聚类类簇中心点选取方法及装置 |
KR20220025540A (ko) * | 2020-08-24 | 2022-03-03 | 성균관대학교산학협력단 | 키워드 클러스터링을 이용한 문서 요약 방법 및 장치 |
CN112632229A (zh) * | 2020-12-30 | 2021-04-09 | 语联网(武汉)信息技术有限公司 | 文本聚类方法及装置 |
US20230401247A1 (en) * | 2021-04-07 | 2023-12-14 | Clausehound Inc. | Clause taxonomy system and method for structured document construction and analysis |
CN113641824A (zh) * | 2021-08-23 | 2021-11-12 | 梅亮 | 基于深度学习的文本分类系统及方法 |
CN116501875A (zh) * | 2023-04-28 | 2023-07-28 | 中电科大数据研究院有限公司 | 一种基于自然语言和知识图谱的文档处理方法和系统 |
Non-Patent Citations (2)
Title |
---|
姜芳;李国和;岳翔;: "基于语义的文档关键词提取方法", 计算机应用研究, no. 01, 15 January 2015 (2015-01-15) * |
邢启迪;耿骞;赵盼云;景然;: "法律资源的语义模型构建研究", 数字图书馆论坛, no. 05, 25 May 2017 (2017-05-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN117851602B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US8010534B2 (en) | Identifying related objects using quantum clustering | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN107122382B (zh) | 一种基于说明书的专利分类方法 | |
CN109994215A (zh) | 疾病自动编码系统、方法、设备和存储介质 | |
JP4595692B2 (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN110188077B (zh) | 一种电子卷宗智能分类方法、装置、电子设备和存储介质 | |
CN107341199B (zh) | 一种基于文献信息共性模式的推荐方法 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN117391071B (zh) | 一种新闻话题数据挖掘方法、装置及存储介质 | |
CN114943285B (zh) | 互联网新闻内容数据智能审核系统 | |
CN117851602B (zh) | 基于深度学习的法律文件自动分类方法及系统 | |
CN117149956A (zh) | 一种文本检索方法、装置、电子设备及可读存储介质 | |
CN111401056A (zh) | 一种从多类文本中提取关键词的方法 | |
CN116662671A (zh) | 一种基于用户偏好的数字图书馆数据推送方法 | |
Taghva et al. | Address extraction using hidden markov models | |
CN115859932A (zh) | 一种日志模板提取方法、装置、电子设备及存储介质 | |
CN113204610A (zh) | 基于刑事案件电子卷宗的自动编目的方法、计算机可以读取的存储装置 | |
Huang et al. | Apply data mining techniques to library circulation records and usage patterns analysis | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 | |
CN109977269B (zh) | 一种针对xml文件的数据自适应融合方法 | |
KR102691165B1 (ko) | 소셜 빅데이터의 키워드 분석 정확도를 높이기 위한 복합 명사 추출방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |