CN110750493B - 一种法律文本归档方法、装置、可读存储介质及终端设备 - Google Patents
一种法律文本归档方法、装置、可读存储介质及终端设备 Download PDFInfo
- Publication number
- CN110750493B CN110750493B CN201910826813.9A CN201910826813A CN110750493B CN 110750493 B CN110750493 B CN 110750493B CN 201910826813 A CN201910826813 A CN 201910826813A CN 110750493 B CN110750493 B CN 110750493B
- Authority
- CN
- China
- Prior art keywords
- word
- legal text
- legal
- subset
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005192 partition Methods 0.000 claims abstract description 64
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 25
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于计算机技术领域,尤其涉及一种法律文本归档方法、装置、计算机可读存储介质及终端设备。所述方法接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;从所述词语集合中选取核心词子集;根据所述核心词子集从预设的服务器群组中选取目标服务器;从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语;根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区;将所述法律文本归档入所述目标服务器中的所述目标分区。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种法律文本归档方法、装置、计算机可读存储介质及终端设备。
背景技术
在法院、律所等机构中,往往需要对大量的法律文本及时进行归档处理,以便于后续查询。现有技术中提供了多种对这些法律文本进行归档的方法,例如,可以按照处理人、处理单位以及处理日期等进行归档。这样的归档方法虽然可以使得这些法律文本看起来井然有序,但却并未考虑到这些法律文本内在的关联性,不便于用户进行查询,当用户需要从中查询相关的资料时,往往需要逐个进行查看,耗费大量的人力成本,效率极为低下。
发明内容
有鉴于此,本发明实施例提供了一种法律文本归档方法、装置、计算机可读存储介质及终端设备,以解决现有的法律文本归档方法耗费大量的人力成本,效率极为低下的问题。
本发明实施例的第一方面提供了一种法律文本归档方法,可以包括:
接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;
从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率;
根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区,所述目标分区为用于对所述法律文本归档的磁盘分区;
将所述法律文本归档入所述目标服务器中的所述目标分区。
本发明实施例的第二方面提供了一种法律文本归档装置,可以包括:
法律文本获取模块,用于接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;
分词处理模块,用于对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
核心词子集选取模块,用于从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
目标服务器确定模块,用于根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;
辅助词子集选取模块,用于从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率;
分区确定模块,用于根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区,所述目标分区为用于对所述法律文本归档的磁盘分区;
归档模块,用于将所述法律文本归档入所述目标服务器中的所述目标分区。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;
从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率;
根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区,所述目标分区为用于对所述法律文本归档的磁盘分区;
将所述法律文本归档入所述目标服务器中的所述目标分区。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;
从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率;
根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区,所述目标分区为用于对所述法律文本归档的磁盘分区;
将所述法律文本归档入所述目标服务器中的所述目标分区。
本发明实施例与现有技术相比存在的有益效果是:在本发明实施例中,在接收到相关指令后,可以自动获取法律文本,并通过文本自动化分析的方式,自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集,并据此确定对所述法律文本归档的服务器(即目标服务器)的依据,接着,从所述词语集合中选取辅助词子集,并据此确定对所述法律文本归档的磁盘分区(即目标分区),并将法律文本归档入所述目标服务器中的所述目标分区。通过这样的方式,将法律文本按其实际核心内容归档入各个服务器的磁盘分区中,当用户需要查询相关资料时,仅需在对应的服务器的磁盘分区中进行查找即可,节省了对于人力成本的耗费,大大提高了工作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种法律文本归档方法的一个实施例流程图;
图2为从词语集合中选取核心词子集的示意流程图;
图3为根据核心词子集确定目标服务器的示意流程图;
图4为第一词语列表的设置过程的示意流程图;
图5为根据辅助词子集确定法律文本在目标服务器中的类别的示意流程图;
图6为本发明实施例中一种法律文本归档装置的一个实施例结构图;
图7为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种法律文本归档方法的一个实施例可以包括:
步骤S101、接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本。
所述法律文本包括但不限于法律条文、法律论文、法律报道、法律分析文章以及法院的起诉书、裁决书等等与法律相关的材料中的文本。
当用户需要对某一法律文本进行存储时,可以通过人机交互界面向预设的终端设备下发法律文本存储指令,在所述法律文本存储指令中携带着法律文本当前所在的地址,也即所述目标地址。所述目标地址可以是所述终端设备中的某一存储地址,也可以是网络中或者指定的数据库中的某一存储地址。所述终端设备即为本实施例的实施主体,在接收到所述法律文本存储指令之后,所述终端设备可以从中提取出所述目标地址,并根据所述目标地址从本地、网络或者指定的数据库中获取到法律文本。
步骤S102、对所述法律文本进行分词处理,得到组成所述法律文本的词语集合。
在进行法律文本归档的过程中,所述终端设备首先会对会对其进行分词处理,得到组成所述法律文本的词语集合。分词处理是指将所述法律文本切分成一个一个单独的词语,在本实施例中,可以采用通用词典与法律专用词典相结合的方式对所述法律文本进行切分,即使用法律专用词典对所述法律文本进行第一轮切分,再使用通用词典对第一轮切分后剩下的法律文本进行切分,通过这样的方式,优先切分出法律专用词语,再切分出通用词语,对于既无法切分出法律专用词语又无法切分出通用词语的法律文本,则切分出单字。
步骤S103、从所述词语集合中选取核心词子集。
所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语。
如图2所示,步骤S103具体可以包括如下步骤:
步骤S1031、分别计算所述词语集合中的各个词语的词条密度。
具体地,可以根据下式分别计算所述词语集合中的各个词语的词条密度:
其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度。
步骤S1032、将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况。
FN为大于1的整数。文本段落可以根据具体情况来划分,在本实施例的一种具体实现中,可以将所述法律文本中的每KN行作为一个文本段落,即将所述法律文本中的第1行至第KN行作为第一个文本段落,将所述法律文本中的第KN+1行至第2×KN行作为第二个文本段落,将所述法律文本中的第2×KN+1行至第3×KN行作为第三个文本段落,以此类推。则有:其中,Ceil为向上取整函数。KN的取值可以根据具体情况进行设置,例如,可以将其设置为3、5、10或者其它取值等等。
步骤S1033、分别计算所述词语集合中的各个词语的均匀度。
具体地,可以根据下式分别计算所述词语集合中的各个词语的均匀度:
步骤S1034、从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
所述第一阈值和所述第二阈值的具体取值可以根据实际情况进行设置。
在本实施例的一种具体实现中,可以首先按照取值从大到小的顺序构造如下所示的词条密度序列:
DensitySet={WdDensity1、WdDensity2、……、WdDensityw、……、WdDensityWN}
其中,DensitySet即为所述词条密度序列。
然后,按照预设的第一选取比例从所述词条密度序列中选取排序在前的若干个取值,并将选取的取值构造为如下所示的最大词条密度序列:
MaxDensitySet={MaxWdDensity1、MaxWdDensity2、……、MaxWdDensitynmax、……、MaxWdDensityMaxNum}
其中,MaxDensitySet为所述最大词条密度序列,MaxNum为所述最大词条密度序列中的取值个数,且MaxNum=WN×η1,η1为所述第一选取比例,可以根据实际情况将其设置为0.2、0.3、0.4或者其它取值,nmax为所述最大词条密度序列中的取值序号,1≤nmax≤MaxNum,MaxWdDensitynmax为所述最大词条密度序列的第nmax个取值。
接着,按照预设的第二选取比例从所述词条密度序列中选取排序在后的若干个取值,并将选取的取值构造为如下所示的最小词条密度序列:
MinDensitySet={MinWdDensity1、MinWdDensity2、……、MinWdDensitynmin、……、MinWdDensityMinNum}
其中,MinDensitySet为所述最小词条密度序列,MinNum为所述最小词条密度序列中的取值个数,且MaxNum=WN×η2,η2为所述第二选取比例,可以根据实际情况将其设置为0.2、0.3、0.4或者其它取值,nmin为所述最小词条密度序列中的取值序号,1≤nmin≤MinNum,MinWdDensitynmin为所述最小词条密度序列的第nmin个取值。
再构造如下所示的中值词条密度序列:
MidDensitySet={MidWdDensity1、MidWdDensity2、……、MidWdDensitynmid、……、MidWdDensityMidNum}
其中,MidDensitySet为所述中值词条密度序列,且MidDensitySet=DensitySet-MaxDensitySet-MinDensitySet,MidNum为所述中值词条密度序列中的取值个数,且MidNum=WN×(1-η1-η2),nmid为所述中值词条密度序列中的取值序号,1≤nmid≤MidNum,MidWdDensitynmid为所述中值词条密度序列的第nmid个取值。
最后,根据下式计算所述第一阈值:
其中,λ为预设的系数,且λ>0,FstThresh为所述第一阈值。
所述第二阈值的设置过程与所述第一阈值的设置过程类似,仅需将其中出现的词条密度替换为均匀度即可,具体可参照上述内容,此处不再赘述。
步骤S104、根据所述核心词子集从预设的服务器群组中选取目标服务器。
所述目标服务器为用于对所述法律文本归档的服务器。在本实施例中,所述服务器群组可以包括三个服务器,分别用于对民事、刑事、行政这三个法律领域的法律文本进行归档。
如图3所示,步骤S104具体可以包括:
步骤S1041、在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量。
其中,每个词语的第一特征向量均由T个维度的分量组成,每个维度均对应于一个服务器的特征值,T为大于1的整数,对于将所有的法律文本划分为民事、刑事、行政这三个法律领域的情况,则有T=3。
对于不同法律领域的法律文本而言,其中的用词往往会存在较大的差异,某些词语会在某一个法律领域中频繁出现,而在其它的法律领域中极少出现,本实施例利用这一特性,预先通过如图4所示的大数据分析过程设置建立所述第一词语列表:
步骤S10411、对预设的法律文本总库中的各条法律文本进行分词处理,得到组成所述法律文本总库的各个词语。
所述法律文本总库中包括与各个法律领域分别对应的法律文本库。在所述法律文本总库中尽可能多的包含某一统计时间段内获取的所有法律文本。该统计时间段可以根据实际情况进行设置,例如,可以将其设置为距离当前时刻一周、一个月、一个季度或者一年内的时间段。
所述法律文本总库中的所有法律文本根据其所属的法律领域会被划分为若干个法律文本库,每个法律文本库均对应于一个法律领域,例如,可以将法律文本总库划分为民事法律文本库、刑事法律文本库、行政法律文本库等等。相应的,每个法律文本库也均对应于一个对该法律领域进行归档的服务器。
分词处理的过程与步骤S101中的过程类似,具体可参照步骤S101中的叙述,此处不再赘述。
步骤S10412、分别统计组成所述法律文本总库的各个词语在各个法律文本库中出现的次数。
在本实施例中,可以将组成所述法律文本总库的各个词语在各个法律文本库中出现的次数记为如下所示的序列形式:
WNSeqsw=(WordNumsw,1,WordNumsw,2,......,WordNumsw,t,......,WordNumsw,T)
其中,t为所述服务器群组中的各个服务器的序号(也即法律文本库的序号),1≤t≤T,sw为组成所述法律文本总库的各个词语的序号,1≤sw≤SWN,SWN组成所述法律文本总库的词语的总数,WordNumsw,t为组成所述法律文本总库的第sw个词语在与第t个服务器对应的法律文本库中出现的次数,WNSeqsw为第sw个词语在各个法律文本库中出现的次数序列。
步骤S10413、分别计算组成所述法律文本总库的各个词语与各个服务器对应的特征值。
具体地,可以根据下式分别计算组成所述法律文本总库的各个词语与各个服务器对应的特征值:
其中,ln为自然对数函数,EigValsw,t为组成所述法律文本总库的第sw个词语与第t个服务器对应的特征值。
由该式可以看出,EigValsw,t与WordNumsw,t正相关,即某一词语在某个服务器对应的法律文本库中出现的次数越多,则该词语与该服务器对应的特征值也越高。
步骤S10414、构造组成所述法律文本总库的各个词语的第一特征向量。
具体地,可以根据下式构造组成所述法律文本总库的各个词语的第一特征向量:
EigVecsw=(EigValsw,1,EigValsw,2,......,EigValsw,t,......,EigValsw,T)
其中,EigVecsw为组成所述法律文本总库的第sw个词语的第一特征向量。
步骤S10415、将组成所述法律文本总库的各个词语的第一特征向量构造为所述第一词语列表。
通过图4所示的过程,即可完成对所述第一词语列表的设置过程,为后续的法律文本归档提供依据。
步骤S1042、根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值。
具体地,可以根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值:
其中,c为所述核心词子集中的各个词语的序号,1≤c≤CoreNum,CoreNum为所述核心词子集中的词语数目,EigValc,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值,LawDomt为所述法律文本归档入第t个服务器的概率值。
步骤S1043、将概率值最大的服务器确定为所述目标服务器。
具体地,可以根据下式选取出所述目标服务器:
TgtLawDom=Argmax(LawDomSq)
=Argmax(LawDom1,LawDom2,......,LawDomt,......,LawDomT)
其中,Argmax为最大自变量函数,LawDomSq为所述法律文本的第一概率值序列,且:LawDomSq=(LawDom1,LawDom2,......,LawDomt,......,LawDomT),TgtLawDom为所述目标服务器的序号。
步骤S105、从所述词语集合中选取辅助词子集。
所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率。
具体地,首先可以根据下式分别计算所述词语集合中的各个词语的第一词频:
其中,FstFrqw为所述词语集合中的第w个词语的第一词频。
然后,根据下式分别计算所述词语集合中的各个词语的第二词频:
其中,LibWdNumw为所述词语集合中的第w个词语在与所述目标服务器对应的法律文本库中出现的次数,SndFrqw为所述词语集合中的第w个词语的第二词频。
最后,从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。
所述第三阈值的设置过程与所述第一阈值的设置过程类似,仅需将其中出现的词条密度替换为第一词频与第二词频之比即可,具体可参照上述内容,此处不再赘述。
步骤S106、根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区。
所述目标分区为用于对所述法律文本归档的磁盘分区。在本实施例中,每个法律领域又可细分为多个类别,以民事法律领域为例,可以分为以下8个类别:(1)公民之间、公民与法人之间因财产权而发生的纠纷,多数指对财产的占有、使用、收益和处分所发生的纠纷。(2)公民之间因买卖、租赁、借贷、赠与、典当等合同行为而发生的纠纷以及继承遗产所引起的纠纷。(3)因不当得利,无因管理等所产生的债务纠纷以及损坏财产引起的赔偿纠纷。(4)因人身权利引起的纠纷,这主要是指侵害公民健康权、姓名权、名誉权、荣誉权和肖像权。(5)因侵害公民的发明权(专利权)、著作权(版权)而引起的纠纷。(6)婚姻家庭引起的纠纷,主要有离婚以及因离婚引起的财产分割、子女抚养方面的纠纷,家庭成员间的赡养、抚育、扶养等纠纷。(7)因经济合同、企业劳动用工、企业承包、土地承包、相邻权等引起的纠纷。(8)法律规定的或最高人民法院司法解释文件规定的应由人民法院受理的其他民事诉讼案件。本实施例可以将每个服务器均划分为若干个磁盘分区,每个磁盘分区用于对某一类别的法律文本进行归档。
如图5所示,步骤S106具体可以包括:
步骤S1061、在预设的第二词语列表中分别查询所述辅助词子集中的各个词语的第二特征向量。
其中,每个词语的第二特征向量均由ST个维度的分量组成,每个维度均对应于一个磁盘分区的特征值,ST为所述目标服务器中的磁盘分区总数。
所述第二词语列表的设置过程与图4所示的所述第一词语列表的设置过程类似,与所述目标服务器对应的法律文本库中包括与各个磁盘分区分别对应的法律文本子库,首先分别统计所述法律文本总库的各个词语在各个法律文本子库中出现的次数,然后可以根据下式分别计算各个词语与所述目标服务器中的各个磁盘分区对应的特征值:
其中,st为所述目标服务器中的磁盘分区序号,1≤st≤ST,WordNumsw,st为组成所述法律文本总库的第sw个词语在与所述目标服务器中的第st个磁盘分区对应的法律文本子库中出现的次数,EigValsw,st为组成所述法律文本总库的第sw个词语与所述目标服务器中的第st个磁盘分区对应的特征值。
最后,根据下式构造组成所述法律文本总库的各个词语的第二特征向量,并将组成所述法律文本总库的各个词语的第二特征向量构造为所述第二词语列表:
SdEigVecsw=(EigValsw,1,EigValsw,2,......,EigValsw,st,......,EigValsw,ST)
其中,SdEigVecsw为组成所述法律文本总库的第sw个词语的第二特征向量。
步骤S1062、根据所述辅助词子集中的各个词语的第二特征向量分别计算所述法律文本属于所述目标服务器中的各个磁盘分区的概率值。
具体地,可以根据下式计算所述法律文本属于所述目标服务器中的各个磁盘分区的概率值:
其中,sub为所述辅助词子集中的各个词语的序号,1≤sub≤SubNum,SubNum为所述辅助词子集中的词语数目,EigValsub,st为所述辅助词子集中的第sub个词语与所述目标服务器中的第st个磁盘分区对应的特征值,LawTypest为所述法律文本属于所述目标服务器中的第st个磁盘分区的概率值。
步骤S1063、将概率值最大的磁盘分区确定为所述法律文本在所述目标服务器中的目标分区。
具体地,可以根据下式选取出所述法律文本在所述目标服务器中的目标分区:
TgtLawType=Argmax(LawTypeSq)
=Argmax(LawType1,LawType2,......,LawTypest,......,LawTypeST)
其中,LawTypeSq为所述法律文本的第二概率值序列,且:LawTypeSq=(LawType1,LawType2,......,LawTypest,......,LawTypeST),TgtLawType为所述法律文本在所述目标服务器中的目标分区的序号。
步骤S107、将所述法律文本归档入所述目标服务器中的所述目标分区。
综上所述,在本发明实施例中,在接收到相关指令后,可以自动获取法律文本,并通过文本自动化分析的方式,自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集,并据此确定对所述法律文本归档的服务器(即目标服务器)的依据,接着,从所述词语集合中选取辅助词子集,并据此确定对所述法律文本归档的磁盘分区(即目标分区),并将法律文本归档入所述目标服务器中的所述目标分区。通过这样的方式,将法律文本按其实际核心内容归档入各个服务器的磁盘分区中,当用户需要查询相关资料时,仅需在对应的服务器的磁盘分区中进行查找即可,节省了对于人力成本的耗费,大大提高了工作效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种法律文本归档方法,图6示出了本发明实施例提供的一种法律文本归档装置的一个实施例结构图。
本实施例中,一种法律文本归档装置可以包括:
法律文本获取模块601,用于接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;
分词处理模块602,用于对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
核心词子集选取模块603,用于从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
目标服务器确定模块604,用于根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;
辅助词子集选取模块605,用于从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率;
分区确定模块606,用于根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区,所述目标分区为用于对所述法律文本归档的磁盘分区;
归档模块607,用于将所述法律文本归档入所述目标服务器中的所述目标分区。
进一步地,所述核心词子集选取模块可以包括:
词条密度计算单元,用于根据下式分别计算所述词语集合中的各个词语的词条密度:
其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度;
文本段落划分单元,用于将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况,FN为大于1的整数;
均匀度计算单元,用于根据下式分别计算所述词语集合中的各个词语的均匀度:
核心词子集选取单元,用于从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
进一步地,所述目标服务器确定模块可以包括:
第一特征向量查询单元,用于在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量,其中,每个词语的第一特征向量均由T个维度的分量组成,每个维度均对应于一个服务器的特征值,T为大于1的整数;
概率值计算单元,用于根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值;
目标服务器确定单元,用于将概率值最大的服务器确定为所述目标服务器。
进一步地,所述概率值计算单元具体用于根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值:
其中,t为所述服务器群组中的各个服务器的序号,1≤t≤T,c为所述核心词子集中的各个词语的序号,1≤c≤CoreNum,CoreNum为所述核心词子集中的词语数目,EigValc,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值,LawDomt为所述法律文本归档入第t个服务器的概率值。
进一步地,所述辅助词子集选取模块可以包括:
第一词频计算单元,用于根据下式分别计算所述词语集合中的各个词语的第一词频:
其中,FstFrqw为所述词语集合中的第w个词语的第一词频;
第二词频计算单元,用于根据下式分别计算所述词语集合中的各个词语的第二词频:
其中,LibWdNumw为所述词语集合中的第w个词语在与所述目标服务器对应的法律文本库中出现的次数,SndFrqw为所述词语集合中的第w个词语的第二词频;
辅助词子集选取单元,用于从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图7示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备7可包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72,例如执行上述的法律文本归档方法的计算机可读指令。所述处理器70执行所述计算机可读指令72时实现上述各个法律文本归档方法实施例中的步骤,例如图1所示的步骤S101至S107。或者,所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块601至607的功能。
示例性的,所述计算机可读指令72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。
所述处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备7所需的其它指令和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种法律文本归档方法,其特征在于,包括:
接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;
从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率;
根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区,所述目标分区为用于对所述法律文本归档的磁盘分区;
将所述法律文本归档入所述目标服务器中的所述目标分区;
所述从所述词语集合中选取核心词子集包括:
根据下式分别计算所述词语集合中的各个词语的词条密度:
其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度;
将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况,FN为大于1的整数;
根据下式分别计算所述词语集合中的各个词语的均匀度:
从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
2.根据权利要求1所述的法律文本归档方法,其特征在于,所述根据所述核心词子集从预设的服务器群组中选取目标服务器包括:
在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量,其中,每个词语的第一特征向量均由T个维度的分量组成,每个维度均对应于一个服务器的特征值,T为大于1的整数;
根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值;
将概率值最大的服务器确定为所述目标服务器。
5.一种法律文本归档装置,其特征在于,包括:
法律文本获取模块,用于接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;
分词处理模块,用于对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
核心词子集选取模块,用于从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
目标服务器确定模块,用于根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;
辅助词子集选取模块,用于从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率;
分区确定模块,用于根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区,所述目标分区为用于对所述法律文本归档的磁盘分区;
归档模块,用于将所述法律文本归档入所述目标服务器中的所述目标分区;
所述核心词子集选取模块包括:
词条密度计算单元,用于根据下式分别计算所述词语集合中的各个词语的词条密度:
其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度;
文本段落划分单元,用于将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况,FN为大于1的整数;
均匀度计算单元,用于根据下式分别计算所述词语集合中的各个词语的均匀度:
核心词子集选取单元,用于从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
6.根据权利要求5所述的法律文本归档装置,其特征在于,所述目标服务器确定模块包括:
第一特征向量查询单元,用于在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量,其中,每个词语的第一特征向量均由T个维度的分量组成,每个维度均对应于一个服务器的特征值,T为大于1的整数;
概率值计算单元,用于根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值;
目标服务器确定单元,用于将概率值最大的服务器确定为所述目标服务器;
进一步地,所述概率值计算单元具体用于根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值:
其中,t为所述服务器群组中的各个服务器的序号,1≤t≤T,c为所述核心词子集中的各个词语的序号,1≤c≤CoreNum,CoreNum为所述核心词子集中的词语数目,EigValc,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值,LawDomt为所述法律文本归档入第t个服务器的概率值。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的法律文本归档方法的步骤。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的法律文本归档方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826813.9A CN110750493B (zh) | 2019-09-03 | 2019-09-03 | 一种法律文本归档方法、装置、可读存储介质及终端设备 |
PCT/CN2019/118148 WO2021042554A1 (zh) | 2019-09-03 | 2019-11-13 | 一种法律文本归档方法、装置、可读存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826813.9A CN110750493B (zh) | 2019-09-03 | 2019-09-03 | 一种法律文本归档方法、装置、可读存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750493A CN110750493A (zh) | 2020-02-04 |
CN110750493B true CN110750493B (zh) | 2022-08-09 |
Family
ID=69275998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910826813.9A Active CN110750493B (zh) | 2019-09-03 | 2019-09-03 | 一种法律文本归档方法、装置、可读存储介质及终端设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110750493B (zh) |
WO (1) | WO2021042554A1 (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442951B1 (en) * | 2011-12-07 | 2013-05-14 | International Business Machines Corporation | Processing archive content based on hierarchical classification levels |
CN109033212A (zh) * | 2018-07-01 | 2018-12-18 | 东莞市华睿电子科技有限公司 | 一种基于相似度匹配的文本分类方法 |
CN109062972A (zh) * | 2018-06-29 | 2018-12-21 | 平安科技(深圳)有限公司 | 网页分类方法、装置及计算机可读存储介质 |
CN109413192A (zh) * | 2018-11-08 | 2019-03-01 | 内蒙古伊泰煤炭股份有限公司 | 数据处理方法、装置、服务器及可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6985908B2 (en) * | 2001-11-01 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Text classification apparatus |
WO2010087882A1 (en) * | 2009-01-30 | 2010-08-05 | Cbs Interactive, Inc. | Personalization engine for building a user profile |
US9002838B2 (en) * | 2009-12-17 | 2015-04-07 | Wausau Financial Systems, Inc. | Distributed capture system for use with a legacy enterprise content management system |
US9483557B2 (en) * | 2011-03-04 | 2016-11-01 | Microsoft Technology Licensing Llc | Keyword generation for media content |
JP5530476B2 (ja) * | 2012-03-30 | 2014-06-25 | 株式会社Ubic | 文書分別システム及び文書分別方法並びに文書分別プログラム |
CN107783989A (zh) * | 2016-08-25 | 2018-03-09 | 北京国双科技有限公司 | 文书归属领域的确定方法和装置 |
CN108009284A (zh) * | 2017-12-22 | 2018-05-08 | 重庆邮电大学 | 采用半监督卷积神经网络的法律文本分类方法 |
CN108984518A (zh) * | 2018-06-11 | 2018-12-11 | 人民法院信息技术服务中心 | 一种面向裁判文书的文本分类方法 |
CN109344400A (zh) * | 2018-09-18 | 2019-02-15 | 江苏润桐数据服务有限公司 | 一种文献入库的判断方法和装置 |
CN109460468A (zh) * | 2018-10-23 | 2019-03-12 | 出门问问信息科技有限公司 | 法律相关文本的归类方法、归类装置及相应的电子设备 |
-
2019
- 2019-09-03 CN CN201910826813.9A patent/CN110750493B/zh active Active
- 2019-11-13 WO PCT/CN2019/118148 patent/WO2021042554A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442951B1 (en) * | 2011-12-07 | 2013-05-14 | International Business Machines Corporation | Processing archive content based on hierarchical classification levels |
CN109062972A (zh) * | 2018-06-29 | 2018-12-21 | 平安科技(深圳)有限公司 | 网页分类方法、装置及计算机可读存储介质 |
CN109033212A (zh) * | 2018-07-01 | 2018-12-18 | 东莞市华睿电子科技有限公司 | 一种基于相似度匹配的文本分类方法 |
CN109413192A (zh) * | 2018-11-08 | 2019-03-01 | 内蒙古伊泰煤炭股份有限公司 | 数据处理方法、装置、服务器及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110750493A (zh) | 2020-02-04 |
WO2021042554A1 (zh) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162695B (zh) | 一种信息推送的方法及设备 | |
WO2022095374A1 (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN108170692B (zh) | 一种热点事件信息处理方法和装置 | |
Ruiz et al. | Correlating financial time series with micro-blogging activity | |
CN109492180A (zh) | 资源推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN110390044B (zh) | 一种相似网络页面的搜索方法及设备 | |
CN111581949B (zh) | 学者人名的消歧方法、装置、存储介质及终端 | |
CN112559895B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN112380244B (zh) | 一种分词搜索方法、装置、电子设备及可读存储介质 | |
CN111831804A (zh) | 一种关键短语的提取方法、装置、终端设备及存储介质 | |
Berestycki et al. | KPZ formula derived from Liouville heat kernel | |
CN110019669B (zh) | 一种文本检索方法及装置 | |
CN109885813A (zh) | 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质 | |
CN107341233A (zh) | 一种职位推荐方法及计算设备 | |
CN107885875B (zh) | 检索词的同义变换方法、装置及服务器 | |
CN115630144A (zh) | 一种文档搜索方法、装置及相关设备 | |
CN110750493B (zh) | 一种法律文本归档方法、装置、可读存储介质及终端设备 | |
CN107369066B (zh) | 一种评论对象之间的特征比较方法及装置 | |
CN109462635B (zh) | 一种信息推送方法、计算机可读存储介质及服务器 | |
CN110765230B (zh) | 一种法律文本存储方法、装置、可读存储介质及终端设备 | |
CN110442678B (zh) | 一种文本字词权重计算方法及系统、存储介质及终端 | |
CN109783175B (zh) | 应用程序图标管理方法、装置、可读存储介质及终端设备 | |
CN115438155A (zh) | 一种基于相关性和重要性的文献搜索排序方法及电子设备 | |
CN108628875B (zh) | 一种文本标签的提取方法、装置及服务器 | |
CN115544214A (zh) | 一种事件处理方法、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |