CN110750493B

CN110750493B - 一种法律文本归档方法、装置、可读存储介质及终端设备

Info

Publication number: CN110750493B
Application number: CN201910826813.9A
Authority: CN
Inventors: 周剀; 文莉
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2022-08-09
Anticipated expiration: 2039-09-03
Also published as: CN110750493A; WO2021042554A1

Abstract

本发明属于计算机技术领域，尤其涉及一种法律文本归档方法、装置、计算机可读存储介质及终端设备。所述方法接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；从所述词语集合中选取核心词子集；根据所述核心词子集从预设的服务器群组中选取目标服务器；从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语；根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区；将所述法律文本归档入所述目标服务器中的所述目标分区。

Description

一种法律文本归档方法、装置、可读存储介质及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种法律文本归档方法、装置、计算机可读存储介质及终端设备。

背景技术

在法院、律所等机构中，往往需要对大量的法律文本及时进行归档处理，以便于后续查询。现有技术中提供了多种对这些法律文本进行归档的方法，例如，可以按照处理人、处理单位以及处理日期等进行归档。这样的归档方法虽然可以使得这些法律文本看起来井然有序，但却并未考虑到这些法律文本内在的关联性，不便于用户进行查询，当用户需要从中查询相关的资料时，往往需要逐个进行查看，耗费大量的人力成本，效率极为低下。

发明内容

有鉴于此，本发明实施例提供了一种法律文本归档方法、装置、计算机可读存储介质及终端设备，以解决现有的法律文本归档方法耗费大量的人力成本，效率极为低下的问题。

本发明实施例的第一方面提供了一种法律文本归档方法，可以包括：

接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

将所述法律文本归档入所述目标服务器中的所述目标分区。

本发明实施例的第二方面提供了一种法律文本归档装置，可以包括：

法律文本获取模块，用于接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

分词处理模块，用于对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

核心词子集选取模块，用于从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

目标服务器确定模块，用于根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

辅助词子集选取模块，用于从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

分区确定模块，用于根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

归档模块，用于将所述法律文本归档入所述目标服务器中的所述目标分区。

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

将所述法律文本归档入所述目标服务器中的所述目标分区。

本发明实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

将所述法律文本归档入所述目标服务器中的所述目标分区。

本发明实施例与现有技术相比存在的有益效果是：在本发明实施例中，在接收到相关指令后，可以自动获取法律文本，并通过文本自动化分析的方式，自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集，并据此确定对所述法律文本归档的服务器(即目标服务器)的依据，接着，从所述词语集合中选取辅助词子集，并据此确定对所述法律文本归档的磁盘分区(即目标分区)，并将法律文本归档入所述目标服务器中的所述目标分区。通过这样的方式，将法律文本按其实际核心内容归档入各个服务器的磁盘分区中，当用户需要查询相关资料时，仅需在对应的服务器的磁盘分区中进行查找即可，节省了对于人力成本的耗费，大大提高了工作效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种法律文本归档方法的一个实施例流程图；

图2为从词语集合中选取核心词子集的示意流程图；

图3为根据核心词子集确定目标服务器的示意流程图；

图4为第一词语列表的设置过程的示意流程图；

图5为根据辅助词子集确定法律文本在目标服务器中的类别的示意流程图；

图6为本发明实施例中一种法律文本归档装置的一个实施例结构图；

图7为本发明实施例中一种终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种法律文本归档方法的一个实施例可以包括：

步骤S101、接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本。

所述法律文本包括但不限于法律条文、法律论文、法律报道、法律分析文章以及法院的起诉书、裁决书等等与法律相关的材料中的文本。

当用户需要对某一法律文本进行存储时，可以通过人机交互界面向预设的终端设备下发法律文本存储指令，在所述法律文本存储指令中携带着法律文本当前所在的地址，也即所述目标地址。所述目标地址可以是所述终端设备中的某一存储地址，也可以是网络中或者指定的数据库中的某一存储地址。所述终端设备即为本实施例的实施主体，在接收到所述法律文本存储指令之后，所述终端设备可以从中提取出所述目标地址，并根据所述目标地址从本地、网络或者指定的数据库中获取到法律文本。

步骤S102、对所述法律文本进行分词处理，得到组成所述法律文本的词语集合。

在进行法律文本归档的过程中，所述终端设备首先会对会对其进行分词处理，得到组成所述法律文本的词语集合。分词处理是指将所述法律文本切分成一个一个单独的词语，在本实施例中，可以采用通用词典与法律专用词典相结合的方式对所述法律文本进行切分，即使用法律专用词典对所述法律文本进行第一轮切分，再使用通用词典对第一轮切分后剩下的法律文本进行切分，通过这样的方式，优先切分出法律专用词语，再切分出通用词语，对于既无法切分出法律专用词语又无法切分出通用词语的法律文本，则切分出单字。

步骤S103、从所述词语集合中选取核心词子集。

所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语。

如图2所示，步骤S103具体可以包括如下步骤：

步骤S1031、分别计算所述词语集合中的各个词语的词条密度。

具体地，可以根据下式分别计算所述词语集合中的各个词语的词条密度：

其中，w为所述词语集合中的各个词语的序号，1≤w≤WN，WN为所述词语集合中的词语数目，WdNum_w为所述词语集合中的第w个词语在所述法律文本中出现的次数，LineNum为所述法律文本的总行数，WdDensity_w为所述词语集合中的第w个词语的词条密度。

步骤S1032、将所述法律文本划分为FN个文本段落，并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况。

FN为大于1的整数。文本段落可以根据具体情况来划分，在本实施例的一种具体实现中，可以将所述法律文本中的每KN行作为一个文本段落，即将所述法律文本中的第1行至第KN行作为第一个文本段落，将所述法律文本中的第KN+1行至第2×KN行作为第二个文本段落，将所述法律文本中的第2×KN+1行至第3×KN行作为第三个文本段落，以此类推。则有：

其中，Ceil为向上取整函数。KN的取值可以根据具体情况进行设置，例如，可以将其设置为3、5、10或者其它取值等等。

步骤S1033、分别计算所述词语集合中的各个词语的均匀度。

具体地，可以根据下式分别计算所述词语集合中的各个词语的均匀度：

其中，f为所述法律文本的各个文本段落的序号，1≤f≤FN，Flag_w,f为所述词语集合中的第w个词语在第f个文本段落中的出现情况的标志位，且

WdEqu_w为所述词语集合中的第w个词语的均匀度。

步骤S1034、从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。

所述第一阈值和所述第二阈值的具体取值可以根据实际情况进行设置。

在本实施例的一种具体实现中，可以首先按照取值从大到小的顺序构造如下所示的词条密度序列：

DensitySet＝{WdDensity₁、WdDensity₂、……、WdDensity_w、……、WdDensity_WN}

其中，DensitySet即为所述词条密度序列。

然后，按照预设的第一选取比例从所述词条密度序列中选取排序在前的若干个取值，并将选取的取值构造为如下所示的最大词条密度序列：

MaxDensitySet＝{MaxWdDensity₁、MaxWdDensity₂、……、MaxWdDensity_nmax、……、MaxWdDensity_MaxNum}

其中，MaxDensitySet为所述最大词条密度序列，MaxNum为所述最大词条密度序列中的取值个数，且MaxNum＝WN×η₁，η₁为所述第一选取比例，可以根据实际情况将其设置为0.2、0.3、0.4或者其它取值，nmax为所述最大词条密度序列中的取值序号，1≤nmax≤MaxNum，MaxWdDensity_nmax为所述最大词条密度序列的第nmax个取值。

接着，按照预设的第二选取比例从所述词条密度序列中选取排序在后的若干个取值，并将选取的取值构造为如下所示的最小词条密度序列：

MinDensitySet＝{MinWdDensity₁、MinWdDensity₂、……、MinWdDensity_nmin、……、MinWdDensity_MinNum}

其中，MinDensitySet为所述最小词条密度序列，MinNum为所述最小词条密度序列中的取值个数，且MaxNum＝WN×η₂，η₂为所述第二选取比例，可以根据实际情况将其设置为0.2、0.3、0.4或者其它取值，nmin为所述最小词条密度序列中的取值序号，1≤nmin≤MinNum，MinWdDensity_nmin为所述最小词条密度序列的第nmin个取值。

再构造如下所示的中值词条密度序列：

MidDensitySet＝{MidWdDensity₁、MidWdDensity₂、……、MidWdDensity_nmid、……、MidWdDensity_MidNum}

其中，MidDensitySet为所述中值词条密度序列，且MidDensitySet＝DensitySet-MaxDensitySet-MinDensitySet，MidNum为所述中值词条密度序列中的取值个数，且MidNum＝WN×(1-η₁-η₂)，nmid为所述中值词条密度序列中的取值序号，1≤nmid≤MidNum，MidWdDensity_nmid为所述中值词条密度序列的第nmid个取值。

最后，根据下式计算所述第一阈值：

其中，λ为预设的系数，且λ>0，FstThresh为所述第一阈值。

所述第二阈值的设置过程与所述第一阈值的设置过程类似，仅需将其中出现的词条密度替换为均匀度即可，具体可参照上述内容，此处不再赘述。

步骤S104、根据所述核心词子集从预设的服务器群组中选取目标服务器。

所述目标服务器为用于对所述法律文本归档的服务器。在本实施例中，所述服务器群组可以包括三个服务器，分别用于对民事、刑事、行政这三个法律领域的法律文本进行归档。

如图3所示，步骤S104具体可以包括：

步骤S1041、在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量。

其中，每个词语的第一特征向量均由T个维度的分量组成，每个维度均对应于一个服务器的特征值，T为大于1的整数，对于将所有的法律文本划分为民事、刑事、行政这三个法律领域的情况，则有T＝3。

对于不同法律领域的法律文本而言，其中的用词往往会存在较大的差异，某些词语会在某一个法律领域中频繁出现，而在其它的法律领域中极少出现，本实施例利用这一特性，预先通过如图4所示的大数据分析过程设置建立所述第一词语列表：

步骤S10411、对预设的法律文本总库中的各条法律文本进行分词处理，得到组成所述法律文本总库的各个词语。

所述法律文本总库中包括与各个法律领域分别对应的法律文本库。在所述法律文本总库中尽可能多的包含某一统计时间段内获取的所有法律文本。该统计时间段可以根据实际情况进行设置，例如，可以将其设置为距离当前时刻一周、一个月、一个季度或者一年内的时间段。

所述法律文本总库中的所有法律文本根据其所属的法律领域会被划分为若干个法律文本库，每个法律文本库均对应于一个法律领域，例如，可以将法律文本总库划分为民事法律文本库、刑事法律文本库、行政法律文本库等等。相应的，每个法律文本库也均对应于一个对该法律领域进行归档的服务器。

分词处理的过程与步骤S101中的过程类似，具体可参照步骤S101中的叙述，此处不再赘述。

步骤S10412、分别统计组成所述法律文本总库的各个词语在各个法律文本库中出现的次数。

在本实施例中，可以将组成所述法律文本总库的各个词语在各个法律文本库中出现的次数记为如下所示的序列形式：

WNSeq_sw＝(WordNum_sw,1,WordNum_sw,2,......,WordNum_sw,t,......,WordNum_sw,T)

其中，t为所述服务器群组中的各个服务器的序号(也即法律文本库的序号)，1≤t≤T，sw为组成所述法律文本总库的各个词语的序号，1≤sw≤SWN，SWN组成所述法律文本总库的词语的总数，WordNum_sw,t为组成所述法律文本总库的第sw个词语在与第t个服务器对应的法律文本库中出现的次数，WNSeq_sw为第sw个词语在各个法律文本库中出现的次数序列。

步骤S10413、分别计算组成所述法律文本总库的各个词语与各个服务器对应的特征值。

具体地，可以根据下式分别计算组成所述法律文本总库的各个词语与各个服务器对应的特征值：

其中，ln为自然对数函数，EigVal_sw,t为组成所述法律文本总库的第sw个词语与第t个服务器对应的特征值。

由该式可以看出，EigVal_sw,t与WordNum_sw,t正相关，即某一词语在某个服务器对应的法律文本库中出现的次数越多，则该词语与该服务器对应的特征值也越高。

步骤S10414、构造组成所述法律文本总库的各个词语的第一特征向量。

具体地，可以根据下式构造组成所述法律文本总库的各个词语的第一特征向量：

EigVec_sw＝(EigVal_sw,1,EigVal_sw,2,......,EigVal_sw,t,......,EigVal_sw,T)

其中，EigVec_sw为组成所述法律文本总库的第sw个词语的第一特征向量。

步骤S10415、将组成所述法律文本总库的各个词语的第一特征向量构造为所述第一词语列表。

通过图4所示的过程，即可完成对所述第一词语列表的设置过程，为后续的法律文本归档提供依据。

步骤S1042、根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值。

具体地，可以根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值：

其中，c为所述核心词子集中的各个词语的序号，1≤c≤CoreNum，CoreNum为所述核心词子集中的词语数目，EigVal_c,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值，LawDom_t为所述法律文本归档入第t个服务器的概率值。

步骤S1043、将概率值最大的服务器确定为所述目标服务器。

具体地，可以根据下式选取出所述目标服务器：

TgtLawDom＝Argmax(LawDomSq)

＝Argmax(LawDom₁,LawDom₂,......,LawDom_t,......,LawDom_T)

其中，Argmax为最大自变量函数，LawDomSq为所述法律文本的第一概率值序列，且：LawDomSq＝(LawDom₁,LawDom₂,......,LawDom_t,......,LawDom_T)，TgtLawDom为所述目标服务器的序号。

步骤S105、从所述词语集合中选取辅助词子集。

所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率。

具体地，首先可以根据下式分别计算所述词语集合中的各个词语的第一词频：

其中，FstFrq_w为所述词语集合中的第w个词语的第一词频。

然后，根据下式分别计算所述词语集合中的各个词语的第二词频：

其中，LibWdNum_w为所述词语集合中的第w个词语在与所述目标服务器对应的法律文本库中出现的次数，SndFrq_w为所述词语集合中的第w个词语的第二词频。

最后，从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。

所述第三阈值的设置过程与所述第一阈值的设置过程类似，仅需将其中出现的词条密度替换为第一词频与第二词频之比即可，具体可参照上述内容，此处不再赘述。

步骤S106、根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区。

所述目标分区为用于对所述法律文本归档的磁盘分区。在本实施例中，每个法律领域又可细分为多个类别，以民事法律领域为例，可以分为以下8个类别：(1)公民之间、公民与法人之间因财产权而发生的纠纷，多数指对财产的占有、使用、收益和处分所发生的纠纷。(2)公民之间因买卖、租赁、借贷、赠与、典当等合同行为而发生的纠纷以及继承遗产所引起的纠纷。(3)因不当得利，无因管理等所产生的债务纠纷以及损坏财产引起的赔偿纠纷。(4)因人身权利引起的纠纷，这主要是指侵害公民健康权、姓名权、名誉权、荣誉权和肖像权。(5)因侵害公民的发明权(专利权)、著作权(版权)而引起的纠纷。(6)婚姻家庭引起的纠纷，主要有离婚以及因离婚引起的财产分割、子女抚养方面的纠纷，家庭成员间的赡养、抚育、扶养等纠纷。(7)因经济合同、企业劳动用工、企业承包、土地承包、相邻权等引起的纠纷。(8)法律规定的或最高人民法院司法解释文件规定的应由人民法院受理的其他民事诉讼案件。本实施例可以将每个服务器均划分为若干个磁盘分区，每个磁盘分区用于对某一类别的法律文本进行归档。

如图5所示，步骤S106具体可以包括：

步骤S1061、在预设的第二词语列表中分别查询所述辅助词子集中的各个词语的第二特征向量。

其中，每个词语的第二特征向量均由ST个维度的分量组成，每个维度均对应于一个磁盘分区的特征值，ST为所述目标服务器中的磁盘分区总数。

所述第二词语列表的设置过程与图4所示的所述第一词语列表的设置过程类似，与所述目标服务器对应的法律文本库中包括与各个磁盘分区分别对应的法律文本子库，首先分别统计所述法律文本总库的各个词语在各个法律文本子库中出现的次数，然后可以根据下式分别计算各个词语与所述目标服务器中的各个磁盘分区对应的特征值：

其中，st为所述目标服务器中的磁盘分区序号，1≤st≤ST，WordNum_sw,st为组成所述法律文本总库的第sw个词语在与所述目标服务器中的第st个磁盘分区对应的法律文本子库中出现的次数，EigVal_sw,st为组成所述法律文本总库的第sw个词语与所述目标服务器中的第st个磁盘分区对应的特征值。

最后，根据下式构造组成所述法律文本总库的各个词语的第二特征向量，并将组成所述法律文本总库的各个词语的第二特征向量构造为所述第二词语列表：

SdEigVec_sw＝(EigVal_sw,1,EigVal_sw,2,......,EigVal_sw,st,......,EigVal_sw,ST)

其中，SdEigVec_sw为组成所述法律文本总库的第sw个词语的第二特征向量。

步骤S1062、根据所述辅助词子集中的各个词语的第二特征向量分别计算所述法律文本属于所述目标服务器中的各个磁盘分区的概率值。

具体地，可以根据下式计算所述法律文本属于所述目标服务器中的各个磁盘分区的概率值：

其中，sub为所述辅助词子集中的各个词语的序号，1≤sub≤SubNum，SubNum为所述辅助词子集中的词语数目，EigVal_sub,st为所述辅助词子集中的第sub个词语与所述目标服务器中的第st个磁盘分区对应的特征值，LawType_st为所述法律文本属于所述目标服务器中的第st个磁盘分区的概率值。

步骤S1063、将概率值最大的磁盘分区确定为所述法律文本在所述目标服务器中的目标分区。

具体地，可以根据下式选取出所述法律文本在所述目标服务器中的目标分区：

TgtLawType＝Argmax(LawTypeSq)

＝Argmax(LawType₁,LawType₂,......,LawType_st,......,LawType_ST)

其中，LawTypeSq为所述法律文本的第二概率值序列，且：LawTypeSq＝(LawType₁,LawType₂,......,LawType_st,......,LawType_ST)，TgtLawType为所述法律文本在所述目标服务器中的目标分区的序号。

步骤S107、将所述法律文本归档入所述目标服务器中的所述目标分区。

综上所述，在本发明实施例中，在接收到相关指令后，可以自动获取法律文本，并通过文本自动化分析的方式，自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集，并据此确定对所述法律文本归档的服务器(即目标服务器)的依据，接着，从所述词语集合中选取辅助词子集，并据此确定对所述法律文本归档的磁盘分区(即目标分区)，并将法律文本归档入所述目标服务器中的所述目标分区。通过这样的方式，将法律文本按其实际核心内容归档入各个服务器的磁盘分区中，当用户需要查询相关资料时，仅需在对应的服务器的磁盘分区中进行查找即可，节省了对于人力成本的耗费，大大提高了工作效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种法律文本归档方法，图6示出了本发明实施例提供的一种法律文本归档装置的一个实施例结构图。

本实施例中，一种法律文本归档装置可以包括：

法律文本获取模块601，用于接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

分词处理模块602，用于对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

核心词子集选取模块603，用于从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

目标服务器确定模块604，用于根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

辅助词子集选取模块605，用于从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

分区确定模块606，用于根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

归档模块607，用于将所述法律文本归档入所述目标服务器中的所述目标分区。

进一步地，所述核心词子集选取模块可以包括：

词条密度计算单元，用于根据下式分别计算所述词语集合中的各个词语的词条密度：

其中，w为所述词语集合中的各个词语的序号，1≤w≤WN，WN为所述词语集合中的词语数目，WdNum_w为所述词语集合中的第w个词语在所述法律文本中出现的次数，LineNum为所述法律文本的总行数，WdDensity_w为所述词语集合中的第w个词语的词条密度；

文本段落划分单元，用于将所述法律文本划分为FN个文本段落，并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况，FN为大于1的整数；

均匀度计算单元，用于根据下式分别计算所述词语集合中的各个词语的均匀度：

WdEqu_w为所述词语集合中的第w个词语的均匀度；

核心词子集选取单元，用于从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。

进一步地，所述目标服务器确定模块可以包括：

第一特征向量查询单元，用于在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量，其中，每个词语的第一特征向量均由T个维度的分量组成，每个维度均对应于一个服务器的特征值，T为大于1的整数；

概率值计算单元，用于根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值；

目标服务器确定单元，用于将概率值最大的服务器确定为所述目标服务器。

进一步地，所述概率值计算单元具体用于根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值：

其中，t为所述服务器群组中的各个服务器的序号，1≤t≤T，c为所述核心词子集中的各个词语的序号，1≤c≤CoreNum，CoreNum为所述核心词子集中的词语数目，EigVal_c,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值，LawDom_t为所述法律文本归档入第t个服务器的概率值。

进一步地，所述辅助词子集选取模块可以包括：

第一词频计算单元，用于根据下式分别计算所述词语集合中的各个词语的第一词频：

其中，FstFrq_w为所述词语集合中的第w个词语的第一词频；

第二词频计算单元，用于根据下式分别计算所述词语集合中的各个词语的第二词频：

其中，LibWdNum_w为所述词语集合中的第w个词语在与所述目标服务器对应的法律文本库中出现的次数，SndFrq_w为所述词语集合中的第w个词语的第二词频；

辅助词子集选取单元，用于从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图7示出了本发明实施例提供的一种终端设备的示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本实施例中，所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备7可包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72，例如执行上述的法律文本归档方法的计算机可读指令。所述处理器70执行所述计算机可读指令72时实现上述各个法律文本归档方法实施例中的步骤，例如图1所示的步骤S101至S107。或者，所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各模块/单元的功能，例如图6所示模块601至607的功能。

示例性的，所述计算机可读指令72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。

所述处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备7所需的其它指令和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。