CN110765230A - 一种法律文本存储方法、装置、可读存储介质及终端设备 - Google Patents
一种法律文本存储方法、装置、可读存储介质及终端设备 Download PDFInfo
- Publication number
- CN110765230A CN110765230A CN201910826805.4A CN201910826805A CN110765230A CN 110765230 A CN110765230 A CN 110765230A CN 201910826805 A CN201910826805 A CN 201910826805A CN 110765230 A CN110765230 A CN 110765230A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- target
- legal text
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机技术领域,尤其涉及一种法律文本存储方法、装置、计算机可读存储介质及终端设备。所述方法在接收到相关指令后,可以自动获取法律文本,并通过文本自动化分析的方式,自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集,借助于词语向量的形式计算得到所述核心词子集与各个特征词集合之间的向量距离,将其作为确定法律文本所应存储的存储分区的依据,选取与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区作为优选存储分区,并将法律文本存储入优选存储分区中。当用户需要查询相关资料时,仅需在对应的存储分区中进行查找即可,节省了对于人力成本的耗费,大大提高了工作效率。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种法律文本存储方法、装置、计算机可读存储介质及终端设备。
背景技术
法律从业人员在日常的法律工作中往往会积累大量的法律文本,现有技术中提供了多种对这些法律文本进行有序存储的方法,例如,可以按照时间、大小、名称等进行升序或降序的存储。这样的存储方法虽然可以使得这些法律文本看起来井然有序,但却并未考虑到这些法律文本内在的关联性,不便于用户进行查询,当用户需要从中查询相关的资料时,往往需要逐个进行查看,耗费大量的人力成本,效率极为低下。
发明内容
有鉴于此,本发明实施例提供了一种法律文本存储方法、装置、计算机可读存储介质及终端设备,以解决现有的法律文本存储不便于用户进行查询的问题。
本发明实施例的第一方面提供了一种法律文本存储方法,可以包括:
接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
分别获取与各个预设的存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;
根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;
将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。
本发明实施例的第二方面提供了一种法律文本存储装置,可以包括:
法律文本获取模块,用于接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;
第一分词处理模块,用于对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
核心词子集选取模块,用于从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
第一词语向量查询模块,用于分别获取与各个存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;
向量距离计算模块,用于根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;
分区存储模块,用于将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
分别获取与各个预设的存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;
根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;
将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
分别获取与各个预设的存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;
根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;
将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。
本发明实施例与现有技术相比存在的有益效果是:在本发明实施例中,在接收到相关指令后,可以自动获取法律文本,并通过文本自动化分析的方式,自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集,借助于词语向量的形式计算得到所述核心词子集与各个特征词集合之间的向量距离,将其作为确定法律文本所应存储的存储分区的依据,选取与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区作为优选存储分区,并将法律文本存储入优选存储分区中。通过这样的方式,按照法律文本的实际核心内容进行存储,内容相似的法律文本会被存储入同一存储分区中,当用户需要查询相关资料时,仅需在对应的存储分区中进行查找即可,节省了对于人力成本的耗费,大大提高了工作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种法律文本存储方法的一个实施例流程图;
图2为从词语集合中选取核心词子集的示意流程图;
图3为第一词语向量数据库的设置过程的示意流程图;
图4为本发明实施例中一种法律文本存储装置的一个实施例结构图;
图5为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种法律文本存储方法的一个实施例可以包括:
步骤S101、接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本。
所述法律文本包括但不限于法律条文、法律论文、法律报道、法律分析文章以及法院的起诉书、裁决书等等与法律相关的材料中的文本。
当用户需要对某一法律文本进行存储时,可以通过人机交互界面向预设的终端设备下发法律文本存储指令,在所述法律文本存储指令中携带着法律文本当前所在的地址,也即所述目标地址。所述目标地址可以是所述终端设备中的某一存储地址,也可以是网络中或者指定的数据库中的某一存储地址。所述终端设备即为本实施例的实施主体,在接收到所述法律文本存储指令之后,所述终端设备可以从中提取出所述目标地址,并根据所述目标地址从本地、网络或者指定的数据库中获取到法律文本。
步骤S102、对所述法律文本进行分词处理,得到组成所述法律文本的词语集合。
在进行法律文本存储的过程中,所述终端设备首先会对会对其进行分词处理,得到组成所述法律文本的词语集合。分词处理是指将所述法律文本切分成一个一个单独的词语,在本实施例中,可以采用通用词典与法律专用词典相结合的方式对所述法律文本进行切分,即使用法律专用词典对所述法律文本进行第一轮切分,再使用通用词典对第一轮切分后剩下的法律文本进行切分,通过这样的方式,优先切分出法律专用词语,再切分出通用词语,对于既无法切分出法律专用词语又无法切分出通用词语的法律文本,则切分出单字。
步骤S103、从所述词语集合中选取核心词子集。
所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语。
如图2所示,步骤S103具体可以包括如下步骤:
步骤S1031、分别计算所述词语集合中的各个词语的词条密度。
具体地,可以根据下式分别计算所述词语集合中的各个词语的词条密度:
其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度。
步骤S1032、将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况。
FN为大于1的整数。文本段落可以根据具体情况来划分,在本实施例的一种具体实现中,可以将所述法律文本中的每KN行作为一个文本段落,即将所述法律文本中的第1行至第KN行作为第一个文本段落,将所述法律文本中的第KN+1行至第2×KN行作为第二个文本段落,将所述法律文本中的第2×KN+1行至第3×KN行作为第三个文本段落,以此类推。则有:其中,Ceil为向上取整函数。KN的取值可以根据具体情况进行设置,例如,可以将其设置为3、5、10或者其它取值等等。
步骤S1033、分别计算所述词语集合中的各个词语的均匀度。
具体地,可以根据下式分别计算所述词语集合中的各个词语的均匀度:
步骤S1034、从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
所述第一阈值和所述第二阈值的具体取值可以根据实际情况进行设置。
在本实施例的一种具体实现中,可以首先按照取值从大到小的顺序构造如下所示的词条密度序列:
DensitySet={WdDensity1、WdDensity2、……、WdDensityw、……、WdDensityWN}
其中,DensitySet即为所述词条密度序列。
然后,按照预设的第一选取比例从所述词条密度序列中选取排序在前的若干个取值,并将选取的取值构造为如下所示的最大词条密度序列:
MaxDensitySet={MaxWdDensity1、MaxWdDensity2、……、MaxWdDensitynmax、……、MaxWdDensityMaxNum}
其中,MaxDensitySet为所述最大词条密度序列,MaxNum为所述最大词条密度序列中的取值个数,且MaxNum=WN×η1,η1为所述第一选取比例,可以根据实际情况将其设置为0.2、0.3、0.4或者其它取值,nmax为所述最大词条密度序列中的取值序号,1≤nmax≤MaxNum,MaxWdDensitynmax为所述最大词条密度序列的第nmax个取值。
接着,按照预设的第二选取比例从所述词条密度序列中选取排序在后的若干个取值,并将选取的取值构造为如下所示的最小词条密度序列:
MinDensitySet={MinWdDensity1、MinWdDensity2、……、MinWdDensitynmin、……、MinWdDensityMinNum}
其中,MinDensitySet为所述最小词条密度序列,MinNum为所述最小词条密度序列中的取值个数,且MaxNum=WN×η2,η2为所述第二选取比例,可以根据实际情况将其设置为0.2、0.3、0.4或者其它取值,nmin为所述最小词条密度序列中的取值序号,1≤nmin≤MinNum,MinWdDensitynmin为所述最小词条密度序列的第nmin个取值。
再构造如下所示的中值词条密度序列:
MidDensitySet={MidWdDensity1、MidWdDensity2、……、MidWdDensitynmid、……、MidWdDensityMidNum}
其中,MidDensitySet为所述中值词条密度序列,且MidDensitySet=DensitySet-MaxDensitySet-MinDensitySet,MidNum为所述中值词条密度序列中的取值个数,且MidNum=WN×(1-η1-η2),nmid为所述中值词条密度序列中的取值序号,1≤nmid≤MidNum,MidWdDensitynmid为所述中值词条密度序列的第nmid个取值。
最后,根据下式计算所述第一阈值:
其中,λ为预设的系数,且λ>0,FstThresh为所述第一阈值。
所述第二阈值的设置过程与所述第一阈值的设置过程类似,仅需将其中出现的词条密度替换为均匀度即可,具体可参照上述内容,此处不再赘述。
步骤S104、分别获取与各个存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量。
在本实施例中,可以根据实际情况将所有的法律文本划分为多个存储分区,此处将存储分区的总数记为TN。例如,可以将所有的法律文本划分为民事、刑事、行政这三个存储分区,即TN=3。
对于每一个存储分区,均可预先设置对应的特征词集合,例如,可以将与民事存储分区对应的特征词集合设置为:{民事、公司、合同、责任、借款、赔偿、利息、事故、保险},将与刑事存储分区对应的特征词集合设置为:{刑事、罪犯、有期徒刑、无期徒刑、被害人、刑期},将与行政存储分区对应的特征词集合设置为:{行政、政府、程序、商标、财产},需要注意的是,以上仅为特征词集合设置的一个具体示例,实际应用中还可以根据实际情况设置其它的特征词集合,本实施例对此不做具体限定。
任意一个词语向量数据库为记录词语与词语向量之间的对应关系的数据库。所述词语向量可以是根据word2vec模型训练词语所得到对应的词语向量。即根据词语的上下文信息来表示该词出现的概率。词语向量的训练依然按照word2vec的思想,先将每个词表示成一个0-1向量(one-hot)形式,再用词语向量进行word2vec模型训练,用n-1个词来预测第n个词,神经网络模型预测后得到的中间过程作为词语向量。具体地,如“庆祝”的one-hot向量假设定为[1,0,0,0,……,0],“大会”的one-hot向量为[0,1,0,0,……,0],“顺利”的one-hot向量为[0,0,1,0,……,0],预测“闭幕”的向量[0,0,0,1,……,0],模型经过训练会生成隐藏层的系数矩阵W,每个词的one-hot向量和系数矩阵的乘积为该词的词语向量,最后的形式将是类似于“庆祝[-0.28,0.34,-0.02,…...,0.92]”这样的一个多维向量。
现有技术中提供了很多开源的词语向量数据库,但这些词语向量数据库是通用于各个领域的,并非为法律文本专门设置,因此如果直接使用会降低最终分类结果的准确率,而如果根据word2vec模型重新训练一个专门针对法律文本的词语向量数据库,又需要耗费大量的计算时间。在本实施例中,采取了使用法律文本对已有的开源的词语向量数据库(此处记为第二词语向量数据库)进行更新,得到针对法律文本的词语向量数据库(此处记为第一词语向量数据库)的方法,具体过程如图3所示:
步骤S1041、对预设的法律文本库中的各条法律文本进行分词处理,得到组成所述法律文本库的各个词语。
在所述法律文本库中尽可能多的包含某一统计时间段内获取的所有法律文本。该统计时间段可以根据实际情况进行设置,例如,可以将其设置为距离当前时刻一周、一个月、一个季度或者一年内的时间段。
分词处理的过程与步骤S101中的过程类似,具体可参照步骤S101中的叙述,此处不再赘述。
步骤S1042、确定目标词语的各个关联词语,并分别计算所述目标词语与各个关联词语之间的第一关联度。
所述目标词语为组成所述法律文本库的任意一个词语。所述关联词语为在所述法律文本库中与所述目标词语的间隔小于预设的间隔阈值的词语,所述间隔阈值可以根据实际情况进行设置,例如,可以将其设置为3个词语、5个词语、3行文本、5行文本、1个段落、2个段落或者其它取值等等。需要注意的是,所述目标词语可能会在所述法律文本库中多次出现,某一词语只要在任意一次与所述目标词语的间隔小于所述间隔阈值,即可作为所述目标词语的关联词语。
在确定出所述目标词语的各个关联词语之后,可以根据下式分别计算所述目标词语与各个关联词语之间的第一关联度:
其中,c为所述目标词语的各个关联词语的序号,1≤c≤CN,CN为所述目标词语的关联词语的总数,ConNumc为所述目标词语的第c个关联词语的有效频次,假设第c个关联词语在所述法律文本库出现的次数为Num,其中有Num1次与最接近的所述目标词语的间隔小于所述间隔阈值,则第c个关联词语的有效频次即为Num1,剩余的次数(Num-Num1)为无效频次,FtConnectc为所述目标词语与第c个关联词语之间的第一关联度。
步骤S1043、在预设的第二词语向量数据库中分别查询所述目标词语的词语向量,以及各个关联词语的词语向量。
步骤S1044、根据所述目标词语与各个关联词语之间的第一关联度,以及各个关联词语的词语向量,对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量。
具体地,可以首先根据下式分别计算所述目标词语与各个关联词语之间的第二关联度:
其中,d为词语向量的维度序号,1≤d≤DN,DN为词语向量的维度总数,TgtElmd为所述目标词语的词语向量在第d个维度上的取值,CntElmc,d为所述目标词语的第c个关联词语的词语向量在第d个维度上的取值,SdConnectc为所述目标词语与第c个关联词语之间的第二关联度;
然后,根据下式分别计算所述目标词语与各个关联词语之间的关联度误差:
ErrElmc=SdConnectc—FtConnectc
其中,ErrElmc为所述目标词语与第c个关联词语之间的关联度误差;
最后,根据下式对所述目标词语的词语向量进行更新计算:
其中,λ为预设的更新系数,可以根据实际情况对其取值进行设置,例如,可以将其设置为0.01、0.001或者其它取值等等,NwTgtElmd为所述目标词语的更新词语向量在第d个维度上的取值。
步骤S1045、将所述目标词语的更新词语向量添加入所述第一词语向量数据库中。
按照这样的方式,遍历所述法律文本库的所有词语,对各个词语的词语向量均进行更新,得到对应的更新词语向量,最后将所有词语的更新词语向量构造出最终的所述第一词语向量数据库。
步骤S105、根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离。
具体地,可以根据下式分别计算所述核心词子集与各个特征词集合之间的向量距离:
其中,k为所述核心词子集中的词语序号,1≤k≤KN,KN为所述核心词子集中的词语总数,t为各个存储分区的序号,1≤t≤TN,e为各个特征词集合中的词语序号,1≤e≤ENt,ENt为第t个特征词集合中的词语总数,第t个特征词集合为与第t个存储分区对应的特征词集合,KeyElmk,d为所述核心词子集中的第k个词语的词语向量在第d个维度上的取值,EigElmt,e,d为第t个特征词集合中的第e个词语的词语向量在第d个维度上的取值,Dist为所述核心词子集与第t个特征词集合之间的向量距离。
步骤S106、将所述法律文本存储入优选存储分区中。
所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。具体地,可以根据下式选取出所述法律文本所属的优选存储分区:
TgtLawDom=Argmin(DisSq)
=Argmin(Dis1,Dis2,......,Dist,......,DisTN)
其中,Argmin为最小自变量函数,DisSq为所述核心词子集的向量距离序列,且:DisSq=(Dis1,Dis2,......,Dist,......,DisTN),TgtLawDom为所述法律文本所属的优选存储分区的序号。
综上所述,在本发明实施例中,在接收到相关指令后,可以自动获取法律文本,并通过文本自动化分析的方式,自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集,借助于词语向量的形式计算得到所述核心词子集与各个特征词集合之间的向量距离,将其作为确定法律文本所应存储的存储分区的依据,选取与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区作为优选存储分区,并将法律文本存储入优选存储分区中。通过这样的方式,按照法律文本的实际核心内容进行存储,内容相似的法律文本会被存储入同一存储分区中,当用户需要查询相关资料时,仅需在对应的存储分区中进行查找即可,节省了对于人力成本的耗费,大大提高了工作效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种法律文本存储方法,图4示出了本发明实施例提供的一种法律文本存储装置的一个实施例结构图。
本实施例中,一种法律文本存储装置可以包括:
法律文本获取模块401,用于接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;
第一分词处理模块402,用于对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
核心词子集选取模块403,用于从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
第一词语向量查询模块404,用于分别获取与各个存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;
向量距离计算模块405,用于根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;
分区存储模块406,用于将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。
进一步地,所述法律文本存储装置还可以包括:
第二分词处理模块,用于对预设的法律文本库中的各条法律文本进行分词处理,得到组成所述法律文本库的各个词语;
第一关联度计算模块,用于确定目标词语的各个关联词语,并分别计算所述目标词语与各个关联词语之间的第一关联度,所述目标词语为组成所述法律文本库的任意一个词语;
第二词语向量查询模块,用于在预设的第二词语向量数据库中分别查询所述目标词语的词语向量,以及各个关联词语的词语向量;
更新计算模块,用于根据所述目标词语与各个关联词语之间的第一关联度,以及各个关联词语的词语向量,对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量;
向量添加模块,用于将所述目标词语的更新词语向量添加入所述第一词语向量数据库中。
进一步地,所述更新计算模块可以包括:
第一计算单元,用于根据下式分别计算所述目标词语与各个关联词语之间的第二关联度:
其中,c为所述目标词语的各个关联词语的序号,1≤c≤CN,CN为所述目标词语的关联词语的总数,d为词语向量的维度序号,1≤d≤DN,DN为词语向量的维度总数,TgtElmd为所述目标词语的词语向量在第d个维度上的取值,CntElmc,d为所述目标词语的第c个关联词语的词语向量在第d个维度上的取值,SdConnectc为所述目标词语与第c个关联词语之间的第二关联度;
第二计算单元,用于根据下式分别计算所述目标词语与各个关联词语之间的关联度误差:
ErrElmc=SdConnectc—FtConnectc
其中,FtConnectc为所述目标词语与第c个关联词语之间的第一关联度,ErrElmc为所述目标词语与第c个关联词语之间的关联度误差;
第三计算单元,用于根据下式对所述目标词语的词语向量进行更新计算:
其中,λ为预设的更新系数,NwTgtElmd为所述目标词语的更新词语向量在第d个维度上的取值。
进一步地,所述向量距离计算模块具体用于根据下式分别计算所述核心词子集与各个特征词集合之间的向量距离:
其中,k为所述核心词子集中的词语序号,1≤k≤KN,KN为所述核心词子集中的词语总数,t为各个存储分区的序号,1≤t≤TN,TN为存储分区的总数,e为各个特征词集合中的词语序号,1≤e≤ENt,ENt为第t个特征词集合中的词语总数,第t个特征词集合为与第t个存储分区对应的特征词集合,KeyElmk,d为所述核心词子集中的第k个词语的词语向量在第d个维度上的取值,EigElmt,e,d为第t个特征词集合中的第e个词语的词语向量在第d个维度上的取值,Dist为所述核心词子集与第t个特征词集合之间的向量距离。
进一步地,所述核心词子集选取模块可以包括:
词条密度计算单元,用于根据下式分别计算所述词语集合中的各个词语的词条密度:
其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度;
文本段落划分单元,用于将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况,FN为大于1的整数;
均匀度计算单元,用于根据下式分别计算所述词语集合中的各个词语的均匀度:
核心词子集选取单元,用于从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图5示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备5可包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52,例如执行上述的法律文本存储方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个法律文本存储方法实施例中的步骤,例如图1所示的步骤S101至S106。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至406的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种法律文本存储方法,其特征在于,包括:
接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
分别获取与各个预设的存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;
根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;
将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。
2.根据权利要求1所述的法律文本存储方法,其特征在于,所述第一词语向量数据库的设置过程包括:
对预设的法律文本库中的各条法律文本进行分词处理,得到组成所述法律文本库的各个词语;
确定目标词语的各个关联词语,并分别计算所述目标词语与各个关联词语之间的第一关联度,所述目标词语为组成所述法律文本库的任意一个词语;
在预设的第二词语向量数据库中分别查询所述目标词语的词语向量,以及各个关联词语的词语向量;
根据所述目标词语与各个关联词语之间的第一关联度,以及各个关联词语的词语向量,对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量;
将所述目标词语的更新词语向量添加入所述第一词语向量数据库中。
3.根据权利要求2所述的法律文本存储方法,其特征在于,所述对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量包括:
根据下式分别计算所述目标词语与各个关联词语之间的第二关联度:
其中,c为所述目标词语的各个关联词语的序号,1≤c≤CN,CN为所述目标词语的关联词语的总数,d为词语向量的维度序号,1≤d≤DN,DN为词语向量的维度总数,TgtElmd为所述目标词语的词语向量在第d个维度上的取值,CntElmc,d为所述目标词语的第c个关联词语的词语向量在第d个维度上的取值,SdConnectc为所述目标词语与第c个关联词语之间的第二关联度;
根据下式分别计算所述目标词语与各个关联词语之间的关联度误差:
ErrElmc=SdConnectc—FtConnectc
其中,FtConnectc为所述目标词语与第c个关联词语之间的第一关联度,ErrElmc为所述目标词语与第c个关联词语之间的关联度误差;
根据下式对所述目标词语的词语向量进行更新计算:
其中,λ为预设的更新系数,NwTgtElmd为所述目标词语的更新词语向量在第d个维度上的取值。
4.根据权利要求1所述的法律文本存储方法,其特征在于,所述分别计算所述核心词子集与各个特征词集合之间的向量距离包括:
根据下式分别计算所述核心词子集与各个特征词集合之间的向量距离:
其中,k为所述核心词子集中的词语序号,1≤k≤KN,KN为所述核心词子集中的词语总数,t为各个存储分区的序号,1≤t≤TN,TN为存储分区的总数,e为各个特征词集合中的词语序号,1≤e≤ENt,ENt为第t个特征词集合中的词语总数,第t个特征词集合为与第t个存储分区对应的特征词集合,KeyElmk,d为所述核心词子集中的第k个词语的词语向量在第d个维度上的取值,EigElmt,e,d为第t个特征词集合中的第e个词语的词语向量在第d个维度上的取值,Dist为所述核心词子集与第t个特征词集合之间的向量距离。
5.根据权利要求1至4中任一项所述的法律文本存储方法,其特征在于,从所述词语集合中选取核心词子集包括:
根据下式分别计算所述词语集合中的各个词语的词条密度:
其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度;
将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况,FN为大于1的整数;
根据下式分别计算所述词语集合中的各个词语的均匀度:
其中,f为所述法律文本的各个文本段落的序号,1≤f≤FN,Flagw,f为所述词语集合中的第w个词语在第f个文本段落中的出现情况的标志位,且WdEquw为所述词语集合中的第w个词语的均匀度;
从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
6.一种法律文本存储装置,其特征在于,包括:
法律文本获取模块,用于接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;
第一分词处理模块,用于对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
核心词子集选取模块,用于从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
第一词语向量查询模块,用于分别获取与各个存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;
向量距离计算模块,用于根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;
分区存储模块,用于将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。
7.根据权利要求6所述的法律文本存储装置,其特征在于,还包括:
第二分词处理模块,用于对预设的法律文本库中的各条法律文本进行分词处理,得到组成所述法律文本库的各个词语;
第一关联度计算模块,用于确定目标词语的各个关联词语,并分别计算所述目标词语与各个关联词语之间的第一关联度,所述目标词语为组成所述法律文本库的任意一个词语;
第二词语向量查询模块,用于在预设的第二词语向量数据库中分别查询所述目标词语的词语向量,以及各个关联词语的词语向量;
更新计算模块,用于根据所述目标词语与各个关联词语之间的第一关联度,以及各个关联词语的词语向量,对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量;
向量添加模块,用于将所述目标词语的更新词语向量添加入所述第一词语向量数据库中。
8.根据权利要求7所述的法律文本存储装置,其特征在于,所述更新计算模块包括:
第一计算单元,用于根据下式分别计算所述目标词语与各个关联词语之间的第二关联度:
其中,c为所述目标词语的各个关联词语的序号,1≤c≤CN,CN为所述目标词语的关联词语的总数,d为词语向量的维度序号,1≤d≤DN,DN为词语向量的维度总数,TgtElmd为所述目标词语的词语向量在第d个维度上的取值,CntElmc,d为所述目标词语的第c个关联词语的词语向量在第d个维度上的取值,SdConnectc为所述目标词语与第c个关联词语之间的第二关联度;
第二计算单元,用于根据下式分别计算所述目标词语与各个关联词语之间的关联度误差:
ErrElmc=SdConnectc—FtConnectc
其中,FtConnectc为所述目标词语与第c个关联词语之间的第一关联度,ErrElmc为所述目标词语与第c个关联词语之间的关联度误差;
第三计算单元,用于根据下式对所述目标词语的词语向量进行更新计算:
其中,λ为预设的更新系数,NwTgtElmd为所述目标词语的更新词语向量在第d个维度上的取值。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的法律文本存储方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的法律文本存储方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826805.4A CN110765230B (zh) | 2019-09-03 | 2019-09-03 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
PCT/CN2019/116635 WO2021042511A1 (zh) | 2019-09-03 | 2019-11-08 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826805.4A CN110765230B (zh) | 2019-09-03 | 2019-09-03 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765230A true CN110765230A (zh) | 2020-02-07 |
CN110765230B CN110765230B (zh) | 2022-08-09 |
Family
ID=69329300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910826805.4A Active CN110765230B (zh) | 2019-09-03 | 2019-09-03 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110765230B (zh) |
WO (1) | WO2021042511A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495954A (zh) * | 2020-03-20 | 2021-10-12 | 北京沃东天骏信息技术有限公司 | 一种文本数据确定方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0750266B1 (en) * | 1995-06-19 | 2001-06-20 | Sharp Kabushiki Kaisha | Document classification unit and document retrieval unit |
US6772149B1 (en) * | 1999-09-23 | 2004-08-03 | Lexis-Nexis Group | System and method for identifying facts and legal discussion in court case law documents |
US20140181109A1 (en) * | 2012-12-22 | 2014-06-26 | Industrial Technology Research Institute | System and method for analysing text stream message thereof |
US20150113388A1 (en) * | 2013-10-22 | 2015-04-23 | Qualcomm Incorporated | Method and apparatus for performing topic-relevance highlighting of electronic text |
CN106407442A (zh) * | 2016-09-28 | 2017-02-15 | 中国银行股份有限公司 | 一种海量文本数据处理方法及装置 |
CN108345580A (zh) * | 2017-01-22 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种词向量处理方法及装置 |
CN109408639A (zh) * | 2018-10-31 | 2019-03-01 | 广州虎牙科技有限公司 | 一种弹幕分类方法、装置、设备和存储介质 |
CN109408636A (zh) * | 2018-09-29 | 2019-03-01 | 新华三大数据技术有限公司 | 文本分类方法及装置 |
US20190108276A1 (en) * | 2017-10-10 | 2019-04-11 | NEGENTROPICS Mesterséges Intelligencia Kutató és Fejlesztõ Kft | Methods and system for semantic search in large databases |
CN109840051A (zh) * | 2018-12-27 | 2019-06-04 | 华为技术有限公司 | 一种存储系统的数据存储方法及装置 |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI475412B (zh) * | 2012-04-02 | 2015-03-01 | Ind Tech Res Inst | 數位內容次序調整方法和數位內容匯流器 |
CN107885749B (zh) * | 2016-09-30 | 2022-01-11 | 南京理工大学 | 本体语义扩展与协同过滤加权融合的工艺知识检索方法 |
CN108804617B (zh) * | 2018-05-30 | 2021-08-10 | 广州杰赛科技股份有限公司 | 领域术语抽取方法、装置、终端设备及存储介质 |
CN109388712A (zh) * | 2018-09-21 | 2019-02-26 | 平安科技(深圳)有限公司 | 一种基于机器学习的行业分类方法及终端设备 |
-
2019
- 2019-09-03 CN CN201910826805.4A patent/CN110765230B/zh active Active
- 2019-11-08 WO PCT/CN2019/116635 patent/WO2021042511A1/zh active Application Filing
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0750266B1 (en) * | 1995-06-19 | 2001-06-20 | Sharp Kabushiki Kaisha | Document classification unit and document retrieval unit |
US6772149B1 (en) * | 1999-09-23 | 2004-08-03 | Lexis-Nexis Group | System and method for identifying facts and legal discussion in court case law documents |
US20140181109A1 (en) * | 2012-12-22 | 2014-06-26 | Industrial Technology Research Institute | System and method for analysing text stream message thereof |
US20150113388A1 (en) * | 2013-10-22 | 2015-04-23 | Qualcomm Incorporated | Method and apparatus for performing topic-relevance highlighting of electronic text |
CN106407442A (zh) * | 2016-09-28 | 2017-02-15 | 中国银行股份有限公司 | 一种海量文本数据处理方法及装置 |
CN108345580A (zh) * | 2017-01-22 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种词向量处理方法及装置 |
US20190108276A1 (en) * | 2017-10-10 | 2019-04-11 | NEGENTROPICS Mesterséges Intelligencia Kutató és Fejlesztõ Kft | Methods and system for semantic search in large databases |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
CN109408636A (zh) * | 2018-09-29 | 2019-03-01 | 新华三大数据技术有限公司 | 文本分类方法及装置 |
CN109408639A (zh) * | 2018-10-31 | 2019-03-01 | 广州虎牙科技有限公司 | 一种弹幕分类方法、装置、设备和存储介质 |
CN109840051A (zh) * | 2018-12-27 | 2019-06-04 | 华为技术有限公司 | 一种存储系统的数据存储方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495954A (zh) * | 2020-03-20 | 2021-10-12 | 北京沃东天骏信息技术有限公司 | 一种文本数据确定方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110765230B (zh) | 2022-08-09 |
WO2021042511A1 (zh) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162695B (zh) | 一种信息推送的方法及设备 | |
CN109190023B (zh) | 协同推荐的方法、装置及终端设备 | |
CN110390044B (zh) | 一种相似网络页面的搜索方法及设备 | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
CN112559895B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
CN110569289B (zh) | 基于大数据的列数据处理方法、设备及介质 | |
CN112199588A (zh) | 舆情文本筛选方法及装置 | |
CN108710664B (zh) | 一种热词分析方法、计算机可读存储介质及终端设备 | |
Heaukulani et al. | The combinatorial structure of beta negative binomial processes | |
CN110765230B (zh) | 一种法律文本存储方法、装置、可读存储介质及终端设备 | |
CN115630144A (zh) | 一种文档搜索方法、装置及相关设备 | |
CN108628875B (zh) | 一种文本标签的提取方法、装置及服务器 | |
CN109462635B (zh) | 一种信息推送方法、计算机可读存储介质及服务器 | |
CN112613296A (zh) | 新闻的重要程度获取方法、装置、终端设备及存储介质 | |
WO2018044955A1 (en) | Systems and methods for measuring collected content significance | |
CN113761084A (zh) | 一种poi搜索排序模型训练方法、排序装置与方法及介质 | |
CN110750493B (zh) | 一种法律文本归档方法、装置、可读存储介质及终端设备 | |
CN115438155A (zh) | 一种基于相关性和重要性的文献搜索排序方法及电子设备 | |
CN113392184A (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
CN114691835A (zh) | 基于文本挖掘的审计计划数据生成方法、装置和设备 | |
CN114881761A (zh) | 相似样本的确定方法与授信额度的确定方法 | |
CN111598704A (zh) | 面向风投机构联合投资的关联性处理方法、装置和设备 | |
WO2023246954A1 (zh) | 物品推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |