CN113761928A

CN113761928A - 一种基于词频打分算法获取法律文书案件地点的方法

Info

Publication number: CN113761928A
Application number: CN202111058173.5A
Authority: CN
Inventors: 汪天翔; 张雨侠; 吴雨豪
Original assignee: Shenzhen Research Institute of Big Data SRIBD
Current assignee: Shenzhen Research Institute of Big Data SRIBD
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-07

Abstract

本发明公开了一种基于词频打分算法获取法律文书案件地点的方法，先使用传统特征工程进行数据清洗和规则化，再通过TF‑IDF和权重矫正算法给地理句子打分，最终再通过多标签体系找到详细的位置，可以有效提高法律文书犯罪地点提取的准确性。

Description

一种基于词频打分算法获取法律文书案件地点的方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于词频打分算法获取法律文书案件地点的方法。

背景技术

NLP(Natural Language Processing)即自然语言处理，是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

在我国司法公开的大背景下，对于法律文书的研究成为了学界业界十分重要的一个课题，而对于文书中提到的案件发生的地理位置也是一个十分重要的变量，其可以用来分析区域民事纠纷、犯罪地点的分布情况。但是由于自然语言规律比较庞杂，单纯使用传统的正则提取十分困难。

发明内容

针对现有技术的不足，本发明旨在提供一种基于词频打分算法获取法律文书案件地点的方法，使用词频融合的算法来来进行文本提取，解决信息提取不准确的问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于词频打分算法获取法律文书案件地点的方法，具体过程为：

S1、将待处理的司法文书采用分类算法分成设定的各种文书类型；

S2、将经过分类后的司法文书进行特征提取，获得待处理司法文书中包含地理位置的句子列表和受理法院名称的信息；

S3、通过top10和top1的TF-IDF融合算法得到待处理司法文书的句子列表中每个句子的评分；具体过程为：

S3.1、对每一种文书类型均找到2000份该文书类型下的司法文书样本；

S3.2、对每种文书类型，均将每份司法文书样本进行分句，然后将分句中的含有地理位置的句子筛选出来，再人工给这些句子打分；打分标准为：将地理位置从低到高分为省、市、区/县、街道、小区、楼宇信息、房间信息七个等级，等级越高，分数的权重越高，每个句子的分数为该句子中含有的地理位置中所有等级的分数总和；完成人工打分后，对每份司法文书均找出含有地理位置的分数最高的前10个句子和其中分数最高的句子；

S3.3、对于每种文书类型，均将每份司法文书样本的最高分的10个句子进行分词，然后通过TF-IDF词频算法得到每个词语的分数；计算公式如下：

TF词频公式为：

IDF逆词频公式为:

TF-IDF最终的公式为：tfidf_i，j＝tf_i，j×idf_i；

其中，n_k，j是词语t_i在文书d_j中的出现次数，∑_kn_k，j是在文书d_j中所有词语的出现次数之和；|D|为文书总数，|{j：ti∈d_j}|为包含词语t_i的文书数目；

S3.4、对于每种文书类型，均对每份司法文书样本里面的最高分句子进行分词，也通过TF-IDF词频算法得到每个词语的分数；

S3.5、形成每种文书类型的地理词库打分算法，每种文书类型的地理词库打分算法中，每个词语的分数由步骤S3.3中获得的该词语的分数和步骤S3.4中获得的该词语的分数各占50％权重加总得出；

S3.6、将步骤S2获得的司法文书的包含地理位置的句子列表中每一个句子进行分词，并根据其所属的文书类型利用步骤S5形成的相应的地理词库打分算法对句子中的各个词语进行打分并加总得到该句子的最终分数，从而得到一个得分最高的句子，然后跳转至步骤S4；

S4、对待处理司法文书的评分最高的句子进行地理位置的特征提取，得到该司法文书的案件地点；具体过程为：

S4.1、利用步骤S2获得的受理法院名称，获得该受理法院名称的地理位置信息；

S4.2、对步骤S3.6获得的得分最高的句子中的地理位置，通过全国的省市区词库找到对应的省、市、县，通过详细地址的词库找到这个句子里面提到的街道、小区、酒店的相关详细地址信息；

S4.3、融合步骤S4.1和步骤S4.2得到的地理信息，通过校验和拼接，得到最终的案件地点。

进一步地，步骤S1的具体过程为：

以待处理的司法文书作为输入，先根据司法文书的标题初步判断其属于哪种类型，如果根据标题无法识别出其文书类型，进一步通过各种文书类型对应的案由关键词库对于该司法文书进行二次划分，最终将输入的司法文书进行分类。

进一步地，步骤S2的具体过程为：

S2.1、从待处理司法文书的正文中将受理法院名称通过特征工程提取出来；

S2.2、对待处理司法文书的正文进行分句，得到一个初始句子列表，然后通过现有的地理词库和自行搜集构建的地理词库，判断每个句子中是否包含地理位置，如果没有则丢弃该句子，如果有则存留下来，最终过滤得到一个该司法文书的包含地理位置的句子列表。

进一步地，步骤S3.2中，每一个等级所得的分数为2^x，，x表示等级，省、市、区/县、街道、小区、楼宇信息、房间信息的等级x分别为0,1,2，…，6。

本发明提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

本发明提供一种设备，包括处理器和存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序时，实现上述方法。

本发明的有益效果在于：本发明对司法文书中的案件地理位置提取的时候，通过TF-IDF和权重矫正算法给地理句子打分，最终再通过多标签体系找到详细的位置，可以有效提高法律文书犯罪地点提取的准确性。

附图说明

图1为本发明实施例方法的总体流程示意图；

图2为本发明实施例方法中步骤S1的流程示意图；

图3为本发明实施例方法中步骤S2的流程示意图；

图4为本发明实施例方法中步骤S3的流程示意图；

图5为本发明实施例方法中步骤S4的流程示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本实施例提供一种基于词频打分算法获取法律文书案件地点的方法，如图1所示，具体过程为：

S1、将待处理的司法文书采用分类算法分成刑事、民事、行政、执行等各种文书类型；

S2、将经过分类后的司法文书进行特征提取，获得待处理司法文书中包含地理位置的句子列表和受理法院名称等相关信息；

S3、通过top10和top1的TF-IDF融合算法得到待处理司法文书的句子列表中每个句子的评分；

S4、对待处理司法文书的评分最高的句子进行地理位置的特征提取，得到该司法文书的案件地点。

进一步地，如图2所示，步骤S1的具体过程为：

以待处理的司法文书作为输入，先根据司法文书的标题初步判断其属于哪种类型，如果根据标题无法识别出其文书类型，进一步通过各种文书类型对应的案由关键词库对于该司法文书进行二次划分，最终将输入的司法文书进行分类。先对司法文书进行分类的目的在于方便后续过程对不同格式的文书进行区分处理。

进一步地，如图3所示，步骤S2的具体过程为：

进一步地，如图4所示，步骤S3的具体过程为：

S3.1、对每一种文书类型均找到2000份该文书类型下的司法文书样本。

S3.2、对每种文书类型，均将每份司法文书样本进行分句，然后将分句中的含有地理位置的句子筛选出来，再人工给这些句子打分；打分标准为：将地理位置从低到高分为省、市、区/县、街道、小区、楼宇信息、房间信息七个等级，等级越高，分数的权重越高，每个句子的分数为该句子中含有的地理位置中所有等级的分数总和；完成人工打分后，对每份司法文书均找出含有地理位置的分数最高的前10个句子(不足的后面留空)和分数最高的句子(即前面10个句子中分数最高的句子)。

在本实施例中，每一个等级所得的分数为2^x，，x表示等级，省、市、区/县、街道、小区、楼宇信息、房间信息的等级x分别为0，1，2，…，6。例如，省为2^0＝1，那么市即为2^1＝2，如果一个句子中含有的地理位置包括有省、市、区/县，则该句子的分数就是2^0+2^1+2^2＝7，这样就可以对于句子有一个初步的打分。

TF词频公式为：

IDF逆词频公式为：

TF-IDF最终的公式为：tfidf_i，j＝tf_i，j×idf_i；

其中，n_i，j是词语t_i在文书d_j中的出现次数，∑_kn_k，j是在文书d_j中所有词语的出现次数之和；|D|为文书总数，|{j：t_i∈d_j}|为包含词语t_i的文书数目(即n_i，j≠0的文书数目)。

例如，在某个一共有100词的句子中“街道”、“的”和“抓获”分别出现了1次、5次和2次，分词文书句子总量正好是20000(2000*10)；"的"在15000个句子中出现过；“街道”在300个句子中出现过，“抓获”在500的句子中出现，如果新输入的句子是：‘李某在广东省龙岗区的惠盐街道抢劫被抓获’，通过分词找到了里面的关键词‘街道’，‘的’，‘抓获’几个关键词，首先计算TF(词频)：街道：0.015；的：0.75；应用：0.025；然后计算IDF(逆文档频率)：街道：log(20000/300)＝1.8239；的：log(20000/15000)＝0.1249；应用：log(20000/500)＝1.6020；最后该句子计算的TF-IDF＝0.015*1.8239+0.75*0.1249+0.025*1.602＝0.1610。

S3.6、将步骤S2获得的司法文书的包含地理位置的句子列表中每一个句子进行分词，并根据其所属的文书类型利用步骤S5形成的相应的地理词库打分算法对句子中的各个词语进行打分并加总得到该句子的最终分数，从而得到一个得分最高的句子，然后跳转至步骤S4。

进一步地，如图5所示，步骤S4的具体过程为：

S4.2、对步骤S3.6获得的得分最高的句子中的地理位置，通过全国的省市区词库找到对应的省、市、县，通过详细地址的词库找到这个句子里面提到的如街道、小区、酒店的相关详细地址信息。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种基于词频打分算法获取法律文书案件地点的方法，其特征在于，具体过程为：

TF词频公式为：

IDF逆词频公式为:

TF-IDF最终的公式为:tfidf_i,j＝tf_i,j×idf_i；

其中，n_i,j是词语t_i在文书d_j中的出现次数，∑_kn_k,j是在文书d_j中所有词语的出现次数之和；|D|为文书总数，|{j：t_i∈d_j}|为包含词语t_i的文书数目；

2.根据权利要求1所述的方法，其特征在于，步骤S1的具体过程为：

3.根据权利要求1所述的方法，其特征在于，步骤S2的具体过程为：

4.根据权利要求1所述的方法，其特征在于，步骤S3.2中，每一个等级所得的分数为2^x，，x表示等级，省、市、区/县、街道、小区、楼宇信息、房间信息的等级x分别为0,1,2，…，6。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法。

6.一种设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序时，实现权利要求1-4任一所述的方法。