CN110309393B

CN110309393B - 数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN110309393B
Application number: CN201910244278.6A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2023-06-20
Anticipated expiration: 2039-03-28
Also published as: CN110309393A

Abstract

本发明涉及大数据技术领域，公开了一种数据处理方法，包括：采集指定法律网站的法律文书数据；对法律文书数据进行实体关系抽取处理，得到法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系；采用正则表达式识别法律文书数据中各命名实体对象对应的实体属性；以各法律知识点对应的命名实体对象、实体属性以及实体关系为源数据，构建基于图数据库的法律知识结构图；以法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索。本发明还公开了一种数据处理装置、设备及计算机可读存储介质。本发明构建的法律知识图谱汇集了法律领域的基本知识，有助于提高法律人员对于法律知识的检索效率。

Description

数据处理方法、装置、设备及可读存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种数据处理方法、装置、设备及计算机可读存储介质。

背景技术

当今，随着用户对于法律领域专业知识需求持续增长，目前主要从专业法律书籍以及相关法律文书材料中检索法律知识，检索方式不够便捷，因而难以快速准确的获得专业的法律知识。

此外，尽管某些法律类网站提供有线上知识回答类服务，但这类资源也大都比较分散、不够集中，因而也难以实现快速检索功能。这对于当前用户日益增长的法律专业知识的检索需求已成为目前亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种数据处理方法、装置、设备及计算机可读存储介质，旨在解决如何提升法律专业知识检索效率的技术问题。

为实现上述目的，本发明提供一种数据处理方法，应用于法律文书数据处理，所述数据处理方法包括以下步骤：

通过网络爬虫技术，采集指定法律网站的法律文书数据；

对所述法律文书数据进行实体关系抽取处理，得到所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系；

根据各法律知识点的命名实体对象，采用正则表达式识别所述法律文书数据中各命名实体对象对应的实体属性；

以各法律知识点对应的命名实体对象、实体属性以及实体关系为源数据，构建基于图数据库的法律知识结构图；

以所述法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索。

可选地，所述通过网络爬虫技术，采集指定法律网站的法律文书数据包括：

以Docker容器为部署媒介，部署预设的爬虫代码程序；

执行所述爬虫代码程序，以爬取指定法律网站的相关内容，所述相关内容包括文章标题、正文内容、发布时间以及作者；

将爬取到的不同网页的所述相关内容作为法律文书数据分别独立存储。

可选地，所述对所述法律文书数据进行实体关系抽取处理，得到所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系包括：

对所述法律文书数据进行分句与切词，得到每个语句对应的单词序列；

使用预置的组合词性标注器对各单词序列进行词性标注，得到各单词序列的词性标注结果；

根据所述词性标注结果与预置依存标注表，标识各单词序列中各单词之间的依存关系；

基于各单词序列中各单词之间的依存关系，构建对应的句法分析树；

遍历所述句法分析树，并基于预置的中文语法规则，识别所述句法分析树中的核心词以及所述核心词对应的主语和宾语；

以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体三元组，其中，所述实体三元组用于描述所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系。

可选地，所述以所述法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索包括：

以所述法律知识结构图为数据库，提取所述法律知识结构图中法条法规对应的命名实体对象与实体属性；

基于提取的法条法规对应的命名实体对象与实体属性，创建法律知识点查询页面，以供进行法规法条检索；以及

以所述法律知识结构图为数据库，基于所述法律知识结构图中判决案件的实体属性，提取判决案件的核心要素以及判决结果，其中，所述核心要素信息包括犯案人基本信息、犯案行为信息、案件内容信息；

以所述核心要素为模型输入训练样本、以所述判决结果为模型输出训练样本，采用深度神经网络算法，构建相似案件查询模型；

基于所述相似案件查询模型，创建相似案件查询页面，以供进行相似案件检索。

进一步地，为实现上述目的，本发明还提供一种数据处理装置，应用于法律文书数据处理，所述法律文书数据处理装置包括：

采集模块，用于通过网络爬虫技术，采集指定法律网站的法律文书数据；

抽取模块，用于对所述法律文书数据进行实体关系抽取处理，得到所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系；

识别模块，用于根据各法律知识点的命名实体对象，采用正则表达式识别所述法律文书数据中各命名实体对象对应的实体属性；

构建模块，用于以各法律知识点对应的命名实体对象、实体属性以及实体关系为源数据，构建基于图数据库的法律知识结构图；

创建模块，用于以所述法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索。

可选地，所述采集模块包括：

部署单元，用于以Docker容器为部署媒介，部署预设的爬虫代码程序；

爬取单元，用于执行所述爬虫代码程序，以爬取指定法律网站的相关内容，所述相关内容包括文章标题、正文内容、发布时间以及作者；

保存单元，用于将爬取到的不同网页的所述相关内容作为法律文书数据分别独立存储。

可选地，所述抽取模块包括：

切词单元，用于对所述法律文书数据进行分句与切词，得到每个语句对应的单词序列；

标注单元，用于使用预置的组合词性标注器对各单词序列进行词性标注，得到各单词序列的词性标注结果；

标识单元，用于根据所述词性标注结果与预置依存标注表，标识各单词序列中各单词之间的依存关系；

构建单元，用于基于各单词序列中各单词之间的依存关系，构建对应的句法分析树；

遍历单元，用于遍历所述句法分析树，并基于预置的中文语法规则，识别所述句法分析树中的核心词以及所述核心词对应的主语和宾语；

构建单元，用于以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体三元组，其中，所述实体三元组用于描述所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系。

可选地，所述创建模块包括：

第一创建单元，用于以所述法律知识结构图为数据库，提取所述法律知识结构图中法条法规对应的命名实体对象与实体属性；基于提取的法条法规对应的命名实体对象与实体属性，创建法律知识点查询页面，以供进行法规法条检索；以及

第二创建单元，用于以所述法律知识结构图为数据库，基于所述法律知识结构图中判决案件的实体属性，提取判决案件的核心要素以及判决结果；以所述核心要素为模型输入训练样本、以所述判决结果为模型输出训练样本，采用深度神经网络算法，构建相似案件查询模型；基于所述相似案件查询模型，创建相似案件查询页面，以供进行相似案件检索，其中，所述核心要素信息包括犯案人基本信息、犯案行为信息、案件内容信息。

进一步地，为实现上述目的，本发明还提供一种数据处理设备，所述数据处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行时实现如上述任一项所述的数据处理方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上述任一项所述的数据处理方法的步骤。

本发明通过网络爬虫技术采集指定法律网站的法律文书数据，并对法律文书数据进行加工整理以形成法律知识结构图；然后再基于法律知识结构图，创建查询页面，以供用户进行法律知识检索，比如基本法律知识点检索以及相似案件检索等。通过爬取方式采集法律文书数据，因而采集到的法律文书数据能够满足一般用户对于法律知识的查询需求。此外，本发明将法律知识结构图作为法律查询服务的检索数据库，这不仅能够提供海量法律知识，同时还能为用户提供更高效快速的法律知识查询服务，进而提高了用户对法律知识的检索效率。

附图说明

图1为本发明实施例方案涉及的数据处理设备运行环境的结构示意图；

图2为本发明数据处理方法一实施例的流程示意图；

图3为图2中步骤S10的细化流程示意图；

图4为图2中步骤S20的细化流程示意图；

图5为本发明数据处理装置一实施例的功能模块示意图；

图6为图5中采集模块10一实施例的细化功能模块示意图；

图7为图5中抽取模块20一实施例的细化功能模块示意图；

图8为图5中创建模块50一实施例的细化功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种数据处理设备。

参照图1，图1为本发明实施例方案涉及的数据处理设备运行环境的结构示意图。

如图1所示，该数据处理设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的数据处理设备的硬件结构并不构成对数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。其中，操作系统是管理和控制数据处理设备和软件资源的程序，支持数据处理程序以及其它软件和/或程序的运行。

在图1所示的数据处理设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的数据处理程序，并执行以下数据处理方法的各实施例的操作。

基于上述数据处理设备硬件结构，提出本发明数据处理方法的各个实施例。

参照图2，图2为本发明数据处理方法一实施例的流程示意图。本实施例中，所述数据处理方法包括以下步骤：

步骤S10，通过网络爬虫技术，采集指定法律网站的法律文书数据；

通过网络爬虫技术可以将互联网中数以百亿计的网页信息保存到本地。具体为通过爬虫代码程序模拟浏览器向网络服务器发送请求，以便将网络资源从网络流中读取出来并保存到本地，此外，还进一步基于相关信息提取规则，从爬取的信息中提取用户需要的信息。

本实施例中，基于爬取的网站类型的不同，因此采集的法律文书数据内容亦不相同。比如，从法院判决网站中爬取数据，则采集的内容为案件信息，比如犯罪人信息、犯罪事由、惩罚内容等。而如果是从法律文件、法条等网站中爬取数据，则采集的内容为法律知识，比如法条法规。基于爬取的内容的不同，因此构建的法律知识图谱亦不相同。

本实施例中，对于爬取方式不限。优选通过Docker容器作为媒介部署指定的爬虫程序，以爬取指定的网站内容。例如爬取法律网站中的文章标题、正文内容、发布时间、作者等内容。爬取的网站包括指定的公示网站以及通过搜索引擎搜索到的网站。

步骤S20，对所述法律文书数据进行实体关系抽取处理，得到所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系；

为便于进行法律知识检索，因此需要预先获得法律知识点以及各法律知识点之间的实体关系，本实施例中具体采用自然语言处理技术进行实体关系抽取处理，也即抽取出法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系。

自然语言处理技术(Natural Language Processing，NLP)的主要目的在于帮助机器更好地理解人的语言，包括基础的词法、句法等语义理解，以及需求、情感等高层面的理解，进而弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。

本实施例中，在爬取到网站中预先指定的相关内容后，需要通过自然语言处理技术从爬取的内容中抽取法律知识点，例如，抽取判决案件、法律知识条规、法律常用词和常用问答以及相关引用的法律文献内容等。

本实施例通过基于自然语言处理的知识抽取技术，获取对应的案件详情、法律专有名词以及常用法律概念等知识点。具体基于法律知识中的法律名称、触发条件以及触发范围，或者基于判决案件名称、犯罪事由、判决结果，从爬取的网站内容中进行知识点抽取。

步骤S30，根据各法律知识点的命名实体对象，采用正则表达式识别所述法律文书数据中各命名实体对象对应的实体属性；

本实施例中，为构建法律知识结构图，在抽取出法律文书数据中各法律知识点的命名实体对象后，进一步采用正则表达式识别出法律文书数据中各命名实体对象对应的实体属性。

正则表达式描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，则认为该字符串与正则表达式“匹配”。

本实施例中预先编写出可用于识别法律文书数据中命名实体对象的实体属性的正则表达式模式，一个正则表达式模式可以是由简单的字符构成，也可以是由多种字符、不同方法组合而成。

例如，法条法规中通常都有如下表达方式：犯XX罪的，应当XXX，或者责令XXX，则可设置与上述表达方式相匹配的正则表达式模式，进而识别出法条法规中具体属性内容的表达方式。

步骤S40，以各法律知识点对应的命名实体对象、实体属性以及实体关系为源数据，构建基于图数据库的法律知识结构图；

本实施例中，以各法律知识点对应的命名实体对象、实体属性以及实体关系为源数据，构建基于图数据库的法律知识结构图，比如构建法律知识图谱。同时，基于抽取到的法律知识点类型的不同，对应构建不同的法律知识结构图，进而可提供多种法律检索服务功能。

(1)抽取的知识点为法条法规知识，则以法条法规知识为主体，基于法条法规对应的命名实体对象、实体属性以及实体关系，构建基于图数据库的法律结构图。

(2)抽取的知识点为判决案件信息，则以案件信息为主体，基于判决案件对应的命名实体对象、实体属性以及实体关系，构建基于图数据库的法律结构图。由于以案件信息为知识图谱的主体，因此可提供相似案件检索功能，以供用户进行类案参考。

本实施例中，具体基于上述实施例中识别和抽取得到的实体内容+属性内容+不同实体之间的关系，构建基于图数据库的法律结构图，也即法律知识图谱，其中，图数据库优选使用Neo4j图数据库。

步骤S50，以所述法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索。

本实施例中，基于构建的法律知识图谱中主体内容的不同，因此可创建不同法律知识的查询页面，以供用户进行不同法律知识内容检索。例如，既可以提供基本的法律知识点检索，还可以提供相似案件检索，从而为用户提供更全面高效的信息检索服务。

本实施例通过网络爬虫技术采集指定法律网站的法律文书数据，并对法律文书数据进行加工整理以形成法律知识结构图；然后再基于法律知识结构图，创建查询页面，以供用户进行法律知识检索，比如基本法律知识点检索以及相似案件检索等。通过爬取方式采集法律文书数据，因而采集到的法律文书数据能够满足一般用户对于法律知识的查询需求。此外，本实施例将法律知识结构图作为法律查询服务的检索数据库，这不仅能够提供海量法律知识，同时还能为用户提供更高效快速的法律知识查询服务，进而提高了用户对法律知识的检索效率。

参照图3，图3为图2中步骤S10的细化流程示意图。本实施例中，上述步骤S10进一步包括：

步骤S101，以Docker容器为部署媒介，部署预设的爬虫代码程序；

步骤S102，执行所述爬虫代码程序，以爬取指定法律网站的相关内容，所述相关内容包括文章标题、正文内容、发布时间以及作者；

步骤S103，将爬取到的不同网页的所述相关内容作为法律文书数据分别独立存储。

Docker容器是一个开源的应用容器引擎，可以将应用程序或代码程序打包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化。本实施例优选以Docker容器为部署媒介，开发人员预先将包含有爬虫代码程序的多个不同Docker容器上传至云服务器中，然后使用法律文书数据处理设备从云服务器上下载指定的Docker容器到本地，从而实现在法律文书数据处理设备中部署预设的爬虫代码程序。

本实施例中所述的爬虫代码程序是指沿着链接漫游Web文档集合的程序。通过给定的URL，利用HTTP等标准协议读取相应文档，然后以文档中包括的所有未访问过的URL作为新的起点，继续进行漫游，直到没有满足条件的新URL为止，其功能是自动从Internet网络上的各Web站点抓取Web文档并从该Web文档中提取相关信息，比如文章标题、正文内容、发布时间以及作者等。

本实施例中，法律文书数据处理设备通过执行下载的Docker容器中的爬虫代码程序，以爬取指定法律网站的相关内容，爬取的URL包括指定的公示网站以及通过搜索引擎搜索到的网站对应的URL。爬取的网页相关内容包括文章标题、正文内容、发布时间以及作者等。

本实施例中，为便于后续数据处理，优选将爬取到的不同网页的相关内容作为法律文书数据分别独立存储。比如，从网页A中爬取的内容存储在一个文件中，而从网页B中爬取的内容存储在另一个文件中。此外，对于法律文书数据的存储格式不限，比如纯文本格式、XML格式、JSON格式等。

参照图4，图4为图2中步骤S20的细化流程示意图。本实施例中，上述步骤S20进一步包括：

步骤S201，对所述法律文书数据进行分句与切词，得到每个语句对应的单词序列；

本实施例中，为更好地识别出法律文书数据中的命名实体对象以及实体关系，因此需要预先对所有法律文书数据进行分句，具体以逗号、句号为标识进行语句划分，进而将整篇文档内容划分为多个语句。同时还进一步通过切词操作将各单个语句切分为一个单词序列，该单词序列中包含有多个顺序排列的单词。例如使用jieba分词方式将一条语句划分为多个顺序排列的单词。

步骤S201，使用预置的组合词性标注器对各单词序列进行词性标注，得到各单词序列的词性标注结果；

词性是指以词的特点作为划分词类的根据。比如，动词、形容词、连词、限定词、名词、数词、代词等。在不同使用环境中，相同的词具有不同的词性。词性标注器是一种词性标记工具，可用于处理一个词序列，以为每个词附加一个词性标记。例如，使用基于隐马尔可夫模型的词性标注器对词序列进行标记，或者使用基于神经网络算法的词性标注器对词序列进行标记。

本实施例中采用的组合词性标注器包含有多个词性标注器，比如正则表达式标注器、bigram标注器、unigram标注器等。例如，先尝试使用正则表达式标注器对词序列进行标记，如果正则表达式标注器无法找到一个标记，则尝试使用bigram标注器对词序列进行标记，以此类推，从而得到各单词序列的词性标注结果。

步骤S202，根据所述词性标注结果与预置依存标注表，标识各单词序列中各单词之间的依存关系；

本实施例中，对每个分句对应的单词序列进行词性标注后，得到每个单词对应的词性，然后再根据预置的依存标注表，进一步标识各单词序列中各单词之间的依存关系。其中，单词之间的依存关系主要体现在各单词之间的语法关系上。例如，张三/喜欢/跑步，词性标注为名称+情态动词+名称，则对应的语法关系为：主谓宾关系；张三/就职于/学校，词性标注为名称+介词+名称，则对应的语法关系为：介宾关系。

句子中的语法关系还有前置宾语、定中关系、间宾关系、介宾关系、并列关系、动宾关系、主谓关系、核心关系等依存关系，因此，只要基于词性标注和依存标注表，就可以标识出句子中各单词之间的依存关系。

例如句子“酒店总经理张三”对应标注的单词词性为“名词+名词+名词”结构，根据依存标注表可查对应的组合为定中关系，前一个名词作为定于修饰后一个名词，因此“酒店总经理张三”的核心名词因为“张三”，而“酒店”和“总经理”是修饰“张三”的，因此这三个词依存关系被标注为ATT(也即定中关系)。

步骤S203，基于各单词序列中各单词之间的依存关系，构建对应的句法分析树；

本实施例中，一个句子中各各单词之间的依存关系可以通过构建句法分析树的形式来进行表达。构建句法分析树通常包含有以下四个集合：

(1)有限的非终端语法标识的集合，即句法分析树上非叶子结点的集合。

(2)起始标识，即句法分析树的开始节点对应的位置；

(3)有限的终端标识集合，即语句中所有单词的集合，位于句法分析树的叶子结点，其中，句法分析树的叶子节点允许为空；

(4)构建句法树的有限个规则的集合，该规则表述了句法树的构建过程。

通过以上方式即可构建一个单词序列(也即一条语句)对应的句法分析树，其中，子叶子节点与父叶子节点之间存在依存关系。

步骤S204，遍历所述句法分析树，并基于预置的中文语法规则，识别所述句法分析树中的核心词以及所述核心词对应的主语和宾语；

本实施例中，在构建好整个语句对应的句法分析树后，从根节点开始进行遍历，并在遍历过程中，基于预置的中文语法规则，识别该句法分析树中的核心词以及核心词对应的主语和宾语。

在基于依存关系的实体关系抽取模型中，关系词并非是预先设置的类别，而是存在于当前的句子中。例如“张三在广州创办了一家酒店”，基于中文语法规则可知，该句子预定义的关系可能是“张三：创始人”，而“创始人”一词在句子中不存在，但是句中存在一个与其相似的词“创办”。因此在句法分析中，能够提取出核心词“创办”，该词前面有一个名词“广州”，而“广州”前面有一个介词“在”，因此“在广州”是一个介宾短语，依存关系被标记为POB(介宾关系)，所以“广州”不是“创办”的主语，而是“张三”。“创办”一词后面是助词“了”可以省略，再往后则是名称“酒店”，因此“创办酒店”为动宾关系VOB。因此可分析得到该句的语义为“张三创办酒店”，核心词“创办”即为实体关系，“而张三”和“酒店”则是两个命名实体对象。

步骤S205，以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体三元组，其中，所述实体三元组用于描述所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系。

本实施例中，在识别出句子中的命名实体对象及其之间的实体关系之后，再提取的核心词为实体关系、以该核心词对应的主语和宾语为命名实体对象，构建实体三元组，以用于描述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系。

进一步地，在本发明数据处理方法另一实施例中，本实施例还可以通过以下方式抽取法律知识点，获得法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系，具体实现方式包括：

(1)若抽取的法律知识点为法条法规，则实现方式如下：

1.1、基于预置的命名实体识别模型，抽取所述法律文书数据中法条法规的命名实体对象；

1.2、基于抽取到的命名实体对象，识别所述法律文书数据中各法条法规对应的罪责内容，并将所述罪责内容保存为对应命名实体对象的实体属性；

1.3、基于预置的关系抽取模型，对各命名实体对象进行实体关系抽取，以获得各法律知识点之间的法律关系。

本实施例优选基于自然语言处理技术中的命名实体识别技术以及实体关系抽取技术，实现对法律文书数据中的法律知识点与法律关系的抽取。

命名实体识别技术(Named Entity Recognition，NER)是指从自然语言文本中找出具有特定意义的实体并按照一定规则进行实体命名标注，然后再将命名实体提取出来。比如识别自然语言文本中的人名、地名、机构名、专有名词等。实体关系抽取技术(EntityRelation Extraction)则是指从一个句子中判断两个实体是否具有语义关系，若有语义关系，则抽取出二者之间的语义关系。

本实施例通过预先设置的命名实体识别模型，从爬取的网站内容中识别出命名实体对象，也即法律意义的具体实体对象；然后基于识别到的命名实体对象，进行罪责内容的范围判断，并将判定的罪责内容保存为命名实体对象的属性。例如，在识别出法律命名实体对象后，通过正则模式，识别出该法律命名实体对象对应的刑罚范围，然后保存为该法律命名实体对象的属性。比如说，罪责内容为刑罚多少年或者剥夺政治权限多少年等。

此外，本实施例还通过预先设置的关系抽取模型进行实体关系挖掘，即获得不同的法律实体对象之间的关系，比如说A罪刑可以减刑得到B罪刑，则A罪刑的减轻关系对应到B罪刑。

例如，假设爬取的网站内容如下：

刑法第十七条：【刑事责任年龄】已满十六周岁的人犯罪，应当负刑事责任。已满十四周岁不满十六周岁的人，犯故意XX罪的，应当负刑事责任。已满十四周岁不满十八周岁的人犯罪，应当从轻或者减轻处罚。因不满十六周岁不予刑事处罚的，责令他的家长或者监护人加以管教；在必要的时候，也可以由政府收容教养。

通过命名实体识别模型，先从爬取的网站内容中识别出【十六周岁的人犯罪】、【刑事责任】等命名实体对象；然后基于得到的命名实体对象，通过正则模式识别出对应的刑罚范围，比如说，识别出：年龄【已满十四周岁不满十六周岁】，触发条件【犯故意XX、XX罪的】等，然后将识别出的刑罚范围保存为对应命名实体对象的属性。

(2)若抽取的法律知识点为判决案件，则实现方式如下：

2.1、基于预置的命名实体识别模型，抽取所述法律文书数据中判决案件的命名实体对象；

2.2、基于抽取到的命名实体对象，识别所述法律文书数据中各判决案件对应的案件事由和判决结果，并将所述案件事由和判决结果保存为对应命名实体对象的实体属性；

2.3、基于预置的关系抽取模型，对各命名实体对象进行实体关系抽取，以获得各法律知识点之间的法律关系。

本实施例中，通过预先设置的命名实体识别模型，从爬取的网站内容中识别出命名实体对象，也即判决案件的名称；然后基于识别到的命名实体对象，进行案件事由以及判决结果的判断，并将案件事由以及判决结果保存为命名实体对象的属性。例如，通过正则模式，识别出对应的案件事由以及判决结果，然后保存为对应命名实体对象的属性。

本实施例中，还通过预先设置的关系抽取模型进行实体关系挖掘，即获得不同的法律实体对象之间的关系，比如说判决案件A与判决案件B属于同一法条对应的案件。

例如，假设爬取的网站内容如下：

关于李XX偷窃案判决书

李XX，男，24岁，广东省广州市人，。。。。，于2015年1月1日，进行XXX偷窃，犯偷盗罪，判决XX年。

通过命名实体识别模型，从爬取的网站内容中识别出案件名称：【关于李XX偷窃案判决书】命名实体对象；然后基于得到的命名实体对象，通过正则模式识别出对应的案件事由及判决结果，比如说，识别出：犯罪人基本信息【李XX，男，24岁，广东省广州市人】，犯罪情况【于2015年1月1日，进行XXX偷窃】，判决结果：【犯偷盗罪，判决XX年】，然后将识别出的犯罪人基本信息、犯罪情况以及判决结果保存为对应命名实体对象的属性。

进一步可选地，在本发明法律文书数据处理方法一实施例中，基于上述实施例中构建的法律知识结构图，进一步创建法律知识点与相似案件查询页面，提供检索服务，以便用户进行法律知识检索，具体包括：

(一)创建法律知识点查询页面

1.1、以所述法律知识结构图为数据库，提取所述法律知识结构图中法条法规对应的命名实体对象与实体属性；

1.2、基于提取的法条法规对应的命名实体对象与实体属性，创建法律知识点查询页面，以供进行法规法条检索。

本情形具体以法条法规知识为主体所构建的法律知识结构图为查询数据库，创建法律知识查询页面，以供进行法律知识检索。

本情形下所创建的法律知识查询页面，用户可以根据查询关键字检索对应的法律知识点，比如说检索“故意伤人”，就能基于主体名称(故意伤人)在法律知识结构图对应的图数据库中检索到与“故意伤人”对应的法律条文。相比于关系型数据库，法律知识结构图提高了检索效率。

(二)创建相似案件查询页面

2.1、以所述法律知识结构图为数据库，基于所述法律知识结构图中判决案件的实体属性，提取判决案件的核心要素以及判决结果，其中，所述核心要素信息包括犯案人基本信息、犯案行为信息、案件内容信息；

2.2、以所述核心要素为模型输入训练样本、以所述判决结果为模型输出训练样本，采用深度神经网络算法，构建相似案件查询模型；

2.3基于所述相似案件查询模型，创建相似案件查询页面，以供进行相似案件检索。

本情形具体以案件信息为主体所构建的法律知识结构图为查询数据库，创建相似案件查询页面，以供进行相似案件检索。

本情形下，需要进一步基于法律知识结构图训练相似案件查询模型，通过该模型，可对不同案件的案件要素进行相似度计算，从而实现相似案件查询。

本实施例中，判决案件的核心要素信息包括犯案人基本信息、犯案行为信息、案件内容信息。比如，犯案人详细信息(如性别、年龄、家庭情况)，犯罪行为信息(如故意犯罪、蓄谋犯罪、合伙还是单独犯罪、主谋还是同伙等)，案件内容信息(如偷盗XX，抢夺XX，肇事逃逸等)，判决结果则如犯偷盗罪，判决XX年。通过自然语言处理技术可对以上核心要素进行提取，从而得到判决案件的特征。

本实施例中，相似案件查询模型优选为深度神经网络模型，该模型以判决案件的核心要素为特征作为神经元的输入，而以判决案件的判决内容为结果作为神经元的输出，训练生成相似案件查询模型。在相似案件查询模型训练完成后，基于相似案件查询模型，创建相似案件查询页面，用户只需在查询页面上输入案件的核心要素信息即可进行相似案件检索。

本实施例中，数据处理设备将用户在相似案件查询页面上输入的待检索案件的核心要素输入到相似案件查询模型中进行案件相似度案件的计算，并输出相似案件列表。

例如，以神经网络(也即相似案件查询模型)的最后一层的向量作为案件的表示向量，基于案件的表示向量，计算待检索案件与样本案件之间两个向量的相似度；若相似度高于预设的阈值(比如0.8)，则建立待检索案件与样本案件的相似关系，从而形成带有相似度排名的相似案件列表并输出至相似案件查询页面上进行展示，以供用户查看检索结果。

本发明还提供一种数据处理装置。

参照图5，图5为本发明数据处理装置一实施例的功能模块示意图。本实施例中，所述数据处理装置包括：

采集模块10，用于通过网络爬虫技术，采集指定法律网站的法律文书数据；

抽取模块20，用于对所述法律文书数据进行实体关系抽取处理，得到所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系；

识别模块30，用于根据各法律知识点的命名实体对象，采用正则表达式识别所述法律文书数据中各命名实体对象对应的实体属性；

构建模块40，用于以各法律知识点对应的命名实体对象、实体属性以及实体关系为源数据，构建基于图数据库的法律知识结构图；

创建模块50，用于以所述法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索。

基于与上述本发明数据处理方法相同的实施例说明内容，因此本实施例对数据处理装置的实施例内容不做过多赘述。

本实施例中，采集模块10通过网络爬虫技术采集指定法律网站的法律文书数据，抽取模块20、识别模块30以及构建模块40对法律文书数据进行加工整理以形成法律知识结构图；然后创建模块50基于法律知识结构图，创建查询页面，以供用户进行法律知识检索，比如基本法律知识点检索以及相似案件检索等。通过爬取方式采集法律文书数据，因而采集到的法律文书数据能够满足一般用户对于法律知识的查询需求。此外，本实施例将法律知识结构图作为法律查询服务的检索数据库，这不仅能够提供海量法律知识，同时还能为用户提供更高效快速的法律知识查询服务，进而提高了用户对法律知识的检索效率。

参照图6，图6为图5中采集模块10一实施例的细化功能模块示意图。本实施例中，所述采集模块10包括：

部署单元101，用于以Docker容器为部署媒介，部署预设的爬虫代码程序；

爬取单元102，用于执行所述爬虫代码程序，以爬取指定法律网站的相关内容，所述相关内容包括文章标题、正文内容、发布时间以及作者；

保存单元103，用于将爬取到的不同网页的所述相关内容作为法律文书数据分别独立存储。

参照图7，图7为图5中抽取模块20一实施例的细化功能模块示意图。本实施例中，所述抽取模块20包括：

切词单元201，用于对所述法律文书数据进行分句与切词，得到每个语句对应的单词序列；

标注单元202，用于使用预置的组合词性标注器对各单词序列进行词性标注，得到各单词序列的词性标注结果；

标识单元203，用于根据所述词性标注结果与预置依存标注表，标识各单词序列中各单词之间的依存关系；

构建单元204，用于基于各单词序列中各单词之间的依存关系，构建对应的句法分析树；

遍历单元205，用于遍历所述句法分析树，并基于预置的中文语法规则，识别所述句法分析树中的核心词以及所述核心词对应的主语和宾语；

构建单元206，用于以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体三元组，其中，所述实体三元组用于描述所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系。

参照图8，图8为图5中创建模块50一实施例的细化功能模块示意图。本实施例中，所述创建模块50包括：

第一创建单元501，用于以所述法律知识结构图为数据库，提取所述法律知识结构图中法条法规对应的命名实体对象与实体属性；基于提取的法条法规对应的命名实体对象与实体属性，创建法律知识点查询页面，以供进行法规法条检索；以及

第二创建单元502，用于以所述法律知识结构图为数据库，基于所述法律知识结构图中判决案件的实体属性，提取判决案件的核心要素以及判决结果；以所述核心要素为模型输入训练样本、以所述判决结果为模型输出训练样本，采用深度神经网络算法，构建相似案件查询模型；基于所述相似案件查询模型，创建相似案件查询页面，以供进行相似案件检索，其中，所述核心要素信息包括犯案人基本信息、犯案行为信息、案件内容信息。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上述任一项实施例中所述的数据处理方法的步骤。其中，数据处理程序被处理器执行时所实现的方法可参照本发明数据处理方法的各个实施例，因此不再过多赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种数据处理方法，应用于法律文书数据处理，其特征在于，所述数据处理方法包括以下步骤：

通过网络爬虫技术，采集指定法律网站的法律文书数据；

以所述法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索；

所述对所述法律文书数据进行实体关系抽取处理，得到所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系包括：

以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体三元组，其中，所述实体三元组用于描述所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系；

所述以所述法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索包括：

2.如权利要求1所述的数据处理方法，其特征在于，所述通过网络爬虫技术，采集指定法律网站的法律文书数据包括：

以Docker容器为部署媒介，部署预设的爬虫代码程序；

3.一种数据处理装置，应用于法律文书数据处理，其特征在于，所述数据处理装置包括：

创建模块，用于以所述法律知识结构图为数据库，创建法律知识点与相似案件查询页面，以供进行法律知识检索；

所述抽取模块包括：

构建单元，用于以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体三元组，其中，所述实体三元组用于描述所述法律文书数据中各法律知识点的命名实体对象以及命名实体对象之间的实体关系；

所述创建模块包括：

4.如权利要求3所述的数据处理装置，其特征在于，所述采集模块包括：

5.一种数据处理设备，其特征在于，所述数据处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行时实现如权利要求1-2中任一项所述的数据处理方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1-2中任一项所述的数据处理方法的步骤。