CN110334178A

CN110334178A - 数据检索方法、装置、设备及可读存储介质

Info

Publication number: CN110334178A
Application number: CN201910245265.0A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-10-15
Anticipated expiration: 2039-03-28
Also published as: CN110334178B

Abstract

本发明涉及大数据技术领域，公开了一种数据检索方法，应用于法律文书数据检索，包括以下步骤：构建法律文书数据库，所述法律文书数据库中包含有多个法律知识点文档；对所述法律文书数据库中各法律知识点文档进行主题划分，每一个法律知识点文档对应一个或多个主题标签；当接收到数据检索请求时，根据用户选择的主题标签，对所述法律知识点文档进行筛选，得到候选文档；根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索。本发明还公开了一种数据检索装置、设备及计算机可读存储介质。本发明为用户提供了更高效快速的法律知识查询服务，提高了法律人员的检索效率。

Description

数据检索方法、装置、设备及可读存储介质

技术领域

本发明涉及数据检索技术领域，尤其涉及一种数据检索方法、装置、设备及计算机可读存储介质。

背景技术

当今，随着对法律领域专业知识需求的越来越大，目前人们主要从专业的法律书籍以及相关的法律文书材料中进行法律知识检索，因而难以快速准确的获得专业的法律知识。此外，现有基于法律裁决文书的线上知识回答类服务大都比较分散、不够集中。

随着社会不断发展，各种法律条文相应出台，法律文件日益增多，法律检索需求也越来越大，现有基于检索关键字在法律文本库里检索相应法律文件所需要的时间成本也在增大，检索效率低。

发明内容

本发明的主要目的在于提供一种数据检索方法、装置、设备及计算机可读存储介质，旨在解决现有法律文书数据检索效率低的技术问题。

为实现上述目的，本发明提供一种数据检索方法，应用于法律文书数据检索，所述数据检索方法包括以下步骤：

构建法律文书数据库，所述法律文书数据库中包含有多个法律知识点文档；

对所述法律文书数据库中各法律知识点文档进行主题划分，每一个法律知识点文档对应一个或多个主题标签；

当接收到数据检索请求时，根据用户选择的主题标签，对所述法律知识点文档进行筛选，得到候选文档；

根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索。

可选地，所述构建法律文书数据库包括：

通过网络爬虫技术，采集指定法律网站的法律文书数据；

当所述法律文书数据对应的法律知识点为法条法规时，基于预置的命名实体识别模型，抽取所述法律文书数据中法条法规的命名实体对象，以及基于抽取到的命名实体对象，识别所述法律文书数据中各法条法规对应的罪责内容，并将所述罪责内容保存为对应命名实体对象的实体属性；

当所述法律文书数据对应的法律知识点为判决案件时，基于预置的命名实体识别模型，抽取所述法律文书数据中判决案件的命名实体对象，以及基于抽取到的命名实体对象，识别所述法律文书数据中各判决案件对应的案件事由和判决结果，并将所述案件事由和判决结果保存为对应命名实体对象的实体属性；

将从所述法律文书数据中抽取到的所述法律知识点保存为文档格式，得到法律知识点文档；

基于预设字段，以各法律知识点文档中的文本信息为字段内容，构建法律文书数据库。

可选地，所述对所述法律文书数据库中各法律知识点文档进行主题划分包括：

对所述法律文书数据库中各法律知识点文档对应的字段内容进行预处理，所述预处理包括去除停用词和标点符号处理；

对预处理后的各法律知识点文档分别进行切词，得到各法律知识点文档分别对应的多个单词；

基于切词得到的单词，构建各法律知识点文档中各单词对应的词向量；

将各法律知识点文档对应的词向量输入预设主题模型进行主题划分，输出每一法律知识点文档的词向量在所有文档主题上的概率分布；

将概率分布排列在前的预置个数文档主题对应的同一法律知识点文档的词向量输入预设分类模型进行分类，输出对应法律知识点文档的主题标签。

可选地，所述根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索包括：

对用户输入的检索关键词进行处理，得到由多个关键词组成并带有词序的关键词组；

分别对每一候选文档中的字符或字符串进行字符拼接，以形成文档字符串，并将所述文档字符串传入内存中；

基于所述关键词组，采用基于有序的非完全匹配检索算法，对每一候选文档对应的文档字符串进行全文检索。

可选地，所述基于所述关键词组，采用基于有序的非完全匹配检索算法，对每一候选文档对应的文档字符串进行全文检索包括：

依序以所述关键词组中的关键词为检索式，采用基于有序的非完全匹配检索算法，分别对每一候选文档对应的文档字符串进行全文检索，并将每一次检索结果的并集作为最终检索结果；

计算最终检索结果中各文档的推荐值，并基于所述推荐值的数值大小，对最终检索结果中的文档进行排序；

其中，所述基于有序的非完全匹配检索算法包括：

A、若在当前文档字符串中检索到关键词，则在当前文档字符串中继续检索下一词序对应的关键词；

B、若在同一文档字符串中依序检索到关键词组中所有关键词，则记录所有相邻关键词之间的相差字符数以及所有关键词同时重复出现的次数；

C、若在当前文档字符串中未检索到关键词，则继续对下一文档字符串进行全文检索；

D、若当前文档字符串中包含所有关键词，则将当前文档字符串对应的候选文档作为本次检索结果；

E、采用如下公式计算文档的推荐值：

M＝wT*(-T)+wn*(n)；

其中，M表示文档的推荐值，T表示文档中所有相邻关键词之间的相差字符数之和，n表示文档中所有关键词同时重复出现的次数，wT、wn为权重系数且均为常数值。

进一步地，本发明还提供一种数据检索装置，应用于法律文书数据检索，所述数据检索装置包括：

构建模块，用于构建法律文书数据库，所述法律文书数据库中包含有多个法律知识点文档；

划分模块，用于对所述法律文书数据库中各法律知识点文档进行主题划分，每一个法律知识点文档对应一个或多个主题标签；

筛选模块，用于当接收到数据检索请求时，根据用户选择的主题标签，对所述法律知识点文档进行筛选，得到候选文档；

检索模块，用于根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索。

可选地，所述构建模块包括：

爬取单元，用于通过网络爬虫技术，采集指定法律网站的法律文书数据；

抽取单元，用于当所述法律文书数据对应的法律知识点为法条法规时，基于预置的命名实体识别模型，抽取所述法律文书数据中法条法规的命名实体对象，以及基于抽取到的命名实体对象，识别所述法律文书数据中各法条法规对应的罪责内容，并将所述罪责内容保存为对应命名实体对象的实体属性；

所述抽取单元还用于：当所述法律文书数据对应的法律知识点为判决案件时，基于预置的命名实体识别模型，抽取所述法律文书数据中判决案件的命名实体对象，以及基于抽取到的命名实体对象，识别所述法律文书数据中各判决案件对应的案件事由和判决结果，并将所述案件事由和判决结果保存为对应命名实体对象的实体属性；

保存单元，用于将从所述法律文书数据中抽取到的所述法律知识点保存为文档格式，得到法律知识点文档；

构建单元，用于基于预设字段，以各法律知识点文档中的文本信息为字段内容，构建法律文书数据库。

可选地，所述划分模块用于：

可选地，所述检索模块包括：

预处理单元，用于对用户输入的检索关键词进行处理，得到由多个关键词组成并带有词序的关键词组；

字符拼接单元，用于分别对每一候选文档中的字符或字符串进行字符拼接，以形成文档字符串，并将所述文档字符串传入内存中；

检索单元，用于基于所述关键词组，采用基于有序的非完全匹配检索算法，对每一候选文档对应的文档字符串进行全文检索。

可选地，所述检索单元具体用于：

其中，所述基于有序的非完全匹配检索算法包括：

E、采用如下公式计算文档的推荐值：

M＝wT*(-T)+wn*(n)；

进一步地，为实现上述目的，本发明还提供一种数据检索设备，所述数据检索设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据检索程序，所述数据检索程序被所述处理器执行时实现如上述任一项所述的数据检索方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据检索程序，所述数据检索程序被处理器执行时实现如上述任一项所述的数据检索方法的步骤。

本发明以法律知识点文档形式构建法律文书数据库，并对法律文书数据库中各法律知识点文档进行主题划分，每一个主题对应一个或多个主题标签；在进行检索时，先根据用户选择的主题标签，对法律知识点文档进行筛选，得到待检索的候选文档，然后再根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索。本发明未采用基于详细关键词的常规检索方式，而是基于文献与类别标签的二层索引关系以提高检索效率。本发明基于类别标签的检索方式不仅方便定位更加精准的法律文件内容，提升推荐结果的准确性，同时更高效快速的法律知识查询服务也大幅提升了法律人员的检索效率。

附图说明

图1为本发明数据检索设备实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明数据检索方法一实施例的流程示意图；

图3为图2中步骤S10的细化流程示意图；

图4为图2中步骤S20的细化流程示意图；

图5为图2中步骤S40的细化流程示意图；

图6为本发明数据检索装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种数据检索设备。

参照图1，图1为本发明数据检索设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，该数据检索设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的数据检索设备的硬件结构并不构成对数据检索设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据检索程序。其中，操作系统是管理和控制数据检索设备与软件资源的程序，支持网络通信模块、用户接口模块、数据检索程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的数据检索设备硬件结构中，网络接口1004主要用于连接系统后台，与系统后台进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；数据检索设备通过处理器1001调用存储器1005中存储的数据检索程序，并执行以下数据检索方法的各实施例的操作。

基于上述数据检索设备硬件结构，提出本发明数据检索方法的各个实施例。

参照图2，图2为本发明数据检索方法一实施例的流程示意图。本实施例中，所述数据检索方法包括以下步骤：

步骤S10，构建法律文书数据库，所述法律文书数据库中包含有多个法律知识点文档；

本实施例中，在进行数据检索之前，需要预先构建法律文书数据库。本实施例对于法律文书数据库的构建方式不限。例如，由开发人员手动编辑创建法律文书数据库，或者通过摘取网络信息生成法律文书数据库。

本实施例的法律文书数据库中包含有多个法律知识点文档，每一法律知识点文档保存有一个或多个法律知识点，比如各种法条法规、判决案件等内容。需要说明的是，本实施例优选采用关系型数据库存储法律知识点文档中的内容，进而形成法律文书数据库。

步骤S20，对所述法律文书数据库中各法律知识点文档进行主题划分，每一个法律知识点文档对应一个或多个主题标签；

本实施例中，为提高数据检索效率，因此对文档进行主题类别划分，形成主题标签，从而增加文档的属性，也即相应增加了检索条件。本实施例对文档进行主题类别划分的具体实现方式不限，比如基于预设的主题划分规则进行主题类别划分，比如从网站A爬取的法律文书数据属于主题1、而从网站A爬取的法律文书数据属于主题2。或者通过机器学习训练得到的分类器对文档进行主题类别划分。需要说明的是，本实施例中，每一个法律知识点文档既可以是对应一个主题标签，也可以是对应多个主题标签，具体视文档内容而定。

本实施例对于主题类别的划分不限。为便于用户理解，因此优选基于一般用户对于法律领域的常规认知来设置主题标签。优选根据法律的类别和/或根据法律的量刑设置主题标签。

例如，根据法律的类别(刑法、商法和民法)，将法律知识点文档划分为刑法类文档、商法类文档以及民法类文档；根据法律的量刑(1年以下、1年到5年、5年以上)，将法律知识点文档划分为1年以下刑罚文档、1年到5年刑罚文档以及5年以上刑罚文档。

此外，为进一步缩小检索范围，提高检索精确性，因此还可以设置多个层级的主题标签。例如，一级主题标签，如刑法、民法、商法等，二级主题标签，例如刑法中的罪行类别，包括故意伤人罪、自动防卫等多个二级主题标签。

步骤S30，当接收到数据检索请求时，根据用户选择的主题标签，对所述法律知识点文档进行筛选，得到候选文档；

本实施例中，为提升检索效率，减少无效检索，因此先由用户基于主题标签，确定检索的文档主题范围，然后在候选文档中进行详细检索。

例如，数据库中文档有刑法、民法、商法等一级主题标签，每个一级主题标签下还进一步包括有多个二级主题标签，例如一级主题标签罪刑类别可以进一步划分为故意伤人罪、自动防卫等多个二级主题标签。由于存在多级别的多个主题，因而用户可以更有针对性的进行检索，缩小检索范围，提升检索速度。

步骤S40，根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索。

本实施例中，在用户确定了检索范围后，即可对该检索范围内的候选文档进行详细检索。为进一步提升检索效率，本实施例优选采用非完全匹配的检索方式对候选文档进行全文检索。例如，检索关键词为“故意伤人”，若采用完全匹配检索方式，则需要同一文档中出现“故意伤人”才可将该文档作为检索结果，而若采用非完全匹配检索方式只需在同一文档中检索到“故意”、“伤人”这两个关键词即可将该文档作为检索结果，相比完全匹配检索，因而大大提升了检索效率。

本实施例以法律知识点文档形式构建法律文书数据库，并对法律文书数据库中各法律知识点文档进行主题划分，每一个主题对应一个或多个主题标签；在进行检索时，先根据用户选择的主题标签，对法律知识点文档进行筛选，得到待检索的候选文档，然后再根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索。本实施例未采用基于详细关键词的常规检索方式，而是基于文献与类别标签的二层索引关系以提高检索效率。本实施例基于类别标签的检索方式不仅方便定位更加精准的法律文件内容，提升推荐结果的准确性，同时更高效快速的法律知识查询服务也大幅提升了法律人员的检索效率。

参照图3，图3为图2中步骤S10的细化流程示意图。本实施例中，上述步骤S10包括：

步骤S101，通过网络爬虫技术，采集指定法律网站的法律文书数据；

通过网络爬虫技术可以将互联网中数以百亿计的网页信息保存到本地。具体为通过爬虫代码程序模拟浏览器向网络服务器发送请求，以便将网络资源从网络流中读取出来并保存到本地，此外，还进一步基于相关信息提取规则，从爬取的信息中提取用户需要的信息。

本实施例中，基于爬取的网站类型的不同，因此采集的法律文书数据内容亦不相同。比如，从法院判决网站中爬取数据，则采集的内容为案件信息，比如犯罪人信息、犯罪事由、惩罚内容等。而如果是从法律文件、法条等网站中爬取数据，则采集的内容为法律知识，比如法条法规。基于爬取的内容的不同，因此构建的法律知识图谱亦不相同。

本实施例中，对于爬取方式不限。优选通过Docker容器作为媒介部署指定的爬虫程序，以爬取指定的网站内容。例如爬取法律网站中的文章标题、正文内容、发布时间、作者等内容。爬取的网站包括指定的公示网站以及通过搜索引擎搜索到的网站。

步骤S102，当所述法律文书数据对应的法律知识点为法条法规时，基于预置的命名实体识别模型，抽取所述法律文书数据中法条法规的命名实体对象，以及基于抽取到的命名实体对象，识别所述法律文书数据中各法条法规对应的罪责内容，并将所述罪责内容保存为对应命名实体对象的实体属性；

步骤S103，当所述法律文书数据对应的法律知识点为判决案件时，基于预置的命名实体识别模型，抽取所述法律文书数据中判决案件的命名实体对象，以及基于抽取到的命名实体对象，识别所述法律文书数据中各判决案件对应的案件事由和判决结果，并将所述案件事由和判决结果保存为对应命名实体对象的实体属性；

本实施例中，上述步骤S102、S103的执行先后顺序不限。本实施例具体通过自然语言处理技术抽取法律知识点。自然语言处理技术(Natural Language Processing，NLP)的主要目的在于帮助机器更好地理解人的语言，包括基础的词法、句法等语义理解，以及需求、情感等高层面的理解，进而弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。

本实施例中，在爬取到网站中预先指定的相关内容后，需要通过自然语言处理技术从爬取的内容中抽取法律知识点，例如，抽取判决案件、法律知识条规、法律常用词和常用问答以及相关引用的法律文献内容等。

本实施例通过基于自然语言处理的知识抽取技术，获取对应的案件详情、法律专有名词以及常用法律概念等知识点。具体基于法律知识中的法律名称、触发条件以及触发范围，或者基于判决案件名称、犯罪事由、判决结果，从爬取的网站内容中进行知识点抽取。

步骤S104，将从所述法律文书数据中抽取到的所述法律知识点保存为文档格式，得到法律知识点文档；

本实施例中，为便于后续数据处理，在抽取法律知识点时，将抽取到的法律知识点保存为文档格式，也即法律知识点文档。

此外，本实施例优选将不同网页中爬取到的数据内容作为法律文书数据分别独立存储。比如在网页A爬取的数据存储为A文档、在网页B爬取的数据存储为B文档。

步骤S105，基于预设字段，以各法律知识点文档中的文本信息为字段内容，构建法律文书数据库。

本实施例中，法律文书数据库优选采用关系型数据库存储法律知识点文档中的内容，具体为基于预设的字段，比如文档ID、标题、正文等字段，将各法律知识点文档中的文本信息保存到各对应字段下，从而形成法律文书数据库。

本实施例通过网络爬虫技术采集指定法律网站的法律文书数据，并对法律文书数据进行加工整理以形成法律文书数据库，进而供用户进行法律知识检索。本实施例通过爬取方式采集法律文书数据，不仅能够提供海量法律知识以满足用户对于法律知识的查询需求，同时也减轻了数据库开发人员收集法律知识信息的工作量。

进一步地，在本发明数据检索方法一实施例中，上述步骤S102、S103的具体实现方式包括：

(1)若抽取的法律知识点为法条法规，则实现方式如下：

1.1、基于预置的命名实体识别模型，抽取所述法律文书数据中法条法规的命名实体对象；

1.2、基于抽取到的命名实体对象，识别所述法律文书数据中各法条法规对应的罪责内容，并将所述罪责内容保存为对应命名实体对象的实体属性。

本实施例优选基于自然语言处理技术中的命名实体识别技术，实现对法律文书数据中的法律知识点的抽取。

命名实体识别技术(Named Entity Recognition，NER)是指从自然语言文本中找出具有特定意义的实体并按照一定规则进行实体命名标注，然后再将命名实体提取出来。比如识别自然语言文本中的人名、地名、机构名、专有名词等。

本实施例通过预先设置的命名实体识别模型，从爬取的网站内容中识别出命名实体对象，也即法律意义的具体实体对象；然后基于识别到的命名实体对象，进行罪责内容的范围判断，并将判定的罪责内容保存为命名实体对象的属性。例如，在识别出法律命名实体对象后，通过正则模式，识别出该法律命名实体对象对应的刑罚范围，然后保存为该法律命名实体对象的属性。比如说，罪责内容为刑罚多少年或者剥夺政治权限多少年等。

例如，假设爬取的网站内容如下：

刑法第十七条：【刑事责任年龄】已满十六周岁的人犯罪，应当负刑事责任。已满十四周岁不满十六周岁的人，犯故意XX罪的，应当负刑事责任。已满十四周岁不满十八周岁的人犯罪，应当从轻或者减轻处罚。因不满十六周岁不予刑事处罚的，责令他的家长或者监护人加以管教；在必要的时候，也可以由政府收容教养。

通过命名实体识别模型，先从爬取的网站内容中识别出【十六周岁的人犯罪】、【刑事责任】等命名实体对象；然后基于得到的命名实体对象，通过正则模式识别出对应的刑罚范围，比如说，识别出：年龄【已满十四周岁不满十六周岁】，触发条件【犯故意XX、XX罪的】等，然后将识别出的刑罚范围保存为对应命名实体对象的属性。

(2)若抽取的法律知识点为判决案件，则实现方式如下：

2.1、基于预置的命名实体识别模型，抽取所述法律文书数据中判决案件的命名实体对象；

2.2、基于抽取到的命名实体对象，识别所述法律文书数据中各判决案件对应的案件事由和判决结果，并将所述案件事由和判决结果保存为对应命名实体对象的实体属性。

本实施例中，通过预先设置的命名实体识别模型，从爬取的网站内容中识别出命名实体对象，也即判决案件的名称；然后基于识别到的命名实体对象，进行案件事由以及判决结果的判断，并将案件事由以及判决结果保存为命名实体对象的属性。例如，通过正则模式，识别出对应的案件事由以及判决结果，然后保存为对应命名实体对象的属性。

例如，假设爬取的网站内容如下：

关于李XX偷窃案判决书

李XX，男，24岁，广东省广州市人，。。。。，于2015年1月1日，进行XXX偷窃，犯偷盗罪，判决XX年。

通过命名实体识别模型，从爬取的网站内容中识别出案件名称：【关于李XX偷窃案判决书】命名实体对象；然后基于得到的命名实体对象，通过正则模式识别出对应的案件事由及判决结果，比如说，识别出：犯罪人基本信息【李XX，男，24岁，广东省广州市人】，犯罪情况【于2015年1月1日，进行XXX偷窃】，判决结果：【犯偷盗罪，判决XX年】，然后将识别出的犯罪人基本信息、犯罪情况以及判决结果保存为对应命名实体对象的属性。

参照图4，图4为图2中步骤S20的细化流程示意图。基于上述实施例，本实施例中，上述步骤S20进一步包括：

步骤S201，对所述法律文书数据库中各法律知识点文档对应的字段内容进行预处理，所述预处理包括去除停用词和标点符号处理；

本实施例中，为提高数据检索效率，因此对文档进行主题类别划分，形成主题标签，从而增加文档的属性，也即相应增加了检索条件。

本实施例中，在对文档进行主题类别划分之前，需要预先进行机器学习训练以生成主题模型与分类模型。其中，在进行机器学习之前，先对训练样本进行预处理，包括去除停用词处理以及去除标点符号处理，然后再进行训练以生成主题模型和分类模型。

步骤S202，对预处理后的各法律知识点文档分别进行切词，得到各法律知识点文档分别对应的多个单词；

本实施例中，为更好地识别文档的主题，需要预先通过切词操作将文档内容转换为单个的词。例如使用jieba分词方式进行分词。

步骤S203，基于切词得到的单词，构建各法律知识点文档中各单词对应的词向量；

本实施例中，考虑到文档内容进行切词后，大幅降低了各单词之间的关联性，为继续保留各单词之间的关联性，从而提升主题识别准确率，因此，本实施例中构建法律知识点文档中各单词对应的词向量，从而保留各字词(也即切词所形成的单词)之间的关联性。其中，词向量具体用于将自然语言中的字词转为计算机可以理解的稠密向量。

词向量技术是将词转化成为稠密向量，任一词的含义都可以用它的周边词来表示，因而生成词向量可以获得更多的词信息以及词间关系信息，并且对于相似的词，其对应的词向量也相近。词向量的类型很多，例如GloVe词向量、FastText词向量、Word2Vec词向量等。

步骤S204，将各法律知识点文档对应的词向量输入预设主题模型进行主题划分，输出每一法律知识点文档的词向量在所有文档主题上的概率分布；

主题模型是对文本中隐含主题的一种建模方法，一篇文本的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。

本实施例优选采用LDA(Latent Dirichlet allocation，隐含狄利克雷分布)算法构建主题模型，通过主题模型对各法律知识点文档进行主题聚类，也即给出每一法律知识点文档的词向量在所有文档主题上的概率分布。

步骤S205，将概率分布排列在前的预置个数文档主题对应的同一法律知识点文档的词向量输入预设分类模型进行分类，输出对应法律知识点文档的主题标签。

分类模型可对不同单词进行类别划分，也即可找出各单词之间的共性，从而实现分类。例如，轿车、卡车、客车可分类为车辆；香蕉、苹果、葡萄可分类为水果。

本实施例以人工预先标注好的主题标签以及对应的知识点作为训练样本，进行机器学习，从而构建分类模型。本实施例中，主题标签包括了一级主题标签，如刑法、民法、商法等，一级标签还进可以一步包括二级主题标签，例如罪刑类别可以进一步划分为故意伤人罪、自动防卫等类别。每一个各法律知识点文档对应一个或多个主题标签。

本实施例对文档进行主题类别划分，以形成主题标签供用户选择，从而增加了文档的检索属性，也即相应增加了检索条件，从而提高了数据检索效率和准确性。

参照图5，图5为图2中步骤S40的细化流程示意图。基于上述实施例，本实施例中，上述步骤S40进一步包括：

步骤S401，对用户输入的检索关键词进行处理，得到由多个关键词组成并带有词序的关键词组；

本实施例中，用户输入的检索关键词既可以是单个词组，也可以是多个词组的组合，比如说，中国故意伤人罪。

本实施例中，在对候选文档进行全文检索之前，需要先对用户输入的检索关键词进行预处理，包括分词处理、去除停用词和标点符号处理等，进而得到带词序的独立词汇或词汇组合。

检索关键词为“中国，故意伤人罪”，则处理后的关键词组为：中国->[中->国]，故意伤人罪->[故意->伤人罪]。

步骤S402，分别对每一候选文档中的字符或字符串进行字符拼接，以形成文档字符串，并将所述文档字符串传入内存中；

本实施例中，除了需要对用户输入的检索关键词进行预处理，还进一步需要对候选文档进行处理，具体为：将每一候选文档中的标题、正文等字段内容进行字符拼接，以形成新的字符串(文档字符串)，然后再将格候选文档对应的文档字符串以【文档ID，新字符串】的格式传入内存中。

步骤S403，基于所述关键词组，采用基于有序的非完全匹配检索算法，对每一候选文档对应的文档字符串进行全文检索。

本实施例中，在对用户输入的检索关键词进行处理得到带有词序的关键词组，以及对候选文档中的字符或字符串进行处理得到拼接字符串之后，即可基于关键词组在拼接字符串中进行检索。

本实施例对于基于有序的非完全匹配检索算法的具体实现方式不限。例如可以是使用本领域常用的模糊检索算法、暴力匹配算法、KMP算法等，这类算法同样可以检索出带有词序的关键词组的文档，但没有对检索结果的显示顺序进行排序。考虑到检索结果中可能存在多个文档，不对检索结果进行排序则用户可能需要花费大量时间精力来阅读检索结果，因此，本实施例中优选采用能够对检索结果的显示顺序进行排序的检索算法。

进一步地，在本发明数据检索方法一实施例中，上述步骤S403具体包括：

(1)依序以所述关键词组中的关键词为检索式，采用基于有序的非完全匹配检索算法，分别对每一候选文档对应的文档字符串进行全文检索，并将每一次检索结果的并集作为最终检索结果；

(2)计算最终检索结果中各文档的推荐值，并基于所述推荐值的数值大小，对最终检索结果中的文档进行排序；

其中，所述基于有序的非完全匹配检索算法包括：

E、采用如下公式计算文档的推荐值：

M＝wT*(-T)+wn*(n)；

本实施例中，为便于理解本发明，下面以检索关键词“中国”，对基于有序的非完全匹配检索算法的实现方式进行举例说明。

首先，对检索关键词“中国”进行预处理，得到带有词序的关键词组：也即中国->[中->国]；

其次，在每一候选文档对应的文档字符串中，对[中->国]进行基于有序的非完全匹配检索，具体为：

先在当前文档中检索“中”字，若存在，则往后继续检索“国”字，同时在检索过程中，当每一次依次检索到“中”字与“国”字时，记录下两字之间的相差字符数t以及检索到“中”字与“国”字的重复出现次数n，保留“中”字与“国”字的检索结果的并集；

若当前文档中未检索到[中->国]，则继续检索下一候选文档对应的文档字符串；最后统计出检索结果中所有候选文档的推荐值M，并基于推荐值M的大小，对检索结果中的各候选文档进行排序。其中，M由T和n来确定，T为t的总数(T＝t*n)，原则上T越小、n越大，则推荐值M越大。

本实施例中改进的检索算法能够对检索结果的显示顺序进行排序，将与检索式最匹配的候选文档显示在前面，从而无需用户自己查看即可快速获得最佳的检索结果，不仅提升了检索效率，同时也进一步提升了用户查看检索结果的使用体验。

参照图6，图6为本发明数据检索装置一实施例的功能模块示意图。本实施例中，所述数据检索装置包括：

构建模块10，用于构建法律文书数据库，所述法律文书数据库中包含有多个法律知识点文档；

划分模块20，用于对所述法律文书数据库中各法律知识点文档进行主题划分，每一个法律知识点文档对应一个或多个主题标签；

筛选模块30，用于当接收到数据检索请求时，根据用户选择的主题标签，对所述法律知识点文档进行筛选，得到候选文档；

检索模块40，用于根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有数据检索程序，所述数据检索程序被处理器执行时实现如上述任一项实施例中所述的数据检索方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种数据检索方法，应用于法律文书数据检索，其特征在于，所述数据检索方法包括以下步骤：

2.如权利要求1所述的数据检索方法，其特征在于，所述构建法律文书数据库包括：

通过网络爬虫技术，采集指定法律网站的法律文书数据；

3.如权利要求1或2所述的数据检索方法，其特征在于，所述对所述法律文书数据库中各法律知识点文档进行主题划分包括：

4.如权利要求1所述的数据检索方法，其特征在于，所述根据用户输入的检索关键词，采用基于有序的非完全匹配检索算法，对候选文档进行全文检索包括：

5.如权利要求4所述的数据检索方法，其特征在于，所述基于所述关键词组，采用基于有序的非完全匹配检索算法，对每一候选文档对应的文档字符串进行全文检索包括：

其中，所述基于有序的非完全匹配检索算法包括：

E、采用如下公式计算文档的推荐值：

M＝wT*(-T)+wn*(n)；

6.一种数据检索装置，应用于法律文书数据检索，其特征在于，所述数据检索装置包括：

7.如权利要求6所述的数据检索装置，其特征在于，所述检索模块包括：

8.如权利要求7所述的数据检索装置，其特征在于，所述检索单元具体用于：

其中，所述基于有序的非完全匹配检索算法包括：

E、采用如下公式计算文档的推荐值：

M＝wT*(-T)+wn*(n)；

9.一种数据检索设备，其特征在于，所述数据检索设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据检索程序，所述数据检索程序被所述处理器执行时实现如权利要求1-5中任一项所述的数据检索方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据检索程序，所述数据检索程序被处理器执行时实现如权利要求1-5中任一项所述的数据检索方法的步骤。