CN112989820B

CN112989820B - 法律文书定位方法、装置、设备及存储介质

Info

Publication number: CN112989820B
Application number: CN202110304076.3A
Authority: CN
Inventors: 刘璐
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2022-12-02
Anticipated expiration: 2041-03-22
Also published as: CN112989820A

Abstract

本发明涉及人工智能，提供一种法律文书定位方法、装置、设备及存储介质。该方法能够根据文书定位请求确定目标案件，根据目标案件获取法律文书，对法律文书进行预处理，得到文本数据，分析文本数据，得到文本标签，根据文本标签对文本数据进行要素抽取，得到子标签及特征信息，确定特征信息在法律文书中的位置，根据子标签及位置建立映射关系，得到文书列表，根据文书定位请求获取语音信息，根据语音信息提取证据特征，根据证据特征从文书列表中确定证据位置。本发明能够辅助法院工作人员快速并准确查找到相应证据。此外，本发明还涉及区块链技术，所述证据位置可存储于区块链中。

Description

法律文书定位方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种法律文书定位方法、装置、设备及存储介质。

背景技术

随着信息网络的发展，法律文书的信息量也随之增多，为了方便法院工作人员在庭审时能够从法律文书中快速查找到相应证据，通常会对法律文书进行标签构建。然而，目前在构建法律文书标签的过程中，由于只考虑到对法律文书进行简单分类，而没有考虑到法律文书中基础信息之间相互的逻辑关系，导致无法准确构建出文书标签，从而造成法院工作人员在庭审时无法准确从法律文书中查找到相应证据。

发明内容

鉴于以上内容，有必要提供一种法律文书定位方法、装置、设备及存储介质，本发明能够辅助法院工作人员快速并准确查找到相应证据。

一方面，本发明提出一种法律文书定位方法，所述法律文书定位方法包括：

当接收到文书定位请求时，根据所述文书定位请求确定目标案件，并根据所述目标案件获取法律文书；

对所述法律文书进行预处理，得到文本数据；

分析所述文本数据，得到所述文本数据的文本标签；

根据所述文本标签对所述文本数据进行要素抽取，得到子标签及特征信息；

确定所述特征信息在所述法律文书中的位置，并根据所述子标签及所述位置建立映射关系，得到文书列表；

根据所述文书定位请求获取语音信息，并根据所述语音信息提取证据特征；

根据所述证据特征从所述文书列表中确定证据位置。

根据本发明优选实施例，所述对所述法律文书进行预处理，得到文本数据包括：

对所述法律文书进行分词处理，得到文书分词；

确定所述文书分词在所述法律文书中的分词位置，并将所述文书分词转换为文书向量；

根据所述分词位置依次将所述文书向量输入至预先训练好的文本纠错模型中，得到待修正词及候选词；

当检测到用户触发所述候选词时，将所述法律文书中的所述待修正词替换为所述候选词，得到修正文书；

确定所述修正文书的文书格式，并检测所述文书格式是否为预设格式；

若所述文书格式不为所述预设格式，将所述修正文书的所述文书格式转换为所述预设格式，得到所述文本数据。

根据本发明优选实施例，所述分析所述文本数据，得到所述文本数据的文本标签包括：

对所述文本数据进行分词处理，得到数据分词；

对所述数据分词进行编码，得到与所述数据分词对应的分词向量；

对所述分词向量进行上下文特征提取，得到与所述分词向量对应的语义向量；

拼接所述分词向量及所述语义向量，得到所述数据分词的特征向量；

对所述特征向量进行映射处理，得到所述数据分词在所述特征向量中每个维度的概率；

将所述概率最大的维度确定为目标维度，并从标签库中将与所述目标维度对应的类别确定为所述文本标签，其中，所述标签库中存储有多个维度对应的标签。

根据本发明优选实施例，所述根据所述文本标签对所述文本数据进行要素抽取，得到子标签及特征信息包括：

获取所述文本标签中所有二级标签作为所述子标签；

确定所述分词向量的编码表，并从所述编码表中获取每个子标签的标签向量；

计算所述特征向量与每个标签向量的相似度；

将所述相似度大于预设阈值的数据分词确定为所述子标签对应的所述特征信息。

根据本发明优选实施例，所述根据所述文书定位请求确定目标案件包括：

解析所述文书定位请求的报文，得到所述报文携带的数据信息；

从所述数据信息中获取指示案件的信息作为案件编号；

将所述案件编号写入查询模板中，得到查询语句；

运行所述查询语句，得到所述目标案件。

根据本发明优选实施例，所述根据所述文书定位请求获取语音信息包括：

从所述数据信息中获取指示通道的信息作为通道编码；

将与所述通道编码对应的信息确定为连接通道；

获取所述文书定位请求的生成时间；

从所述连接通道中获取与所述生成时间对应的语音作为所述语音信息。

根据本发明优选实施例，所述根据所述语音信息提取证据特征包括：

利用语音识别算法识别所述语音信息，得到目标语句；

对所述目标语句进行分词处理，得到目标分词；

确定所述目标分词在所述目标语句中的词性；

将所述词性为预设词性的目标分词确定为所述证据特征。

另一方面，本发明还提出一种法律文书定位装置，所述法律文书定位装置包括：

获取单元，用于当接收到文书定位请求时，根据所述文书定位请求确定目标案件，并根据所述目标案件获取法律文书；

预处理单元，用于对所述法律文书进行预处理，得到文本数据；

分析单元，用于分析所述文本数据，得到所述文本数据的文本标签；

抽取单元，用于根据所述文本标签对所述文本数据进行要素抽取，得到子标签及特征信息；

建立单元，用于确定所述特征信息在所述法律文书中的位置，并根据所述子标签及所述位置建立映射关系，得到文书列表；

提取单元，用于根据所述文书定位请求获取语音信息，并根据所述语音信息提取证据特征；

确定单元，用于根据所述证据特征从所述文书列表中确定证据位置。

另一方面，本发明还提出一种电子设备，所述电子设备包括：

存储器，存储计算机可读指令；及

处理器，执行所述存储器中存储的计算机可读指令以实现所述法律文书定位方法。

另一方面，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被电子设备中的处理器执行以实现所述法律文书定位方法。

由以上技术方案可以看出，本发明通过所述目标案件能够准确获取到所述法律文书，通过对所述法律文书进行预处理，能够生成信息准确、格式统一的文本数据，通过对所述文本数据进行分析，能够准确为所述文本数据建立所述文本标签，通过所述文本标签对所述文本数据进行要素抽取，能够准确从所述文本数据中提取出所述特征信息，进而能够准确确定出所述特征信息在所述法律文本中的位置，提高了所述文书列表的生成准确率，从而提高了所述证据位置的定位准确率，同时，本发明通过生成所述文书列表能够辅助法院工作人员快速查找到相应证据，提高庭审举证和质证效率。

附图说明

图1是本发明法律文书定位方法的较佳实施例的流程图。

图2是本发明法律文书定位装置的较佳实施例的功能模块图。

图3是本发明实现法律文书定位方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，是本发明法律文书定位方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

所述法律文书定位方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的计算机可读指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字信号处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能穿戴式设备等。

所述电子设备可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。

所述电子设备所处的网络包括，但不限于：互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

S10，当接收到文书定位请求时，根据所述文书定位请求确定目标案件，并根据所述目标案件获取法律文书。

在本发明的至少一个实施例中，所述文书定位请求可以由法院工作人员触发生成。所述文书定位请求中携带的信息包括，但不限于：案件编号。

所述目标案件可以是任意需要进行庭审的法律案件。

所述法律文书是指法院工作人员在解决诉讼案件时使用的文书。

在本发明的至少一个实施例中，所述电子设备根据所述文书定位请求确定目标案件包括：

从所述数据信息中获取指示案件的信息作为案件编号；

将所述案件编号写入查询模板中，得到查询语句；

运行所述查询语句，得到所述目标案件。

其中，所述案件编号能够唯一指示案件。

所述查询模板是指预先设置的结构化查询语句。

通过解析所述报文，由于无需解析整个所述文书定位请求，因此，能够快速获取到所述数据信息，通过所述查询模板，由于无需重复编写所述查询模板，因此能够快速生成所述查询语句，从而能够快速确定出所述目标案件，此外，通过所述案件编号与案件的映射关系，能够准确确定出所述目标案件。

在本发明的至少一个实施例中，所述电子设备根据所述目标案件获取法律文书包括：

从预设路径库中获取与所述案件编号对应的路径作为目标路径，其中，所述预设路径库中存储有案件与路径的映射关系；

从所述目标路径中获取所有信息作为案件信息；

采用OCR技术识别所述案件信息，得到所述法律文书。

其中，所述案件信息包括有所述目标案件的当事人信息、诉讼请求等，所述案件信息的展现形式可以包括，但不限于：图片、PDF等。

通过所述案件编号能够从所述预设路径库中准确获取到所述目标路径，进而通过所述目标路径能够准确获取到所述目标案件的所述法律文书。

S11，对所述法律文书进行预处理，得到文本数据。

在本发明的至少一个实施例中，所述文本数据可以是格式为TXT格式的法律文本。

在本发明的至少一个实施例中，所述电子设备对所述法律文书进行预处理，得到文本数据包括：

对所述法律文书进行分词处理，得到文书分词；

其中，所述文书分词是指所述法律文书中的词语。

所述待修正词是指所述法律文书中需要进行修正的词语。

所述候选词可以有多个。

所述预设格式是指预先设定好的格式，所述预设格式可以是TXT格式。

通过确定所述文书分词在所述法律文书中的分词位置，进而根据所述分词位置依次将所述文书向量输入至所述文本纠错模型中，由于所述文本纠错模型考虑到了所述分词位置，因此，能够准确确定出所述待修正词及所述候选词，从而能够准确生成所述修正文书。

具体地，所述电子设备对所述法律文书进行分词处理，得到文书分词包括：

根据预设词典切分所述法律文书，得到多个切分路径及每个切分路径对应的分词，其中，所述预设词典中存储有多个自定义词与该自定义词的权值；

根据所述多个切分路径构建多个有向无环图；

根据所述预设词典中的权值计算每个有向无环图的概率；

将所述概率最大的有向无环图对应的切分路径确定为目标路径；

将与所述目标路径对应的分词确定为所述文书分词。

其中，每个切分路径是指切分所述法律文书的切分方式。

通过上述实施方式，能够根据需求准确地切分所述法律文书，从而能够准确获取到所述文书分词。

具体地，所述文本纠错模型的训练方式属于现有技术，本发明对所述文本纠错模型的训练方式不再赘述。

S12，分析所述文本数据，得到所述文本数据的文本标签。

在本发明的至少一个实施例中，所述文本标签是指所述文本数据的一级标签，例如，所述文本标签可以包括，但不限于：证件类、文书类、证据类等。

在本发明的至少一个实施例中，所述电子设备分析所述文本数据，得到所述文本数据的文本标签包括：

对所述文本数据进行分词处理，得到数据分词；

通过对所述分词向量进行上下文特征提取，能够生成含有上下文语义的所述语义向量，进而通过拼接所述分词向量及所述语义向量，能够准确生成与所述数据分词对应的所述特征向量，通过对所述特征向量进行映射处理，能够准确确定出所述数据分词在每个维度的概率，进而准确确定出所述文本标签。

具体地，所述电子设备对所述分词向量进行上下文特征提取，得到与所述分词向量对应的语义向量包括：

对于每个分词向量，根据所述分词向量及预设个数确定该分词向量对应的上下文向量集；

分别计算所述上下文向量集中每个向量与预设矩阵的乘积，得到目标向量；

计算所述目标向量的平均值，得到所述语义向量。

具体地，所述电子设备对所述特征向量进行映射处理，得到所述数据分词在所述特征向量中每个维度的概率包括：

将所述特征向量乘以配置权重矩阵，并加上预设偏置值，得到分数向量；

对所述分数向量进行归一化处理，得到所述概率向量，其中，每个概率向量中所有维度的概率总和为1；

将所述概率向量中每个维度的取值确定为所述概率。

S13，根据所述文本标签对所述文本数据进行要素抽取，得到子标签及特征信息。

在本发明的至少一个实施例中，所述子标签是指所述文书标签的二级标签。例如，所述文书标签为证件类，对应的所述子标签为：身份证、户口本、护照、营业执照；所述文书标签为文书类，对应的所述子标签为：起诉状、答辩状、委托书、所函；所述文书标签为证据类，对应的所述子标签为：证据清单、证明文件、银行流水、借款合同、借条。

所述特征信息是指在所述法律文书中与所述子标签对应的信息。

在本发明的至少一个实施例中，所述电子设备根据所述文本标签对所述文本数据进行要素抽取，得到子标签及特征信息包括：

获取所述文本标签中所有二级标签作为所述子标签；

计算所述特征向量与每个标签向量的相似度；

其中，所述文本标签为所述子标签的父标签。

通过所述文本数据的编码表获取所述标签向量，由于所述子标签的编码方式与所述文本数据的编码方式相同，因此能够避免由于编码方式不同导致所述标签向量不准确，从而提高所述相似度的计算准确率，从而能够准确从所述数据分词中确定出所述特征信息。

S14，确定所述特征信息在所述法律文书中的位置，并根据所述子标签及所述位置建立映射关系，得到文书列表。

在本发明的至少一个实施例中，所述位置是指所述特征信息在所述法律文书中所处的页面。

所述文书列表中存储有多个所述子标签与所述位置的映射关系。

在本发明的至少一个实施例中，所述电子设备确定所述特征信息在所述法律文书中的位置包括：

根据所述特征信息遍历所述法律文书；

当在所述法律文书中遍历到所述特征信息时，确定所述特征信息在所述法律文书中的遍历位置作为所述位置。

在本发明的至少一个实施例中，所述电子设备根据所述子标签及所述位置建立映射关系，得到文书列表包括：

根据所述子标签及对应的所述位置生成二元组，得到所述文书列表。

S15，根据所述文书定位请求获取语音信息，并根据所述语音信息提取证据特征。

在本发明的至少一个实施例中，所述文书定位请求中存储有所述语音信息的录制通道信息。所述语音信息可以是在庭审过程中原告或者被告的语音。

所述证据特征是指所述语音信息中的关键信息。

在本发明的至少一个实施例中，所述电子设备根据所述文书定位请求获取语音信息包括：

从所述数据信息中获取指示通道的信息作为通道编码；

将与所述通道编码对应的信息确定为连接通道；

获取所述文书定位请求的生成时间；

其中，所述连接通道是指所述文书定位请求对应的录音通道。

通过所述通道编码能够准确确定出所述连接通道，进而通过所述生成时间能够准确从所述连接通道中获取到所述语音信息。

在本发明的至少一个实施例中，所述电子设备根据所述语音信息提取证据特征包括：

利用语音识别算法识别所述语音信息，得到目标语句；

对所述目标语句进行分词处理，得到目标分词；

确定所述目标分词在所述目标语句中的词性；

将所述词性为预设词性的目标分词确定为所述证据特征。

其中，所述预设词性包括名词、动词等。

通过所述语音识别算法能够准确识别出所述目标语句，通过分词所述目标分词在所述目标语句中的词性，能够准确从所述目标语句中提取到所述证据特征。

S16，根据所述证据特征从所述文书列表中确定证据位置。

需要强调的是，为进一步保证上述证据位置的私密和安全性，上述证据位置还可以存储于一区块链的节点中。

在本发明的至少一个实施例中，所述证据位置是指所述证据特征在所述法律文书中的位置，所述证据位置可以是页码。

在本发明的至少一个实施例中，所述电子设备根据所述证据特征从所述文书列表中确定证据位置包括：

从所述编码表中获取所述证据特征的证据向量；

利用余弦距离公式计算所述证据向量与每个标签向量的取值，得到目标数据；

将所述目标数据最大的子标签确定为待查标签；

从所述文书列表中筛选与所述待查标签对应的位置作为所述证据位置。

通过所述编码表能够准确确定出所述证据向量，进而能够准确确定出所述待查标签，通过所述待查标签能够快速从所述文书列表中获取到所述证据位置。

在本发明的至少一个实施例中，在根据所述证据特征从所述文书列表中确定证据位置后，所述方法还包括：

获取所述文书定位请求的请求编号；

根据所述请求编号及所述证据位置生成提示信息；

获取所述文书定位请求的触发用户；

将所述提示信息发送至所述触发用户的终端设备。

通过上述实施方式，能够在根据所述证据特征从所述文书列表中确定证据位置后，及时将所述证据位置发送至所述触发用户。

如图2所示，是本发明法律文书定位装置的较佳实施例的功能模块图。所述法律文书定位装置11包括获取单元110、预处理单元111、分析单元112、抽取单元113、建立单元114、提取单元115、确定单元116、生成单元117及发送单元118。本发明所称的模块/单元是指一种能够被处理器13所获取，并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

当接收到文书定位请求时，获取单元110根据所述文书定位请求确定目标案件，并根据所述目标案件获取法律文书。

所述目标案件可以是任意需要进行庭审的法律案件。

在本发明的至少一个实施例中，所述获取单元110根据所述文书定位请求确定目标案件包括：

从所述数据信息中获取指示案件的信息作为案件编号；

将所述案件编号写入查询模板中，得到查询语句；

运行所述查询语句，得到所述目标案件。

其中，所述案件编号能够唯一指示案件。

所述查询模板是指预先设置的结构化查询语句。

在本发明的至少一个实施例中，所述获取单元110根据所述目标案件获取法律文书包括：

从所述目标路径中获取所有信息作为案件信息；

采用OCR技术识别所述案件信息，得到所述法律文书。

预处理单元111对所述法律文书进行预处理，得到文本数据。

在本发明的至少一个实施例中，所述预处理单元111对所述法律文书进行预处理，得到文本数据包括：

对所述法律文书进行分词处理，得到文书分词；

其中，所述文书分词是指所述法律文书中的词语。

所述待修正词是指所述法律文书中需要进行修正的词语。

所述候选词可以有多个。

具体地，所述预处理单元111对所述法律文书进行分词处理，得到文书分词包括：

根据所述多个切分路径构建多个有向无环图；

根据所述预设词典中的权值计算每个有向无环图的概率；

将与所述目标路径对应的分词确定为所述文书分词。

其中，每个切分路径是指切分所述法律文书的切分方式。

分析单元112分析所述文本数据，得到所述文本数据的文本标签。

在本发明的至少一个实施例中，所述分析单元112分析所述文本数据，得到所述文本数据的文本标签包括：

对所述文本数据进行分词处理，得到数据分词；

具体地，所述分析单元112对所述分词向量进行上下文特征提取，得到与所述分词向量对应的语义向量包括：

计算所述目标向量的平均值，得到所述语义向量。

具体地，所述分析单元112对所述特征向量进行映射处理，得到所述数据分词在所述特征向量中每个维度的概率包括：

将所述概率向量中每个维度的取值确定为所述概率。

抽取单元113根据所述文本标签对所述文本数据进行要素抽取，得到子标签及特征信息。

在本发明的至少一个实施例中，所述抽取单元113根据所述文本标签对所述文本数据进行要素抽取，得到子标签及特征信息包括：

获取所述文本标签中所有二级标签作为所述子标签；

计算所述特征向量与每个标签向量的相似度；

其中，所述文本标签为所述子标签的父标签。

建立单元114确定所述特征信息在所述法律文书中的位置，并根据所述子标签及所述位置建立映射关系，得到文书列表。

在本发明的至少一个实施例中，所述建立单元114确定所述特征信息在所述法律文书中的位置包括：

根据所述特征信息遍历所述法律文书；

在本发明的至少一个实施例中，所述建立单元114根据所述子标签及所述位置建立映射关系，得到文书列表包括：

提取单元115根据所述文书定位请求获取语音信息，并根据所述语音信息提取证据特征。

在本发明的至少一个实施例中，所述语音信息可以是在庭审过程中原告或者被告的语音。

所述证据特征是指所述语音信息中的关键信息。

在本发明的至少一个实施例中，所述提取单元115根据所述文书定位请求获取语音信息包括：

从所述数据信息中获取指示通道的信息作为通道编码；

将与所述通道编码对应的信息确定为连接通道；

获取所述文书定位请求的生成时间；

在本发明的至少一个实施例中，所述提取单元115根据所述语音信息提取证据特征包括：

利用语音识别算法识别所述语音信息，得到目标语句；

对所述目标语句进行分词处理，得到目标分词；

确定所述目标分词在所述目标语句中的词性；

将所述词性为预设词性的目标分词确定为所述证据特征。

其中，所述预设词性包括名词、动词等。

确定单元116根据所述证据特征从所述文书列表中确定证据位置。

在本发明的至少一个实施例中，所述确定单元116根据所述证据特征从所述文书列表中确定证据位置包括：

从所述编码表中获取所述证据特征的证据向量；

将所述目标数据最大的子标签确定为待查标签；

在本发明的至少一个实施例中，在根据所述证据特征从所述文书列表中确定证据位置后，所述获取单元110获取所述文书定位请求的请求编号；

生成单元117根据所述请求编号及所述证据位置生成提示信息；

所述获取单元110获取所述文书定位请求的触发用户；

发送单元118将所述提示信息发送至所述触发用户的终端设备。

如图3所示，是本发明实现法律文书定位方法的较佳实施例的电子设备的结构示意图。

在本发明的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令，例如法律文书定位程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

所述处理器13可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。

示例性的，所述计算机可读指令可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如，所述计算机可读指令可以被分割成获取单元110、预处理单元111、分析单元112、抽取单元113、建立单元114、提取单元115、确定单元116、生成单元117及发送单元118。

所述存储器12可用于存储所述计算机可读指令和/或模块，所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器，例如：硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。

所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机可读指令包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

结合图1，所述电子设备1中的所述存储器12存储计算机可读指令实现一种法律文书定位方法，所述处理器13可执行所述计算机可读指令从而实现：

对所述法律文书进行预处理，得到文本数据；

分析所述文本数据，得到所述文本数据的文本标签；

根据所述证据特征从所述文书列表中确定证据位置。

具体地，所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器13执行时用以实现以下步骤：

对所述法律文书进行预处理，得到文本数据；

分析所述文本数据，得到所述文本数据的文本标签；

根据所述证据特征从所述文书列表中确定证据位置。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种法律文书定位方法，其特征在于，所述法律文书定位方法包括：

对所述法律文书进行预处理，得到文本数据，包括：对所述法律文书进行分词处理，得到文书分词；确定所述文书分词在所述法律文书中的分词位置，并将所述文书分词转换为文书向量；根据所述分词位置依次将所述文书向量输入至预先训练好的文本纠错模型中，得到待修正词及候选词；当检测到用户触发所述候选词时，将所述法律文书中的所述待修正词替换为所述候选词，得到修正文书；确定所述修正文书的文书格式，并检测所述文书格式是否为预设格式；若所述文书格式不为所述预设格式，将所述修正文书的所述文书格式转换为所述预设格式，得到所述文本数据；

分析所述文本数据，得到所述文本数据的文本标签；

根据所述文书定位请求获取语音信息，并根据所述语音信息提取证据特征，所述证据特征是指所述语音信息中的关键信息；

根据所述证据特征从所述文书列表中确定证据位置。

2.如权利要求1所述的法律文书定位方法，其特征在于，所述分析所述文本数据，得到所述文本数据的文本标签包括：

对所述文本数据进行分词处理，得到数据分词；

3.如权利要求2所述的法律文书定位方法，其特征在于，所述根据所述文本标签对所述文本数据进行要素抽取，得到子标签及特征信息包括：

获取所述文本标签中所有二级标签作为所述子标签；

计算所述特征向量与每个标签向量的相似度；

4.如权利要求1所述的法律文书定位方法，其特征在于，所述根据所述文书定位请求确定目标案件包括：

从所述数据信息中获取指示案件的信息作为案件编号；

将所述案件编号写入查询模板中，得到查询语句；

运行所述查询语句，得到所述目标案件。

5.如权利要求4所述的法律文书定位方法，其特征在于，所述根据所述文书定位请求获取语音信息包括：

从所述数据信息中获取指示通道的信息作为通道编码；

将与所述通道编码对应的信息确定为连接通道；

获取所述文书定位请求的生成时间；

6.如权利要求5所述的法律文书定位方法，其特征在于，所述根据所述语音信息提取证据特征包括：

利用语音识别算法识别所述语音信息，得到目标语句；

对所述目标语句进行分词处理，得到目标分词；

确定所述目标分词在所述目标语句中的词性；

将所述词性为预设词性的目标分词确定为所述证据特征。

7.一种法律文书定位装置，其特征在于，所述法律文书定位装置包括：

预处理单元，用于对所述法律文书进行预处理，得到文本数据，包括：对所述法律文书进行分词处理，得到文书分词；确定所述文书分词在所述法律文书中的分词位置，并将所述文书分词转换为文书向量；根据所述分词位置依次将所述文书向量输入至预先训练好的文本纠错模型中，得到待修正词及候选词；当检测到用户触发所述候选词时，将所述法律文书中的所述待修正词替换为所述候选词，得到修正文书；确定所述修正文书的文书格式，并检测所述文书格式是否为预设格式；若所述文书格式不为所述预设格式，将所述修正文书的所述文书格式转换为所述预设格式，得到所述文本数据；

提取单元，用于根据所述文书定位请求获取语音信息，并根据所述语音信息提取证据特征，所述证据特征是指所述语音信息中的关键信息；

8.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有计算机可读指令；及

处理器，执行所述存储器中存储的计算机可读指令以实现如权利要求1至6中任意一项所述的法律文书定位方法。

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至6中任意一项所述的法律文书定位方法。