CN110019659B

CN110019659B - 裁判文书的检索方法及装置

Info

Publication number: CN110019659B
Application number: CN201710643318.5A
Authority: CN
Inventors: 石鹏; 范浩文
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2021-07-30
Anticipated expiration: 2037-07-31
Also published as: CN110019659A

Abstract

本申请公开了一种裁判文书的检索方法及装置。该方法包括：获取检索文本；对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词；标记分词集合中的每个分词对应的词性；对分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于过滤后的分词集合中分词检索目标裁判文书。通过本申请，解决了相关技术中基于语义检索裁判文书的准确率较低的问题。

Description

裁判文书的检索方法及装置

技术领域

本申请涉及裁判文书检索技术领域，具体而言，涉及一种裁判文书的检索方法及装置。

背景技术

相关技术中基于语义对裁判文书的检索，检索流程为：对检索内容进行分词，将分词结果在支持lunce的数据库中进行匹配打分检索，根据打分结果展示排名在前的裁判文书。例如：检索内容为“我被张三打了”，分词结果为我、被、张三、打、了、打了，再对基于分词结果检索到的裁判文书进行打分，根据分值高低对裁判文书进行排名，其实搜索的核心内容是被打，与“张三”、“我”、“了”并没有过多的关联，而检索到的某些裁判文书中存在大量的“张三”、“我”、“了”等词，同时不存在“被”、“打”等关键核心词语，会导致这些无关文书排名靠前，导致检索到的裁判文书并不准确，不符合用户预期。

针对相关技术中基于语义检索裁判文书的准确率较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种裁判文书的检索方法及装置，以解决相关技术中基于语义检索裁判文书的准确率较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种裁判文书的检索方法。该方法包括：获取检索文本；对所述检索文本进行分词处理，得到分词集合，其中，所述分词集合中包括多个分词；标记所述分词集合中的每个分词对应的词性；对所述分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于所述过滤后的分词集合中分词检索目标裁判文书。

进一步地，基于所述过滤后的分词集合中分词检索目标裁判文书包括：确定所述过滤后的分词集合中分词的所占内存空间；基于所述过滤后的分词集合中分词的所占内存空间选择目标算法；采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值；获取分值满足预设值的裁判文书；将分值满足预设值的裁判文书作为所述目标裁判文书。

进一步地，基于所述过滤后的分词集合中分词的所占内存空间选择目标算法包括：判断所述过滤后的分词集合中分词的所占内存空间是否超过预设值；若所述过滤后的分词集合中分词的所占内存空间超过预设值，将余弦向量夹角算法作为所述目标算法；若所述过滤后的分词集合中分词的所占内存空间未超过预设值，将最长公共子序列算法作为所述目标算法，或者，判断所述过滤后的分词集合中分词的数量是否超过预设数量；若所述过滤后的分词集合中分词的数量超过所述预设数量，将余弦向量夹角算法作为所述目标算法；若所述过滤后的分词集合中分词的数量未超过所述预设数量，将最长公共子序列算法作为所述目标算法。

进一步地，当所述目标算法为余弦向量夹角算法时，采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括：对于每篇裁判文书，执行如下操作：对所述裁判文书进行分词，得到所述裁判文书的分词结果；确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词；统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数；根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数，确定所述裁判文书和所述检索文本各自对应的向量；采用余弦向量夹角算法，基于所述裁判文书和检索文本各自对应的向量，确定所述裁判文书和所述检索文本的相似度；基于所述裁判文书和所述检索文本的相似度确定所述裁判文书对应的分值。

进一步地，在对所述裁判文书进行分词得到所述裁判文书的分词结果之后、确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词之前，所述方法还包括：对所述裁判文书的分词结果进行过滤，得到所述裁判文书的过滤后的分词结果；则所述确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词包括：确定在所述裁判文书的过滤后的分词结果和所述过滤后的分词集合中都出现的相同的词；所述统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数包括：统计每种所述相同的词分别在所述裁判文书的过滤后的分词结果和所述过滤后的分词集合中出现的次数；所述根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数、确定所述裁判文书和所述检索文本各自对应的向量包括；根据所述相同的词分别在所述裁判文书的过滤后的分词结果和过滤后的分词集合中出现的次数，确定所述裁判文书和所述检索文本各自对应的向量。

进一步地，当所述目标算法为最长公共子序列算法时，采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括：对于每篇裁判文书，执行如下操作：对所述裁判文书进行分词，得到所述裁判文书的分词结果；将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵；分析所述矩阵的节点每行和每列的分词是否相同；在所述矩阵的节点中存在行和列的分词相同的情况下，将对该节点进行标记；基于所述矩阵的节点中的标记，获取所述裁判文书与所述过滤后的分词集合中分词的最长公共子串；基于所述裁判文书与所述过滤后的分词集合中分词的最长公共子串确定所述裁判文书对应的分值。

进一步地，在对所述裁判文书进行分词得到所述裁判文书的分词结果之后、将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵之前，所述方法还包括：对所述裁判文书的分词结果进行过滤，得到所述裁判文书的过滤后的分词结果；则将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵包括：将所述过滤后的分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵。

为了实现上述目的，根据本申请的另一方面，提供了一种裁判文书的检索装置。该装置包括：获取单元，用于获取检索文本；处理单元，用于对所述检索文本进行分词处理，得到分词集合，其中，所述分词集合中包括多个分词；标记单元，用于标记所述分词集合中的每个分词对应的词性；过滤单元，用于对所述分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；检索单元，用于基于所述过滤后的分词集合中分词检索目标裁判文书。

为了实现上述目的，根据本申请的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的裁判文书的检索方法。

为了实现上述目的，根据本申请的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的裁判文书的检索方法。

通过本申请，采用以下步骤：获取检索文本；对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词；标记分词集合中的每个分词对应的词性；对分词集合中预设词性的分词进行过滤，得到过滤后的分词集合；基于过滤后的分词集合中分词检索目标裁判文书，解决了相关技术中基于语义检索裁判文书的准确率较低的问题。通过对检索文本进行分词，并对分词结果中的预设词性和实体词的分词进行过滤，然后基于过滤后的分词检索裁判文书，进而达到了提升基于语义检索裁判文书的准确率的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的裁判文书的检索方法的流程图；以及

图2是根据本申请实施例提供的裁判文书的检索装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

裁判文书是记载人民法院审理过程和结果，它是诉讼活动结果的载体，也是人民法院确定和分配当事人实体权利义务的惟一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书，既是当事人享有权利和负担义务的凭证，也是上级人民法院监督下级人民法院民事审判活动的重要依据。

最长公共子序列算法，一个字符串的子序列，是指从该字符串中去掉任意多个字符后剩下的字符在不改变顺序的情况下组成的新字符串，例如，输入的文本分词结果为词包ListA，文书分词结果为词包ListB。每篇文书的分词结果都可以看做一个词包，但每篇文书的词包应该都不同；最长公共子序列就是找到在词包ListB中词包ListA去掉任意多个字符后剩下的字符在不改变顺序情况下组成的最长字符串。具体实现算法如下：(1)将两个字符串分别以行和列组成矩阵。(2)计算每个节点行列字符是否相同，如相同则为1。(3)通过找出值为1的最长对角线即可得到最长公共子串。

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括命名实体基本类型包括人名、地名、组织机构名、数量表达式、时间短语、货币短语和百分比等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。命名实体识别通常包括两部分：(1)实体边界识别；(2)确定实体类别(人名、地名、机构名或其他)。

本申请所涉及的实体词即为经过命名实体识别技术识别并标记出来的词，上述三大类、七小类命名实体都是实体词。

根据本申请的实施例，提供了一种裁判文书的检索方法。

图1是根据本申请实施例的裁判文书的检索方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取检索文本。

例如，用户被张三打了，该用户欲检索与自己被打这个事件相关的裁判文书，该用户输入的语义化检索内容为“我被张三打了”用于检索其对应的裁判文书，即获取到的检索文本为“我被张三打了”。

步骤S102，对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词。

例如，对检索文本“我被张三打了”进行分词，得到分词集合，该分词集合包括：“我、被、张三、打、了”等多个分词。

步骤S103，标记分词集合中的每个分词对应的词性。

例如，对上述的分词集合标记每个分词对应的词性，“我”的词性为实体词，“被”的词性为介词，“张三”的词性为实体词，“打”的词性为动词，“了”的词性为助词。

步骤S104，对分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合。

由于有些词性的分词是非核心的检索要素，为了避免非核心的检索要素干扰检索，提升基于语义检索裁判文书的准确率，所以在本申请中将预设词性的分词进行过滤，得到核心的检索要素，即过滤后的分词集合中的分词。例如，将上述分词集合中“我、被、张三、打、了”预设词性和实体词的分词进行过滤，得到过滤后的分词集合包括：“被”，“打”。

由于助词等词性的词是非核心的检索要素，通过对分词集合中词性为助词的分词进行过滤，得到多个过滤后的分词；例如，得到“我、被、张三、打”，对“我、被、张三、打”进行分析，在本申请中的实体词可以为名词或代词。确定“我”、“张三”为实体词；由于用户在检索裁判文书时，实体词也为非核心的检索要素，因此，对过滤后的分词中的实体词也进行过滤，过滤后的分词集合包括：“被”，“打”。

名词、代词一般为实体词，比如人名、地名、指代词均是实体词。

识别检索文本中的实体词可以采用命名实体识别技术来进行处理，由于实体词在裁判文书检索中会造成干扰，为了提升检索裁判文书的准确性，在本实施例中将实体词进行过滤。

需要说明的是，预设词性除了包括助词外，还可以包括连词、拟声词等等，相应的，可以对分词集合中词性为助词、连词或拟声词的分词进行过滤，得到多个过滤后的分词，再对过滤后的分词进行实体词过滤。

另外，剔除预设词性的分词和过滤实体词没有先后执行顺序的限制，最终结果相同，只是先剔除预设词性的分词后再过滤实体词性能会更好，代码执行效率更高。

步骤S105，基于过滤后的分词集合中分词检索目标裁判文书。

通过对非核心的检索要素的分词进行过滤，基于核心的分词进行检索目标裁判文书，提高语义检索精度，从而提升语义检索裁判文书的准确率。

为了提升检索裁判文书的速度，在本申请实施例提供的裁判文书的检索方法中，基于过滤后的分词集合中分词检索目标裁判文书包括：确定过滤后的分词集合中分词的所占内存空间；基于过滤后的分词集合中分词的所占内存空间选择目标算法；采用目标算法计算裁判文书库中每篇裁判文书对应的分值；获取分值满足预设值的裁判文书；将分值满足预设值的裁判文书作为目标裁判文书。

在本申请中提及的分词的所占内存空间，也可以为分词的数量，也即，基于过滤后的分词集合中分词的所占内存空间或分词的数量选择目标算法检索裁判文书，从而提升检索裁判文书的速度。

可选地，在本申请实施例提供的裁判文书的检索方法中，基于过滤后的分词集合中分词的所占内存空间选择目标算法包括：判断过滤后的分词集合中分词的所占内存空间是否超过预设值；若过滤后的分词集合中分词的所占内存空间超过预设值，将余弦向量夹角算法作为目标算法；若过滤后的分词集合中分词的所占内存空间未超过预设值，将最长公共子序列算法作为目标算法。

例如，在过滤后的分词集合中分词的所占内存空间是否超过预设值，也可以判断过滤后的分词集合中分词的数量是否超过预设数量，具体地，判断过滤后的分词集合中分词的数量是否超过预设数量；若过滤后的分词集合中分词的数量超过预设数量，将余弦向量夹角算法作为目标算法；若过滤后的分词集合中分词的数量未超过预设数量，将最长公共子序列算法作为目标算法。

可选地，在本申请实施例提供的裁判文书的检索方法中，当目标算法为余弦向量夹角算法时，采用目标算法计算裁判文书库中每篇裁判文书对应的分值包括：对于每篇裁判文书，执行如下操作：对裁判文书进行分词，得到裁判文书的分词结果；确定在裁判文书的分词结果和过滤后的分词集合中都出现的相同的词；统计每种相同的词分别在裁判文书的分词结果和过滤后的分词集合中出现的次数；根据相同的词分别在裁判文书的分词结果和过滤后的分词集合中出现的次数，确定裁判文书和检索文本各自对应的向量；采用余弦向量夹角算法，基于裁判文书和检索文本各自对应的向量，确定裁判文书和检索文本的相似度；基于裁判文书和检索文本的相似度确定裁判文书对应的分值。

优选的，在对裁判文书进行分词、得到裁判文书的分词结果之后，该方法还可以包括：对裁判文书的分词结果进行过滤，得到裁判文书的过滤后的分词结果。之后，确定在裁判文书的过滤后的分词结果和过滤后的分词集合中都出现的相同的词；统计每种相同的词分别在裁判文书的过滤后的分词结果和过滤后的分词集合中出现的次数；根据相同的词分别在裁判文书的过滤后的分词结果和过滤后的分词集合中出现的次数，确定裁判文书和检索文本各自对应的向量；采用余弦向量夹角算法，基于裁判文书和检索文本各自对应的向量，确定裁判文书和检索文本的相似度；基于裁判文书和检索文本的相似度确定裁判文书对应的分值。

对裁判文书的分词结果的过滤可以如对检索文本的过滤一样，对分词结果中的预设词性和/或实体词的分词进行过滤。

通过对裁判文书的分词结果进行过滤，可以有效减少分词结果中的分词量，加快各篇裁判文书对应分值的计算速度。

具体地，采用余弦向量夹角算法，基于向量确定每篇裁判文书和过滤后的分词集合中分词相似度可以包括：检测每篇裁判文书的分词结果中是否存在无意义的词，其中，无意义的词可以包括以下至少之一：标点，助词，空格；在检测结果为是的情况下，过滤掉分词结果中出现的无意义的词，并获取过滤后的分词集合中分词和每篇裁判文书中相同的词，从而可以在对过滤后的分词集合中分词和每篇裁判文书中相同的词进行确定时减少工作量，提高统计效率。确定相同的词分别在过滤后的分词集合中分词以及每篇裁判文书中出现的次数分别对应的向量；采用余弦向量夹角算法，基于向量确定过滤后的分词集合中分词和每篇裁判文书的相似度，例如，过滤后的分词集合和某篇裁判文书中相同的词在过滤后的分词集合中可以表示为：Z₁C₁,Z₁C₂,Z₁C₃,Z₁C₄……Z₁C_n，它们在过滤后的分词集合中分别对应的个数为Z₁N₁,Z₁N₂,Z₁N₃……Z₁N_n，那么，过滤后的分词集合对应的向量也就是(Z₁N₁,Z₁N₂,Z₁N₃……Z₁N_n)；过滤后的分词集合和该篇裁判文书中相同的词在该篇裁判文书中可以表示为：Z₂C₁,Z₂C₂,Z₂C₃,Z₂C₄……Z₂C_n，它们在该篇裁判文书中分别对应的个数为Z₂N₁,Z₂N₂,Z₂N₃……Z₂N_n，那么，该篇裁判文书对应的向量也就是(Z₂N₁,Z₂N₂,Z₂N₃……Z₂N_n)；其中，Z₁C₁和Z₂C₁表示过滤后的分词集合和该篇裁判文书中相同的词，也即是，Z₁C₁和Z₂C₁的内容是相同的。

可选地，根据统计的次数，确定检索文本和该篇裁判文书的相似度可以包括：确定检索文本和该篇裁判文书中都出现的相同的词分别在检索文本和该篇裁判文书中出现的次数分别对应的向量；采用余弦向量夹角算法，基于向量确定检索文本和该篇裁判文书的相似度，具体地，可以通过公式计算：

其中，Z₁C_n和Z₂C_n表示检索文本和该篇裁判文书中第n个相同的词，Z₁N_n和Z₂N_n表示检索文本和该篇裁判文书中第n个相同的词分别在检索文本和该篇裁判文书中出现的次数，n为相同的词的个数，n为自然数。

可选地，在本申请实施例提供的裁判文书的检索方法中，当目标算法为最长公共子序列算法时，采用目标算法计算裁判文书库中每篇裁判文书对应的分值包括：对于每篇裁判文书，执行如下操作：对裁判文书进行分词，得到裁判文书的分词结果；将分词结果中的分词与过滤后的分词集合中分词以行和列组成矩阵；分析矩阵的节点每行和每列的分词是否相同；在矩阵的节点中存在行和列的分词相同的情况下，将对该节点进行标记；基于矩阵的节点中的标记，获取裁判文书与过滤后的分词集合中分词的最长公共子串；基于裁判文书与过滤后的分词集合中分词的最长公共子串确定裁判文书对应的分值。

通过上述方案，在过滤后的分词集合中分词的所占内存空间未超过预设值的情况下，或过滤后的分词集合中分词未超过预设个数的情况下，采用最长公共子序列算法作为目标算法，基于每篇裁判文书与过滤后的分词集合中分词的最长公共子串确定每篇裁判文书对应的分值，从而根据每篇裁判文书对应的分值对用户推送裁判文书，提升了检索裁判文书的速度。

优选的，在对裁判文书进行分词得到裁判文书的分词结果之后，还可以包括：对裁判文书的分词结果进行过滤，得到裁判文书的过滤后的分词结果。之后，将过滤后的分词结果中的分词与过滤后的分词集合中分词以行和列组成矩阵；分析所述矩阵的节点每行和每列的分词是否相同；在矩阵的节点中存在行和列的分词相同的情况下，将对该节点进行标记；基于矩阵的节点中的标记，获取裁判文书与过滤后的分词集合中分词的最长公共子串；基于裁判文书与过滤后的分词集合中分词的最长公共子串确定裁判文书对应的分值。

本申请实施例提供的裁判文书的检索方法，通过获取检索文本；对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词；标记分词集合中的每个分词对应的词性；对分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于过滤后的分词集合中分词检索目标裁判文书，解决了相关技术中基于语义检索裁判文书的准确率较低的问题。通过对检索文本进行分词，并对分词结果中的预设词性和实体词的分词进行过滤，然后基于过滤后的分词检索裁判文书，进而达到了提升基于语义检索裁判文书的准确率的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种裁判文书的检索装置，需要说明的是，本申请实施例的裁判文书的检索装置可以用于执行本申请实施例所提供的用于裁判文书的检索方法。以下对本申请实施例提供的裁判文书的检索装置进行介绍。

图2是根据本申请实施例的裁判文书的检索装置的示意图。如图2所示，该装置包括：获取单元10、处理单元20、标记单元30、过滤单元40和检索单元50。

具体地，获取单元10获取检索文本。

处理单元20对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词；

标记单元30标记分词集合中的每个分词对应的词性。

过滤单元40对分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合。

检索单元50基于过滤后的分词集合中分词检索目标裁判文书。

本申请实施例提供的裁判文书的检索装置，通过获取单元10获取检索文本；处理单元20对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词；标记单元30标记分词集合中的每个分词对应的词性；过滤单元40对分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；检索单元50基于过滤后的分词集合中分词检索目标裁判文书，解决了相关技术中基于语义检索裁判文书的准确率较低的问题，通过对检索文本进行分词，并对分词结果中的预设词性和实体词的分词进行过滤，然后基于过滤后的分词检索裁判文书，进而达到了提升基于语义检索裁判文书的准确率的效果。

所述裁判文书的检索装置包括处理器和存储器，上述获取单元10、处理单元20、标记单元30、过滤单元40和检索单元50等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来检索裁判文书。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现裁判文书的检索方法。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行裁判文书的检索方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取检索文本；对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词；标记分词集合中的每个分词对应的词性；对分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于过滤后的分词集合中分词检索目标裁判文书。

基于过滤后的分词集合中分词检索目标裁判文书包括：确定过滤后的分词集合中分词的所占内存空间；基于过滤后的分词集合中分词的所占内存空间选择目标算法；采用目标算法计算裁判文书库中每篇裁判文书对应的分值；获取分值满足预设值的裁判文书；将分值满足预设值的裁判文书作为目标裁判文书。

基于过滤后的分词集合中分词的所占内存空间选择目标算法包括：判断过滤后的分词集合中分词的所占内存空间是否超过预设值；若过滤后的分词集合中分词的所占内存空间超过预设值，将余弦向量夹角算法作为目标算法；若过滤后的分词集合中分词的所占内存空间未超过预设值，将最长公共子序列算法作为目标算法，或者，判断过滤后的分词集合中分词的数量是否超过预设数量；若过滤后的分词集合中分词的数量超过预设数量，将余弦向量夹角算法作为目标算法；若过滤后的分词集合中分词的数量未超过预设数量，将最长公共子序列算法作为目标算法。

当目标算法为余弦向量夹角算法时，采用目标算法计算裁判文书库中每篇裁判文书对应的分值包括：对于每篇裁判文书，执行如下操作：对裁判文书进行分词，得到裁判文书的分词结果；确定在裁判文书的分词结果和过滤后的分词集合中都出现的相同的词；统计每种相同的词分别在裁判文书的分词结果和过滤后的分词集合中出现的次数；根据相同的词分别在裁判文书的分词结果和过滤后的分词集合中出现的次数，确定裁判文书和检索文本各自对应的向量；采用余弦向量夹角算法，基于裁判文书和检索文本各自对应的向量，确定裁判文书和检索文本的相似度；基于裁判文书和检索文本的相似度确定裁判文书对应的分值。

对裁判文书进行分词，得到裁判文书的分词结果之后，方法还包括：对裁判文书的分词结果进行过滤，得到裁判文书的过滤后的分词结果。之后，确定在裁判文书的过滤后的分词结果和过滤后的分词集合中都出现的相同的词；统计每种相同的词分别在裁判文书的过滤后的分词结果和过滤后的分词集合中出现的次数；根据相同的词分别在裁判文书的过滤后的分词结果和过滤后的分词集合中出现的次数，确定裁判文书和检索文本各自对应的向量；采用余弦向量夹角算法，基于裁判文书和检索文本各自对应的向量，确定裁判文书和检索文本的相似度；基于裁判文书和检索文本的相似度确定裁判文书对应的分值。

当目标算法为最长公共子序列算法时，采用目标算法计算裁判文书库中每篇裁判文书对应的分值包括：对于每篇裁判文书，执行如下操作：对裁判文书进行分词，得到裁判文书的分词结果；将分词结果中的分词与过滤后的分词集合中分词以行和列组成矩阵；分析矩阵的节点每行和每列的分词是否相同；在矩阵的节点中存在行和列的分词相同的情况下，将对该节点进行标记；基于矩阵的节点中的标记，获取裁判文书与过滤后的分词集合中分词的最长公共子串；基于裁判文书与过滤后的分词集合中分词的最长公共子串确定裁判文书对应的分值。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取检索文本；对检索文本进行分词处理，得到分词集合，其中，分词集合中包括多个分词；标记分词集合中的每个分词对应的词性；对分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；基于过滤后的分词集合中分词检索目标裁判文书。

在对裁判文书进行分词得到裁判文书的分词结果之后，还可以包括：对裁判文书的分词结果进行过滤，得到裁判文书的过滤后的分词结果。之后，将过滤后的分词结果中的分词与过滤后的分词集合中分词以行和列组成矩阵；分析所述矩阵的节点每行和每列的分词是否相同；在矩阵的节点中存在行和列的分词相同的情况下，将对该节点进行标记；基于矩阵的节点中的标记，获取裁判文书与过滤后的分词集合中分词的最长公共子串；基于裁判文书与过滤后的分词集合中分词的最长公共子串确定裁判文书对应的分值。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种裁判文书的检索方法，其特征在于，包括：

获取检索文本；

对所述检索文本进行分词处理，得到分词集合，其中，所述分词集合中包括多个分词；

标记所述分词集合中的每个分词对应的词性；

对所述分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；

基于所述过滤后的分词集合中分词检索目标裁判文书；

其中，基于所述过滤后的分词集合中分词检索目标裁判文书包括：

确定所述过滤后的分词集合中分词的所占内存空间；

基于所述过滤后的分词集合中分词的所占内存空间选择目标算法；

采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值；

获取分值满足预设值的裁判文书；

将分值满足预设值的裁判文书作为所述目标裁判文书；

其中，若所述过滤后的分词集合中分词的所占内存空间未超过预设值，或者，若所述过滤后的分词集合中分词的数量未超过预设数量，将最长公共子序列算法作为所述目标算法；

采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括：

对于每篇裁判文书，执行如下操作：

对所述裁判文书进行分词，得到所述裁判文书的分词结果；

将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵；

分析所述矩阵的节点每行和每列的分词是否相同；

在所述矩阵的节点中存在行和列的分词相同的情况下，将对该节点进行标记；

基于所述矩阵的节点中的标记，获取所述裁判文书与所述过滤后的分词集合中分词的最长公共子串；

基于所述裁判文书与所述过滤后的分词集合中分词的最长公共子串确定所述裁判文书对应的分值。

2.根据权利要求1所述的方法，其特征在于，基于所述过滤后的分词集合中分词的所占内存空间选择目标算法包括：

判断所述过滤后的分词集合中分词的所占内存空间是否超过预设值；

若所述过滤后的分词集合中分词的所占内存空间超过预设值，将余弦向量夹角算法作为所述目标算法；

或者，

判断所述过滤后的分词集合中分词的数量是否超过预设数量；

若所述过滤后的分词集合中分词的数量超过所述预设数量，将余弦向量夹角算法作为所述目标算法。

3.根据权利要求2所述的方法，其特征在于，当所述目标算法为余弦向量夹角算法时，采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括：

对于每篇裁判文书，执行如下操作：

对所述裁判文书进行分词，得到所述裁判文书的分词结果；

确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词；

统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数；

根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数，确定所述裁判文书和所述检索文本各自对应的向量；

采用余弦向量夹角算法，基于所述裁判文书和检索文本各自对应的向量，确定所述裁判文书和所述检索文本的相似度；

基于所述裁判文书和所述检索文本的相似度确定所述裁判文书对应的分值。

4.根据权利要求3所述的方法，其特征在于，在对所述裁判文书进行分词得到所述裁判文书的分词结果之后、确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词之前，所述方法还包括：

对所述裁判文书的分词结果进行过滤，得到所述裁判文书的过滤后的分词结果；

则所述确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词包括：确定在所述裁判文书的过滤后的分词结果和所述过滤后的分词集合中都出现的相同的词；

所述统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数包括：统计每种所述相同的词分别在所述裁判文书的过滤后的分词结果和所述过滤后的分词集合中出现的次数；

所述根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数、确定所述裁判文书和所述检索文本各自对应的向量包括：根据所述相同的词分别在所述裁判文书的过滤后的分词结果和过滤后的分词集合中出现的次数，确定所述裁判文书和所述检索文本各自对应的向量。

5.根据权利要求1所述的方法，其特征在于，在对所述裁判文书进行分词得到所述裁判文书的分词结果之后、将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵之前，所述方法还包括：

则将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵包括：将所述过滤后的分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵。

6.一种裁判文书的检索装置，其特征在于，包括：

获取单元，用于获取检索文本；

处理单元，用于对所述检索文本进行分词处理，得到分词集合，其中，所述分词集合中包括多个分词；

标记单元，用于标记所述分词集合中的每个分词对应的词性；

过滤单元，用于对所述分词集合中预设词性和实体词的分词进行过滤，得到过滤后的分词集合；

检索单元，用于基于所述过滤后的分词集合中分词检索目标裁判文书；

其中，所述检索单元还用于确定所述过滤后的分词集合中分词的所占内存空间；基于所述过滤后的分词集合中分词的所占内存空间选择目标算法；采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值；获取分值满足预设值的裁判文书；将分值满足预设值的裁判文书作为所述目标裁判文书；

所述检索单元包括：对于每篇裁判文书，执行如下操作：对所述裁判文书进行分词，得到所述裁判文书的分词结果；将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵；分析所述矩阵的节点每行和每列的分词是否相同；在所述矩阵的节点中存在行和列的分词相同的情况下，将对该节点进行标记；基于所述矩阵的节点中的标记，获取所述裁判文书与所述过滤后的分词集合中分词的最长公共子串；基于所述裁判文书与所述过滤后的分词集合中分词的最长公共子串确定所述裁判文书对应的分值。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至4中任意一项所述的裁判文书的检索方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的裁判文书的检索方法。