CN110969018A

CN110969018A - 案情描述要素提取方法、机器学习模型获得方法及装置

Info

Publication number: CN110969018A
Application number: CN201811161122.3A
Authority: CN
Inventors: 戴泽辉
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-04-07
Also published as: WO2020063513A1

Abstract

本发明公开了一种案情描述要素提取方法、机器学习模型获得方法及装置，可以获得待处理的司法文本；对所述司法文本进行分词，获得词汇序列；获得所述词汇序列中各词汇的词汇向量构成的矩阵；将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，所述案情描述要素用于确定所述待处理的司法文本的判决信息，实现从司法文本中确定案情描述要素，可以方便用户快速从司法文本中找到关键信息，节省了用户的时间。

Description

案情描述要素提取方法、机器学习模型获得方法及装置

技术领域

本发明涉及司法分析领域，尤其涉及案情描述要素提取方法、机器学习模型获得方法及装置。

背景技术

随着法制的健全，我国人民群众的法律意识越来越高。

用户常有快速了解司法文本中的重要信息的需求，案情描述要素携带着案情的最重要信息，因此从司法文本中提取案情描述要素十分重要。由于司法文本中携带的信息较多，如：双方辩论、审判相关人士信息、证据信息等，因此如何快速、准确的获得案情描述要素仍是一个亟待解决的技术难题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的案情描述要素提取方法、机器学习模型获得方法及装置，方案如下：

本发明提供一种案情描述要素提取方法，包括：

获得待处理的司法文本；

对所述司法文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，所述案情描述要素用于确定所述待处理的司法文本的判决信息。

优选的，所述将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，包括：

将所述矩阵输入预设的机器学习模型中，获得所述预设的机器学习模型输出的所述待处理的司法文本的案情描述要素；

或者，将所述矩阵输入预设的机器学习模型中，根据所述预设的机器学习模型获得的词汇权重和/或语句权重确定所述待处理的司法文本的案情描述要素。

优选的，所述获得所述词汇序列中各词汇的词汇向量构成的矩阵，包括：

对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；

按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的矩阵。

优选的，所述预设的机器学习模型为序列标注模型，或者，所述预设的机器学习模型为下述三种模型中的任一种模型，或者，所述预设的机器学习模型为下述三种模型中的任意两种的结合模型：

卷积神经网络模型、循环神经网络模型、注意力模型。

本发明还提供一种机器学习模型获得方法，包括：

获得标注有案情描述要素的训练文本，所述训练文本为司法文本；

对所述训练文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

对所述矩阵及标注的案情描述要素进行机器学习，获得机器学习模型，所述机器学习模型的输入为：词汇向量构成的矩阵，所述机器学习模型的输出为：案情描述要素。

本发明还提供一种机器学习模型获得方法，包括：

获得标注有判决信息的训练文本，所述训练文本为司法文本；

对所述训练文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

对所述矩阵及标注的判决信息进行机器学习，获得至少一个词汇的词汇权重和/或至少一个语句的语句权重，根据获得的权重获得机器学习模型，所述机器学习模型的输入为：词汇向量构成的矩阵，所述机器学习模型的输出为：判决预测信息。

本发明还提供一种案情描述要素提取装置，包括：

第一文本获得单元，用于获得待处理的司法文本；

第一分词单元，用于对所述司法文本进行分词，获得词汇序列；

矩阵获得单元，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；

要素获得单元，用于将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，所述案情描述要素用于确定所述待处理的司法文本的判决信息。

本发明还提供一种机器学习模型获得装置，包括：

第二文本获得单元，用于获得标注有案情描述要素的训练文本，所述训练文本为司法文本；

第二分词单元，用于对所述训练文本进行分词，获得词汇序列；

第一训练单元，用于对所述矩阵及标注的案情描述要素进行机器学习，获得机器学习模型，所述机器学习模型的输入为：词汇向量构成的矩阵，所述机器学习模型的输出为：案情描述要素。

本发明还提供一种机器学习模型获得装置，包括：

第三文本获得单元，用于获得标注有判决信息的训练文本，所述训练文本为司法文本；

第二训练单元，用于对所述矩阵及标注的判决信息进行机器学习，获得至少一个词汇的词汇权重和/或至少一个语句的语句权重，根据获得的权重获得机器学习模型，所述机器学习模型的输入为：词汇向量构成的矩阵，所述机器学习模型的输出为：判决预测信息。

本发明还提供一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行如上述案情描述要素提取方法和/或如上述机器学习模型获得方法。

本发明还提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行如上述案情描述要素提取方法和/或如上述机器学习模型获得方法。

借由上述技术方案，本发明提供的案情描述要素提取方法、机器学习模型获得方法及装置，可以获得待处理的司法文本；对所述司法文本进行分词，获得词汇序列；获得所述词汇序列中各词汇的词汇向量构成的矩阵；将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，所述案情描述要素用于确定所述待处理的司法文本的判决信息，实现从司法文本中确定案情描述要素，可以方便用户快速从司法文本中找到关键信息，节省了用户的时间。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种案情描述要素提取方法的流程图；

图2示出了本发明实施例还提供的一种机器学习模型获得方法的流程图；

图3示出了本发明实施例还提供的另一种机器学习模型获得方法的流程图；

图4示出了本发明实施例提供的一种案情描述要素提取装置的结构示意图；

图5示出了本发明实施例还提供的一种机器学习模型获得装置的结构示意图；

图6示出了本发明实施例还提供的另一种机器学习模型获得装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例提供的一种案情描述要素提取方法，可以包括以下步骤：

S110、获得待处理的司法文本；

其中，司法文本可以为裁判文书或裁判文书的一部分，或者为律师或其他人士编写的与司法有关的文字。

S120、对所述司法文本进行分词，获得词汇序列；

可选的，本发明可以使用多种分词工具进行分词获得词汇序列，如哈工大LTP、jieba等。除获得词汇序列外，本发明还可以对各词汇的词性进行识别，从而获得词性序列。

例如采用哈工大LTP处理“小明酒后开车，把小红的车撞了。”，LTP 返回的分词结果可以为[小明，酒后，开车，把，小华，的，车，撞，了]，词性序列为[nh,nt,v,wp,p,nh,u,n,v,u,wp]。

S130、获得所述词汇序列中各词汇的词汇向量构成的矩阵；

其中，步骤S130可以具体包括：

具体的，本发明可以通过wordvector技术获得词向量。如果词汇不在 wordvector的词汇表中，则使用指定的预设词向量进行表达。

本发明可以使用一定维度的随机向量来表达词性，使词性特征化。例如对于共计30种词性[A1,A2,…,A30]，可以用向量a1表示A1，向量a2 表示A2等。其中a1、a2等的维度为一个指定的固定值，例如20维，每一个维度都是一个随机生成的接近于0的小数。

在获得词向量与词性向量后，将二者拼接即可形成词汇的向量化表达，即：词汇向量。词汇向量的维度为词向量的维度+词性向量的维度。对于司法文本中的每个词汇，都获得其词汇向量，再将司法文本中的每个词汇的词汇向量拼接起来，就形成一个矩阵。例如：当拼接后的词汇向量维度为 120且司法文本中排列的词汇数量为200时，本发明可以生成一个维度为 200*120的矩阵。为了后续卷积操作的方便，本发明可以将这个矩阵在词汇数量方向扩充至一个特定长度(例如600，形成600*120的矩阵)，扩充的部分通过补0进行处理。

可以理解的是，上述矩阵包含了司法文本的特征信息。

S140、将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，所述案情描述要素用于确定所述待处理的司法文本的判决信息。

其中，本发明中的案情描述要素可以为与案情相关的词汇、语句甚至段落。例如：某交通肇事裁判文书中的“酒后驾车”、“三人重伤”、“一人死亡”、“逃逸”等案情描述文本即为案情描述要素。

其中，步骤S140中将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素可以具体包括：

具体的，上述词汇权重、语句权重可以与词汇、语句的出现频率有关，也可以和词汇、语句的前后文本有关。具体的，上述预设的机器学习模型可以为用于进行判决预测的模型。通过无监督的机器学习方法对大量的裁判文书进行机器学习后，可以得到裁判文书中词汇、语句的权重，从而基于这些权重获得用于进行判决预测的模型。该模型在获得裁判文书时，可以确定裁判文书中各词汇、语句的权重，进而就可以根据权重确定案情描述要素。例如：将权重大于预设值的词汇和/或语句确定为司法文本的案情描述要素。或者，将权重排序在前N位的词汇和/或语句确定为司法文本的案情描述要素。

可选的，所述预设的机器学习模型为序列标注模型，或者，所述预设的机器学习模型为下述三种模型中的任一种模型，或者，所述预设的机器学习模型为下述三种模型中的任意两种的结合模型：

卷积神经网络模型、循环神经网络模型、注意力模型。

具体的，本发明中的预设的机器学习模型可以通过有监督的机器学习方法学习得到，即通过对标注有案情描述要素的司法文本进行学习后得到。在本发明其他实施例中，本发明中的预设的机器学习模型也可以通过无监督的机器学习方法学习得到，即对没有标注的司法文本进行学习后得到。

本发明实施例提供了一种案情描述要素提取方法，可以获得待处理的司法文本；对所述司法文本进行分词，获得词汇序列；获得所述词汇序列中各词汇的词汇向量构成的矩阵；将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，所述案情描述要素用于确定所述待处理的司法文本的判决信息，实现从司法文本中确定案情描述要素，可以方便用户快速从司法文本中找到关键信息，节省了用户的时间。

如图2所示，本发明实施例还提供了一种机器学习模型获得方法，可以包括以下步骤：

S210、获得标注有案情描述要素的训练文本，所述训练文本为司法文本；

其中，本发明可以从中国裁判文书网中获得训练文本，也可以通过其他方式获得，本发明在此不做限定。

S220、对所述训练文本进行分词，获得词汇序列；

S230、获得所述词汇序列中各词汇的词汇向量构成的矩阵；

其中，步骤S220、S230与图1中步骤S120、S130相似，不再赘述。

S240、对所述矩阵及标注的案情描述要素进行机器学习，获得机器学习模型，所述机器学习模型的输入为：词汇向量构成的矩阵，所述机器学习模型的输出为：案情描述要素。

图2所示方法可以通过有监督的机器学习方法获得可以输出案情描述要素的机器学习模型，通过该模型本发明就可以获得案情描述要素。

如图3所示，本发明实施例还提供了另一种机器学习模型获得方法，可以包括以下步骤：

S310、获得标注有判决信息的训练文本，所述训练文本为司法文本；

其中，判决信息可以包括：罪名、刑期、引用的法条中的至少一种。

S320、对所述训练文本进行分词，获得词汇序列；

S330、获得所述词汇序列中各词汇的词汇向量构成的矩阵；

步骤S320、S330与图1所示步骤S120、S130相似，不再赘述。

S340、对所述矩阵及标注的判决信息进行机器学习，获得至少一个词汇的词汇权重和/或至少一个语句的语句权重，根据获得的权重获得机器学习模型，所述机器学习模型的输入为：词汇向量构成的矩阵，所述机器学习模型的输出为：判决预测信息。

在实际应用中，机器学习模型可以将获得的词汇的词汇权重和/或语句的语句权重输出。

其中，机器学习模型可以为卷积神经网络模型，和/或，所述判决预测信息包括：罪名、刑期、引用的法条中的至少一种。

在机器学习模型为卷积神经网络模型，且所述判决预测信息包括：罪名、刑期和引用的法条时，步骤S340可以具体包括：

使用卷积神经网络技术对标注的罪名、标注的引用的法条及所述矩阵进行机器学习，获得至少一个词汇的词汇权重和/或至少一个语句的语句权重，根据获得的权重获得第一卷积神经网络模型，所述第一卷积神经网络模型的网络结构层数小于预设层数，所述第一卷积神经网络模型的输入为：词汇向量构成的矩阵，所述第一卷积神经网络模型的输出为：罪名和引用的法条；

使用卷积神经网络技术对标注的刑期及所述矩阵进行机器学习，获得至少一个词汇的词汇权重和/或至少一个语句的语句权重，根据获得的权重获得第二卷积神经网络模型，所述第二卷积神经网络模型的网络结构层数大于预设层数，所述第二卷积神经网络模型的输入为：词汇向量构成的矩阵，所述第二卷积神经网络模型的输出为：刑期。

可选的，机器学习模型为卷积神经网络模型，和/或，所述判决预测信息包括：罪名、刑期、引用的法条中的至少一种；

在机器学习模型为卷积神经网络模型，且所述判决预测信息包括：罪名、刑期和引用的法条时，所述步骤S340可以具体包括：

使用卷积神经网络技术对标注的罪名、标注的刑期、标注的引用的法条及所述矩阵进行机器学习，获得至少一个词汇的词汇权重和/或至少一个语句的语句权重，根据获得的权重获得卷积神经网络模型，所述卷积神经网络模型输出的罪名和引用的法条根据网络结构中的第一预设层数组生成的特征向量得到，所述卷积神经网络模型输出的刑期根据网络结构中的第二预设层数组生成的特征向量得到，其中，所述第一预设层数组中各层数均小于预设层数，所述第二预设层数组中各层数均大于所述预设层数。

与上述方法实施例相对应，本发明实施例还提供一种案情描述要素提取装置，其结构如图4所示，可以包括：第一文本获得单元11、第一分词单元12、矩阵获得单元13和要素获得单元14。

第一文本获得单元11，用于获得待处理的司法文本；

第一分词单元12，用于对所述司法文本进行分词，获得词汇序列；

矩阵获得单元13，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；

其中，矩阵获得单元13获得矩阵的方式有但不限于有如下方式：

对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的矩阵，具体说明请参阅方法实施例，对此本实施例不再阐述。

要素获得单元14，用于将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，所述案情描述要素用于确定所述待处理的司法文本的判决信息。

其中，本发明中的案情描述要素可以为与案情相关的词汇、语句甚至段落。例如：某交通肇事裁判文书中的“酒后驾车”、“三人重伤”、“一人死亡”、“逃逸”等案情描述文本即为案情描述要素。在本实施例中，要素获得单元14获得案情描述要素的方式如下：

对于上述方式的具体说明请参阅方法实施例，对此本实施例不再阐述。在本实施例中所述预设的机器学习模型为序列标注模型，或者，所述预设的机器学习模型为下述三种模型中的任一种模型，或者，所述预设的机器学习模型为下述三种模型中的任意两种的结合模型：卷积神经网络模型、循环神经网络模型、注意力模型，具体说明同样请参阅方法实施例，对此本实施例不再阐述。

本发明实施例提供了一种案情描述要素提取装置，可以获得待处理的司法文本；对所述司法文本进行分词，获得词汇序列；获得所述词汇序列中各词汇的词汇向量构成的矩阵；将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，所述案情描述要素用于确定所述待处理的司法文本的判决信息，实现从司法文本中确定案情描述要素，可以方便用户快速从司法文本中找到关键信息，节省了用户的时间。

所述案情描述要素提取装置包括处理器和存储器，上述第一文本获得单元11、第一分词单元12、矩阵获得单元13和要素获得单元14等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现从司法文本中确定案情描述要素，可以方便用户快速从司法文本中找到关键信息，节省了用户的时间。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

与上述方法实施例相对应，本发明实施例还提供一种机器学习模型获得装置，其结构如图5所示，可以包括：第二文本获得单元21、第二分词单元22、矩阵获得单元23和第一训练单元24。

第二文本获得单元21，用于获得标注有案情描述要素的训练文本，所述训练文本为司法文本；

第二分词单元22，用于对所述训练文本进行分词，获得词汇序列；

矩阵获得单元23，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；

在本实施例中，第二获得单元21、第二分词单元22和矩阵获得单元 23的说明请参阅上述装置中对第一获得单元11、第一分词单元12和矩阵获得单元13的说明。

第一训练单元24，用于对所述矩阵及标注的案情描述要素进行机器学习，获得机器学习模型，所述机器学习模型的输入为：词汇向量构成的矩阵，所述机器学习模型的输出为：案情描述要素。

由此通过有监督的机器学习方法获得可以输出案情描述要素的机器学习模型，进而通过该模型本发明就可以获得案情描述要素。

所述机器学习模型获得装置包括处理器和存储器，上述第二文本获得单元21、第二分词单元22、矩阵获得单元23和第一训练单元24等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来通过有监督的机器学习方法获得可以输出案情描述要素的机器学习模型，进而通过该模型本发明就可以获得案情描述要素。

与上述方法实施例相对应，本发明实施例还提供一种机器学习模型获得装置，其结构如图6所示，可以包括：第三文本获得单元31、第二分词单元22、矩阵获得单元33和第二训练单元34。

第三文本获得单元31，用于获得标注有判决信息的训练文本，所述训练文本为司法文本；其中，判决信息可以包括：罪名、刑期、引用的法条中的至少一种。

矩阵获得单元33，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；

在本实施例中，第三获得单元31、第二分词单元22和矩阵获得单元 33的说明请参阅上述装置中对第一文本获得单元11、第一分词单元12和矩阵获得单元13的说明。

第二训练单元34，用于对所述矩阵及标注的判决信息进行机器学习，获得至少一个词汇的词汇权重和/或至少一个语句的语句权重，根据获得的权重获得机器学习模型，所述机器学习模型的输入为：词汇向量构成的矩阵，所述机器学习模型的输出为：判决预测信息。

在机器学习模型为卷积神经网络模型，且所述判决预测信息包括：罪名、刑期和引用的法条时，第二训练单元34具体用于：

所述机器学习模型获得装置包括处理器和存储器，上述第三文本获得单元31、第二分词单元22、矩阵获得单元33和第二训练单元34等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来获得用于对判决进行预测的机器学习模型。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述案情描述要素提取方法和/或所述机器学习模型获得方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述案情描述要素提取方法和/或所述机器学习模型获得方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

一种案情描述要素提取方法，包括：

获得待处理的司法文本；

对所述司法文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

卷积神经网络模型、循环神经网络模型、注意力模型。

一种机器学习模型获得方法，包括：

对所述训练文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

一种机器学习模型获得方法，包括：

对所述训练文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

一种案情描述要素提取方法，包括：

获得待处理的司法文本；

对所述司法文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

卷积神经网络模型、循环神经网络模型、注意力模型。

一种机器学习模型获得方法，包括：

对所述训练文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

一种机器学习模型获得方法，包括：

对所述训练文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种案情描述要素提取方法，其特征在于，包括：

获得待处理的司法文本；

对所述司法文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

2.根据权利要求1所述的方法，其特征在于，所述将所述矩阵输入预设的机器学习模型中，获得所述待处理的司法文本的案情描述要素，包括：

3.根据权利要求1所述的方法，其特征在于，所述获得所述词汇序列中各词汇的词汇向量构成的矩阵，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述预设的机器学习模型为序列标注模型，或者，所述预设的机器学习模型为下述三种模型中的任一种模型，或者，所述预设的机器学习模型为下述三种模型中的任意两种的结合模型：

卷积神经网络模型、循环神经网络模型、注意力模型。

5.一种机器学习模型获得方法，其特征在于，包括：

对所述训练文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

6.一种机器学习模型获得方法，其特征在于，包括：

对所述训练文本进行分词，获得词汇序列；

获得所述词汇序列中各词汇的词汇向量构成的矩阵；

7.一种案情描述要素提取装置，其特征在于，包括：

第一文本获得单元，用于获得待处理的司法文本；

8.一种机器学习模型获得装置，其特征在于，包括：

9.一种机器学习模型获得装置，其特征在于，包括：

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至4中任一项所述的案情描述要素提取方法和/或如权利要求5至6任一项所述的机器学习模型获得方法。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1至4中任一项所述的案情描述要素提取方法和/或如权利要求5至6任一项所述的机器学习模型获得方法。