CN110472231A - 一种识别法律文书案由的方法和装置 - Google Patents

一种识别法律文书案由的方法和装置 Download PDF

Info

Publication number
CN110472231A
CN110472231A CN201910626046.7A CN201910626046A CN110472231A CN 110472231 A CN110472231 A CN 110472231A CN 201910626046 A CN201910626046 A CN 201910626046A CN 110472231 A CN110472231 A CN 110472231A
Authority
CN
China
Prior art keywords
word
text fragment
text
machine learning
legal documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910626046.7A
Other languages
English (en)
Other versions
CN110472231B (zh
Inventor
张林江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910626046.7A priority Critical patent/CN110472231B/zh
Publication of CN110472231A publication Critical patent/CN110472231A/zh
Application granted granted Critical
Publication of CN110472231B publication Critical patent/CN110472231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了用于识别法律文书案由的方法和装置。一种用于识别法律文书案由的方法包括:接收正样例集和负样例集,其中所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落;对所述正样例集和所述负样例集中的文本段落进行分词拆解以生成每个文本段落的多个词样本;以及使用所述正样例集中的文本段落的词样本和所述负样例集中的文本段落的词样本来训练机器学习模型。本公开还提供了用于识别法律文书案由的装置和系统。

Description

一种识别法律文书案由的方法和装置
技术领域
本公开涉及计算机技术,尤其涉及一种识别法律文书案由的方法和装置。
背景技术
一篇文章通常由多个段落组成,每个段落所描述的内容可能属于不同的主题类别。例如,监管处罚文案可包括当事人信息、违法事实和证据(即,案由)、处罚种类和依据、申诉途径等。在一些情况下,需要识别或提取出其中一部分文本内容。例如,在处罚事件结构化中,往往需要对处罚案由进行识别。
在一些简单场景中可通过关键字来识别特定主题类别的文本内容。然而,监管处罚文案的案由可包括多个段落,其中某些段落可包含所设定的能表明主题类别的关键词,而某些段落不包含这些关键词,由此无法准确地进行识别。在这种情况下,需要人工识别哪些段落属于案由,且可能需要完整阅读整个文章/段落才能做出判断,其效率十分低下,且耗费大量人力资源,不适用于批量处理。此外,人工识别案由也存在主观因素,无法保证其判断准确性。
因此,本领域需要能够准确和/或高效地识别法律文书案由的方法和装置。
发明内容
本公开提供了识别法律文书案由的方法和装置,尤其是使用机器学习模型来识别法律文书案由,与现有技术相比极大地提升了识别案由的准确率以及效率。
在本公开的一个实施例,提供了一种用于识别法律文书案由的方法,其包括:接收正样例集和负样例集,其中所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落;对所述正样例集和所述负样例集中的文本段落进行分词拆解以生成每个文本段落的多个词样本;以及使用所述正样例集中的文本段落的词样本和所述负样例集中的文本段落的词样本来训练机器学习模型。
在一方面,所述机器学习模型包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。
在一方面,该方法进一步包括:确定文本段落的词样本数量是否大于所述输入单元的数量;如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。
在一方面,所述机器学习模型包括CNN模型、RNN模型、LSTM模型、GBDT模型之一。
在一方面,生成每个文本段落的多个词样本还包括对每个文本段落的词样本进行筛选,对每个文本段落的词样本进行筛选包括去除每个文本段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词。
在一方面,所述负样例集包括除法律文书以外的文本数据以及法律文书中的非案由部分。
在一方面,所述负样例集包括以下一者或多者:新闻信息、期刊杂志文章、网络文章、评论文章。
在一方面,该方法进一步包括:接收待识别的文本段落;将所述待识别的文本段落的词样本输入到经训练的机器学习模型;以及从所述机器学习模型输出该文本段落属于法律文书案由的概率。
在一方面,如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
在本公开的另一个实施例,提供了一种用于识别法律文书案由的装置,其包括:数据获取模块,其接收正样例集和负样例集,其中所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落;数据预处理模块,其对所述正样例集和所述负样例集中的文本段落进行分词拆解以生成每个文本段落的多个词样本;以及机器学习模块,其使用所述正样例集中的文本段落的词样本和所述负样例集中的文本段落的词样本来训练机器学习模型。
在一方面,所述机器学习模型包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。
在一方面,所述数据预处理模块进一步:确定文本段落的词样本数量是否大于所述输入单元的数量;如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。
在一方面,所述机器学习模型包括CNN模型、RNN模型、LSTM模型、GBDT模型之一。
在一方面,所述数据预处理模块进一步对每个文本段落的词样本进行筛选,对每个文本段落的词样本进行筛选包括去除每个文本段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词。
在一方面,所述负样例集包括除法律文书以外的文本数据以及法律文书中的非案由部分。
在一方面,所述负样例集包括以下一者或多者:新闻信息、期刊杂志文章、网络文章、评论文章。
在一方面,所述数据获取模块接收待识别的文本段落,所述数据预处理模块将所述待识别的文本段落的词样本输入到经训练的机器学习模型,并且所述机器学习模块从所述机器学习模型输出该文本段落属于法律文书案由的概率。
在一方面,如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
在本公开的另一个实施例,提供了一种用于识别法律文书案由的方法,其包括:接收待识别的文本段落;对所述文本段落进行分词拆解以生成每个文本段落的多个词样本;将所述文本段落的词样本输入到机器学习模型,其中所述机器学习模型已使用关于法律文书案由的正样例集和负样例集作了训练;以及从所述机器学习模型输出该文本段落属于法律文书案由的概率。
在一方面,如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
在一方面,所述机器学习模型包括输出层,所述输出层利用逻辑回归来计算所述文本段落属于法律文书案由的概率。
在一方面,所述机器学习模型包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。
在一方面,该方法进一步包括:确定文本段落的词样本数量是否大于所述输入单元的数量;如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。
在一方面,所述机器学习模型包括CNN模型、RNN模型、LSTM模型、GBDT模型之一。
在一方面,生成每个文本段落的多个词样本还包括对每个文本段落的词样本进行筛选,对每个文本段落的词样本进行筛选包括去除每个文本段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词。
在一方面,所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落。
在本公开的另一个实施例,提供了一种用于识别法律文书案由的装置,其包括:数据获取模块,其接收待识别的文本段落;数据预处理模块,其对所述文本段落进行分词拆解以生成每个文本段落的多个词样本;以及机器学习模块,所述机器学习模块已使用关于法律文书案由的正样例集和负样例集作了训练,所述机器学习模块从所述数据预处理模块接收所述文本段落的词样本,并输出该文本段落属于法律文书案由的概率。
在一方面,如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
在一方面,所述机器学习模块包括输出层,所述输出层利用逻辑回归来计算所述文本段落属于法律文书案由的概率。
在一方面,所述机器学习模块包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。
在一方面,所述数据预处理模块进一步:确定文本段落的词样本数量是否大于所述输入单元的数量;如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。
在一方面,所述机器学习模块使用CNN模型、RNN模型、LSTM模型、GBDT模型之一。
在一方面,所述数据预处理模块生成每个文本段落的多个词样本还包括:所述数据预处理模块对每个文本段落的词样本进行筛选,对每个文本段落的词样本进行筛选包括去除每个文本段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词。
在一方面,所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落。
在本公开的另一个实施例,提供了一种用于识别法律文书案由的系统,其包括:处理器;用于存储处理器可执行指令的存储器,其中所述处理器执行所述处理器可执行指令以实现如上所述的用于识别法律文书案由的方法。
如上所述,本公开提出了高效的使用机器学习模型来识别法律文书案由的方法,与现有技术相比极大地提升了识别的准确率以及效率。通过本公开所述的识别法律文书案由的技术,可以将原本需要人工进行的案由识别或案由抽取转换成由计算机来自动执行,从而不仅大大节省了人力和时间,而且提高了识别法律文书案由的效率和准确性。
附图说明
图1是根据本公开一个实施例的识别法律文书案由的训练方法的流程图;
图2是根据本公开一个实施例的识别法律文书案由的方法的流程图;
图3是根据本公开一个实施例的数据预处理方法的示意图;
图4是根据本公开一个实施例的识别法律文书案由的机器学习模型的示意图;以及
图5是根据本公开一个实施例的识别法律文书案由的装置的框图。
具体实施方式
下面结合具体实施例和附图对本公开作进一步说明,但不应以此限制本公开的保护范围。
本公开提供了识别法律文书案由的方法和装置。该方法和装置是使用机器学习(Machine Learning,ML)来实现的。机器学习是实现人工智能的重要组成部分,并且可包括各种不同的机器学习技术,例如CNN、RNN、LSTM、GBDT等。机器学习模型的操作包括训练阶段和应用阶段。根据本公开,在训练阶段,可利用历史数据集来训练用于识别法律文书案由的一个或多个机器学习模型,并对模型进行验证和离线评估,然后通过评估指标确定较好的机器学习模型。在机器学习模型应用阶段,可将新采集的数据输入到经过训练的机器学习模型,就可以输出机器识别结果。
图1是根据本公开一个实施例的识别法律文书案由的训练方法的流程图。在机器学习模型的训练阶段,可使用已对段落打了标签(例如,是否为法律文书案由)的历史数据来训练机器学习模型。历史数据的标签信息可以是通过人工打标方式获得的。
在步骤102,接收正样例集和负样例集,其中正样例集可包括属于法律文书案由的文本段落,且负样例集可包括不属于法律文书案由的文本段落。例如,可获取历史处罚案由数据作为正样例,并且可获取非处罚案由数据(例如,新闻、舆情、评论文章、监管处罚文案中的非案由部分等)作为负样例。
在步骤104,可分别对正样例和负样例进行数据预处理,如参照图3详细描述的。例如,可对正样例集和负样例集中的文本段落进行分词拆解以生成每个文本段落的多个词样本。作为示例而非限定,正样例和负样例可分别用1和0来标注。
例如,正样例(例如,处罚案由)可被分段,并且数据被标注为:
段1 1
段2 1
段3 1
负样例(例如,非处罚案由)可被分段,并且数据被标注为:
段1 0
段2 0
段3 0
在进行分词拆解和筛选以及文本格式处理后,可生成每个段落的以下词样本:
段1 1 w1 w2 w3 w4
段2 1 wm+1 wm+2 wm+3 wm+4
段3 1 wn+1 wn+2 wn+3 wn+4
段1 0 wi+1 wi+2 wi+3 wi+4
段2 0 wj+1 wj+2 wj+3 wj+4
段3 0 wk+1 wk+ 2wk+3 wk+4
在步骤106,可将每个段落的词样本输入机器学习模型进行训练。可采用RNN(递归神经网络)、CNN(卷积神经网络)、LSTM(长短期记忆网络)、GBDT(梯度提升树)等机器学习模型。具体的机器学习模型可根据实际问题而选择或设计。由于已知每个段落为正样例还是负样例,因此可以在训练过程中调整机器学习模型的参数,直至机器学习模型能正确判断段落是否为案由(或判断段落为案由的概率高于阈值)。
在步骤108,可对机器学习模型进行评估(例如,准确率是否满足评估指标),如果通过评估则结束机器学习过程,并保存经训练的机器学习模型。
图2是根据本公开一个实施例的识别法律文书案由的方法的流程图。具体地,图2提供了在机器学习模型的应用阶段,可使用以上经训练的机器学习模型(例如,案由判断模型)来判断新获取的文本数据是否属于案由。
在步骤202,可获取要处理的文本数据。例如,可接收包含待识别的文本段落的内容。
在步骤204:对所获取的文本数据进行数据预处理(例如,分词拆解)以生成每个文本段落的词样本。例如,可生成以下词样本数据:
段a1 wx+1 wx+2 wx+3 wx+4
段a2 wy+1 wy+2 wy+3 wy+4
段a3 wz+1 wz+2 wz+3 wz+4
注意到各段落没有被标记为正样例或负样例,因为尚不知晓各个文本段落是否为案由。
在步骤206:将每个文本段落的词样本输入机器学习模型进行处理,该机器模型已使用关于法律文书案由的正样例集和负样例集进行训练。已使用关于法律文书案由的正样例集和负样例集进行训练的机器学习模型可被称为案由判断模型。
在步骤208:可从机器学习模型输出待识别的文本内容属于法律文书案由的概率。
在步骤210:可确定待识别的文本内容是否属于法律文书的案由。例如,可为案由判断模型设置阈值(例如,0.85),如果概率高于阈值,则可认为该文本段落为案由。虽然图2中将步骤208和210示为分开的操作,但可以简化成一个步骤。例如,在一个实施例中,机器学习模型可输出文本内容属于法律文书案由的概率,而无需判断文本内容是否属于法律文书案由。在另一个实施例中,机器学习模型可提供文本内容是否属于法律文书案由的结论,而无需输出文本内容属于法律文书案由的概率。在再一个实施例中,机器学习模型既输出文本内容属于法律文书案由的概率,还提供文本内容是否属于法律文书案由的结论。
该新的文本数据和判断结果(结合其他反馈信息,例如后续确认或否认该判断结果)也可以进一步用于评价该机器学习模型的有效性(即,在线评估)。
图3是根据本公开一个实施例的数据预处理方法的示意图。图3的数据预处理方法可适用于图1中的步骤104和/或图2中的步骤204。
在步骤301,可对所获取的原始文本数据进行段落划分。计算机能够容易地识别段落标记,并由此标记文本段落,例如段1、段2、段3。一个段落一般可包括一个或多个句子。
在步骤302,可对段落进行分词拆解,以生成每个段落的多个词。存在各种技术手段来将句子或段落拆分成词,例如词w1、w2、w3等。分词拆解的具体方式可因语言而异。例如,对于英语、德语、法语等可将每个单词作为分词。对于中文、日文等可按照惯用词组进行拆分,并且可利用word2vec、fasttext等工具辅助进行分词拆解。
在步骤303,对每个段落的多个词进行筛选以生成每个段落的词样本。对每个段落的多个词进行筛选可包括去除每个段落的停用词。停用词可以是起辅助作用但内容价值较低的词,例如标点符号、数学字符、高频无用词(如中文的“着”、“了”、“过”)等。停用词可以按照行业惯例来设置,也可以在机器学习中根据实际情况调整。
在步骤304,可以进行文本格式处理,例如全角转半角、英文大写变小写、简繁转换等。虽然图3示出了步骤304在步骤303之后,但本领域技术人员可以理解,步骤304可以在步骤301、302、303中的任一个步骤之前或之后进行。例如,在步骤301之前,可以先对所获取的原始文本数据进行文本格式处理,以使其符合所需的文本格式。
在步骤305,生成以段落为单位的样本数据,其中每个段落包含多个词样本。该词样本数据随后可被输入到机器学习模型进行学习或识别。
图4是根据本公开一个实施例的识别法律文书案由的机器学习模型的示意图。图4以LSTM(长短期记忆网络)为例作了说明,但本文所描述的技术不限于LSTM。LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。图4示出了输入层401、第一隐藏层402、第二隐藏层403、输出层404。每个隐藏层包括级联的LSTM单元,每层LSTM单元的数量可根据需要设置,例如每个隐藏层可包括512个、1024个、或其他数量的LSTM单元。
如上所述,可通过对文本数据进行预处理来生成以段落为单位的样本数据,其中每个段落包括多个词样本。将每个段落的词样本(例如,转换成向量格式)按顺序分别输入到输入层401的各个输入单元。输入单元的数量与每层LSTM单元的数量相对应。如果一个段落的词样本少于输入单元的数量,则可将该段落的词样本全部输入到机器学习模型。相反,如果一个段落的词样本多于输入单元的数量,则可将该段落拆分成多个子段落,以子段落为单位类似地用机器学习模型进行处理。
输入单元可将接收到的词样本传递给第一隐藏层402和第二隐藏层403的LSTM单元。隐藏层的每个LSTM单元接受该隐藏层中前一个节点的输出以及对应输入单元提供的词样本作为输入。例如,输入层401将每个段落的词样本按照原顺序分别提供给第一隐藏层402的各个LSTM单元,并且将每个段落的词样本按照相反顺序分别提供给第二隐藏层403的各个LSTM单元。第一隐藏层402和第二隐藏层403的最后LSTM单元将输出(例如,以向量格式)提供给输出层404,输出层404计算(例如,使用逻辑回归等算法)输入文本为正样例(和/或负样例)的概率。
在机器学习模型的训练阶段,可采用已对段落进行了标记的历史数据来训练机器学习模型,例如以上所述的段1 1 w1 w2 w3 w4…。将段1的词w1 w2 w3 w4…输入到图4所示的LSTM机器学习模型,该机器学习模型将输出段1为正样例(例如,案由)的概率(例如,0.93)。如果该概率高于阈值(例如,0.85),认为段1为正样例,这与段1的标签信息相一致,则该段1训练完成。否则,如果该概率低于阈值(例如,0.85),认为段1为负样例,这与段1的标签信息不一致,则调整LSTM机器学习模型的参数再次进行训练,直至能够正确识别段1。
在机器学习模型的训练阶段,可将包含大量进行了标记的历史数据来训练LSTM机器学习模型,直至该模型识别这些历史数据的正确率达到阈值比例(例如,能正确识别90%的历史数据)。
在机器学习模型的应用阶段,可使用以上经训练的机器学习模型(例如,案由判断模型)来判断新获取的文本数据是否属于案由。例如,将段a1的词wx+1 wx+2 wx+3 wx+4…输入到图4所示的LSTM机器学习模型,该机器学习模型将输出段1为正样例(例如,案由)的概率。如果输出概率高于阈值,则可将段a1标记为案由。由此,可使用经训练的机器学习模型来处理大量文本数据,并从中标记或提取出属于法律文书案由的段落。
图5是根据本公开一个实施例的识别法律文书案由的装置500的框图。装置500可用于实现图1-4描述的方法。
该装置500可包括数据获取模块501、数据预处理模块502、机器学习模块503。数据获取模块501可用于获得原始文本数据。数据预处理模块502可如以上参考图3所描述地提取所述文本数据的段落,对每个段落进行分词拆解以生成每个段落的多个词样本,并可选地对每个段落的多个词样本进行筛选。对每个段落的多个词样本进行筛选包括去除每个段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词等。
机器学习模块503用于使用机器学习模型来处理每个段落的词样本以标识每个段落是否属于法律文书案由。例如,机器学习模块503可被配置成将每个段落的词样本输入到机器学习模型,以及从机器学习模型输出该段落属于案由的概率。该机器学习模型可包括CNN模型、RNN模型、LSTM模型、GBDT模型等之一。该机器学习模型可包括多个输入单元,其中每个输入单元用于接收一个段落的一个词样本。该机器学习模型可包括输出层,输出层可利用逻辑回归等算法来计算段落属于案由的概率。
在在一个实施例中,数据预处理模块502可进一步配置成确定每个段落的词样本数量是否大于机器学习模型的输入单元的数量,如果该段落的词样本数量大于输入单元的数量,则将该段落拆分成词样本数量小于或等于输入单元数量的多个子段落。数据预处理模块502可按照以上参照图3描述的类似方式生成每个子段落的词样本。机器学习模块503可按照类似方式使用子段落的词样本进行训练或确定子段落是否属于法律文书案由。
在机器学习模型的训练阶段,所述文本数据为历史文本数据集,其包括正样例集和负样例集,其中正样例集包括属于法律文书案由的文本段落,且负样例集包括不属于法律文书案由的文本段落。所述历史文本数据集可用于训练所述机器学习模型。在机器学习模型的学习阶段,经训练的机器学习模型可用于判断新获取的文本数据的是否属于法律文书案由。
具体地,当装置500用于学习或训练时,数据获取模块501接收正样例集和负样例集,其中正样例集包括属于法律文书案由的文本段落,且负样例集包括不属于法律文书案由的文本段落。在一个实施例中,负样例集包括除法律文书以外的文本数据(例如,新闻信息、期刊杂志文章、网络文章、评论文章)以及法律文书中的非案由部分。数据预处理模块502对正样例集和负样例集中的文本段落进行分词拆解以生成每个文本段落的多个词样本。机器学习模块503使用正样例集中的文本段落的词样本和负样例集中的文本段落的词样本来训练机器学习模型。
在一个实施例中,机器学习模型503包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。数据预处理模块502可确定文本段落的词样本数量是否大于机器学习模型503的输入单元的数量,如果该文本段落的词样本数量大于机器学习模型503的输入单元的数量,则将该文本段落拆分成词样本数量小于或等于输入单元数量的多个子段落。数据预处理模块503还可以对每个文本段落的词样本进行筛选,例如去除每个文本段落的停用词,如标点符号、数学字符、和/或高频无用词。
在机器学习模型的应用/使用阶段,数据获取模块501接收待识别的文本段落。数据预处理模块502对所述文本段落进行分词拆解以生成每个文本段落的多个词样本。已使用关于法律文书案由的正样例集和负样例集作了训练的机器学习模块503从所述数据预处理模块502接收所述文本段落的词样本,并输出该文本段落属于法律文书案由的概率。如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
机器学习模块503包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。数据预处理模块502可确定文本段落的词样本数量是否大于所述输入单元的数量,如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。数据预处理模块503还可以对每个文本段落的词样本进行筛选,例如去除每个文本段落的停用词,如标点符号、数学字符、和/或高频无用词。机器学习模块503的输出层可利用逻辑回归来计算所述文本段落属于法律文书案由的概率。
本公开提出了高效的使用机器学习模型识别法律文书案由的方法和装置,与现有技术相比极大地提升了识别的准确率以及效率。例如,在使用关键字识别案由的方案中,某些案由段落可能不包含相应的关键字,从而导致识别错误。此外,以段落为单位来识别案由的准确性高于以句子为单位进行识别,因为每个句子表达的信息量较少,可能无法反映其是否属于案由。通过本公开所述的识别法律文书案由的技术,可以将原本需要人工进行的案由识别或案由抽取转换成由计算机来自动执行,从而不仅大大节省了人力和时间,而且提高了识别案由的效率和准确性。
以上描述的识别法律文书案由的方法和装置的各个步骤和模块可以用硬件、软件、或其组合来实现。如果在硬件中实现,结合本公开描述的各种说明性步骤、模块、以及电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其他可编程逻辑组件、硬件组件、或其任何组合来实现或执行。通用处理器可以是处理器、微处理器、控制器、微控制器、或状态机等。如果在软件中实现,则结合本公开描述的各种说明性步骤、模块可以作为一条或多条指令或代码存储在计算机可读介质上或进行传送。实现本公开的各种操作的软件模块可驻留在存储介质中,如RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、可移动盘、CD-ROM、云存储等。存储介质可耦合到处理器以使得该处理器能从/向该存储介质读写信息,并执行相应的程序模块以实现本公开的各个步骤。而且,基于软件的实施例可以通过适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信或者其他这样的通信手段。
还应注意,这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程,但是这些操作中有许多操作能够并行或并发地执行。另外,这些操作的次序可被重新安排。
所公开的方法、装置和系统不应以任何方式被限制。相反,本公开涵盖各种所公开的实施例(单独和彼此的各种组合和子组合)的所有新颖和非显而易见的特征和方面。所公开的方法、装置和系统不限于任何具体方面或特征或它们的组合,所公开的任何实施例也不要求存在任一个或多个具体优点或者解决特定或所有技术问题。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多更改,这些均落在本公开的保护范围之内。

Claims (35)

1.一种用于识别法律文书案由的方法,其特征在于,包括:
接收正样例集和负样例集,其中所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落;
对所述正样例集和所述负样例集中的文本段落进行分词拆解以生成每个文本段落的多个词样本;以及
使用所述正样例集中的文本段落的词样本和所述负样例集中的文本段落的词样本来训练机器学习模型。
2.如权利要求1所述的方法,其特征在于,所述机器学习模型包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。
3.如权利要求2所述的方法,其特征在于,进一步包括:
确定文本段落的词样本数量是否大于所述输入单元的数量;
如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。
4.如权利要求1所述的方法,其特征在于,所述机器学习模型包括CNN模型、RNN模型、LSTM模型、GBDT模型之一。
5.如权利要求1所述的方法,其特征在于,生成每个文本段落的多个词样本还包括对每个文本段落的词样本进行筛选,对每个文本段落的词样本进行筛选包括去除每个文本段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词。
6.如权利要求1所述的方法,其特征在于,所述负样例集包括除法律文书以外的文本数据以及法律文书中的非案由部分。
7.如权利要求1所述的方法,其特征在于,所述负样例集包括以下一者或多者:新闻信息、期刊杂志文章、网络文章、评论文章。
8.如权利要求1所述的方法,其特征在于,进一步包括:
接收待识别的文本段落;
将所述待识别的文本段落的词样本输入到经训练的机器学习模型;以及
从所述机器学习模型输出该文本段落属于法律文书案由的概率。
9.如权利要求8所述的方法,其特征在于,如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
10.一种用于识别法律文书案由的装置,其特征在于,包括:
数据获取模块,其接收正样例集和负样例集,其中所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落;
数据预处理模块,其对所述正样例集和所述负样例集中的文本段落进行分词拆解以生成每个文本段落的多个词样本;以及
机器学习模块,其使用所述正样例集中的文本段落的词样本和所述负样例集中的文本段落的词样本来训练机器学习模型。
11.如权利要求10所述的装置,其特征在于,所述机器学习模型包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。
12.如权利要求11所述的装置,其特征在于,所述数据预处理模块进一步:
确定文本段落的词样本数量是否大于所述输入单元的数量;
如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。
13.如权利要求10所述的装置,其特征在于,所述机器学习模型包括CNN模型、RNN模型、LSTM模型、GBDT模型之一。
14.如权利要求10所述的装置,其特征在于,所述数据预处理模块进一步对每个文本段落的词样本进行筛选,对每个文本段落的词样本进行筛选包括去除每个文本段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词。
15.如权利要求10所述的装置,其特征在于,所述负样例集包括除法律文书以外的文本数据以及法律文书中的非案由部分。
16.如权利要求10所述的装置,其特征在于,所述负样例集包括以下一者或多者:新闻信息、期刊杂志文章、网络文章、评论文章。
17.如权利要求10所述的装置,其特征在于,所述数据获取模块接收待识别的文本段落,所述数据预处理模块将所述待识别的文本段落的词样本输入到经训练的机器学习模型,并且所述机器学习模块从所述机器学习模型输出该文本段落属于法律文书案由的概率。
18.如权利要求17所述的装置,其特征在于,如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
19.一种用于识别法律文书案由的方法,其特征在于,包括:
接收待识别的文本段落;
对所述文本段落进行分词拆解以生成每个文本段落的多个词样本;
将所述文本段落的词样本输入到机器学习模型,其中所述机器学习模型已使用关于法律文书案由的正样例集和负样例集作了训练;以及
从所述机器学习模型输出该文本段落属于法律文书案由的概率。
20.如权利要求19所述的方法,其特征在于,如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
21.如权利要求19所述的方法,其特征在于,所述机器学习模型包括输出层,所述输出层利用逻辑回归来计算所述文本段落属于法律文书案由的概率。
22.如权利要求19所述的方法,其特征在于,所述机器学习模型包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。
23.如权利要求22所述的方法,其特征在于,进一步包括:
确定文本段落的词样本数量是否大于所述输入单元的数量;
如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。
24.如权利要求19所述的方法,其特征在于,所述机器学习模型包括CNN模型、RNN模型、LSTM模型、GBDT模型之一。
25.如权利要求19所述的方法,其特征在于,生成每个文本段落的多个词样本还包括对每个文本段落的词样本进行筛选,对每个文本段落的词样本进行筛选包括去除每个文本段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词。
26.如权利要求19所述的方法,其特征在于,所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落。
27.一种用于识别法律文书案由的装置,其特征在于,包括:
数据获取模块,其接收待识别的文本段落;
数据预处理模块,其对所述文本段落进行分词拆解以生成每个文本段落的多个词样本;以及
机器学习模块,所述机器学习模块已使用关于法律文书案由的正样例集和负样例集作了训练,所述机器学习模块从所述数据预处理模块接收所述文本段落的词样本,并输出该文本段落属于法律文书案由的概率。
28.如权利要求27所述的装置,其特征在于,如果所述概率高于阈值,则确定所述文本段落属于法律文书案由。
29.如权利要求27所述的装置,其特征在于,所述机器学习模块包括输出层,所述输出层利用逻辑回归来计算所述文本段落属于法律文书案由的概率。
30.如权利要求27所述的装置,其特征在于,所述机器学习模块包括多个输入单元,其中每个输入单元用于接收一个文本段落的一个词样本。
31.如权利要求30所述的装置,其特征在于,所述数据预处理模块进一步:
确定文本段落的词样本数量是否大于所述输入单元的数量;
如果该文本段落的词样本数量大于所述输入单元的数量,则将所述文本段落拆分成词样本数量小于或等于所述输入单元的数量的多个子段落。
32.如权利要求27所述的装置,其特征在于,所述机器学习模块使用CNN模型、RNN模型、LSTM模型、GBDT模型之一。
33.如权利要求27所述的装置,其特征在于,所述数据预处理模块生成每个文本段落的多个词样本还包括:所述数据预处理模块对每个文本段落的词样本进行筛选,对每个文本段落的词样本进行筛选包括去除每个文本段落的停用词,所述停用词包括标点符号、数学字符、和/或高频无用词。
34.如权利要求27所述的装置,其特征在于,所述正样例集包括属于法律文书案由的文本段落,且所述负样例集包括不属于法律文书案由的文本段落。
35.一种用于识别法律文书案由的系统,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器,
其中所述处理器执行所述处理器可执行指令以实现如权利要求1-9、19-26中任一项所述的方法。
CN201910626046.7A 2019-07-11 2019-07-11 一种识别法律文书案由的方法和装置 Active CN110472231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910626046.7A CN110472231B (zh) 2019-07-11 2019-07-11 一种识别法律文书案由的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910626046.7A CN110472231B (zh) 2019-07-11 2019-07-11 一种识别法律文书案由的方法和装置

Publications (2)

Publication Number Publication Date
CN110472231A true CN110472231A (zh) 2019-11-19
CN110472231B CN110472231B (zh) 2023-05-12

Family

ID=68508011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910626046.7A Active CN110472231B (zh) 2019-07-11 2019-07-11 一种识别法律文书案由的方法和装置

Country Status (1)

Country Link
CN (1) CN110472231B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798344A (zh) * 2020-07-01 2020-10-20 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN112069307A (zh) * 2020-08-25 2020-12-11 中国人民大学 一种法律法条引用信息抽取系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140210A1 (en) * 2014-11-19 2016-05-19 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
CN107784041A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 裁判文书案由的获取方法和装置
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
WO2018121145A1 (zh) * 2016-12-30 2018-07-05 北京国双科技有限公司 段落向量化的方法和装置
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140210A1 (en) * 2014-11-19 2016-05-19 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
CN107784041A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 裁判文书案由的获取方法和装置
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
WO2018121145A1 (zh) * 2016-12-30 2018-07-05 北京国双科技有限公司 段落向量化的方法和装置
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高丹等: "海量法律文书中基于CNN的实体关系抽取技术", 《小型微型计算机系统》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798344A (zh) * 2020-07-01 2020-10-20 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN111798344B (zh) * 2020-07-01 2023-09-22 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN112069307A (zh) * 2020-08-25 2020-12-11 中国人民大学 一种法律法条引用信息抽取系统

Also Published As

Publication number Publication date
CN110472231B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
US11941366B2 (en) Context-based multi-turn dialogue method and storage medium
CN109960804B (zh) 一种题目文本句子向量生成方法及装置
CN110750974B (zh) 一种裁判文书结构化处理方法及系统
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109992664A (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN107688803A (zh) 字符识别中识别结果的校验方法和装置
CN113204967B (zh) 简历命名实体识别方法及系统
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN110472231A (zh) 一种识别法律文书案由的方法和装置
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN112307048A (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN114969294A (zh) 一种音近敏感词的扩展方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN114168743A (zh) 基于知识图谱的网络防御意图识别解析方法、设备及介质
CN110362828B (zh) 网络资讯风险识别方法及系统
CN112329466A (zh) 命名实体识别模型的构建方法、装置、设备以及存储介质
CN116796796A (zh) 一种基于gpt架构的公文自动生成方法及装置
CN110414819B (zh) 一种工单评分方法
CN111341404A (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN112597340B (zh) Asr文本关键词抽取方法、计算机设备及可读存储介质
CN110427613B (zh) 一种近义词发现方法及其系统、计算机可读存储介质
Zhang et al. Automatic Detection Method for Software Requirements Text with Language Processing Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018169

Country of ref document: HK

TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant