CN111428485B - 司法文书段落分类方法、装置、计算机设备及存储介质 - Google Patents

司法文书段落分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111428485B
CN111428485B CN202010323653.9A CN202010323653A CN111428485B CN 111428485 B CN111428485 B CN 111428485B CN 202010323653 A CN202010323653 A CN 202010323653A CN 111428485 B CN111428485 B CN 111428485B
Authority
CN
China
Prior art keywords
sentence
vector
character
representation
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010323653.9A
Other languages
English (en)
Other versions
CN111428485A (zh
Inventor
温凯雯
吕仲琪
顾正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huayun Zhongsheng Technology Co ltd
Original Assignee
Shenzhen Huayun Zhongsheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huayun Zhongsheng Technology Co ltd filed Critical Shenzhen Huayun Zhongsheng Technology Co ltd
Priority to CN202010323653.9A priority Critical patent/CN111428485B/zh
Publication of CN111428485A publication Critical patent/CN111428485A/zh
Application granted granted Critical
Publication of CN111428485B publication Critical patent/CN111428485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及司法文书段落分类方法、装置、计算机设备及存储介质,该方法包括获取司法文书;对司法文书进行字符切分,以得到字符矩阵;根据字符矩阵进行向量提取,以得到句子表示向量;将句子表示向量进行拼接,以得到文书表示向量;将文书表示向量输入分类模型中进行分类,以得到段落类别;反馈段落类别至终端,以供终端进行信息提取;其中,分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。本发明通过由训练后的双向循环神经网络和条件随机场组成的分类模型对句子表示向量进行分类处理,以得到段落类别,实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。

Description

司法文书段落分类方法、装置、计算机设备及存储介质
技术领域
本发明涉及文本信息处理方法,更具体地说是指司法文书段落分类方法、装置、计算机设备及存储介质。
背景技术
对司法领域而言,从海量的司法案件中获取更多信息成为大数据时代迫切需求之一,然而将文本形式的司法文书结构化是后续进行高效处理、深入分析的前提。由于司法文书的严谨性与规范性,通常对司法文书的段落组成及书写方式较为固定,通过对文书进行段落划分,可以降低文书结构化,即后续文书信息提取的数据复杂度与难度,提高准确性。
目前常见的司法文书段落分类方式,主要通过规则提取实现,由于司法文书的段落组成及书写方式较为固定,可人工提炼识别规则,识别给定段落的位置。但规则提取不具有泛化能力,需要长期人工介入进行迭代矫正规则以提高提取的召回率。
因此,有必要设计一种新的方法,实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。
发明内容
本发明的目的在于克服现有技术的缺陷,提供司法文书段落分类方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:司法文书段落分类方法,包括:
获取司法文书;
对所述司法文书进行字符切分,以得到字符矩阵;
根据所述字符矩阵进行向量提取,以得到句子表示向量;
将所述句子表示向量进行拼接,以得到文书表示向量;
将所述文书表示向量输入分类模型中进行分类,以得到段落类别;
反馈所述段落类别至终端,以供终端进行信息提取;
其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。
其进一步技术方案为:所述对所述司法文书进行字符切分,以得到字符矩阵,包括:
按照标签符号切分所述司法文书内的句子,以得到字符矩阵。
其进一步技术方案为:所述根据所述字符进行向量提取,以得到句子表示向量,包括:
对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;
根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;
将所述句子特征按照顺序进行拼接,以得到句子表示向量。
其进一步技术方案为:所述对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量,包括:
采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。
其进一步技术方案为:所述将所述句子特征按照顺序进行拼接,以得到句子表示向量,包括:
将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量。
其进一步技术方案为:所述分类模型包括两层双向循环神经网络、一层全连接层以及一层条件随机场。
其进一步技术方案为:所述分类模型使用自适应矩估计优化器进行训练优化。
本发明还提供了司法文书段落分类装置,包括:
文书获取单元,用于获取司法文书;
切分单元,用于对所述司法文书进行字符切分,以得到字符矩阵;
向量提取单元,用于根据所述字符矩阵进行向量提取,以得到句子表示向量;
向量拼接单元,用于将所述句子表示向量进行拼接,以得到文书表示向量;
分类单元,用于将所述文书表示向量输入分类模型中进行分类,以得到段落类别;
反馈单元,用于反馈所述段落类别至终端,以供终端进行信息提取。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过先对司法文书进行字符切分后,再进行字符表示向量的获取,根据字符表示向量构建句子表示向量,再由训练后的双向循环神经网络和条件随机场组成的分类模型对句子表示向量进行分类处理,以得到段落类别,分类模型采用深度学习技术进行分类,可实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的司法文书段落分类方法的应用场景示意图;
图2为本发明实施例提供的司法文书段落分类方法的流程示意图;
图3为本发明实施例提供的司法文书段落分类方法的子流程示意图;
图4为本发明实施例提供的司法文书段落分类装置的示意性框图;
图5为本发明实施例提供的司法文书段落分类装置的向量提取单元的示意性框图;
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的司法文书段落分类方法的应用场景示意图。图2为本发明实施例提供的司法文书段落分类方法的示意性流程图。该司法文书段落分类方法应用于服务器中,该服务器与终端进行数据交互,从终端获取司法文书,由服务器进行句子切分、句子表示向量构建、文书表示向量的获取,并经过训练的分类模型进行段落的分类,并将分类结果反馈至终端。
图2是本发明实施例提供的司法文书段落分类方法的流程示意图。如图2所示,该方法包括以下步骤S110至S160。
S110、获取司法文书。
在本实施例中,司法文书是指从终端输入的,需要进行段落分类的司法类文书。
S120、对所述司法文书进行字符切分,以得到字符矩阵。
在本实施例中,字符矩阵是指司法文书内每一个句子对应的字符所构成的矩阵。
在一实施例中,上述的步骤S120可包括:
按照标签符号切分所述司法文书内的句子,以得到字符矩阵。
具体地,将司法文书按“。;?!;?!”这几种标签符号切分句子;并将每个句子切分成一个一个字符,得到文书中的所有字符;如“我是中国人。你不是!”,会被切分为[[我,是,中,国,人,。],[你,不,是,!]]这样的字符矩阵。
S130、根据所述字符矩阵进行向量提取,以得到句子表示向量。
在本实施例中,句子表示向量是代表司法文书的句子的特征。
在一实施例中,请参阅图3,上述的步骤S130可包括步骤S131~S133。
S131、对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。
在本实施例中,初始字符表示向量是指用于表示字符矩阵的向量。初始字符表示向量是768维向量。
具体地,采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。
可选用任意语言模型计算字符表示向量,这里采用的是谷歌预训练的中文BERT(双向循环神经网络的编码,Bidirectional Encoder Representation from Transformers)语言模型,得到的字符表示向量为768维向量,通过语言模型得到常用字符表示向量字典,并提取句子中所有字符的表示向量,以形成初始字符标识向量;若字符不存在字典中,则忽略该字符,无需进行表示向量的提取。
S132、根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征。
在本实施例中,句子特征是指字符表示向量的各维度的最大值、最小值以及平均值。
对每个句子中的字符表示向量,按维度计算最大值、最小值、平均值,记为s_max,s_min,s_mean,分别是768维向量。
S133、将所述句子特征按照顺序进行拼接,以得到句子表示向量。
在一实施例中,上述的步骤S133可包括:
将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量。
按顺序拼接成句子表示向量s_max+s_min+s_mean,此处“+”表示符号两边的向量首尾拼接,形成新的向量,即句子表示向量,句子表示向量为2304维向量。
S140、将所述句子表示向量进行拼接,以得到文书表示向量。
在本实施例中,文书表示向量是指所有句子表示向量的拼接矩阵,
举个例子,假设一份司法文书中包含若干个句子,这些句子对应的句子表示向量为s1,s2,…,sm;则文书表示向量d=[s1,s2,…,sm],即m*2304维矩阵,其中m为句子数量。
S150、将所述文书表示向量输入分类模型中进行分类,以得到段落类别。
在本实施例中,段落类别是指司法文书每个段落的分类类别。
其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。
双向循环神经网络和条件随机场组成的模型采用的是深度学习的技术,
深度学习是一种学习样本数据的内在规律和表示层次的方法,具有一定泛化能力,并能根据人工反馈结果,进行半自动自动模型矫正优化,提高提取的准确率和召回率。双向循环神经网络是一种深度神经网络,基于深度神经网络和条件随机场的方法作为一种简洁灵活的端到端学习方法,常用于字符级别的命名实体识别任务中,实现段落分类的效果。
具体地,所述分类模型包括两层双向循环神经网络、一层全连接层以及一层条件随机场。所述分类模型使用自适应矩估计优化器进行训练优化。
分类模型所采用的损失函数为CRF(条件随机场,Conditional Random Fields)loss函数,计算方式为其中x为输入的文书表示向量,y为输出的标签序列,此后再将输出的标签序列,输入条件随机场中,得到考虑上下文标签的最终概率,取概率最高的类别作为输出。将文书表示向量作为模型的输入,得到每个句子分类为第i个类别的原始概率,即输出为m*K的矩阵,其中K为段落类别数量+1,即未知类别,m为句子数量。
对于分类模型的训练,首先标注刑事判决书6000份,得到6000份样本数据,其中各个段落分布如下:
训练集为{'B-ws':3099,'B-gsrsf':4389,'B-bgrsfxxjbhrjbqk':4299,'B-ay':4306,'I-ay':4268,'B-ss':3952,'I-ss':3620,'B-zjhly':3892,'B-byrw':4217,'I-byrw':3585,'B-lxqk':3308,'I-lxqk':2449,'B-flyj':4348,'B-pjzw':4374,'I-pjzw':3701,'B-ssqhssbf':4258,'B-ww':3097,'I-bgrsfxxjbhrjbqk':3788,'I-ssqhssbf':3669,'I-zjhly':2355,'O':1712,'I-flyj':217,'B-lxjy':498,'I-lxjy':314,'I-ww':105,'I-gsrsf':411,'B-rzrfqk':622,'B-xsfdss':307,'I-xsfdss':251,'I-rzrfqk':164,'I-ws':6,'I-sgzrjdxx':2,'B-sgzrjdxx':2};
验证集为{'B-ws':788,'B-gsrsf':1102,'I-gsrsf':93,'B-bgrsfxxjbhrjbqk':1087,'I-bgrsfxxjbhrjbqk':976,'B-ay':1076,'I-ay':1057,'B-ss':1000,'I-ss':919,'B-zjhly':973,'I-zjhly':587,'B-byrw':1060,'I-byrw':898,'B-lxqk':826,'I-lxqk':572,'B-flyj':1087,'B-pjzw':1090,'I-pjzw':925,'B-ssqhssbf':1071,'I-ssqhssbf':934,'B-ww':784,'B-lxjy':148,'I-lxjy':96,'B-xsfdss':67,'I-xsfdss':52,'B-rzrfqk':161,'I-rzrfqk':52,'O':407,'I-flyj':61,'I-ww':24,'I-sgzrjdxx':1,'B-sgzrjdxx':1}。
每批次输入16份文书进行训练双向循环神经网络和条件随机场组成的模型,迭代训练100次后收敛,得到刑事判决书的分类模型。
使用上述刑事判决书的分类模型,对验证集进行分段,并计算准确率即precision、召回率即recall和F1得分,计算公式如下:
准确率=标注为该列表的样本数据中正确的数量/所有标注为该类别的样本数据数量;
召回率=标注为该列表的样本数据中正确的数量/实际存在的该类别样本数据数量;
F1=2*准确率*召回率/(准确率+召回率)。
实验结果如下:
processed 8725tokens with 1555phrases;found:1525phrases;correct:1521。
accuracy:98.73%;precision:99.74%;recall:97.81%;F1:98.77;
ay:precision:100.00%;recall:98.56%;F1:99.28;
bgrsfxxjbhrjbqk:precision:100.00%;recall:99.24%;F1:99.62;
byrw:precision:100.00%;recall:99.27%;F1:99.63;
flyj:precision:100.00%;recall:99.22%;F1:99.61;
gsrsf:precision:98.44%;recall:98.44%;F1:98.44;
lxjy:precision:100.00%;recall:93.33%;F1:96.55;
lxqk:precision:100.00%;recall:98.70%;F1:99.35;
pjzw:precision:100.00%;recall:100.00%;F1:100.00;
rzrfqk:precision:100.00%;recall:95.24%;F1:97.56;
ss:precision:99.16%;recall:92.19%;F1:95.55;
ssqhssbf:precision:100.00%;recall:100.00%;F1:100.00;
ws:precision:100.00%;recall:100.00%;F1:100.00;
ww:precision:100.00%;recall:100.00%;F1:100.00;
xsfdss:precision:100.00%;recall:80.00%;F1:88.89;
zjhly:precision:99.12%;recall:90.32%;F1:94.51。
当训练集训练的模型已收敛时,则采用验证集进行验证,当准确率和召回率都符合要求时,则表明该模型可用于段落分类处理了。
S160、反馈所述段落类别至终端,以供终端进行信息提取。
将获取到的段落类别反馈至终端后,可以供终端进行判决正文信息的提取出来,并用在判决信息提取或者判决结果预测上,可以减少绝大部分的无用干扰信息,即来自其他段落的干扰信息。
上述的司法文书段落分类方法啊可以将司法文书中重点的段落划分出来,即司法文书中的第n句到第m句属于某种段落类别。
上述的司法文书段落分类方法,通过先对司法文书进行字符切分后,再进行字符表示向量的获取,根据字符表示向量构建句子表示向量,再由训练后的双向循环神经网络和条件随机场组成的分类模型对句子表示向量进行分类处理,以得到段落类别,分类模型采用深度学习技术进行分类,可实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。
图4是本发明实施例提供的一种司法文书段落分类装置300的示意性框图。如图4所示,对应于以上司法文书段落分类方法,本发明还提供一种司法文书段落分类装置300。该司法文书段落分类装置300包括用于执行上述司法文书段落分类方法的单元,该装置可以被配置于服务器中。具体地,请参阅图4,该司法文书段落分类装置300包括文书获取单元301、切分单元302、向量提取单元303、向量拼接单元304、分类单元305以及反馈单元306。
文书获取单元301,用于获取司法文书;切分单元302,用于对所述司法文书进行字符切分,以得到字符矩阵;向量提取单元303,用于根据所述字符矩阵进行向量提取,以得到句子表示向量;向量拼接单元304,用于将所述句子表示向量进行拼接,以得到文书表示向量;分类单元305,用于将所述文书表示向量输入分类模型中进行分类,以得到段落类别;反馈单元306,用于反馈所述段落类别至终端,以供终端进行信息提取。
其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。
在本实施例中,切分单元302,用于按照标签符号切分所述司法文书内的句子,以得到字符矩阵。
在一实施例中,如图5所示,所述向量提取单元303包括字符向量提取子单元3031、句子特征获取子单元3032以及句子特征拼接子单元3033。
字符向量提取子单元3031,用于对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;句子特征获取子单元3032,用于根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;句子特征拼接子单元3033,用于将所述句子特征按照顺序进行拼接,以得到句子表示向量。
具体地,上述的字符向量提取子单元3031,用于采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。
具体地,上述的句子特征拼接子单元3033,用于将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述司法文书段落分类装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述司法文书段落分类装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图6,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种司法文书段落分类方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种司法文书段落分类方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取司法文书;对所述司法文书进行字符切分,以得到字符矩阵;根据所述字符矩阵进行向量提取,以得到句子表示向量;将所述句子表示向量进行拼接,以得到文书表示向量;将所述文书表示向量输入分类模型中进行分类,以得到段落类别;反馈所述段落类别至终端,以供终端进行信息提取。
其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。
所述分类模型包括两层双向循环神经网络、一层全连接层以及一层条件随机场。
所述分类模型使用自适应矩估计优化器进行训练优化。
在一实施例中,处理器502在实现所述对所述司法文书进行字符切分,以得到字符矩阵步骤时,具体实现如下步骤:
按照标签符号切分所述司法文书内的句子,以得到字符矩阵。
在一实施例中,处理器502在实现所述根据所述字符进行向量提取,以得到句子表示向量步骤时,具体实现如下步骤:
对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;将所述句子特征按照顺序进行拼接,以得到句子表示向量。
在一实施例中,处理器502在实现所述对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量步骤时,具体实现如下步骤:
采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。
在一实施例中,处理器502在实现所述将所述句子特征按照顺序进行拼接,以得到句子表示向量步骤时,具体实现如下步骤:
将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取司法文书;对所述司法文书进行字符切分,以得到字符矩阵;根据所述字符矩阵进行向量提取,以得到句子表示向量;将所述句子表示向量进行拼接,以得到文书表示向量;将所述文书表示向量输入分类模型中进行分类,以得到段落类别;反馈所述段落类别至终端,以供终端进行信息提取。
其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。
所述分类模型包括两层双向循环神经网络、一层全连接层以及一层条件随机场。
所述分类模型使用自适应矩估计优化器进行训练优化。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述司法文书进行字符切分,以得到字符矩阵步骤时,具体实现如下步骤:
按照标签符号切分所述司法文书内的句子,以得到字符矩阵。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述字符进行向量提取,以得到句子表示向量步骤时,具体实现如下步骤:
对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;将所述句子特征按照顺序进行拼接,以得到句子表示向量。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量步骤时,具体实现如下步骤:
采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将所述句子特征按照顺序进行拼接,以得到句子表示向量步骤时,具体实现如下步骤:
将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.司法文书段落分类方法,其特征在于,包括:
获取司法文书;
对所述司法文书进行字符切分,以得到字符矩阵;
根据所述字符矩阵进行向量提取,以得到句子表示向量;
将所述句子表示向量进行拼接,以得到文书表示向量;
将所述文书表示向量输入分类模型中进行分类,以得到段落类别;
反馈所述段落类别至终端,以供终端进行信息提取;
其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的;
所述根据所述字符进行向量提取,以得到句子表示向量,包括:
对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;
根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;
将所述句子特征按照顺序进行拼接,以得到句子表示向量;
所述将所述句子特征按照顺序进行拼接,以得到句子表示向量,包括:
将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量;
对每个句子中的字符表示向量,按维度计算最大值、最小值、平均值,记为s_max,s_min,s_mean,分别是768维向量;按顺序拼接成句子表示向量s_max+s_min+s_mean,此处+表示符号两边的向量首尾拼接,形成新的向量,即句子表示向量,句子表示向量为2304维向量。
2.根据权利要求1所述的司法文书段落分类方法,其特征在于,所述对所述司法文书进行字符切分,以得到字符矩阵,包括:
按照标签符号切分所述司法文书内的句子,以得到字符矩阵。
3.根据权利要求1所述的司法文书段落分类方法,其特征在于,所述对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量,包括:
采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。
4.根据权利要求1所述的司法文书段落分类方法,其特征在于,所述分类模型包括两层双向循环神经网络、一层全连接层以及一层条件随机场。
5.根据权利要求1所述的司法文书段落分类方法,其特征在于,所述分类模型使用自适应矩估计优化器进行训练优化。
6.司法文书段落分类装置,其特征在于,包括:
文书获取单元,用于获取司法文书;
切分单元,用于对所述司法文书进行字符切分,以得到字符矩阵;
向量提取单元,用于根据所述字符矩阵进行向量提取,以得到句子表示向量;
向量拼接单元,用于将所述句子表示向量进行拼接,以得到文书表示向量;
分类单元,用于将所述文书表示向量输入分类模型中进行分类,以得到段落类别;
反馈单元,用于反馈所述段落类别至终端,以供终端进行信息提取;
所述向量提取单元包括字符向量提取子单元、句子特征获取子单元以及句子特征拼接子单元;
字符向量提取子单元,用于对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;句子特征获取子单元,用于根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;句子特征拼接子单元,用于将所述句子特征按照顺序进行拼接,以得到句子表示向量;句子特征拼接子单元,用于将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量;对每个句子中的字符表示向量,按维度计算最大值、最小值、平均值,记为s_max,s_min,s_mean,分别是768维向量;按顺序拼接成句子表示向量s_max+s_min+s_mean,此处+表示符号两边的向量首尾拼接,形成新的向量,即句子表示向量,句子表示向量为2304维向量。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
8.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至5中任一项所述的方法。
CN202010323653.9A 2020-04-22 2020-04-22 司法文书段落分类方法、装置、计算机设备及存储介质 Active CN111428485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010323653.9A CN111428485B (zh) 2020-04-22 2020-04-22 司法文书段落分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010323653.9A CN111428485B (zh) 2020-04-22 2020-04-22 司法文书段落分类方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111428485A CN111428485A (zh) 2020-07-17
CN111428485B true CN111428485B (zh) 2024-04-02

Family

ID=71554363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010323653.9A Active CN111428485B (zh) 2020-04-22 2020-04-22 司法文书段落分类方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111428485B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347738B (zh) * 2020-11-04 2023-09-15 平安直通咨询有限公司上海分公司 基于裁判文书的双向编码器表征量模型优化方法和装置
CN112434157B (zh) * 2020-11-05 2024-05-17 平安直通咨询有限公司上海分公司 文书多标签分类方法、装置、电子设备及存储介质
CN112632948B (zh) * 2020-12-29 2023-01-10 天津汇智星源信息技术有限公司 案件文书排序方法及相关设备
CN113821586A (zh) * 2021-04-06 2021-12-21 京东科技控股股份有限公司 文本分段方法、装置及电子设备
CN113361261B (zh) * 2021-05-19 2022-09-09 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113782001B (zh) * 2021-11-12 2022-03-08 深圳市北科瑞声科技股份有限公司 一种特定领域语音识别方法、装置、电子设备及存储介质
CN115358206B (zh) * 2022-10-19 2023-03-24 上海浦东华宇信息技术有限公司 文本排版方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110825874A (zh) * 2019-10-29 2020-02-21 北京明略软件系统有限公司 一种中文文本分类方法和装置及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110825874A (zh) * 2019-10-29 2020-02-21 北京明略软件系统有限公司 一种中文文本分类方法和装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111428485A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428485B (zh) 司法文书段落分类方法、装置、计算机设备及存储介质
CN110674629B (zh) 标点符号标注模型及其训练方法、设备、存储介质
US8014604B2 (en) OCR of books by word recognition
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN113297366B (zh) 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN112507190B (zh) 一种财经快讯的关键词提取方法和系统
CN112052331A (zh) 一种处理文本信息的方法及终端
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113127645B (zh) 大规模知识图谱本体自动抽取方法、终端设备及存储介质
CN111177375A (zh) 一种电子文档分类方法及装置
CN112580326A (zh) 标点符号标注模型及其训练系统
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113486141A (zh) 一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN111832248A (zh) 文本规整方法、装置、电子设备和存储介质
CN115952854B (zh) 文本脱敏模型的训练方法、文本脱敏方法及应用
CN111753546A (zh) 文书信息抽取方法、装置、计算机设备及存储介质
CN112052329A (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN113255319B (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111460105B (zh) 基于短文本的主题挖掘方法、系统、设备及存储介质
CN113934833A (zh) 训练数据的获取方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant