CN112613582A - 一种基于深度学习混合模型的争议焦点检测方法及装置 - Google Patents

一种基于深度学习混合模型的争议焦点检测方法及装置 Download PDF

Info

Publication number
CN112613582A
CN112613582A CN202110007332.2A CN202110007332A CN112613582A CN 112613582 A CN112613582 A CN 112613582A CN 202110007332 A CN202110007332 A CN 202110007332A CN 112613582 A CN112613582 A CN 112613582A
Authority
CN
China
Prior art keywords
dispute focus
text
model
dispute
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110007332.2A
Other languages
English (en)
Other versions
CN112613582B (zh
Inventor
邓维斌
朱坤
胡峰
李云波
王崇宇
彭露
黄龙海
陈航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110007332.2A priority Critical patent/CN112613582B/zh
Publication of CN112613582A publication Critical patent/CN112613582A/zh
Application granted granted Critical
Publication of CN112613582B publication Critical patent/CN112613582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于深度学习混合模型的争议焦点检测方法及装置,属于自然语言处理领域。该方法包括以下步骤:①构建争议焦点树库;②完成数据的标注并得到数据集;③得到完整可训练的数据集;④将步骤S3得到的数据集进行中文数据预处理;⑤利用BERT‑wwm模型得到文本字向量矩阵;⑥使用LSTM网络模型提取文本全局语义特征;使用TextCNN模型的多种卷积核提取文本不同粒度的局部语义特征;将两个模型的概率结果进行平均计算,设定阈值进行预测,输出概率超过阈值的争议焦点。本发明针对单模型不能同时捕捉并利用多层面语义特征的问题,提供了一种混合模型的争议焦点预测方法,大大提升了预测精度。

Description

一种基于深度学习混合模型的争议焦点检测方法及装置
技术领域
本发明属于自然语言处理领域,涉及一种基于深度学习混合模型的争议焦点检测方法及装置。
背景技术
随着自然语言处理等认知智能在司法领域的蓬勃发展,文本分类技术将为解决司法业务中涉及的智能化处理与分析问题提供科学与技术支撑。通过智能化文本分类技术自动检测案件诉辩过程中的争议焦点,为法官、检察官及其他司法人员快速、准确分析案件的关键信息提供支持。
文本分类可以通过手动标注或自动标注来执行,在信息呈指数型增长的时代,手动处理和分类大量文本数据既耗时又具有挑战性。此外,人工文本分类的准确性很容易受到如疲劳和缺乏专业知识等人为因素的影响。因此,绝大多数情况我们都希望通过自动文本分类的方法来节省成本,并获得更可靠和更客观的结果,自动文本分类方法也变得越来越重要。自动文本分类的方法可以分为三类:
1、基于规则的方法
基于规则的方法使用一系列预先定义好的规则将文本分类为不同的类别。例如,任何带有“汽车”,“飞机”或“轮船”字样的文本都被分为“交通”标签。基于规则的方法需要针对不同的任务不同的标签制定不同的规则集,需要对该领域具有足够的专业知识,并且规则和系统很难进行维护。
2、基于传统机器学习的方法
基于传统机器学习的文本分类通常遵循特征工程和分类器两个过程,特征工程又包括文本预处理、特征提取、文本表示三个部分,目的是将文本转换成计算机可识别的格式,并封装足够用于分类的信息,分类器大多数为统计分类方法,比如朴素贝叶斯分类算法、KNN、SVM和最大熵等等。特征工程在机器学习中往往是最耗时耗力的,在训练分类器之前,我们需要收集知识或经验来从原文本中提取特征,特征提取的好坏将直接影响分类器的性能。设计特征对领域知识的强烈依赖,使得训练出来的分类器难以推广到新的任务。此外,传统做法的文本表示常常是高维度高稀疏的,特征表达能力很弱。这些基于传统机器学习模型不能充分利用大量的训练数据,因为特征是预先定义的。
3、基于深度学习的方法
近年来,深度学习之所以能在图像、文本、语音等多媒体信息的处理任务中取得的巨大成功,一个重要的原因是深度学习框架可以直接从输入中学习特征表示,而不需要太多的人工干预和先验知识。在文本分类任务中,常用的深度学习模型有卷积神经网络(CNN)、循环神经网络(RNN)等。CNN通过设置不同大小的卷积核能提取到不同的n-gram特征,从而有效的捕捉到局部相关性,但是缺少学习上下文相关性的能力。RNN相比于CNN虽然不用固定卷积核窗口的大小,避免了卷积核超参数调节的繁琐,但是随着输入文本序列长度的增加,网络难以学到连接之间的关系并产生序列长距离依赖,面临着梯度消失和爆炸的问题。此外,在11个自然语言处理任务取得最先进效果的语言表示模型BERT也是文本分类任务的一个研究热点,但是BERT预训练中存在只屏蔽部分字符,使得模型很难学习到语义知识单元的完整语义表示。
专利号为CN201910980161.4的文件中公开了一种基于深度学习的争议焦点生成方法,该方法包括:从网络中爬取大量裁判文书;利用正则表达式方法对裁判文书进行初步的清洗和整理,抽取出裁判文书中的原告诉称和被告辩称,并对每一对原告诉称和被告辩称进行人工标注,将原告诉称和被告辩称以及人工标注的数据集;使用深度学习中的seq2seq文本生成模型和attention模型,编码器和解码器都使用由RNN进化而来的GRU网络,对最终得到的训练数据集进行训练后,导出该训练数据集对应的生成器模型;利用训练完成的生成器达到从未标注的原告诉称和被告辩称中生成双方的争议焦点的效果。该技术的缺陷一是完全依赖人工标注数据,依赖大量的人力资源和专业领域知识;二是使用端到端的seq2seq文本生成模型编码器需要充分理解原文本的语义信息才能达到较好的解码效果,结果达不到预期且不稳定;三是端到端的seq2seq文本生成模型需要很长的训练时间,且容易出现未登录词的问题。
现需要一种成本低、耗时短、准确高且稳定的争议焦点检测方法和装置。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度学习混合模型的争议焦点检测方法及装置。本发明将争议焦点检测问题转化为多标签文本分类任务,通过构建争议焦点树库获得少量数据集,每条数据包括原告诉称文本、被告辩称文本和争议焦点标签列表,采用先验知识与主动学习相结合的方法,扩充得到完整数据集,对案由类别的案件训练各自的混合模型,模型训练完毕后,输入真实案件文本,选择对应模型进行预测,输出案件包含的所有争议焦点。
为达到上述目的,本发明提供如下技术方案:
一种基于深度学习混合模型的争议焦点检测方法,该方法包括以下步骤:
S1、构建争议焦点树库,剔除冗余的争议焦点,得到争议焦点标签集合C;
S2、从争议焦点树库中获得案例文件,从案例文件中提取原告和被告的诉辩内容,利用构建好的争议焦点树库,结合先验知识及人工规则,完成数据的标注,并统一为“原告诉称”+“被告辩称”+“争议焦点标签”格式,得到数据集;
S3、采用先验知识与主动学习相结合的方法扩充数据集,得到完整可训练的数据集;
S4、将步骤S3得到的数据集进行中文数据预处理,并将预处理后的数据转换为模型输入所需要的数据格式;
S5、利用BERT-wwm全字掩蔽模型训练得到文本字向量矩阵,将文本字向量矩阵同时作为双向LSTM网络模型和TextCNN网络模型的输入;
S6、使用双向LSTM网络模型提取文本全局语义特征;TextCNN模型中利用大小不同的卷积核提取文本不同粒度的局部语义特征;将两个模型的概率结果进行平均计算,设定阈值进行预测,输出概率超过阈值的争议焦点。
可选地,步骤S1中,争议焦点树库的构建具体为:根据案由将案件分为民事案件、刑事案件和行政案件三类;
该民事案件包括民间借贷纠纷、机动车交通事故责任纠纷、离婚纠纷、追索劳动报酬纠纷和股权转让纠纷;
该刑事案件包括盗窃罪、诈骗罪、危险驾驶罪、故意伤害罪和受贿罪;
该行政案件包括劳动和社会保障行政管理、道路交通管理、房屋拆迁管理、商标行政管理和金融行政管理;
针对每一类案由,结合法学知识,归纳出相应的争议焦点,并导入争议焦点的原告和被告表述文本及相应的裁判文书,形成争议焦点树;
根据真实的且法律适用的争议焦点及其性质,对每一类争议焦点树进行再次的归纳、筛选、梳理、抽象提取和文本编辑,最终完成对案由案件的争议焦点树库的构建。
可选地,步骤S3中,扩充数据具体为:
从争议焦点树库取得标注好的数据后,通过研究法律文本规范性的特征,对每一个争议焦点撰写规则,选取随机森林作为分类器,通过查询函数在未标注的样本数据集中查询信息量大的样本,利用先验知识和规则对这些未标注的样本进行标注纠正,迭代训练,完成对数据的扩充。
可选地,步骤S4中,数据预处理具体为:
读取文本,提取原告诉称和被告辩称文本内容,去除文本中的英文字符、表情和乱码,对文本进行分句;
使用分词工具和司法领域专有字典对句子分词,去除停用词;
计算句子得分,选取得分排名靠前的句子,并保持句子在原文本中的顺序。
可选地,计算句子得分为:利用词频逆文本频率指数TF-IDF方法计算句子中每一个词的tf-idf值,句子的得分score为所有词的tf-idf值之和。
可选地,TF-IDF的计算方法为:
Figure BDA0002884029060000041
tf表示词条在文本中出现的概率,其中分子ni,j表示该词在文件dj中出现的次数,分母则表示文件dj中所有词出现的次数总和;
Figure BDA0002884029060000042
idf表示词条的逆向文件频率,其中|D|是语料库中的文件总数,|{j:ti∈dj}|表示包含词条ti的文件数目,为保证分母不为零,使用|{j:ti∈dj}|+1
tf-idf=tf*idf
设tf-idf值越大,则这个词成为一个关键词的概率就越大;设一句话内所有词的tf-idf值之和score越大,则该句话越重要。
可选地,步骤S4具体为:将数据转换为模型输入所需要的数据格式,利用BERT-wwm全字掩蔽模型训练得到文本字向量矩阵,该文本字向量矩阵的获取具体为:
将原告诉称文本和被告辩称文本作为BERT-wwm全字掩蔽模型输入的句子1和句子2,在句子1开头加入[CLS]开始符号,在句子1末尾加入[SEP]结尾符,在句子2末尾加入[SEP]结尾符,最终输入文本表示为[CLS]+句子1+[SEP]+句子2+[SEP]格式,将文本中的每个字符转换为字向量Et,并结合表示位置的位置向量Ep以及用于区分句子1和句子2的段向量Ea,将这三个向量拼接起来作为BERT-wwm全字掩蔽模型的输入,输出得到输入文本的字向量矩阵。
可选地,S6具体为:
设定阈值进行预测,输出概率超过阈值的争议焦点定义为:
将BERT-wwm全字掩蔽输出的字向量矩阵作为双向LSTM模型和TextCNN模型的输入;
TextCNN模型使用一维卷积,并设置大小不同的卷积核提取多个粒度的局部特征,两个模型分别预测每个争议焦点标签得分,该争议焦点标签的列数为|C|,使用sigmod函数激活得到每个标签的概率值,将两个模型的得到的概率结果算数平均,在[0.5,0.7]数值范围内按步长0.01设置阈值,超过阈值则预测为该标签存在争议焦点,用1表示;低于阈值则预测为该标签不是争议焦点,用0表示。
可选地,装置包括争议焦点树库构建模块、数据生成模块、模型训练模块和争议焦点预测模块;
该争议焦点树库构建模块与数据生成模块信号连接;
该数据生成模块一端与争议焦点树库构建模块信号连接,另一端与模型训练模块信号连接;
该模型训练模块一端与数据生成模块信号连接,另一端与争议焦点预测模块信号连接;
该争议焦点预测模块与模型训练模块信号连接;
该争议焦点树库构建模块用于针对每一类案由的每一个争议焦点,导入争议焦点的原被告表述文本及相应的裁判文书,构建出案由的案件争议焦点树库;
该数据生成模块用于从争议焦点树库中获得案由案件的数据集,并扩展数据以供模型训练;
该模型训练模块针对每一类案由案件,对输入数据集进行模型训练,在[0.5,0.7]数值范围内按步长0.01调整阈值选取并保存最优模型;
该争议焦点预测模块根据输入测试案件数据,选择案件所属类别,运行相应的案由案件模型,预测输出案件的所有争议焦点。
本发明的有益效果在于:本发明有效的将司法领域中的争议焦点检测问题转化为了多标签文本分类任务,采用法律专家的先验知识与主动学习相结合的方法扩充数据,减少完全依赖人工标注数据带来的开销;使用全词遮掩技术的中文预训练模型BERT-wwm更好的学习文本表示;融合TextCNN网络,用于提取不同粒度的局部语义特征;融合双向LSTM网络,利用其具有长距离的记忆功能,充分学习文本的全局语义特征。经过实验分析证明,利用本发明的争议焦点检测方法,在有效的减少成本的基础上,能快速,准确的检测出案件的争议焦点,并且针对不同类别的案由案件,这种方法具有通用性且效果稳定。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的基本流程示意图;
图2为本发明句子选择流程示意图;
图3为本发明模型结构示意图;
图4为本发明的装置结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,为一种基于深度学习混合模型的争议焦点检测方法及装置。
实施例1:如图1所示,一种基于深度学习混合模型的争议焦点方法,包括但不限于如下步骤:
步骤1、构建争议焦点树库,剔除冗余的争议焦点,得到争议焦点标签集合C。具体如下:
根据案由将案件分为民事、刑事、行政三个大类,其中民事包括民间借贷纠纷、机动车交通事故责任纠纷、离婚纠纷、追索劳动报酬纠纷、股权转让纠纷,刑事包括盗窃罪、诈骗罪、危险驾驶罪、故意伤害罪、受贿罪,行政包括劳动和社会保障行政管理、道路交通管理、房屋拆迁管理、商标行政管理、金融行政管理,共15个小类案由;
针对每一类案由,结合法学知识,归纳出相应的争议焦点,并导入争议焦点的原被告表述文本及相应的裁判文书;
根据真实的法律适用的争议焦点及其性质,对每一类争议焦点树进行再次的归纳、筛选、梳理、抽象提取和文本编辑,最终完成对15类案由案件的争议焦点树构建。
步骤2、从争议焦点树库中获得少量案例文件,从案例文件中提取出原被告诉辩内容,利用已经构建好的争议焦点树库,结合法律专家的先验知识及人工规则,完成数据的标注,并统一为“原告诉称”+“被告辩称”+“争议焦点标签”格式(争议焦点标签列数为|C|),得到少量数据集。
步骤3、采用法律专家的先验知识(争议焦点树库)与主动学习相结合的方法扩充数据,得到完整可训练的数据集。具体扩充数据过程为:
从争议焦点树库取得少量标注好的数据后,通过研究法律文本规范性的特征,对每一个争议焦点撰写一定数量的专家规则,选取随机森林作为分类器,通过查询函数在未标注的样本数据集中查询信息量大的样本,利用法律专家的先验知识(争议焦点树库)和专家规则对这些未标注的样本进行标注纠正,迭代训练,完成对数据的扩充。
步骤4、将上述得到的数据集进行中文数据预处理,并将数据转换为模型输入所需要的数据格式。具体数据包括:
读取文本,提取原告诉称和被告辩称的文本内容,首先去除文本中的英文字符、表情和乱码,然后对文本进行进行分句,借助jieba分词工具和司法领域专有字典对每一句分词并去除停用词,最后利用TF-IDF算法计算句子得分,选取得分排名靠前的句子,原告诉称和被告辩称的句子长度之和都不超过250,并保持句子在原文本中的顺序。
步骤5、利用BERT-wwm模型训练得到文本字向量矩阵,然后将字向量矩阵同时作为双向LSTM模型和TextCNN模型的输入。得到文本子向量的具体过程为:
将原告诉称文本和被告辩称文本作为BERT-wwm模型输入的句子1和句子2,在句子1开头加入[CLS]开始符号,在句子1末尾加入[SEP]结尾符,在句子2末尾加入[SEP]结尾符,最终输入文本表示为[CLS]+句子1+[SEP]+句子2+[SEP]格式,将文本中的每个字符转换为字向量Et,并结合表示位置的位置向量Ep以及用于区分句子1和句子2的段向量Ea,将这三个向量拼接起来作为BERT-wwm模型的输入,输出得到输入文本的字向量矩阵表示;
步骤6、使用BERT-wwm输出的字向量矩阵同时作为单层双向LSTM模型和TextCNN模型的输入,TextCNN模型使用一维卷积,并设置不同大小的卷积核提取多个粒度的局部特征,两个模型分别预测每个争议焦点标签得分,使用sigmod函数激活得到每个标签的概率值,将两个模型的得到的概率结果算数平均,在[0.5,0.7]数值范围内按步长0.01设置阈值,超过阈值则预测为该标签存在争议焦点,用1表示;低于阈值则预测为该标签不是争议焦点,用0表示。
步骤7、输入测试案件数据,选择案件所属类别,运行相应的案由案件模型,预测输出案件的所有争议焦点。
应用实施例:参见图1,一种基于深度学习混合模型的争议焦点检测方法,包括以下步骤:
步骤1、案件的争议焦点与案件的性质和案由具有高度关联性,由此特定案由案件的争议焦点可以归纳为有效数量的类型。对每一类案由案件的争议焦点,根据其产生所产生的来源类型(事实争议或是法律适用的争议)、性质类型等,进行分类、归纳、梳理、抽象提取和文本编辑,即可形成各个案由案件的争议焦点树,并最终完成15类案由案件的争议焦点树库。例如刑事案件中的盗窃罪案由案件的争议焦点可以归纳为被告主观上是否具有非法占有的目的、被告是否实施了盗窃行为、盗窃数额的认定问题、是否构成单位犯罪、是否构成自首等,每个争议焦点附带了少量的案例文件库中具体的案例id以及每个案例id对应的原告诉称和被告辩称表述文本。
步骤2、从争议焦点树库中获得少量案例文件,其中每个争议焦点涉及的案件数量为400至1000,结合法律专家的先验知识及人工规则,完成少量数据的标注,其中盗窃罪案由共手工标注2000条数据,统一为“原告诉称”+“被告辩称”+“争议焦点标签”格式,存在争议焦点的标签标1,不存在争议焦点的0,如表1所示:
表1争议焦点标注数据格式样例表
Figure BDA0002884029060000081
步骤3、从争议焦点树库获得少量标注好的数据后,通过研究法律文本规范性的特征,对每一个争议焦点撰写一定数量的专家规则,例如将盗窃案案由标注好的2000条数据撰写专家规则,并选取随机森林作为分类器,通过查询函数在未标注的样本数据集中查询信息量大的样本,利用法律专家的先验知识(争议焦点树库)和专家规则对这些未标注的样本进行标注纠正,迭代训练,完成对数据的扩充,将盗窃案案由数据扩展至22000条,选取其中2000条数据用作测试。
步骤4、将步骤3得到的数据集去除文本中的英文字符、表情、乱码,然后将原告诉称和被告辩称文本按照分割符“。”、“!”、“!”、“.”、“?”和“?”进行分句并保留分隔符;借助jieba分词工具和司法领域专有词表对每个句子进行分词;选用哈工大的停用词表除去连词、虚词、语气词等无意义的词;如图2,再利用TF-IDF算法计算每个句子的得分,句子的得分等于句子中每个词的tf-idf值之和;选取得分排名靠前的句子,使得原告诉称文本长度和被告辩称文本长度都不超过250,以保证输入BERT-wwm模型的序列长度小于512。
步骤5、将数据集中每条数据转换为“[CLS]+句子1+[SEP]+句子2+[SEP]”格式,其中句子1为原告诉称文本,句子2为被告辩称文本,样本最大长度max_seq_length设置为512。将文本内容的词向量、段向量和位置向量的加权作为BERT-wwm输入,输出各个位置融合了上下文语义的字向量,从而获得能表示全文语义信息的字向量矩阵。
步骤6、如图3所示,将步骤5获得的字向量矩阵同时作为混合模型中单层双向LSTM和TextCNN的输入。单层双向LSTM模型提取文本全局语义特征用,LSTM后添加全连接层用于预测每个争议焦点标签得分score1,使用sigmod函数激活得到争议焦点类别概率向量P1。TextCNN模型使用大小分别为1、2、3和4的卷积核提取文本不同粒度的局部语义特征,并将这些特征拼接在一起用于预测每个争议焦点标签得分score2,使用sigmod函数激活得到争议焦点类别概率向量P2,最后将向量P1和向量P2对应位置算术平均得到最终分类概率向量P。在[0.5,0.7]数值范围内按步长0.01设置阈值进行预测,超过阈值则预测为该标签存在争议焦点,用1表示;低于阈值则预测为该标签不是争议焦点,用0表示,最终选择使得测试结果最佳的阈值。例如在盗窃案案由案件测试中,当阈值设定在0.55的时候,达到最佳效果,F1值达到0.91。
本发明实施例提供了一种争议焦点检测装置,包括:
争议焦点树库构建模块:用于针对每一类案由的每一个争议焦点,导入争议焦点的原被告表述文本及相应的裁判文书,构建出15类案由的案件争议焦点树库。
在一个优选实施例中,争议焦点树库构建模块包括输入设备和存储器,所述输入设备用于输入原被告表述文本和对应裁判文书信息。所诉存储器用于存储争议焦点树库。
数据生成模块:用于从争议焦点树库中获得15类案由案件的少量数据集,并扩展足够的数据以供模型训练;对每个样本,基于TF-IDF算法计算句子得分,选取得分排名靠前的句子,原告诉称和被告辩称的句子长度之和都不超过250,并保持句子在原文本中的顺序;将数据转换为模型输入所需要的数据格式。
在一个优选实施例中,数据生成模块包括处理器第一单元、处理器第二单元、处理器第三单元以及可在处理器上运行的计算机程序,所诉处理器第一单元用于执行计算句子得分的计算机程序。所诉处理器诉第二单元用于执行数据扩展相应计算机程序。所诉处理器第三单元用于执行转换数据输入格式的计算机程序。
模型训练模块:对每一类案由案件,输入处理好的数据集进行模型训练,在[0.5,0.7]数值范围内按步长0.01调整阈值选取并保存最优模型。
在一个优选实施例中,模型训练模块包括处理器第四单元、存储器以及可在处理器上运行的计算机程序,所述处理器第四单元用于执行混合模型对应的计算机程序。所述存储器用于保存最优模型。
争议焦点预测模块:输入测试案件数据,选择案件所属类别,运行相应的案由案件模型,预测输出案件的所有争议焦点。
在一个优选实施例中,争议焦点预测模块包括输入设备、处理器第五单元和输出设备,所述输入设备用于输入真实案例文件,包括txt、csv、tsv、xlsx等格式文件。所述处理器第五单元用于执行预测对应案由案件争议焦点的计算机程序。所述输出设备用于输出显示由处理器第五单元的得到的预测结果。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述方法包括以下步骤:
S1、构建争议焦点树库,剔除冗余的争议焦点,得到争议焦点标签集合C;
S2、从争议焦点树库中获得案例文件,从案例文件中提取原告和被告的诉辩内容,利用构建好的争议焦点树库,结合先验知识及人工规则,完成数据的标注,并统一为“原告诉称”+“被告辩称”+“争议焦点标签”格式,得到数据集;
S3、采用先验知识与主动学习相结合的方法扩充数据集,得到完整可训练的数据集;
S4、将步骤S3得到的数据集进行中文数据预处理,并将预处理后的数据转换为模型输入所需要的数据格式;
S5、利用BERT-wwm全字掩蔽模型训练得到文本字向量矩阵,将文本字向量矩阵同时作为双向LSTM网络模型和TextCNN网络模型的输入;
S6、使用双向LSTM网络模型提取文本全局语义特征;在TextCNN模型中利用不同大小的卷积核提取文本不同粒度的局部语义特征;将两个模型的概率结果进行平均计算,设定阈值进行预测,输出概率超过阈值的争议焦点。
2.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:
所述步骤S1中,争议焦点树库的构建具体为:根据案由将案件分为民事案件、刑事案件和行政案件三类;
该民事案件包括民间借贷纠纷、机动车交通事故责任纠纷、离婚纠纷、追索劳动报酬纠纷和股权转让纠纷;
该刑事案件包括盗窃罪、诈骗罪、危险驾驶罪、故意伤害罪和受贿罪;
该行政案件包括劳动和社会保障行政管理、道路交通管理、房屋拆迁管理、商标行政管理和金融行政管理;
针对每一类案由,结合法学知识,归纳出相应的争议焦点,并导入争议焦点的原告和被告表述文本及相应的裁判文书,形成争议焦点树;
根据真实的且法律适用的争议焦点及其性质,对每一类争议焦点树进行再次的归纳、筛选、梳理、抽象提取和文本编辑,最终完成对案由案件的争议焦点树库的构建。
3.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述步骤S3中,扩充数据具体为:
从争议焦点树库取得标注好的数据后,通过研究法律文本规范性的特征,对每一个争议焦点撰写规则,选取随机森林作为分类器,通过查询函数在未标注的样本数据集中查询信息量大的样本,利用先验知识和规则对这些未标注的样本进行标注纠正,迭代训练,完成对数据的扩充。
4.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述步骤S4中,数据预处理具体为:
读取文本,提取原告诉称和被告辩称文本内容,去除文本中的英文字符、表情和乱码,对文本进行分句;
使用分词工具和司法领域专有字典对句子分词,去除停用词;
计算句子得分,选取得分排名靠前的句子,并保持句子在原文本中的顺序。
5.根据权利要求4所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述计算句子得分为:利用词频逆文本频率指数TF-IDF方法计算句子中每一个词的tf-idf值,句子的得分score为所有词的tf-idf值之和。
6.根据权利要求5所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述tf-idf的计算方法为:
Figure FDA0002884029030000021
tf表示词条在文本中出现的概率,其中分子ni,j表示该词在文件dj中出现的次数,分母则表示文件dj中所有词出现的次数总和;
Figure FDA0002884029030000022
idf表示词条的逆向文件频率,其中|D|是语料库中的文件总数,|{j:ti∈dj}|表示包含词条ti的文件数目,为保证分母不为零,使用|{j:ti∈dj}|+1
tf-idf=tf*idf
设tf-idf值越大,则这个词成为一个关键词的概率就越大;设一句话内所有词的tf-idf值之和score越大,则该句话越重要。
7.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述步骤S4具体为:将数据转换为模型输入所需要的数据格式,利用BERT-wwm全字掩蔽模型训练得到文本字向量矩阵,该文本字向量矩阵的获取具体为:
将原告诉称文本和被告辩称文本作为BERT-wwm全字掩蔽模型输入的句子1和句子2,在句子1开头加入[CLS]开始符号,在句子1末尾加入[SEP]结尾符,在句子2末尾加入[SEP]结尾符,最终输入文本表示为[CLS]+句子1+[SEP]+句子2+[SEP]格式,将文本中的每个字符转换为字向量Et,并结合表示位置的位置向量Ep以及用于区分句子1和句子2的段向量Ea,将这三个向量拼接起来作为BERT-wwm全字掩蔽模型的输入,输出得到输入文本的字向量矩阵。
8.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述S6具体为:
设定阈值进行预测,输出概率超过阈值的争议焦点定义为:
将BERT-wwm全字掩蔽输出的字向量矩阵作为双向LSTM模型和TextCNN模型的输入;
TextCNN模型中使用一维卷积,并设置大小不同的卷积核提取多个粒度的局部特征,两个模型分别预测每个争议焦点标签得分,该争议焦点标签的列数为|C|,使用sigmod函数激活得到每个标签的概率值,将两个模型的得到的概率结果算数平均,在[0.5,0.7]数值范围内按步长0.01设置阈值,超过阈值则预测为该标签存在争议焦点,用1表示;低于阈值则预测为该标签不是争议焦点,用0表示。
9.基于权利要求1~8中任何一项所述方法的基于深度学习混合模型的争议焦点检测装置,其特征在于:所述装置包括争议焦点树库构建模块、数据生成模块、模型训练模块和争议焦点预测模块;
该争议焦点树库构建模块与数据生成模块信号连接;
该数据生成模块一端与争议焦点树库构建模块信号连接,另一端与模型训练模块信号连接;
该模型训练模块一端与数据生成模块信号连接,另一端与争议焦点预测模块信号连接;
该争议焦点预测模块与模型训练模块信号连接;
该争议焦点树库构建模块用于针对每一类案由的每一个争议焦点,导入争议焦点的原被告表述文本及相应的裁判文书,构建出案由的案件争议焦点树库;
该数据生成模块用于从争议焦点树库中获得案由案件的数据集,并扩展数据以供模型训练;
该模型训练模块针对每一类案由案件,对输入数据集进行模型训练,在[0.5,0.7]数值范围内按步长0.01调整阈值选取并保存最优模型;
该争议焦点预测模块根据输入测试案件数据,选择案件所属类别,运行相应的案由案件模型,预测输出案件的所有争议焦点。
CN202110007332.2A 2021-01-05 2021-01-05 一种基于深度学习混合模型的争议焦点检测方法及装置 Active CN112613582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110007332.2A CN112613582B (zh) 2021-01-05 2021-01-05 一种基于深度学习混合模型的争议焦点检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110007332.2A CN112613582B (zh) 2021-01-05 2021-01-05 一种基于深度学习混合模型的争议焦点检测方法及装置

Publications (2)

Publication Number Publication Date
CN112613582A true CN112613582A (zh) 2021-04-06
CN112613582B CN112613582B (zh) 2022-06-24

Family

ID=75253735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110007332.2A Active CN112613582B (zh) 2021-01-05 2021-01-05 一种基于深度学习混合模型的争议焦点检测方法及装置

Country Status (1)

Country Link
CN (1) CN112613582B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468323A (zh) * 2021-06-01 2021-10-01 成都数之联科技有限公司 争议焦点类别及相似判断方法及系统及装置及推荐方法
CN113553856A (zh) * 2021-06-16 2021-10-26 吉林大学 一种基于深度神经网络的争议焦点识别方法
CN114490939A (zh) * 2022-01-25 2022-05-13 北京华宇元典信息服务有限公司 争议焦点推荐方法及装置
CN116467347A (zh) * 2023-03-22 2023-07-21 天云融创数据科技(北京)有限公司 一种股票问答方法
WO2024016516A1 (zh) * 2022-07-18 2024-01-25 浙大城市学院 文献数据集上知识图谱实体标注错误识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074290A1 (en) * 2018-08-30 2020-03-05 Element Ai Inc. Complex valued gating mechanisms
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111814477A (zh) * 2020-07-06 2020-10-23 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN111831790A (zh) * 2020-06-23 2020-10-27 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074290A1 (en) * 2018-08-30 2020-03-05 Element Ai Inc. Complex valued gating mechanisms
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111831790A (zh) * 2020-06-23 2020-10-27 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN111814477A (zh) * 2020-07-06 2020-10-23 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余升: ""基于CW-BLSTM-CNN的中文问题分类研究 "", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468323A (zh) * 2021-06-01 2021-10-01 成都数之联科技有限公司 争议焦点类别及相似判断方法及系统及装置及推荐方法
CN113553856A (zh) * 2021-06-16 2021-10-26 吉林大学 一种基于深度神经网络的争议焦点识别方法
CN114490939A (zh) * 2022-01-25 2022-05-13 北京华宇元典信息服务有限公司 争议焦点推荐方法及装置
CN114490939B (zh) * 2022-01-25 2022-09-02 北京华宇元典信息服务有限公司 争议焦点推荐方法及装置
WO2024016516A1 (zh) * 2022-07-18 2024-01-25 浙大城市学院 文献数据集上知识图谱实体标注错误识别方法和系统
CN116467347A (zh) * 2023-03-22 2023-07-21 天云融创数据科技(北京)有限公司 一种股票问答方法
CN116467347B (zh) * 2023-03-22 2024-04-30 天云融创数据科技(北京)有限公司 一种股票问答方法

Also Published As

Publication number Publication date
CN112613582B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN112613582B (zh) 一种基于深度学习混合模型的争议焦点检测方法及装置
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
Rahman Understanding the logical and semantic structure of large documents
Faruque et al. Ascertaining polarity of public opinions on Bangladesh cricket using machine learning techniques
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
Li et al. A method for resume information extraction using bert-bilstm-crf
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
Dvoynikova et al. Analytical review of methods for identifying emotions in text data
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
Islam et al. An in-depth exploration of Bangla blog post classification
Peleshchak et al. Text Tonality Classification Using a Hybrid Convolutional Neural Network with Parallel and Sequential Connections Between Layers.
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Chathumali et al. Detecting human emotions on Facebook comments
Zhang et al. Sentiment identification by incorporating syntax, semantics and context information
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
Wu et al. A self-relevant cnn-svm model for problem classification in k-12 question-driven learning
Liu et al. Suggestion mining from online reviews usingrandom multimodel deep learning
Kortum et al. Leveraging Natural Language Processing to Analyze Scientific Content: Proposal of an NLP Pipeline for the Field of Computer Vision
Sevim et al. Multi-class document image classification using deep visual and textual features
Selvi et al. Sentimental analysis of movie reviews in Tamil text
Segura-Tinoco et al. An Argument-based Search Framework: Implementation on a Spanish Corpus in the E-Participation Domain.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant