CN113468323B - 争议焦点类别及相似判断方法及系统及装置及推荐方法 - Google Patents
争议焦点类别及相似判断方法及系统及装置及推荐方法 Download PDFInfo
- Publication number
- CN113468323B CN113468323B CN202110608911.2A CN202110608911A CN113468323B CN 113468323 B CN113468323 B CN 113468323B CN 202110608911 A CN202110608911 A CN 202110608911A CN 113468323 B CN113468323 B CN 113468323B
- Authority
- CN
- China
- Prior art keywords
- dispute focus
- statement
- dispute
- model
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了争议焦点类别及相似判断方法及系统及装置及推荐方法,属于自然语言处理领域,本发明包括数据集构造、模型构建和训练,本发明整体架构使用了召回、精排的双模型,召回模型是对争议焦点直接分类,准确度有限,但是速度快,保障了整体效率;精排模型充分利用了bert的Self‑attention机制对争议焦点对做语义交互,虽然速度稍慢,但是准确率高;因此召回‑精排双模型有效的平衡了速度和精确度。
Description
技术领域
本发明涉及自然语言处理领域,具体地,涉及争议焦点类别及相似判断方法及系统及装置及推荐方法。
背景技术
目前司法领域争议焦点语句相似性判断方式主要有:
1)把争议焦点语句相似性问题转化成多分类任务,该方式面临着小样本学习问题,通常每个案由标注的类别大于100,每个类别的样本数小于10,容易导致分类结果的准确率低。
2)使用语义相似度匹配技术手段,为了更好的判断两个争议焦点语句是否语义相似,通常需要使用交互式模型,本方式一般情况下的准确率相较于第一方式有较大的提高,但本方式的主要问题是推断时查询的争议焦点语句需要与每个标注的争议焦点语句交互,然后确定分类或提取相似争议焦点语句,这样效率会较低。
发明内容
为了同时保障争议焦点语句类别判断的准确性和效率,本发明提供了涉及争议焦点类别及相似判断方法及系统及装置及推荐方法。
其中,争议焦点语句为裁判文书中的一句或者几句话,通常的格式为“本案的争议焦点是……”。
为实现上述目的,本发明提供了争议焦点类别判断方法,所述方法包括:
从裁判文书数据中抽取得到第一争议焦点语句数据,将所述第一争议焦点语句数据标注争议焦点类别得到第二争议焦点语句数据;
基于所述第二争议焦点语句数据构造召回数据集,所述召回数据集中数据元素的结构为:(争议焦点语句a,a的争议类别);
基于所述第二争议焦点语句数据构造精排数据集,所述精排数据集中数据元素的结构为:((争议焦点语句a,a对应的相似争议焦点语句),(争议焦点语句a,a对应的困难样本争议焦点语句));
构造第一召回模型和第一精排模型,利用所述召回数据集训练所述第一召回模型得到第二召回模型,利用所述精排数据集训练所述第一精排模型得到第二精排模型;
得到争议焦点类别待判断的争议焦点语句X,将所述争议焦点语句X输入所述第二召回模型,所述第二召回模型输出所述争议焦点语句X的top N争议焦点类别标签,N为大于或等于1的整数;将争议焦点语句X-top N类别对应的争议焦点语句输入所述第二精排模型,所述第二精排模型输出所述争议焦点语句X的争议焦点类别。
其中,争议焦点语句a对应的相似争议焦点语句与争议焦点语句a属于同一个争议焦点类别;争议焦点语句a对应的困难样本争议焦点语句为从抽取得到的所有争议焦点类别中剔除争议焦点语句a对应争议焦点类别后,从剩余争议焦点语句类别对应的争议焦点语句中提取与争议焦点语句a最相似的top K争议焦点语句,K为大于或等于1的整数;其中,争议焦点语句的争议焦点类别即争议焦点语句的标签,基于具体的案由生成对应的标签,争议焦点语句的争议焦点类别代表了争议焦点的主题。
其中,本发明的原理为:本发明首先整体架构使用了召回、精排的双模型,召回模型是对争议焦点直接分类,准确度有限,但是速度快,保障了整体效率;精排模型充分利用了bert的Self-attention机制对争议焦点对做语义交互,虽然速度稍慢,但是准确率高;因此召回-精排双模型有效的平衡了速度和精确度。
优选的,本方法中所述第二精排模型得到所述争议焦点语句X与top N争议焦点类别对应的争议焦点语句的第一相似度,将所有所述第一相似度按照top N争议焦点类别分组,并求各分组中所述第一相似度的平均值,所述平均值为所述争议焦点语句X对应争议焦点类别与top N争议焦点类别的第二相似度,选取所述第二相似度最高的类别作为所述争议焦点语句X的争议焦点类别。
优选的,本方法中召回模型为使用预训练语言模型Bert做微调得到的基于Bert的多分类模型。召回模型的输入为争议焦点语句,输出为争议焦点类别,训练使用的数据集为前述的召回数据集。
优选的,本方法中精排模型为Bert-Based Siamese Network,精排模型的损失函数为triplet_loss,精排模型训练时采用对抗训练方式。
优选的,所述抗训练方式中精排模型每次训练在做前向传播和梯度更新之前,先对Bert模型的标记嵌入做扰动处理,扰动的向量为损失函数对标记嵌入的梯度,将该扰动向量加到标记嵌入上,然后做前向传播和后向梯度更新,将扰动向量从标记嵌入上减掉,从而进入到下一次迭代训练。
优选的,本方法中与争议焦点语句a最相似的top K争议焦点语句的提取方式为:
从剩余争议焦点语句类别对应的争议焦点语句中筛选出第一部分争议焦点语句,即获得剩余争议焦点语句的争议焦点类别对应的标签,基于标签筛选出第一部分争议焦点语句;
使用TF-IDF算法从第一部分争议焦点语句中匹配出与争议焦点语句a最相似的top K争议焦点语句。
本发明还提供了争议焦点相似性判断方法,所述方法包括:
得到相似性待判断的第一争议焦点语句与第二争议焦点语句;
使用所述争议焦点类别判断方法分别得到所述第一争议焦点语句的争议焦点类别和所述第二争议焦点语句的争议焦点类别;
若所述第一争议焦点语句的争议焦点类别与所述第二争议焦点语句的争议焦点类别相同,则判断所述第一争议焦点语句与所述第二争议焦点语句相似;
若所述第一争议焦点语句的争议焦点类别与所述第二争议焦点语句的争议类别不同,则判断所述第一争议焦点语句与所述第二争议焦点语句不相似。
其中,本发明中的争议焦点相似性判断方法首选通过争议焦点类别判断方法判断出争议语句的类别,然后通过判断出的争议焦点类别来判断争议焦点语句是否相似,本发明中的争议焦点相似性判断方法能够快速且准确的判断出争议焦点语句是否相似。
本发明还提供了一种类案推荐方法,所述方法包括:
得到待处理案件A的争议焦点语句m;
采用所述的争议焦点相似性判断方法从争议焦点语句数据库中匹配出与所述争议焦点语句m相似的若干第三争议焦点语句;
基于所述第三争议焦点语句得到若干与所述待处理案件A相似的案件B,将所述案件B推送至预设目标。
其中,本发明中的类案推荐方法首选得到案件的争议焦点语句,然后通过争议焦点相似性判断方法来判断与该争议焦点语句相似的争议焦点语句,通过判断出的相似争议焦点语句找到对应的案件,进而将案件推送给相应的目标,实现了类案的快速且准确推荐。
本发明还提供了一种争议焦点类别判断系统,所述系统包括:
争议焦点语句抽取及标注单元,用于从裁判文书数据中抽取得到第一争议焦点语句数据,将所述第一争议焦点语句数据标注争议焦点类别得到第二争议焦点语句数据;
召回数据集构造单元,用于基于所述第二争议焦点语句数据构造召回数据集,所述召回数据集中数据元素的结构为:(争议焦点语句a,a的争议类别);
精排数据集构造单元,用于基于所述第二争议焦点语句数据构造精排数据集,所述精排数据集中数据元素的结构为:((争议焦点语句a,a对应的相似争议焦点语句),(争议焦点语句a,a对应的困难样本争议焦点语句));
模型构造及训练单元,用于构造第一召回模型和第一精排模型,利用所述召回数据集训练所述第一召回模型得到第二召回模型,利用所述精排数据集训练所述第一精排模型得到第二精排模型;
争议焦点语句类别判断单元,用于得到争议焦点类别待判断的争议焦点语句X,将所述争议焦点语句X输入所述第二召回模型,所述第二召回模型输出所述争议焦点语句X的top N争议焦点类别标签,N为大于或等于1的整数;将争议焦点语句X-top N类别对应的争议焦点语句输入所述第二精排模型,所述第二精排模型输出所述争议焦点语句X的争议焦点类别。
本发明还提供了一种争议焦点类别判断装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述争议焦点类别判断方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述争议焦点类别判断方法的步骤。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明实现了争议焦点语句的高效、准确分类。首先整体架构使用了召回、精排的双模型,召回模型是对争议焦点直接分类,准确度有限,但是速度快,保障了整体效率;精排模型充分利用了bert的Self-attention机制对争议焦点对做语义交互,虽然速度稍慢,但是准确率高;因此召回-精排双模型有效的平衡了速度和精确度。
同时本发明在构造精排模型的训练数据集时,使用了Hard Sampling技术,从而使得精排模型能够更好的学习语义的细微差别,进一步提升准确率。
本发明使用的对抗训练技术收到,相当于引入了一种新的正则机制,进一步的提升了模型的鲁棒性和预测的准确率。
本发明中的争议焦点相似性判断方法能够快速且准确的判断出争议焦点语句是否相似。
本发明实现了类案的快速且准确推荐。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1为争议焦点类别判断方法的流程示意图;
图2为精排模型的结构示意图;
图3为争议焦点类别判断系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书使用流程图说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
实施例一
请参考图1,图1为争议焦点类别判断方法的流程示意图,本发明提供了争议焦点类别判断方法,所述方法包括:
从裁判文书数据中抽取得到第一争议焦点语句数据,将所述第一争议焦点语句数据标注争议焦点类别得到第二争议焦点语句数据;
基于所述第二争议焦点语句数据构造召回数据集,所述召回数据集中数据元素的结构为:(争议焦点语句a,a的争议类别);
基于所述第二争议焦点语句数据构造精排数据集,所述精排数据集中数据元素的结构为:(争议焦点语句a,a对应的相似争议焦点语句)和(争议焦点语句a,a对应的困难样本争议焦点语句);
构造第一召回模型和第一精排模型,利用所述召回数据集训练所述第一召回模型得到第二召回模型,利用所述精排数据集训练所述第一精排模型得到第二精排模型;
得到争议焦点类别待判断的争议焦点语句X,将所述争议焦点语句X输入所述第二召回模型,所述第二召回模型输出所述争议焦点语句X的top N争议焦点类别标签,N为大于或等于1的整数;将争议焦点语句X-top N类别对应的争议焦点语句输入所述第二精排模型,所述第二精排模型输出所述争议焦点语句X的争议焦点类别。
本发明的争议焦点语句相似性判断方法使用召回、精排两阶段来提升准确率和效率,分别使用基于Bert的多分类模型和语义相似度模型,同时使用Hard Sampling(困难样本)和对抗样本训练技术来进一步的提升准确率。下面本发明实施例一将从训练数据集的构造、两阶段的训练方式和预测做详细的阐述。
构造训练数据集。从裁判文书中抽取争议焦点语句,对每个争议焦点语句做类别标注;通常类别数大于100,每个类别的样本数小于10。其中具体类别数目可以根据实际需要进行灵活调整,本发明不进行具体的限定。其中,本发明实施例中的从裁判文书中抽取争议焦点语句的方式可以为多种方式,本发明不进行具体的限定,如可以为公开专利文献CN110889502A或CN111651566A中的方式。
通过上述方式构造出(争议焦点语句,争议焦点语句的类别)的数据集,命名为召回数据集。基于上述数据集,继续构造精排数据集,其结构为((争议焦点语句,相似争议焦点语句),(争议焦点语句,Hard Sampling争议焦点语句));争议焦点语句和相似争议焦点语句属于同一个争议焦点类别,Hard Sampling争议焦点语句的提取方法为:从所有其它争议焦点语句类别中提取与该争议焦点语句最相似的top K争议焦点语句作为HardSampling争议焦点语句,其中,本发明使用筛选、关键字重叠以及非监督训练的句向量相似性来选择top K争议焦点,其中,关键字重叠个数越多的争议焦点在top K中越靠前。
训练模型。本发明的模型分为召回模型和精排模型。召回模型的输入为争议焦点语句,输出为争议焦点语句的类别,训练使用的数据集为前述的召回数据集。本发明使用预训练语言模型Bert做fine-tuning(微调)从而得到Bert的多分类模型,微调为Bert模型的标准使用方式,指训练神经网络,在实践中,由于数据集不够大,很少有人从头开始训练网络。常见的做法是使用预训练的网络(例如在ImageNet上训练的分类1000类的网络)来重新fine-tuning(也叫微调),或者当做特征提取器。精排模型为Bert-Based SiameseNetwork,精排模型的结构示意图如图2所示,训练使用前述的精排数据集,损失函数为triplet_loss。训练的时候本发明使用对抗训练方式,即每次训练在做前向传播和梯度更新之前,先对Bert的Token-Embedding(标记嵌入)做一个扰动,扰动的向量为损失函数对Token-Embedding的梯度。将该扰动向量加到Token-Embedding上,然后做前向传播和后向梯度更新,最后将扰动向量从Token-Embedding上减掉;从而进入到下一次迭代训练。
其中,在自然语言处理领域通常采用对抗训练的方式训练模型,对抗训练是一种引入噪声的训练方式,可以对参数进行正则化,提升模型鲁棒性和泛化能力。对抗训练指的是在模型的训练过程中构建对抗样本并将对抗样本和原始样本混合一起训练模型的方法,换句话说就是在模型训练的过程中对模型进行对抗攻击从而提升模型对于对抗攻击的鲁棒性(也称为防御能力)。对抗训练的假设是:给输入加上扰动之后进行训练,利用扰动样本训练模型。
模型预测。本发明使用如下方式做模型预测也即争议焦点语句分类。首先输入的query争议焦点语句经过召回模型,得到其top N类别标签;将top N类别标签对应的标注争议焦点语句分别和query争议焦点语句构成(query争议焦点语句,top N类别对应的争议焦点语句)数据,该数据作为精排模型的输入,从而得到每个(query争议焦点语句,top N类别对应的争议焦点语句)的相似度,把所有相似度按照top N类别分组求平均,从而得到query争议焦点语句与top N类别的相似度,选取平均值最大的类别作为query争议焦点语句的类别。
实施例二
本发明实施例二还提供了争议焦点相似性判断方法,所述方法包括:
得到相似性待判断的第一争议焦点语句与第二争议焦点语句;
使用所述争议焦点类别判断方法分别得到所述第一争议焦点语句的争议焦点类别和所述第二争议焦点语句的争议焦点类别;
若所述第一争议焦点语句的争议焦点类别与所述第二争议焦点语句的争议焦点类别相同,则判断所述第一争议焦点语句与所述第二争议焦点语句相似;
若所述第一争议焦点语句的争议焦点类别与所述第二争议焦点语句的争议类别不同,则判断所述第一争议焦点语句与所述第二争议焦点语句不相似。
其中,本发明实施例二中的争议焦点相似性判断方法首选通过争议焦点类别判断方法判断出争议语句的类别,然后通过判断出的类别来判断争议焦点语句是否相似,本发明中的争议焦点相似性判断方法能够快速且准确的判断出争议焦点语句是否相似。
实施例三
本发明实施例三还提供了一种类案推荐方法,所述方法包括:
得到待处理案件A的争议焦点语句m;
采用所述的争议焦点相似性判断方法从争议焦点语句数据库中匹配出与所述争议焦点语句m相似的若干第三争议焦点语句;
基于所述第三争议焦点语句得到若干与所述待处理案件A相似的案件B,将所述案件B推送至预设目标。
其中,本发明实施例三中的类案推荐方法首选得到案件的争议焦点语句,然后通过争议焦点相似性判断方法来判断与该争议焦点语句相似的争议焦点语句,通过判断出的相似争议焦点语句找到对应的案件,进而将案件推送给相应的目标,实现了类案的快速且准确推荐。目标可以为法官,可以为法院工作人员,也可以为公众,也可以为相应的终端,如电脑、手机、智能手表、智能手环等等,本发明对具体的目标类型不进行限定。
实施例四
请参考图3,图3为争议焦点类别判断系统的组成示意图,本发明实施例四提供了一种争议焦点类别判断系统,所述系统包括:
争议焦点语句抽取及标注单元,用于从裁判文书数据中抽取得到第一争议焦点语句数据,将所述第一争议焦点语句数据标注争议焦点类别得到第二争议焦点语句数据;
召回数据集构造单元,用于基于所述第二争议焦点语句数据构造召回数据集,所述召回数据集中数据元素的结构为:(争议焦点语句a,a的争议类别);
精排数据集构造单元,用于基于所述第二争议焦点语句数据构造精排数据集,所述精排数据集中数据元素的结构为:(争议焦点语句a,a对应的相似争议焦点语句)和(争议焦点语句a,a对应的困难样本争议焦点语句);
模型构造及训练单元,用于构造第一召回模型和第一精排模型,利用所述召回数据集训练所述第一召回模型得到第二召回模型,利用所述精排数据集训练所述第一精排模型得到第二精排模型;
争议焦点语句类别判断单元,用于得到争议焦点类别待判断的争议焦点语句X,将所述争议焦点语句X输入所述第二召回模型,所述第二召回模型输出所述争议焦点语句X的top N争议焦点类别标签,N为大于或等于1的整数;将争议焦点语句X-top N类别对应的争议焦点语句输入所述第二精排模型,所述第二精排模型输出所述争议焦点语句X的争议焦点类别。
实施例五
本发明实施例五提供了一种争议焦点类别判断装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述争议焦点类别判断方法的步骤。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中争议焦点类别判断装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例六
本发明实施例六提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述争议焦点类别判断方法的步骤。
所述争议焦点类别判断装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.争议焦点类别判断方法,其特征在于,所述方法包括:
从裁判文书数据中抽取得到第一争议焦点语句数据,将所述第一争议焦点语句数据标注争议焦点类别得到第二争议焦点语句数据;
基于所述第二争议焦点语句数据构造召回数据集,所述召回数据集中数据元素的结构为:(争议焦点语句a,a的争议类别);
基于所述第二争议焦点语句数据构造精排数据集,所述精排数据集中数据元素的结构为:((争议焦点语句a,a对应的相似争议焦点语句),(争议焦点语句a,a对应的困难样本争议焦点语句));
构造第一召回模型和第一精排模型,利用所述召回数据集训练所述第一召回模型得到第二召回模型,利用所述精排数据集训练所述第一精排模型得到第二精排模型;
得到争议焦点类别待判断的争议焦点语句X,将所述争议焦点语句X输入所述第二召回模型,所述第二召回模型输出所述争议焦点语句X的topN争议焦点类别标签,N为大于或等于1的整数;将争议焦点语句X-topN类别对应的争议焦点语句输入所述第二精排模型,所述第二精排模型输出所述争议焦点语句X的争议焦点类别;
所述第二精排模型得到所述争议焦点语句X与topN争议焦点类别对应的争议焦点语句的第一相似度,将所有所述第一相似度按照topN争议焦点类别分组,并求各分组中所述第一相似度的平均值,所述平均值为所述争议焦点语句X对应争议焦点类别与topN争议焦点类别的第二相似度,选取所述第二相似度最高的类别作为所述争议焦点语句X的争议焦点类别;
所述召回模型为使用预训练语言模型Bert做微调得到的基于Bert的多分类模型;
所述精排模型为Bert-BasedSiameseNetwork,所述精排模型的损失函数为triplet_loss,所述精排模型训练时采用对抗训练方式;
所述精排模型每次训练在做前向传播和梯度更新之前,先对Bert模型的标记嵌入做扰动处理,扰动的向量为损失函数对标记嵌入的梯度,将该扰动向量加到标记嵌入上,然后做前向传播和后向梯度更新,将扰动向量从标记嵌入上减掉,从而进入到下一次迭代训练。
2.根据权利要求1所述的争议焦点类别判断方法,其特征在于,与争议焦点语句a最相似的topK争议焦点语句的提取方式为:
从抽取得到的所有争议焦点语句类别中剔除争议焦点语句a对应类别后获得剩余争议焦点语句类别;
从所述剩余争议焦点语句类别对应的争议焦点语句中筛选出第一部分争议焦点语句;
使用TF-IDF算法从所述第一部分争议焦点语句中匹配出与所述争议焦点语句a最相似的topK争议焦点语句。
3.争议焦点相似性判断方法,其特征在于,所述方法包括:
得到相似性待判断的第一争议焦点语句与第二争议焦点语句;
使用权利要求1-2中的任意一种所述争议焦点类别判断方法分别得到所述第一争议焦点语句的争议焦点类别和所述第二争议焦点语句的争议焦点类别;
若所述第一争议焦点语句的争议焦点类别与所述第二争议焦点语句的争议焦点类别相同,则判断所述第一争议焦点语句与所述第二争议焦点语句相似;
若所述第一争议焦点语句的争议焦点类别与所述第二争议焦点语句的争议类别不同,则判断所述第一争议焦点语句与所述第二争议焦点语句不相似。
4.类案推荐方法,其特征在于,所述方法包括:
得到待处理案件A的争议焦点语句m;
采用权利要求3所述的争议焦点相似性判断方法从争议焦点语句数据库中匹配出与所述争议焦点语句m相似的若干第三争议焦点语句;
基于所述第三争议焦点语句得到若干与所述待处理案件A相似的案件B,将所述案件B推送至预设目标。
5.争议焦点类别判断系统,其特征在于,所述系统包括:
争议焦点语句抽取及标注单元,用于从裁判文书数据中抽取得到第一争议焦点语句数据,将所述第一争议焦点语句数据标注争议焦点类别得到第二争议焦点语句数据;
召回数据集构造单元,用于基于所述第二争议焦点语句数据构造召回数据集,所述召回数据集中数据元素的结构为:(争议焦点语句a,a的争议类别);
精排数据集构造单元,用于基于所述第二争议焦点语句数据构造精排数据集,所述精排数据集中数据元素的结构为:((争议焦点语句a,a对应的相似争议焦点语句),(争议焦点语句a,a对应的困难样本争议焦点语句));
模型构造及训练单元,用于构造第一召回模型和第一精排模型,利用所述召回数据集训练所述第一召回模型得到第二召回模型,利用所述精排数据集训练所述第一精排模型得到第二精排模型;
争议焦点语句类别判断单元,用于得到争议焦点类别待判断的争议焦点语句X,将所述争议焦点语句X输入所述第二召回模型,所述第二召回模型输出所述争议焦点语句X的topN争议焦点类别标签,N为大于或等于1的整数;将争议焦点语句X-topN类别对应的争议焦点语句输入所述第二精排模型,所述第二精排模型输出所述争议焦点语句X的争议焦点类别;
所述第二精排模型得到所述争议焦点语句X与topN争议焦点类别对应的争议焦点语句的第一相似度,将所有所述第一相似度按照topN争议焦点类别分组,并求各分组中所述第一相似度的平均值,所述平均值为所述争议焦点语句X对应争议焦点类别与topN争议焦点类别的第二相似度,选取所述第二相似度最高的类别作为所述争议焦点语句X的争议焦点类别;
所述召回模型为使用预训练语言模型Bert做微调得到的基于Bert的多分类模型;
所述精排模型为Bert-BasedSiameseNetwork,所述精排模型的损失函数为triplet_loss,所述精排模型训练时采用对抗训练方式;
所述精排模型每次训练在做前向传播和梯度更新之前,先对Bert模型的标记嵌入做扰动处理,扰动的向量为损失函数对标记嵌入的梯度,将该扰动向量加到标记嵌入上,然后做前向传播和后向梯度更新,将扰动向量从标记嵌入上减掉,从而进入到下一次迭代训练。
6.一种争议焦点类别判断装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-2中任意一个所述争议焦点类别判断方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-2中任意一个所述争议焦点类别判断方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110608911.2A CN113468323B (zh) | 2021-06-01 | 2021-06-01 | 争议焦点类别及相似判断方法及系统及装置及推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110608911.2A CN113468323B (zh) | 2021-06-01 | 2021-06-01 | 争议焦点类别及相似判断方法及系统及装置及推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468323A CN113468323A (zh) | 2021-10-01 |
CN113468323B true CN113468323B (zh) | 2023-07-18 |
Family
ID=77872017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110608911.2A Active CN113468323B (zh) | 2021-06-01 | 2021-06-01 | 争议焦点类别及相似判断方法及系统及装置及推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468323B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553856B (zh) * | 2021-06-16 | 2022-08-26 | 吉林大学 | 一种基于深度神经网络的争议焦点识别方法 |
CN114490939B (zh) * | 2022-01-25 | 2022-09-02 | 北京华宇元典信息服务有限公司 | 争议焦点推荐方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153689A (zh) * | 2017-04-29 | 2017-09-12 | 安徽富驰信息技术有限公司 | 一种基于主题相似度的案件检索方法 |
CN110889747A (zh) * | 2019-12-02 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 商品推荐方法、装置、系统、计算机设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256561B (zh) * | 2017-12-29 | 2020-06-16 | 中山大学 | 一种基于对抗学习的多源域适应迁移方法及系统 |
CN110858353B (zh) * | 2018-08-17 | 2023-05-05 | 阿里巴巴集团控股有限公司 | 获取案件裁判结果的方法和系统 |
CN110795566A (zh) * | 2019-09-18 | 2020-02-14 | 平安科技(深圳)有限公司 | 案件推荐方法、装置、设备及计算机可读存储介质 |
CN110765266B (zh) * | 2019-09-20 | 2022-07-22 | 成都星云律例科技有限责任公司 | 一种裁判文书相似争议焦点合并方法及系统 |
CN110889502B (zh) * | 2019-10-15 | 2024-02-06 | 东南大学 | 一种基于深度学习的争议焦点生成方法 |
CN111143550B (zh) * | 2019-11-27 | 2022-05-03 | 浙江大学 | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 |
CN111967294B (zh) * | 2020-06-23 | 2022-05-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN111651566B (zh) * | 2020-08-10 | 2020-12-01 | 四川大学 | 基于多任务的小样本学习的裁判文书争议焦点提取方法 |
CN112613582B (zh) * | 2021-01-05 | 2022-06-24 | 重庆邮电大学 | 一种基于深度学习混合模型的争议焦点检测方法及装置 |
-
2021
- 2021-06-01 CN CN202110608911.2A patent/CN113468323B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153689A (zh) * | 2017-04-29 | 2017-09-12 | 安徽富驰信息技术有限公司 | 一种基于主题相似度的案件检索方法 |
CN110889747A (zh) * | 2019-12-02 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 商品推荐方法、装置、系统、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113468323A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824874B2 (en) | Method and apparatus for processing video | |
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
US10831796B2 (en) | Tone optimization for digital content | |
US9384450B1 (en) | Training machine learning models for open-domain question answering system | |
US11468234B2 (en) | Identifying linguistic replacements to improve textual message effectiveness | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
US10061865B2 (en) | Determining answer stability in a question answering system | |
US8719025B2 (en) | Contextual voice query dilation to improve spoken web searching | |
US10360219B2 (en) | Applying level of permanence to statements to influence confidence ranking | |
CN113468323B (zh) | 争议焦点类别及相似判断方法及系统及装置及推荐方法 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
US11238050B2 (en) | Method and apparatus for determining response for user input data, and medium | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
US10838993B2 (en) | Augment politeness in question answer systems | |
US9684726B2 (en) | Realtime ingestion via multi-corpus knowledge base with weighting | |
CN110738059B (zh) | 一种文本相似度计算方法及系统 | |
CN111858913A (zh) | 一种自动生成文本摘要的方法和系统 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN116542297A (zh) | 基于文本数据训练生成对抗网络的方法及装置 | |
CN113849623A (zh) | 文本视觉问答方法和装置 | |
CN111666405A (zh) | 用于识别文本蕴含关系的方法和装置 | |
CN111522957B (zh) | 一种短语分割模型的训练方法和系统 | |
US20220318230A1 (en) | Text to question-answer model system | |
CN112328751A (zh) | 用于处理文本的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No.2, floor 4, building 1, Jule road crossing, Section 1, West 1st ring road, Wuhou District, Chengdu City, Sichuan Province 610041 Applicant after: Chengdu shuzhilian Technology Co.,Ltd. Address before: No.2, floor 4, building 1, Jule road crossing, Section 1, West 1st ring road, Wuhou District, Chengdu City, Sichuan Province 610041 Applicant before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |