CN112711700A - 一种公益诉讼案例推荐方法及系统 - Google Patents
一种公益诉讼案例推荐方法及系统 Download PDFInfo
- Publication number
- CN112711700A CN112711700A CN201911017832.3A CN201911017832A CN112711700A CN 112711700 A CN112711700 A CN 112711700A CN 201911017832 A CN201911017832 A CN 201911017832A CN 112711700 A CN112711700 A CN 112711700A
- Authority
- CN
- China
- Prior art keywords
- litigation
- case
- clues
- entity
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 74
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000283715 Damaliscus lunatus Species 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003911 water pollution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/182—Alternative dispute resolution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种公益诉讼案例推荐方法及系统,属于信息推荐技术领域,包括抽取公益诉讼线索的特征词作为待匹配特征词,根据待匹配特征词和案例库中每个案例的特征词,计算公益诉讼线索与每个案例的特征词匹配度;识别出公益诉讼线索的实体作为待匹配实体,根据待匹配实体与案例库中每个案例的实体,计算公益诉讼线索与每个案例的实体匹配度;预测公益诉讼线索的类别作为待匹配类别,根据待匹配类别与案例库中每个案例所属类别,计算公益诉讼线索与每个案例的类别匹配度;对特征词匹配度、实体匹配度和类别匹配度进行加权求和,得到公益诉讼线索与案例库中每个案例的匹配度得分;根据匹配度得分推荐与公益诉讼线索相关的案例。
Description
技术领域
本发明涉及信息推荐技术领域,特别涉及一种公益诉讼案例推荐方法及系统。
背景技术
由于审理案件的数量日益增多,各法律相关检索网站提供了对公开的裁判文书的检索查询服务,同时,最高人民法院也在不断的发布各裁判文书中的各类典型案例作为指导性案例。但其仍需工作人员进行大量详细的阅读,才有可能得出类似的判案参考,需要耗费大量时间。而采用基于关键词的匹配技术来实现公益诉讼案例的推荐,其效果达不到要求,无法起到辅助案件审理的作用。
发明内容
本发明的目的在于克服现有技术存在的不足或缺陷,以自动推荐相似的公益诉讼案例,提高办案效率。
为实现以上目的,本发明采用一种公益诉讼案例推荐方法,包括如下步骤:
获取公益诉讼线索;
抽取所述公益诉讼线索的特征词作为待匹配特征词,并根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度mdf;
识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度mde;
预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度mdc;
对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分;
根据匹配度得分推荐与所述公益诉讼线索相关的案例。
进一步地,在所述获取公益诉讼线索之前,还包括离线构建所述案例库,具体包括:
利用命名实体识别模型对历史公益诉讼案例进行处理,得到每个案例对应的主体并存储至所述案例库;
利用文本多标签分类模型对历史公益诉讼案例进行处理,得到公益诉讼类别并存储至所述案例库;
抽取历史公益诉讼案例的特征词,并将特征词存储至所述案例库。
进一步地,所述抽取所述公益诉讼线索的特征词,包括:
构建公益诉讼特征词库,该公益诉讼特征词库中存储有用于表示公益诉讼领域的特征词;
基于TF-IDF算法对所述公益诉讼线索进行关键词抽取,得到所述公益诉讼线索对应的关键词;
分别计算每个特征词的词向量以及关键词的词向量;
根据特征词的词向量和关键词的词向量,计算特征词与关键词的向量余弦相似度;
将向量余弦相似度由高到低进行排序,并将前M个余弦向量相似度所对应的特征词作为所述公益诉讼线索的特征词。
进一步地,所述分别计算每个特征词的词向量以及关键词的词向量,包括:
预先构建词向量库,该词向量库存储有与公益诉讼线索及公益诉讼案例对应的各分词及各分词对应的词向量;
判断在所述词向量库中是否能查找到所述特征词或所述关键词;
若是,则直接将所述词向量库中该特征词或关键词的词向量赋值给所述特征词或关键词;
若否,则对所述特征词或关键词进行分词处理,得到各分词;
判断在所述词向量库中是否能查找到每个所述分词;
若是,则从所述词向量库中获取每个分词的词向量并进行加权平均,将加权平均结果赋值给所述特征词或关键词;
若否,剔除未查找到的分词,从所述词向量库中获取剩余分词的词向量并进行加权平均,将加权平均结果赋值给所述特征词或关键词。
进一步地,所述根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度,包括:
获取所述公益诉讼线索与所述案例库中同一案例具有的相同特征词的数量x;
根据所述公益诉讼线索的特征词数量o与相同的特征词数量x,计算所述公益诉讼线索与该案例的特征词匹配度mdf=x/o。
进一步地,所述识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度,包括:
利用离线训练好的实体识别模型抽取所述公益诉讼线索的实体,得到p个实体,该抽取的实体包括地名、组织机构名和人名;
获取所述公益诉讼线索与所述案例库中同一案例具有的相同实体的数量y;
根据所述公益诉讼线索的实体数量p与相同实体的数量y,计算所述公益诉讼线索与该案例的实体匹配度mde=y/p。
进一步地,所述预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度,包括:
利用预先训练好的文本多分类模型对所述公益诉讼线索的类别进行预测,得到q个类别数;
获取所述公益诉讼线索与所述案例库中同一案例具有的相同类别的数量z;
根据所述公益诉讼线索的类别数量q与相同类别的数量z,计算所述公益诉讼线索与该案例的实体匹配度mdc=z/q。
进一步地,所述对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分,包括:
sc=wf×mdf+we×mde+wc×mdc;
其中,wf表示特征词匹配度mdf的权重,we表示实体匹配度mde的权重,wc表示类别匹配度mdc的权重。
另一方面,采用一种公益诉讼案例推荐系统,包括:获取模块、抽取模块、识别模块、预测模块、得分计算模块和推荐模块;
获取模块用于获取公益诉讼线索;
抽取模块用于抽取所述公益诉讼线索的特征词作为待匹配特征词,并根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度mdf;
识别模块用于识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度mde;
预测模块用于预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度mdc;
得分计算模块用于对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分;
推荐模块用于根据匹配度得分推荐与所述公益诉讼线索相关的案例。
进一步地,还包括案例库构建模块,包括第一存储单元、第二存储单元和第三存储单元;
第一存储单元用于利用命名实体识别模型对历史公益诉讼案例进行处理,得到每个案例对应的主体并存储至所述案例库;
第二存储单元用于利用文本多标签分类模型对历史公益诉讼案例进行处理,得到公益诉讼类别并存储至所述案例库;
第三存储单元用于抽取历史公益诉讼案例的特征词,并将特征词存储至所述案例库。
与现有技术相比,本发明存在以下技术效果:本发明基于公益诉讼业务知识及数据特征,从实体匹配度、类别匹配度和特征词匹配度等多个维度分析公益诉讼线索与案例库中案例的相似度,实现自动推荐相似的公益诉讼案例进行参考,辅助办案,提高办案效率。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种公益诉讼案例推荐方法的流程示意图;
图2是一种公益诉讼案例推荐方法的原理图;
图3是一种公益诉讼案例推荐系统的结构示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种公益诉讼案例推荐方法,包括如下步骤S1至S6:
S1、获取公益诉讼线索;
S2、抽取所述公益诉讼线索的特征词作为待匹配特征词,并根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度mdf;
S3、识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度mde;
S4、预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度mdc;
S5、对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分;
S6、根据匹配度得分推荐与所述公益诉讼线索相关的案例。
具体来说,上述图1所示步骤为在线处理步骤,如图2所示,在进行在线挖掘处理之前,还包括离线构建所属案例库,具体如下:
(1)构建公益诉讼案例库,该公益诉讼案例库中存储有已有的公益诉讼案例。
(2)获取公益诉讼案例的实体并存储至案例库:
基于已有的公益诉讼文本数据训练实体识别模型ner,实体识别模型ner用于识别公益诉讼文本数据中的实体,这里的实体类别包括机构、人名、地点,共计三类。其中实体识别模型ner主要由深度学习神经网络结构及权重参数组成,训练实体识别模型可采用自然语言处理领域的常规技术,如基于Bi-LSTM+CRF的深度学习技术。
然后利用训练好的实体识别模型对公益诉讼案例库中的每个案例进行实体识别,将识别出的每个案例的实体存储至案例库。
需要说明的是,已有的公益诉讼文本数据包括但不限于:最高检及地方检发布的典型公益诉讼案例、国家公布的公益诉讼相关的判决文书案例等。
(3)获取公益诉讼案例的类别并存储至案例库:
基于已有的公益诉讼文本数据训练文本多标签分类模型classifier;基于训练好的文本多标签分类模型对公益诉讼案例库中的每个案例进行分类,将得到的每个案例的类别并存储至案例库中。这里的公益诉讼类别包括水污染、大气污染、噪声污染等共计34个类别。其中,文本多标签分类模型classifier主要由深度学习神经网络结构及权重参数组成,主要用来对文本进行分类(每个文本所属的类别个数不一)。文本多标签分类模型可采用自然语言处理领域的常规技术,如基于Bi-LSTM的深度学习技术、基于SVM的机器学习技术。
(4)获取公益诉讼案例的特征词并存储至案例库:
4-1)构建词向量库,对互联网文本及公益诉讼案例文本进行分词,形成对应的词库;对分词后的文本进行词向量训练,得到词库中各词对应的词向量,词向量维度可设为200。将每一个训练好的词向量存储在词向量库中。
其中,分词、词向量训练均可采用自然语言处理领域的常规技术,如jieba分词技术、基于gensim的词向量训练技术等。
4-2)构建公益诉讼特征词库,公益诉讼特征词库中存储的特征词用于表示公益诉讼领域的特征,比如公益诉讼领域表示场景、情节、事物的词,比如“工业园”、“污染”、“噪声”,通过梳理公益诉讼案例及相关公益诉讼法律法规可总结得到所述特征词,另外该公益诉讼特征词库规模不宜过大,控制在300个词以内。
4-3)计算公益诉讼特征词库中的特征词对应的向量,计算过程如下:
判断在所述词向量库中是否能查找到所述特征词;
若是,则直接将所述词向量库中该特征词的词向量赋值给所述特征词,得到特征词的词向量;
若否,则对所述特征词进行分词处理,得到与所述特征词对应的各分词;
判断在所述词向量库中是否能查找到每个所述分词;
若是,则从所述词向量库中获取每个分词的词向量并进行加权平均,将加权平均结果赋值给所述特征词词;
若否,剔除未查找到的分词,从所述词向量库中获取剩余分词的词向量并进行加权平均,将加权平均结果赋值给所述特征词
4-4)计算公益诉讼案例库中每个案例的特征词,具体为:基于TF-IDF算法对公益诉讼案例库中的每个案例进行关键词抽取,将关键词的TF-IDF值由大到小进行排序,并返回TF-IDF值靠前的topN个关键词。这里提到的关键词是指表示文本主旨大义的词,topN一般取值为10。
需要说明的是,基于TF-IDF算法的关键词抽取可采用自然语言处理领域的常规技术,如jieba中的anlyse.extract_tags模块。
4-5)计算每个案例对应的每个关键词的词向量,计算方法同步骤4-3)中特征词的词向量的计算过程,得到的关键词的词向量依次记为 计算公益诉讼特征词库中的每个特征词与关键词的向量余弦相似度并由高到低进行排序,选取相似度最高的topM个特征词作为该公益诉讼线索的特征词,topM一般取值为5。其中,单个特征词与关键词的向量余弦相似度计算逻辑为:
计算特征词与每个关键词的向量余弦相似度并由高到低进行排序,选取值最大的作为特征词与关键词的向量余弦相似度,记为Similarityfeature_word·keyword,计算公式如下:
将得到的每个案例对应的topM个特征词进行存储至所述案例库。
具体来说,上述步骤S2:抽取所述公益诉讼线索的特征词作为待匹配特征词,具体包括如下步骤:
基于TF-IDF算法对所述公益诉讼线索进行关键词抽取,得到所述公益诉讼线索对应的关键词;
分别计算每个特征词的词向量以及关键词的词向量;
根据特征词的词向量和关键词的词向量,计算特征词与关键词的向量余弦相似度;
将向量余弦相似度由高到低进行排序,并将前M个余弦向量相似度所对应的特征词作为所述公益诉讼线索的特征词。
需要说明的是,本实施例中对公益诉讼线索进行特征词提取的过程与对公益诉讼案例库中的每个案例进行特征词提取的过程相同,该处不再详细叙述。
具体来说,上述步骤S2中:根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度mdf,具体包括如下步骤:
获取所述公益诉讼线索与所述案例库中同一案例具有的相同特征词的数量x;
根据所述公益诉讼线索的特征词数量o与相同的特征词数量x,计算所述公益诉讼线索与该案例的特征词匹配度mdf=x/o。
具体来说,上述步骤S3:识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度,具体包括如下步骤:
利用上述离线训练好的实体识别模型抽取所述公益诉讼线索的实体,得到p个实体,该抽取的实体包括地名、组织机构名和人名;
获取所述公益诉讼线索与所述案例库中同一案例具有的相同实体的数量y;
根据所述公益诉讼线索的实体数量p与相同实体的数量y,计算所述公益诉讼线索与该案例的实体匹配度mde=y/p。
具体来说,上述步骤S4:预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度,具体包括如下步骤:
利用预先训练好的文本多分类模型对所述公益诉讼线索的类别进行预测,得到q个类别数;
获取所述公益诉讼线索与所述案例库中同一案例具有的相同类别的数量z;
根据所述公益诉讼线索的类别数量q与相同类别的数量z,计算所述公益诉讼线索与该案例的实体匹配度mdc=z/q。
具体来说,上述步骤S5:对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分,包括:
sc=wf×mdf+we×mde+wc×mdc;
其中,wf表示特征词匹配度mdf的权重,we表示实体匹配度mde的权重,wc表示类别匹配度mdc的权重。
这里需要说明的是,特征词匹配度mdf的权重、实体匹配度mde的权重和类别匹配度mdc的权重均是通过实验统计得到。
具体来说,上述步骤S6:根据匹配度得分推荐与所述公益诉讼线索相关的案例,具体为:对公益诉讼线索与公益诉讼案例库中每个案例的匹配度得分由高到低进行排序,选取匹配度得分sc值靠前的topI个结果,作为基于该公益诉讼线索推荐的公益诉讼案例结果。
如图3所示,本实施例还公开了一种公益诉讼案例推荐系统,包括获取模块10、抽取模块20、识别模块30、预测模块40、得分计算模块50和推荐模块60;
获取模块10用于获取公益诉讼线索;
抽取模块20用于抽取所述公益诉讼线索的特征词作为待匹配特征词,并根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度mdf;
识别模块30用于识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度mde;
预测模块40用于预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度mdc;
得分计算模块50用于对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分;
推荐模块60用于根据匹配度得分推荐与所述公益诉讼线索相关的案例。
具体来说,该系统还包括离线构建模块,该离线构建模块用于构建案例库,具体为:
利用命名实体识别模型对历史公益诉讼案例进行处理,得到每个案例对应的主体并存储至所述案例库;
利用文本多标签分类模型对历史公益诉讼案例进行处理,得到公益诉讼类别并存储至所述案例库;
抽取历史公益诉讼案例的特征词,并将特征词存储至所述案例库。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种公益诉讼案例推荐方法,其特征在于,包括:
获取公益诉讼线索;
抽取所述公益诉讼线索的特征词作为待匹配特征词,并根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度mdf;
识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度mde;
预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度mdc;
对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分;
根据匹配度得分推荐与所述公益诉讼线索相关的案例。
2.如权利要求1所述的公益诉讼案例推荐方法,其特征在于,在所述获取公益诉讼线索之前,还包括离线构建所述案例库,具体包括:
利用命名实体识别模型对历史公益诉讼案例进行处理,得到每个案例对应的主体并存储至所述案例库;
利用文本多标签分类模型对历史公益诉讼案例进行处理,得到公益诉讼类别并存储至所述案例库;
抽取历史公益诉讼案例的特征词,并将特征词存储至所述案例库。
3.如权利要求1所述的公益诉讼案例推荐方法,其特征在于,所述抽取所述公益诉讼线索的特征词,包括:
构建公益诉讼特征词库,该公益诉讼特征词库中存储有用于表示公益诉讼领域的特征词;
基于TF-IDF算法对所述公益诉讼线索进行关键词抽取,得到所述公益诉讼线索对应的关键词;
分别计算每个特征词的词向量以及关键词的词向量;
根据特征词的词向量和关键词的词向量,计算特征词与关键词的向量余弦相似度;
将向量余弦相似度由高到低进行排序,并将前M个余弦向量相似度所对应的特征词作为所述公益诉讼线索的特征词。
4.如权利要求3所述的公益诉讼案例推荐方法,其特征在于,所述分别计算每个特征词的词向量以及关键词的词向量,包括:
预先构建词向量库,该词向量库存储有与公益诉讼线索及公益诉讼案例对应的各分词及各分词对应的词向量;
判断在所述词向量库中是否能查找到所述特征词或所述关键词;
若是,则直接将所述词向量库中该特征词或关键词的词向量赋值给所述特征词或关键词;
若否,则对所述特征词或关键词进行分词处理,得到各分词;
判断在所述词向量库中是否能查找到每个所述分词;
若是,则从所述词向量库中获取每个分词的词向量并进行加权平均,将加权平均结果赋值给所述特征词或关键词;
若否,剔除未查找到的分词,从所述词向量库中获取剩余分词的词向量并进行加权平均,将加权平均结果赋值给所述特征词或关键词。
5.如权利要求4所述的公益诉讼案例推荐方法,其特征在于,所述根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度,包括:
获取所述公益诉讼线索与所述案例库中同一案例具有的相同特征词的数量x;
根据所述公益诉讼线索的特征词数量o与相同的特征词数量x,计算所述公益诉讼线索与该案例的特征词匹配度mdf=x/o。
6.如权利要求1所述的公益诉讼案例推荐方法,其特征在于,所述识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度,包括:
利用离线训练好的实体识别模型抽取所述公益诉讼线索的实体,得到p个实体,该抽取的实体包括地名、组织机构名和人名;
获取所述公益诉讼线索与所述案例库中同一案例具有的相同实体的数量y;
根据所述公益诉讼线索的实体数量p与相同实体的数量y,计算所述公益诉讼线索与该案例的实体匹配度mde=y/p。
7.如权利要求1所述的公益诉讼案例推荐方法,其特征在于,所述预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度,包括:
利用预先训练好的文本多分类模型对所述公益诉讼线索的类别进行预测,得到q个类别数;
获取所述公益诉讼线索与所述案例库中同一案例具有的相同类别的数量z;
根据所述公益诉讼线索的类别数量q与相同类别的数量z,计算所述公益诉讼线索与该案例的实体匹配度mdc=z/q。
8.如权利要求1所述的公益诉讼案例推荐方法,其特征在于,所述对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分,包括:
sc=wf×mdf+we×mde+wc×mdc;
其中,wf表示特征词匹配度mdf的权重,we表示实体匹配度mde的权重,wc表示类别匹配度mdc的权重。
9.一种公益诉讼案例推荐系统,其特征在于,包括:获取模块、抽取模块、识别模块、预测模块、得分计算模块和推荐模块;
获取模块用于获取公益诉讼线索;
抽取模块用于抽取所述公益诉讼线索的特征词作为待匹配特征词,并根据待匹配特征词和案例库中每个案例的特征词,计算所述公益诉讼线索与每个案例的特征词匹配度mdf;
识别模块用于识别出所述公益诉讼线索的实体作为待匹配实体,并根据待匹配实体与所述案例库中每个案例的实体,计算所述公益诉讼线索与每个案例的实体匹配度mde;
预测模块用于预测所述公益诉讼线索的类别作为待匹配类别,并根据待匹配类别与所述案例库中每个案例所属类别,计算所述公益诉讼线索与每个案例的类别匹配度mdc;
得分计算模块用于对所述特征词匹配度mdf、实体匹配度mde和类别匹配度mdc进行加权求和,得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分;
推荐模块用于根据匹配度得分推荐与所述公益诉讼线索相关的案例。
10.如权利要求9所述的公益诉讼案例推荐系统,其特征在于,还包括案例库构建模块,包括第一存储单元、第二存储单元和第三存储单元;
第一存储单元用于利用命名实体识别模型对历史公益诉讼案例进行处理,得到每个案例对应的主体并存储至所述案例库;
第二存储单元用于利用文本多标签分类模型对历史公益诉讼案例进行处理,得到公益诉讼类别并存储至所述案例库;
第三存储单元用于抽取历史公益诉讼案例的特征词,并将特征词存储至所述案例库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017832.3A CN112711700A (zh) | 2019-10-24 | 2019-10-24 | 一种公益诉讼案例推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017832.3A CN112711700A (zh) | 2019-10-24 | 2019-10-24 | 一种公益诉讼案例推荐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112711700A true CN112711700A (zh) | 2021-04-27 |
Family
ID=75540804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911017832.3A Pending CN112711700A (zh) | 2019-10-24 | 2019-10-24 | 一种公益诉讼案例推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711700A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220888A (zh) * | 2021-06-01 | 2021-08-06 | 上海交通大学 | 基于Ernie模型的案件线索要素抽取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886090A (zh) * | 2014-03-31 | 2014-06-25 | 北京搜狗科技发展有限公司 | 基于用户喜好的内容推荐方法及装置 |
US20170011481A1 (en) * | 2014-02-04 | 2017-01-12 | Ubic, Inc. | Document analysis system, document analysis method, and document analysis program |
CN106484675A (zh) * | 2016-09-29 | 2017-03-08 | 北京理工大学 | 融合分布式语义和句义特征的人物关系抽取方法 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN110334214A (zh) * | 2019-07-09 | 2019-10-15 | 四川省广安市人民检察院 | 一种自动识别案件中虚假诉讼的方法 |
-
2019
- 2019-10-24 CN CN201911017832.3A patent/CN112711700A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170011481A1 (en) * | 2014-02-04 | 2017-01-12 | Ubic, Inc. | Document analysis system, document analysis method, and document analysis program |
CN103886090A (zh) * | 2014-03-31 | 2014-06-25 | 北京搜狗科技发展有限公司 | 基于用户喜好的内容推荐方法及装置 |
CN106484675A (zh) * | 2016-09-29 | 2017-03-08 | 北京理工大学 | 融合分布式语义和句义特征的人物关系抽取方法 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN110334214A (zh) * | 2019-07-09 | 2019-10-15 | 四川省广安市人民检察院 | 一种自动识别案件中虚假诉讼的方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220888A (zh) * | 2021-06-01 | 2021-08-06 | 上海交通大学 | 基于Ernie模型的案件线索要素抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
CN109766544B (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN111191442B (zh) | 相似问题生成方法、装置、设备及介质 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN108846047A (zh) | 一种基于卷积特征的图片检索方法及系统 | |
CN111008262A (zh) | 一种基于知识图谱的律师评估方法和推荐方法 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN116304035B (zh) | 一种复杂案件中的多被告多罪名关系抽取方法及装置 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN109344720B (zh) | 一种基于自适应特征选择的情感状态检测方法 | |
Boishakhi et al. | Multi-modal hate speech detection using machine learning | |
CN115221864A (zh) | 一种多模态假新闻检测方法及系统 | |
Zhang et al. | Research on text classification for identifying fake news | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN106095758B (zh) | 一种基于词向量模型的文学作品竞猜方法 | |
CN111460100A (zh) | 一种刑事法律文书罪名的推荐方法和系统 | |
CN114219248A (zh) | 一种基于lda模型、依存句法和深度学习的人岗匹配方法 | |
CN112711700A (zh) | 一种公益诉讼案例推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |