CN112711693B - 一种基于多特征融合的诉讼线索挖掘方法及系统 - Google Patents
一种基于多特征融合的诉讼线索挖掘方法及系统 Download PDFInfo
- Publication number
- CN112711693B CN112711693B CN201911017853.5A CN201911017853A CN112711693B CN 112711693 B CN112711693 B CN 112711693B CN 201911017853 A CN201911017853 A CN 201911017853A CN 112711693 B CN112711693 B CN 112711693B
- Authority
- CN
- China
- Prior art keywords
- text data
- data
- title
- text
- litigation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005065 mining Methods 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 230000008451 emotion Effects 0.000 claims abstract description 67
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 34
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000004140 cleaning Methods 0.000 claims description 10
- 230000008520 organization Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于多特征融合的诉讼线索挖掘方法及系统,属于数据挖据技术领域,包括:获取待挖掘的文本数据,该文本数据的存储结构包括标题和内容;对文本数据的内容进行情感分析,并判断情感分析负向得分是否大于设置的第一置信度门限,若是进行实体识别,否则丢弃数据;对文本数据的内容进行命名实体识别,并判断识别结果中是否包含有效实体,若是进行相似度计算,否则丢弃数据;对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限,若是确定为有效公益诉讼线索,否则丢弃数据。本发明基于多特征融合从互联网数据中挖掘出有效的公益诉讼线索,拓展公益诉讼线索来源。
Description
技术领域
本发明涉及数据挖据技术领域,特别涉及一种基于多特征融合的诉讼线索挖掘方法及系统。
背景技术
办理好公益诉讼案件,线索来源成为公益诉讼工作的重中之重,在具体实践工作中,公益线索发现难、收集难,需要多渠道全方位收集公益诉讼线索,实现公益诉讼工作的稳步推进。
目前,获取公益诉讼线索的方式一般为:借助行政执法监督平台,链接公益诉讼领域涉及的行政机关信息系统,建立公益诉讼线索收集中心,再通过人工或智能手段对线索收集中心的线索进行评估,获取有价值线索。但这种方式搜索的公益诉讼线索来源单一,线索量也相对较少,且无法有效保证公益线索的有效性,因此案件办案效率的提升效果甚微。
发明内容
本发明的目的在于解决现有技术中存在的问题,以从互联网数据中识别出有效的公益诉讼线索。
为实现以上目的,本发明采用一种基于多特征融合的诉讼线索挖掘方法,包括如下步骤:
S1、获取待挖掘的文本数据,该文本数据的存储结构包括标题和内容;
S2、对文本数据的内容进行情感分析,并判断情感分析负向得分是否大于设置的第一置信度门限,若是则执行步骤S3,若否则执行步骤S6;
S3、对文本数据的内容进行命名实体识别,并判断识别结果中是否包含有效实体,若是则执行步骤S4,若否则执行步骤S6;
S4、对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限,若是则执行步骤S5,若否则执行步骤S6;
S5、将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索;
S6、丢弃所述文本数据。
进一步地,所述获取待挖掘的文本数据,包括:
采用网络爬虫技术,从互联网数据中获取所述待挖掘的文本数据。
进一步地,在所述获取待挖掘的文本数据之后,还包括:
对所述待挖掘的文本数据进行清洗处理,得到清洗后的文本数据;
相应地,所述对所述文本数据进行情感分析,具体为对清洗后的文本数据进行情感分析。
进一步地,所述清洗处理方式包括:
对于有所述标题数据无内容数据的文本数据,利用标题数据直接填充内容;
对于有所述内容数据无标题数据的文本数据,利用内容数据直接填充标题;
对于所述文本数据中的无关符号进行删除。
进一步地,所述对文本数据进行情感分析,并判断情感分析负向得分是否大于设置的第一置信度门限,包括:
获取训练数据集,该训练数据集中的每条数据标注正向标签或负标签;
利用训练数据集对包含注意力机制的深度神经网络模型进行训练,得到用于分析文本数据情感得分的情感分析模型;
利用情感分析模型对所述文本进行情感分析,并将情感分析的负向得分与所述第一置信度门限进行比较。
进一步地,所述有效实体包括地名、组织结构名及人名中的至少一个。
进一步地,所述对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限,包括:
获取已知为有效公益诉讼线索的文本数据作为参考文本;
根据所述每条文本数据的标题和参考文本的标题,分别计算得到每条文本数据的标题向量和参考文本的标题向量;
计算每条文本数据的标题向量与参考文本的标题向量的余弦相似度;
将所有得到的余弦相似度中的最大值与所述第二置信度门限进行比较。
进一步地,所述根据所述每条文本数据的标题和参考文本的标题,分别计算得到每条文本数据的标题向量和参考文本的标题向量,包括:
采用Jieba分词器分别对所述文本数据的标题和参考文本的标题进行分词,分别得到对应的第一分词集合和第二分词集合;
利用预训练词向量模型分别计算第一分词集合中各词的词向量和第二分词集合中各词的词向量;
将第一分词集合中各词的词向量对应位相加,得到文本数据的标题向量;
将第二分词集合中各词的词向量对应位相加,得到参考文本的标题向量。
另一方面,采用一种基于多特征融合的诉讼线索挖掘系统,包括:待挖掘数据获取模块、情感分析模块、命名实体识别模块、相似度计算模块、确定模块和丢弃模块;
待挖掘数据获取模块用于获取待挖掘的文本数据,该文本数据的存储结构包括标题和内容;
情感分析模块用于对文本数据的内容进行情感分析,并判断情感分析负向得分是否大于设置的第一置信度门限;
命名实体识别模块用于在情感分析模块输出结果为是时,对文本数据的内容进行命名实体识别,并判断识别结果中是否包含有效实体;
相似度计算模块用于在命名实体识别模块输出结果为是时,对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限;
确定模块用于在相似度计算模块输出结果为是时,将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索;
丢弃模块用于在情感分析模块输出结果为否时或命名实体识别模块输出结果为否时或相似度计算模块输出结果为否时,将文本数据丢弃。
与现有技术相比,本发明存在以下技术效果:本发明对于待挖掘的文本数据,从不同维度分析其特征,包括情感分析、实体识别、语义相似度等,从而从互联网数据中挖掘出有效的公益诉讼线索,拓展公益诉讼线索来源,增大公益诉讼线索的数量,辅助检察机关提升监督力度和效率。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种基于多特征融合的诉讼线索挖掘方法的流程示意图;
图2是对文本数据的内容进行情感分析的流程示意图;
图3是对文本数据的内容进行命名实体识别的流程示意图;
图4是对文本数据的标题进行语义相似度计算的流程示意图;
图5是数据标题向量计算流程示意图;
图6是一种基于多特征融合的诉讼线索挖掘系统的结构示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于多特征融合的诉讼线索挖掘方法,包括如下步骤S1至S6:
S1、获取待挖掘的文本数据,该文本数据的存储结构包括标题和内容;
S2、对文本数据的内容进行情感分析,并判断情感分析负向得分是否大于设置的第一置信度门限,若是则执行步骤S3,若否则执行步骤S6;
S3、对文本数据的内容进行命名实体识别,并判断识别结果中是否包含有效实体,若是则执行步骤S4,若否则执行步骤S6;
S4、对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限,若是则执行步骤S5,若否则执行步骤S6;
S5、将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索;
S6、丢弃所述文本数据。
需要说明的是,有效的公益诉讼线索具有明显的负面情感表现,通过分析文本数据的情感负向得分,即可初步判断当前的数据是否为疑似公益诉讼线索,然后通过命名实体识别和语义相似度对文本数据进行进一步分析,以实现从互联网数据中挖掘出有效的公益诉讼线索。
具体来说,本实施例利用网络爬虫技术从全网获取的文本数据,存储结构包括标题Title和内容Content,其存储样例如表1所示:
表1
优选地,在实际应用中,从互联网(包括微信、微博、论坛、网站等)获取的文本数据格式会存在很多垃圾数据,这些垃圾数据影响后续公益诉讼线索挖掘的准确性,因此需要对获取的文本数据进行清洗处理,利用清洗后的文本数据进行公益诉讼线索的挖掘,可以大幅度提高线索挖掘准确率,所述清洗处理方式如表2所示:
表2
特征 | 清洗方法 |
有标题没有内容 | 用标题直接填充内容 |
有内容没有标题 | 用内容直接填充标题 |
文本中包含无关符号:<br>、<html> | 去掉无关符号 |
换行符 | 去掉换行符 |
表2中展示的清洗方式具体为:(1)对于有所述标题数据无内容数据的文本数据,利用标题数据直接填充内容;
(2)对于有所述内容数据无标题数据的文本数据,利用内容数据直接填充标题;
(3)对于所述文本数据中的无关符号进行删除,这里无关符号包括:<br>、<html>、换行符等。
如图2所示,上述步骤S2:对文本数据的内容进行情感分析,并判断情感分析负向得分是否大于设置的第一置信度门限,具体包括如下步骤S21至S24:
S21、构建情感分析模型,该情感分析模型采用具有注意力机制(Attention)的深度神经网络双向LSTM,长短时记忆网络(Long Short Term Memory Network,LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题。
S22、获取训练数据,该训练数据为从电商网站、外卖网站、微博等获取的文本数据,然后人工标注出文本数据的正向标签或负向标签,然后将训练数据划分为训练样本集和测试样本集。
S23、训练情感分析模型,利用训练样本集对情感分析模型进行训练,确定情感分析模型的参数;然后利用测试样本集对情感分析模型进行测试,得出合适的第一置信度门限threshold1。本实施例中总结出的第一置信度门限值为0.1,本领域技术人员也可以根据实际情况,得出不同的第一置信度门限的经验值。
S24、利用情感分析模型对所述文本进行情感分析,并将情感分析的负向得分Ssentiment与所述第一置信度门限threshold1进行比较:
即,若负向得分小于或等于第一置信度门限,则判断当前的文本数据为疑似公益诉讼线索数据,进入命名实体识别处理步骤。
如图3所示,由于有效的公益诉讼线索一般都会出现地名、机构名、人名等,因此本实施例将文本数据是否出现这些有效实体作为有效公益诉讼线索的另一判断特征,对负向得分小于或等于第一置信度门限的文本数据进行进一步判断。具体地,上述步骤S3:对文本数据的内容进行命名实体识别,并判断识别结果中是否包含有效实体,具体包括如下步骤S31至S34:
S31、构建命名实体识别模型,该命名实体识别模型为采用融合双向LSTM、条件随机场CRF、Google开源的Bert的常用算法所构建。
S32、获取训练数据,采用业界常用的BIO体系对训练数据进行标注,包括地名(LOC)、组织结构(ORG)以及人名(PER)。
S33、训练命名实体识别模型,利用训练数据对命名实体识别模型进行训练,确定命名实体识别模型的参数。
S34、利用命名实体识别模型对负向得分小于或等于第一置信度门限的文本数据进行识别:
即,包含上述有效实体的文本数据进入语义相似度判断的处理步骤,不包含上述任一有效实体的文本数据直接丢弃。
如图4所示,上述步骤S4:对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限,包括如下步骤S41至S44:
S41、获取已知为有效公益诉讼线索的文本数据作为参考文本;
S42、根据所述每条文本数据的标题和参考文本的标题,分别计算得到每条文本数据的标题向量和参考文本的标题向量。
具体如图5所示,根据参考文本的标题,计算参考文本的标题向量的具体过程如下:
采用Jieba分词器对参考文本的标题进行分词,得到第二分词集合;
采用预训练词向量模型计算第二分词集合中各词的词向量;
将第二分词集合中各词的词向量对应位相加,得到参考文本的标题向量。
其中,参考文本指的是一批经过人工审核后确认为公益诉讼线索的文本数据,取该文本数据的标题作为参考文本。假如参考文本中有M条有效公益诉讼线索,则得到M个200维的标题向量。
具体地,根据所述每条文本数据的标题,计算每条文本数据对应的标题向量的过程如下:
采用Jieba分词器对所述文本数据的标题进行分词,得到第一分词集合;
利用预训练词向量模型计算第一分词集合中各词的词向量;
将第一分词集合中各词的词向量对应位相加,得到文本数据的标题向量。
具体地,本实施例中采用的预训练词向量模型为腾讯预训练词向量模型(200维),同样地,本领域技术人员可根据实际情况选用其他词向量模型。
S43、计算每条文本数据的标题向量与参考文本的标题向量的余弦相似度;
S44、将所有得到的余弦相似度中的最大值Sw2v与所述第二置信度门限threshold2进行比较有:
即,最大值Sw2v大于或等于第二置信度门限threshold2时,确定该文本数据为最终的有效公益诉讼线索,在最大值Sw2v小于第二置信度门限threshold2时,该文本数据为无效数据,直接舍弃。
需要说明的是,第二置信度门限threshold2为利用标注的数据进行标题向量计算,并与参考文本标题向量进行余弦相似度计算,并进行不断调试总结得到的合适的经验值,本实施例中取0.85。
如图6所示,本实施例还公开了一种基于多特征融合的诉讼线索挖掘系统,包括:待挖掘数据获取模块10、情感分析模块20、命名实体识别模块30、相似度计算模块40、确定模块50和丢弃模块60;
待挖掘数据获取模块10用于获取待挖掘的文本数据,该文本数据的存储结构包括标题和内容;
情感分析模块20用于对文本数据的内容进行情感分析,并判断情感分析负向得分是否大于设置的第一置信度门限;
命名实体识别模块30用于在情感分析模块20输出结果为是时,对文本数据的内容进行命名实体识别,并判断识别结果中是否包含有效实体;
相似度计算模块40用于在命名实体识别模块30输出结果为是时,对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限;
确定模块50用于在相似度计算模块40输出结果为是时,将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索;
丢弃模块60用于在情感分析模块20输出结果为否时或命名实体识别模块30输出结果为否时或相似度计算模块40输出结果为否时,将文本数据丢弃。
具体来说,该系统还包括与待挖掘数据获取模块10连接的数据处理模块,该数据处理模块用于对待挖掘的文本数据格式进行清洗。所述清洗处理方式包括:对于有所述标题数据无内容数据的文本数据,利用标题数据直接填充内容;对于有所述内容数据无标题数据的文本数据,利用内容数据直接填充标题;对于所述文本数据中的无关符号进行删除。
具体来说,情感分析模块20包括第一训练数据获取单元、第一训练单元和第一比较单元;
第一训练数据获取单元用于获取训练数据集,该训练数据集中的每条数据标注正向标签或负标签;
第一训练单元用于利用训练数据集对包含注意力机制的深度神经网络模型进行训练,得到用于分析文本数据情感得分的情感分析模型;
第一比较单元用于利用情感分析模型对所述文本进行情感分析,并将情感分析的负向得分与所述第一置信度门限进行比较。
具体来说,相似度计算模块40包括参考文本获取单元、标题向量计算单元、相似度计算单元和第二比较单元;
参考文本获取单元用于获取已知为有效公益诉讼线索的文本数据作为参考文本;
标题向量计算单元用于根据所述每条文本数据的标题和参考文本的标题,分别计算得到每条文本数据的标题向量和参考文本的标题向量;
相似度计算单元用于计算每条文本数据的标题向量与参考文本的标题向量的余弦相似度;
第二比较单元用于将所有得到的余弦相似度中的最大值与所述第二置信度门限进行比较。
本实施例通过从互联网中获取文本数据,并分析文本数据的情感特征、实体特征以及相似度特征,通过综合分析这些特征,可以准确挖掘出有效的公益诉讼线索,扩大检察机关监督案件的来源,有利于辅助检察机关提升监督力度和效率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多特征融合的诉讼线索挖掘方法,其特征在于,包括如下步骤:
S1、获取待挖掘的文本数据,该文本数据的存储结构包括标题和内容;
S2、对文本数据的内容进行情感分析,并判断情感分析负向得分是否小于等于设置的第一置信度门限,若是则执行步骤S3,若否则执行步骤S6;
S3、对文本数据的内容进行命名实体识别,并判断识别结果中是否包含有效实体,若是则执行步骤S4,若否则执行步骤S6,所述有效实体包括地名、组织结构名及人名中的至少一个;
S4、对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限,若是则执行步骤S5,若否则执行步骤S6,其中,将获取的已知为有效公益诉讼线索的文本数据作为参考文本;
S5、将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索;
S6、丢弃所述文本数据。
2.如权利要求1所述的基于多特征融合的诉讼线索挖掘方法,其特征在于,所述获取待挖掘的文本数据,包括:
采用网络爬虫技术,从互联网数据中获取所述待挖掘的文本数据。
3.如权利要求2所述的基于多特征融合的诉讼线索挖掘方法,其特征在于,在所述获取待挖掘的文本数据之后,还包括:
对所述待挖掘的文本数据进行清洗处理,得到清洗后的文本数据;
相应地,所述对所述文本数据进行情感分析,具体为对清洗后的文本数据进行情感分析。
4.如权利要求3所述的基于多特征融合的诉讼线索挖掘方法,其特征在于,所述清洗处理方式包括:
对于有所述标题数据无内容数据的文本数据,利用标题数据直接填充内容;
对于有所述内容数据无标题数据的文本数据,利用内容数据直接填充标题;
对于所述文本数据中的无关符号进行删除。
5.如权利要求1所述的基于多特征融合的诉讼线索挖掘方法,其特征在于,所述对文本数据进行情感分析,并判断情感分析负向得分是否小于等于设置的第一置信度门限,包括:
获取训练数据集,该训练数据集中的每条数据标注正向标签或负标签;
利用训练数据集对包含注意力机制的深度神经网络模型进行训练,得到用于分析文本数据情感得分的情感分析模型;
利用情感分析模型对所述文本进行情感分析,并将情感分析的负向得分与所述第一置信度门限进行比较。
6.如权利要求1所述的基于多特征融合的诉讼线索挖掘方法,其特征在于,所述对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限,包括:
获取已知为有效公益诉讼线索的文本数据作为参考文本;
根据所述每条文本数据的标题和参考文本的标题,分别计算得到每条文本数据的标题向量和参考文本的标题向量;
计算每条文本数据的标题向量与参考文本的标题向量的余弦相似度;
将所有得到的余弦相似度中的最大值与所述第二置信度门限进行比较。
7.如权利要求6所述的基于多特征融合的诉讼线索挖掘方法,其特征在于,所述根据所述每条文本数据的标题和参考文本的标题,分别计算得到每条文本数据的标题向量和参考文本的标题向量,包括:
采用Jieba分词器分别对所述文本数据的标题和参考文本的标题进行分词,分别得到对应的第一分词集合和第二分词集合;
利用预训练词向量模型分别计算第一分词集合中各词的词向量和第二分词集合中各词的词向量;
将第一分词集合中各词的词向量对应位相加,得到文本数据的标题向量;
将第二分词集合中各词的词向量对应位相加,得到参考文本的标题向量。
8.一种基于多特征融合的诉讼线索挖掘系统,其特征在于,包括:待挖掘数据获取模块、情感分析模块、命名实体识别模块、相似度计算模块、确定模块和丢弃模块;
待挖掘数据获取模块用于获取待挖掘的文本数据,该文本数据的存储结构包括标题和内容;
情感分析模块用于对文本数据的内容进行情感分析,并判断情感分析负向得分是否小于等于设置的第一置信度门限;
命名实体识别模块用于在情感分析模块输出结果为是时,对文本数据的内容进行命名实体识别,并判断识别结果中是否包含有效实体,所述有效实体包括地名、组织结构名及人名中的至少一个;
相似度计算模块用于在命名实体识别模块输出结果为是时,对文本数据的标题和参考文本的标题进行语义相似度计算,并判断语义相似度是否大于设置的第二置信度门限,其中,将获取的已知为有效公益诉讼线索的文本数据作为参考文本;
确定模块用于在相似度计算模块输出结果为是时,将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索;
丢弃模块用于在情感分析模块输出结果为否时或命名实体识别模块输出结果为否时或相似度计算模块输出结果为否时,将文本数据丢弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017853.5A CN112711693B (zh) | 2019-10-24 | 2019-10-24 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017853.5A CN112711693B (zh) | 2019-10-24 | 2019-10-24 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112711693A CN112711693A (zh) | 2021-04-27 |
CN112711693B true CN112711693B (zh) | 2024-04-09 |
Family
ID=75540553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911017853.5A Active CN112711693B (zh) | 2019-10-24 | 2019-10-24 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711693B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204624B (zh) * | 2021-06-07 | 2022-06-14 | 吉林大学 | 一种多特征融合的文本情感分析模型及装置 |
CN116108851B (zh) * | 2023-03-13 | 2023-08-11 | 北京国研数通软件技术有限公司 | 基于ner的群体性诉求识别方法和系统 |
CN117150436B (zh) * | 2023-10-31 | 2024-01-30 | 上海大智慧财汇数据科技有限公司 | 多模态自适应融合的主题识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593204A (zh) * | 2009-06-05 | 2009-12-02 | 北京大学 | 一种基于新闻评论网页的情感倾向性分析系统 |
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN104504150A (zh) * | 2015-01-09 | 2015-04-08 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN107305539A (zh) * | 2016-04-18 | 2017-10-31 | 南京理工大学 | 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法 |
CN109948148A (zh) * | 2019-02-28 | 2019-06-28 | 北京学之途网络科技有限公司 | 一种文本信息情感判定方法和判定装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100306249A1 (en) * | 2009-05-27 | 2010-12-02 | James Hill | Social network systems and methods |
-
2019
- 2019-10-24 CN CN201911017853.5A patent/CN112711693B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593204A (zh) * | 2009-06-05 | 2009-12-02 | 北京大学 | 一种基于新闻评论网页的情感倾向性分析系统 |
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN104504150A (zh) * | 2015-01-09 | 2015-04-08 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN107305539A (zh) * | 2016-04-18 | 2017-10-31 | 南京理工大学 | 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法 |
CN109948148A (zh) * | 2019-02-28 | 2019-06-28 | 北京学之途网络科技有限公司 | 一种文本信息情感判定方法和判定装置 |
Non-Patent Citations (3)
Title |
---|
困境与突破:行政公益诉讼线索发现机制研究;李成 等;《四川师范大学学报(社会科学版)》;54-61 * |
基于特定领域的意见挖掘的研究与分析;林慧恩;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-731 * |
评价对象识别模型与方法研究;王俊淇;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-4706 * |
Also Published As
Publication number | Publication date |
---|---|
CN112711693A (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
CN112711693B (zh) | 一种基于多特征融合的诉讼线索挖掘方法及系统 | |
CN113220919B (zh) | 一种大坝缺陷图像文本跨模态检索方法及模型 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
CN109960727B (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN112800232B (zh) | 一种基于大数据的案件自动分类方法 | |
CN111274814A (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN107797994A (zh) | 基于约束条件随机场的越南语名词组块识别方法 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN114170411A (zh) | 一种融合多尺度信息的图片情感识别方法 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN111159342A (zh) | 一种基于机器学习的公园文本评论情绪打分方法 | |
CN111984790B (zh) | 一种实体关系抽取方法 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
CN113886524A (zh) | 一种基于短文本的网络安全威胁事件抽取方法 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN113282715A (zh) | 结合深度学习的大数据话题评论情绪分析方法及服务器 | |
CN112035670B (zh) | 基于图像情感倾向的多模态谣言检测方法 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN111538843B (zh) | 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 | |
CN117454987B (zh) | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |