CN112270633B - 一种基于大数据驱动的公益诉讼线索研判系统和方法 - Google Patents
一种基于大数据驱动的公益诉讼线索研判系统和方法 Download PDFInfo
- Publication number
- CN112270633B CN112270633B CN202011156746.3A CN202011156746A CN112270633B CN 112270633 B CN112270633 B CN 112270633B CN 202011156746 A CN202011156746 A CN 202011156746A CN 112270633 B CN112270633 B CN 112270633B
- Authority
- CN
- China
- Prior art keywords
- litigation
- case
- research
- clue
- judgment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000011160 research Methods 0.000 claims abstract description 91
- 230000000694 effects Effects 0.000 claims abstract description 10
- 238000007726 management method Methods 0.000 claims abstract description 7
- 230000006378 damage Effects 0.000 claims description 24
- 210000000056 organ Anatomy 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000008901 benefit Effects 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000002459 sustained effect Effects 0.000 claims description 5
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000006735 deficit Effects 0.000 claims description 2
- 230000001771 impaired effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000012216 screening Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 2
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001066 destructive effect Effects 0.000 description 2
- 239000003344 environmental pollutant Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 231100000719 pollutant Toxicity 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000003911 water pollution Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910001385 heavy metal Inorganic materials 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 239000002910 solid waste Substances 0.000 description 1
- 239000003440 toxic substance Substances 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据驱动的公益诉讼线索研判方法,具体包括:针对不同的来源渠道及数据特点,制定相应的数据采集方案,并自动从多个渠道动态获取公益诉讼相关的案源信息,并对案源信息进行整合、清洗、转换,形成公益诉讼案源库;基于大数据、自然语言处理等技术,构建公益诉讼线索研判模型,自动对获取的案源信息进行精准分类、分析研判,计算出线索研判指数,并对大于预设阈值的线索主动推送给检察官进行办理。本发明实现了海量案源数据的采集、治理、分析、研判、预警,有效拓展了公益诉讼案源渠道,提升了从海量案源数据中筛查公益诉讼线索的质效,增强了公益诉讼线索发现的及时性、准确性。
Description
技术领域
本发明属于案件线索研判技术领域,具体涉及一种基于大数据驱动的公益诉讼线索研判系统和方法。
背景技术
随着科学技术的进步,特别是云计算、大数据、人工智能等信息技术已经经历了起步期、初步应用、系统推广、深度学习等阶段,现已应用于多个领域,这给公益诉讼检察办案工作提供了新途径、新手段。将大数据、人工智能等信息技术,全面应用到检察公益诉讼工作中是非常有必要的。
现有公益诉讼案源采集及线索研判技术存在如下缺陷和不足:一是公益诉讼作为一项新业务,其案件面临着来源种类多、数量大、数据类型复杂、案件线索难以提取等难题,而现有技术只能对案件数据进行采集归类、可视化展示等,无法协助检察机关从全局的角度归纳、分析海量的案件数据,无法快速、定量的估计研判指数;二是普遍采用B/S架构和WEB浏览器访问业务的模式,多注重案件流转、案件审批,还停留在简单的业务整合,由于公益诉讼业务涉及领域多、涉案环节多,存在核心功能研发缺失、创新能力不足等问题;三是针对公益诉讼信息化系统的研发,主要集中在舆情线索采集、查询统计分析等方面,面对海量多源异构案源数据,难以快速准确定位案件线索、难以提供智能化辅助应用。
发明内容
为了解决现有技术的不足,本发明旨在提供一种基于大数据驱动的公益诉讼线索研判方法,以解决现有技术无法从全局的角度归纳、分析海量的案源数据,无法快速、定量计算公益诉讼线索研判指数的问题。
为了实现上述目的,本发明采用的技术方案为:
本发明提出了一种基于大数据驱动的公益诉讼线索研判系统,包括案源采集子系统、线索研判子系统和线索发现子系统;
所述案源采集子系统:用于针对不同的公益诉讼案源来源渠道及数据特点,制定相应的采集方案,并根据设定的数据采集方案,自动获取公益诉讼相关的案源信息,并对案源信息进行整合、清洗、转换,形成公益诉讼案源库;
所述线索研判子系统:用于构建线索研判模型,自动对获取的案源信息进行数据分类、分析研判,自动计算案源的研判指数;
所述线索发现子系统:用于根据研判指数、预警规则动态分析预警,主动推送给检察官进行办理。
进一步的,所述案源采集子系统包括采集模块、案源预处理模块和案源管理模块;
所述采集模块:用于根据设定的数据采集方案,自动从行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站动态获取公益诉讼相关的案源信息;
所述案源预处理模块:用于对获取的案源信息进行整合、清洗、转化,建立公益诉讼案源库;
所述案源管理模块:用于对行政执法信息、刑事案件信息、环保督察信息、全网舆情信息、投诉举报信息进行统一管理,按照来源渠道、所属领域、所属行业、管辖区域进行数据存储和数据检索。
进一步的,所述线索研判子系统包括线索研判模型模块、线索分类模块和线索计算模块;
所述线索研判模型模块:以行业分类、违法主体、违法事实、损害后果、社会影响为基础构建模型;
所述线索分类模块:通过公益诉讼来源类别、领域类别分析整合得出研判分类结果;
所述线索计算模块:根据线索研判模型,并结合研判计算公式计算线索研判指数。
进一步的,所述线索发现子系统包括线索展示模块、研判预警模块;
所述线索展示模块:用于按照研判指数、研判时间、所属领域、所属区域对公益诉讼线索进行排序展示;
所述研判预警模块:用于根据研判指数、预警规则进行动态分析预警,主动提示检察官进行办理。
相应的,本发明还提出了基于公益诉讼线索研判系统实现的线索研判方法,包括以下步骤:
1)根据不同的公益诉讼案源来源渠道及数据特点,制定相应的数据采集方案;
2)根据步骤1)预设的采集方案,从多个渠道采集公益诉讼案源信息;
具体包括:根据配置的渠道领域范围圈定需要采集案源信息的目标系统、媒体和网站;根据采集方案中的采集规则配置,对不同渠道案源数据采用相应的采集方式、流程和规则;利用采集方案中的采集关键词配置,对采集的案源信息进行匹配;
其中公益诉讼案源信息的采集渠道包括:行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站;
3)对案源信息进行数据整合、清洗、转换,形成案源库;
4)构建以行业分类、违法主体、违法事实、损害后果、社会影响为基础的线索研判模型;
5)根据研判模型对案源信息进行分析,判断分类结果是否与公益诉讼相关;具体包括:
5-1)按照案源来源渠道进行分类,以得到来源类别;
5-2)根据公益诉讼领域类型、案由罪名和数据特点,建立关键词库;
5-3)提取所述案源关键要素,并与公益诉讼领域相关的关键词进行匹配定位,以得到领域类别;
5-4)整合来源类别、领域类别,形成对应的案源分类结果;
其中分类结果包括公益诉讼案源从来源渠道、关键要素的角度进行分类所得到的对应结果;
6)根据研判模型对案源信息进行研判指数分析计算;
7)判断研判指数是否大于预设阈值;
其中当案源信息的研判指数大于预设阀值时,判定其属于公益诉讼线索,否则判定其属于非公益诉讼线索,并存储在案源库中;
8)判断是否符合设定的预警规则;
其中预警规则包括根据工作设置专项活动规则、涉案主体历史处罚规则、涉案企业历史处罚规则;
9)对步骤8)的判断结果通过红绿灯报警形式进行动态预警;
10)按照研判指数、研判时间进行线索展示;
将判定不符合设定的预警规则,按照研判指数、研判时间进行线索展示;
11)判定属于非公益诉讼线索,并存储在案源库中;
将分类结果与公益诉讼不相关、研判指数低于预设阀值,判定属于非公益诉讼线索的判定信息存储在案源库中。
其中,步骤1)中采集方案具体包括采集方案名称配置、采集范围配置、采集时间配置、采集规则配置、采集关键词配置;
所述采集方案名称配置:用于标记每次案源采集程序的执行序列;
所述采集范围配置:用于确定公益诉讼案源涉及的渠道领域;
所述采集时间配置:用于确定公益诉讼案源采集程序执行时间;
所述采集规则配置:用于确定公益诉讼案源采集方式、流程和规则;
所述采集关键词配置:用于匹配公益诉讼相关的案源信息。
其中,步骤4)构建的线索研判模型包括侵害公益事实认定模型、履职责任主体模型、行政机关违法事实认定模型、利益持续受损模型;
所述侵害公益事实认定模型:用于判定侵害国家利益和社会公共利益的事实是否已经发生;
所述履职责任主体模型:用于判定是否有明确履职责任主体;
所述行政机关违法事实认定模型:用于判定行政机关违法事实是否存在;
所述利益持续受损模型:用于判定国家利益和社会公共利益是否持续受损。
其中,步骤6)具体包括:
6-1)根据线索研判模型对获取的案源进行分析研判;
6-2)根据线索研判模型对获取的案源进行研判指数计算;
具体的,研判指数的计算公式为:
研判指数=(指数1*权重1+指数2*权重2+…+指数n*权重n)/(权重1+权重2+…+权重n)
其中指数包括破坏程度、影响人数、影响范围、影响时间、涉案物品、涉案金额;权重是占比指标,权重值在0-10之间,值越高说明所占比重越大;
6-3)依据线索研判指数值大小、线索研判时间、来源渠道、所属领域、所属区域对公益诉讼线索进行排序。
其中,步骤9)中动态预警包括专题活动预警、涉案主体历史处罚预警、涉案企业历史处罚预警;
所述专题活动预警用于标记某一时间开展某一领域专题活动公益诉讼线索信息;
所述涉案主体历史处罚预警用于标记涉案主体存在历史行政处罚信息;
所述涉案企业历史处罚预警用于标记涉案企业存在历史行政处罚信息。
本发明具有的有益效果为:
本发明针对不同的公益诉讼案源来源渠道及数据特点,制定相应的数据采集方案。根据数据采集方案,从行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站等多个渠道采集公益诉讼案源信息,并对案源信息进行数据整合、清洗、转换,形成公益诉讼案源库;基于大数据、自然语言处理等技术,构建以行业分类、违法主体、违法事实、损害后果、社会影响等为基础的线索研判模型,自动对获取的案源信息进行精准分类、分析研判,自动筛选出符合公益诉讼条件的线索,并根据研判指数、预警规则等要素动态分析预警,主动推送给检察官进行办理。解决了现有技术无法从全局的角度收集、归纳、整合、分析海量的案源数据,无法快速、定量计算公益诉讼线索研判指数的问题,实现了海量案源数据的采集、治理、分析、研判、预警,拓展了公益诉讼案源的来源渠道,提升了从海量案源数据中研判公益诉讼线索的质效,增强了公益诉讼线索发现的及时性、准确性。
附图说明
图1为本发明公益诉讼线索研判系统的结构示意图;
图2为本发明案源采集子系统的结构示意图;
图3为本发明线索研判子系统的结构示意图;
图4为本发明线索发现子系统的结构示意图;
图5为本发明公益诉讼线索研判方法的流程示意图;
图6为本发明公益诉讼线索研判方法的子流程示意图;
图7为本发明公益诉讼线索研判方法的子流程示意图。
具体实施方式
为了更加清楚地说明本发明实施例的目的、技术方案和优点,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,下面所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动性的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其他情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明提出了一种基于大数据驱动的公益诉讼线索研判系统,如图1所示该系统包括案源采集子系统、线索研判子系统和线索发现子系统。
如图2所示,案源采集子系统用于针对不同的公益诉讼案源来源渠道及数据特点,制定相应的采集方案,并根据设定的数据采集方案,自动获取公益诉讼相关的案源信息,并对案源信息进行整合、清洗、转换,形成公益诉讼案源库。案源采集子系统包括采集模块、案源预处理模块和案源管理模块。
其中采集模块用于根据设定的数据采集方案,自动从行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站等渠道动态获取公益诉讼相关的案源信息;
案源预处理模块用于对获取的案源信息进行整合、清洗、转化等数据预处理,建立公益诉讼案源库;
案源管理模块用于对行政执法信息、刑事案件信息、环保督察信息、全网舆情信息、投诉举报信息进行统一管理,按照来源渠道、所属领域、所属行业、管辖区域等进行数据存储和数据检索。
如图3所示,线索研判子系统用于构建线索研判模型,自动对获取的案源信息进行数据分类、分析研判,自动计算案源的研判指数;线索研判子系统包括线索研判模型模块、线索分类模块和线索计算模块。
其中线索研判模型模块以行业分类、违法主体、违法事实、损害后果、社会影响为基础构建模型;主要包括侵害公益事实认定模型、履职责任主体模型、行政机关违法事实认定模型、利益持续受损模型。
线索分类模块通过公益诉讼来源类别、领域类别分析整合得出研判分类结果;如数据分类结果与公益诉讼相关联,则根据研判分析模型进行分析研判,否则判定属于非公益诉讼线索,存储在案源库中。
线索计算模块根据线索研判模型,并结合研判计算公式计算线索研判指数。
如图4所示,线索发现子系统用于根据研判指数、预警规则等要素动态分析预警,主动推送给检察官进行办理。线索发现子系统包括线索展示模块、研判预警模块。
其中线索展示模块用于按照研判指数、研判时间、所属领域、所属区域对公益诉讼线索进行排序展示。
研判预警模块用于根据研判指数、预警规则进行动态分析预警,主动提示检察官进行办理。
相应的,本发明还提供基于上述公益诉讼线索研判系统实现的线索研判方法,如图5所示,具体包括以下步骤:
步骤1)根据不同的公益诉讼案源来源渠道及数据特点,制定相应的数据采集方案。
采集方案具体包括采集方案名称配置、采集范围配置、采集时间配置、采集规则配置、采集关键词配置等。
其中,采集方案名称配置用于标记每次案源采集程序的执行序列;一个方案名称为一个执行序列,方案名称例如为“某某省某某厅行政处罚案件信息采集”。
采集范围配置用于确定公益诉讼案源涉及的渠道领域。例如行政执法机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站等渠道,生态环境和资源保护、食品药品安全、国有资产保护、国有土地使用权出让、英烈权益保护等领域,从而明确每个数据采集方案获得的信息自动归类到对应的公益诉讼类型中。
采集时间配置用于确定公益诉讼案源采集程序执行时间。例如根据信息更新频次,设置采集时间,如每天、每周、每月等。
采集规则配置用于确定公益诉讼案源采集方式、流程和规则。例如数据接口采集、网站定制化爬虫、第三方全网舆情数据服务、定向实时监控、数据批量导入等数据采集方式,模拟人员操作习惯,设置数据采集流程和规则。针对来自行政执法机关业务系统的案源信息,数据采集难点在于要对接复杂多样的数据接口,为了扩大数据来源渠道,降低系统对接难度,通过数据接口方式进行案源采集。针对来自全网互联网媒体的案源信息,数据采集难点在于要从海量多源异构的数据中全面精准获取有效信息,通过第三方全网舆情数据服务和网站定制化爬虫方式获取案源信息。针对来自政务服务网站和投诉举报网站的信息,采用定向实时监控、数据批量导入方式获取案源信息。
采集关键词配置用于匹配公益诉讼相关的案源信息。例如当获取的案源信息中存在关键词中的一个或多个时,该信息进入公益诉讼案源库。
步骤2)根据步骤1)预设的采集方案,从多个渠道采集公益诉讼案源信息。
其具体包括:根据配置的渠道领域范围圈定需要采集案源信息的目标系统、媒体和网站。根据所述采集方案中的采集规则配置,对不同渠道案源数据采用相应的采集方式、流程和规则。利用所述采集方案中的采集关键词配置,对采集的案源信息进行匹配。
其中公益诉讼案源信息的采集渠道包括:行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站等。
步骤3)对案源信息进行数据整合、清洗、转换,形成案源库。
其中数据整合用于对采集的案源信息进行数据整合,提取并存储特征信息,构建信息索引。数据清洗用于对采集的案源信息进行数据校验、数据拆分/合并,数据过滤、数据去重等。数据转换用于对字段内容转换、文件转换等。
步骤4)构建以行业分类、违法主体、违法事实、损害后果、社会影响为基础的线索研判模型。
其构建的线索研判模型包括侵害公益事实认定模型、履职责任主体模型、行政机关违法事实认定模型、利益持续受损模型。
其中侵害公益事实认定模型用于判定侵害国家利益和社会公共利益的事实是否已经发生。其中判定要素包括造成国家利益或社会公共利益破坏的违法行为人的情况,建设项目或相关污染防治设施的具体情况,行政许可和审批情况,实施违法行为的具体手段和方式,污染物的种类、数量,造成污染和破坏的范围和程度,污染排放时间、排放方式、排放去向和排放频率,污染治理措施实施情况,林地、耕地、草地、湿地等生态系统自然状态以及野生动植物受到破坏或伤害的时间、方式和过程等。
履职责任主体模型用于判定是否有明确履职责任主体,其评定要素包括侵权主体信息(组织机构代码名称、法定代表人、企业行业性质)、执法监督主体信息(如环保部门、国土部门、林业部门等)。
行政机关违法事实认定模型用于判定行政机关违法事实是否存在,其评定要素包括行政机关对某一违法行为进行查处的法律依据、程序流程、处罚条件、适用情形及处罚措施等。
利益持续受损模型用于判定国家利益和社会公共利益是否持续受损,其判定要素包括污染源的数量、位置和周边情况,污染排放时间、排放方式、排放去向和排放频率、资源遭受破坏的范围、程度、持续状态等。
步骤5)根据研判模型对案源信息进行分析,判断分类结果是否与公益诉讼相关。
如图6所示,具体包括:
5-1)按照案源来源渠道进行分类,以得到来源类别,例如从生态环境厅业务系统获取的案件数据,判断其属于行政执法信息类别。
5-2)根据公益诉讼领域类型、案由罪名和数据特点,建立关键词库。公益诉讼领域关键词是根据公益诉讼领域特点,形成的关键词划分,例如,生态环境和资源保护领域包括污染环境类、破坏资源类。污染环境类可细分成水污染、大气污染、固体废物污染、噪声污染、垃圾污染、核与辐射污染、海洋污染等。破坏资源类可细分成破坏士地资源、林业资源、矿产资源、草原资源、动植物资源等。按照这个类目继续向下总结,水污染又可细分成“总铅、总镍、总铜、总锌”等重金属有毒物质、污染环境罪等案由,如果案源要素信息触碰到上述污染物名称、案由罪名,此案源就有较大概率划分到生态环境和资源保护领域类别。
5-3)基于自然语言处理技术,从发生时间、所属区域、所属领域、违法主体、违法事实等多个维度识别提取所述案源关键要素,并与公益诉讼领域相关的关键词进行匹配定位,以得到领域类别。
5-4)整合来源类别、领域类别,形成对应的案源分类结果。
其中对应的分类结果是指公益诉讼案源从来源渠道、关键要素的角度进行分类所得到的对应结果。整合来源类别、领域类别,形成对应的分类结果,如分类结果与公益诉讼相关联,则根据研判分析模型进行分析研判,否则判定属于非公益诉讼线索,存储在案源库中。
步骤6)根据研判模型对案源信息进行研判指数计算。
如图7所示,具体包括:
6-1)根据线索研判模型对获取的案源进行分析研判;
6-2)根据线索研判模型对获取的案源进行研判指数计算;
具体的,研判指数的计算公式为:
研判指数=(指数1*权重1+指数2*权重2+…+指数n*权重n)/(权重1+权重2+…+权重n)
其中指数包括破坏程度、影响人数、影响范围、影响时间、涉案物品、涉案金额;权重是占比指标,权重值在0-10之间,值越高说明所占比重越大;例如破坏程度严重10分、破坏程度中等7分,影响范围大5分、影响范围一般3分等。
6-3)依据线索研判指数值大小、线索研判时间、来源渠道、所属领域、所属区域对公益诉讼线索进行排序。
步骤7)判断研判指数是否大于预设阈值。
案源信息的研判指数大于预设阀值时,判定其属于公益诉讼线索,否则判定其属于非公益诉讼线索,存储在案源库中。
其中预设阀值是根据若干已确定为公益诉讼的案件样本集综合得出的。
步骤8)判断是否符合设定的预警规则。
预警规则用于根据工作设置专项活动、涉案主体历史处罚、涉案企业历史处罚等。
步骤9)对步骤8)的判断结果通过红绿灯形式进行动态预警。
其中动态预警包括专题活动预警、涉案主体历史处罚预警、涉案企业历史处罚预警。
专题活动预警用于标记某一时间开展某一领域专题活动公益诉讼线索信息。例如开展“守护百姓舌尖安全”专项活动,通过设置该专项活动预警规则,自动对相关公益诉讼线索进行预警提示。
涉案主体历史处罚预警用于标记涉案主体存在历史行政处罚信息;
涉案企业历史处罚预警用于标记涉案企业存在历史行政处罚信息。
步骤10)按照研判指数、研判时间进行线索展示。
判定不符合设定的预警规则,则按照研判指数、研判时间等进行线索展示。
步骤11)判定属于非公益诉讼线索,存储在案源库中。
对分类结果与公益诉讼不相关、研判指数低于预设阀值,判定属于非公益诉讼线索,存储在案源库中。
Claims (7)
1.一种基于大数据驱动的公益诉讼线索研判系统实现的线索研判方法,其特征在于:所述公益诉讼线索研判系统包括案源采集子系统、线索研判子系统和线索发现子系统;
所述案源采集子系统:用于针对不同的公益诉讼案源来源渠道及数据特点,制定相应的采集方案,并根据设定的数据采集方案,自动获取公益诉讼相关的案源信息,并对案源信息进行整合、清洗、转换,形成公益诉讼案源库;
所述线索研判子系统:用于构建线索研判模型,对获取的案源信息进行数据分类、分析研判,自动计算案源的研判指数;
所述线索发现子系统:用于根据研判指数、预警规则动态分析预警,主动推送给检察官进行办理;
该线索研判方法包括以下步骤:
1)根据不同的公益诉讼案源来源渠道及数据特点,制定相应的数据采集方案;
2)根据步骤1)预设的采集方案,从多个渠道采集公益诉讼案源信息;
具体包括:根据配置的渠道领域范围圈定需要采集案源信息的目标系统、媒体和网站;根据采集方案中的采集规则配置,对不同渠道案源数据采用相应的采集方式、流程和规则;利用采集方案中的采集关键词配置,对采集的案源信息进行匹配;
其中公益诉讼案源信息的采集渠道包括:行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站;
3)对案源信息进行数据整合、清洗、转换,形成案源库;
4)构建以行业分类、违法主体、违法事实、损害后果、社会影响为基础的线索研判模型;
5)根据研判模型对案源信息进行分析,判断分类结果是否与公益诉讼相关;具体包括:
5-1)按照案源来源渠道进行分类,以得到来源类别;
5-2)根据公益诉讼领域类型、案由罪名和数据特点,建立关键词库;
5-3)提取所述案源关键要素,并与公益诉讼领域相关的关键词进行匹配定位,以得到领域类别;
5-4)整合来源类别、领域类别,形成对应的案源分类结果;
其中分类结果包括公益诉讼案源从来源渠道、关键要素的角度进行分类所得到的对应结果;
6)根据研判模型对案源信息进行研判指数分析计算;
7)判断研判指数是否大于预设阈值;
其中当案源信息的研判指数大于预设阀值时,判定其属于公益诉讼线索,否则判定其属于非公益诉讼线索,并存储在案源库中;
8)判断是否符合设定的预警规则;
其中预警规则包括根据工作设置专项活动规则、涉案主体历史处罚规则、涉案企业历史处罚规则;
9)对步骤8)的判断结果通过红绿灯报警形式进行动态预警;
10)按照研判指数、研判时间进行线索展示;
将判定不符合设定的预警规则、按照研判指数、研判时间进行线索展示;
11)判定属于非公益诉讼线索,并存储在案源库中;
将分类结果与公益诉讼不相关、研判指数低于预设阀值、判定属于非公益诉讼线索的判定信息存储在案源库中;
步骤6)具体包括:
6-1)根据线索研判模型对获取的案源进行分析研判;
6-2)根据线索研判模型对获取的案源进行研判指数计算;
具体的,研判指数的计算公式为:
研判指数=(指数1*权重1+指数2*权重2+…+指数n*权重n)/(权重1+权重2+…+权重n)
其中指数包括破坏程度、影响人数、影响范围、影响时间、涉案物品、涉案金额;权重是占比指标,权重值在0-10之间,值越高说明所占比重越大;
6-3)依据线索研判指数值大小、线索研判时间、来源渠道、所属领域、所属区域对公益诉讼线索进行排序。
2.根据权利要求1所述的线索研判方法,其特征在于:所述案源采集子系统包括采集模块、案源预处理模块和案源管理模块;
所述采集模块:用于根据设定的数据采集方案,自动从行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站动态获取公益诉讼相关的案源信息;
所述案源预处理模块:用于对获取的案源信息进行整合、清洗、转化,建立公益诉讼案源库;
所述案源管理模块:用于对行政执法信息、刑事案件信息、环保督察信息、全网舆情信息、投诉举报信息进行统一管理,按照来源渠道、所属领域、所属行业、管辖区域进行数据存储和数据检索。
3.根据权利要求2所述的线索研判方法,其特征在于:所述线索研判子系统包括线索研判模型模块、线索分类模块和线索计算模块;
所述线索研判模型模块:以行业分类、违法主体、违法事实、损害后果、社会影响为基础构建模型;
所述线索分类模块:通过公益诉讼来源类别、领域类别分析整合得出研判分类结果;
所述线索计算模块:根据线索研判模型,并结合研判计算公式计算线索研判指数。
4.根据权利要求3所述的线索研判方法,其特征在于:所述线索发现子系统包括线索展示模块、研判预警模块;
所述线索展示模块:用于按照研判指数、研判时间、所属领域、所属区域对公益诉讼线索进行排序展示;
所述研判预警模块:用于根据研判指数、预警规则进行动态分析预警,主动提示检察官进行办理。
5.根据权利要求1所述的线索研判方法,其特征在于:步骤1)中采集方案具体包括采集方案名称配置、采集范围配置、采集时间配置、采集规则配置、采集关键词配置;
所述采集方案名称配置:用于标记每次案源采集程序的执行序列;
所述采集范围配置:用于确定公益诉讼案源涉及的渠道领域;
所述采集时间配置:用于确定公益诉讼案源采集程序执行时间;
所述采集规则配置:用于确定公益诉讼案源采集方式、流程和规则;
所述采集关键词配置:用于匹配公益诉讼相关的案源信息。
6.根据权利要求1所述的线索研判方法,其特征在于:步骤4)构建的线索研判模型包括侵害公益事实认定模型、履职责任主体模型、行政机关违法事实认定模型、利益持续受损模型;
所述侵害公益事实认定模型:用于判定侵害国家利益和社会公共利益的事实是否已经发生;
所述履职责任主体模型:用于判定是否有明确履职责任主体;
所述行政机关违法事实认定模型:用于判定行政机关违法事实是否存在;
所述利益持续受损模型:用于判定国家利益和社会公共利益是否持续受损。
7.根据权利要求1所述的线索研判方法,其特征在于:步骤9)中动态预警包括专题活动预警、涉案主体历史处罚预警、涉案企业历史处罚预警;
所述专题活动预警用于标记某一时间开展某一领域专题活动公益诉讼线索信息;
所述涉案主体历史处罚预警用于标记涉案主体存在历史行政处罚信息;
所述涉案企业历史处罚预警用于标记涉案企业存在历史行政处罚信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011156746.3A CN112270633B (zh) | 2020-10-26 | 2020-10-26 | 一种基于大数据驱动的公益诉讼线索研判系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011156746.3A CN112270633B (zh) | 2020-10-26 | 2020-10-26 | 一种基于大数据驱动的公益诉讼线索研判系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270633A CN112270633A (zh) | 2021-01-26 |
CN112270633B true CN112270633B (zh) | 2024-02-06 |
Family
ID=74341451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011156746.3A Active CN112270633B (zh) | 2020-10-26 | 2020-10-26 | 一种基于大数据驱动的公益诉讼线索研判系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270633B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779251B (zh) * | 2021-09-08 | 2024-04-19 | 平安国际智慧城市科技股份有限公司 | 线索信息获取方法、装置、介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126680A (zh) * | 2016-06-29 | 2016-11-16 | 北京互信互通信息技术有限公司 | 一种视频图像侦察方法及系统 |
US9552548B1 (en) * | 2016-07-01 | 2017-01-24 | Intraspexion Inc. | Using classified text and deep learning algorithms to identify risk and provide early warning |
CN108108902A (zh) * | 2017-12-26 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 一种风险事件告警方法和装置 |
CN110428228A (zh) * | 2019-08-01 | 2019-11-08 | 济南市历城区人民法院 | 一种法院全业务流程一案一群跟踪及协同办公系统 |
CN111046264A (zh) * | 2019-11-29 | 2020-04-21 | 江西省天轴通讯有限公司 | 舆情线索处理方法、系统、可读存储介质及计算机设备 |
CN111522955A (zh) * | 2020-04-29 | 2020-08-11 | 深圳市华云中盛科技股份有限公司 | 诉讼案件分类方法、装置、计算机设备及存储介质 |
-
2020
- 2020-10-26 CN CN202011156746.3A patent/CN112270633B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126680A (zh) * | 2016-06-29 | 2016-11-16 | 北京互信互通信息技术有限公司 | 一种视频图像侦察方法及系统 |
US9552548B1 (en) * | 2016-07-01 | 2017-01-24 | Intraspexion Inc. | Using classified text and deep learning algorithms to identify risk and provide early warning |
CN108108902A (zh) * | 2017-12-26 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 一种风险事件告警方法和装置 |
CN110428228A (zh) * | 2019-08-01 | 2019-11-08 | 济南市历城区人民法院 | 一种法院全业务流程一案一群跟踪及协同办公系统 |
CN111046264A (zh) * | 2019-11-29 | 2020-04-21 | 江西省天轴通讯有限公司 | 舆情线索处理方法、系统、可读存储介质及计算机设备 |
CN111522955A (zh) * | 2020-04-29 | 2020-08-11 | 深圳市华云中盛科技股份有限公司 | 诉讼案件分类方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
公益诉讼大数据运用路径探析;何莹 等;《中国检察官》;第16-21页 * |
公益诉讼检察调查信息化及实现路径;王祺国;《 人民检察》;第53-57页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112270633A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Doleac | The effects of DNA databases on crime | |
Kuang et al. | Predicting duration of traffic accidents based on cost-sensitive Bayesian network and weighted K-nearest neighbor | |
Adamala | An overview of big data applications in water resources engineering | |
CN110705855A (zh) | 一种企业环境画像评价方法及系统 | |
CN111522955B (zh) | 诉讼案件分类方法、装置、计算机设备及存储介质 | |
Amalfitano et al. | Deconvolution model to resolve cytometric microbial community patterns in flowing waters | |
CN112381369B (zh) | 基于在线光谱识别的水体污染溯源和风险预测评估方法 | |
CN109767618B (zh) | 一种公安交管业务异常数据综合研判方法及系统 | |
CN112198144A (zh) | 一种快速污水溯源的方法及系统 | |
Gibbs et al. | Measuring corporate environmental crime rates: progress and problems | |
CN108509561B (zh) | 基于机器学习的岗位招聘数据筛选方法、系统及存储介质 | |
Lewis et al. | Population status of great crested newts (Triturus cristatus) at sites subjected to development mitigation | |
CN112270633B (zh) | 一种基于大数据驱动的公益诉讼线索研判系统和方法 | |
CN111310803B (zh) | 环境数据处理方法和装置 | |
Janstrup et al. | A clustering approach to integrate traffic safety in road maintenance prioritization | |
Cordell et al. | Disaggregating repression: Identifying physical integrity rights allegations in human rights reports | |
Simandl et al. | Making use of big data to evaluate the effectiveness of selective law enforcement in reducing crashes | |
Tao et al. | A traffic accident morphology diagnostic model based on a rough set decision tree | |
CN115296933B (zh) | 一种工业生产数据风险等级评估方法及系统 | |
Perera et al. | An environmental justice assessment of the mississippi river industrial corridor in Louisiana, US using a gis-based approach | |
ADERO et al. | A model for visual and intuitive crime investigation based on associative rule mining technique (VICIBARM): a case study of Kenya | |
Andarge | The effect of incomplete enforcement information on ambient pollution levels: Evidence from the Clean Water Act | |
CN113919762B (zh) | 一种基于漂浮物事件的调度方法及装置 | |
CN117349777B (zh) | 一种水环境在线监测数据真伪智能识别系统及方法 | |
Sodoge et al. | Automatized Drought Impact Detection Using Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |