CN111680125A - 诉讼案件分析方法、装置、计算机设备及存储介质 - Google Patents

诉讼案件分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111680125A
CN111680125A CN202010506051.7A CN202010506051A CN111680125A CN 111680125 A CN111680125 A CN 111680125A CN 202010506051 A CN202010506051 A CN 202010506051A CN 111680125 A CN111680125 A CN 111680125A
Authority
CN
China
Prior art keywords
case
litigation
information
data
cases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010506051.7A
Other languages
English (en)
Inventor
刘晓丽
张亦龙
芦惠娟
顾正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huayun Zhongsheng Technology Co ltd
Original Assignee
Shenzhen Huayun Zhongsheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huayun Zhongsheng Technology Co ltd filed Critical Shenzhen Huayun Zhongsheng Technology Co ltd
Priority to CN202010506051.7A priority Critical patent/CN111680125A/zh
Publication of CN111680125A publication Critical patent/CN111680125A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及诉讼案件分析方法、装置、计算机设备及存储介质,该方法包括根据不同的数据来源获取历史诉讼案件相关信息;对历史诉讼案件相关信息进行汇集,以得到汇聚库;对汇聚库内进行标注,以形成类案数据库;获取待分析诉讼案件;对待分析诉讼案件进行关键要素的分析,以得到案件要素;将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息;反馈相关案件信息至终端,以在终端进行显示。本发明实现减轻检察官负担,降低判案出错率,且提高整个案件处理效率。

Description

诉讼案件分析方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理方法,更具体地说是指诉讼案件分析方法、装置、计算机设备及存储介质。
背景技术
随着社会经济的发展与法治体系的日趋完善,人民群众的司法需求日益增长,法院立案的案件越来越多,检察官审理案件量逐渐提高,由于诉讼案件的特殊性,检察官判案难度大,面临工作量超负荷的问题,工作量过大可能导致检察官判案出错率提升。
现在诉讼案件还包括公益诉讼案件,公益诉讼是新增案件领域,容易因缺乏办案经验,并且公益诉讼案件涉及范围广,渗透到各行各业,案件处理过程中的专业性强,导致出错率高,处理效率低。
因此,有必要设计一种新的方法,实现减轻检察官负担,降低判案出错率,且提高整个案件处理效率。
发明内容
本发明的目的在于克服现有技术的缺陷,提供诉讼案件分析方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:诉讼案件分析方法,包括:
根据不同的数据来源获取历史诉讼案件相关信息;
对历史诉讼案件相关信息进行汇集,以得到汇聚库;
对汇聚库内进行标注,以形成类案数据库;
获取待分析诉讼案件;
对所述待分析诉讼案件进行关键要素的分析,以得到案件要素;
将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息;
反馈相关案件信息至终端,以在终端进行显示。
其进一步技术方案为:所述数据来源包括检察院统一业务应用系统以及民事行政公益诉讼相关的咨询平台。
其进一步技术方案为:所述对历史诉讼案件相关信息进行汇集,以得到汇聚库,包括:
对所述历史诉讼案件相关信息划分为结构化数据和非结构化数据;
对所述非结构化数据采用流式上报以及消息队列的方式进行汇聚;
将汇集后的非结构化数据进行结构化转换,以得到转换文件;
对所述结构化数据通过定时抽取的方式进行汇聚,并与转换文件进行整合,以得到汇聚库。
其进一步技术方案为:所述将汇集后的非结构化数据进行结构化转换,以得到转换文件,包括:
对所述非结构化数据按照罪名和业务类型进行标签标注,以得到标注后的文书;
对标注后的文书进行运用AI算法以及建模方式进行解析,并采用AI机器学习的方法对解析后的文书进行二次解析,以得到转换文件。
其进一步技术方案为:所述对汇聚库内进行标注,以形成类案数据库,包括:
对汇聚库内的内容进行类别标签的标注,以形成类案数据库。
其进一步技术方案为:所述相关案件信息包括案件文书、法律法规以及咨询结果。
本发明还提供了诉讼案件分析装置,包括:
信息获取单元,用于根据不同的数据来源获取历史诉讼案件相关信息;
汇集单元,用于对历史诉讼案件相关信息进行汇集,以得到汇聚库;
标注单元,用于对汇聚库内进行标注,以形成类案数据库;
案件获取单元,用于获取待分析诉讼案件;
要素分析单元,用于对所述待分析诉讼案件进行关键要素的分析,以得到案件要素;
搜索单元,用于将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息;
反馈单元,用于反馈相关案件信息至终端,以在终端进行显示。
其进一步技术方案为:所述汇集单元包括:
划分子单元,用于对所述历史诉讼案件相关信息划分为结构化数据和非结构化数据;
第一汇聚子单元,用于对所述非结构化数据采用流式上报以及消息队列的方式进行汇聚;
转换子单元,用于将汇集后的非结构化数据进行结构化转换,以得到转换文件;
第二汇聚子单元,用于对所述结构化数据通过定时抽取的方式进行汇聚,并与转换文件进行整合,以得到汇聚库。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过从不同数据来源获取对应的历史诉讼案件,将历史诉讼案件进行汇集后,在进行类别的标注,形成类案数据库,当有需要进行待分析诉讼案件时,先提取关键要素,在利用关键要素在类案数据库内进行搜索,筛选出对应的类案推送至终端,供终端持有者查阅,终端持有者可以参照类案进行案件的处理,实现减轻检察官负担,降低判案出错率,且提高整个案件处理效率。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的诉讼案件分析方法的应用场景示意图;
图2为本发明实施例提供的诉讼案件分析方法的流程示意图;
图3为本发明实施例提供的诉讼案件分析方法的子流程示意图;
图4为本发明实施例提供的诉讼案件分析方法的子流程示意图;
图5为本发明实施例提供的诉讼案件分析装置的示意性框图;
图6为本发明实施例提供的诉讼案件分析装置的汇集单元的示意性框图;
图7为本发明实施例提供的诉讼案件分析装置的转换子单元的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的诉讼案件分析方法的应用场景示意图。图2为本发明实施例提供的诉讼案件分析方法的示意性流程图。该诉讼案件分析方法可以运用于服务器,该服务器与终端进行数据交互,从终端获取到待分析诉讼案件,再结合服务器对历史诉讼案件的分析后形成数据库进行对比和搜索,由此获取与待分析诉讼案件类似的历史诉讼案件相关信息,反馈至终端,供终端持有者即检察官等查看,作为判案过程中的参考内容。
图2是本发明实施例提供的诉讼案件分析方法的流程示意图。如图2所示,该方法包括以下步骤S110至S170。
S110、根据不同的数据来源获取历史诉讼案件相关信息。
在本实施例中,所述数据来源包括检察院统一业务应用系统以及民事行政公益诉讼相关的咨询平台。
历史诉讼案件相关信息包括法院办案卷宗数据即文书信息、检察院统一业务应用系统数据即案件信息、民事行政公益诉讼相关的咨询平台数据即咨询信息。历史诉讼案件相关信息都有不同的数据类型,包括结构化数据、卷宗非结构化数据。对于不同数据的来源渠道,可判断出其数据结构,比如对于一些图片、音视频等不能直接入库的归类为非结构化数据;对于检察院统一业务应用系统均为结构化数据;外部数据是通过爬虫获取生成的html文件,可归类为结构化数据。
具体地,历史诉讼案件相关信息包括案卡数据信息、审查逮捕意见书、不捕里有说明书、公诉意见书等115种文书类型、判决书、裁定书、调解书、决定数、通知书等非结构化数据、公开的舆论、新闻、裁判文书公开网、行政处罚网站等数据资源。
S120、对历史诉讼案件相关信息进行汇集,以得到汇聚库。
在本实施例中,汇聚库是指汇聚来自不同数据源的历史诉讼案件相关信息所形成的数据库。
根据数据的来源不同分为了内部和外部数据,数据的类型、结构、价值不同而得出的信息也是不同的,外部数据能够从互联网上获取,其特点是量大而全,是对知识库的丰富,外部数据主要通过接口传输、网站定时爬取、数据导入等方式获取。内部数据又分为结构化数据和非结构化数据,对于结构化数据以及非结构化数据的汇集方式并不同,并且需要将非结构化数据转换为结构化数据统一进行汇集。
在一实施例中,请参阅图3,上述的步骤S120可包括步骤S121~S124。
S121、对所述历史诉讼案件相关信息划分为结构化数据和非结构化数据。
在本实施例中,可以按照数据源的不同来划分成结构化数据和非结构化数据。
S122、对所述非结构化数据采用流式上报以及消息队列的方式进行汇聚。
在本实施例中,非结构化数据主要是通过流式上报、消息队列的方式获取到文书卷宗信息,可达到异步、解耦、削峰的效果。
S123、将汇集后的非结构化数据进行结构化转换,以得到转换文件。
在本实施例中,转换文件是指非结构化数据转换为结构化数据后形成的json文件。
在一实施例中,请参阅图4,上述的步骤S123可包括步骤S1231~S1232。
S1231、对所述非结构化数据按照罪名和业务类型进行标签标注,以得到标注后的文书;
S1232、对标注后的文书进行运用AI算法以及建模方式进行解析,并采用AI机器学习的方法对解析后的文书进行二次解析,以得到转换文件。
在获取到文书卷宗等非结构化数据后,通过罪名和业务类型,对文书进行标签定义,标签定义的标准参考刑法、民事诉讼法等法律法规以及司法解释,针对打好的标签,在实际文书中进行标注,标注完成的文书运用AI(人工智能,Artificial Intelligence)算法以及建模的方式进行解析文书,在解析完同类文书后,再运用AI机器学习的方法,进行对所有文书进行解析,已解析完的文书会形成对应的json文件,json文件在导入到数据库中进行入库,到此,非结构化数据已然转化为结构化数据。
S124、对所述结构化数据通过定时抽取的方式进行汇聚,并与转换文件进行整合,以得到汇聚库。
对于结构化数据通过定时抽取的方式汇聚到ODS(操作数据存储,OperationalData Store)汇聚库中,通过创建定时任务将数据以增量的方式抽取到汇聚库中,定时任务频率采取T+1的方式,非实时的获取数据;汇聚库为最原始的数据库,数据抽取过来不做任何修改和加工,保持数据的最原始状态;其作用是为建设下一层打好基础。
S130、对汇聚库内进行标注,以形成类案数据库。
在本实施例中,类案数据库是指对汇聚库内的数据按照案件类别进行标注,以形成同一类别或者相近似类别采用同一标注的数据库。
具体地,对汇聚库内的内容进行类别标签的标注,以形成类案数据库。
以人工智能为依托的类案识别技术标准要始终坚持以满足用户体验为导向,结合大数据的基本特征、自然语言处理的先进技术、计算机深度学习的主要特点以及类案识别的规范标准,设置真正意义上的类案数据库。类案识别技术要保证司法案例数据库有足够多的案例、文书在数据库的储存格式多样化、文书能够在一定的时间限制下得到及时处理和识别。在司法大数据基础上,应用系统性攻关案件要素提取、案情画像构建、案情语义匹配、个性化类案推送等关键技术,构建高效可靠的类案自动推送系统。
确定了数据来源,即法院办案卷宗数据即文书信息、检察院统一业务应用系统数据即案件信息、民事行政公益诉讼相关咨询平台数据即咨询信息,随后通过数据加工,对已经采集到的信息进行内部数据与外部数据的解析,将数据整理为统一的格式,汇聚到结构化数据的库里存储,同时对这些数据打上了类别的标签,每一类相似的数据归属到一起,例如专家的解答可能形形色色,不成体系,对这些知识分门别类管理之后就能够形成知识链条,形成一个业务解答的知识体系。对于每个检察官的需求不同,可以自己选择所需要的知识点用上述方法收藏形成自己的知识体系和知识服务。同样,相似案例的判决情况也可以划分为类别将这些案例像人的大脑,智慧推送出这一类,实现了类案的推送,或通过这些类的标签去主动检索,形成两个类的比对,根据比对的结果,用柱状图饼图的方式可视化展现出来。
S140、获取待分析诉讼案件。
在本实施例中,待分析诉讼案件是指由终端输入的需要查询相近似类别的案件的相关资料的案件。
S150、对所述待分析诉讼案件进行关键要素的分析,以得到案件要素。
在本实施例中,案件要素是指待分析诉讼案件的关键词,比如所涉及的领域等。
在本实施例中,可以采用自然语言处理技术进行待分析诉讼案件的文本内容分析,以得到案件要素。
S160、将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息。
在本实施例中,所述相关案件信息包括案件文书、法律法规以及咨询结果。
公益诉讼案件具有明显的时间性和空间性特征,根据不同地区每个案件类型、以及当地法律法规的差异性,检察官可以自行收录所需内容,丰富辅助办案知识体系,建立个性化知识服务。个性化知识的内容可供随时星标、增删和查阅,对案件调查、审查提供个性参考,使不同地区检察官在办案过程中感受鲜明,形成独有的办案记忆。
以司法文书解析为底层能力,在采集到的某个历史诉讼案件的文书后,在第一时间进行要素式分解,细化成结构化数据并且进行分门别类最终形成多个解析主题满足业务分析需求,在解析的颗粒度设置要求,增强机器学习的能力,确保类案精准推送。支持热度推送以及办案习惯推送,也支持类案检索,若对已办案件的咨询结果有异议,或未解决本问题,可以主动发布问题寻求专家解答。
利用待分析诉讼案件的要素在类案数据库内进行搜索,得到同类别的历史诉讼案件相关信息,可对终端持有者起到提示的功能,实现类似案件、相似场景的类案推送,指导承办人对线索中可能涉及的鉴定事项、评估问题给出专业的答案,并能够提供相关专家、组织机构的联络方式。
优先对已提取的本案关键要素进行分析与展示,并将类案情况的相关要素进行分析与展示,二者形成关联比对,并且可以直观地从类案的情况中发现类案中某些要素地占比和数量,从而以数据量多少支持检察官参考的维度,也有助于办案人员从图形化比对分析中发现与本案情况最为贴近的案件,缩小类案范围,集中观察不同案件法律法规使用频次,为办案难提供最有效的解决办法。
利用历史诉讼案件作为参考,实现减轻检察官负担,降低判案出错率,且提高整个案件处理效率。
S170、反馈相关案件信息至终端,以在终端进行显示。
依托历史诉讼案例建立数据库,在此基础上对相关案例进行贴标签,将每个具体的司法案例结构化为四五十项标签。例如在刑事案件中,量刑情况属于“自首”,那么标注够足量的训练数据文本后,根据机器深度学习和语义分析,最终在海量数据中能够自动抓取文书中出现的“自首”“主动供述”、“主动投案”类似情节表述通过NER(命名实体识别,NameEntity Recognition)自然语言处理自动识别并存储。将电子化的文书接入系统,将自动生成这一类文书如判决书、起诉书等的整套标签,再将这些标签与系统类案标签进行比对,最终推送出类似或相近的案例。
当检察官对推送的相关案例不满意时,可以从标签体系中筛选自己所需要的条件,或在输入框自行完成搜索,服务器相应导出查找结果,最终实现案件相关知识或类案的精准推送服务。不同地区办案的检察官根据自己案件领域的不同需求,将数据库中存储的已经分解的各项标签形成个性化,并且进行知识的收录,例如在长江流域、黄河流域等可以根据检察官的管辖范围自行收藏。以解决检察官拿过一个案件不知如何去办理的问题,提供了专业参考,也促进同案同判专业司法的形成。可以启发、拓展检察官的办案思路,避免司法裁判不公,也避免检察官需要搬运厚重的书籍和卷宗,以及凭借自己以往的记忆去办理,很容易造成失误或者同案不同判,在知识管理方面难以形成体系。
于其他实施例,还可以汇总检察机关民事行政公益案件专家咨询网的历史性问题与答案,按照业务规则进行储存管理,对问题进行筛查,提升类案问题参考的有效性。将问题与答案通过知识图谱实现关联,对于同类问题多种维度的解答形成人工智能大脑思路,丰富问题体系,建立业务专家解答知识体系,拓宽检察官审查案件的思维模式。
根据案情分析结果、相关证据、事实、总结性描述、相关法律法规以及文书组装逻辑规则,根据公益诉讼案件要素,智能推送法律法规、相似案例、涉案罪名等信息,多维度辅助办案人员办理公益诉讼案件。在智能辅助决策方面结合外部数据,借助可视化分析等技术,进行总体态势分析、专题分析、多维分析,构建公益诉讼信息全景视图,全方位、多维度呈现公益诉讼业务的工作状态和变化趋势,全面推动公益诉讼工作向纵深发展。形成知识资源管理,针对公益诉讼领域,建设涵盖执法主体、权利清单、裁量标准、行业专家、鉴定机构等信息,并提供统一的数据检索入口,支持多维度、高精度的智能检索,为检察官案件办理和理论研究提供有效参考。能够快速推送类案、相关知识,判断案件类型,以及是否有同案已判的线索提供办案指引,缩短检察官办案过程中疑难查询,减少不必要的时间损失,加强办案效率。由于公益诉讼案件具有明显的时间和空间特性,检察官需要对人、物、时间、地点进行把控分析,个性化知识服务能够提供更广阔的办案思路,从数据中获取各方面的细节材料,对证据的有效性进行判别,从不同程度上提高办案人员的办案质量,增强办案质量。
本方法诉讼案件提供知识分类和智能辅助办案的方式,通过人机结合有效提升办案质效和法律监督能力,全面推进公益诉讼工作向纵深发展,补充办案人员知识积累的不足。
上述的诉讼案件分析方法,通过从不同数据来源获取对应的历史诉讼案件,将历史诉讼案件进行汇集后,在进行类别的标注,形成类案数据库,当有需要进行待分析诉讼案件时,先提取关键要素,在利用关键要素在类案数据库内进行搜索,筛选出对应的类案推送至终端,供终端持有者查阅,终端持有者可以参照类案进行案件的处理,实现减轻检察官负担,降低判案出错率,且提高整个案件处理效率。
图5是本发明实施例提供的一种诉讼案件分析装置300的示意性框图。如图5所示,对应于以上诉讼案件分析方法,本发明还提供一种诉讼案件分析装置300。该诉讼案件分析装置300包括用于执行上述诉讼案件分析方法的单元,该装置可以被配置于服务器中。具体地,请参阅图5,该诉讼案件分析装置300包括信息获取单元301、汇集单元302、标注单元303、案件获取单元304、要素分析单元305、搜索单元306以及反馈单元307。
信息获取单元301,用于根据不同的数据来源获取历史诉讼案件相关信息;汇集单元302,用于对历史诉讼案件相关信息进行汇集,以得到汇聚库;标注单元303,用于对汇聚库内进行标注,以形成类案数据库;案件获取单元304,用于获取待分析诉讼案件;要素分析单元305,用于对所述待分析诉讼案件进行关键要素的分析,以得到案件要素;搜索单元306,用于将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息;反馈单元307,用于反馈相关案件信息至终端,以在终端进行显示。
在一实施例中,如图6所示,所述汇集单元302包括划分子单元3021、第一汇聚子单元3022、转换子单元3023以及第二汇聚子单元3024。
划分子单元3021,用于对所述历史诉讼案件相关信息划分为结构化数据和非结构化数据;第一汇聚子单元3022,用于对所述非结构化数据采用流式上报以及消息队列的方式进行汇聚;转换子单元3023,用于将汇集后的非结构化数据进行结构化转换,以得到转换文件;第二汇聚子单元3024,用于对所述结构化数据通过定时抽取的方式进行汇聚,并与转换文件进行整合,以得到汇聚库。
在一实施例中,如图7所示,所述转换子单元3023包括文书标注子单元30231以及解析子单元30232。
文书标注子单元30231,用于对所述非结构化数据按照罪名和业务类型进行标签标注,以得到标注后的文书;解析子单元30232,用于对标注后的文书进行运用AI算法以及建模方式进行解析,并采用AI机器学习的方法对解析后的文书进行二次解析,以得到转换文件。
在一实施例中,所述标注单元303,用于对汇聚库内的内容进行类别标签的标注,以形成类案数据库。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述诉讼案件分析装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述诉讼案件分析装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种诉讼案件分析方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种诉讼案件分析方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
根据不同的数据来源获取历史诉讼案件相关信息;对历史诉讼案件相关信息进行汇集,以得到汇聚库;对汇聚库内进行标注,以形成类案数据库;获取待分析诉讼案件;对所述待分析诉讼案件进行关键要素的分析,以得到案件要素;将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息;反馈相关案件信息至终端,以在终端进行显示。
其中,所述数据来源包括检察院统一业务应用系统以及民事行政公益诉讼相关的咨询平台。
所述相关案件信息包括案件文书、法律法规以及咨询结果。
在一实施例中,处理器502在实现所述对历史诉讼案件相关信息进行汇集,以得到汇聚库步骤时,具体实现如下步骤:
对所述历史诉讼案件相关信息划分为结构化数据和非结构化数据;对所述非结构化数据采用流式上报以及消息队列的方式进行汇聚;将汇集后的非结构化数据进行结构化转换,以得到转换文件;对所述结构化数据通过定时抽取的方式进行汇聚,并与转换文件进行整合,以得到汇聚库。
在一实施例中,处理器502在实现所述将汇集后的非结构化数据进行结构化转换,以得到转换文件步骤时,具体实现如下步骤:
对所述非结构化数据按照罪名和业务类型进行标签标注,以得到标注后的文书;对标注后的文书进行运用AI算法以及建模方式进行解析,并采用AI机器学习的方法对解析后的文书进行二次解析,以得到转换文件。
在一实施例中,处理器502在实现所述对汇聚库内进行标注,以形成类案数据库步骤时,具体实现如下步骤:
对汇聚库内的内容进行类别标签的标注,以形成类案数据库。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
根据不同的数据来源获取历史诉讼案件相关信息;对历史诉讼案件相关信息进行汇集,以得到汇聚库;对汇聚库内进行标注,以形成类案数据库;获取待分析诉讼案件;对所述待分析诉讼案件进行关键要素的分析,以得到案件要素;将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息;反馈相关案件信息至终端,以在终端进行显示。
其中,所述数据来源包括检察院统一业务应用系统以及民事行政公益诉讼相关的咨询平台。
所述相关案件信息包括案件文书、法律法规以及咨询结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对历史诉讼案件相关信息进行汇集,以得到汇聚库步骤时,具体实现如下步骤:
对所述历史诉讼案件相关信息划分为结构化数据和非结构化数据;对所述非结构化数据采用流式上报以及消息队列的方式进行汇聚;将汇集后的非结构化数据进行结构化转换,以得到转换文件;对所述结构化数据通过定时抽取的方式进行汇聚,并与转换文件进行整合,以得到汇聚库。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将汇集后的非结构化数据进行结构化转换,以得到转换文件步骤时,具体实现如下步骤:
对所述非结构化数据按照罪名和业务类型进行标签标注,以得到标注后的文书;对标注后的文书进行运用AI算法以及建模方式进行解析,并采用AI机器学习的方法对解析后的文书进行二次解析,以得到转换文件。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对汇聚库内进行标注,以形成类案数据库步骤时,具体实现如下步骤:
对汇聚库内的内容进行类别标签的标注,以形成类案数据库。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.诉讼案件分析方法,其特征在于,包括:
根据不同的数据来源获取历史诉讼案件相关信息;
对历史诉讼案件相关信息进行汇集,以得到汇聚库;
对汇聚库内进行标注,以形成类案数据库;
获取待分析诉讼案件;
对所述待分析诉讼案件进行关键要素的分析,以得到案件要素;
将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息;
反馈相关案件信息至终端,以在终端进行显示。
2.根据权利要求1所述的诉讼案件分析方法,其特征在于,所述数据来源包括检察院统一业务应用系统以及民事行政公益诉讼相关的咨询平台。
3.根据权利要求1所述的诉讼案件分析方法,其特征在于,所述对历史诉讼案件相关信息进行汇集,以得到汇聚库,包括:
对所述历史诉讼案件相关信息划分为结构化数据和非结构化数据;
对所述非结构化数据采用流式上报以及消息队列的方式进行汇聚;
将汇集后的非结构化数据进行结构化转换,以得到转换文件;
对所述结构化数据通过定时抽取的方式进行汇聚,并与转换文件进行整合,以得到汇聚库。
4.根据权利要求3所述的诉讼案件分析方法,其特征在于,所述将汇集后的非结构化数据进行结构化转换,以得到转换文件,包括:
对所述非结构化数据按照罪名和业务类型进行标签标注,以得到标注后的文书;
对标注后的文书进行运用AI算法以及建模方式进行解析,并采用AI机器学习的方法对解析后的文书进行二次解析,以得到转换文件。
5.根据权利要求4所述的诉讼案件分析方法,其特征在于,所述对汇聚库内进行标注,以形成类案数据库,包括:
对汇聚库内的内容进行类别标签的标注,以形成类案数据库。
6.根据权利要求5所述的诉讼案件分析方法,其特征在于,所述相关案件信息包括案件文书、法律法规以及咨询结果。
7.诉讼案件分析装置,其特征在于,包括:
信息获取单元,用于根据不同的数据来源获取历史诉讼案件相关信息;
汇集单元,用于对历史诉讼案件相关信息进行汇集,以得到汇聚库;
标注单元,用于对汇聚库内进行标注,以形成类案数据库;
案件获取单元,用于获取待分析诉讼案件;
要素分析单元,用于对所述待分析诉讼案件进行关键要素的分析,以得到案件要素;
搜索单元,用于将案件要素作为搜索条件在类案数据库内进行搜索,以得到相关案件信息;
反馈单元,用于反馈相关案件信息至终端,以在终端进行显示。
8.根据权利要求7所述的诉讼案件分析装置,其特征在于,所述汇集单元包括:
划分子单元,用于对所述历史诉讼案件相关信息划分为结构化数据和非结构化数据;
第一汇聚子单元,用于对所述非结构化数据采用流式上报以及消息队列的方式进行汇聚;
转换子单元,用于将汇集后的非结构化数据进行结构化转换,以得到转换文件;
第二汇聚子单元,用于对所述结构化数据通过定时抽取的方式进行汇聚,并与转换文件进行整合,以得到汇聚库。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至6中任一项所述的方法。
CN202010506051.7A 2020-06-05 2020-06-05 诉讼案件分析方法、装置、计算机设备及存储介质 Pending CN111680125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010506051.7A CN111680125A (zh) 2020-06-05 2020-06-05 诉讼案件分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010506051.7A CN111680125A (zh) 2020-06-05 2020-06-05 诉讼案件分析方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111680125A true CN111680125A (zh) 2020-09-18

Family

ID=72435039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010506051.7A Pending CN111680125A (zh) 2020-06-05 2020-06-05 诉讼案件分析方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111680125A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112540753A (zh) * 2020-12-23 2021-03-23 航天科工智慧产业发展有限公司 一种案件特征解析方法
CN113034318A (zh) * 2021-05-06 2021-06-25 湖北经济学院 流域资源环境案件数据采集系统及设备
CN113220850A (zh) * 2021-04-26 2021-08-06 中国电子科技集团公司第十五研究所 一种面向庭审阅卷的案件画像挖掘方法
CN115374190A (zh) * 2022-10-25 2022-11-22 支付宝(杭州)信息技术有限公司 一种类案检索的方法、装置、存储介质及电子设备
CN117891851A (zh) * 2024-03-18 2024-04-16 青岛创新奇智科技集团股份有限公司 一种基于人工智能的知识库分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011481A1 (en) * 2014-02-04 2017-01-12 Ubic, Inc. Document analysis system, document analysis method, and document analysis program
CN110647631A (zh) * 2018-06-25 2020-01-03 阿里巴巴集团控股有限公司 案例推荐的方法及装置、存储介质、处理器
CN110727787A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 案件文本匹配方法、装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011481A1 (en) * 2014-02-04 2017-01-12 Ubic, Inc. Document analysis system, document analysis method, and document analysis program
CN110647631A (zh) * 2018-06-25 2020-01-03 阿里巴巴集团控股有限公司 案例推荐的方法及装置、存储介质、处理器
CN110727787A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 案件文本匹配方法、装置、电子设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112540753A (zh) * 2020-12-23 2021-03-23 航天科工智慧产业发展有限公司 一种案件特征解析方法
CN113220850A (zh) * 2021-04-26 2021-08-06 中国电子科技集团公司第十五研究所 一种面向庭审阅卷的案件画像挖掘方法
CN113034318A (zh) * 2021-05-06 2021-06-25 湖北经济学院 流域资源环境案件数据采集系统及设备
CN115374190A (zh) * 2022-10-25 2022-11-22 支付宝(杭州)信息技术有限公司 一种类案检索的方法、装置、存储介质及电子设备
CN117891851A (zh) * 2024-03-18 2024-04-16 青岛创新奇智科技集团股份有限公司 一种基于人工智能的知识库分析方法及系统

Similar Documents

Publication Publication Date Title
CN111680125A (zh) 诉讼案件分析方法、装置、计算机设备及存储介质
US8620849B2 (en) Systems and methods for facilitating open source intelligence gathering
Burnap et al. COSMOS: Towards an integrated and scalable service for analysing social media on demand
US8650198B2 (en) Systems and methods for facilitating the gathering of open source intelligence
WO2016045153A1 (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
CN109815382B (zh) 大规模网络数据的感知与获取方法和系统
CN107977678B (zh) 用于输出信息的方法和装置
Bertone et al. A survey on visual analytics for the spatio-temporal exploration of microblogging content
Miao et al. Cost-effective online trending topic detection and popularity prediction in microblogging
Verbeke et al. Critical news reading with Twitter? Exploring data-mining practices and their impact on societal discourse
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
Fathalla et al. EVENTSKG: a knowledge graph representation for top-prestigious computer science events metadata
JP2022003486A (ja) 侵害情報抽出システム、方法及びプログラム
Anderson et al. Architectural Implications of Social Media Analytics in Support of Crisis Informatics Research.
Karaboğa et al. The rise of big data in communication sciences: a bibliometric mapping of the literature
Schneider et al. Dimensions of argumentation in social media
Wamba et al. A bibliometric analysis and research agenda on smart cities
CN111680953A (zh) 食品药品流向分析方法、装置、计算机设备及存储介质
Soto et al. Data quality challenges in twitter content analysis for informing policy making in health care
CN116777692A (zh) 基于数据分析的在线学习方法、装置、设备及存储介质
Plummer et al. Analysing the Sentiment Expressed by Political Audiences on Twitter: The case of the 2017 UK general election
Rauch et al. Knowminer search-a multi-visualisation collaborative approach to search result analysis
Foote et al. A computational analysis of social media scholarship
CN116089490A (zh) 数据分析方法、装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination