CN112488886A

CN112488886A - 一种基于Python的诉讼信息提取系统、方法及设备

Info

Publication number: CN112488886A
Application number: CN202011300773.3A
Authority: CN
Inventors: 何丹
Original assignee: Wuhan Huacheng Intellectual Property Agency Service Co Ltd
Current assignee: Wuhan Huacheng Intellectual Property Agency Service Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-03-12

Abstract

本发明公开了一种基于Python的诉讼信息提取系统、方法及设备，涉及数据处理技术领域，本申请公开了基于Python的诉讼信息提取系统、方法及设备，通过Python脚本根据预设的提取策略，从包含诉讼信息的文本中提取关键词对应的关键词字段；若关键词字段中包含预设字符，判定关键词字段对应的结果字段；根据预设的处理策略，将单个关键词字段或结果字段作为诉讼信息字段存储在本地或云服务器，或对多个关键词字段结合处理，从而完成法律文书中诉讼信息的识别和提取，比传统的规则遍历法更有通用性，能够进行自动识别，并且提高信息识别的准确率。

Description

一种基于Python的诉讼信息提取系统、方法及设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于Python的诉讼信息提取系统、方法及设备。

背景技术

近年来，我国专利申请量快速攀升，2019年仅发明专利申请量便高达140.1万件，获授权发明专利45.3件。从法学上看，专利需要在诉讼中“易守难攻”；从经济学上看，专利应当具有高估值；从管理学上看，有价值的专利往往被引证量大、专利维持时间长、技术领域宽度适中。专利相关从业人员在评估专利价值时，往往按照上述三个层面进行。但在专利信息检索中，这三个学科层面的信息却无法联动。专利信息官方平台无需登录和注册就能查看和下载技术信息、时间信息、空间信息、权利信息、人员信息，但其无法提供表格下载和大数据分析服务；裁判文书官方平台能够查询专利诉讼相关的法律文书，但其中专利的具体信息往往被隐去。付费专利数据库能够提供更多的检索维度，集成了部分专利相关的诉讼数据，但作为专门的专利检索平台，其收集、存储的裁判文书数量较少，匹配也不够精准；付费的裁判文书数据库能够在案件信息中匹配专利号和专利类型，但均无法通过专利信息定位到案件。相关工作人员在检索专利信息时，往往需要跳转多个数据库才能获得自己想要的资料。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于Python的诉讼信息提取系统、方法及设备，能够进行自动识别，并且提高信息识别的准确率。

为达到以上目的，本发明采取的技术方案是：一种基于Python 的诉讼信息提取系统，包括：

数据接收单元，接收用户输入的包含诉讼信息的文本；

关键词提取单元，通过Python脚本根据预设的提取策略，从包含诉讼信息的文本中提取关键词对应的关键词字段；

逻辑判断单元，判断关键词字段中是否包含预设字符，若包含，判定关键词字段对应的结果字段；

信息处理单元，根据预设的处理策略，将单个关键词字段或结果字段作为诉讼信息字段存储，或对多个关键词字段结合处理，将处理结果作为诉讼信息字段存储；

存储单元，在本地或云服务器存储所述诉讼信息字段。

在上述技术方案的基础上，所述预设的提取策略包括：

判断用户输入的包含诉讼信息的文本是否包含预设的关键词，若包含，则提取关键词后面的字段作为关键词字段；

所述预设的关键词包括案件标题、专利公开(公告)号、审判长、案件地区、立案日、判决日、文书类型、诉讼审级、原告信息、被告信息、代理人、律师。

在上述技术方案的基础上，所述逻辑判断单元通过Python脚本判断关键词字段中是否包含预设字符，判定关键词字段对应的结果字段，具体包括以下步骤：

判断原告或被告关键词字段中是否有“法定代表人”字符，若否，则判定身份为个人；若是，判断原告或被告关键词字段中是否有“公司”字符，若是，则判定身份为公司，若否，则判定身份为学校或研究机构；

判断地址关键词字段中是否包含我国行政区划的关键词，若包含，根据预设的我国行政区划信息判定当事人所处的省份。

在上述技术方案的基础上，所述信息处理单元对多个关键词字段结合处理，将处理结果作为诉讼信息字段存储，具体包括以下步骤：

提取出关键词字段“判决日”和“立案日”；

根据审判周期＝判决日－立案日，计算出获得审判周期的天数。

在上述技术方案的基础上，所述存储单元以CSV表格的形式在本地或云服务器存储诉讼信息字段。

在上述技术方案的基础上，所述CSV表格包括专利诉讼信息表、专利信息数据表和专利无效和复审数据表中的一种或多种。

本发明还提供一种基于Python的诉讼信息提取方法，包括以下步骤：

接收用户输入的包含诉讼信息的文本；

通过Python脚本根据预设的提取策略，从包含诉讼信息的文本中提取关键词对应的关键词字段；

判断关键词字段中是否包含预设字符，若包含，判定关键词字段对应的结果字段；

根据预设的处理策略，将单个关键词字段或结果字段作为诉讼信息字段存储在本地或云服务器，或对多个关键词字段结合处理，将处理结果作为诉讼信息字段存储在本地或云服务器。

在上述技术方案的基础上，所述预设的提取策略包括：

在上述技术方案的基础上，所述通过Python脚本判断关键词字段中是否包含预设字符，判定关键词字段对应的结果字段，具体包括以下步骤：

本发明还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现所述的方法。

与现有技术相比，本发明的优点在于：

本申请公开了基于Python的诉讼信息提取系统、方法及设备，通过Python脚本根据预设的提取策略，从包含诉讼信息的文本中提取关键词对应的关键词字段；若关键词字段中包含预设字符，判定关键词字段对应的结果字段；根据预设的处理策略，将单个关键词字段或结果字段作为诉讼信息字段存储在本地或云服务器，或对多个关键词字段结合处理，从而完成法律文书中诉讼信息的识别和提取，比传统的规则遍历法更有通用性，能够进行自动识别，并且提高信息识别的准确率。

附图说明

图1为本发明实施例的基于Python的诉讼信息提取系统的结构示意图；

图2为本发明实施例的当事人身份的判断逻辑过程示意图；

图3为本发明实施例的当事人身份的判断的部分相关代码示意图；

图4为本发明实施例的行政区划的关键词通过查表获得的部分相关代码示意图；

图5为本发明实施例的基于Python的诉讼信息提取方法的流程示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细说明。

参见图1所示，本发明实施例提供一种基于Python的诉讼信息提取系统，包括：

数据接收单元，接收用户输入的包含诉讼信息的文本；

存储单元，在本地或云服务器存储所述诉讼信息字段。

通常从网上直接获取的裁判文书的格式是HTML，排列也很零乱，不符合数据管理的要求，需要对其进行提取并处理后再写入数据库。

作为优选的实施方式，所述预设的提取策略包括：

网页上某些关键词的字段撰写是相对规范的，只需简单处理即可以作为数据表格的诉讼信息字段存储，例如“IFP新能源公司与国家知识产权局专利复审委员会其他二审行政判决书”为“案件标题”关键词的字段值，涉案专利后的CN101283074A为“专利公开(公告)号”关键词的字段值，审判长、案件地区、立案日、判决日、文书类型、诉讼审级后的值也均可直接引用。

网页上某些关键词的字段需要经过简单处理后进行判定。例如，在原网页的下方，“(2019)京行终351号，北京市高级人民法院”载明了案号和法院，其中逗号“，”前是案号，逗号“，”后是法院。

案件当事人和“代理人/律师”关键词的字段加工则更为复杂。案件当事人即在“原告”和“被告”下显示的关键词字段(如果是专利无效的行政诉讼，第三人也属于案件当事人)，以“原告信息”关键词为例，需要从下面提取原告的名称，原告的身份，原告的城市，原告的省份，原告的代理人，以及原告的代理律所。

例如，在“原告”关键词下，“东莞欧森隆科技发展有限公司”表示原告的名称，“广东省东莞市塘厦镇科苑城田沙路6号龙迪产业园A栋一至六楼”表示原告的地址，“法定代表人：王华”表示法定代表人信息；在“代理人/律师”关键词下，“刘硕”和“陈晓晗”分别代表两位代理人，代理人后面跟的字符“律师，湖北百思特律师事务所”表示代理人的身份和单位。其中大部分的信息根据其相对位置和“，”都可辨认出。但还需要对当事人的身份做出进一步加工，获得原告的具体身份(个人、公司、学校和研究所三类)以及当事人所处的城市和省份。

作为优选的实施方式，所述逻辑判断单元判断关键词字段中是否包含预设字符，判定关键词字段对应的结果字段，具体包括以下步骤：

当事人身份的判断逻辑过程如图2所示，部分相关代码如图3所示。若“当事人”关键词字段中有“法定代表人”字符，名称中又有“公司”，可以判断出其身份为组织中的公司。

通过原告的地址是否含有我国行政区划的关键词，可以判断出当事人所处的省份。行政区划的关键词通过查表获得，如表1-表5示例。例如原告的地址包含关键字“武汉”，最终表格中输出的“原告省份”字段对应的值就是湖北。部分相关代码如图4所示。

表1行政区划参考列表

表2行政区划参考列表

表3行政区划参考列表

表4行政区划参考列表

表5行政区划参考列表

例如，原告地址为“广东省东莞市塘厦镇科苑城田沙路6号龙迪产业园A栋一至六楼”，含有关键字“广东”和“东莞”，可以判断出，原告是属于广东省东莞市的。

立案日期往往也需要进行分析处理，判决书全文中往往会以“本院于20**年*月*日受理”或“本院于20**年*月*日立案”来记载立案日，例如，本案的立案日期为2019年12月30日。

作为优选的实施方式，所述信息处理单元对多个关键词字段结合处理，将处理结果作为诉讼信息字段存储，具体包括以下步骤：

提取出关键词字段“判决日”和“立案日；”

经过上述加工处理后，信息最终以CSV表格的形式，储存在开发环境中，以供领域专家进行检视。

作为优选的实施方式，所述CSV表格包括专利诉讼信息表、专利信息数据表和专利无效和复审数据表中的一种或多种。获得的专利诉讼信息表如表6所示。

表6专利诉讼信息表

除专利诉讼信息表以外，还需要获得专利信息数据表(如表7所示，其中涉及专利具体内容的部分由于过于冗长我们进行了省略)和专利无效和复审数据表(如表8所示)，其获取的步骤与专利诉讼信息表类似，在此不再赘述。

表7专利信息数据表

表8专利无效和复审数据表

参见图5所示，本发明还提供一种基于Python的诉讼信息提取方法，包括以下步骤：

S1、接收用户输入的包含诉讼信息的文本；

S2、通过Python脚本根据预设的提取策略，从包含诉讼信息的文本中提取关键词对应的关键词字段；

S3、判断关键词字段中是否包含预设字符，若包含，判定关键词字段对应的结果字段；

S4、根据预设的处理策略，将单个关键词字段或结果字段作为诉讼信息字段存储在本地或云服务器，或对多个关键词字段结合处理，将处理结果作为诉讼信息字段存储在本地或云服务器。

作为优选的实施方式，所述预设的提取策略包括：

作为优选的实施方式，所述判断关键词字段中是否包含预设字符，判定关键词字段对应的结果字段，具体包括以下步骤：

本发明实施例通过Python脚本根据预设的提取策略，从包含诉讼信息的文本中提取关键词对应的关键词字段；若关键词字段中包含预设字符，判定关键词字段对应的结果字段；根据预设的处理策略，将单个关键词字段或结果字段作为诉讼信息字段存储在本地或云服务器，或对多个关键词字段结合处理，从而完成法律文书中诉讼信息的识别和提取，比传统的规则遍历法更有通用性，能够进行自动识别，并且提高信息识别的准确率。

基于同一发明构思，本申请实施例还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现基于Python的诉讼信息提取方法中的所有方法步骤或部分方法步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor， DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等) 等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于Python的诉讼信息提取系统，其特征在于，包括：

数据接收单元，接收用户输入的包含诉讼信息的文本；

存储单元，在本地或云服务器存储所述诉讼信息字段。

2.如权利要求1所述的系统，其特征在于，所述预设的提取策略包括：

3.如权利要求1所述的系统，其特征在于，所述逻辑判断单元通过Python脚本判断关键词字段中是否包含预设字符，判定关键词字段对应的结果字段，具体包括以下步骤：

4.如权利要求1所述的系统，其特征在于，所述信息处理单元对多个关键词字段结合处理，将处理结果作为诉讼信息字段存储，具体包括以下步骤：

提取出关键词字段“判决日”和“立案日”；

5.如权利要求1所述的系统，其特征在于，所述存储单元以CSV表格的形式在本地或云服务器存储诉讼信息字段。

6.如权利要求5所述的系统，其特征在于，所述CSV表格包括专利诉讼信息表、专利信息数据表和专利无效和复审数据表中的一种或多种。

7.一种基于Python的诉讼信息提取方法，其特征在于，包括以下步骤：

接收用户输入的包含诉讼信息的文本；

8.如权利要求7所述的方法，其特征在于，所述预设的提取策略包括：

9.如权利要求7所述的方法，其特征在于，所述判断关键词字段中是否包含预设字符，判定关键词字段对应的结果字段，具体包括以下步骤：

10.一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，其特征在于：处理器执行计算机程序时实现权利要求7至9任一项所述的方法。