CN111798344A - 主体名称确定方法和装置、电子设备和存储介质 - Google Patents
主体名称确定方法和装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111798344A CN111798344A CN202010618283.1A CN202010618283A CN111798344A CN 111798344 A CN111798344 A CN 111798344A CN 202010618283 A CN202010618283 A CN 202010618283A CN 111798344 A CN111798344 A CN 111798344A
- Authority
- CN
- China
- Prior art keywords
- header
- name
- identity
- sentence
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例公开了一种主体名称确定方法和装置、电子设备和存储介质,其中,方法包括:获取法律文本信息;基于预设的首部关键词对法律文本信息进行分割,获取至少一个首部语句;基于预设的身份关键词和预设的脏词确定至少一个首部语句中各当事人对应的主体名称。由此,本公开实施例利用预设的身份关键词和脏词的方式解决了现有技术中将当事人对应的人名误判为公司名称等问题,提高了识别法律文本信息中各当事人对应的主体名称的准确率,此外,本公开实施例还基于预设的首部关键词,删除法律文本信息中大量与当事人对应的主体名称无关的案情等冗余信息,提升了系统的识别速率。
Description
技术领域
本公开涉及计算机技术,尤其是一种主体名称确定方法和装置、电子设备和存储介质。
背景技术
法律文书中的原被告信息经常被应用于司法风险模块以展示法律诉讼案件中当事人的身份。在实现本公开的过程中,发明人发现:现有技术只能解析公司名称,当原被告信息为人名时,容易发生误判,经常将主体(人物)的简介说明中的公司当做主体(公司)。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种主体名称确定方法和装置、电子设备和存储介质。
根据本公开实施例的一个方面,提供了一种主体名称确定方法,包括:
获取法律文本信息;
基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句;
基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称。
可选地,在本公开上述各方法实施例中,所述获取法律文本信息与所述基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句之间,包括:响应于所述法律文本信息的格式无法识别,根据预设的法律文本格式,对所述法律文本信息的格式进行校正。
可选地,在本公开上述各方法实施例中,所述基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句,包括:
基于预设的首部关键词对所述法律文本信息进行分割,获得所述法律文本信息中的首部信息;
基于预设的标点规则对所述法律文本信息中的首部信息进行分割,获得所述至少一个首部语句。
可选地,在本公开上述各方法实施例中,所述获取至少一个首部语句与所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称之间,包括:响应于所述首部语句中不存在所述身份关键词,基于预设的行为关键词,补充所述首部语句中各当事人的身份信息。
可选地,在本公开上述各方法实施例中,所述获取至少一个首部语句与所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称之间,包括:响应于当前的首部语句中仅有所述身份关键词,将所述检测到的当事人文本语句与相邻的下一个首部语句合并,使所述当前的首部语句至少包括一个当事人对应的主体名称。
可选地,在本公开上述各方法实施例中,所述获取至少一个首部语句与所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称之间,包括:删除所述首部语句中存在所述身份关键词的夹注信息。
可选地,在本公开上述各方法实施例中,所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称,包括:响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称。
可选地,在本公开上述各方法实施例中,所述响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称,包括:
响应于所述当前首部语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的非人名主体名称。
可选地,在本公开上述各方法实施例中,所述响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称,包括:
响应于所述当前首部语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的人名主体名称;
响应于所述当前首部语句中不存在所述预设的非人名属性关键词也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的人名主体名称。
可选地,在本公开上述各方法实施例中,所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称,包括:
响应于当前首部语句中存在多个所述身份关键词,基于所述行为关键词对所述当前首部语句进行分割,获得多个首部子语句;其中,一个首部子语句包括一个身份关键词;
基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称。
可选地,在本公开上述各方法实施例中,所述基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称,包括:
响应于所述首部子语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的非人名主体名称。
可选地,在本公开上述各方法实施例中,所述基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称,包括:
响应于所述首部子语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的人名主体名称;
响应于所述首部子语句中不存在预设的非人名属性关键词也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的人名主体名称。
根据本公开实施例的另一个方面,提供了一种主体名称确定装置,包括:
第一获取模块,用于获取法律文本信息;
第二获取模块,用于基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句;
确定模块,用于基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称。
可选地,在本公开上述各装置实施例中,所述第一获取模块与所述第二获取模块之间,包括:校正模块,用于响应于所述法律文本信息的格式无法识别,根据预设的法律文本格式,对所述法律文本信息的格式进行校正。
可选地,在本公开上述各装置实施例中,所述第二获取模块,包括:
第一获得单元,用于基于预设的首部关键词对所述法律文本信息进行分割,获得所述法律文本信息中的首部信息;
第二获得单元,用于基于预设的标点规则对所述法律文本信息中的首部信息进行分割,获得所述至少一个首部语句。
可选地,在本公开上述各装置实施例中,所述第二获取模块与所述确定模块之间,包括:补充模块,用于响应于所述首部语句中不存在所述身份关键词,基于预设的行为关键词,补充所述首部语句中各当事人的身份信息。
可选地,在本公开上述各装置实施例中,所述第二获取模块与所述确定模块之间,包括:合并模块,用于响应于当前的首部语句中仅有所述身份关键词,将所述检测到的当事人文本语句与相邻的下一个首部语句合并,使所述当前的首部语句至少包括一个当事人对应的主体名称。
可选地,在本公开上述各装置实施例中,所述第二获取模块与所述确定模块之间,包括:删除模块,用于删除所述首部语句中存在所述身份关键词的夹注信息。
可选地,在本公开上述各装置实施例中,所述确定模块,包括:第一确定单元,用于响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称。
可选地,在本公开上述各装置实施例中,所述第一确定单元具体用于:
响应于所述当前首部语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的非人名主体名称。
可选地,在本公开上述各装置实施例中,所述第一确定单元具体用于:
响应于所述当前首部语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的人名主体名称;
响应于所述当前首部语句中不存在所述预设的非人名属性关键词也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的人名主体名称。
可选地,在本公开上述各装置实施例中,所述确定模块,包括:
第三获得单元,用于响应于当前首部语句中存在多个所述身份关键词,基于所述行为关键词对所述当前首部语句进行分割,获得多个首部子语句;其中,一个首部子语句包括一个身份关键词;
第二确定单元,用于基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称。
可选地,在本公开上述各装置实施例中,所述第二确定单元具体用于:
响应于所述首部子语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的非人名主体名称。
可选地,在本公开上述各装置实施例中,所述第二确定单元具体用于:
响应于所述首部子语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的人名主体名称;
响应于所述首部子语句中不存在预设的非人名属性关键词也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的人名主体名称。
根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,该存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的主体名称确定方法。
根据本公开实施例的又一个方面,提供了一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的主体名称确定方法。
基于本公开上述实施例提供的主体名称确定方法和装置、电子设备和存储介质,获取法律文本信息;基于预设的首部关键词对法律文本信息进行分割,获取至少一个首部语句;基于预设的身份关键词和预设的脏词确定至少一个首部语句中各当事人对应的主体名称。由此,本公开实施例利用预设的身份关键词和脏词的方式解决了现有技术中将当事人对应的人名误判为公司名称等问题,提高了识别法律文本信息中各当事人对应的主体名称的准确率,此外,本公开实施例还基于预设的首部关键词,删除法律文本信息中大量与当事人对应的主体名称无关的案情等冗余信息,提升了系统的识别速率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的主体名称确定方法的流程示意图。
图2是本公开另一示例性实施例提供的主体名称确定方法的流程示意图。
图3是本公开又一示例性实施例提供的主体名称确定方法的流程示意图。
图4是本公开再一示例性实施例提供的主体名称确定方法的流程示意图。
图5是本公开另一示例性实施例提供的主体名称确定方法的流程示意图。
图6是本公开一示例性实施例提供的主体名称确定装置的结构示意图。
图7是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1是本公开一示例性实施例提供的主体名称确定方法流程图。本实施例可应用在电子设备上,如图1所示,该主体名称确定方法包括如下步骤:
S102,获取法律文本信息。
其中,法律文本信息可以包括司法行政机关及当事人、律师等在解决诉讼和非讼案件时使用的文书,也包括司法机关的非规范性文件。
S104,基于预设的首部关键词对法律文本信息进行分割,获取至少一个首部语句。
其中,首部关键词用于表示确定法律文本信息首部所在段落的关键词,例如:“一案”、“审理终结”等。
通常,法院的裁判文书一般由四部分构成,即①首部,写明案件的当事人、诉讼代理人的基本情况以及案由;②正文部分,对案件所涉及的事实和证据作明确的概述,特别是法院查明的事实要写清楚;③判决结果,即法院根据什么决定原告的请求是否应予以支持、哪些支持、哪些不予支持要写清楚;④尾部,写明审判庭的组成、人民法院名称等内容。
在一个具体的例子中,获得的法律文本信息包括以下内容:
①原告:余某(AAA有限公司总经理),住所地A市X路。
②法定代表人:王某,总经理。
③委托诉讼代理人:钟某,A律所。
④被告:BBB有限公司,住所地B市Y路。
⑤委托诉讼代理人:林某,B律所。
⑥原告余某诉被告BBB有限公司租赁合同纠纷一案,本院于X年X日X月进行了审理。本案现审理终结。
⑦原告余某诉称,原告名下注册有停车场,原告与被告就租用场地事宜达成一致后,签订协议,协议约定停车场每月租金12900元,在约定租期被告未缴纳费用,原告与被告多次接洽,均遭其拒绝或联系不上。
⑧本院认为,原告与被告签订的租赁合同没有违反法律和行政法规的强制规定,合同有效。应承担相应法律后果。
⑨审判长 张三
⑩书记员 李四
本公开实施例可以基于预设的首部关键词“一案”和“审理终结”,对上述法律文本信息进行分割,获取段落①-⑥中的多个首部语句,例如:“原告:余某(AAA有限公司总经理)”、“住所地A市X路”、“原告余某诉被告BBB有限公司租赁合同纠纷一案”等。
S106,基于预设的身份关键词和预设的脏词确定至少一个首部语句中各当事人对应的主体名称。
其中,身份关键词用于表示法律文本信息中各当事人的身份信息的关键词,例如原告、被告、上诉人、被上述人等。脏词用于表示系统经过预先训练得到的一些明显不能作为当事人对应的主体名称的词语,例如:“的”、“名下”、“诉”、“诉讼”、“委托”、“租赁”、“劳务”、“合同”等。
在上述实施例中,基于预设的身份关键词“原告”可以获取到两个首部语句:“原告:余某(AAA有限公司总经理)”和“原告余某诉被告BBB有限公司租赁合同纠纷一案”,基于预设的身份关键词“被告”可以获取到两个首部语句:“被告:BBB有限公司”和“原告余某诉被告BBB有限公司租赁合同纠纷一案”;基于预设的脏词“诉”可以获取到两个首部子语句“原告余某”和“被告BBB有限公司租赁合同纠纷一案”,基于重复出现原则,确定原告对应的余某,被告对应BBB有限公司。
基于本公开上述实施例提供的主体名称确定方法,获取法律文本信息;基于预设的首部关键词对法律文本信息进行分割,获取至少一个首部语句;基于预设的身份关键词和预设的脏词确定至少一个首部语句中各当事人对应的主体名称。由此,本公开实施例利用预设的身份关键词和脏词的方式解决了现有技术中将当事人对应的人名误判为公司名称等问题,提高了识别法律文本信息中各当事人对应的主体名称的准确率,此外,本公开实施例还基于预设的首部关键词,删除法律文本信息中大量与当事人对应的主体名称无关的案情等冗余信息,提升了系统的识别速率。
在一些可选的实施方式中,步骤S102与步骤S104之间还可以包括以下步骤:S103,响应于法律文本信息的格式无法识别,根据预设的法律文本格式,对法律文本信息的格式进行校正。
例如,当法律文本信息出现乱码、标点未对齐、格式错误、未使用统一的中文全角标点或括号不齐全等问题导致其无法被识别时,需要对该法律文本信息进行校正,以避免出现由于格式问题导致无法正确识别当事人对应的主体名称的情况。
如图2所示,在上述图1所示实施例的基础上,其中一些可选的实施方式中,步骤S104具体可以包括以下步骤:
S201,基于预设的首部关键词对法律文本信息进行分割,获得法律文本信息中的首部信息。
S202,基于预设的标点规则对法律文本信息中的首部信息进行分割,获得至少一个首部语句。
以本公开上述法律文本信息实施例为例,基于预设的首部关键词“一案”和“审理终结”,对该法律文本信息进行分割,删除首部信息所在段落以外的段落⑦-⑩,获得法律文本信息中的首部信息所在段落①-⑥,进一步地,基于基于预设的标点规则:当检测到逗号、句号、分号、换行符时,对法律文本信息进行分割,获取段落①-⑥中的多个首部语句,例如:“原告:余某(AAA有限公司总经理)”、“住所地A市X路”、“原告余某诉被告BBB有限公司租赁合同纠纷一案”等。
由此,本公开实施例通过对法律文本信息进行逐句分割以方便后续直接获取法律文本信息中包含有当事人对应的主体名称的语句。
在一些可选的实施方式中,步骤S104与步骤S106之间可以包括步骤S1051:响应于首部语句中不存在身份关键词,基于预设的行为关键词,补充首部语句中各当事人的身份信息。
其中,行为关键词用于表示当事人行为的一类关键词,例如:“诉”、“告”、“要求”等。例如,获取的首部语句为“王某诉李某(H市蓝天房地产有限公司员工公司)商品房合同纠纷一案”,基于预设的行为关键词“诉”,在该首部语句句首补充身份信息“原告”,行为关键词“诉”后补充身份信息“被告”。
在一些可选的实施方式中,步骤S104与步骤S106之间还可以包括步骤S1052:响应于当前的首部语句中仅有身份关键词,将检测到的当事人文本语句与相邻的下一个首部语句合并,使当前的首部语句至少包括一个当事人对应的主体名称。
示例性的,由于书写不规范等原因导致身份关键词和当事人对应的主体名称分别出现在前后两个首部语句中,例如:当检测到“原告,王某诉被告李某(H市蓝天房地产有限公司员工公司)商品房合同纠纷一案”这两个首部语句时,将其合并为一个首部语句“原告王某诉被告李某(H市蓝天房地产有限公司员工公司)商品房合同纠纷一案”。
若合并后的首部语句中仍仅存在身份关键词,则删除该首部语句,例如:当检测到“原告,诉被告商品房合同纠纷一案”这两个首部语句时,将其合并为一个首部语句“原告诉被告商品房合同纠纷一案”,但其两个身份关键词之间仅存在行为关键词“诉”,因此,需要将该合并后的首部语句删除。
在一些可选的实施方式中,步骤S104与步骤S106之间还可以包括步骤S1053:删除首部语句中存在身份关键词的夹注信息。其中,夹注信息用于表示首部语句中的注释信息,例如,处于括号内的信息。
在一个具体的例子中,获取的存在身份关键词且带有夹注信息的首部语句:“原告(初审被告):王某”和“被告:甲市阳光盛发房地产有限公司(简称阳光公司)”,删除这两个首部语句中的夹注信息,得到“原告:王某”和“被告:甲市阳光盛发房地产有限公司”两个首部语句。
由此,本公开实施例通过对首部语句进行合并、补充身份信息、删除夹注信息等处理,提升了当事人对应的主体名称识别的准确率和识别速率。
在一些可选的实施方式中,步骤S106具体可以包括步骤S1061,响应于当前首部语句中仅存在一个身份关键词,基于预设的身份关键词确定首部语句中当事人对应的主体名称。
如图3所示,在上述图1所示实施例的基础上,其中一些可选的实施方式中,步骤S1061具体可以包括以下步骤:
S301,响应于当前首部语句中存在预设的非人名属性关键词,确定身份关键词和非人名属性关键词之间的信息是否存在标识信息。
其中,非人名属性关键词可以包括公司、学校、医院等非人名类词语。
S302,响应于身份关键词和非人名属性关键词之间的信息存在标识信息,在数据库中查询标识信息,获得当前首部语句中当事人对应的非人名主体名称。
S303,响应于身份关键词和非人名属性关键词之间的信息不存在标识信息但
存在脏词,以脏词为分隔符提取身份关键词和脏词之间的信息,获得当前首部语句中当事人对应的非人名主体名称。
S304,响应于身份关键词和非人名属性关键词之间的信息不存在标识信息
也不存在预设的脏词,提取当前首部语句中身份关键词后的信息,获得当前首部语句中当事人对应的非人名主体名称。
例如,当检测到的当前首部语句为“原告:四川省阳光金属机械制造有限公司”时,其中存在预设的非人名属性关键词“公司”,需进一步利用前置树法则确定“四川省阳光金属机械制造有限”是否存在标识信息。即从“四川省阳光金属机械制造有限”的第一个文字“四”开始识别,若识别到第7个字“属”时,系统在数据库中查询到其存在对应标识信息100110,则可以直接调用该标识信息100110对应的主体名称“四川省阳光金属机械制造有限公司”,以确定当事人“原告”对应的主体名称为“四川省阳光金属机械制造有限公司”。若识别到最后一个文字“限”时,仍未查询到其对应标识信息,则直接提取身份关键词“原告”后的信息“四川省阳光金属机械制造有限公司”为其对应的主体名称。
在一些可选的实施方式中,步骤S1061具体还包括以下步骤:
S10611,响应于当前首部语句中不存在预设的非人名属性关键词但存在脏词,以脏词为分隔符,提取身份关键词和脏词之间的信息,获得当前首部语句中当事人对应的人名主体名称;或,
S10612,响应于当前首部语句中不存在预设的非人名属性关键词也不存在脏词,提取当前首部语句中身份关键词后的信息,获得当前首部语句中当事人对应的人名主体名称。
例如,获取的当前首部语句为“原告王某委托诉讼代理人李某到庭参加诉讼”,该当前首部语句中不存在预设的非人名属性关键词,但存在脏词“委托”,因此,以脏词“委托”为分隔符,提取身份关键词“原告”和脏词“委托”之间的信息,获得当前首部语句中当事人“原告”对应的人名主体名称“王某”。由此,本公开上述实施例利用非人名属性关键词、脏词、以及标识信息等方式在当前首部语句中提取当事人对应的主体名称,实现了对非人名主体名称和为存储的非人名主体名称的解析,提高了识别法律文本信息中当事人名称的准确率。
如图4所示,在上述图1所示实施例的基础上,其中一些可选的实施方式中,步骤S106具体可以包括以下步骤:
S401,响应于当前首部语句中存在多个身份关键词,基于行为关键词对当前首部语句进行分割,获得多个首部子语句。
在本公开实施中一个首部子语句包括一个身份关键词。
S402,基于身份关键词和脏词确定各首部子语句中当事人对应的主体名称。
例如,获取的当前首部语句为“原告余某诉被告BBB有限公司租赁合同纠纷一案”,基于行为关键词“诉”对该当前首部语句进行分割,获得两个首部子语句“原告余某”和“被告BBB有限公司租赁合同纠纷一案”。
如图5所示,在上述图4所示实施例的基础上,其中一些可选的实施方式中,步骤S402具体可以包括以下步骤:
S501,响应于首部子语句中存在预设的非人名属性关键词,确定身份关键词和非人名属性关键词之间的信息是否存在标识信息。
S502,响应于身份关键词和非人名属性关键词之间的信息存在标识信息,在数据库中查询标识信息,获得首部子语句中当事人对应的非人名主体名称。
S503,响应于身份关键词和非人名属性关键词之间的信息不存在标识信息但存在脏词,以脏词为分隔符提取身份关键词和脏词之间的信息,获得首部子语句中当事人对应的非人名主体名称。
S504,响应于身份关键词和非人名属性关键词之间的信息不存在标识信息也不存在脏词,提取当前首部子语句中身份关键词后的信息,获得当前首部子语句中当事人对应的非人名主体名称。
例如,获取的首部子语句“被告BBB有限公司租赁合同纠纷一案”中存在预设的非人名属性关键词“公司”,进一步利用前置树法则确定身份关键词“被告”和非人名属性关键词“公司”之间的信息“BBB有限公司”是否存在标识信息,由于其在数据库中查询不到对应的标识信息,因此,以脏词“租赁”为分隔符提取身份关键词“被告”和脏词“租赁”之间的信息“BBB有限公司”为该首部子语句中当事人“被告”对应的非人名主体名称。
在一些可选的实施方式中,步骤S402具体还可以包括以下步骤:
S4021,响应于首部子语句中不存在预设的非人名属性关键词但存在脏词,以脏词为分隔符提取身份关键词和脏词之间的信息,获得首部子语句中当事人对应的人名主体名称;或,
S4022,响应于首部子语句中不存在预设的非人名属性关键词也不存在脏词,提取首部子语句中身份关键词后的信息,获得首部子语句中当事人对应的人名主体名称。
例如,上述实施例中获取的首部子语句“原告余某”,该首部子语句中不存在预设的非人名属性关键词也不存在脏词,因此,提取首部子语句中身份关键词“原告”后的信息“余某”为该首部子语句中当事人对应的人名主体名称。由此,本公开实施例利用行为关键词预先对存在两个以上身份关键词的首部语句进行分割,以确保一个首部子语句中仅包括一个身份关键词,避免了当一个首部语句中出现多个身份关键词时可能出现的将原告对应的主体名称识别为被告等情况。本公开实施例提供的任一种主体名称确定方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种主体名称确定方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种主体名称确定方法。下文不再赘述。
图6是本公开一示例性实施例提供的主体名称确定装置的结构示意图。该测试装置可以设置于终端设备、服务器等电子设备中,执行本公开上述任一实施例的主体名称确定方法。如图6所示,该主体名称确定装置包括:
第一获取模块61,用于获取法律文本信息;
第二获取模块62,用于基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句;
确定模块63,用于基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称。
基于本公开上述实施例提供的主体名称确定装置,获取法律文本信息;基于预设的首部关键词对法律文本信息进行分割,获取至少一个首部语句;基于预设的身份关键词和预设的脏词确定至少一个首部语句中各当事人对应的主体名称。由此,本公开实施例利用预设的身份关键词和脏词的方式解决了现有技术中将当事人对应的人名误判为公司名称等问题,提高了识别法律文本信息中各当事人对应的主体名称的准确率,此外,本公开实施例还基于预设的首部关键词,删除法律文本信息中大量与当事人对应的主体名称无关的案情等冗余信息,提升了系统的识别速率。
在其中一些实施方式中,所述第一获取模块61与所述第二获取模块62之间,包括:校正模块,用于响应于所述法律文本信息的格式无法识别,根据预设的法律文本格式,对所述法律文本信息的格式进行校正。
在其中一些实施方式中,所述第二获取模块62,包括:
第一获得单元,用于基于预设的首部关键词对所述法律文本信息进行分割,获得所述法律文本信息中的首部信息;
第二获得单元,用于基于预设的标点规则对所述法律文本信息中的首部信息进行分割,获得所述至少一个首部语句。
在其中一些实施方式中,所述第二获取模块62与所述确定模块63之间,包括:补充模块,用于响应于所述首部语句中不存在所述身份关键词,基于预设的行为关键词,补充所述首部语句中各当事人的身份信息。
在其中一些实施方式中,所述第二获取模块62与所述确定模块63之间,包括:合并模块,用于响应于当前的首部语句中仅有所述身份关键词,将所述检测到的当事人文本语句与相邻的下一个首部语句合并,使所述当前的首部语句至少包括一个当事人对应的主体名称。
在其中一些实施方式中,所述第二获取模块62与所述确定模块63之间,包括:删除模块,用于删除所述首部语句中存在所述身份关键词的夹注信息。
在其中一些实施方式中,所述确定模块,包括:第一确定单元,用于响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称。
在其中一些实施方式中,所述第一确定单元具体用于:
响应于所述当前首部语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的非人名主体名称。
在其中一些实施方式中,所述第一确定单元具体用于:
响应于所述当前首部语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的人名主体名称;
响应于所述当前首部语句中不存在所述预设的非人名属性关键词也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的人名主体名称。
在其中一些实施方式中,所述确定模块63,包括:
第三获得单元,用于响应于当前首部语句中存在多个所述身份关键词,基于所述行为关键词对所述当前首部语句进行分割,获得多个首部子语句;其中,一个首部子语句包括一个身份关键词;
第二确定单元,用于基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称。
在其中一些实施方式中,所述第二确定单元具体用于:
响应于所述首部子语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的非人名主体名称。
在其中一些实施方式中,所述第二确定单元具体用于:
响应于所述首部子语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的人名主体名称;
响应于所述首部子语句中不存在预设的非人名属性关键词也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的人名主体名称。
另外,本公开实施例还提供了一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例所述的主体名称确定方法。
下面,参考图7来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图7图示了根据本公开实施例的电子设备的框图。如图7所示,电子设备包括一个或多个处理器71和存储器72。
处理器71可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器72可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器71可以运行所述程序指令,以实现上文所述的本公开的各个实施例的软件程序的主体名称确定方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置73和输出装置74,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入设备73还可以包括例如键盘、鼠标等等。
该输出装置74可以向外部输出各种信息。该输出设备74可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述各种实施例的软件程序的主体名称确定方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述各种实施例的软件程序的主体名称确定方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (26)
1.一种主体名称确定方法,其特征在于,包括:
获取法律文本信息;
基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句;
基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称。
2.根据权利要求1所述的方法,其特征在于,所述获取法律文本信息与所述基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句之间,包括:响应于所述法律文本信息的格式无法识别,根据预设的法律文本格式,对所述法律文本信息的格式进行校正。
3.根据权利要求1或2所述的方法,其特征在于,所述基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句,包括:
基于预设的首部关键词对所述法律文本信息进行分割,获得所述法律文本信息中的首部信息;
基于预设的标点规则对所述法律文本信息中的首部信息进行分割,获得所述至少一个首部语句。
4.根据权利要求1-3任一所述的方法,其特征在于,所述获取至少一个首部语句与所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称之间,包括:响应于所述首部语句中不存在所述身份关键词,基于预设的行为关键词,补充所述首部语句中各当事人的身份信息。
5.根据权利要求1-4任一所述的方法,其特征在于,所述获取至少一个首部语句与所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称之间,包括:响应于当前的首部语句中仅有所述身份关键词,将所述检测到的当事人文本语句与相邻的下一个首部语句合并,使所述当前的首部语句至少包括一个当事人对应的主体名称。
6.根据权利要求1-5任一所述的方法,其特征在于,所述获取至少一个首部语句与所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称之间,包括:删除所述首部语句中存在所述身份关键词的夹注信息。
7.根据权利要求1-6任一所述的方法,其特征在于,所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称,包括:响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称。
8.根据权利要求7所述的方法,其特征在于,所述响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称,包括:
响应于所述当前首部语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的非人名主体名称。
9.根据权利要求7所述的方法,其特征在于,所述响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称,包括:
响应于所述当前首部语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的人名主体名称;
响应于所述当前首部语句中不存在所述预设的非人名属性关键词也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的人名主体名称。
10.根据权利要求1-6任一所述的方法,其特征在于,所述基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称,包括:
响应于当前首部语句中存在多个所述身份关键词,基于所述行为关键词对所述当前首部语句进行分割,获得多个首部子语句;其中,一个首部子语句包括一个身份关键词;
基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称。
11.根据权利要求10所述的方法,其特征在于,所述基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称,包括:
响应于所述首部子语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的非人名主体名称。
12.根据权利要求10所述的方法,其特征在于,所述基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称,包括:
响应于所述首部子语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的人名主体名称;
响应于所述首部子语句中不存在预设的非人名属性关键词也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的人名主体名称。
13.一种主体名称确定装置,其特征在于,包括:
第一获取模块,用于获取法律文本信息;
第二获取模块,用于基于预设的首部关键词对所述法律文本信息进行分割,获取至少一个首部语句;
确定模块,用于基于预设的身份关键词和预设的脏词确定所述首部语句中各当事人对应的主体名称。
14.根据权利要求12所述的装置,其特征在于,所述第一获取模块与所述第二获取模块之间,包括:校正模块,用于响应于所述法律文本信息的格式无法识别,根据预设的法律文本格式,对所述法律文本信息的格式进行校正。
15.根据权利要求13或14所述的装置,其特征在于,所述第二获取模块,包括:
第一获得单元,用于基于预设的首部关键词对所述法律文本信息进行分割,获得所述法律文本信息中的首部信息;
第二获得单元,用于基于预设的标点规则对所述法律文本信息中的首部信息进行分割,获得所述至少一个首部语句。
16.根据权利要求13-15任一所述的装置,其特征在于,所述第二获取模块与所述确定模块之间,包括:补充模块,用于响应于所述首部语句中不存在所述身份关键词,基于预设的行为关键词,补充所述首部语句中各当事人的身份信息。
17.根据权利要求13-16任一所述的装置,其特征在于,所述第二获取模块与所述确定模块之间,包括:合并模块,用于响应于当前的首部语句中仅有所述身份关键词,将所述检测到的当事人文本语句与相邻的下一个首部语句合并,使所述当前的首部语句至少包括一个当事人对应的主体名称。
18.根据权利要求13-17任一所述的装置,其特征在于,所述第二获取模块与所述确定模块之间,包括:删除模块,用于删除所述首部语句中存在所述身份关键词的夹注信息。
19.根据权利要求13-18任一所述的装置,其特征在于,所述确定模块,包括:第一确定单元,用于响应于当前首部语句中仅存在一个所述身份关键词,基于所述身份关键词和所述脏词确定所述首部语句中当事人对应的主体名称。
20.根据权利要求19所述的装置,其特征在于,所述第一确定单元具体用于:
响应于所述当前首部语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的非人名主体名称。
21.根据权利要求19所述的装置,其特征在于,所述第一确定单元具体用于:
响应于所述当前首部语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述当前首部语句中当事人对应的人名主体名称;
响应于所述当前首部语句中不存在所述预设的非人名属性关键词也不存在所述脏词,提取所述当前首部语句中身份关键词后的信息,获得所述当前首部语句中当事人对应的人名主体名称。
22.根据权利要求13-18任一所述的装置,其特征在于,所述确定模块,包括:
第三获得单元,用于响应于当前首部语句中存在多个所述身份关键词,基于所述行为关键词对所述当前首部语句进行分割,获得多个首部子语句;其中,一个首部子语句包括一个身份关键词;
第二确定单元,用于基于所述身份关键词和所述脏词确定各首部子语句中当事人对应的主体名称。
23.根据权利要求22所述的装置,其特征在于,所述第二确定单元具体用于:
响应于所述首部子语句中存在预设的非人名属性关键词,确定所述身份关键词和所述非人名属性关键词之间的信息是否存在标识信息;
响应于所述身份关键词和所述非人名属性关键词之间的信息存在标识信息,在数据库中查询所述标识信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的非人名主体名称;
响应于所述身份关键词和所述非人名属性关键词之间的信息不存在标识信息也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的非人名主体名称。
24.根据权利要求22所述的装置,其特征在于,所述第二确定单元具体用于:
响应于所述首部子语句中不存在预设的非人名属性关键词但存在所述脏词,以所述脏词为分隔符提取所述身份关键词和所述脏词之间的信息,获得所述首部子语句中当事人对应的人名主体名称;
响应于所述首部子语句中不存在预设的非人名属性关键词也不存在所述脏词,提取所述首部子语句中身份关键词后的信息,获得所述首部子语句中当事人对应的人名主体名称。
25.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-12任一所述的主体名称确定方法。
26.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-12任一所述的主体名称确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010618283.1A CN111798344B (zh) | 2020-07-01 | 2020-07-01 | 主体名称确定方法和装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010618283.1A CN111798344B (zh) | 2020-07-01 | 2020-07-01 | 主体名称确定方法和装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111798344A true CN111798344A (zh) | 2020-10-20 |
CN111798344B CN111798344B (zh) | 2023-09-22 |
Family
ID=72810952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010618283.1A Active CN111798344B (zh) | 2020-07-01 | 2020-07-01 | 主体名称确定方法和装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111798344B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115794889A (zh) * | 2022-12-22 | 2023-03-14 | 北京明朝万达科技股份有限公司 | 人身关系处理方法、装置、电子设备及计算可读存储介质 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259626A (ja) * | 1999-03-10 | 2000-09-22 | Hiroshi Ishikura | 言語解析システムおよび方法 |
CN105574084A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 网页中案件信息的抽取方法 |
US20160140210A1 (en) * | 2014-11-19 | 2016-05-19 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
WO2017092555A1 (zh) * | 2015-12-01 | 2017-06-08 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN106815208A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN106815207A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 用于法律裁判文书的信息处理方法及装置 |
CN107122451A (zh) * | 2017-04-26 | 2017-09-01 | 北京科技大学 | 一种法律文书案由分类器的自动构建方法 |
CN108304386A (zh) * | 2018-03-05 | 2018-07-20 | 上海思贤信息技术股份有限公司 | 一种基于逻辑规则推断法律文书判决结果的方法及装置 |
CN109033249A (zh) * | 2018-07-05 | 2018-12-18 | 北京神州泰岳软件股份有限公司 | 公检法领域结构化文书的信息提取方法、装置及存储介质 |
US20180365314A1 (en) * | 2015-12-01 | 2018-12-20 | Beijing Gridsum Technology Co., Ltd. | Method and Device for Automatically Determining Decision in Judgment Document |
CN109508458A (zh) * | 2018-10-31 | 2019-03-22 | 北京国双科技有限公司 | 法律实体的识别方法及装置 |
WO2019080402A1 (zh) * | 2017-10-24 | 2019-05-02 | 平安科技(深圳)有限公司 | 结构化文本的文本信息提取方法、存储介质和服务器 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
CN110472231A (zh) * | 2019-07-11 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种识别法律文书案由的方法和装置 |
CN110516036A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 法律文书信息提取方法、装置、计算机设备及存储介质 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
US20200151392A1 (en) * | 2015-10-28 | 2020-05-14 | Qomplx, Inc. | System and method automated analysis of legal documents within and across specific fields |
CN111259631A (zh) * | 2020-01-15 | 2020-06-09 | 中科鼎富(北京)科技发展有限公司 | 一种裁判文书结构化方法及装置 |
CN111291161A (zh) * | 2020-02-20 | 2020-06-16 | 平安科技(深圳)有限公司 | 法律案件知识图谱查询方法、装置、设备及存储介质 |
CN111310446A (zh) * | 2020-01-15 | 2020-06-19 | 中科鼎富(北京)科技发展有限公司 | 裁判文书的信息抽取方法及装置 |
-
2020
- 2020-07-01 CN CN202010618283.1A patent/CN111798344B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259626A (ja) * | 1999-03-10 | 2000-09-22 | Hiroshi Ishikura | 言語解析システムおよび方法 |
US20160140210A1 (en) * | 2014-11-19 | 2016-05-19 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
US20200151392A1 (en) * | 2015-10-28 | 2020-05-14 | Qomplx, Inc. | System and method automated analysis of legal documents within and across specific fields |
WO2017092555A1 (zh) * | 2015-12-01 | 2017-06-08 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN106815208A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN106815207A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 用于法律裁判文书的信息处理方法及装置 |
US20180365314A1 (en) * | 2015-12-01 | 2018-12-20 | Beijing Gridsum Technology Co., Ltd. | Method and Device for Automatically Determining Decision in Judgment Document |
CN105574084A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 网页中案件信息的抽取方法 |
CN107122451A (zh) * | 2017-04-26 | 2017-09-01 | 北京科技大学 | 一种法律文书案由分类器的自动构建方法 |
WO2019080402A1 (zh) * | 2017-10-24 | 2019-05-02 | 平安科技(深圳)有限公司 | 结构化文本的文本信息提取方法、存储介质和服务器 |
CN108304386A (zh) * | 2018-03-05 | 2018-07-20 | 上海思贤信息技术股份有限公司 | 一种基于逻辑规则推断法律文书判决结果的方法及装置 |
CN109033249A (zh) * | 2018-07-05 | 2018-12-18 | 北京神州泰岳软件股份有限公司 | 公检法领域结构化文书的信息提取方法、装置及存储介质 |
CN109508458A (zh) * | 2018-10-31 | 2019-03-22 | 北京国双科技有限公司 | 法律实体的识别方法及装置 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
CN110472231A (zh) * | 2019-07-11 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种识别法律文书案由的方法和装置 |
CN110516036A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 法律文书信息提取方法、装置、计算机设备及存储介质 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
CN111259631A (zh) * | 2020-01-15 | 2020-06-09 | 中科鼎富(北京)科技发展有限公司 | 一种裁判文书结构化方法及装置 |
CN111310446A (zh) * | 2020-01-15 | 2020-06-19 | 中科鼎富(北京)科技发展有限公司 | 裁判文书的信息抽取方法及装置 |
CN111291161A (zh) * | 2020-02-20 | 2020-06-16 | 平安科技(深圳)有限公司 | 法律案件知识图谱查询方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王林木: "司法文书法律要素提取方法的研究与实现", 《中国优秀硕士学位论文全文数据库社会科学Ⅰ辑》, no. 5, pages 113 - 123 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115794889A (zh) * | 2022-12-22 | 2023-03-14 | 北京明朝万达科技股份有限公司 | 人身关系处理方法、装置、电子设备及计算可读存储介质 |
CN115794889B (zh) * | 2022-12-22 | 2023-09-01 | 北京明朝万达科技股份有限公司 | 人身关系处理方法、装置、电子设备及计算可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111798344B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9959311B2 (en) | Natural language interface to databases | |
US8140468B2 (en) | Systems and methods to extract data automatically from a composite electronic document | |
CN110956026B (zh) | 法律文书生成方法、生成装置和电子设备 | |
US10042921B2 (en) | Robust and readily domain-adaptable natural language interface to databases | |
CN110083623B (zh) | 一种业务规则生成方法及装置 | |
US20150172058A1 (en) | Automatic e-signatures in response to conditions and/or events | |
US20140278406A1 (en) | Obtaining data from unstructured data for a structured data collection | |
CN111815421B (zh) | 税务政策处理方法、装置、终端设备及存储介质 | |
CA3138730C (en) | Public-opinion analysis method and system for providing early warning of enterprise risks | |
US20090241165A1 (en) | Compliance policy management systems and methods | |
CN110825880A (zh) | 案件胜率确定方法、装置、设备及计算机可读存储介质 | |
WO2018223941A1 (zh) | 多保险产品出单的装置、方法及计算机可读存储介质 | |
CN108829716B (zh) | 待召开会议的会议议程生成方法以及装置 | |
CN111553318A (zh) | 敏感信息提取方法、裁判文书处理方法、装置和电子设备 | |
CN112163072A (zh) | 基于多数据源的数据处理方法以及装置 | |
JP3872689B2 (ja) | セキュリティポリシーの作成支援システムおよびセキュリティ対策決定支援システム | |
US20170235757A1 (en) | Electronic processing system for electronic document and electronic file | |
US20160275059A1 (en) | System and method for parallel contract authoring | |
CN111798344A (zh) | 主体名称确定方法和装置、电子设备和存储介质 | |
CN113269355A (zh) | 一种用户贷款预测方法、装置及存储介质 | |
CN114691894B (zh) | 电子信息全链路知识图谱的无纸化财务数据管理方法 | |
CN112115836A (zh) | 信息校验方法和装置、计算机可读存储介质、电子设备 | |
CN111324707A (zh) | 用户交互方法和装置、计算机可读存储介质、电子设备 | |
CN113609407B (zh) | 地区一致性校验方法和装置 | |
US9613105B1 (en) | Streamlined data entry based on data relationships |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |