CN110781299B - 资产信息识别方法、装置、计算机设备及存储介质 - Google Patents
资产信息识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110781299B CN110781299B CN201910882814.5A CN201910882814A CN110781299B CN 110781299 B CN110781299 B CN 110781299B CN 201910882814 A CN201910882814 A CN 201910882814A CN 110781299 B CN110781299 B CN 110781299B
- Authority
- CN
- China
- Prior art keywords
- asset
- information
- litigation
- participant
- paragraphs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013145 classification model Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 17
- 230000029087 digestion Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及数据处理领域,公开了一种资产信息识别方法、装置、计算机设备及存储介质,所述方法包括:获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。通过训练文本分类模型和实体识别模型,完成法律文书中资产信息的识别和提取,比传统的规则遍历法更有通用性,能够进行自动识别,并且提高信息识别的准确率。
Description
技术领域
本申请涉及信息提取领域,尤其涉及一种资产信息识别方法、装置、计算机设备及存储介质。
背景技术
目前,在法律文书中存在大量的资产线索,通过对法律文书中资产线索的分析,可以了解到公司或个人历史的资产纠纷,以及法院对于存在纠纷的资产的查明结果,这些线索在对公司进行不良资产清收、上市公司风险评级等方面都具有重要意义。现有的是在法律文书中利用规则遍历法,对法律文书全文进行资产线索的查找,但是规则遍历法在进行线索识别时,其准确率较低。
因此,如何提高从法律文书中识别资产信息的准确率成为亟待解决的问题。
发明内容
本申请提供了一种资产信息识别方法、装置、设备及存储介质,以提高从法律文书中识别资产信息的准确率。
第一方面,本申请提供了一种资产信息识别方法,所述方法包括:
获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;
对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;
根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;
利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。
第二方面,本申请还提供了一种资产信息识别装置,所述装置包括:
文书解析模块,用于获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;
诉讼信息模块,用于对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;
指代消解模块,用于根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;
信息提取模块,用于利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的资产信息识别方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的资产信息识别方法。
本申请公开了一种资产信息识别方法、装置、设备及存储介质,通过获取法律文书并对所述法律文书进行解析,得到包括诉讼参与人段落和事实段落的目标段落;对诉讼参与人段落进行信息提取,得到诉讼参与人信息;再根据诉讼参与人信息对事实段落进行指代消解,从而获得消解后的事实段落;最终利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以得到资产信息。通过训练文本分类模型和实体识别模型,完成法律文书中资产信息的识别和提取,比传统的规则遍历法更有通用性,能够进行自动识别,并且提高信息识别的准确率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本分类模型的训练方法的步骤示意流程图;
图2是本申请实施例提供的一种实体识别模型的训练方法的步骤示意流程图;
图3是本申请的实施例提供的一种资产信息识别方法的步骤示意流程图;
图4是图3中提供的一种资产信息识别方法的子步骤示意流程图;
图5是对事实段落进行指代消解的步骤示意流程图;
图6是图3中提供的一种资产信息识别方法的子步骤示意流程图;
图7为本申请实施例提供的一种资产信息识别装置的示意性框图;
图8为本申请一实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种资产信息识别方法、装置、计算机设备及存储介质。资产信息识别方法可用于对文书中的资产信息进行识别和提取,提高信息识别的准确率。其中,文书是指具有特定格式的文书,以下以法律文书为例进行详细说明。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种文本分类模型的训练方法的示意流程图。该文本分类模型的训练方法是基于卷积神经网络进行模型训练得到的,当然也可以通过其他网络进行训练得到。
需要说明的是,在本实施例中,文本分类模型为TextCNN文本分类模型,TextCNN将卷积神经网络CNN应用到文本分类任务,利用多个不同尺寸的卷积核来抽取文本的局部特征,将文本转换成一个固定维度的特征向量,并基于此特征向量训练一个分类器。由于法律文书的表述模式比较明显,适合采用这种浅层文本分类模型。
如图1所示,该文本分类模型的训练方法,具体包括:步骤S101至步骤S103。
S101、获取第一资产关键句,所述第一资产关键句为包括资产关键词的句子。
其中,第一资产关键句是指包括资产关键词的句子。其中,资产关键词可以是楼房、房产、房地产、房屋、住房、保证、债券、存款等。选取法律文书中包括资产关键词的句子,并将其作为第一资产关键句,用于训练文本分类模型。
S102、根据资产分类类别对应的类别标识对所述第一资产关键句进行标记,以构建样本数据。
具体地,资产分类类别可以包括2大类,分别为资产类别和非资产类别,其中,资产类别又包括5个小类,具体为房产、土地、车辆、存款、借款、担保。在具体实施过程中,样本数据的数量可以为2万条,并且房产:土地:车辆:存款:借款:担保:非资产类别的比例可以为2:1:1:1:2:2:1。
具体地,根据资产分类类别对应的类别标识对所述第一资产关键句进行标记,对第一资产关键句按照类别进行分类,从而按照分类类别提取第一资产关键句构建样本数据。在具体实施过程中,可以按照资产类别和非资产类别的比例进行提取。
S103、基于卷积神经网络,根据所述样本数据进行模型训练和验证以得到文本分类模型,并将所述文本分类模型作为预先训练的文本分类模型。
在具体实施过程中,在对样本数据进行模型训练验证之前,还可以包括:按照预设比例对所述样本数据进行划分,以获得训练集和验证集。训练集用于基于卷积神经网络进行模型训练以得到文本分类模型,验证集用于对得到的文本分类模型进行准确性的验证。其中,训练集和验证集的比例可以为7:3,并且,训练集和验证集中各资产类别和非资产类别的比例与样本数据中的比例相同。
具体地,使用构建的样本数据,通过卷积神经网络进行文本分类模型训练,利用训练集进行文本分类模型训练,利用验证集对训练得到的文本分类模型进行验证,最终得到文本分类模型。
上述实施例提供的训练方法,通过获取第一资产关键句,然后根据资产分类类别对第一资产关键句进行分类,以得到样本数据;最后基于卷积神经网络,根据构建的样本数据进行模型训练,以得到文本分类模型。使得所述文本分类模型能够应用于资产信息识别方法中,由此提高资产信息识别的准确度和通用性。
请参阅图2,图2是本申请实施例提供的一种实体识别模型的训练方法的示意流程图。该实体识别模型的训练方法是基于长短期记忆网络进行模型训练得到的,当然也可以通过其他网络进行训练得到。
需要说明的是,在本实施例中,实体识别模型为BiLSTM+CRF实体识别模型,BiLSTM使用双向的长短期记忆网络得到每个字符在各类实体标签上的得分,CRF从训练数据中学习这些实体标签的约束条件,最终获得每个字符的实体标签,实现实体识别。
如图1所示,该实体识别模型的训练方法,具体包括:步骤S201至步骤S203。
S201、获取第二资产关键句,所述第二资产关键句为包括资产关键词、资产属性和资产所有人的句子。
其中,第二资产关键句是指包括资产关键词、资产属性和资产所有人的句子。其中,资产属性可以是动产、不动产等,资产所有人是指资产的所有权人。
在具体实施过程中,第二资产关键句中所包括的资产属性,可以是直接体现在句子内的,也可以是根据句子中所包括的资产关键词所进行判断的。
例如第二资产关键句可以为“原告花费600万元从被告处购买了一处不动产,该不动产为位于上海市松江区的一处房产。”还可以为“原告花费600万元从被告处购买了一处房产。”
S202、对所述资产关键词、资产属性和资产所有人分别进行标注,以构建样本数据。
具体地,可以采用BIO标注集对资产关键词、资产属性和资产所有人进行标注,以B-实体标签名表示实体首字,以I-实体标签名表示实体非首字,以O表示非实体部分。在标注完成后,以标注后的资产关键词、资产属性和资产所有人数据构建样本数据。
S203、基于长短期记忆网络,根据所述样本数据进行模型训练和验证以得到实体识别模型,并将所述实体识别模型作为预先训练的实体识别模型。
在具体实施过程中,在对样本数据进行模型训练验证之前,还可以包括:按照预设比例对所述样本数据进行划分,以获得训练集和验证集。训练集用于基于长短期记忆网络进行模型训练以得到实体识别模型,验证集用于对得到的实体识别模型进行准确性的验证。其中,训练集和验证集的比例可以为7:3。
具体地,使用构建的样本数据,通过长短期记忆网络进行实体识别模型训练,利用训练集进行实体识别模型训练,利用验证集对训练得到的实体识别模型进行验证,最终得到实体识别模型。
上述实施例提供的训练方法,通过获取第二资产关键句,然后对第二资产关键句中的资产关键词、资产属性和资产所有人进行标注,以构建样本数据;最后基于长短期记忆网络根据构建的样本数据进行模型训练,以得到实体识别模型,并使得所述实体识别模型能够应用于资产信息识别方法中,由此提高资产信息识别的准确度和通用性。
需要说明的是,由于资产信息识别方法可以应用于终端或服务器中,因此需要将训练好的文本分类模型和实体识别模型保存在终端或服务器中。其中,该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备;服务器可以为独立的服务器,也可以为服务器集群。
如果是应用于终端中,为了保证该终端的正常运行以及快速识别检测出运动目标的类别,还需要对训练得到的文本分类模型和实体识别模型进行压缩处理,将压缩处理后的模型保存在终端。
其中,该压缩处理具体包括对文本分类模型和实体识别模型进行剪枝处理、量化处理和哈夫曼编码处理等,以减小文本分类模型和实体识别模型的大小,进而方便保存在容量较小的终端中。
请参阅图3,图3是本申请的实施例提供的一种资产信息识别方法的示意流程图。该资产信息识别方法可以应用在终端或服务器中,以对法律文书中的资产信息进行识别和提取。
如图3所示,该资产信息识别方法,具体包括步骤S301至步骤S304。
S301、获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落。
具体地,获取到的法律文书的格式可以是PDF格式,也可以是DOC或者DOCX格式。
诉讼参与人段落是指包括原告基本信息的段落和被告基本信息的段落,其中,原告基本信息和被告基本信息均可以包括:姓名、公司名称、住所地、注册地、经营地、性别、出生日期中的一种或多种。
事实段落是指包括审理法院所查明的案由、案件事实等信息的段落。
在一些实施例中,对所述法律文书进行解析,以获得目标段落,具体包括:根据写作关键词对所述法律文书进行匹配以对所述法律文书进行分段,获得目标段落。
具体地,对法律文书进行解析可以是利用写作关键词对法律文书进行解析。写作关键词是指各个类型的法律文书中,对不同段落进行写作时通常会使用的一些关键词,例如:原告、被告、委托代理人、法定代表人、注册地、经营地、原告诉称、经审理查明、本院认为、审理终结等等。在具体实施过程中,可以根据写作关键词建立写作关键词库,从而利用写作关键词库中的写作关键词对法律文书进行解析。
例如,当在法律文书中第一段的起始处匹配到写作关键词“案号”,并在第六段的结尾处匹配到写作关键词“审理终结”时,则确定第二段至第五段均为诉讼参与人段落,并将第二段至第五段作为目标段落;当在法律文书中第八段的起始处匹配到写作关键词“经审理查明”,并在第十一段的起始处匹配到写作关键词“本院认为”时,则确定自第八段至第十段均为事实段落,并将第八段至第十段作为目标段落。
S302、对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息。
具体地,诉讼参与人信息包括诉讼参与人名称和诉讼参与人对应的庭审地位,其中庭审地位是指诉讼参与人在该案中是被告还是原告。
在一些实施例中,为了提高获取诉讼参与人信息的效率,请参阅图4,步骤S302具体包括:步骤S302a和步骤S302b。
S302a、根据名称关键词在所述诉讼参与人段落中进行匹配,以获得与所述名称关键词相匹配的目标句子。
具体地,名称关键词是指用于指代具体名词或人物的代词,例如,名称关键词可以包括:原告、委托代理人、法定代表人、被告等等。在获取到诉讼参与人段落后,根据名称关键词在诉讼参与人段落中进行匹配,进而从诉讼参与人段落中确定与名称关键词相匹配的句子,并将该句子作为目标句子。
S302b、利用正则表达式从所述目标句子中获取诉讼参与人名称和庭审地位,将所述诉讼参与人名称和庭审地位作为诉讼参与人信息。
具体地,正则表达式可以利用预先给定的组成规则从字符串中提取子字符串,使得能够查找文档内特定的文本。
例如,当目标句子为:“原告:张三,男,1970年5月12日生,住xx街xx巷xx。”时,利用正则表达式:^原告:*$,在该目标句子中获取诉讼参与人名称为:张三,庭审地位为:原告。
首先从诉讼参与人段落中匹配得到具有名称关键词的目标句子,再利用正则表达式在目标句子中提取出诉讼参与人名称和庭审地位,提高了在诉讼参与人段落中提取诉讼参与人信息的速度和效率。
S303、根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落。
具体地,指代消解是指在段落中确定段落中所使用的代词指向哪个名词,并将所使用的代词替换为对应的名词。根据诉讼参与人信息对事实段落进行指代消解,以得到完整的事实段落。
在一些实施例中,请参阅图5,对事实段落进行指代消解具体包括步骤S303a和步骤S303b。
S303a、建立所述诉讼参与人名称与所述庭审地位之间的对应关系。
具体地,从目标句子中获取到诉讼参与人名称和庭审地位后,建立诉讼参与人名称和其对应的庭审地位之间的对应关系,例如,当目标句子为:“原告:张三,男,1970年5月12日生,住xx街xx巷xx。”时,从该目标句子中获取得到诉讼参与人名称为:张三,庭审地位为:原告,则建立原告与张三之间的对应关系。
S303b、基于所述对应关系对事实段落中的庭审地位代词进行替换,以完成事实段落的指代消解。
具体地,获取到事实段落后,对事实段落中的庭审地位代词进行查找,并基于诉讼参与人名称与庭审地位之间的对应关系,将事实段落中的庭审地位代词进行替换,从而完成对事实段落的指代消解。
例如,当事实段落为“2012年7月,原告、被告签订医学影像打印系统经销合作协议一份,约定被告向原告购买医学影像打印系统及服务,仅限销售给淮安二院。”其中,原告与张三对应,被告与李四对应。
对上述事实段落进行指代消解后,得到的段落为“2012年7月,张三、李四签订医学影像打印系统经销合作协议一份,约定李四向张三购买医学影像打印系统及服务,仅限销售给淮安二院。”
S304、利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。
具体地,资产信息包括资产所有人、关联方和资产属性。所述资产属性可以是预定义的,例如,动产、不动产等等,关联方可以是与资产所有人具有关联的第三方。
在一些实施例中,为了提高从事实段落中获取资产信息的效率,请参阅图6,步骤S304具体地包括步骤S304a至步骤S304c。
S304a、根据资产关键词在所述消解后的事实段落中进行匹配,以获得与所述资产关键词相匹配的初始资产关键句。
其中,资产关键词可以是人工总结归纳的,资产关键词可以是例如楼房、房产、房地产、房屋、住房、营业房、商住楼、商用楼、大厦、店面、土地使用权、土地、宅基地、用地、车辆、担保、保证、债券、存款等等。根据资产关键词在消解后的事实段落中进行匹配,匹配到包括资产关键词的句子作为初始资产关键句,而匹配不到资产关键词的句子可以直接过滤。
S304b、利用预先训练的文本分类模型对所述初始资产关键句进行过滤,以获得目标资产关键句。
利用预先训练的文本分类模型对初始资产关键句进行过滤,从而过滤掉初始资产关键句中仅包含资产关键词,而不存在资产属性的句子,并将未被文本分类模型过滤掉的初始资产关键句作为目标资产关键句。
S304c、基于预先训练的实体识别模型对所述目标资产关键句进行资产信息的识别,以获得资产所有人、关联方和资产属性。
其中,目标资产关键句为包括资产关键词和资产属性的句子,利用预先训练的实体识别模型,可以得到目标资产关键句中所提到的资产所有人、关联方和资产属性。
上述资产信息识别方法通过对获取到的法律文书进行解析,从而获得诉讼参与人段落和事实段落;然后对诉讼参与人段落进行信息提取,得到诉讼参与人信息;利用诉讼参与人信息对事实段落进行指代消解,从而获得消解后的事实段落;最后利用预先训练的文本分类模型和实体识别模型对消解后的事实段落进行信息提取,从而获得资产信息。通过训练文本分类模型和实体识别模型,在关键词匹配的基础上充分利用句子分类模型和实体识别模型,完成法律文书中资产信息的识别和提取,比传统的规则遍历法更有通用性,能够进行自动识别,并且提高资产信息识别的准确率。
请参阅图,7,图7是本申请的实施例还提供一种资产信息识别装置的示意性框图,该资产信息识别装置用于执行前述的资产信息识别方法。其中,该资产信息识别装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图7所示,资产信息识别装置400包括:文书解析模块401、诉讼信息模块402、指代消解模块403和信息提取模块404。
文书解析模块401,用于获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落。
其中,文书解析模块401具体用于根据写作关键词对所述法律文书进行匹配以对所述法律文书进行分段,获得目标段落。
诉讼信息模块402,用于对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息。
其中,诉讼信息模块402包括名称匹配子模块4021和正则获取子模块4022。
具体地,名称匹配子模块4021,用于根据名称关键词在所述诉讼参与人段落中进行匹配,以获得与所述名称关键词相匹配的目标句子;正则获取子模块4022,用于利用正则表达式从所述目标句子中获取诉讼参与人名称和庭审地位,将所述诉讼参与人名称和庭审地位作为诉讼参与人信息。
指代消解模块403,用于根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落。
其中,指代消解模块403包括对应建立子模块4031和代词替换子模块4032。
具体地,对应建立子模块4031,用于建立所述诉讼参与人名称与所述庭审地位之间的对应关系;代词替换子模块4032,用于基于所述对应关系对事实段落中的庭审地位代词进行替换,以完成事实段落的指代消解。
信息提取模块404,用于利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。
其中,信息提取模块404包括初始匹配子模块4041、句子过滤子模块4042和信息识别子模块4043。
具体地,初始匹配子模块4041,用于根据资产关键词在所述消解后的事实段落中进行匹配,以获得与所述资产关键词相匹配的初始资产关键句;句子过滤子模块4042,用于利用预先训练的文本分类模型对所述初始资产关键句进行过滤,以获得目标资产关键句;信息识别子模块4043,用于基于预先训练的实体识别模型对所述目标资产关键句进行资产信息的识别,以获得资产所有人、关联方和资产属性。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的资产信息识别装置和各模块的具体工作过程,可以参考前述资产信息识别方法实施例中的对应过程,在此不再赘述。
上述的资产信息识别装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
参阅图8,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种资产信息识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种资产信息识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。
在一个实施例中,所述处理器在实现所述利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息时,用于实现:
根据资产关键词在所述消解后的事实段落中进行匹配,以获得与所述资产关键词相匹配的初始资产关键句;利用预先训练的文本分类模型对所述初始资产关键句进行过滤,以获得目标资产关键句;基于预先训练的实体识别模型对所述目标资产关键句进行资产信息的识别,以获得资产所有人、关联方和资产属性。
在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,还用于实现如下步骤:
获取第一资产关键句,所述第一资产关键句为包括资产关键词的句子;根据资产分类类别对应的类别标识对所述第一资产关键句进行标记,以构建样本数据;基于卷积神经网络,根据所述样本数据进行模型训练和验证以得到文本分类模型,并将所述文本分类模型作为预先训练的文本分类模型。
在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,还用于实现如下步骤:
获取第二资产关键句,所述第二资产关键句为包括资产关键词、资产属性和资产所有人的句子;对所述资产关键词、资产属性和资产所有人分别进行标注,以构建样本数据;基于长短期记忆网络,根据所述样本数据进行模型训练和验证以得到实体识别模型,并将所述实体识别模型作为预先训练的实体识别模型。
在一个实施例中,所述处理器在实现所述对所述法律文书进行解析,以获得目标段落时,用于实现:
根据写作关键词对所述法律文书进行匹配以对所述法律文书进行分段,获得目标段落。
在一个实施例中,所述处理器在实现所述对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息时,用于实现:
根据名称关键词在所述诉讼参与人段落中进行匹配,以获得与所述名称关键词相匹配的目标句子;利用正则表达式从所述目标句子中获取诉讼参与人名称和庭审地位,将所述诉讼参与人名称和庭审地位作为诉讼参与人信息。
在一个实施例中,所述处理器在实现所述根据所述诉讼参与人信息对所述事实段落进行指代消解时,用于实现:
建立所述诉讼参与人名称与所述庭审地位之间的对应关系;基于所述对应关系对事实段落中的庭审地位代词进行替换,以完成事实段落的指代消解。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项资产信息识别方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种资产信息识别方法,其特征在于,包括:
获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;
对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;所述对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息,包括:根据名称关键词在所述诉讼参与人段落中进行匹配,以获得与所述名称关键词相匹配的目标句子;利用正则表达式从所述目标句子中获取诉讼参与人名称和庭审地位,将所述诉讼参与人名称和庭审地位作为诉讼参与人信息;
根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;所述根据所述诉讼参与人信息对所述事实段落进行指代消解,包括:建立所述诉讼参与人名称与所述庭审地位之间的对应关系;基于所述对应关系对事实段落中的庭审地位代词进行替换,以完成事实段落的指代消解;
利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息;在所述利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息之前,所述方法还包括:获取第一资产关键句,所述第一资产关键句为包括资产关键词的句子;根据资产分类类别对应的类别标识对所述第一资产关键句进行标记,以构建样本数据;其中,所述资产分类类别包括资产类别和非资产类别,所述资产类别包括房产、土地、车辆、存款、借款和担保;在所述样本数据中,房产、土地、车辆、存款、借款和担保与非资产类别的比例为2:1:1:1:2:2:1;基于卷积神经网络,根据所述样本数据进行模型训练和验证以得到文本分类模型,并将所述文本分类模型作为预先训练的文本分类模型;在所述利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息之前,所述方法还包括:获取第二资产关键句,所述第二资产关键句为包括资产关键词、资产属性和资产所有人的句子;对所述资产关键词、资产属性和资产所有人分别进行标注,以构建样本数据;基于长短期记忆网络,根据所述样本数据进行模型训练和验证以得到实体识别模型,并将所述实体识别模型作为预先训练的实体识别模型。
2.根据权利要求1所述的资产信息识别方法,其特征在于,所述利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息,包括:
根据资产关键词在所述消解后的事实段落中进行匹配,以获得与所述资产关键词相匹配的初始资产关键句;
利用预先训练的文本分类模型对所述初始资产关键句进行过滤,以获得目标资产关键句;
基于预先训练的实体识别模型对所述目标资产关键句进行资产信息的识别,以获得资产所有人、关联方和资产属性。
3.根据权利要求1所述的资产信息识别方法,其特征在于,所述对所述法律文书进行解析,以获得目标段落,包括:
根据写作关键词对所述法律文书进行匹配以对所述法律文书进行分段,获得目标段落。
4.一种资产信息识别装置,其特征在于,包括:
文书解析模块,用于获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;
诉讼信息模块,用于对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;所述对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息,包括:根据名称关键词在所述诉讼参与人段落中进行匹配,以获得与所述名称关键词相匹配的目标句子;利用正则表达式从所述目标句子中获取诉讼参与人名称和庭审地位,将所述诉讼参与人名称和庭审地位作为诉讼参与人信息;
指代消解模块,用于根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;所述根据所述诉讼参与人信息对所述事实段落进行指代消解,包括:建立所述诉讼参与人名称与所述庭审地位之间的对应关系;基于所述对应关系对事实段落中的庭审地位代词进行替换,以完成事实段落的指代消解;
信息提取模块,用于利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息;在所述利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息之前,还包括:获取第一资产关键句,所述第一资产关键句为包括资产关键词的句子;根据资产分类类别对应的类别标识对所述第一资产关键句进行标记,以构建样本数据;其中,所述资产分类类别包括资产类别和非资产类别,所述资产类别包括房产、土地、车辆、存款、借款和担保;在所述样本数据中,房产、土地、车辆、存款、借款和担保与非资产类别的比例为2:1:1:1:2:2:1;基于卷积神经网络,根据所述样本数据进行模型训练和验证以得到文本分类模型,并将所述文本分类模型作为预先训练的文本分类模型;在所述利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息之前,还包括:获取第二资产关键句,所述第二资产关键句为包括资产关键词、资产属性和资产所有人的句子;对所述资产关键词、资产属性和资产所有人分别进行标注,以构建样本数据;基于长短期记忆网络,根据所述样本数据进行模型训练和验证以得到实体识别模型,并将所述实体识别模型作为预先训练的实体识别模型。
5.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至3中任一项所述的资产信息识别方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至3中任一项所述的资产信息识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882814.5A CN110781299B (zh) | 2019-09-18 | 2019-09-18 | 资产信息识别方法、装置、计算机设备及存储介质 |
PCT/CN2020/093110 WO2021051867A1 (zh) | 2019-09-18 | 2020-05-29 | 资产信息识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882814.5A CN110781299B (zh) | 2019-09-18 | 2019-09-18 | 资产信息识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781299A CN110781299A (zh) | 2020-02-11 |
CN110781299B true CN110781299B (zh) | 2024-03-19 |
Family
ID=69383550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910882814.5A Active CN110781299B (zh) | 2019-09-18 | 2019-09-18 | 资产信息识别方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110781299B (zh) |
WO (1) | WO2021051867A1 (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
US10726198B2 (en) | 2017-10-17 | 2020-07-28 | Handycontract, LLC | Method, device, and system, for identifying data elements in data structures |
CN110781299B (zh) * | 2019-09-18 | 2024-03-19 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN111914542A (zh) * | 2020-05-21 | 2020-11-10 | 国家计算机网络与信息安全管理中心 | 疑似非法集资市场主体识别方法、装置、终端及存储介质 |
CN111798344B (zh) * | 2020-07-01 | 2023-09-22 | 北京金堤科技有限公司 | 主体名称确定方法和装置、电子设备和存储介质 |
CN111858942A (zh) * | 2020-07-29 | 2020-10-30 | 阳光保险集团股份有限公司 | 一种文本抽取方法、装置、存储介质和电子设备 |
CN112183076A (zh) * | 2020-08-28 | 2021-01-05 | 北京望石智慧科技有限公司 | 一种物质名称提取方法、装置及存储介质 |
CN112052305A (zh) * | 2020-09-02 | 2020-12-08 | 平安资产管理有限责任公司 | 信息提取方法、装置、计算机设备及可读存储介质 |
CN112163072B (zh) * | 2020-09-30 | 2024-05-24 | 北京金堤征信服务有限公司 | 基于多数据源的数据处理方法以及装置 |
CN112528028A (zh) * | 2020-12-28 | 2021-03-19 | 北京华彬立成科技有限公司 | 投融资信息挖掘方法、装置、电子设备和存储介质 |
CN112732897A (zh) * | 2020-12-28 | 2021-04-30 | 平安科技(深圳)有限公司 | 文档处理方法、装置、电子设备及存储介质 |
CN112580299A (zh) * | 2020-12-30 | 2021-03-30 | 讯飞智元信息科技有限公司 | 智能评标方法、评标设备及计算机存储介质 |
CN113158001B (zh) * | 2021-03-25 | 2024-05-14 | 深圳市联软科技股份有限公司 | 一种网络空间ip资产归属及相关性判别方法及系统 |
CN113515587B (zh) * | 2021-06-02 | 2024-06-21 | 中国神华国际工程有限公司 | 一种标的物信息提取方法、装置、计算机设备及存储介质 |
CN113902568A (zh) * | 2021-10-30 | 2022-01-07 | 平安科技(深圳)有限公司 | 绿色资产的占比的识别方法及相关产品 |
CN113902569A (zh) * | 2021-10-30 | 2022-01-07 | 平安科技(深圳)有限公司 | 数字资产中的绿色资产的占比的识别方法及相关产品 |
CN115238645A (zh) * | 2022-08-03 | 2022-10-25 | 中国电子科技集团公司信息科学研究院 | 资产数据识别方法、装置、电子设备和计算机存储介质 |
CN115733903B (zh) * | 2022-09-23 | 2024-07-05 | 湖南华顺信安科技有限公司 | 一种基于自然处理特征工程的网络资产识别方法和系统 |
CN115906844B (zh) * | 2022-11-02 | 2023-08-29 | 中国兵器工业计算机应用技术研究所 | 一种基于规则模板的信息抽取方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287818A (zh) * | 2018-01-03 | 2018-07-17 | 小草数语(北京)科技有限公司 | 裁判文书中金额的提取方法、装置和电子设备 |
CN109446511A (zh) * | 2018-09-10 | 2019-03-08 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN109815268A (zh) * | 2018-12-21 | 2019-05-28 | 上海诺悦智能科技有限公司 | 一种交易制裁名单匹配系统 |
CN110134792A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本识别方法、装置、电子设备以及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009097558A2 (en) * | 2008-01-30 | 2009-08-06 | Thomson Reuters Global Resources | Financial event and relationship extraction |
US20120173289A1 (en) * | 2010-09-16 | 2012-07-05 | Thomson Reuters (Sientific) Llc | System and method for detecting and identifying patterns in insurance claims |
US20160103823A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents |
CN109446328A (zh) * | 2018-11-02 | 2019-03-08 | 成都四方伟业软件股份有限公司 | 一种文本识别方法、装置及其存储介质 |
CN109582772B (zh) * | 2018-11-27 | 2024-09-17 | 平安科技(深圳)有限公司 | 合同信息提取方法、装置、计算机设备和存储介质 |
CN110781299B (zh) * | 2019-09-18 | 2024-03-19 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
-
2019
- 2019-09-18 CN CN201910882814.5A patent/CN110781299B/zh active Active
-
2020
- 2020-05-29 WO PCT/CN2020/093110 patent/WO2021051867A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287818A (zh) * | 2018-01-03 | 2018-07-17 | 小草数语(北京)科技有限公司 | 裁判文书中金额的提取方法、装置和电子设备 |
CN109446511A (zh) * | 2018-09-10 | 2019-03-08 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN109815268A (zh) * | 2018-12-21 | 2019-05-28 | 上海诺悦智能科技有限公司 | 一种交易制裁名单匹配系统 |
CN110134792A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本识别方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021051867A1 (zh) | 2021-03-25 |
CN110781299A (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781299B (zh) | 资产信息识别方法、装置、计算机设备及存储介质 | |
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
CN107945024B (zh) | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 | |
Nguyen et al. | Symbolic rule-based classification of lung cancer stages from free-text pathology reports | |
CN110362822B (zh) | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 | |
CN113886584A (zh) | 一种应用程序的信息检测方法、装置及设备 | |
CN109992752B (zh) | 合同文件的标签标记方法、装置、计算机装置及存储介质 | |
CN112732897A (zh) | 文档处理方法、装置、电子设备及存储介质 | |
WO2022089227A1 (zh) | 地址参数处理方法及相关设备 | |
CN111552800A (zh) | 摘要生成方法、装置、电子设备及介质 | |
CN117707922A (zh) | 测试用例的生成方法、装置、终端设备和可读存储介质 | |
CN113434672B (zh) | 文本类型智能识别方法、装置、设备及介质 | |
CN113010785B (zh) | 用户推荐方法及设备 | |
WO2024207762A1 (zh) | 一种数据识别方法及相关设备 | |
Hosseini et al. | Identifying and classifying third-party entities in natural language privacy policies | |
EP4300445A1 (en) | Generalizable key-value set extraction from documents using machine learning models | |
CN109902309B (zh) | 翻译方法、装置、设备和存储介质 | |
CN116343230A (zh) | 一种文本识别模型训练方法、系统、电子设备及存储介质 | |
CN112685618A (zh) | 用户特征识别方法、装置、计算设备及计算机存储介质 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN116127334B (zh) | 一种半结构化文本匹配方法及系统 | |
CN114186023B (zh) | 针对特定搜索场景的搜索处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40019328 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |