CN111476034A - 基于规则和模型结合的法律文书信息抽取方法及系统 - Google Patents
基于规则和模型结合的法律文书信息抽取方法及系统 Download PDFInfo
- Publication number
- CN111476034A CN111476034A CN202010266180.3A CN202010266180A CN111476034A CN 111476034 A CN111476034 A CN 111476034A CN 202010266180 A CN202010266180 A CN 202010266180A CN 111476034 A CN111476034 A CN 111476034A
- Authority
- CN
- China
- Prior art keywords
- data
- extraction
- rule
- model
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 83
- 238000002372 labelling Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000013480 data collection Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 10
- 238000009825 accumulation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于规则和模型结合的法律文书信息抽取方法,包括:创建词典和文书实体抽取规则,采用基于规则的抽取方法进行法律文书实体抽取;将抽取结果作为初次标注数据进行数据标注操作、训练模型以及发布模型;采用基于规则和模型相结合的抽取方法进行法律文书实体抽取,选取评估结果高的为输出结果;对结果进行评估,如果满足要求则结束;如果不满足要求继续迭代。还公开了一种法律文书信息抽取系统,包括数据采集模块、信息提取模块、数据标注模块、数据集管理模块和评估模块。本发明将规则与模型的方法有效结合、形成互补,提高法律文书信息提取效果,同时系统可拓展性、移植性更强。
Description
技术领域
本发明涉及信息提取技术领域,具体的说,是一种基于规则和模型结合的法律文书信息抽取方法及系统。
背景技术
信息提取技术是自然语言处理基础应用技术,随着深度学习技术的发展,近年来,该技术发展迅速,在垂直领域应用广泛,政法行业也不例外。AI技术的应用使得机器可以帮助处理线下活动、辅助司法人员办案。办案所需数据大部分来源于案件相关文书,这就需要采用信息提取技术将文书非结构数据转换为办案所需的结构化数据。当前,信息提取技术在法律文书的信息提取中取得了一定的效果,但也未达到最理想的状态。在业务应用中,采用基于模型的方法需要大量训练数据作为支撑,由于行业保密要求而难以获得大量的数据,因此基于模型的方法难以发挥最大性能,在有数据的情况下也需要投入人工标注成本;而在没有训练数据的情况下存在冷启动的问题。法律文书文本数据可以理解为半结构化数据,可以采用基于规则的方法解决部分问题,可以达到更高的正确率,但规则维护困难、拓展性差、不可能枚举所有的规则。现有技术中尚没有一种有效的方法,解决上述问题。
发明内容
本发明的目的在于提供一种基于规则和模型结合的法律文书信息抽取方法及系统,用于解决现有技术中单独的模型训练无法得到大量训练数据、采用规则提取数据存在规则维护困难、拓展性差、不可能枚举所有的规则的问题。
本发明通过下述技术方案解决上述问题:
一种基于规则和模型结合的法律文书信息抽取方法,包括:
步骤S100:收集法律行业专业术语、业务术语创建领域词典,根据业务需求梳理抽取实体,再根据法律文书行文规则配置文书实体抽取规则,采用基于规则的抽取方法进行法律文书实体抽取;
步骤S200:对抽取结果进行评估,并根据评估结果修改文书实体抽取规则和词典;
步骤S300:将抽取结果作为初次标注数据进行数据标注操作,所述数据标注操作包括WEB页面数据标注确认和修改、使用初次标注数据训练模型以及发布模型;
步骤S400:采用基于规则和模型相结合的抽取方法进行法律文书实体抽取,选取评估结果高的为输出结果;
步骤S500:对结果进行评估,如果满足要求则结束;如果不满足要求,返回步骤200。
本发明首先基于规则进行抽取,对抽取结果评估并且进行修改和完善规则,再将抽取结果作为初始标注数据进行训练模型,然后基于规则和模型的结合进行抽取、评估,如果不符合要求,继续修改词典和规则,直到符合要求为止。将规则与模型的方法有效结合,训练模型的数据直接由初始标注数据得到,克服了单独的模型训练无法得到大量训练数据的问题,根据规则和模型结合抽取结果的评估结果针对性的修改规则和词典,克服了单纯采用规则提取数据不可能枚举所有规则的问题。
所述基于规则的抽取方法包括基于规则的文本段落分类处理、主语识别处理和基于规则的要素抽取处理。
所述基于规则的文本段落分类处理是根据段落起始文本和结束文本进行粗分类,然后加入过滤筛选条件进行筛选,包括段落起始规则、段落结束规则、和段落筛选规则。
所述基于规则的要素抽取处理是指根据待抽取要素的前后文表述规则进行抽取,包括截断规则、具体抽取规则和数据归一化规则。
所述模型为基于BERT的实体识别模型。主动学习的思想是指随着标注数据的积累,模型训练可以实时进行,数据标注结果可以进行模型预测和实时推荐,标注和模型训练是相互推动的过程,既可以保证标注的质量也可提高标注效率。
一种基于规则和模型结合的法律文书信息抽取系统,包括数据采集模块、信息提取模块、数据标注模块、数据集管理模块和评估模块,其中:
数据采集模块,用于采集配置词典所需的专业术语和业务术语以及根据业务需求从业务系统采集业务数据;采集的数据供数据标注模块和信息提取模块使用;
数据集管理模块,用于承担与法律文书相关的训练集、词典、实体、抽取规则等数据的管理,管理的数据供信息提取模块使用;
信息提取模块,采用基于词性标注规则和基于BERT模型相结合的信息抽取方法抽取法律文书实体;为法律文书抽取业务提供支持,抽取结果供上层业务应用和数据标注模块使用;
数据标注模块,对抽取的法律文书实体采用主动学习思想,使用后端主动学习模型动态地推荐标注标签、结合WEB标注页面进行快速标注以及对标注完成的数据进行模型训练和模型发布;
评估模块,对抽取的法律文书实体进行精确度评估和召回率评估,并反馈至数据集管理模块促使数据集管理模块修改和优化词典和抽取规则。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明将规则与模型的方法有效结合、形成互补,提高法律文书信息提取效果。
(2)本发明综合了基于规则和基于模型的抽取方法优点,避免了冷启动问题,同时系统可拓展性、移植性更强。
附图说明
图1为本发明的流程图;
图2为本发明的系统框图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
结合附图1所示,一种基于规则和模型结合的法律文书信息抽取方法,
首先,收集法律行业专业术语、业务术语等创建领域词典;
其次,根据业务需求梳理抽取实体,再根据法律文书行文规则配置文书实体抽取规则;
然后,采用基于规则的方法进行法律文书实体抽取并采用抽取实体精确度和召回率作为指标对结果进行评估,根据评估结果对规则和词典进行修改调整,同时将抽取结果作为初次标注数据送入数据标注模块进行确认和修改、然后训练模型、发布模型;基于规则的文本段落分类处理、主语识别处理、基于规则的要素抽取处理,基于规则的文本段落分类处理是指根据段落起始文本和结束文本进行粗分类,然后加入过滤筛选条件进行筛选。所述规则包括段落起始规则、段落结束规则、段落筛选规则;基于规则的要素抽取处理是指根据待抽取要素的前后文表述规则进行抽取。所述规则包括截断规则、具体抽取方法、数据归一化规则
发布模型后,采用基于规则和模型相结合的方法进行法律文书实体抽取,同样对结果进行评估,如果结果不达要求则继续修改规则和词典、标注数据、训练模型、发布模型、抽取、对结果评估,直到评估结果达到要求为止。
数据标注操作包括WEB页面数据标注确认、修改,使用标注数据训练模型、发布模型。模型为基于BERT的实体识别模型。数据标注模块采用主动学习的思想是指随着标注数据的积累,模型训练可以实时进行,数据标注结果可以模型预测实时推荐,标注和模型训练是相互推动的过程,既可以保证标注的质量也可提高标注效率。
本实施例的基于规则和模型相结合的信息抽取方法综合了基于规则和基于模型的抽取方法优点,不仅避免了无训练集冷启动问题,还有效利用结果数据,提高训练集标注效率,同时对结果进行评估,促使方法效果提升,提高法律文书信息抽取效果。
实施例2:
结合附图2,一种基于规则和模型结合的法律文书信息抽取系统,包括:
数据采集模块,用于业务应用系统业务数据采集和法律文书数据获取,采集的数据供主动学习文本标注模块和信息提取模块使用,数据采集模块从三个方面收集数据,一是采用爬虫获取互联网公共数据,二是从第三方获取数据,三是从业务系统获取数据。
信息提取模块,主要包括基于词性标注规则的信息提取技术和基于模型的信息提取技术,为法律文书抽取业务提供技术支撑。处理结果数据供上层业务应用和数据标注模块中的主动学习文本标注工具使用。主动学习文本标注工具包括WEB标注页面和智能算法,智能算法包括SVM、CRF等传统算法和基于BERT的深度学习算法。
数据标注模块,采用主动学习思想,使用后端主动学习模型动态地推荐标注标签,结合WEB标注页面可快速实现标注。标注好的数据可实时训练且部署。该模块为NLP(自然语言)处理提供模型及标注数据。
数据集管理模块,主要承担法律文书相关的训练集、词典、实体、抽取规则等数据的管理和配置。管理的数据供信息提取模块使用以及其他业务拓展使用。
评估模块,是数据集管理模块和NLP处理的衔接模块,主要是对NLP任务和数据质量的评估,根据评估的结论促使数据集的修改和管理以及NLP任务效果的把控和提升。
首先通过数据采集模块收集法律文书数据,通过数据集管理模块对抽取规则和词典进行配置,数据提取模块通过基于规则的信息提取方法进行抽取,根据评估模块的评估结果对词典和规则进行修改,同时使用数据标注模块对抽取结果进行标注、训练和发布模型,然后使用规则和模型相结合的方法进行抽取,使用评估方法对抽取结果进行筛选,若结果不达要求则从数据集管理模块开始继续迭代直到结果达到要求为止。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (6)
1.一种基于规则和模型结合的法律文书信息抽取方法,其特征在于,包括:
步骤S100:配置文书实体抽取规则和词典,采用基于规则的抽取方法进行法律文书实体抽取,
步骤S200:对抽取结果进行评估,并根据评估结果修改文书实体抽取规则和词典;
步骤S300:将抽取结果作为初次标注数据进行数据标注操作,所述数据标注操作包括WEB页面数据标注确认和修改、使用初次标注数据训练模型以及发布模型;
步骤S400:采用基于规则和模型相结合的抽取方法进行法律文书实体抽取,选取评估结果高的为输出结果;
步骤S500:判断抽取结果是否满足要求,若满足,结束;否则返回步骤200。
2.根据权利要求1所述的基于规则和模型结合的法律文书信息抽取方法,其特征在于,所述基于规则的抽取方法包括基于规则的文本段落分类处理、主语识别处理和基于规则的要素抽取处理。
3.根据权利要求2所述的基于规则和模型结合的法律文书信息抽取方法,其特征在于,所述基于规则的文本段落分类处理是根据段落起始文本和结束文本进行粗分类,然后加入过滤筛选条件进行筛选。
4.根据权利要求2所述的基于规则和模型结合的法律文书信息抽取方法,其特征在于,所述基于规则的要素抽取处理是指根据待抽取要素的前后文表述规则进行抽取。
5.根据权利要求1所述的基于规则和模型结合的法律文书信息抽取方法,其特征在于,所述模型为基于BERT的实体识别模型。
6.一种基于规则和模型结合的法律文书信息抽取系统,其特征在于,包括数据采集模块、信息提取模块、数据标注模块、数据集管理模块和评估模块,其中:
数据采集模块,用于采集配置词典所需的专业术语和业务术语以及根据业务需求从业务系统采集业务数据;
数据集管理模块,用于训练集、词典、实体、抽取规则的管理,管理的数据供信息提取模块使用;
信息提取模块,采用基于规则和BERT模型相结合的信息抽取方法抽取法律文书实体;
数据标注模块,对抽取的法律文书实体采用后端主动学习模型动态地推荐标注标签、结合WEB标注页面进行标注以及对标注完成的数据进行模型训练和模型发布;
评估模块,对抽取的法律文书实体进行精确度评估和召回率评估,并反馈至数据集管理模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266180.3A CN111476034B (zh) | 2020-04-07 | 2020-04-07 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266180.3A CN111476034B (zh) | 2020-04-07 | 2020-04-07 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476034A true CN111476034A (zh) | 2020-07-31 |
CN111476034B CN111476034B (zh) | 2023-05-12 |
Family
ID=71750100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010266180.3A Active CN111476034B (zh) | 2020-04-07 | 2020-04-07 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476034B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364649A (zh) * | 2020-09-08 | 2021-02-12 | 平安医疗健康管理股份有限公司 | 命名实体的识别方法、装置、计算机设备及存储介质 |
CN112784578A (zh) * | 2021-03-16 | 2021-05-11 | 北京华宇元典信息服务有限公司 | 法律要素提取方法、装置和电子设备 |
WO2022100357A1 (zh) * | 2020-11-12 | 2022-05-19 | 福建亿榕信息技术有限公司 | 一种构建部署文本实体关系提取模型的方法和存储设备 |
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
CN115906844A (zh) * | 2022-11-02 | 2023-04-04 | 中国兵器工业计算机应用技术研究所 | 一种基于规则模板的信息抽取方法和系统 |
Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107102980A (zh) * | 2016-02-19 | 2017-08-29 | 北京国双科技有限公司 | 情感信息的提取方法及装置 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
US10002129B1 (en) * | 2017-02-15 | 2018-06-19 | Wipro Limited | System and method for extracting information from unstructured text |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108614814A (zh) * | 2018-04-20 | 2018-10-02 | 广东工业大学 | 一种评价信息的抽取方法、装置及设备 |
CN108959375A (zh) * | 2018-05-24 | 2018-12-07 | 南京网感至察信息科技有限公司 | 一种基于规则与深度学习的知识抽取方法 |
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
CN109783604A (zh) * | 2018-12-14 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于少量样本的信息提取方法、装置和计算机设备 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件系统有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN110059193A (zh) * | 2019-06-21 | 2019-07-26 | 南京擎盾信息科技有限公司 | 基于法律语义件与文书大数据统计分析的法律咨询系统 |
CN110059176A (zh) * | 2019-02-28 | 2019-07-26 | 南京大学 | 一种基于规则的通用文本信息抽取和信息生成方法 |
CN110245346A (zh) * | 2018-03-09 | 2019-09-17 | 北京国双科技有限公司 | 事件信息分析方法及装置 |
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
CN110309393A (zh) * | 2019-03-28 | 2019-10-08 | 平安科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN110532386A (zh) * | 2019-08-12 | 2019-12-03 | 新华三大数据技术有限公司 | 文本情感分类方法、装置、电子设备及存储介质 |
CN110569405A (zh) * | 2019-08-26 | 2019-12-13 | 中电科大数据研究院有限公司 | 一种基于bert的政务公文本体概念抽取方法 |
CN110597997A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 |
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN110675023A (zh) * | 2019-08-22 | 2020-01-10 | 中国司法大数据研究院有限公司 | 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置 |
CN110688856A (zh) * | 2019-10-08 | 2020-01-14 | 杭州费尔斯通科技有限公司 | 一种裁判文书信息提取方法 |
CN110765889A (zh) * | 2019-09-29 | 2020-02-07 | 平安直通咨询有限公司上海分公司 | 法律文书的特征提取方法、相关装置及存储介质 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN110807328A (zh) * | 2019-10-25 | 2020-02-18 | 华南师范大学 | 面向法律文书多策略融合的命名实体识别方法及系统 |
CN110837558A (zh) * | 2019-11-07 | 2020-02-25 | 成都星云律例科技有限责任公司 | 一种裁判文书实体关系抽取方法及系统 |
CN110866125A (zh) * | 2019-11-14 | 2020-03-06 | 北京京航计算通讯研究所 | 基于bert算法模型的知识图谱构建系统 |
CN110956026A (zh) * | 2019-11-28 | 2020-04-03 | 北京华宇元典信息服务有限公司 | 法律文书生成方法、生成装置和电子设备 |
-
2020
- 2020-04-07 CN CN202010266180.3A patent/CN111476034B/zh active Active
Patent Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107102980A (zh) * | 2016-02-19 | 2017-08-29 | 北京国双科技有限公司 | 情感信息的提取方法及装置 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
US10002129B1 (en) * | 2017-02-15 | 2018-06-19 | Wipro Limited | System and method for extracting information from unstructured text |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN110245346A (zh) * | 2018-03-09 | 2019-09-17 | 北京国双科技有限公司 | 事件信息分析方法及装置 |
CN108614814A (zh) * | 2018-04-20 | 2018-10-02 | 广东工业大学 | 一种评价信息的抽取方法、装置及设备 |
CN108959375A (zh) * | 2018-05-24 | 2018-12-07 | 南京网感至察信息科技有限公司 | 一种基于规则与深度学习的知识抽取方法 |
CN109783604A (zh) * | 2018-12-14 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于少量样本的信息提取方法、装置和计算机设备 |
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
CN110059176A (zh) * | 2019-02-28 | 2019-07-26 | 南京大学 | 一种基于规则的通用文本信息抽取和信息生成方法 |
CN110309393A (zh) * | 2019-03-28 | 2019-10-08 | 平安科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件系统有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
CN110059193A (zh) * | 2019-06-21 | 2019-07-26 | 南京擎盾信息科技有限公司 | 基于法律语义件与文书大数据统计分析的法律咨询系统 |
CN110597997A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 |
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN110532386A (zh) * | 2019-08-12 | 2019-12-03 | 新华三大数据技术有限公司 | 文本情感分类方法、装置、电子设备及存储介质 |
CN110675023A (zh) * | 2019-08-22 | 2020-01-10 | 中国司法大数据研究院有限公司 | 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置 |
CN110569405A (zh) * | 2019-08-26 | 2019-12-13 | 中电科大数据研究院有限公司 | 一种基于bert的政务公文本体概念抽取方法 |
CN110765889A (zh) * | 2019-09-29 | 2020-02-07 | 平安直通咨询有限公司上海分公司 | 法律文书的特征提取方法、相关装置及存储介质 |
CN110688856A (zh) * | 2019-10-08 | 2020-01-14 | 杭州费尔斯通科技有限公司 | 一种裁判文书信息提取方法 |
CN110807328A (zh) * | 2019-10-25 | 2020-02-18 | 华南师范大学 | 面向法律文书多策略融合的命名实体识别方法及系统 |
CN110837558A (zh) * | 2019-11-07 | 2020-02-25 | 成都星云律例科技有限责任公司 | 一种裁判文书实体关系抽取方法及系统 |
CN110866125A (zh) * | 2019-11-14 | 2020-03-06 | 北京京航计算通讯研究所 | 基于bert算法模型的知识图谱构建系统 |
CN110956026A (zh) * | 2019-11-28 | 2020-04-03 | 北京华宇元典信息服务有限公司 | 法律文书生成方法、生成装置和电子设备 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
Non-Patent Citations (2)
Title |
---|
丁龙;文雯;林强;: "基于预训练BERT字嵌入模型的领域实体识别" * |
王亚;黄河燕;冯冲;刘全超;: "基于级联模型的中文情感要素抽取", 电子学报 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364649A (zh) * | 2020-09-08 | 2021-02-12 | 平安医疗健康管理股份有限公司 | 命名实体的识别方法、装置、计算机设备及存储介质 |
CN112364649B (zh) * | 2020-09-08 | 2022-07-19 | 深圳平安医疗健康科技服务有限公司 | 命名实体的识别方法、装置、计算机设备及存储介质 |
WO2022100357A1 (zh) * | 2020-11-12 | 2022-05-19 | 福建亿榕信息技术有限公司 | 一种构建部署文本实体关系提取模型的方法和存储设备 |
CN112784578A (zh) * | 2021-03-16 | 2021-05-11 | 北京华宇元典信息服务有限公司 | 法律要素提取方法、装置和电子设备 |
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
CN115906844A (zh) * | 2022-11-02 | 2023-04-04 | 中国兵器工业计算机应用技术研究所 | 一种基于规则模板的信息抽取方法和系统 |
CN115906844B (zh) * | 2022-11-02 | 2023-08-29 | 中国兵器工业计算机应用技术研究所 | 一种基于规则模板的信息抽取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111476034B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476034A (zh) | 基于规则和模型结合的法律文书信息抽取方法及系统 | |
Mathew et al. | Docvqa: A dataset for vqa on document images | |
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN111708773B (zh) | 一种多源科创资源数据融合方法 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN104298651A (zh) | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统 | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN113177124A (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN109460725B (zh) | 小票消费明细内容融合及提取方法、设备以及存储介质 | |
CN113822026B (zh) | 一种多标签实体标注方法 | |
CN110442720A (zh) | 一种基于lstm卷积神经网络的多标签文本分类方法 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN112101014B (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN106777336A (zh) | 一种基于深度学习的公司名成分抽取系统和方法 | |
CN115470871A (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 | |
CN112685513A (zh) | 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 | |
CN117076693A (zh) | 一种数字人教师多模态大语言模型预训练学科语料库的构建方法 | |
CN116561311A (zh) | 基于大语言模型的引文文本自动分类方法 | |
CN103377403A (zh) | 企业业务组件建模方法和系统 | |
WO2022087688A1 (en) | System and method for text mining | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
Lee et al. | Energy-efficient knowledge distillation for spiking neural networks | |
CN110162684A (zh) | 基于深度学习的机器阅读理解数据集构建以及评估方法 | |
CN110020024A (zh) | 一种科技文献中链接资源的分类方法、系统、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |