CN111783420A - 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 - Google Patents
基于bert模型的抗诉书要素抽取方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN111783420A CN111783420A CN202010566920.5A CN202010566920A CN111783420A CN 111783420 A CN111783420 A CN 111783420A CN 202010566920 A CN202010566920 A CN 202010566920A CN 111783420 A CN111783420 A CN 111783420A
- Authority
- CN
- China
- Prior art keywords
- complaint
- paragraph
- information
- book
- bert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 67
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000008520 organization Effects 0.000 claims abstract description 9
- 230000010354 integration Effects 0.000 claims abstract description 7
- 238000007689 inspection Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于BERT模型的抗诉书要素抽取方法、系统、介质及设备,包括:步骤1:根据段落标志信息,利用段落标志对刑事抗诉书文本进行段落划分,获取以下任一种或者任多种段落信息;步骤2:根据段落对应要素抽取控制信息,通过要素抽取单元从四个段落中抽取段落对应要素;步骤3:根据要素组织整合信息,将所述抽取得到的要素进行组织整合,得到整个刑事抗诉书文本的要素,获取基于BERT模型的抗诉书要素抽取结果信息。本发明通过微调BERT模型并进行针对性优化、改进TextTeaser抽取式文本摘要算法、建立案由词典,有效从刑事抗诉书中抽取12项要素,解决了刑事抗诉书要素抽取效率低、准确度差的问题。
Description
技术领域
本发明涉及BERT模型技术领域,具体地,涉及基于BERT模型的抗诉书要素抽取方法、系统、介质及设备,尤其是一种基于BERT模型的刑事抗诉书要素抽取方法、系统、介质及设备。
背景技术
目前,检察系统正经历着深层次变革,面临着重大机遇和挑战,审判活动监督实务中缺乏有效的支撑工具和方法,办案人员依靠人工方式开展监督工作。对于刑事抗诉书的要素抽取,多为人工标记,效率低下,准确率低。
专利文献CN110765889A的中国专利,公开了“法律文书的特征提取方法、相关装置及存储介质”,这种法律文书的特征提取方法,虽然能够对法律文书进行特征提取,但却缺乏针对审判监督领域深入研究,提取特征数量少,不充分,不具体;虽然能够融合三种网络(TextCNN,TextRNN,TextRCNN)实现了神经网络模型,但未能结合准确度更高,效果更好,更新颖的BERT模型进行使用。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于BERT模型的抗诉书要素抽取方法、系统、介质及设备。
根据本发明提供的一种基于BERT模型的抗诉书要素抽取方法,包括:步骤1:根据段落标志信息,利用段落标志对刑事抗诉书文本进行段落划分,获取以下任一种或者任多种段落信息:-文本头部段落信息;-审查意见段落信息;-抗诉理由段落信息;-结束段落信息;步骤2:根据段落对应要素抽取控制信息,通过要素抽取单元从四个段落中抽取段落对应要素;所述要素抽取单元包括以下任一种或者任多种:-Bert+Dense网络单元;-Bert+BiLSTM+CRF网络单元;-TextTeaser改进算法单元;-案由抽取单元;-正则表达式单元;步骤3:根据要素组织整合信息,将所述抽取得到的要素进行组织整合,得到整个刑事抗诉书文本的要素,获取基于BERT模型的抗诉书要素抽取结果信息。
优选地,所述步骤2包括:步骤2.1:通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据;从检察院观点段落抽取审查意见;从结束段落抽取抗诉时间;通过案由抽取单元从文书头部段落抽取案由;
优选地,所述步骤2还包括:步骤2.2:通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。
优选地,所述步骤2还包括:步骤2.3:通过Bert+Dense网络单元从观点详述段落生成抗诉标签;步骤2.4:通过TextTeaser改进算法单元从观点详述段落生成案件描述;其中输入标题内容时,用到了步骤2.1抽取到的审查意见。
根据本发明提供的一种基于BERT模型的抗诉书要素抽取系统,包括:模块M1:根据段落标志信息,利用段落标志对刑事抗诉书文本进行段落划分,获取以下任一种或者任多种段落信息:-文本头部段落信息;-审查意见段落信息;-抗诉理由段落信息;-结束段落信息;模块M2:根据段落对应要素抽取控制信息,通过要素抽取单元从四个段落中抽取段落对应要素;所述要素抽取单元包括以下任一种或者任多种:-Bert+Dense网络单元;-Bert+BiLSTM+CRF网络单元;-TextTeaser改进算法单元;-案由抽取单元;-正则表达式单元;模块M3:根据要素组织整合信息,将所述抽取得到的要素进行组织整合,得到整个刑事抗诉书文本的要素,获取基于BERT模型的抗诉书要素抽取结果信息。
优选地,所述模块M2包括:模块M2.1:通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据;从检察院观点段落抽取审查意见;从结束段落抽取抗诉时间;通过案由抽取单元从文书头部段落抽取案由;
优选地,所述模块M2还包括:模块M2.2:通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。
优选地,所述模块M2还包括:模块M2.3:通过Bert+Dense网络单元从观点详述段落生成抗诉标签;模块M2.4:通过TextTeaser改进算法单元从观点详述段落生成案件描述;其中输入标题内容时,用到了模块M2.1抽取到的审查意见。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现基于BERT模型的抗诉书要素抽取方法的步骤。
根据本发明提供的一种基于BERT模型的抗诉书要素抽取设备,包括:控制器;所述控制器包存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现基于BERT模型的抗诉书要素抽取方法的步骤;或者,所述控制器包括基于BERT模型的抗诉书要素抽取系统。
与现有技术相比,本发明具有如下的有益效果:
1、本发明基于BERT模型、TextTeaser改进算法对刑事抗诉书中“抗诉书号、判决书号、检察院、法院、案件主体、原判决、案由、审查意见、案件描述、抗诉标签、法律依据、抗诉时间共12项要素”进行要素抽取,能够克服现有技术的缺陷;
2、本发明中,微调BERT模型进行多标签分类、命名实体识别时,在网络结构、损失函数、额外预训练三个方面上进行了针对性的优化;
3、本发明中,TextTeaser改进算法中加入了刑事抗诉书特征及列项句分数计算、改进对句子位置的权重计算方法;抽取案由要素时建立了案由词典,采用案由词典匹配与案由语法结构分析相结合的方法抽取案由要素;
4、本发明通过微调BERT模型并进行针对性优化、改进TextTeaser抽取式文本摘要算法、建立案由词典,有效从刑事抗诉书中抽取12项要素,解决了刑事抗诉书要素抽取效率低、准确度差的问题。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例中要素抽取流程示意图。
图2为本发明实施例中要素抽取单元示意图。
图3为本发明实施例中Bert+Dense网络单元示意图。
图4为本发明实施例中Bert+BiLSTM+CRF网络单元示意图。
图5为本发明实施例中TextTeaser改进算法单元示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1-5所示,根据本发明提供的一种基于BERT模型的抗诉书要素抽取方法,包括:步骤1:根据段落标志信息,利用段落标志对刑事抗诉书文本进行段落划分,获取以下任一种或者任多种段落信息:-文本头部段落信息;-审查意见段落信息;-抗诉理由段落信息;-结束段落信息;步骤2:根据段落对应要素抽取控制信息,通过要素抽取单元从四个段落中抽取段落对应要素;所述要素抽取单元包括以下任一种或者任多种:-Bert+Dense网络单元;-Bert+BiLSTM+CRF网络单元;-TextTeaser改进算法单元;-案由抽取单元;-正则表达式单元;步骤3:根据要素组织整合信息,将所述抽取得到的要素进行组织整合,得到整个刑事抗诉书文本的要素,获取基于BERT模型的抗诉书要素抽取结果信息。
优选地,所述步骤2包括:步骤2.1:通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据;从检察院观点段落抽取审查意见;从结束段落抽取抗诉时间;通过案由抽取单元从文书头部段落抽取案由;
优选地,所述步骤2还包括:步骤2.2:通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。
优选地,所述步骤2还包括:步骤2.3:通过Bert+Dense网络单元从观点详述段落生成抗诉标签;步骤2.4:通过TextTeaser改进算法单元从观点详述段落生成案件描述;其中输入标题内容时,用到了步骤2.1抽取到的审查意见。
根据本发明提供的一种基于BERT模型的抗诉书要素抽取系统,包括:模块M1:根据段落标志信息,利用段落标志对刑事抗诉书文本进行段落划分,获取以下任一种或者任多种段落信息:-文本头部段落信息;-审查意见段落信息;-抗诉理由段落信息;-结束段落信息;模块M2:根据段落对应要素抽取控制信息,通过要素抽取单元从四个段落中抽取段落对应要素;所述要素抽取单元包括以下任一种或者任多种:-Bert+Dense网络单元;-Bert+BiLSTM+CRF网络单元;-TextTeaser改进算法单元;-案由抽取单元;-正则表达式单元;模块M3:根据要素组织整合信息,将所述抽取得到的要素进行组织整合,得到整个刑事抗诉书文本的要素,获取基于BERT模型的抗诉书要素抽取结果信息。
优选地,所述模块M2包括:模块M2.1:通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据;从检察院观点段落抽取审查意见;从结束段落抽取抗诉时间;通过案由抽取单元从文书头部段落抽取案由;
优选地,所述模块M2还包括:模块M2.2:通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。
优选地,所述模块M2还包括:模块M2.3:通过Bert+Dense网络单元从观点详述段落生成抗诉标签;模块M2.4:通过TextTeaser改进算法单元从观点详述段落生成案件描述;其中输入标题内容时,用到了模块M2.1抽取到的审查意见。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现基于BERT模型的抗诉书要素抽取方法的步骤。
根据本发明提供的一种基于BERT模型的抗诉书要素抽取设备,包括:控制器;所述控制器包存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现基于BERT模型的抗诉书要素抽取方法的步骤;或者,所述控制器包括基于BERT模型的抗诉书要素抽取系统。
本发明基于BERT模型、TextTeaser改进算法对刑事抗诉书中“抗诉书号、判决书号、检察院、法院、案件主体、原判决、案由、审查意见、案件描述、抗诉标签、法律依据、抗诉时间共12项要素”进行要素抽取,能够克服现有技术的缺陷;本发明中,微调BERT模型进行多标签分类、命名实体识别时,在网络结构、损失函数、额外预训练三个方面上进行了针对性的优化;本发明中,TextTeaser改进算法中加入了刑事抗诉书特征及列项句分数计算、改进对句子位置的权重计算方法;抽取案由要素时建立了案由词典,采用案由词典匹配与案由语法结构分析相结合的方法抽取案由要素。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、单元、系统以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、单元、系统以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、单元、系统可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、单元、系统也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、单元、系统视为既可以是实现方法的软件单元又可以是硬件部件内的结构。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于BERT模型的抗诉书要素抽取方法,其特征在于,包括:
步骤1:根据段落标志信息,利用段落标志对刑事抗诉书文本进行段落划分,获取以下任一种或者任多种段落信息:
-文本头部段落信息;
-审查意见段落信息;
-抗诉理由段落信息;
-结束段落信息;
步骤2:根据段落对应要素抽取控制信息,通过要素抽取单元从四个段落中抽取段落对应要素;
所述要素抽取单元包括以下任一种或者任多种:
-Bert+Dense网络单元;
-Bert+BiLSTM+CRF网络单元;
-TextTeaser改进算法单元;
-案由抽取单元;
-正则表达式单元;
步骤3:根据要素组织整合信息,将所述抽取得到的要素进行组织整合,得到整个刑事抗诉书文本的要素,获取基于BERT模型的抗诉书要素抽取结果信息。
2.根据权利要求1所述的基于BERT模型的抗诉书要素抽取方法,其特征在于,所述步骤2包括:
步骤2.1:通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据;从检察院观点段落抽取审查意见;从结束段落抽取抗诉时间;通过案由抽取单元从文书头部段落抽取案由。
3.根据权利要求2所述的基于BERT模型的抗诉书要素抽取方法,其特征在于,所述步骤2还包括:
步骤2.2:通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。
4.根据权利要求3所述的基于BERT模型的抗诉书要素抽取方法,其特征在于,所述步骤2还包括:
步骤2.3:通过Bert+Dense网络单元从观点详述段落生成抗诉标签;
步骤2.4:通过TextTeaser改进算法单元从观点详述段落生成案件描述;
其中输入标题内容时,用到了步骤2.1抽取到的审查意见。
5.一种基于BERT模型的抗诉书要素抽取系统,其特征在于,包括:
模块M1:根据段落标志信息,利用段落标志对刑事抗诉书文本进行段落划分,获取以下任一种或者任多种段落信息:
-文本头部段落信息;
-审查意见段落信息;
-抗诉理由段落信息;
-结束段落信息;
模块M2:根据段落对应要素抽取控制信息,通过要素抽取单元从四个段落中抽取段落对应要素;
所述要素抽取单元包括以下任一种或者任多种:
-Bert+Dense网络单元;
-Bert+BiLSTM+CRF网络单元;
-TextTeaser改进算法单元;
-案由抽取单元;
-正则表达式单元;
模块M3:根据要素组织整合信息,将所述抽取得到的要素进行组织整合,得到整个刑事抗诉书文本的要素,获取基于BERT模型的抗诉书要素抽取结果信息。
6.根据权利要求5所述的基于BERT模型的抗诉书要素抽取系统,其特征在于,所述模块M2包括:
模块M2.1:通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据;从检察院观点段落抽取审查意见;从结束段落抽取抗诉时间;通过案由抽取单元从文书头部段落抽取案由。
7.根据权利要求6所述的基于BERT模型的抗诉书要素抽取系统,其特征在于,所述模块M2还包括:
模块M2.2:通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。
8.根据权利要求7所述的基于BERT模型的抗诉书要素抽取系统,其特征在于,所述模块M2还包括:
模块M2.3:通过Bert+Dense网络单元从观点详述段落生成抗诉标签;
模块M2.4:通过TextTeaser改进算法单元从观点详述段落生成案件描述;
其中输入标题内容时,用到了模块M2.1抽取到的审查意见。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于BERT模型的抗诉书要素抽取方法的步骤。
10.一种基于BERT模型的抗诉书要素抽取设备,其特征在于,包括:控制器;
所述控制器包括权利要求9所述的存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于BERT模型的抗诉书要素抽取方法的步骤;或者,所述控制器包括权利要求5至8中任一项所述的基于BERT模型的抗诉书要素抽取系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566920.5A CN111783420A (zh) | 2020-06-19 | 2020-06-19 | 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566920.5A CN111783420A (zh) | 2020-06-19 | 2020-06-19 | 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111783420A true CN111783420A (zh) | 2020-10-16 |
Family
ID=72756756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010566920.5A Pending CN111783420A (zh) | 2020-06-19 | 2020-06-19 | 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783420A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434535A (zh) * | 2020-11-24 | 2021-03-02 | 上海浦东发展银行股份有限公司 | 基于多模型的要素抽取方法、装置、设备及存储介质 |
CN112541075A (zh) * | 2020-10-30 | 2021-03-23 | 中科曙光南京研究院有限公司 | 一种警情文本的标准案发时间提取方法及系统 |
CN112836501A (zh) * | 2021-01-18 | 2021-05-25 | 同方知网(北京)技术有限公司 | 一种基于Bert+BiLSTM+CRF的知识元自动抽取方法 |
CN113220888A (zh) * | 2021-06-01 | 2021-08-06 | 上海交通大学 | 基于Ernie模型的案件线索要素抽取方法及系统 |
CN114048308A (zh) * | 2021-11-03 | 2022-02-15 | 中国司法大数据研究院有限公司 | 一种类案检索报告生成的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622046A (zh) * | 2017-09-01 | 2018-01-23 | 广州慧睿思通信息科技有限公司 | 一种根据关键词抽取文本摘要的算法 |
CN107632968A (zh) * | 2017-05-22 | 2018-01-26 | 南京大学 | 一种面向裁判文书的证据链关系模型的构建方法 |
CN108763483A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种面向裁判文书的文本信息抽取方法 |
CN109815336A (zh) * | 2019-01-28 | 2019-05-28 | 无码科技(杭州)有限公司 | 一种文本聚合方法及系统 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
-
2020
- 2020-06-19 CN CN202010566920.5A patent/CN111783420A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107632968A (zh) * | 2017-05-22 | 2018-01-26 | 南京大学 | 一种面向裁判文书的证据链关系模型的构建方法 |
CN107622046A (zh) * | 2017-09-01 | 2018-01-23 | 广州慧睿思通信息科技有限公司 | 一种根据关键词抽取文本摘要的算法 |
CN108763483A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种面向裁判文书的文本信息抽取方法 |
CN109815336A (zh) * | 2019-01-28 | 2019-05-28 | 无码科技(杭州)有限公司 | 一种文本聚合方法及系统 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541075A (zh) * | 2020-10-30 | 2021-03-23 | 中科曙光南京研究院有限公司 | 一种警情文本的标准案发时间提取方法及系统 |
CN112541075B (zh) * | 2020-10-30 | 2024-04-05 | 中科曙光南京研究院有限公司 | 一种警情文本的标准案发时间提取方法及系统 |
CN112434535A (zh) * | 2020-11-24 | 2021-03-02 | 上海浦东发展银行股份有限公司 | 基于多模型的要素抽取方法、装置、设备及存储介质 |
CN112836501A (zh) * | 2021-01-18 | 2021-05-25 | 同方知网(北京)技术有限公司 | 一种基于Bert+BiLSTM+CRF的知识元自动抽取方法 |
CN113220888A (zh) * | 2021-06-01 | 2021-08-06 | 上海交通大学 | 基于Ernie模型的案件线索要素抽取方法及系统 |
CN114048308A (zh) * | 2021-11-03 | 2022-02-15 | 中国司法大数据研究院有限公司 | 一种类案检索报告生成的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783420A (zh) | 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 | |
CN110442841B (zh) | 识别简历的方法及装置、计算机设备、存储介质 | |
Ireson et al. | Evaluating machine learning for information extraction | |
CN103729402B (zh) | 一种基于图书目录的知识图谱的构建方法 | |
CN108959566B (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN107818815B (zh) | 电子病历的检索方法及系统 | |
CN106844658A (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN105893485B (zh) | 一种基于图书目录的专题自动生成方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
ES2375403T3 (es) | Un método para la indexación automática de documentos. | |
CN106445921B (zh) | 利用二次互信息的中文文本术语抽取方法 | |
CN103577556A (zh) | 一种获取问答对的相关联程度的装置和方法 | |
CN109840532A (zh) | 一种基于k-means的法院类案推荐方法 | |
CN105068990B (zh) | 一种面向机器翻译的多策略英文长句分割方法 | |
CN104376108B (zh) | 一种基于6w语义标识的非结构化自然语言信息抽取方法 | |
CN107943514A (zh) | 一种软件文档中核心代码元素的挖掘方法及系统 | |
CN109359300A (zh) | 基于深度学习的医学文献中关键词筛选方法及装置 | |
CN113268982B (zh) | 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 | |
CN103092966A (zh) | 一种挖掘词汇的方法及装置 | |
CN106909573A (zh) | 一种评价问答对质量的方法和装置 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN106599547A (zh) | 基于标签的智能医学知识库管理系统 | |
CN109033094A (zh) | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201016 |
|
RJ01 | Rejection of invention patent application after publication |