CN111444678B - 一种基于机器阅读理解的起诉状信息抽取方法及系统 - Google Patents

一种基于机器阅读理解的起诉状信息抽取方法及系统 Download PDF

Info

Publication number
CN111444678B
CN111444678B CN202010550140.1A CN202010550140A CN111444678B CN 111444678 B CN111444678 B CN 111444678B CN 202010550140 A CN202010550140 A CN 202010550140A CN 111444678 B CN111444678 B CN 111444678B
Authority
CN
China
Prior art keywords
appeal
vector
training
sample set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010550140.1A
Other languages
English (en)
Other versions
CN111444678A (zh
Inventor
翁洋
王竹
李鑫
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Sichuan University
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, Chengdu Shuzhilian Technology Co Ltd filed Critical Sichuan University
Priority to CN202010550140.1A priority Critical patent/CN111444678B/zh
Publication of CN111444678A publication Critical patent/CN111444678A/zh
Application granted granted Critical
Publication of CN111444678B publication Critical patent/CN111444678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于机器阅读理解的起诉状信息抽取方法及系统:标注起诉状样本集得到三元样本集;将训练集输入预训练模型得到起诉状向量序列X;将裁判文书样本集中每一个样本均嵌入成向量得到文书向量序列Y;聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。本发明一种基于机器阅读理解的起诉状信息抽取方法及系统利用机器阅读理解技术自动提取起诉状中预设模板的相关信息内容,并保证信息提取精度。

Description

一种基于机器阅读理解的起诉状信息抽取方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于机器阅读理解的起诉状信息抽取方法及系统。
背景技术
起诉状,是当事人因自身合法权益遭受侵害向人民法院提起诉讼请求的文书。现行一般采用OCR识别技术将起诉状扫描件中的诉讼请求转换为可编辑的文字,再辅助于人民法院后续的审判工作。利用OCR将图片信息转换为文本信息后,采用基于正则与序列标注的模式抽取起诉状中的信息,该方法无法解决词义不完全匹配,跨句识别,是否类等司法常见问题。
发明内容
本发明所要解决的技术问题是现有的起诉状信息化处理技术无法解决词义不完全匹配,跨句识别,是否类等司法常见问题,目的在于提供一种基于机器阅读理解的起诉状信息抽取方法及系统,解决上述问题。
本发明通过下述技术方案实现:
一种基于机器阅读理解的起诉状信息抽取方法,包括以下步骤:S1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;S2:从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;S3:利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同;S4:根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;S5:将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型;S6:将需要抽取信息的起诉状输入最终模型抽取起诉状信息。
本发明应用时,为了满足人民法院围绕诉讼请求进行审判的需要,本发明以当事人向人民法院提交的起诉状为起点,实现起诉状中相关重要信息的识别。首先,处理起诉状样本集中的样本,需要从样本集中提取的信息是确定的,需要提取的信息一般是一个问题和问题对应的答案,在一个文档中会存在多个问题和与问题对应的答案,这里的文档是指起诉状样本集中的一个样本,最终形成一个三元样本集,该样本集中的每个元素都是一个由文档、问题、答案组成的三元组。
其次将三元样本集按比例划分为训练集、验证集和测试集,其中训练集用于训练,将训练集输入预训练模型得到起诉状向量序列X;同时,为了提高本发明训练结果的精度,本发明创造性的引入了裁判文书样本集,裁判文书存在大量的与起诉状匹配的问题和答案,且数据来源更加丰富,通过处理裁判文书样本集,可以提取出文书向量序列Y。
从文书向量序列Y中提取个数和起诉状向量序列X中数量相同的向量进行聚合,得到最终向量Z,用于进一步的训练预训练模型得到最终模型,这极大的提高了样本的丰富程度,从而提高模型精度。最终模型可用于起诉状的自动输入,根据事先设定好的问题模板,提取起诉状中的相关信息。
进一步的,步骤S1包括以下子步骤:归类处理需要提取的信息;将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;利用文档、问题和答案生成三元组。
进一步的,步骤S2包括以下子步骤:对三元样本集中每个元素中的问题添加第一标记;连接问题与问题对应的段落,并在问题和段落之间添加第二标记;将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和 positional embedding输入预训练模型;预训练模型根据第一标记和第二标记将token Embedding、segmentembedding 和 positional embedding的聚合向量表示为序列X。
进一步的,步骤S5包括以下子步骤:利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
进一步的,所述三元样本集还包括验证集和测试集;步骤S2还包括以下子步骤:将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型的结果,利用测试集测试预训练模型的结果。
一种基于机器阅读理解的起诉状信息抽取系统,包括:样本集标注单元:用于标注起诉状样本集进得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;模型训练单元:用于从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;文书向量序列生成单元:用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同;向量聚和单元:用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;最终模型生成单元:用于将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。信息抽取单元:用于将需要抽取信息的起诉状输入最终模型抽取信息。
进一步的,所述样本集标注单元归类处理需要提取的信息;将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应于的答案;利用文档、问题和答案生成三元组。
进一步的,模型训练单元对三元样本集中每个元素中的问题添加第一标记;连接问题与问题对应的段落,并在问题和段落之间添加第二标记;所述训练单元将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和 positionalembedding输入预训练模型;预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。
进一步的,所述最终模型生成单元通过softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于机器阅读理解的起诉状信息抽取方法及系统利用机器阅读理解技术自动提取起诉状中预设模板的相关信息内容,并保证信息提取精度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明机器阅读理解自动抽取起诉状信息流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种基于机器阅读理解的起诉状信息抽取方法,包括以下步骤:S1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;S2:从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;S3:利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同;S4:根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;S5:将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。S6:将需要抽取信息的起诉状输入最终模型抽取信息。
本实施例实施时,为了满足人民法院围绕诉讼请求进行审判的需要,本发明以当事人向人民法院提交的起诉状为起点,实现起诉状中相关重要信息的识别。首先,处理起诉状样本集中的样本,需要从样本集中提取的信息是确定的,需要提取的信息一般是一个问题和问题对应的答案,在一个文档中会存在多个问题和与问题对应的答案,这里的文档是指起诉状样本集中的一个样本,最终形成一个三元样本集,该样本集中的每个元素都是一个由文档、问题、答案组成的三元组。
其次将三元样本集按照6:2:2 划分为训练集、验证集和测试集,其中训练集用于训练,将训练集输入预训练模型得到起诉状向量序列X;同时,为了提高本发明训练结果的精度,本发明创造性的引入了裁判文书样本集,裁判文书存在大量的与起诉状匹配的问题和答案,且数据来源更加丰富,通过处理裁判文书样本集,可以提取出文书向量序列Y。
从文书向量序列Y中提取个数和起诉状向量序列X中数量相同的向量进行聚合,生成最终向量Z,用于进一步的训练预训练模型得到最终模型,这样极大的提高了样本的丰富程度,从而提高模型精度。最终模型可用于起诉状的自动输入,根据事先设定好的问题模板,提取起诉状中的相关信息。
为了进一步的说明本实施例的工作过程,步骤S1包括以下子步骤:归类处理需要提取的信息;将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;利用文档、问题和答案生成三元组。
为了进一步的说明本实施例的工作过程,步骤S2包括以下子步骤:对三元样本集中每个元素中的问题添加第一标记;连接问题与问题对应的段落,并在问题和段落之间添加第二标记;将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型;预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。
为了进一步的说明本实施例的工作过程,步骤S5包括以下子步骤:利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
为了进一步的说明本实施例的工作过程,所述三元样本集还包括验证集和测试集;步骤S2还包括以下子步骤:将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型生成的结果,并利用测试集测试预训练模型生成的结果。
一种基于机器阅读理解的起诉状信息抽取系统,包括:样本集标注单元:用于标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;模型训练单元:用于从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;文书向量序列生成单元:用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同;向量聚和单元:用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;最终模型生成单元:用于将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。信息抽取单元:用于将需要抽取信息的起诉状输入最终模型抽取信息。
为了进一步的说明本实施例的工作过程,样本集标注单元归类处理需要提取的信息;将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;利用文档、问题和答案生成三元组。
为了进一步的说明本实施例的工作过程,所述模型训练单元对三元样本集中每个元素中的问题添加第一标记;连接问题与问题对应的段落,并在问题和段落之间添加第二标记;所述训练单元将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型;预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。
为了进一步的说明本实施例的工作过程,所述最终模型生成单元利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
为了进一步的说明本实施例的工作过程,现以具体实例说明:
首先,将需要提取的信息分类。例如在劳动争议案由中,法官需要提取以下相关信息:是否签订劳动合同(填入信息:是或否),劳动合同签订日期(填入信息:日期),劳动合同起始日期(填入信息:日期),劳动合同终止日期(填入信息:日期),入职日期(填入信息:日期),离职日期(填入信息:日期),劳动合同是否解除(填入信息:是否),是否超过仲裁时效(填入信息:是否),是否申请仲裁(填入信息:是否)。
机器阅读理解技术通常需要给定一个上下文文档c,一个与之相关的问题q, 问题的答案a, 估计条件概率P(a|c,q) 。在起诉状中,我们将需提取信息的上下文篇章对应为给定的文档,设置相关的问题(例如劳动者什么时候入职),问题对应相应的答案(例如20XX年XX月XX日),答案即为我们要提取的的信息。
人工标注相关起诉状10000篇得到数据集。数据集中每一篇起诉状构成一篇文档,与之对应的是这篇起诉状中的若干问题及对应答案(所提取的信息),答案包含其在文档中的起点位置及对应的文本内容。每一篇文档(起诉状),该起诉状的若干问题,问题对应的答案构成一个<文档,问题,答案>的三元组,10000 篇起诉状即有10000个三元组,这些三元组构成最终的数据集。
将数据集按6:2:2 划分为训练集、验证集和测试集。
在本实施例中,
将训练集输入预训练模型,模型首先在问题前面添加special classificationtoken[CLS]标记,然后将问题和段落连在一起,中间使用special tokens[SEP]分开。该序列通过token Embedding、segment embedding 和 positional embedding输入预训练模型,在这一步中得到序列里的每一个token,得到一个由上述三个向量的聚合向量表示的序列X={x1,x2,….xn};
为了增强阅读理解的语义相关性,本发明同时引入自定义的外部知识。本发明利用爬虫工具爬取中国裁判文书网站上对应的相关案由的裁判文书,本发明周期性选择诉讼状时期前后一个月对应案由(如劳动争议)的裁判文书,利用篇章段落向量嵌入算法Doc2Vec将每一篇文书嵌入成向量,形成文书向量序列Y={y1,y2,….yn},其中每一项代表一篇文书向量。设置随机概率在文书向量序列Y中选择与原始序列X的个数对应的文书向量,聚合该向量得到新的向量序列Z={z1,z2,…zn}
将序列Z输入预训练模型,最终通过softmax函数将模型的最终隐藏状态转换为答案跨度(span)的概率。最终,本发明实现根据事先设定好的问题模板,自动提取输入起诉状中的相关信息。
在本实施例中,数据中起诉状数据来自某法院2018-2019年劳动争议案由起诉状,裁判文书数据来自2018年-2019年中国裁判文书网中劳动争议案由,在测试集上准确率达到90%。经验证,对比传统正则、序列标注等信息抽取技术,本发明能成功提取是否类问题,在实际应用中有显著效果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,包括以下步骤:
S1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;
S2:从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;
S3:利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同;
S4:根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;
S5:将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型;
S6:将需要抽取信息的起诉状输入最终模型抽取起诉状信息。
2.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S1包括以下子步骤:
归类处理需要提取的信息;
将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;
利用文档、问题和答案生成三元组。
3.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S2包括以下子步骤:
对三元样本集中每个元素中的问题添加第一标记;
连接问题与问题对应的段落,并在问题和段落之间添加第二标记;
将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和positional embedding输入预训练模型;
预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和positional embedding的聚合向量表示为序列X。
4.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S5包括以下子步骤:
利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
5.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,所述三元样本集还包括验证集和测试集;
步骤S2还包括以下子步骤:
将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型的结果,并利用测试集测试预训练模型的结果。
6.一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,包括:
样本集标注单元:用于标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;
模型训练单元:用于从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;
文书向量序列单元:用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同;
向量聚和单元:用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;
最终模型生成单元:用于将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型;
信息抽取单元:用于将需要抽取信息的起诉状输入最终模型抽取起诉状信息。
7.根据权利要求6所述的一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,样本集标注单元归类处理需要提取的信息;
样本集标注单元将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;
样本集标注单元利用文档、问题和答案生成三元组。
8.根据权利要求7所述的一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,模型训练单元对三元样本集中每个元素中的问题添加第一标记;
模型训练单元连接问题与问题对应的段落,并在问题和段落之间添加第二标记;
模型训练单元将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型;
预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和positional embedding的聚合向量表示为序列X。
9.根据权利要求7所述的一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,所述最终模型生成单元利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
10.根据权利要求6所述的一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,所述三元样本集还包括验证集和测试集;
模型训练单元将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型的结果,并利用测试集测试预训练模型的结果。
CN202010550140.1A 2020-06-16 2020-06-16 一种基于机器阅读理解的起诉状信息抽取方法及系统 Active CN111444678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550140.1A CN111444678B (zh) 2020-06-16 2020-06-16 一种基于机器阅读理解的起诉状信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550140.1A CN111444678B (zh) 2020-06-16 2020-06-16 一种基于机器阅读理解的起诉状信息抽取方法及系统

Publications (2)

Publication Number Publication Date
CN111444678A CN111444678A (zh) 2020-07-24
CN111444678B true CN111444678B (zh) 2020-09-22

Family

ID=71650367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550140.1A Active CN111444678B (zh) 2020-06-16 2020-06-16 一种基于机器阅读理解的起诉状信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN111444678B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808685B (zh) * 2016-03-02 2021-09-28 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
US20200042597A1 (en) * 2017-04-27 2020-02-06 Microsoft Technology Licensing, Llc Generating question-answer pairs for automated chatting
CN107220243A (zh) * 2017-05-31 2017-09-29 陈振 一种数据库交互式翻译系统
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN110826316B (zh) * 2019-11-06 2021-08-10 北京交通大学 一种应用于裁判文书中敏感信息的识别方法

Also Published As

Publication number Publication date
CN111444678A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
CN109598995B (zh) 基于贝叶斯知识跟踪模型的智能教学系统
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN111506722A (zh) 基于深度学习技术的知识图谱问答方法、装置及设备
CN109582949A (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN110069609B (zh) 裁判文书分析方法、装置、计算机设备及存储介质
CN111159356B (zh) 基于教学内容的知识图谱构建方法
CN113705218B (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN110781668A (zh) 文本信息的类型识别方法及装置
CN113946677B (zh) 基于双向循环神经网络和注意力机制的事件识别分类方法
CN114580424A (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN116304023A (zh) 一种基于nlp技术的招投标要素抽取方法、系统及存储介质
CN117112782A (zh) 一种招标公告信息提取方法
CN112668335B (zh) 一种利用命名实体识别提取营业执照结构化信息的方法
CN111444678B (zh) 一种基于机器阅读理解的起诉状信息抽取方法及系统
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
CN117077682A (zh) 基于语义识别的公文分析方法及系统
CN116611447A (zh) 一种基于深度学习方法的信息抽取和语义匹配系统及方法
CN115761235A (zh) 基于知识蒸馏的零样本语义分割方法、系统、设备及介质
CN116257618A (zh) 一种基于细粒度情感分析的多源智能旅游推荐方法
CN115690819A (zh) 一种基于大数据的识别方法及其系统
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN113961674B (zh) 一种关键信息与上市公司公告文本语义匹配方法及装置
CN113220850B (zh) 一种面向庭审阅卷的案件画像挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 610000 No. 24 south part of Wuhou District first ring road, Chengdu, Sichuan.

Patentee after: SICHUAN University

Patentee after: Chengdu shuzhilian Technology Co., Ltd

Address before: 610000 No. 24 south part of Wuhou District first ring road, Chengdu, Sichuan.

Patentee before: SICHUAN University

Patentee before: Chengdu shuzhilian Technology Co., Ltd