CN111444678A - 一种基于机器阅读理解的起诉状信息抽取方法及系统 - Google Patents
一种基于机器阅读理解的起诉状信息抽取方法及系统 Download PDFInfo
- Publication number
- CN111444678A CN111444678A CN202010550140.1A CN202010550140A CN111444678A CN 111444678 A CN111444678 A CN 111444678A CN 202010550140 A CN202010550140 A CN 202010550140A CN 111444678 A CN111444678 A CN 111444678A
- Authority
- CN
- China
- Prior art keywords
- appeal
- vector
- training
- sample set
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 128
- 238000012549 training Methods 0.000 claims abstract description 102
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于机器阅读理解的起诉状信息抽取方法及系统:标注起诉状样本集得到三元样本集;将训练集输入预训练模型得到起诉状向量序列X;将裁判文书样本集中每一个样本均嵌入成向量得到文书向量序列Y;聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。本发明一种基于机器阅读理解的起诉状信息抽取方法及系统利用机器阅读理解技术自动提取起诉状中预设模板的相关信息内容,并保证信息提取精度。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于机器阅读理解的起诉状信息抽取方法及系统。
背景技术
起诉状,是当事人因自身合法权益遭受侵害向人民法院提起诉讼请求的文书。现行一般采用OCR识别技术将起诉状扫描件中的诉讼请求转换为可编辑的文字,再辅助于人民法院后续的审判工作。利用OCR将图片信息转换为文本信息后,采用基于正则与序列标注的模式抽取起诉状中的信息,该方法无法解决词义不完全匹配,跨句识别,是否类等司法常见问题。
发明内容
本发明所要解决的技术问题是现有的起诉状信息化处理技术无法解决词义不完全匹配,跨句识别,是否类等司法常见问题,目的在于提供一种基于机器阅读理解的起诉状信息抽取方法及系统,解决上述问题。
本发明通过下述技术方案实现:
一种基于机器阅读理解的起诉状信息抽取方法,包括以下步骤:S1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;S2:从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;S3:利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同;S4:根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;S5:将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型;S6:将需要抽取信息的起诉状输入最终模型抽取起诉状信息。
本发明应用时,为了满足人民法院围绕诉讼请求进行审判的需要,本发明以当事人向人民法院提交的起诉状为起点,实现起诉状中相关重要信息的识别。首先,处理起诉状样本集中的样本,需要从样本集中提取的信息是确定的,需要提取的信息一般是一个问题和问题对应的答案,在一个文档中会存在多个问题和与问题对应的答案,这里的文档是指起诉状样本集中的一个样本,最终形成一个三元样本集,该样本集中的每个元素都是一个由文档、问题、答案组成的三元组。
其次将三元样本集按比例划分为训练集、验证集和测试集,其中训练集用于训练,将训练集输入预训练模型得到起诉状向量序列X;同时,为了提高本发明训练结果的精度,本发明创造性的引入了裁判文书样本集,裁判文书存在大量的与起诉状匹配的问题和答案,且数据来源更加丰富,通过处理裁判文书样本集,可以提取出文书向量序列Y。
从文书向量序列Y中提取个数和起诉状向量序列X中数量相同的向量进行聚合,得到最终向量Z,用于进一步的训练预训练模型得到最终模型,这极大的提高了样本的丰富程度,从而提高模型精度。最终模型可用于起诉状的自动输入,根据事先设定好的问题模板,提取起诉状中的相关信息。
进一步的,步骤S1包括以下子步骤:归类处理需要提取的信息;将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;利用文档、问题和答案生成三元组。
进一步的,步骤S2包括以下子步骤:对三元样本集中每个元素中的问题添加第一标记;连接问题与问题对应的段落,并在问题和段落之间添加第二标记;将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和 positional embedding输入预训练模型;预训练模型根据第一标记和第二标记将token Embedding、segmentembedding 和 positional embedding的聚合向量表示为序列X。
进一步的,步骤S5包括以下子步骤:利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
进一步的,所述三元样本集还包括验证集和测试集;步骤S2还包括以下子步骤:将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型的结果,利用测试集测试预训练模型的结果。
一种基于机器阅读理解的起诉状信息抽取系统,包括:样本集标注单元:用于标注起诉状样本集进得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;模型训练单元:用于从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;文书向量序列生成单元:用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同;向量聚和单元:用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;最终模型生成单元:用于将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。信息抽取单元:用于将需要抽取信息的起诉状输入最终模型抽取信息。
进一步的,所述样本集标注单元归类处理需要提取的信息;将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应于的答案;利用文档、问题和答案生成三元组。
进一步的,模型训练单元对三元样本集中每个元素中的问题添加第一标记;连接问题与问题对应的段落,并在问题和段落之间添加第二标记;所述训练单元将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和 positionalembedding输入预训练模型;预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。
进一步的,所述最终模型生成单元通过softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于机器阅读理解的起诉状信息抽取方法及系统利用机器阅读理解技术自动提取起诉状中预设模板的相关信息内容,并保证信息提取精度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明机器阅读理解自动抽取起诉状信息流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种基于机器阅读理解的起诉状信息抽取方法,包括以下步骤:S1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;S2:从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;S3:利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同;S4:根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;S5:将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。S6:将需要抽取信息的起诉状输入最终模型抽取信息。
本实施例实施时,为了满足人民法院围绕诉讼请求进行审判的需要,本发明以当事人向人民法院提交的起诉状为起点,实现起诉状中相关重要信息的识别。首先,处理起诉状样本集中的样本,需要从样本集中提取的信息是确定的,需要提取的信息一般是一个问题和问题对应的答案,在一个文档中会存在多个问题和与问题对应的答案,这里的文档是指起诉状样本集中的一个样本,最终形成一个三元样本集,该样本集中的每个元素都是一个由文档、问题、答案组成的三元组。
其次将三元样本集按照6:2:2 划分为训练集、验证集和测试集,其中训练集用于训练,将训练集输入预训练模型得到起诉状向量序列X;同时,为了提高本发明训练结果的精度,本发明创造性的引入了裁判文书样本集,裁判文书存在大量的与起诉状匹配的问题和答案,且数据来源更加丰富,通过处理裁判文书样本集,可以提取出文书向量序列Y。
从文书向量序列Y中提取个数和起诉状向量序列X中数量相同的向量进行聚合,生成最终向量Z,用于进一步的训练预训练模型得到最终模型,这样极大的提高了样本的丰富程度,从而提高模型精度。最终模型可用于起诉状的自动输入,根据事先设定好的问题模板,提取起诉状中的相关信息。
为了进一步的说明本实施例的工作过程,步骤S1包括以下子步骤:归类处理需要提取的信息;将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;利用文档、问题和答案生成三元组。
为了进一步的说明本实施例的工作过程,步骤S2包括以下子步骤:对三元样本集中每个元素中的问题添加第一标记;连接问题与问题对应的段落,并在问题和段落之间添加第二标记;将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型;预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。
为了进一步的说明本实施例的工作过程,步骤S5包括以下子步骤:利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
为了进一步的说明本实施例的工作过程,所述三元样本集还包括验证集和测试集;步骤S2还包括以下子步骤:将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型生成的结果,并利用测试集测试预训练模型生成的结果。
一种基于机器阅读理解的起诉状信息抽取系统,包括:样本集标注单元:用于标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;模型训练单元:用于从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;文书向量序列生成单元:用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同;向量聚和单元:用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;最终模型生成单元:用于将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。信息抽取单元:用于将需要抽取信息的起诉状输入最终模型抽取信息。
为了进一步的说明本实施例的工作过程,样本集标注单元归类处理需要提取的信息;将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;利用文档、问题和答案生成三元组。
为了进一步的说明本实施例的工作过程,所述模型训练单元对三元样本集中每个元素中的问题添加第一标记;连接问题与问题对应的段落,并在问题和段落之间添加第二标记;所述训练单元将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型;预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。
为了进一步的说明本实施例的工作过程,所述最终模型生成单元利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
为了进一步的说明本实施例的工作过程,现以具体实例说明:
首先,将需要提取的信息分类。例如在劳动争议案由中,法官需要提取以下相关信息:是否签订劳动合同(填入信息:是或否),劳动合同签订日期(填入信息:日期),劳动合同起始日期(填入信息:日期),劳动合同终止日期(填入信息:日期),入职日期(填入信息:日期),离职日期(填入信息:日期),劳动合同是否解除(填入信息:是否),是否超过仲裁时效(填入信息:是否),是否申请仲裁(填入信息:是否)。
机器阅读理解技术通常需要给定一个上下文文档c,一个与之相关的问题q, 问题的答案a, 估计条件概率P(a|c,q) 。在起诉状中,我们将需提取信息的上下文篇章对应为给定的文档,设置相关的问题(例如劳动者什么时候入职),问题对应相应的答案(例如20XX年XX月XX日),答案即为我们要提取的的信息。
人工标注相关起诉状10000篇得到数据集。数据集中每一篇起诉状构成一篇文档,与之对应的是这篇起诉状中的若干问题及对应答案(所提取的信息),答案包含其在文档中的起点位置及对应的文本内容。每一篇文档(起诉状),该起诉状的若干问题,问题对应的答案构成一个<文档,问题,答案>的三元组,10000 篇起诉状即有10000个三元组,这些三元组构成最终的数据集。
将数据集按6:2:2 划分为训练集、验证集和测试集。
在本实施例中,
将训练集输入预训练模型,模型首先在问题前面添加special classification token[CLS]标记,然后将问题和段落连在一起,中间使用special tokens[SEP]分开。该序列通过token Embedding、segment embedding 和 positional embedding输入预训练模型,在这一步中得到序列里的每一个token,得到一个由上述三个向量的聚合向量表示的序列X={x1,x2,….xn};
为了增强阅读理解的语义相关性,本发明同时引入自定义的外部知识。本发明利用爬虫工具爬取中国裁判文书网站上对应的相关案由的裁判文书,本发明周期性选择诉讼状时期前后一个月对应案由(如劳动争议)的裁判文书,利用篇章段落向量嵌入算法Doc2Vec将每一篇文书嵌入成向量,形成文书向量序列Y={y1,y2,….yn},其中每一项代表一篇文书向量。设置随机概率在文书向量序列Y中选择与原始序列X的个数对应的文书向量,聚合该向量得到新的向量序列Z={z1,z2,…zn}
将序列Z输入预训练模型,最终通过softmax函数将模型的最终隐藏状态转换为答案跨度(span)的概率。最终,本发明实现根据事先设定好的问题模板,自动提取输入起诉状中的相关信息。
在本实施例中,数据中起诉状数据来自某法院2018-2019年劳动争议案由起诉状,裁判文书数据来自2018年-2019年中国裁判文书网中劳动争议案由,在测试集上准确率达到90%。经验证,对比传统正则、序列标注等信息抽取技术,本发明能成功提取是否类问题,在实际应用中有显著效果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,包括以下步骤:
S1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;
S2:从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;
S3:利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同;
S4:根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;
S5:将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型;
S6:将需要抽取信息的起诉状输入最终模型抽取起诉状信息。
2.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S1包括以下子步骤:
归类处理需要提取的信息;
将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;
利用文档、问题和答案生成三元组。
3.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S2包括以下子步骤:
对三元样本集中每个元素中的问题添加第一标记;
连接问题与问题对应的段落,并在问题和段落之间添加第二标记;
将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和positional embedding输入预训练模型;
预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和positional embedding的聚合向量表示为序列X。
4.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S5包括以下子步骤:
利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
5.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,所述三元样本集还包括验证集和测试集;
步骤S2还包括以下子步骤:
将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型的结果,并利用测试集测试预训练模型的结果。
6.一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,包括:
样本集标注单元:用于标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;
模型训练单元:用于从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;
文书向量序列单元:用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同;
向量聚和单元:用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;
最终模型生成单元:用于将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型;
信息抽取单元:用于将需要抽取信息的起诉状输入最终模型抽取起诉状信息。
7.根据权利要求6所述的一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,样本集标注单元归类处理需要提取的信息;
样本集标注单元将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;
样本集标注单元利用文档、问题和答案生成三元组。
8.根据权利要求7所述的一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,模型训练单元对三元样本集中每个元素中的问题添加第一标记;
模型训练单元连接问题与问题对应的段落,并在问题和段落之间添加第二标记;
模型训练单元将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型;
预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和positional embedding的聚合向量表示为序列X。
9.根据权利要求7所述的一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,所述最终模型生成单元利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
10.根据权利要求6所述的一种基于机器阅读理解的起诉状信息抽取系统,其特征在于,所述三元样本集还包括验证集和测试集;
模型训练单元将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型的结果,并利用测试集测试预训练模型的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550140.1A CN111444678B (zh) | 2020-06-16 | 2020-06-16 | 一种基于机器阅读理解的起诉状信息抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550140.1A CN111444678B (zh) | 2020-06-16 | 2020-06-16 | 一种基于机器阅读理解的起诉状信息抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444678A true CN111444678A (zh) | 2020-07-24 |
CN111444678B CN111444678B (zh) | 2020-09-22 |
Family
ID=71650367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010550140.1A Active CN111444678B (zh) | 2020-06-16 | 2020-06-16 | 一种基于机器阅读理解的起诉状信息抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444678B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017148355A1 (zh) * | 2016-03-02 | 2017-09-08 | 腾讯科技(深圳)有限公司 | 推广信息的推送方法及装置 |
CN107220243A (zh) * | 2017-05-31 | 2017-09-29 | 陈振 | 一种数据库交互式翻译系统 |
US20190065506A1 (en) * | 2017-08-28 | 2019-02-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Search method and apparatus based on artificial intelligence |
CN109564572A (zh) * | 2017-04-27 | 2019-04-02 | 微软技术许可有限责任公司 | 生成用于自动聊天的问题-答案对 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
-
2020
- 2020-06-16 CN CN202010550140.1A patent/CN111444678B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017148355A1 (zh) * | 2016-03-02 | 2017-09-08 | 腾讯科技(深圳)有限公司 | 推广信息的推送方法及装置 |
CN109564572A (zh) * | 2017-04-27 | 2019-04-02 | 微软技术许可有限责任公司 | 生成用于自动聊天的问题-答案对 |
CN107220243A (zh) * | 2017-05-31 | 2017-09-29 | 陈振 | 一种数据库交互式翻译系统 |
US20190065506A1 (en) * | 2017-08-28 | 2019-02-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Search method and apparatus based on artificial intelligence |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111444678B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598995B (zh) | 基于贝叶斯知识跟踪模型的智能教学系统 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN111506722A (zh) | 基于深度学习技术的知识图谱问答方法、装置及设备 | |
CN109582949A (zh) | 事件元素抽取方法、装置、计算设备及存储介质 | |
CN110069609B (zh) | 裁判文书分析方法、装置、计算机设备及存储介质 | |
CN110781668B (zh) | 文本信息的类型识别方法及装置 | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN111159356B (zh) | 基于教学内容的知识图谱构建方法 | |
CN113705218B (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN113946677B (zh) | 基于双向循环神经网络和注意力机制的事件识别分类方法 | |
CN110334214A (zh) | 一种自动识别案件中虚假诉讼的方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN114170411A (zh) | 一种融合多尺度信息的图片情感识别方法 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
CN112784585A (zh) | 金融公告的摘要提取方法与摘要提取终端 | |
CN117252600A (zh) | 一种基于大数据的智能客服系统及其方法 | |
CN112668335B (zh) | 一种利用命名实体识别提取营业执照结构化信息的方法 | |
CN117077682B (zh) | 基于语义识别的公文分析方法及系统 | |
CN111444678B (zh) | 一种基于机器阅读理解的起诉状信息抽取方法及系统 | |
CN116611447A (zh) | 一种基于深度学习方法的信息抽取和语义匹配系统及方法 | |
CN115761235A (zh) | 基于知识蒸馏的零样本语义分割方法、系统、设备及介质 | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 | |
CN115690819A (zh) | 一种基于大数据的识别方法及其系统 | |
CN114549177A (zh) | 保函审查方法、装置、系统与计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 610000 No. 24 south part of Wuhou District first ring road, Chengdu, Sichuan. Patentee after: SICHUAN University Patentee after: Chengdu shuzhilian Technology Co., Ltd Address before: 610000 No. 24 south part of Wuhou District first ring road, Chengdu, Sichuan. Patentee before: SICHUAN University Patentee before: Chengdu shuzhilian Technology Co., Ltd |