CN111753546A - 文书信息抽取方法、装置、计算机设备及存储介质 - Google Patents

文书信息抽取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111753546A
CN111753546A CN202010579970.7A CN202010579970A CN111753546A CN 111753546 A CN111753546 A CN 111753546A CN 202010579970 A CN202010579970 A CN 202010579970A CN 111753546 A CN111753546 A CN 111753546A
Authority
CN
China
Prior art keywords
extraction
information
document
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010579970.7A
Other languages
English (en)
Other versions
CN111753546B (zh
Inventor
姜焰
温凯雯
顾正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huayun Zhongsheng Technology Co ltd
Original Assignee
Shenzhen Huayun Zhongsheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huayun Zhongsheng Technology Co ltd filed Critical Shenzhen Huayun Zhongsheng Technology Co ltd
Priority to CN202010579970.7A priority Critical patent/CN111753546B/zh
Publication of CN111753546A publication Critical patent/CN111753546A/zh
Application granted granted Critical
Publication of CN111753546B publication Critical patent/CN111753546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文书信息抽取方法、装置、计算机设备及存储介质,该方法包括获取需要进行信息抽取的文本,以得到文本信息;对文本信息进行切割和格式转换,以得到初始数据;将初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果;更新迭代次数;判断抽取结果是否为空;若抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;若更新后的迭代次数未达到最大迭代次数,则将抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行将初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。本发明实现提高文书信息抽取的效率以及准确率。

Description

文书信息抽取方法、装置、计算机设备及存储介质
技术领域
本发明涉及文书信息处理方法,更具体地说是指文书信息抽取方法、装置、计算机设备及存储介质。
背景技术
信息抽取技术是指将文本中的信息结构化处理,能够从海量文本中抽取出有价值的信息。在司法领域中,许多重要的信息比如被告人姓名,性别,年龄等需要从文书中提取出来,这些信息的抽取都需要用到信息抽取技术。
常用的法律文书信息抽取大多是基于命名体实体识别技术,使用的模型一般为双向长短时记忆循环神经网络和条件随机场结合方式或者阅读理解模型和条件随机场结合方式,该技术对每个字符预测其属于的类别,之后按照一定的规则将属于同一个类别的信息聚合起来,但在抽取的信息较长时由于命名实体识别技术需要对每个字符进行预测,若目标字段中某个字符预测错误,则答案错误;换言之,目标字段越长,基于命名体识别的技术出错的可能性越大,识别效果不佳。
因此,有必要设计一种新的方法,实现提高文书信息抽取的效率以及准确率。
发明内容
本发明的目的在于克服现有技术的缺陷,提供文书信息抽取方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:文书信息抽取方法,包括:
获取需要进行信息抽取的文本,以得到文本信息;
对文本信息进行切割和格式转换,以得到初始数据;
将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果;
更新迭代次数;
判断所述抽取结果是否为空;
若所述抽取结果为空,则进入结束步骤;
若所述抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;
若更新后的迭代次数未达到最大迭代次数,则将所述抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行所述将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
其进一步技术方案为:所述判断更新后的迭代次数是否达到最大迭代次数之后,还包括:
若更新后的迭代次数已达到最大迭代次数,则输出所述抽取结果。
其进一步技术方案为:所述对文本信息进行切割和格式转换,以得到初始数据,包括:
使用滑窗将文本信息切割成若干个分段;
将分段按照特定字符进行拼接,以得到初始数据。
其进一步技术方案为:所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的。
其进一步技术方案为:所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的,包括:
获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签;
将目标字段名以及文书内容用特殊字符进行拼接,以得到样本数据;
利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型。
其进一步技术方案为:所述利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型,包括:
将样本数据输入至阅读理解模型内,以得到张量;
使用线性层将所述张量转换为两个向量;
在向量的第二个维度上计算分类结果,以得到用于预测文书信息的起始位置和结束位置的概率;
根据用于预测文书信息的起始位置和结束位置的概率确定文书信息,以得到训练结果;
对训练结果以及文本信息标签采用交叉熵损失函数计算损失值;
根据所述损失值确定信息抽取模型。
其进一步技术方案为:所述获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签,包括:
获取用于训练阅读理解模型的文本数据,采用滑窗截取文本数据,以形成若干段数据,根据若干段数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签。
本发明还提供了文书信息抽取装置,包括:
文本获取单元,用于获取需要进行信息抽取的文本,以得到文本信息;
处理单元,用于对文本信息进行切割和格式转换,以得到初始数据;
抽取单元,用于将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果;
次数更新单元,用于更新迭代次数;
结果判断单元,用于判断所述抽取结果是否为空;若所述抽取结果为空,则进入结束步骤;
次数判断单元,用于若所述抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;
掩码处理单元,用于若更新后的迭代次数未达到最大迭代次数,则将所述抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行所述将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过对获取到的文本信息进行切割和格式转换后,输入到已训练的信息抽取模型内进行文书信息的抽取,并采用设置迭代次数的方式对抽取结果进行掩码处理后,更新初始数据并进行迭代抽取,以实现提高文书信息抽取的效率以及准确率。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文书信息抽取方法的应用场景示意图;
图2为本发明实施例提供的文书信息抽取方法的流程示意图;
图3为本发明实施例提供的文书信息抽取方法的子流程示意图;
图4为本发明实施例提供的文书信息抽取方法的子流程示意图;
图5为本发明实施例提供的文书信息抽取方法的子流程示意图;
图6为本发明实施例提供的文书信息抽取装置的示意性框图;
图7为本发明实施例提供的文书信息抽取装置的处理单元的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的文书信息抽取方法的应用场景示意图。图2为本发明实施例提供的文书信息抽取方法的示意性流程图。该文书信息抽取方法应用于服务器中,该服务器与终端进行数据交互,由终端输入需要抽取的文本信息,经过服务器进行切割、格式转换和文书信息抽取后,将结果反馈至终端。
图2是本发明实施例提供的文书信息抽取方法的流程示意图。如图2所示,该方法包括以下步骤S110至S180。
S110、获取需要进行信息抽取的文本,以得到文本信息。
在本实施例中,文本信息是指从终端输入的包括法律文书等在内的文本文件。
S120、对文本信息进行切割和格式转换,以得到初始数据。
在本实施例中,初始数据是指将文本信息分割为若干个文本分段并对应地进行特殊格式转换后形成数据。在本实施例中,特殊格式是指[CLS]目标字段名[SEP]分段[SEP]的格式。
在一实施例中,请参阅图3,上述的步骤S120可包括步骤S121~S122。
S121、使用滑窗将文本信息切割成若干个分段。
在本实施例中,分段是指从文本信息内截选出来的信息,该分段的长度等于滑窗的长度。
由于文书一般较长而信息抽取模型的可输入的最大长度为512,因此,需要对文本信息采用滑窗处理,即使用一个滑动的窗口每次截取文本信息的一部分作为分段,截取之后窗口以一定的步长往前移动得到下一条数据的分段直到窗口到达文本信息的尾部,滑窗处理对一份文本信息生成多个分段,若所需要抽取的文书信息不在所取分段中,则其起始位置与结束位置定为0,否则将其起始位置与结束位置设置为所需要抽取的文书信息在所取分段中的位置。
S122、将分段按照特定字符进行拼接,以得到初始数据。
在本实施例中,将目标字段名与分段用特殊字符([CLS]与[SEP])拼接,得到输入[CLS]目标字段名[SEP]分段[SEP]。其中,目标字段名是指代表所抽取文书信息与之相关的字段名,比如目标字段名为姓名,则所抽取文书信息则为某个人名。
S130、将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
在本实施例中,抽取结果是指包括空或具体的文书信息。
其中,所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的。
在一实施例中,请参阅图4,上述的信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的,包括步骤S131~S133。
S131、获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签。
在本实施例中,可通过网络爬取或者人工输入的方式将法律等文本数据输入,以用于训练语义标识模型。
具体的,获取用于训练阅读理解模型的文本数据,采用滑窗截取文本数据,以形成若干段数据,根据若干段数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签。
将目标字段名作为question,文本数据作为context,标注文本信息标签的内容作为answer。若标注的内容包含多个文本信息标签,则对每个文本信息标签构造一个(question,context,answer)对。
由于文本数据一般较长而阅读理解模型可输入的最大长度为512,训练过程中采用滑窗处理,即使用一个滑动的窗口每次截取文书的一部分作为context,截取之后窗口以一定的步长往前移动得到下一条数据的context直到窗口到达文书尾部。滑窗处理对一份文书生成多条数据,若所要抽取的文书信息不在所取文本中,则其起始位置与结束位置定为0,否则将其起始位置与结束位置设置为所要抽取的文书信息在所取context中的位置。
S132、将目标字段名以及文书内容用特殊字符进行拼接,以得到样本数据。
在本实施例中,样本数据是指格式为[CLS]目标字段名[SEP]数据[SEP]的文本数据。
具体地,将question与context用特殊字符如[CLS]与[SEP]拼接,得到输入[CLS]question[SEP]context[SEP],确定输入的样本数据的内容,以便于阅读理解模型进行文本信息抽取。
S133、利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型。
整个信息抽取模型的训练是采用阅读理解模型的finetune方法进行训练的,finetune方法即迁移学习不是一种算法而是一种机器学习思想,应用到深度学习就是微调,通过修改预训练阅读理解模型的结构如修改样本类别输出个数,选择性载入预训练阅读理解模型权重,通常是载入除最后的全连接层的之前所有层,也叫瓶颈层,再用样本数据重新训练阅读理解模型,以达到微调,微调能够快速训练好一个模型,用相对较小的数据量,还能达到不错的结果。finetune方法具体是冻结预训练模型的部分卷积层通常是靠近输入的多数卷积层,训练剩下的卷积层通常是靠近输出的部分卷积层和全连接层。
在一实施例中,请参阅图5,上述的步骤S133可包括步骤S1331~S136。
S1331、将样本数据输入至阅读理解模型内,以得到张量。
在本实施例中,张量是指样本数据输入阅读理解模型内后得到批尺寸*序列的长度*768的数学量。
S1332、使用线性层将所述张量转换为两个向量。
在本实施例中,使用两个线性层将批尺寸*序列的长度*768的张量转化为两个批尺寸*序列的长度的向量。
S1333、在向量的第二个维度上计算分类结果,以得到用于预测文书信息的起始位置和结束位置的概率。
具体地,在向量中的序列的长度该维度上求分类结果softmax,得到两个概率分布,分别预测答案的起始位置与结束位置,softmax是用于分类过程,用来实现多分类的,简单来说,它把一些输出的神经元映射到(0-1)之间的实数,并且归一化保证和为1,从而使得多分类的概率之和也刚好为1。
S1334、根据用于预测文书信息的起始位置和结束位置的概率确定文书信息,以得到训练结果。
在本实施例中,当得到这两个概率分布后,当概率高于某一预设的阈值,则确定这个位置是文书信息的起始位置或结束位置,便可以从滑窗处理后得到的对应分段数据中截取出对应的数据,以此形成训练结果。
S1335、对训练结果以及文本信息标签采用交叉熵损失函数计算损失值;
S1336、根据所述损失值确定信息抽取模型。
在本实施例中,当损失值维持不变,即当前的阅读理解模型已经收敛,即损失值基本不变且非常小,也表明当前的阅读理解模型是可以被用作文书信息抽取模型,一般是开始训练时损失值比较大,越往后训练,损失值越小,倘若该损失值未维持不变,表明当前的阅读理解模型不可以用作文书信息抽取模型,也就是抽取出来的文书信息并不准确,此时则该调整阅读理解模型内各个层的参数,重新进行训练,直至损失值稳定且小。
举个例子:使用人工标注的文书数据训练模型,三个不同的目标字段名:事故路段,作案时间,作案地点分别包含5875,3868,3219条数据。随机分割取20%的数据作为测试集,得到以下数据分布:
事故路段:训练集4700,验证集1175,答案长度的中位数为26。
作案时间:训练集3094,验证集774,答案长度的中位数为9。
作案地点:训练集2575,验证集644,答案长度的中位数为14。
对上述三个目标字段分别训练阅读理解模型。
使用EM(匹配度,Exact Match)与Rouge-L评估模型的性能,其中,Rouge-L这个指标表达的是匹配两个文本单元之间的最长公共序列。计算公式如下:
EM=预测答案完全正确的数量/验证集大小;
P=最长公共子序列/实际答案长度;
R=最长公共子序列/预测答案长度;
Rouge-L=2*P*R/(P+R)。
整个模型训练后的实验结果:
事故路段:EM:71.9,Rouge-L:89.1;
作案时间:EM:66.6,Rouge-L:83.7;
作案地点:EM:65.9,Rouge-L:84.9。
S140、更新迭代次数。
在本实施例中,设置迭代次数可以对抽取出来的文本信息进行掩码后,形成新的初始数据,进行再一次抽取,当迭代次数达到最大迭代次数,或者是抽取结果为空时,则表明最后一次掩码的抽取信息才是概率最大的文书信息。
S150、判断所述抽取结果是否为空;
若所述抽取结果为空,则进入结束步骤;
S160、若所述抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;
S170、若更新后的迭代次数未达到最大迭代次数,则将所述抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行所述将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
当抽取结果不为空,也就是抽取出来的文书信息是存在的,则此时,要将该文书信息从初始数据内掩码处理掉,以对初始数据进行更新,也就是此时的输入到信息抽取模型内的初始数据已经不再包括上一抽取结果的内容,如果再一次抽取时输出的抽取结果是空,则可以进入结束步骤,且在上一抽取结果存在的情况下,反馈上一抽取结果至终端,从而提高整个文书信息抽取的准确率,当然,无法再次抽取时输出的抽取结果不是空时,则当迭代次数未达到最大迭代次数,进行下一次抽取,直至迭代次数达到最大迭代次数,或者输出的抽取结果为空。
S180、若更新后的迭代次数已达到最大迭代次数,则输出所述抽取结果。
使用滑窗处理对同一份文本信息生成的多条初始数据取概率最大的抽取结果为文书信息此外,若所抽取的文书信息的概率小于一个阈值则模型会拒绝进行信息抽取,即给出空答案,便可提高文书信息抽取的准确率。
上述的文书信息抽取方法,通过对获取到的文本信息进行切割和格式转换后,输入到已训练的信息抽取模型内进行文书信息的抽取,并采用设置迭代次数的方式对抽取结果进行掩码处理后,更新初始数据并进行迭代抽取,以实现提高文书信息抽取的效率以及准确率。
图6是本发明实施例提供的一种文书信息抽取装置300的示意性框图。如图6所示,对应于以上文书信息抽取方法,本发明还提供一种文书信息抽取装置300。该文书信息抽取装置300包括用于执行上述文书信息抽取方法的单元,该装置可以被配置于终端中。具体地,请参阅图6,该文书信息抽取装置300包括文本获取单元301、处理单元302、抽取单元303、次数更新单元304、结果判断单元305、次数判断单元306以及掩码处理单元307。
文本获取单元301,用于获取需要进行信息抽取的文本,以得到文本信息;处理单元302,用于对文本信息进行切割和格式转换,以得到初始数据;抽取单元303,用于将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果;次数更新单元304,用于更新迭代次数;结果判断单元305,用于判断所述抽取结果是否为空;若所述抽取结果为空,则进入结束步骤;次数判断单元306,用于若所述抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;掩码处理单元307,用于若更新后的迭代次数未达到最大迭代次数,则将所述抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行所述将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
在一实施例中,还包括:
输出单元308,用于若更新后的迭代次数已达到最大迭代次数,则输出所述抽取结果。
在一实施例中,如图7所示,所述处理单元302包括切割子单元3021以及拼接子单元3022。
切割子单元3021,用于使用滑窗将文本信息切割成若干个分段;拼接子单元3022,用于将分段按照特定字符进行拼接,以得到初始数据。
在一实施例中,上述的装置还包括构建单元。
构建单元,用于通过采用带有文书信息标签的样本数据训练阅读理解模型,以得到信息抽取模型。
在一实施例中,所述构建单元包括标注子单元、样本数据获取子单元以及训练子单元。
标注子单元,用于获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签;样本数据获取子单元,用于将目标字段名以及文书内容用特殊字符进行拼接,以得到样本数据;训练子单元,用于利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型。
在一实施例中,所述训练子单元包括张量获取模块、转换模块、计算模块、信息确定模块、损失值计算模块以及模型确定模块。
张量获取模块,用于将样本数据输入至阅读理解模型内,以得到张量;转换模块,用于使用线性层将所述张量转换为两个向量;计算模块,用于在向量的第二个维度上计算分类结果,以得到用于预测文书信息的起始位置和结束位置的概率;信息确定模块,用于根据用于预测文书信息的起始位置和结束位置的概率确定文书信息,以得到训练结果;损失值计算模块,用于对训练结果以及文本信息标签采用交叉熵损失函数计算损失值;模型确定模块,用于根据所述损失值确定信息抽取模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述文书信息抽取装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述文书信息抽取装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种文书信息抽取方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种文书信息抽取方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取需要进行信息抽取的文本,以得到文本信息;对文本信息进行切割和格式转换,以得到初始数据;将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果;更新迭代次数;判断所述抽取结果是否为空;若所述抽取结果为空,则进入结束步骤;若所述抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;若更新后的迭代次数未达到最大迭代次数,则将所述抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行所述将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
其中,所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的。
在一实施例中,处理器502在实现所述判断更新后的迭代次数是否达到最大迭代次数步骤之后,还实现如下步骤:
若更新后的迭代次数已达到最大迭代次数,则输出所述抽取结果。
在一实施例中,处理器502在实现所述对文本信息进行切割和格式转换,以得到初始数据步骤时,具体实现如下步骤:
使用滑窗将文本信息切割成若干个分段;将分段按照特定字符进行拼接,以得到初始数据。
在一实施例中,处理器502在实现所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的步骤时,具体实现如下步骤:
获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签;将目标字段名以及文书内容用特殊字符进行拼接,以得到样本数据;利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型。
在一实施例中,处理器502在实现所述利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型步骤时,具体实现如下步骤:
将样本数据输入至阅读理解模型内,以得到张量;使用线性层将所述张量转换为两个向量;在向量的第二个维度上计算分类结果,以得到用于预测文书信息的起始位置和结束位置的概率;根据用于预测文书信息的起始位置和结束位置的概率确定文书信息,以得到训练结果;对训练结果以及文本信息标签采用交叉熵损失函数计算损失值;根据所述损失值确定信息抽取模型。
在一实施例中,处理器502在实现所述获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签步骤时,具体实现如下步骤:
获取用于训练阅读理解模型的文本数据,采用滑窗截取文本数据,以形成若干段数据,根据若干段数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签。
应当理解,在本申请实施例中,处理器502可以是中央处理单元302(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取需要进行信息抽取的文本,以得到文本信息;对文本信息进行切割和格式转换,以得到初始数据;将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果;更新迭代次数;判断所述抽取结果是否为空;若所述抽取结果为空,则进入结束步骤;若所述抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;若更新后的迭代次数未达到最大迭代次数,则将所述抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行所述将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
其中,所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述判断更新后的迭代次数是否达到最大迭代次数步骤之后,还实现如下步骤:
若更新后的迭代次数已达到最大迭代次数,则输出所述抽取结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对文本信息进行切割和格式转换,以得到初始数据步骤时,具体实现如下步骤:
使用滑窗将文本信息切割成若干个分段;将分段按照特定字符进行拼接,以得到初始数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的步骤时,具体实现如下步骤:
获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签;将目标字段名以及文书内容用特殊字符进行拼接,以得到样本数据;利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型步骤时,具体实现如下步骤:
将样本数据输入至阅读理解模型内,以得到张量;使用线性层将所述张量转换为两个向量;在向量的第二个维度上计算分类结果,以得到用于预测文书信息的起始位置和结束位置的概率;根据用于预测文书信息的起始位置和结束位置的概率确定文书信息,以得到训练结果;对训练结果以及文本信息标签采用交叉熵损失函数计算损失值;根据所述损失值确定信息抽取模型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签步骤时,具体实现如下步骤:
获取用于训练阅读理解模型的文本数据,采用滑窗截取文本数据,以形成若干段数据,根据若干段数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元302中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.文书信息抽取方法,其特征在于,包括:
获取需要进行信息抽取的文本,以得到文本信息;
对文本信息进行切割和格式转换,以得到初始数据;
将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果;
更新迭代次数;
判断所述抽取结果是否为空;
若所述抽取结果为空,则进入结束步骤;
若所述抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;
若更新后的迭代次数未达到最大迭代次数,则将所述抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行所述将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
2.根据权利要求1所述的文书信息抽取方法,其特征在于,所述判断更新后的迭代次数是否达到最大迭代次数之后,还包括:
若更新后的迭代次数已达到最大迭代次数,则输出所述抽取结果。
3.根据权利要求2所述的文书信息抽取方法,其特征在于,所述对文本信息进行切割和格式转换,以得到初始数据,包括:
使用滑窗将文本信息切割成若干个分段;
将分段按照特定字符进行拼接,以得到初始数据。
4.根据权利要求2所述的文书信息抽取方法,其特征在于,所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的。
5.根据权利要求4所述的文书信息抽取方法,其特征在于,所述信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的,包括:
获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签;
将目标字段名以及文书内容用特殊字符进行拼接,以得到样本数据;
利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型。
6.根据权利要求5所述的文书信息抽取方法,其特征在于,所述利用样本数据对阅读理解模型采用迁移学习进行训练,以得到信息抽取模型,包括:
将样本数据输入至阅读理解模型内,以得到张量;
使用线性层将所述张量转换为两个向量;
在向量的第二个维度上计算分类结果,以得到用于预测文书信息的起始位置和结束位置的概率;
根据用于预测文书信息的起始位置和结束位置的概率确定文书信息,以得到训练结果;
对训练结果以及文本信息标签采用交叉熵损失函数计算损失值;
根据所述损失值确定信息抽取模型。
7.根据权利要求6所述的文书信息抽取方法,其特征在于,所述获取用于训练阅读理解模型的文本数据,并根据文本数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签,包括:
获取用于训练阅读理解模型的文本数据,采用滑窗截取文本数据,以形成若干段数据,根据若干段数据构建目标字段名以及文书内容,对所述文书内容标注文本信息标签。
8.文书信息抽取装置,其特征在于,包括:
文本获取单元,用于获取需要进行信息抽取的文本,以得到文本信息;
处理单元,用于对文本信息进行切割和格式转换,以得到初始数据;
抽取单元,用于将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果;
次数更新单元,用于更新迭代次数;
结果判断单元,用于判断所述抽取结果是否为空;若所述抽取结果为空,则进入结束步骤;
次数判断单元,用于若所述抽取结果不为空,则判断更新后的迭代次数是否达到最大迭代次数;
掩码处理单元,用于若更新后的迭代次数未达到最大迭代次数,则将所述抽取结果从初始数据内进行掩码处理,以更新初始数据,并执行所述将所述初始数据输入信息抽取模型内进行文书抽取,以得到抽取结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
CN202010579970.7A 2020-06-23 2020-06-23 文书信息抽取方法、装置、计算机设备及存储介质 Active CN111753546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010579970.7A CN111753546B (zh) 2020-06-23 2020-06-23 文书信息抽取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010579970.7A CN111753546B (zh) 2020-06-23 2020-06-23 文书信息抽取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111753546A true CN111753546A (zh) 2020-10-09
CN111753546B CN111753546B (zh) 2024-03-26

Family

ID=72676704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010579970.7A Active CN111753546B (zh) 2020-06-23 2020-06-23 文书信息抽取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111753546B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491209A (zh) * 2022-01-24 2022-05-13 南京中新赛克科技有限责任公司 基于互联网信息抓取的企业业务标签挖掘的方法和系统
CN115862882A (zh) * 2022-12-02 2023-03-28 北京百度网讯科技有限公司 一种数据抽取方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质
CN109522338A (zh) * 2018-11-09 2019-03-26 天津开心生活科技有限公司 临床术语挖掘方法、装置、电子设备及计算机可读介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质
CN110674642A (zh) * 2019-08-29 2020-01-10 中国人民解放军国防科技大学 一种用于含噪稀疏文本的语义关系抽取方法
CN110797012A (zh) * 2019-08-30 2020-02-14 腾讯科技(深圳)有限公司 一种信息提取方法、设备及存储介质
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111177326A (zh) * 2020-04-10 2020-05-19 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质
CN109522338A (zh) * 2018-11-09 2019-03-26 天津开心生活科技有限公司 临床术语挖掘方法、装置、电子设备及计算机可读介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质
CN110674642A (zh) * 2019-08-29 2020-01-10 中国人民解放军国防科技大学 一种用于含噪稀疏文本的语义关系抽取方法
CN110797012A (zh) * 2019-08-30 2020-02-14 腾讯科技(深圳)有限公司 一种信息提取方法、设备及存储介质
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111177326A (zh) * 2020-04-10 2020-05-19 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴骋;徐蕾;秦婴逸;何倩;王志勇;: "中文电子病历多层次信息抽取方法的探索", 中国数字医学, no. 06, pages 198 - 199 *
王学锋;杨若鹏;李雯;: "基于深度学习的作战文书事件抽取方法", 信息工程大学学报, no. 05, pages 127 - 132 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491209A (zh) * 2022-01-24 2022-05-13 南京中新赛克科技有限责任公司 基于互联网信息抓取的企业业务标签挖掘的方法和系统
CN115862882A (zh) * 2022-12-02 2023-03-28 北京百度网讯科技有限公司 一种数据抽取方法、装置、设备及存储介质
CN115862882B (zh) * 2022-12-02 2024-02-13 北京百度网讯科技有限公司 一种数据抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111753546B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN111309912B (zh) 文本分类方法、装置、计算机设备及存储介质
CN111428485B (zh) 司法文书段落分类方法、装置、计算机设备及存储介质
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
US10963685B2 (en) Generating variations of a known shred
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN110222329B (zh) 一种基于深度学习的中文分词方法和装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111177375B (zh) 一种电子文档分类方法及装置
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN111523314A (zh) 模型对抗训练、命名实体识别方法及装置
CN111753546B (zh) 文书信息抽取方法、装置、计算机设备及存储介质
CN110175273A (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN111859948B (zh) 语言识别、语言模型训练、字符预测方法及装置
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN115630652A (zh) 客服会话情感分析系统、方法及计算机系统
CN113139368B (zh) 一种文本编辑方法及系统
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法
CN113361652A (zh) 一种面向个体收入预测的去偏方法及装置
CN115270801B (zh) 文本信息抽取模型的训练方法、文本信息抽取方法和应用
CN113704469B (zh) 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统
CN111860662B (zh) 一种相似性检测模型的训练方法及装置、应用方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant