CN114580424B - 一种用于法律文书的命名实体识别的标注方法和装置 - Google Patents

一种用于法律文书的命名实体识别的标注方法和装置 Download PDF

Info

Publication number
CN114580424B
CN114580424B CN202210434737.9A CN202210434737A CN114580424B CN 114580424 B CN114580424 B CN 114580424B CN 202210434737 A CN202210434737 A CN 202210434737A CN 114580424 B CN114580424 B CN 114580424B
Authority
CN
China
Prior art keywords
entity
entities
label
template
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210434737.9A
Other languages
English (en)
Other versions
CN114580424A (zh
Inventor
王宏升
鲍虎军
陈�光
马超
廖青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210434737.9A priority Critical patent/CN114580424B/zh
Priority to PCT/CN2022/093493 priority patent/WO2023092960A1/zh
Priority to US17/830,786 priority patent/US11615247B1/en
Publication of CN114580424A publication Critical patent/CN114580424A/zh
Application granted granted Critical
Publication of CN114580424B publication Critical patent/CN114580424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于法律文书的命名实体识别的标注方法和装置,包括以下步骤:步骤S1:获取法律文本,转换成索引表;步骤S2:输出句子特征编码结果;步骤S3:训练及预测;步骤S4:得到集合;步骤S5:得到多头分数转移矩阵;步骤S6:得出所述法律文本对应的分数转移矩阵;步骤S7:确定识别嵌套实体;步骤S8:利用所述识别嵌套实体构建实体标注模板。本发明通过改变对BERT模型的输入,尝试完成对嵌套实体标注的识别,利用本发明所述的多头选择矩阵标注思路,较大程度的缓解了NER任务中长文本以及嵌套实体的识别难度。

Description

一种用于法律文书的命名实体识别的标注方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种用于法律文书的命名实体识别的标注方法和装置。
背景技术
近年来,随着硬件计算能力的大幅度提高,基于深度神经网络的方法已经被成功地应用到命名实体识别中,该方法是一种端到端的方法,不需要特殊的领域资源(如词典)或者构建本体,可以从大规模的标注数据中自动地学习和抽取文本特征。
目前常用的命名实体识别分为:基于规则的方法、基于统计的方法。基于规则的方法:匹配规则、依赖词典、模板、正则表达式,灵活性差,可移植性差。基于统计的方法:将命名实体别看作分类问题,选择最大概率,将命名实体识别看作序列标注,采用隐马尔可夫、最大熵马尔可夫链、条件随机场、长短期记忆网络等机器学习序列标注模型,这些序列标注模型未能高度识别嵌套实体。
因此,我们提出了一种用于法律文书的命名实体识别的标注方法和装置以此解决上述技术问题。
发明内容
本发明的目的在于针对现有技术的不足,提供一种用于法律文书的命名实体识别的标注方法和装置。
本发明采用的技术方案如下:
一种用于法律文书的命名实体识别的标注方法,包括以下步骤:
步骤S1:获取法律文本,利用标注工具对所述法律文本进行实体标注得到标注信息,对所述标注信息进行处理得到语句和标注,并按索引位置填入用实体做成的字典,将所述语句、标注和字典保存为文件;
步骤S2:将所述文件中的所述语句转变为BERT预训练模型所能识别的索引值,同时确定输入的标签信息矩阵,创建生成器;
步骤S3:将所述生成器生成的一个批次的索引值输入BERT预训练模型中提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系,输出句子特征编码结果;
步骤S4:将所述句子特征编码结果输入条件随机场模型中训练及预测,获取实体识别标签序列、实体标签位置信息和分数转移矩阵;
步骤S5:将所述分数转移矩阵输入多头神经网络层,得到一个实体对应多个实体识别标签序列、多个实体标签位置信息、多个分数转移矩阵;
步骤S6:对所述分数转移矩阵复制并转置,得到转置矩阵,将转置矩阵与原矩阵拼接得到多头分数转移矩阵;
步骤S7:将所述多头分数转移矩阵输入全连接层中得出所述法律文本对应的分数转移矩阵,至此BERT-SPAN训练模型构建完成;
步骤S8:将所述分数转移矩阵与所述标签信息矩阵进行交叉熵损失函数求损失值,将损失值回传入所述BERT-SPAN训练模型训练,不断调整BERT-SPAN训练模型的训练结果参数,得到识别嵌套实体;
步骤S9:利用所述识别嵌套实体构建实体标注模板。
进一步地,所述步骤S1具体包括以下子步骤:
步骤S11:获取法律文本,利用标注工具对所述法律文本进行实体标注得到标注信息,对所述标注信息分解为语句和标注,并将所述语句和所述标注分别存入语句列表和标注列表保存;
步骤S12:对所述语句列表和所述标注列表按索引位置填入用实体做成的字典;
步骤S13:将所述语句列表和所述标注列表以及所述字典的信息存入josn文件。
进一步地,所述步骤S2具体包括以下子步骤:
步骤S21:对步骤S1中所述文件中的所述语句进行判断并处理,得到仅小于等于510字符的语句;
步骤S22:将所述仅小于等于510字符的语句通过所述BERT预训练模型的编码器直接转变为索引值;
步骤S23:读取步骤S1中所述文件,提取标签位置;
步骤S24:确定横轴方向上的实体起始坐标;
步骤S25:确定纵轴方向上的实体终止坐标:
步骤S26:将所述实体起始坐标与所述实体终止坐标合并,确定标签信息矩阵;
步骤S27:通过设置批次大小,确定同一批次中所述语句的最大长度,将所述标签信息矩阵中每个列表进行后向填充,与所述最大长度的值相同,同时对所述索引值以及按索引值长度生成的全零列表也全部填充至最大长度;
步骤S28:确定返回值为[索引值,全零列表],[实体位置信息矩阵],创建生成器。
进一步地,所述步骤S3具体包括以下子步骤:
步骤S31:将所述生成器生成的一个批次的索引值输入BERT-SPAN预训练模型中训练,得到词嵌入向量;
步骤S32:根据所述词嵌入向量提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系,输出句子特征编码结果。
进一步地,所述步骤S4中所述分数转移矩阵表示预测实体与多个所述标签信息之间的关系,采用激活函数,为每个实体得到最大分数的输出,得分最大的标签为实体对应的标签。
进一步地,所述步骤S9中构建实体标注模板的方法采用标记语言设计。
本发明还提供一种用于法律文书的命名实体识别的标注方法,所述步骤S9中所述实体标注模板的属性包括:标注实体序号,实体类型和代码,已识别实体名称。
进一步地,所述步骤S9包括以下子步骤:
步骤S91:利用所述识别嵌套实体构建标签集,所述标签集包括人物、原告、被告、时间、地点、事件、罪名、结果;
步骤S92:根据所述标签集,已构建横轴与纵轴实体标注位置以及对应的实体,构建单实体模板,所述单实体模板包括:单个人物实体、单个原告实体、单个被告实体、单个时间实体、单个地点实体、单个事件实体、单个罪名实体;
步骤S93:根据所述标签集,提取已构建横轴与纵轴实体标注位置以及对应的嵌套实体,构建嵌套实体模板,多个实体之间采用顿号隔开,所述嵌套实体模板包括:多个人物实体、多个原告实体、多个被告实体、多个时间实体、多个地点实体、多个事件实体、多个罪名实体;
步骤S94:根据所述标签集,非实体模板由已构建横轴与纵轴实体标注中未能识别或者不是实体,构建非实体模板;
步骤S95:所述单实体模板,所述嵌套实体模板和所述非实体模板的集合为所述实体标注模板。
本发明还提供一种用于法律文书的命名实体识别的标注装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例任一项所述的一种用于法律文书的命名实体识别的标注方法。
本发明还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例任一项所述的一种用于法律文书的命名实体识别的标注方法。
本发明的有益效果是:首先,用SPAN模式为解决命名实体识别任务中长文本别提供方法;其次,可以通过改变对BERT模型的输入,尝试完成对嵌套实体标注的识别。利用本发明所述的SPAN模式,较大程度的解决NER任务中长文本以及嵌套实体的识别难度,为后续更好的解决此类问题做出了实践。本发明研究基于BERT预训练语言模型。具体的,本发明首先对语料进行SPAN方法的处理,让其位置信息从原先的普通标注(BMES)方法转化为位置信息的标注,同时规定BERT的输出,在此基础上构建BERT-SPAN模型;使用多头前馈神经网络对分数转移矩阵处理得到多头分数转移矩阵,将多头分数转移矩阵复制并转置,得到转置矩阵,将转置矩阵与原矩阵拼接得到多头标注位置转移矩阵;将多头分数转移矩阵输入全连接层中得出实体标注位置并构建标注横轴与纵轴位置坐标;利用已识别的实体与标注的位置构建实体标注模板。本发明解决了长文本嵌套实体在BERT模型下识别程度低,同时也为嵌套实体识别提供了解决方法,相比基于机器学习的命名实体识别方法,模型框架更为简单,准确度更高。
附图说明
图1是本发明一种用于法律文书的命名实体识别的标注方法的整体架构图;
图2是本发明一种用于法律文书的命名实体识别的标注方法的横轴方向上的实体坐标;
图3是本发明一种用于法律文书的命名实体识别的标注方法的纵轴方向上的实体坐标;
图4是本发明一种用于法律文书的命名实体识别的标注方法的语料训练过程实际矩阵;
图5是本发明一种用于法律文书的命名实体识别的标注方法的标注结果;
图6本发明一种用于法律文书的命名实体识别的标注装置的结构图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
见图1,一种用于法律文书的命名实体识别的标注方法,包括以下步骤:
步骤S1:获取法律文本,利用标注工具对所述法律文本进行实体标注得到标注信息,对所述标注信息进行处理得到语句和标注,并按索引位置填入用实体做成的字典,将所述语句、标注和字典保存为文件;
步骤S11:获取法律文本,利用标注工具对所述法律文本进行实体标注得到标注信息,对所述标注信息分解为语句和标注,并将所述语句和所述标注分别存入语句列表和标注列表保存;
步骤S12:对所述语句列表和所述标注列表按索引位置填入用实体做成的字典;
步骤S13:将所述语句列表和所述标注列表以及所述字典的信息存入josn文件。
步骤S2:将所述文件中的所述语句转变为BERT预训练模型所能识别的索引值,同时确定输入的标签信息矩阵,创建生成器;
步骤S21:对步骤S1中所述文件中的所述语句进行判断并处理,得到仅小于等于510字符的语句;
步骤S22:将所述仅小于等于510字符的语句通过所述BERT预训练模型的编码器直接转变为索引值;
步骤S23:读取步骤S1中所述文件,提取标签位置;例如:“被告人张三酒驾逃逸被拘留” 。提取出的字典格式如:
{“句子序号”:0,“句子长度”:12,{“标签”:{“被告”:[0,2],[0,4],“事件”:[5,6],[7,8],“结果”:[10,11]}};
步骤S24:确定横轴方向上的实体起始坐标;
此时通过标签索引表将类别转化为数字,如上述例句:{1:[0,2],[0,4],2:[5,6],[7,8],3:[10,11]},根据每一个列表中的第一位数字,提前创建的一个同本句长度相同的全零列表,将全零列表中数字位置上的0变更为对应的标签类别索引,如果包含嵌套关系,则将两个类别的数字放在同一列表下,表示该位置包含多种实体的开头部分,整体表示为:
[1,0,0,1,0,2,0,0,0,0,3,0],用该列表表示实体的位置信息与标注信息,以此构建横轴方向上的实体坐标,每个数字代表对应类别实体的一种类别实体的开始部分,参见图2。
步骤S25:确定纵轴方向上的实体终止坐标:
根据上述字典中有实体位置列表的第二位数字,将另一组同本句长度相同的全零列表中该数字位置索引上的0变更为对应的标签类别索引,整体为:
[0,0,1,0,1,0,2,0,2,0,0,3],以此构建纵轴方向的实体坐标,每个数字代表对应类别实体的一种类别实体的结束部分,参见图3。
步骤S26:将所述实体起始坐标与所述实体终止坐标合并,确定标签信息矩阵;该矩阵表示语料中各个实体的准确位置,具体表示形式为横轴与纵轴为一条相同文本,横轴位置与纵轴位置确定矩阵中的一个点,此点为一个实体,用对应的数字表明实体的类别,同时为了避免过拟合,将横轴大于纵轴的数用-1表示,将矩阵的右上部和位置关系无关的数字去除,将此方法用作形成实体位置信息的模板,不断将每个实体的位置信息进行提取,构建一个二维矩阵来表示语料中实体的位置,语料训练过程中实际矩阵,参见图4;标注结果,参见图5。同时将此二维矩阵作为实体位置信息矩阵输入模型。
步骤S27:通过设置批次大小,确定同一批次中所述语句的最大长度,将所述标签信息矩阵中每个列表进行后向填充,与所述最大长度的值相同,同时对所述索引值以及按索引值长度生成的全零列表也全部填充至最大长度;
步骤S28:确定返回值为[索引值,全零列表],[实体位置信息矩阵],创建生成器。
步骤S3:将所述生成器生成的一个批次的索引值输入BERT预训练模型中提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系,输出句子特征编码结果;
步骤S31:将所述生成器生成的一个批次的索引值输入BERT-SPAN预训练模型中训练,得到词嵌入向量;
步骤S32:根据所述词嵌入向量提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系,输出句子特征编码结果。
步骤S4:将所述句子特征编码结果输入条件随机场模型中训练及预测,获取实体识别标签序列、实体标签位置信息和分数转移矩阵;所述分数转移矩阵表示预测实体与多个所述标签信息之间的关系,为解决一个实体属于多个标签情况,采用激活函数,为每个实体得到最大分数的输出,得分最大的标签为实体对应的标签。
步骤S5:将所述分数转移矩阵输入多头神经网络层,得到一个实体对应多个实体识别标签序列、多个实体标签位置信息、多个分数转移矩阵;
步骤S6:对所述分数转移矩阵复制并转置,得到转置矩阵,将转置矩阵与原矩阵拼接得到多头分数转移矩阵,维度转换为[批次大小,序列长度,序列长度,两个隐藏层];
步骤S7:将所述多头分数转移矩阵输入全连接层中得出所述法律文本对应的分数转移矩阵,维度转换为[批次大小,序列长度,序列长度,序列中语句的类别位置信息] ,至此BERT-SPAN训练模型构建完成;
步骤S8:将所述分数转移矩阵与所述标签信息矩阵进行交叉熵损失函数求损失值,将损失值回传入所述BERT-SPAN训练模型训练,不断调整BERT-SPAN训练模型的训练结果参数,得到识别嵌套实体;
对损失进行修正,避免BERT-SPAN模型出现过拟合,交叉熵损失函数具体公式如下:
span_loss=
Figure 381298DEST_PATH_IMAGE001
其中span_loss为此次模型所用的损失函数;e为超参数,可自行调整;n为所有预测信息;i为第i次预测信息;xi 为每一类别;p(xi)为真实概率分布;q(xi)为预测概率分布。
通过一个个批次的参数优化,调整真实标签的所在位置,确定识别嵌套实体。
步骤S9:利用所述识别嵌套实体构建实体标注模板;构建实体标注模板的方法采用标记语言(XML)设计,所述实体标注模板的属性包括:标注实体序号,实体类型和代码,已识别实体名称。
步骤S91:利用所述识别嵌套实体构建标签集,所述标签集包括人物、原告、被告、时间、地点、事件、罪名、结果;
步骤S92:根据所述标签集,已构建横轴与纵轴实体标注位置以及对应的实体,构建单实体模板,所述单实体模板包括:单个人物实体、单个原告实体、单个被告实体、单个时间实体、单个地点实体、单个事件实体、单个罪名实体;单实体模板 <NER id=“1”label=“被告”code=“0001”>实体</NER>。
步骤S93:根据所述标签集,提取已构建横轴与纵轴实体标注位置以及对应的嵌套实体,构建嵌套实体模板,多个实体之间采用顿号隔开,所述嵌套实体模板包括:多个人物实体、多个原告实体、多个被告实体、多个时间实体、多个地点实体、多个事件实体、多个罪名实体;嵌套实体模板 <NER_MORE id=“2”label=“事件”code=“0002”>实体1、实体2</NER_MORE>。
步骤S94:根据所述标签集,非实体模板由已构建横轴与纵轴实体标注中未能识别或者不是实体,构建非实体模板;非实体模板<NER_NO id=“3”label=“NULL”code=“NULL”>文本</NER_NO>。
步骤S95:所述单实体模板,所述嵌套实体模板和所述非实体模板的集合为所述实体标注模板。
与前述一种用于法律文书的命名实体识别的标注方法的实施例相对应,本发明还提供了一种用于法律文书的命名实体识别的标注装置的实施例。
参见图6,本发明实施例提供的一种用于法律文书的命名实体识别的标注装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种用于法律文书的命名实体识别的标注方法。
本发明一种用于法律文书的命名实体识别的标注装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明一种用于法律文书的命名实体识别的标注装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种用于法律文书的命名实体识别的标注方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用于法律文书的命名实体识别的标注方法,其特征在于,包括以下步骤:
步骤S1:获取法律文本,利用标注工具对所述法律文本进行实体标注得到标注信息,对所述标注信息进行处理得到语句和标注,并按索引位置填入用实体做成的字典,将所述语句、标注和字典保存为文件;
步骤S2:将所述文件中的所述语句转变为BERT预训练模型所能识别的索引值,同时确定输入的标签信息矩阵,创建生成器;
步骤S21:对步骤S1中所述文件中的所述语句进行判断并处理,得到仅小于等于510字符的语句;
步骤S22:将所述仅小于等于510字符的语句通过所述BERT预训练模型的编码器直接转变为索引值;
步骤S23:读取步骤S1中所述文件,提取标签位置;
步骤S24:确定横轴方向上的实体起始坐标;
步骤S25:确定纵轴方向上的实体终止坐标:
步骤S26:将所述实体起始坐标与所述实体终止坐标合并,确定标签信息矩阵;
步骤S27:通过设置批次大小,确定同一批次中所述语句的最大长度,将所述标签信息矩阵中每个列表进行后向填充,与所述最大长度的值相同,同时对所述索引值以及按索引值长度生成的全零列表也全部填充至最大长度;
步骤S28:确定返回值为[索引值,全零列表],[实体位置信息矩阵],创建生成器;
步骤S3:将所述生成器生成的一个批次的索引值输入BERT预训练模型中提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系,输出句子特征编码结果;
步骤S4:将所述句子特征编码结果输入条件随机场模型中训练及预测,获取实体识别标签序列、实体标签位置信息和分数转移矩阵;
步骤S5:将所述分数转移矩阵输入多头神经网络层,得到一个实体对应多个实体识别标签序列、多个实体标签位置信息、多个分数转移矩阵;
步骤S6:对所述分数转移矩阵复制并转置,得到转置矩阵,将转置矩阵与原矩阵拼接得到多头分数转移矩阵;
步骤S7:将所述多头分数转移矩阵输入全连接层中得出所述法律文本对应的分数转移矩阵,至此BERT-SPAN训练模型构建完成;
步骤S8:将所述分数转移矩阵与所述标签信息矩阵进行交叉熵损失函数求损失值,将损失值回传入所述BERT-SPAN训练模型训练,不断调整BERT-SPAN训练模型的训练结果参数,得到识别嵌套实体;
步骤S9:利用所述识别嵌套实体构建实体标注模板。
2.如权利要求1所述的一种用于法律文书的命名实体识别的标注方法,其特征在于,所述步骤S1具体包括以下子步骤:
步骤S11:获取法律文本,利用标注工具对所述法律文本进行实体标注得到标注信息,对所述标注信息分解为语句和标注,并将所述语句和所述标注分别存入语句列表和标注列表保存;
步骤S12:对所述语句列表和所述标注列表按索引位置填入用实体做成的字典;
步骤S13:将所述语句列表和所述标注列表以及所述字典的信息存入josn文件。
3.如权利要求1所述的一种用于法律文书的命名实体识别的标注方法,其特征在于,所述步骤S3具体包括以下子步骤:
步骤S31:将所述生成器生成的一个批次的索引值输入BERT-SPAN预训练模型中训练,得到词嵌入向量;
步骤S32:根据所述词嵌入向量提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系,输出句子特征编码结果。
4.如权利要求1所述的一种用于法律文书的命名实体识别的标注方法,其特征在于,所述步骤S4中所述分数转移矩阵表示预测实体与多个所述标签信息之间的关系,采用激活函数,为每个实体得到最大分数的输出,得分最大的标签为实体对应的标签。
5.如权利要求1所述的一种用于法律文书的命名实体识别的标注方法,其特征在于,所述步骤S9中构建实体标注模板的方法采用标记语言设计。
6.如权利要求1所述的一种用于法律文书的命名实体识别的标注方法,其特征在于,所述步骤S9中所述实体标注模板的属性包括:标注实体序号,实体类型和代码,已识别实体名称。
7.如权利要求1所述的一种用于法律文书的命名实体识别的标注方法,其特征在于,所述步骤S9包括以下子步骤:
步骤S91:利用所述识别嵌套实体构建标签集,所述标签集包括人物、原告、被告、时间、地点、事件、罪名、结果;
步骤S92:根据所述标签集,已构建横轴与纵轴实体标注位置以及对应的实体,构建单实体模板,所述单实体模板包括:单个人物实体、单个原告实体、单个被告实体、单个时间实体、单个地点实体、单个事件实体、单个罪名实体;
步骤S93:根据所述标签集,提取已构建横轴与纵轴实体标注位置以及对应的嵌套实体,构建嵌套实体模板,多个实体之间采用顿号隔开,所述嵌套实体模板包括:多个人物实体、多个原告实体、多个被告实体、多个时间实体、多个地点实体、多个事件实体、多个罪名实体;
步骤S94:根据所述标签集,非实体模板由已构建横轴与纵轴实体标注中未能识别或者不是实体,构建非实体模板;
步骤S95:所述单实体模板,所述嵌套实体模板和所述非实体模板的集合为所述实体标注模板。
8.一种用于法律文书的命名实体识别的标注装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-7中任一项所述的一种用于法律文书的命名实体识别的标注方法。
9.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现上述权利要求1-7中任一项所述的一种用于法律文书的命名实体识别的标注方法。
CN202210434737.9A 2022-04-24 2022-04-24 一种用于法律文书的命名实体识别的标注方法和装置 Active CN114580424B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210434737.9A CN114580424B (zh) 2022-04-24 2022-04-24 一种用于法律文书的命名实体识别的标注方法和装置
PCT/CN2022/093493 WO2023092960A1 (zh) 2022-04-24 2022-05-18 一种用于法律文书的命名实体识别的标注方法和装置
US17/830,786 US11615247B1 (en) 2022-04-24 2022-06-02 Labeling method and apparatus for named entity recognition of legal instrument

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210434737.9A CN114580424B (zh) 2022-04-24 2022-04-24 一种用于法律文书的命名实体识别的标注方法和装置

Publications (2)

Publication Number Publication Date
CN114580424A CN114580424A (zh) 2022-06-03
CN114580424B true CN114580424B (zh) 2022-08-05

Family

ID=81784813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210434737.9A Active CN114580424B (zh) 2022-04-24 2022-04-24 一种用于法律文书的命名实体识别的标注方法和装置

Country Status (2)

Country Link
CN (1) CN114580424B (zh)
WO (1) WO2023092960A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098617A (zh) * 2022-06-10 2022-09-23 杭州未名信科科技有限公司 三元组关系抽取任务的标注方法、装置、设备及存储介质
CN117151117B (zh) * 2023-10-30 2024-03-01 国网浙江省电力有限公司营销服务中心 电网轻量级非结构化文档内容自动识别方法、装置及介质
CN117236335B (zh) * 2023-11-13 2024-01-30 江西师范大学 基于提示学习的两阶段命名实体识别方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
WO2020007138A1 (zh) * 2018-07-03 2020-01-09 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
CN110807328A (zh) * 2019-10-25 2020-02-18 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN111597810A (zh) * 2020-04-13 2020-08-28 广东工业大学 一种半监督解耦的命名实体识别方法
WO2020224219A1 (zh) * 2019-05-06 2020-11-12 平安科技(深圳)有限公司 中文分词方法、装置、电子设备及可读存储介质
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
CN112434531A (zh) * 2020-10-27 2021-03-02 西安交通大学 一种有格式法律文书的命名实体和属性识别方法及系统
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
WO2021212749A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
CN113609859A (zh) * 2021-08-04 2021-11-05 浙江工业大学 一种基于预训练模型的特种设备中文命名实体识别方法
WO2022001333A1 (zh) * 2020-06-30 2022-01-06 首都师范大学 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN114266254A (zh) * 2021-12-24 2022-04-01 上海德拓信息技术股份有限公司 一种文本命名实体识别方法与系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN109815339B (zh) * 2019-01-02 2022-02-08 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
US11748613B2 (en) * 2019-05-10 2023-09-05 Baidu Usa Llc Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111310471B (zh) * 2020-01-19 2023-03-10 陕西师范大学 一种基于bblc模型的旅游命名实体识别方法
MX2022012759A (es) * 2020-04-13 2022-10-31 Ancestry Com Operations Inc Segmentacion de temas de texto derivado de imagenes.
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
CN112214966A (zh) * 2020-09-04 2021-01-12 拓尔思信息技术股份有限公司 基于深度神经网络的实体及关系联合抽取方法
CN113536793A (zh) * 2020-10-14 2021-10-22 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
US11537950B2 (en) * 2020-10-14 2022-12-27 Adobe Inc. Utilizing a joint-learning self-distillation framework for improving text sequential labeling machine-learning models
CN113743118A (zh) * 2021-07-22 2021-12-03 武汉工程大学 基于融合关系信息编码的法律文书中的实体关系抽取方法
CN113743119B (zh) * 2021-08-04 2023-09-08 中国人民解放军战略支援部队航天工程大学 中文命名实体识别模块、方法、装置及电子设备
CN114169330B (zh) * 2021-11-24 2023-07-14 匀熵智能科技(无锡)有限公司 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN114372153A (zh) * 2022-01-05 2022-04-19 重庆大学 基于知识图谱的法律文书结构化入库方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020007138A1 (zh) * 2018-07-03 2020-01-09 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
WO2020224219A1 (zh) * 2019-05-06 2020-11-12 平安科技(深圳)有限公司 中文分词方法、装置、电子设备及可读存储介质
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN110807328A (zh) * 2019-10-25 2020-02-18 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111597810A (zh) * 2020-04-13 2020-08-28 广东工业大学 一种半监督解耦的命名实体识别方法
WO2021212749A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
WO2022001333A1 (zh) * 2020-06-30 2022-01-06 首都师范大学 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN112434531A (zh) * 2020-10-27 2021-03-02 西安交通大学 一种有格式法律文书的命名实体和属性识别方法及系统
CN113609859A (zh) * 2021-08-04 2021-11-05 浙江工业大学 一种基于预训练模型的特种设备中文命名实体识别方法
CN114266254A (zh) * 2021-12-24 2022-04-01 上海德拓信息技术股份有限公司 一种文本命名实体识别方法与系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Context Matrix Methods for Property and Structure Ontology Completion in Wikidata;Jonathan A. Gómez等;《 2021 Systems and Information Engineering Design Symposium (SIEDS)》;20210716;第1-6页 *
一种基于Roberta的中文实体关系联合抽取模型;王华锋等;《北方工业大学学报》;20200415(第02期);第95-103页 *
基于BERT的警情文本命名实体识别;王月等;《计算机应用》;20191120(第02期);第231-236页 *
基于BiLSTM模型的漏洞检测;龚扣林等;《计算机科学》;20210715(第05期);第303-308页 *
基于机器阅读理解的中文命名实体识别方法;刘奕洋等;《模式识别与人工智能》;20200715(第07期);第82-88页 *
融入语言模型和注意力机制的临床电子病历命名实体识别;唐国强等;《计算机科学》;20191122(第03期);第219-224页 *

Also Published As

Publication number Publication date
WO2023092960A1 (zh) 2023-06-01
CN114580424A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN109685056A (zh) 获取文档信息的方法及装置
CN111738016A (zh) 多意图识别方法及相关设备
CN112036184A (zh) 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN112860919A (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN111695335A (zh) 一种智能面试方法、装置及终端设备
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN116070602A (zh) 一种pdf文档智能标注与抽取方法
CN113609857B (zh) 基于级联模型和数据增强的法律命名实体识别方法及系统
CN112148879B (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN109753563A (zh) 基于大数据的标签提取方法、装置及计算机可读存储介质
CN115238115A (zh) 基于中文数据的图像检索方法、装置、设备及存储介质
CN115270792A (zh) 一种医疗实体识别方法及装置
CN114757154A (zh) 基于深度学习的作业生成方法、装置、设备及存储介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN114692596A (zh) 基于深度学习算法的债券信息解析方法、装置及电子设备
CN116341555B (zh) 命名实体识别方法和系统
CN113723058B (zh) 文本摘要与关键词抽取方法、装置、设备及介质
CN117252201B (zh) 面向知识图谱的离散型制造行业工艺数据提取方法及系统
CN113378925B (zh) 一种双注意力训练序列生成方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant