CN112613312B - 实体命名识别模型的训练方法、装置、设备及存储介质 - Google Patents

实体命名识别模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112613312B
CN112613312B CN202011511008.6A CN202011511008A CN112613312B CN 112613312 B CN112613312 B CN 112613312B CN 202011511008 A CN202011511008 A CN 202011511008A CN 112613312 B CN112613312 B CN 112613312B
Authority
CN
China
Prior art keywords
address
training
target
sample
word sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011511008.6A
Other languages
English (en)
Other versions
CN112613312A (zh
Inventor
旷雄
张旭
郑越
曾伟
方聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011511008.6A priority Critical patent/CN112613312B/zh
Publication of CN112613312A publication Critical patent/CN112613312A/zh
Priority to PCT/CN2021/091728 priority patent/WO2022126988A1/zh
Application granted granted Critical
Publication of CN112613312B publication Critical patent/CN112613312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及人工智能技术领域,揭示了一种实体命名识别模型的训练方法、装置、设备及存储介质,其中方法包括:根据训练样本集合和测试样本集合对待训练的第一实体命名识别模型进行训练得到目标第一实体命名识别模型,目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;根据训练样本集合和目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练得到目标第二实体命名识别模型,目标第二实体命名识别模型包括:DistilBert层、第二CRF层;根据目标第二实体命名识别模型得到目标实体命名识别模型。提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。

Description

实体命名识别模型的训练方法、装置、设备及存储介质
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种实体命名识别模型的训练方法、装置、设备及存储介质。
背景技术
地址是经常用到的数据,但是由于个人习惯、经验等原因造成用户提供的地址不规范,导致不能将用户提供的地址直接应用,需要将用户提供的不规范的地址进行结构化后才能进行准确应用。业内关于地址结构化实现方案大多采用基于传统的规则匹配算法,但是基于传统的规则匹配算法对于不规范或形式复杂的地址的结构化效果不佳。而基于深度学习的地址结构化算法取得了较好的效果,为了得到准确的结构化结果,神经网络的体积通常比较大,从而导致线上性能比较差。
发明内容
本申请的主要目的为提供一种实体命名识别模型的训练方法、装置、设备及存储介质,旨在解决现有技术采用基于深度学习的地址结构化算法实现地址结构化,因神经网络的体积通常比较大,导致线上性能比较差的技术问题。
为了实现上述发明目的,本申请提出一种实体命名识别模型的训练方法,所述方法包括:
获取多个训练样本,所述训练样本包括:地址样本数据、样本标定数据;
将所述多个训练样本按预设划分规则进行划分,得到训练样本集合和测试样本集合;
根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型,所述目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;
根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型,所述目标第二实体命名识别模型包括:DistilBert层、第二CRF层;
根据所述目标第二实体命名识别模型,得到目标实体命名识别模型。
进一步的,所述获取多个训练样本的步骤之前,包括:
获取多条待处理的地址数据,将所述待处理的地址数据作为所述地址样本数据;
分别对每条所述地址样本数据进行规范化处理,得到多条规范化后的地址数据;
分别对每条所述规范化后的地址数据进行预设规范范围的重复信息的查找及删除处理,得到多条去重后的地址数据;
分别对每条所述去重后的地址数据进行预设规范范围的缺失数据的查找及补全处理,得到多条预处理后的地址数据;
分别对每条所述预处理后的地址数据进行地址结构化处理,得到多条所述地址样本数据各自对应的所述样本标定数据。
进一步的,所述分别对每条所述预处理后的地址数据进行地址结构化处理,得到多条所述地址样本数据各自对应的所述样本标定数据的步骤,包括:
获取预设地址实体关键字和预设地址实体地址标签数据,采用所述预设地址实体关键字和所述预设地址实体地址标签数据分别对每条所述预处理后的地址数据进行逐字标注地址标签,得到多条所述预处理后的地址数据各自对应的地址标签序列;
将多条所述预处理后的地址数据和各自对应的所述地址标签序列发送给审核端;
获取所述审核端发送的多条所述预处理后的地址数据各自对应的地址标签序列的目标审核结果;
根据多条所述预处理后的地址数据各自对应的地址标签序列的目标审核结果,确定多条所述地址样本数据各自对应的所述样本标定数据。
进一步的,所述根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型的步骤,包括:
采用所述训练样本集合对所述待训练的第一实体命名识别模型进行训练,得到待验证的第一实体命名识别模型;
采用所述测试样本集合对所述待验证的第一实体命名识别模型进行每个字的地址标签预测,得到第一识别结果集合;
根据所述第一识别结果集合进行准确率计算,得到待判断的验证准确率;
获取上一次的验证准确率;
重复所述采用所述训练样本集合对所述待训练的第一实体命名识别模型进行训练,得到待验证的第一实体命名识别模型的步骤,直至所述待判断的验证准确率小于或等于所述上一次的验证准确率;
根据所述上一次的验证准确率对应的所述待验证的第一实体命名识别模型,确定所述目标第一实体命名识别模型。
进一步的,所述根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型的步骤,包括:
从所述目标第一实体命名识别模型中提取出所述第一CRF层的参数,得到目标CRF层参数;
采用所述目标CRF层参数对所述待训练的第二实体命名识别模型的第二CRF层进行初始化,得到初始化后的第二实体命名识别模型;
分别将所述训练样本集合中每个所述训练样本的所述地址样本数据按字拆分,得到各个所述训练样本各自对应的训练地址样本字序列;
将所述各个所述训练样本各自对应的训练地址样本字序列按预设划分规则进行划分,得到多个训练地址样本字序列组;
根据所述目标第一实体命名识别模型和所述多个训练地址样本字序列组对所述初始化后的第二实体命名识别模型进行训练,得到所述目标第二实体命名识别模型。
进一步的,所述根据所述目标第一实体命名识别模型和所述多个训练地址样本字序列组对所述初始化后的第二实体命名识别模型进行训练,得到所述目标第二实体命名识别模型的步骤,包括:
从所述多个训练地址样本字序列组中提取出一组所述训练地址样本字序列组作为目标训练地址样本字序列组;
分别将所述目标训练地址样本字序列组对应的每个所述训练地址样本字序列输入所述目标第一实体命名识别模型的所述Bert层和所述BiLSTM层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一地址标签评分;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第一地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一预测概率;
分别将所述目标训练地址样本字序列组的每个所述训练样本对应的所述训练地址样本字序列输入所述初始化后的第二实体命名识别模型的DistilBert层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二地址标签评分;
别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第二地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二预测概率;
分别将所述目标训练地址样本字序列组的每个所述训练样本对应的所述训练地址样本字序列输入所述初始化后的第二实体命名识别模型进行每个字属于各个地址标签的最终评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三地址标签评分;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第三地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三预测概率;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的第三预测概率中找出最大值,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的最大概率;
根据所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率对所述初始化后的第二实体命名识别模型进行训练,将训练结束的所述初始化后的第二实体命名识别模型确定为所述目标第二实体命名识别模型。
进一步的,所述根据所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率对所述初始化后的第二实体命名识别模型进行训练,将训练结束的所述初始化后的第二实体命名识别模型确定为所述目标第二实体命名识别模型的步骤,包括:
将所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率输入损失函数进行计算,得到所述初始化后的第二实体命名识别模型的损失值,根据所述损失值更新所述初始化后的第二实体命名识别模型的参数,更新后的所述初始化后的第二实体命名识别模型被用于下一次计算各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和各个所述训练地址样本字序列各自对应的各个字的所述最大概率;
重复执行上述方法步骤直至所述损失值达到收敛条件,将所述损失值达到所述收敛条件的所述初始化后的第二实体命名识别模型,确定为所述目标第二实体命名识别模型。
本申请还提出了一种实体命名识别模型的训练装置,所述装置包括:
训练样本获取模块,用于获取多个训练样本,所述训练样本包括:地址样本数据、样本标定数据;
训练样本划分模块,用于将所述多个训练样本按预设划分规则进行划分,得到训练样本集合和测试样本集合;
实体命名识别模型训练模块,用于根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型,所述目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;
模型蒸馏模块,用于根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型,所述目标第二实体命名识别模型包括:DistilBert层、第二CRF层;
目标实体命名识别模型确定模块,用于根据所述目标第二实体命名识别模型,得到目标实体命名识别模型。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的实体命名识别模型的训练方法、装置、设备及存储介质,通过待训练的第一实体命名识别模型对训练样本集合中的地址样本数据进行深度学习得到目标第一实体命名识别模型,然后采用模型蒸馏的方法将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型,根据轻量级的目标第二实体命名识别模型得到目标实体命名识别模型,从而提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。
附图说明
图1为本申请一实施例的实体命名识别模型的训练方法的流程示意图;
图2为本申请一实施例的实体命名识别模型的训练装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决解决现有技术采用基于深度学习的地址结构化算法实现地址结构化,因神经网络的体积通常比较大,导致线上性能比较差的技术问题。,本申请提出了实体命名识别模型的训练方法,所述方法应用于人工智能技术领域。所述实体命名识别模型的训练方法通过待训练的第一实体命名识别模型对训练样本集合中的地址样本数据进行深度学习得到目标第一实体命名识别模型,然后采用模型蒸馏的方法将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型,根据轻量级的目标第二实体命名识别模型得到目标实体命名识别模型,从而提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。
参照图1,本申请实施例中提供一种实体命名识别模型的训练方法,所述方法包括:
S1:获取多个训练样本,所述训练样本包括:地址样本数据、样本标定数据;
S2:将所述多个训练样本按预设划分规则进行划分,得到训练样本集合和测试样本集合;
S3:根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型,所述目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;
S4:根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型,所述目标第二实体命名识别模型包括:DistilBert层、第二CRF层;
S5:根据所述目标第二实体命名识别模型,得到目标实体命名识别模型。
本实施例通过待训练的第一实体命名识别模型对训练样本集合中的地址样本数据进行深度学习得到目标第一实体命名识别模型,然后采用模型蒸馏的方法将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型,根据轻量级的目标第二实体命名识别模型得到目标实体命名识别模型,从而提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。
对于S1,可以从数据库中获取多个训练样本,也可以是第三方应用系统发送的多个训练样本,还可以是用户输入的多个训练样本。
每个训练样本中包括一个地址样本数据和一个样本标定数据。
地址样本数据是一条地址的文本数据。
样本标定数据是对地址样本数据进行结构化处理后的地址标签序列。地址标签序列中每个元素代表地址样本数据中一个字的地址标签的标定值。
对于S2,将所述多个训练样本的70%划分到训练样本集合,将所述多个训练样本的剩余30%划分到测试样本集合。可以理解的是,还可以按其他的划分规则对所述多个训练样本进行划分,在此不做具体限定。
对于S3,首先采用所述训练样本集合对待训练的第一实体命名识别模型进行训练,然后采用所述测试样本集合对训练后的待训练的第一实体命名识别模型进行验证,当验证通过时将待训练的第一实体命名识别模型作为目标第一实体命名识别模型。
可选的,采用所述训练样本集合对待训练的第一实体命名识别模型进行训练得到方法可以从现有技术中选择,在此不做赘述。
可选的,采用所述测试样本集合对训练后的待训练的第一实体命名识别模型进行验证的方法可以从现有技术中选择,在此不做赘述。
目标第一实体命名识别模型,是将输入的地址数据进行每个字的地址标签预测,得到输入的地址数据对应的地址标签序列。
所述Bert层是基于Bert网络的网络层,用于将输入的数据转换为字向量。
所述BiLSTM层是基于BiLSTM网络的网络层,用于对训练样本的地址样本数据的每个字进行属于各个地址标签的评分。
所述第一CRF(条件随机场)层是基于条件随机场模型得到的网络层,用于加入约束条件以使地址样本数据的每个字属于各个地址标签的评分更合理。
其中,所述Bert层将输入的训练样本的地址样本数据转换为字向量,然后将字向量输入BiLSTM层;BiLSTM层将输入的字向量的每个字进行属于各个地址标签的评分,将评分结果输入第一CRF层;第一CRF层将输入的评分结果进行不符合约束条件的得分的识别和处理,输出每个字的地址标签预测值。
对于S4,基于所述训练样本集合采用第二实体命名识别模型对所述目标第一实体命名识别模型进行模型蒸馏学习,将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型。
目标第二实体命名识别模型,是将输入的地址数据进行每个字的地址标签预测,得到输入的地址数据对应的地址标签序列。
DistilBert,是HuggingFace发布的小型NLPtransformer模型,与BERT的架构类似,不过它仅使用了6600万参数,但在GLUE基准上实现了BERT95%的性能。
第二CRF层与第一CRF层的结构相同。
对于S5,将所述目标第二实体命名识别模型直接作为目标实体命名识别模型。
在一个实施例中,上述获取多个训练样本的步骤之前,包括:
S011:获取多条待处理的地址数据,将所述待处理的地址数据作为所述地址样本数据;
S012:分别对每条所述地址样本数据进行规范化处理,得到多条规范化后的地址数据;
S013:分别对每条所述规范化后的地址数据进行预设规范范围的重复信息的查找及删除处理,得到多条去重后的地址数据;
S014:分别对每条所述去重后的地址数据进行预设规范范围的缺失数据的查找及补全处理,得到多条预处理后的地址数据;
S015:分别对每条所述预处理后的地址数据进行地址结构化处理,得到多条所述地址样本数据各自对应的所述样本标定数据。
本实施例实现了根据快速构建训练样本,为模型训练提供了数据基础。
对于S011,获取用户输入的多条待处理的地址数据,也可以获取第三方应用系统发送的多条待处理的地址数据。
将一条所述待处理的地址数据作为一个训练样本的所述地址样本数据。
待处理的地址数据,是客户输入的地址数据,也可以是模拟客户构造的地址数据。
对于S012,制定规范化正则表达式,采用规范化正则表达式分别在每条所述地址样本数据中进行不规范信息的查找及替换处理,得到所述多条规范化后的地址数据。
规范化正则表达式包括:不规范查找表达式、不规范替换表达式。
比如,所述地址样本数据中包括“3F-12”,首先构造不规范查找表达式“{数字}F-{数字}”,搜索所述地址样本数据中包含“{数字}F-{数字}”形式的字段,若搜索到该字段,采用不规范替换表达式“{数字}层{数字}号”对“3F-12”进行替换,替换结束得到“3层12号”,在此举例不做具体限定。
对于S013,获取去重正则表达式,采用所述去重正则表达式分别对每条所述地址样本数据进行重复信息查找及删除处理,得到所述多条去重后的地址数据。
去重正则表达式包括:重复查找表达式、删除处理表达式。
可选的,预设规范范围是指前四级行政区域。四级行政区域包括:省、市、区、街道。
对于S014,获取缺失处理正则表达式,采用所述缺失处理正则表达式对每条所述去重后的地址数据进行预设规范范围的缺失数据的查找及补全处理,得到所述多条预处理后的地址数据。
缺失处理正则表达式包括:缺失查找表达式、缺失补全表达式。
对于S015,从每条所述预处理后的地址数据获取任一条所述预处理后的地址数据作为目标预处理后的地址数据;对目标预处理后的地址数据进行地址结构化处理后的地址标签序列,将地址标签序列作为目标预处理后的地址数据对应的所述样本标定数据;重复执行所述从每条所述预处理后的地址数据获取任一条作为目标预处理后的地址数据的步骤,直至确定多条所述地址样本数据各自对应的所述样本标定数据。
在一个实施例中,上述分别对每条所述预处理后的地址数据进行地址结构化处理,得到多条所述地址样本数据各自对应的所述样本标定数据的步骤,包括:
S0151:获取预设地址实体关键字和预设地址实体地址标签数据,采用所述预设地址实体关键字和所述预设地址实体地址标签数据分别对每条所述预处理后的地址数据进行逐字标注地址标签,得到多条所述预处理后的地址数据各自对应的地址标签序列;
S0152:将多条所述预处理后的地址数据和各自对应的所述地址标签序列发送给审核端;
S0153:获取所述审核端发送的多条所述预处理后的地址数据各自对应的地址标签序列的目标审核结果;
S0154:根据多条所述预处理后的地址数据各自对应的地址标签序列的目标审核结果,确定多条所述地址样本数据各自对应的所述样本标定数据。
本实施例实现了对预处理后的地址数据进行地址结构化处理得到序列数据,然后通过审核端对序列数据审核后作为样本标定数据,从而提高了样本标定数据的准确性,有利于提高模型训练的准确性。
对于S0151,预设地址实体地址标签数据包括:标准地址实体字典、非标准地址实体字典。
标准地址实体字典包括:标准地址实体关键字、标准地址实体地址标签。标准地址实体关键字包括:省、市、区、街道。其中,省包括:省、直辖市、特别行政区;市包括:市、地区、盟、自治州;区包括:区、县、旗、县级市;街道包括:街道、镇、乡。
非标准地址实体字典包括:非标准地址实体关键字、非标准地址实体地址标签。
比如,表1示出了非标准地址实体关键字:
表1非标准地址实体关键字和地址实体分类表
Figure BDA0002846401780000111
Figure BDA0002846401780000121
比如,表2示出了非标准地址实体地址标签包括但不限于:
表2预设地址实体地址标签数据含义对照表
Figure BDA0002846401780000122
比如,对所述预处理后的地址数据“北环路4013号莲丰雅苑3单元10层1012号”进行逐字标注地址标签,得到所述预处理后的地址数据对应的地址标签序列为:[B_RD,I_RD,I_RD,B_RDNO,I_RDNO,B_POI,I_POI,I_POI,I_POI,B_CL,I_CL,I_CL,B_FL,I_FL,B_RM,I_RM],在此举例不做具体限定。
对于S0152,将多条所述预处理后的地址数据和各自对应的所述地址标签序列按预设方式发送给审核端。
对于S0153,审核人员通过审核端进行审核后,通过审核端发送的多条所述预处理后的地址数据各自对应的地址标签序列的目标审核结果。
对于S0154,当多条所述预处理后的地址数据各自对应的地址标签序列的目标审核结果中存在目标审核结果为通过时,将通过的目标审核结果对应的地址标签序列作为样本标定数据。
在一个实施例中,上述根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型的步骤,包括:
S31:采用所述训练样本集合对所述待训练的第一实体命名识别模型进行训练,得到待验证的第一实体命名识别模型;
S32:采用所述测试样本集合对所述待验证的第一实体命名识别模型进行每个字的地址标签预测,得到第一识别结果集合;
S33:根据所述第一识别结果集合进行准确率计算,得到待判断的验证准确率;
S34:获取上一次的验证准确率;
S35:重复所述采用所述训练样本集合对所述待训练的第一实体命名识别模型进行训练,得到待验证的第一实体命名识别模型的步骤,直至所述待判断的验证准确率小于或等于所述上一次的验证准确率;
S36:根据所述上一次的验证准确率对应的所述待验证的第一实体命名识别模型,确定所述目标第一实体命名识别模型。
本实施例通过首先采用训练样本集合对所述待训练的第一实体命名识别模型进行训练,然后采用测试样本集合进行测试,在待判断的验证准确率小于或等于所述上一次的验证准确率时确定验证通过,从而提高了目标第一实体命名识别模型进行地址结构化的准确性。
对于S31,采用所述训练样本集合对所述待训练的第一实体命名识别模型进行训练,将训练得到的模型作为待验证的第一实体命名识别模型。
对于S32,采用所述测试样本集合对所述待验证的第一实体命名识别模型进行每个字的地址标签预测,将预测得到的每个字的地址标签作为第一识别结果集合。也就是说,第一识别结果集合中是地址标签序列。
对于S33,从所述测试样本集合提取出一个训练样本作为目标测试样本;将目标测试样本的每个字在第一识别结果集合的地址标签和在样本标定数据中的地址标签进行对比,确定目标测试样本对应的正确地址标签数量;获取目标测试样本的字数,得到目标测试样本对应的总字数;将目标测试样本对应的正确地址标签数量除以目标测试样本对应的总字数,得到目标测试样本对应的准确率;重复执行所述从所述测试样本集合提取出一个训练样本作为目标测试样本的步骤,直至确定所述测试样本集合中所有训练样本的验证准确率;将所述测试样本集合中所有训练样本的准确率进行平均值计算,得到所述测试样本集合对应的平均验证准确率,将所述测试样本集合对应的平均准确率作为待判断的验证准确率。
对于S34,从数据库中获取上一次的验证准确率。上一次的验证准确率也就是上一轮进行验证得到的待判断的验证准确率。
对于S35,重复执行步骤S31至步骤S35,直至所述待判断的验证准确率小于或等于所述上一次的验证准确率。当所述待判断的验证准确率小于或等于所述上一次的验证准确率时,意味着此次训练的效果没有得到进一步改善,没有继续训练的必要。
对于S36,将所述上一次的验证准确率对应的所述待验证的第一实体命名识别模型确定为所述目标第一实体命名识别模型。
在一个实施例中,上述根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型的步骤,包括:
S41:从所述目标第一实体命名识别模型中提取出所述第一CRF层的参数,得到目标CRF层参数;
S42:采用所述目标CRF层参数对所述待训练的第二实体命名识别模型的第二CRF层进行初始化,得到初始化后的第二实体命名识别模型;
S43:分别将所述训练样本集合中每个所述训练样本的所述地址样本数据按字拆分,得到各个所述训练样本各自对应的训练地址样本字序列;
S44:将所述各个所述训练样本各自对应的训练地址样本字序列按预设划分规则进行划分,得到多个训练地址样本字序列组;
S45:根据所述目标第一实体命名识别模型和所述多个训练地址样本字序列组对所述初始化后的第二实体命名识别模型进行训练,得到所述目标第二实体命名识别模型。
本实施例通过采用模型蒸馏的方法将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型,根据轻量级的目标第二实体命名识别模型得到目标实体命名识别模型,从而提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。
对于S41,从所述目标第一实体命名识别模型中提取出所述第一CRF层的参数,将提取出的参数作为目标CRF层参数。
对于S42,采用所述目标CRF层参数对所述待训练的第二实体命名识别模型的第二CRF层的相同条件对应的参数进行初始化,初始化后的所述待训练的第二实体命名识别模型作为初始化后的第二实体命名识别模型。可以理解的是,初始化后的第二实体命名识别模型的第二CRF层的结构与所述目标第一实体命名识别模型的第一CRF层的结构相同,初始化后的第二实体命名识别模型的第二CRF层与所述目标第一实体命名识别模型的第一CRF层的相同名称的参数的值相同。
对于S43,从所述训练样本集合提取出一个训练样本作为目标训练样本;对目标训练样本的地址样本数据按字拆分,得到目标训练样本对应的训练地址样本字序列;重复执行所述从所述训练样本集合提取出一个训练样本作为目标训练样本,直至确定各个所述训练样本各自对应的训练地址样本字序列。
训练地址样本字序列是一个向量。
可选的,可以先构建编码字典,编码字典包括:字、编码,按字拆分可采用编码字典将训练样本的地址样本数据转换为一个向量,该向量的每个元素代表一个字,元素的值是编码字典中的编码。
对于S44,将所述各个所述训练样本各自对应的训练地址样本字序列按预设数量进行划分,得到多个训练地址样本字序列组。也就是说,每个训练地址样本字序列组中训练地址样本字序列的数量小于或等于预设数量。
对于S45,基于所述多个训练地址样本字序列组采用所述初始化后的第二实体命名识别模型对所述目标第一实体命名识别模型进行模型蒸馏学习,将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型。
在一个实施例中,上述根据所述目标第一实体命名识别模型和所述多个训练地址样本字序列组对所述初始化后的第二实体命名识别模型进行训练,得到所述目标第二实体命名识别模型的步骤,包括:
S451:从所述多个训练地址样本字序列组中提取出一组所述训练地址样本字序列组作为目标训练地址样本字序列组;
S452:分别将所述目标训练地址样本字序列组对应的每个所述训练地址样本字序列输入所述目标第一实体命名识别模型的所述Bert层和所述BiLSTM层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一地址标签评分;
S453:分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第一地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一预测概率;
S454:分别将所述目标训练地址样本字序列组的每个所述训练样本对应的所述训练地址样本字序列输入所述初始化后的第二实体命名识别模型的DistilBert层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二地址标签评分;
S455:分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第二地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二预测概率;
S456:分别将所述目标训练地址样本字序列组的每个所述训练样本对应的所述训练地址样本字序列输入所述初始化后的第二实体命名识别模型进行每个字属于各个地址标签的最终评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三地址标签评分;
S457:分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第三地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三预测概率;
S458:分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的第三预测概率中找出最大值,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的最大概率;
S459:根据所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率对所述初始化后的第二实体命名识别模型进行训练,将训练结束的所述初始化后的第二实体命名识别模型确定为所述目标第二实体命名识别模型。
本实施例通过采用模型蒸馏的方法将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型,根据轻量级的目标第二实体命名识别模型得到目标实体命名识别模型,从而提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。
对于S451,依次从所述多个训练地址样本字序列组中提取出一组所述训练地址样本字序列组作为目标训练地址样本字序列组。也就是说,每次只采用一组所述训练地址样本字序列组进行训练。
对于S452,从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列;将待评分的训练地址样本字序列输入所述目标第一实体命名识别模型的所述Bert层和所述BiLSTM层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的待评分的训练地址样本字序列对应的各个字的各个地址标签的第一地址标签评分;重复执行所述从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列的步骤,直至确定所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一地址标签评分。
对于S453,从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列;对待评分的训练地址样本字序列对应的每个字的各个地址标签的所述第一地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的待评分的训练地址样本字序列对应的各个字的各个地址标签的第一预测概率;重复执行所述从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列的步骤,直至确定所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一预测概率。
比如,待评分的训练地址样本字序列第一个字的各个地址标签的所述第一地址标签评分为[5 6 7 7],将[5 6 7 7]进行地址标签评分归一化处理,得到4个第一预测概率([5 6 7 7]中每个向量元素表述一个地址标签的第一预测概率),4个第一预测概率相加等于1,在此举例不做具体限定。
对于S454,从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列;将待评分的训练地址样本字序列输入所述初始化后的第二实体命名识别模型的DistilBert层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的待评分的训练地址样本字序列对应的各个字的各个地址标签的第二地址标签评分;重复执行所述从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列的步骤,直至确定所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二地址标签评分。
对于S455,从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列;对待评分的训练地址样本字序列对应的每个字的各个地址标签的所述第二地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的待评分的训练地址样本字序列对应的各个字的各个地址标签的第二预测概率;重复执行所述从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列的步骤,直至确定所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二预测概率。
对于S456,从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列;将待评分的训练地址样本字序列输入所述初始化后的第二实体命名识别模型进行每个字属于各个地址标签的最终评分,得到所述目标训练地址样本字序列组的待评分的训练地址样本字序列对应的各个字的各个地址标签的第三地址标签评分;重复执行所述从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列的步骤,直至确定所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三地址标签评分。
对于S457,从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列;对待评分的训练地址样本字序列对应的每个字的各个地址标签的所述第三地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的待评分的训练地址样本字序列对应的各个字的各个地址标签的第三预测概率;重复执行所述从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列的步骤,直至确定所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三预测概率。
对于S458,从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列;从待评分的训练地址样本字序列对应的每个字的各个地址标签的第三预测概率中找出最大值,得到所述目标训练地址样本字序列组的待评分的训练地址样本字序列对应的各个字的最大概率;重复执行所述从所述目标训练地址样本字序列组的所有所述训练地址样本字序列中提取出一个所述训练地址样本字序列作为待评分的训练地址样本字序列的步骤,直至确定所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的最大概率。
比如,待评分的训练地址样本字序列第一个字的4个地址标签的第三预测概率分别为D31、D32、D33、D34,D31、D32、D33、D34中D33最大,待评分的训练地址样本字序列第一个字的最大概率的值与D33相同,在此举例不做具体限定。
对于S459,步骤S451至步骤S459每次采用一组训练地址样本字序列组进行训练,当所述多个训练地址样本字序列组的所有训练地址样本字序列组都训练过后还未使所述损失值达到收敛条件,将从所述多个训练地址样本字序列组的开头开始依次提取一个训练地址样本字序列组采用步骤S451至步骤S459对所述初始化后的第二实体命名识别模型进行训练。
在一个实施例中,上述根据所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率对所述初始化后的第二实体命名识别模型进行训练,将训练结束的所述初始化后的第二实体命名识别模型确定为所述目标第二实体命名识别模型的步骤,包括:
S4591:将所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率输入损失函数进行计算,得到所述初始化后的第二实体命名识别模型的损失值,根据所述损失值更新所述初始化后的第二实体命名识别模型的参数,更新后的所述初始化后的第二实体命名识别模型被用于下一次计算各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和各个所述训练地址样本字序列各自对应的各个字的所述最大概率;
S4592:重复执行上述方法步骤直至所述损失值达到收敛条件,将所述损失值达到所述收敛条件的所述初始化后的第二实体命名识别模型,确定为所述目标第二实体命名识别模型。
本实施例实现了对所述初始化后的第二实体命名识别模型的训练和参数更新,从而实现了将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型。
对于S4591,其中,损失函数为:
L(W)=αL1(W)+(1-α)L2(W)
Figure BDA0002846401780000211
Figure BDA0002846401780000212
其中,α为0到1的常数,M是目标训练地址样本字序列组中所训练地址样本字序列的数量,N是所述测试样本集合中所述训练样本的地址样本数据的字的数量,
Figure BDA0002846401780000213
是目标训练地址样本字序列组中第i个所述训练地址样本字序列中第j个字对应的各个地址标签的第一预测概率,
Figure BDA0002846401780000214
是目标训练地址样本字序列组中第i个所述训练地址样本字序列中第j个字对应的各个地址标签的第二预测概率,P(Yi|Xi)是目标训练地址样本字序列组中第i个所述训练地址样本字序列Xi对应的各个字的最大概率,Yi是目标训练地址样本字序列组中第i个所述训练地址样本字序列Xi对应的各个字的最大概率对应的地址标签,最大概率序列的每个元素是所述训练地址样本字序列Xi对应的各个字的地址标签Yi的最大概率;log()是对数函数。
可选的,α为0.3。
对于S4592,收敛条件是指相邻两次计算的损失值的大小满足lipschitz条件(利普希茨连续条件)。
其中采用Adam优化迭代器执行步骤S4591至步骤S4592,用于训练所述初始化后的第二实体命名识别模型的参数。
参照图2,本申请还提出了一种实体命名识别模型的训练装置,所述装置包括:
训练样本获取模块100,用于获取多个训练样本,所述训练样本包括:地址样本数据、样本标定数据;
训练样本划分模块200,用于将所述多个训练样本按预设划分规则进行划分,得到训练样本集合和测试样本集合;
实体命名识别模型训练模块300,用于根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型,所述目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;
模型蒸馏模块400,用于根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型,所述目标第二实体命名识别模型包括:DistilBert层、第二CRF层;
目标实体命名识别模型确定模块500,用于根据所述目标第二实体命名识别模型,得到目标实体命名识别模型。
本实施例通过待训练的第一实体命名识别模型对训练样本集合中的地址样本数据进行深度学习得到目标第一实体命名识别模型,然后采用模型蒸馏的方法将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型,根据轻量级的目标第二实体命名识别模型得到目标实体命名识别模型,从而提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存实体命名识别模型的训练方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体命名识别模型的训练方法。所述实体命名识别模型的训练方法,包括:获取多个训练样本,所述训练样本包括:地址样本数据、样本标定数据;将所述多个训练样本按预设划分规则进行划分,得到训练样本集合和测试样本集合;根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型,所述目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型,所述目标第二实体命名识别模型包括:DistilBert层、第二CRF层;根据所述目标第二实体命名识别模型,得到目标实体命名识别模型。
本实施例通过待训练的第一实体命名识别模型对训练样本集合中的地址样本数据进行深度学习得到目标第一实体命名识别模型,然后采用模型蒸馏的方法将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型,根据轻量级的目标第二实体命名识别模型得到目标实体命名识别模型,从而提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种实体命名识别模型的训练方法,包括步骤:获取多个训练样本,所述训练样本包括:地址样本数据、样本标定数据;将所述多个训练样本按预设划分规则进行划分,得到训练样本集合和测试样本集合;根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型,所述目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型,所述目标第二实体命名识别模型包括:DistilBert层、第二CRF层;根据所述目标第二实体命名识别模型,得到目标实体命名识别模型。
上述执行的实体命名识别模型的训练方法,通过待训练的第一实体命名识别模型对训练样本集合中的地址样本数据进行深度学习得到目标第一实体命名识别模型,然后采用模型蒸馏的方法将目标第一实体命名识别模型学习到的规则迁移到轻量级的目标第二实体命名识别模型,根据轻量级的目标第二实体命名识别模型得到目标实体命名识别模型,从而提高了地址结构化的准确性,缩短了响应时间,提高了上线使用的实体命名识别模型对地址结构化的性能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种实体命名识别模型的训练方法,其特征在于,所述方法包括:
获取多个训练样本,所述训练样本包括:地址样本数据、样本标定数据;
将所述多个训练样本按预设划分规则进行划分,得到训练样本集合和测试样本集合;
根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型,所述目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;
根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型,所述目标第二实体命名识别模型包括:DistilBert层、第二CRF层;
根据所述目标第二实体命名识别模型,得到目标实体命名识别模型;
所述根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型的步骤,包括:
从所述目标第一实体命名识别模型中提取出所述第一CRF层的参数,得到目标CRF层参数;
采用所述目标CRF层参数对所述待训练的第二实体命名识别模型的第二CRF层进行初始化,得到初始化后的第二实体命名识别模型;
分别将所述训练样本集合中每个所述训练样本的所述地址样本数据按字拆分,得到各个所述训练样本各自对应的训练地址样本字序列;
将所述各个所述训练样本各自对应的训练地址样本字序列按预设划分规则进行划分,得到多个训练地址样本字序列组;
从所述多个训练地址样本字序列组中提取出一组所述训练地址样本字序列组作为目标训练地址样本字序列组;
分别将所述目标训练地址样本字序列组对应的每个所述训练地址样本字序列输入所述目标第一实体命名识别模型的所述Bert层和所述BiLSTM层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一地址标签评分;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第一地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一预测概率;
分别将所述目标训练地址样本字序列组的每个所述训练样本对应的所述训练地址样本字序列输入所述初始化后的第二实体命名识别模型的DistilBert层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二地址标签评分;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第二地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二预测概率;
分别将所述目标训练地址样本字序列组的每个所述训练样本对应的所述训练地址样本字序列输入所述初始化后的第二实体命名识别模型进行每个字属于各个地址标签的最终评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三地址标签评分;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第三地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三预测概率;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的第三预测概率中找出最大值,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的最大概率;
根据所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率对所述初始化后的第二实体命名识别模型进行训练,将训练结束的所述初始化后的第二实体命名识别模型确定为所述目标第二实体命名识别模型。
2.根据权利要求1所述的实体命名识别模型的训练方法,其特征在于,所述获取多个训练样本的步骤之前,包括:
获取多条待处理的地址数据,将所述待处理的地址数据作为所述地址样本数据;
分别对每条所述地址样本数据进行规范化处理,得到多条规范化后的地址数据;
分别对每条所述规范化后的地址数据进行预设规范范围的重复信息的查找及删除处理,得到多条去重后的地址数据;
分别对每条所述去重后的地址数据进行预设规范范围的缺失数据的查找及补全处理,得到多条预处理后的地址数据;
分别对每条所述预处理后的地址数据进行地址结构化处理,得到多条所述地址样本数据各自对应的所述样本标定数据。
3.根据权利要求2所述的实体命名识别模型的训练方法,其特征在于,所述分别对每条所述预处理后的地址数据进行地址结构化处理,得到多条所述地址样本数据各自对应的所述样本标定数据的步骤,包括:
获取预设地址实体关键字和预设地址实体地址标签数据,采用所述预设地址实体关键字和所述预设地址实体地址标签数据分别对每条所述预处理后的地址数据进行逐字标注地址标签,得到多条所述预处理后的地址数据各自对应的地址标签序列;
将多条所述预处理后的地址数据和各自对应的所述地址标签序列发送给审核端;
获取所述审核端发送的多条所述预处理后的地址数据各自对应的地址标签序列的目标审核结果;
根据多条所述预处理后的地址数据各自对应的地址标签序列的目标审核结果,确定多条所述地址样本数据各自对应的所述样本标定数据。
4.根据权利要求1所述的实体命名识别模型的训练方法,其特征在于,所述根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型的步骤,包括:
采用所述训练样本集合对所述待训练的第一实体命名识别模型进行训练,得到待验证的第一实体命名识别模型;
采用所述测试样本集合对所述待验证的第一实体命名识别模型进行每个字的地址标签预测,得到第一识别结果集合;
根据所述第一识别结果集合进行准确率计算,得到待判断的验证准确率;
获取上一次的验证准确率;
重复所述采用所述训练样本集合对所述待训练的第一实体命名识别模型进行训练,得到待验证的第一实体命名识别模型的步骤,直至所述待判断的验证准确率小于或等于所述上一次的验证准确率;
根据所述上一次的验证准确率对应的所述待验证的第一实体命名识别模型,确定所述目标第一实体命名识别模型。
5.根据权利要求1所述的实体命名识别模型的训练方法,其特征在于,所述根据所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率对所述初始化后的第二实体命名识别模型进行训练,将训练结束的所述初始化后的第二实体命名识别模型确定为所述目标第二实体命名识别模型的步骤,包括:
将所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率输入损失函数进行计算,得到所述初始化后的第二实体命名识别模型的损失值,根据所述损失值更新所述初始化后的第二实体命名识别模型的参数,更新后的所述初始化后的第二实体命名识别模型被用于下一次计算各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和各个所述训练地址样本字序列各自对应的各个字的所述最大概率;
重复执行上述方法步骤直至所述损失值达到收敛条件,将所述损失值达到所述收敛条件的所述初始化后的第二实体命名识别模型,确定为所述目标第二实体命名识别模型。
6.一种实体命名识别模型的训练装置,其特征在于,所述装置包括:
训练样本获取模块,用于获取多个训练样本,所述训练样本包括:地址样本数据、样本标定数据;
训练样本划分模块,用于将所述多个训练样本按预设划分规则进行划分,得到训练样本集合和测试样本集合;
实体命名识别模型训练模块,用于根据所述训练样本集合和所述测试样本集合对待训练的第一实体命名识别模型进行训练,得到目标第一实体命名识别模型,所述目标第一实体命名识别模型包括:Bert层、BiLSTM层和第一CRF层;
模型蒸馏模块,用于根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型,所述目标第二实体命名识别模型包括:DistilBert层、第二CRF层;
目标实体命名识别模型确定模块,用于根据所述目标第二实体命名识别模型,得到目标实体命名识别模型;
其中,所述根据所述训练样本集合和所述目标第一实体命名识别模型对待训练的第二实体命名识别模型进行训练,得到目标第二实体命名识别模型的步骤,包括:
从所述目标第一实体命名识别模型中提取出所述第一CRF层的参数,得到目标CRF层参数;
采用所述目标CRF层参数对所述待训练的第二实体命名识别模型的第二CRF层进行初始化,得到初始化后的第二实体命名识别模型;
分别将所述训练样本集合中每个所述训练样本的所述地址样本数据按字拆分,得到各个所述训练样本各自对应的训练地址样本字序列;
将所述各个所述训练样本各自对应的训练地址样本字序列按预设划分规则进行划分,得到多个训练地址样本字序列组;
从所述多个训练地址样本字序列组中提取出一组所述训练地址样本字序列组作为目标训练地址样本字序列组;
分别将所述目标训练地址样本字序列组对应的每个所述训练地址样本字序列输入所述目标第一实体命名识别模型的所述Bert层和所述BiLSTM层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一地址标签评分;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第一地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第一预测概率;
分别将所述目标训练地址样本字序列组的每个所述训练样本对应的所述训练地址样本字序列输入所述初始化后的第二实体命名识别模型的DistilBert层进行每个字属于各个地址标签的评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二地址标签评分;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第二地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第二预测概率;
分别将所述目标训练地址样本字序列组的每个所述训练样本对应的所述训练地址样本字序列输入所述初始化后的第二实体命名识别模型进行每个字属于各个地址标签的最终评分,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三地址标签评分;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的所述第三地址标签评分进行地址标签评分归一化处理,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的第三预测概率;
分别对所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的每个字的各个地址标签的第三预测概率中找出最大值,得到所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的最大概率;
根据所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第一预测概率、所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的各个地址标签的所述第二预测概率和所述目标训练地址样本字序列组的各个所述训练地址样本字序列各自对应的各个字的所述最大概率对所述初始化后的第二实体命名识别模型进行训练,将训练结束的所述初始化后的第二实体命名识别模型确定为所述目标第二实体命名识别模型。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202011511008.6A 2020-12-18 2020-12-18 实体命名识别模型的训练方法、装置、设备及存储介质 Active CN112613312B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011511008.6A CN112613312B (zh) 2020-12-18 2020-12-18 实体命名识别模型的训练方法、装置、设备及存储介质
PCT/CN2021/091728 WO2022126988A1 (zh) 2020-12-18 2021-04-30 实体命名识别模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011511008.6A CN112613312B (zh) 2020-12-18 2020-12-18 实体命名识别模型的训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112613312A CN112613312A (zh) 2021-04-06
CN112613312B true CN112613312B (zh) 2022-03-18

Family

ID=75241099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011511008.6A Active CN112613312B (zh) 2020-12-18 2020-12-18 实体命名识别模型的训练方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112613312B (zh)
WO (1) WO2022126988A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613312B (zh) * 2020-12-18 2022-03-18 平安科技(深圳)有限公司 实体命名识别模型的训练方法、装置、设备及存储介质
CN113255346B (zh) * 2021-07-01 2021-09-14 湖南工商大学 一种基于图嵌入与crf知识融入的地址要素识别方法
CN113488196B (zh) * 2021-07-26 2023-04-07 西南交通大学 一种药品说明书文本命名实体识别建模方法
JPWO2023017568A1 (zh) * 2021-08-10 2023-02-16
CN115841113B (zh) * 2023-02-24 2023-05-12 山东云天安全技术有限公司 一种域名标号检测方法、存储介质及电子设备
CN117457135B (zh) * 2023-12-22 2024-04-09 四川互慧软件有限公司 一种地址数据治理方法和循环神经网络模型构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016156995A1 (en) * 2015-03-30 2016-10-06 Yokogawa Electric Corporation Methods, systems and computer program products for machine based processing of natural language input
CN110795939A (zh) * 2019-10-15 2020-02-14 腾讯科技(深圳)有限公司 文本处理方法、装置
CN111523324A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 命名实体识别模型的训练方法及装置
CN111738436A (zh) * 2020-06-28 2020-10-02 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质
CN111832291A (zh) * 2020-06-02 2020-10-27 北京百度网讯科技有限公司 实体识别模型的生成方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3082239A1 (en) * 2019-06-04 2020-12-04 Dana-Farber Cancer Institute, Inc. System and method of using machine learning for extraction of symptoms from electronic health records
CN111553164A (zh) * 2020-04-29 2020-08-18 平安科技(深圳)有限公司 命名实体识别模型的训练方法、装置、计算机设备
CN111967266B (zh) * 2020-09-09 2024-01-26 中国人民解放军国防科技大学 中文命名实体识别系统、模型构建方法和应用及相关设备
CN112613312B (zh) * 2020-12-18 2022-03-18 平安科技(深圳)有限公司 实体命名识别模型的训练方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016156995A1 (en) * 2015-03-30 2016-10-06 Yokogawa Electric Corporation Methods, systems and computer program products for machine based processing of natural language input
CN110795939A (zh) * 2019-10-15 2020-02-14 腾讯科技(深圳)有限公司 文本处理方法、装置
CN111523324A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 命名实体识别模型的训练方法及装置
CN111832291A (zh) * 2020-06-02 2020-10-27 北京百度网讯科技有限公司 实体识别模型的生成方法、装置、电子设备及存储介质
CN111738436A (zh) * 2020-06-28 2020-10-02 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2022126988A1 (zh) 2022-06-23
CN112613312A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112613312B (zh) 实体命名识别模型的训练方法、装置、设备及存储介质
CN111160017B (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
CN111694924B (zh) 一种事件抽取方法和系统
CN112380840B (zh) 文本纠错方法、装置、设备及介质
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109271627B (zh) 文本分析方法、装置、计算机设备和存储介质
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN110851546B (zh) 一种验证、模型的训练、模型的共享方法、系统及介质
CN112131351B (zh) 一种基于多答案损失函数的片段信息抽取模型训练方法
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN112733911A (zh) 实体识别模型的训练方法、装置、设备和存储介质
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN113723070A (zh) 文本相似度模型训练方法、文本相似度检测方法及装置
CN115659226A (zh) 一种获取app标签的数据处理系统
CN113486140A (zh) 知识问答的匹配方法、装置、设备及存储介质
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN110717037A (zh) 对用户分类的方法和装置
CN115688789A (zh) 一种基于动态标签的实体关系抽取模型训练方法及系统
CN114861818A (zh) 基于人工智能的主数据匹配方法、装置、设备及存储介质
CN115454788A (zh) 一种日志异常检测方法、装置、设备及存储介质
CN114723986A (zh) 文本图像匹配方法、装置、设备及存储介质
US20230315769A1 (en) A method for address matching and related electronic device
CN111476022B (zh) 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant