CN113591459B - 地址标准化处理方法、装置、电子设备及可读存储介质 - Google Patents

地址标准化处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113591459B
CN113591459B CN202110916443.5A CN202110916443A CN113591459B CN 113591459 B CN113591459 B CN 113591459B CN 202110916443 A CN202110916443 A CN 202110916443A CN 113591459 B CN113591459 B CN 113591459B
Authority
CN
China
Prior art keywords
address
sample set
language model
sample
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110916443.5A
Other languages
English (en)
Other versions
CN113591459A (zh
Inventor
张俊文
夏丽娟
王亦斐
沈贤俊
李星涵
陈怡玮
黎建辉
陈施恩
夏俊伟
廖晓格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202110916443.5A priority Critical patent/CN113591459B/zh
Publication of CN113591459A publication Critical patent/CN113591459A/zh
Application granted granted Critical
Publication of CN113591459B publication Critical patent/CN113591459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据处理,揭露一种地址标准化处理方法,包括:对第一样本集中的样本执行混合掩码处理,得到第二样本集;将第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型;将第三样本集输入第一语言模型进行第二训练,得到第二语言模型;将待处理地址输入第二语言模型,得到标准化地址。本发明还提供一种地址标准化处理装置、电子设备及可读存储介质。本发明实现了准确地对地址进行标准化处理。

Description

地址标准化处理方法、装置、电子设备及可读存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种地址标准化处理方法、装置、电子设备及可读存储介质。
背景技术
地址在现代社会的应用非常广泛,例如,物流服务、导航服务、房产/商圈的投资研究等,然而,由于地址的书写表达存在不规范性,不同的人对同一地址的书写变化多样,如何对地址进行标准化处理是当前的关注要点。
当前,通常采用通用语料对语言模型预训练,将预训练得到的模型迁移到下游地址任务训练得到训练好的语言模型,使用训练好的语言模型对地址进行标准化处理。然而由于采用通用语料预训练得到的模型无法准确、深入学习到地址文本的不同粒度的语义特征和行政隶属关系特征,导致训练好的语言模型无法准确地对地址进行标准化处理(地址纠错处理及地址补全处理)。因此,亟需一种地址标准化处理方法,以准确地对地址进行标准化处理。
发明内容
鉴于以上内容,有必要提供一种地址标准化处理方法,旨在准确地对地址进行标准化处理。
本发明提供的地址标准化处理方法,包括:
从第一数据库中抽取第一数量的地址样本作为第一样本集,对所述第一样本集中的样本执行混合掩码处理,得到第二样本集;
将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型;
从第二数据库中抽取第二数量的携带标注信息的地址样本作为第三样本集,将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型;
解析用户基于客户端发出的地址标准化处理请求,获取所述地址标准化处理请求携带的待处理地址,将所述待处理地址输入所述第二语言模型,得到标准化地址。
可选的,所述对所述第一样本集中的样本执行混合掩码处理,得到第二样本集,包括:
将所述第一样本集中的每个样本输入地址实体识别模型,得到地址实体识别结果;
基于所述地址实体识别结果将所述第一样本集中的每个样本拆分为实体区域及非实体区域;
按照预设比例将所述第一样本集拆分为第四样本集及第五样本集;
对所述第四样本集中每个样本的实体区域执行同义词掩码处理,得到第六样本集;
对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,得到第七样本集;
对所述第六样本集及所述第七样本集中的样本执行标注处理,合并标注处理后的第六样本集及第七样本集,得到第二样本集。
可选的,所述对所述第四样本集中每个样本的实体区域执行同义词掩码处理,包括:
从第三数据库中获取预先确定的替换比例与行政区域层级之间的第一映射关系;
基于所述第一映射关系,将所述第四样本集中对应替换比例的样本的实体区域中对应行政区域层级的地址实体用同一行政区域层级的其它地址实体替换。
可选的,所述对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,包括:
从第四数据库中获取预先确定的替换比例与掩码位数之间的第二映射关系;
基于所述第二映射关系,将所述第五样本集中对应替换比例的样本的非实体区域中对应位数的字符用掩盖符替换。
可选的,所述将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型,包括:
将所述标注处理后的第六样本集输入所述初始语言模型,执行地址实体预测任务及行政隶属关系预测任务;
将所述标注处理后的第七样本集输入所述初始语言模型,执行掩盖符预测任务;
基于所述地址实体预测任务、行政隶属关系预测任务及掩盖符预测任务对应的第一损失函数,确定所述初始语言模型的第一结构参数,得到第一语言模型。
可选的,所述将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型,包括:
将所述第三样本集输入所述第一语言模型,执行异常地址识别任务及地址标准化解析任务;
基于所述异常地址识别任务及地址标准化解析任务对应的第二损失函数,确定所述第一语言模型的第二结构参数,得到第二语言模型。
可选的,所述对所述第六样本集及所述第七样本集中的样本执行标注处理,包括:
将所述第六样本集的每个样本中被掩码的真实地址实体及掩码后的地址实体与样本中其它地址实体之间的真实行政隶属关系作为每个样本的标注信息;
将所述第七样本集的每个样本中掩码前的真实文本内容作为每个样本的标注信息。
为了解决上述问题,本发明还提供一种地址标准化处理装置,所述装置包括:
掩码模块,用于从第一数据库中抽取第一数量的地址样本作为第一样本集,对所述第一样本集中的样本执行混合掩码处理,得到第二样本集;
第一训练模块,用于将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型;
第二训练模块,用于从第二数据库中抽取第二数量的携带标注信息的地址样本作为第三样本集,将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型;
处理模块,用于解析用户基于客户端发出的地址标准化处理请求,获取所述地址标准化处理请求携带的待处理地址,将所述待处理地址输入所述第二语言模型,得到标准化地址。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的地址标准化处理程序,所述地址标准化处理程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述地址标准化处理方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有地址标准化处理程序,所述地址标准化处理程序可被一个或者多个处理器执行,以实现上述地址标准化处理方法。
相较现有技术,本发明首先对第一样本集中的样本执行混合掩码处理,得到第二样本集;接着,将第二样本集输入初始语言模型进行第一训练,得到第一语言模型;然后,将第三样本集输入第一语言模型进行第二训练,得到第二语言模型;最后,将待处理地址输入第二语言模型,得到标准化地址。本发明通过混合掩码处理,使得初始语言模型在第一训练的过程中学习了行政区域中地址实体特征及各地址实体之间的行政隶属关系,从而训练得到的第二语言模型可更准确地对地址进行标准化处理。因此,本发明实现了准确地对地址进行标准化处理。
附图说明
图1为本发明一实施例提供的地址标准化处理方法的流程示意图;
图2为本发明一实施例提供的地址标准化处理装置的模块示意图;
图3为本发明一实施例提供的实现地址标准化处理方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种地址标准化处理方法。参照图1所示,为本发明一实施例提供的地址标准化处理方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,地址标准化处理方法包括:
S1、从第一数据库中抽取第一数量的地址样本作为第一样本集,对所述第一样本集中的样本执行混合掩码处理,得到第二样本集。
本实施例中,所述第一数据库中存储有从各个渠道收集的真实地址样本,所述第一数量可以是一亿条,将从第一数据库中抽取的一亿条地址样本作为第一样本集,所述混合掩码处理为同义词掩码及掩盖符掩码混合处理。
所述对所述第一样本集中的样本执行混合掩码处理,得到第二样本集,包括:
A11、将所述第一样本集中的每个样本输入地址实体识别模型,得到地址实体识别结果;
本实施例中,所述地址实体识别模型是利用少量监督数据训练神经网络模型或BERT模型得到的,用于识别输入文本中的地址实体,所述地址实体识别结果包括地址实体名称(省、市、区、镇及详细信息)及其对应的行政区域层级。
例如,若样本1为广东省深圳市福田区阳光广场x座xx室,将样本1输入地址实体识别模型,得到的地址实体识别结果中包括3个地址实体(广东省、深圳市及福田区)及一个详细地址(阳光广场x座xx室),其对应的行政区域层级分别为省、市、区及详细地址。
A12、基于所述地址实体识别结果将所述第一样本集中的每个样本拆分为实体区域及非实体区域;
本实施例中,将样本中镇级及以上行政区域层级的地址实体的部分作为实体区域,将详细地址部分作为非实体区域,以样本1为例,其拆分得到的实体区域为广东省深圳市福田区,非实体区域为阳光广场x座xx室。
A13、按照预设比例将所述第一样本集拆分为第四样本集及第五样本集;
本实施例中,所述预设比例可以是7:3,从第一样本集中抽取70%的样本得到第四样本集,将第一样本集中剩余的样本作为第五样本集。
A14、对所述第四样本集中每个样本的实体区域执行同义词掩码处理,得到第六样本集;
所述同义词掩码处理为将样本的实体区域中地址实体用同行政区域层级的另一地址实体替换,下述步骤B11-B12详细描述了同义词掩码处理的具体过程。
A15、对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,得到第七样本集;
所述掩盖符掩码处理为将样本的非实体区域中的文字用掩盖符替换,所述掩盖符可以是[MASK],下述步骤C11-C12详细描述了掩盖符掩码处理的具体过程。
A16、对所述第六样本集及所述第七样本集中的样本执行标注处理,合并标注处理后的第六样本集及第七样本集,得到第二样本集。
标注处理即确定样本的标注信息,下述步骤D11-D12详细描述了标注信息的确定过程。
所述对所述第四样本集中每个样本的实体区域执行同义词掩码处理,包括:
B11、从第三数据库中获取预先确定的替换比例与行政区域层级之间的第一映射关系;
所述替换比例与行政区域层级之间的第一映射关系可以是:
10%:省;
30%:市;
30%:区;
10%:镇;
10%:省+市;
10%:区+镇。
B12、基于所述第一映射关系,将所述第四样本集中对应替换比例的样本的实体区域中对应行政区域层级的地址实体用同一行政区域层级的其它地址实体替换。
例如,若第四样本集中共1000个样本,则对其中100个样本中的每个样本的实体区域中层级为省的地址实体用同为省层级的其它地址实体替换(例如,可将广东省替换为山东省);对其中300个样本中的每个样本的实体区域中层级为市的地址实体用同为市层级的其它地址实体替换(例如,可将深圳市替换为昆山市);……;对剩下的100个样本中的每个样本的实体区域中层级为区和镇的地址实体用同为区和镇的其它地址实体替换(这部分样本中,区+镇的地址实体同时被替换)。
所述对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,包括:
C11、从第四数据库中获取预先确定的替换比例与掩码位数之间的第二映射关系;
所述替换比例与掩码位数之间的第二映射关系可以是:
25%:掩码1位;
25%:掩码2为;
25%:掩码3位;
25%:掩码4位。
C12、基于所述第二映射关系,将所述第五样本集中对应替换比例的样本的非实体区域中对应位数的字符用掩盖符替换。
例如,若第五样本集中共有100个样本,则对其中25个样本中每个样本的非实体区域中的一个字符(中文字符,非字母或数字)用掩盖符替换;对另25个样本中每个样本的非实体区域中的两个字符(这两个字符是随机挑选的,可以是连续的,也可以是非连续的)用掩盖符替换;……;对最后25个样本中的每个样本的非实体区域中的四个字符用掩盖符替换。
所述对所述第六样本集及所述第七样本集中的样本执行标注处理,包括:
D11、将所述第六样本集的每个样本中被掩码的真实地址实体及掩码后的地址实体与样本中其它地址实体之间的真实行政隶属关系作为每个样本的标注信息;
例如,若第六样本集中的样本2为:山西省晋中市灵石县翠峰镇尚和小区x号楼xx室,执行同义词掩码处理时,灵石县翠峰镇被替换为阳曲县黄寨镇,则掩码后的样本2的标注信息包括两部分,分别为:被掩码的真实地址实体为灵石县翠峰镇、灵石县翠峰镇与山西省晋中市不存在行政隶属关系。
D12、将所述第七样本集的每个样本中掩码前的真实文本内容作为每个样本的标注信息。
例如,若第七样本集中的样本3为:河北省承德市双桥区狮子沟镇汇水湾小区x号楼xx室,执行掩盖符掩码处理得到:河北省承德市双桥区狮子沟镇[mask][mask]湾小[mask]x号楼xx室,则掩码后的样本3的标注信息为汇、水、区。
S2、将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型。
本实施例中,所述初始语言模型为BERT模型,所述第一训练为预训练,预训练用于对初始语言模型进行知识增强,通过预训练,可提高下游训练任务的训练效果,缩短下游训练时间。
所述将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型,包括:
E11、将所述标注处理后的第六样本集输入所述初始语言模型,执行地址实体预测任务及行政隶属关系预测任务;
例如,对于第六样本集中的样本2,地址实体预测任务用于预测阳曲县黄寨镇所在位置的真实地址实体,行政隶属关系预测任务用于预测阳曲县黄寨镇与山西省晋中市是否存在行政隶属关系。
E12、将所述标注处理后的第七样本集输入所述初始语言模型,执行掩盖符预测任务;
例如,对于第七样本集中的样本3,掩盖符预测任务用于预测被[mask]掩盖的真实文本内容。
E13、基于所述地址实体预测任务、行政隶属关系预测任务及掩盖符预测任务对应的第一损失函数,确定所述初始语言模型的第一结构参数,得到第一语言模型。
将这三个预测任务预测的值与真实值输入第一损失函数中,得到第一损失值,通过最小化第一损失值确定初始语言模型的第一结构参数,得到第一语言模型。
本实施例中,第一损失函数的计算公式为:Y=y1+y2+y3,其中,Y为第一损失值,y1为地址实体预测任务对应的损失函数,y2为行政隶属关系预测任务对应的损失函数,y3为掩盖符预测任务对应的损失函数,y1、y2及y3可以是交叉熵损失函数。
对样本进行混合掩码处理后进行第一训练(即预训练),可以学习到行政区域中地址实体特征及各地址实体之间的行政隶属关系,很大程度上可提高下游任务的准确率及召回率。这种预训练方法可以运用在其他场景中或者行业的自然语言处理模型预训练任务中,是一种适用性较广的预训练方法,可跟具体业务场景和行业解耦。
S3、从第二数据库中抽取第二数量的携带标注信息的地址样本作为第三样本集,将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型。
本实施例中,第二数据库中存储有携带标注信息的地址样本,这些地址样本中部分是真实地址(或正确地址),部分是虚构地址(或错误地址),所述第二数量可以是1000条,所述第二训练为下游任务训练。
所述标注信息包括两部分,分别是地址是否为正常地址(正常时为1,异常时为0)、标准化解析结果(各层级地理区域对应的地址实体,例如,省对应的地址实体是什么,市对应的地址实体是什么,……)。
所述将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型,包括:
F11、将所述第三样本集输入所述第一语言模型,执行异常地址识别任务及地址标准化解析任务;
所述异常地址识别任务用于识别地址是否为正常地址,包括:识别地址中是否存在多个同一行政区域层级的地址实体(即双地址)、识别地址实体之间是否存在行政隶属关系、是否缺失部分地址实体。
所述地址标准化解析任务用于对地址进行解析,获取各个行政区域层级的地址实体。
F12、基于所述异常地址识别任务及地址标准化解析任务对应的第二损失函数,确定所述第一语言模型的第二结构参数,得到第二语言模型。
加总异常地址识别任务对应的损失函数与地址标准化解析任务对应的损失函数,得到第二损失函数。
本实施例中,异常地址识别任务中,若识别结果为正常地址,则地址识别任务的预测值为1;若识别结果为异常地址,则地址识别任务的预测值为0,将预测值与真实值输入地址识别任务对应的损失函数(可以是交叉熵损失函数),得到地址识别任务的损失值。
地址标准化解析任务中,若解析得到的结果与标注信息中的标准化解析结果一致,则预测值为1;若不一致,则预测值为0,将预测值与真实值输入地址标准化解析任务对应的损失函数,得到地址标准化解析任务对应的损失值。
加总地址识别任务及地址标准化解析任务对应的损失值,得到第二损失值,通过最小化第二损失值确定第一语言模型的第二结构参数,得到第二语言模型。
S4、解析用户基于客户端发出的地址标准化处理请求,获取所述地址标准化处理请求携带的待处理地址,将所述待处理地址输入所述第二语言模型,得到标准化地址。
本实施例中,所述待处理地址可以是一个地址,也可以是一批地址,所述地址标准化处理包括:地址纠错及地址补全。将待处理地址输入第二语言模型,得到的标准化地址是一个正确的、完整的地址。
由上述实施例可知,本发明提出的地址标准化处理方法,首先,对第一样本集中的样本执行混合掩码处理,得到第二样本集;接着,将第二样本集输入初始语言模型进行第一训练,得到第一语言模型;然后,将第三样本集输入第一语言模型进行第二训练,得到第二语言模型;最后,将待处理地址输入第二语言模型,得到标准化地址。本发明通过混合掩码处理,使得初始语言模型在第一训练的过程中学习了行政区域中地址实体特征及各地址实体之间的行政隶属关系,从而训练得到的第二语言模型可更准确地对地址进行标准化处理。因此,本发明实现了准确地对地址进行标准化处理。
如图2所示,为本发明一实施例提供的地址标准化处理装置的模块示意图。
本发明所述地址标准化处理装置100可以安装于电子设备中。根据实现的功能,所述地址标准化处理装置100可以包括掩码模块110、第一训练模块120、第二训练模块130及处理模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
掩码模块110,用于从第一数据库中抽取第一数量的地址样本作为第一样本集,对所述第一样本集中的样本执行混合掩码处理,得到第二样本集。
所述对所述第一样本集中的样本执行混合掩码处理,得到第二样本集,包括:
A21、将所述第一样本集中的每个样本输入地址实体识别模型,得到地址实体识别结果;
A22、基于所述地址实体识别结果将所述第一样本集中的每个样本拆分为实体区域及非实体区域;
A23、按照预设比例将所述第一样本集拆分为第四样本集及第五样本集;
A24、对所述第四样本集中每个样本的实体区域执行同义词掩码处理,得到第六样本集;
A25、对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,得到第七样本集;
A26、对所述第六样本集及所述第七样本集中的样本执行标注处理,合并标注处理后的第六样本集及第七样本集,得到第二样本集。
所述对所述第四样本集中每个样本的实体区域执行同义词掩码处理,包括:
B21、从第三数据库中获取预先确定的替换比例与行政区域层级之间的第一映射关系;
B22、基于所述第一映射关系,将所述第四样本集中对应替换比例的样本的实体区域中对应行政区域层级的地址实体用同一行政区域层级的其它地址实体替换。
所述对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,包括:
C21、从第四数据库中获取预先确定的替换比例与掩码位数之间的第二映射关系;
C22、基于所述第二映射关系,将所述第五样本集中对应替换比例的样本的非实体区域中对应位数的字符用掩盖符替换。
所述对所述第六样本集及所述第七样本集中的样本执行标注处理,包括:
D21、将所述第六样本集的每个样本中被掩码的真实地址实体及掩码后的地址实体与样本中其它地址实体之间的真实行政隶属关系作为每个样本的标注信息;
D22、将所述第七样本集的每个样本中掩码前的真实文本内容作为每个样本的标注信息。
第一训练模块120,用于将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型。
所述将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型,包括:
E21、将所述标注处理后的第六样本集输入所述初始语言模型,执行地址实体预测任务及行政隶属关系预测任务;
E22、将所述标注处理后的第七样本集输入所述初始语言模型,执行掩盖符预测任务;
E23、基于所述地址实体预测任务、行政隶属关系预测任务及掩盖符预测任务对应的第一损失函数,确定所述初始语言模型的第一结构参数,得到第一语言模型。
第二训练模块130,用于从第二数据库中抽取第二数量的携带标注信息的地址样本作为第三样本集,将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型。
所述将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型,包括:
F21、将所述第三样本集输入所述第一语言模型,执行异常地址识别任务及地址标准化解析任务;
F22、基于所述异常地址识别任务及地址标准化解析任务对应的第二损失函数,确定所述第一语言模型的第二结构参数,得到第二语言模型。
处理模块140,用于解析用户基于客户端发出的地址标准化处理请求,获取所述地址标准化处理请求携带的待处理地址,将所述待处理地址输入所述第二语言模型,得到标准化地址。
如图3所示,为本发明一实施例提供的实现地址标准化处理方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有地址标准化处理程序10,所述地址标准化处理程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及地址标准化处理程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的地址标准化处理程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行地址标准化处理程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的地址标准化处理程序10是多个指令的组合,在所述处理器12中运行时,可以实现上述地址标准化处理方法。
具体地,所述处理器12对上述地址标准化处理程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有地址标准化处理程序10,所述地址标准化处理程序10可被一个或者多个处理器执行,以实现上述地址标准化处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.一种地址标准化处理方法,其特征在于,所述方法包括:
从第一数据库中抽取第一数量的地址样本作为第一样本集,对所述第一样本集中的样本执行混合掩码处理,得到第二样本集;
将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型;
从第二数据库中抽取第二数量的携带标注信息的地址样本作为第三样本集,将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型;
解析用户基于客户端发出的地址标准化处理请求,获取所述地址标准化处理请求携带的待处理地址,将所述待处理地址输入所述第二语言模型,得到标准化地址;
其中,所述对所述第一样本集中的样本执行混合掩码处理,得到第二样本集,包括:将所述第一样本集中的每个样本输入地址实体识别模型,得到地址实体识别结果;基于所述地址实体识别结果将所述第一样本集中的每个样本拆分为实体区域及非实体区域;按照预设比例将所述第一样本集拆分为第四样本集及第五样本集;对所述第四样本集中每个样本的实体区域执行同义词掩码处理,得到第六样本集;对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,得到第七样本集;对所述第六样本集及所述第七样本集中的样本执行标注处理,合并标注处理后的第六样本集及第七样本集,得到第二样本集;
所述对所述第四样本集中每个样本的实体区域执行同义词掩码处理,包括:从第三数据库中获取预先确定的替换比例与行政区域层级之间的第一映射关系;基于所述第一映射关系,将所述第四样本集中对应替换比例的样本的实体区域中对应行政区域层级的地址实体用同一行政区域层级的其它地址实体替换;
所述将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型,包括:将所述标注处理后的第六样本集输入所述初始语言模型,执行地址实体预测任务及行政隶属关系预测任务;将所述标注处理后的第七样本集输入所述初始语言模型,执行掩盖符预测任务;基于所述地址实体预测任务、行政隶属关系预测任务及掩盖符预测任务对应的第一损失函数,确定所述初始语言模型的第一结构参数,得到第一语言模型。
2.如权利要求1所述的地址标准化处理方法,其特征在于,所述对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,包括:
从第四数据库中获取预先确定的替换比例与掩码位数之间的第二映射关系;
基于所述第二映射关系,将所述第五样本集中对应替换比例的样本的非实体区域中对应位数的字符用掩盖符替换。
3.如权利要求1所述的地址标准化处理方法,其特征在于,所述将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型,包括:
将所述第三样本集输入所述第一语言模型,执行异常地址识别任务及地址标准化解析任务;
基于所述异常地址识别任务及地址标准化解析任务对应的第二损失函数,确定所述第一语言模型的第二结构参数,得到第二语言模型。
4.如权利要求1所述的地址标准化处理方法,其特征在于,所述对所述第六样本集及所述第七样本集中的样本执行标注处理,包括:
将所述第六样本集的每个样本中被掩码的真实地址实体及掩码后的地址实体与样本中其它地址实体之间的真实行政隶属关系作为每个样本的标注信息;
将所述第七样本集的每个样本中掩码前的真实文本内容作为每个样本的标注信息。
5.一种地址标准化处理装置,用于实现如权利要求1至4任一项所述的地址标准化处理方法,其特征在于,所述装置包括:
掩码模块,用于从第一数据库中抽取第一数量的地址样本作为第一样本集,对所述第一样本集中的样本执行混合掩码处理,得到第二样本集;
第一训练模块,用于将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型;
第二训练模块,用于从第二数据库中抽取第二数量的携带标注信息的地址样本作为第三样本集,将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型;
处理模块,用于解析用户基于客户端发出的地址标准化处理请求,获取所述地址标准化处理请求携带的待处理地址,将所述待处理地址输入所述第二语言模型,得到标准化地址。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的地址标准化处理程序,所述地址标准化处理程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的地址标准化处理方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有地址标准化处理程序,所述地址标准化处理程序可被一个或者多个处理器执行,以实现如权利要求1至4任一项所述的地址标准化处理方法。
CN202110916443.5A 2021-08-10 2021-08-10 地址标准化处理方法、装置、电子设备及可读存储介质 Active CN113591459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110916443.5A CN113591459B (zh) 2021-08-10 2021-08-10 地址标准化处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110916443.5A CN113591459B (zh) 2021-08-10 2021-08-10 地址标准化处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113591459A CN113591459A (zh) 2021-11-02
CN113591459B true CN113591459B (zh) 2023-09-15

Family

ID=78257001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110916443.5A Active CN113591459B (zh) 2021-08-10 2021-08-10 地址标准化处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113591459B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417022B (zh) * 2022-03-30 2022-06-28 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置
CN116701734B (zh) * 2023-08-07 2024-04-02 深圳市智慧城市科技发展集团有限公司 地址文本的处理方法、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111611790A (zh) * 2020-04-13 2020-09-01 华为技术有限公司 数据处理的方法与装置
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN112966712A (zh) * 2021-02-01 2021-06-15 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11790171B2 (en) * 2019-04-16 2023-10-17 Covera Health Computer-implemented natural language understanding of medical reports
US20210117214A1 (en) * 2019-10-18 2021-04-22 Facebook, Inc. Generating Proactive Content for Assistant Systems
US11568143B2 (en) * 2019-11-15 2023-01-31 Intuit Inc. Pre-trained contextual embedding models for named entity recognition and confidence prediction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111611790A (zh) * 2020-04-13 2020-09-01 华为技术有限公司 数据处理的方法与装置
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN112966712A (zh) * 2021-02-01 2021-06-15 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN113591459A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
CN113051356B (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113591459B (zh) 地址标准化处理方法、装置、电子设备及可读存储介质
CN112182224A (zh) 裁判文书摘要生成方法、装置、电子设备及可读存储介质
CN112001179A (zh) 命名实体识别方法、装置、电子设备及可读存储介质
CN113032403B (zh) 数据洞察方法、装置、电子设备及存储介质
CN112597135A (zh) 用户分类方法、装置、电子设备及可读存储介质
CN114493255A (zh) 基于知识图谱的企业异常监控方法及其相关设备
CN112800178A (zh) 答案生成方法、装置、电子设备及可读存储介质
CN112395401B (zh) 自适应负样本对采样方法、装置、电子设备及存储介质
CN114281991A (zh) 文本分类方法、装置、电子设备及存储介质
CN114706961A (zh) 目标文本识别方法、装置及存储介质
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113688239A (zh) 少样本下的文本分类方法、装置、电子设备及存储介质
CN116758918A (zh) 地址信息识别方法、装置、电子设备及存储介质
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN112819593B (zh) 基于位置信息的数据分析方法、装置、设备及介质
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN113268614B (zh) 标签体系更新方法、装置、电子设备及可读存储介质
CN115146064A (zh) 意图识别模型优化方法、装置、设备及存储介质
CN113312482A (zh) 问题分类方法、装置、电子设备及可读存储介质
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
CN112069807A (zh) 文本数据的主题提取方法、装置、计算机设备及存储介质
CN113486266B (zh) 页面标签添加方法、装置、设备及存储介质
CN113688924B (zh) 异常订单检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant