CN113221558B - 一种快递地址纠错方法、装置、存储介质及电子设备 - Google Patents

一种快递地址纠错方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113221558B
CN113221558B CN202110594744.0A CN202110594744A CN113221558B CN 113221558 B CN113221558 B CN 113221558B CN 202110594744 A CN202110594744 A CN 202110594744A CN 113221558 B CN113221558 B CN 113221558B
Authority
CN
China
Prior art keywords
address
word sequence
keyword
express
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110594744.0A
Other languages
English (en)
Other versions
CN113221558A (zh
Inventor
王玲玲
史陆敏
普恒安
李丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Post Information Technology Beijing Co ltd
Original Assignee
China Post Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Post Information Technology Beijing Co ltd filed Critical China Post Information Technology Beijing Co ltd
Priority to CN202110594744.0A priority Critical patent/CN113221558B/zh
Publication of CN113221558A publication Critical patent/CN113221558A/zh
Application granted granted Critical
Publication of CN113221558B publication Critical patent/CN113221558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种快递地址纠错方法、装置、存储介质及电子设备。该方法包括:获取快递地址信息;其中,快递地址信息由位置归属地址和位置具体地址构成;利用分词技术对快递地址信息进行分词处理,获得关键词词序列和子地址词序列;根据预先确定的字典模型和Bert模型对关键词词序列进行纠错处理,获得目标关键词词序列;将目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。本技术方案,可以利用字典模型和Bert模型对关键词词序列和子地址词序列进行纠错处理,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。

Description

一种快递地址纠错方法、装置、存储介质及电子设备
技术领域
本申请实施例涉及快递领域,尤其涉及一种快递地址纠错方法、装置、存储介质及电子设备。
背景技术
在快递领域,企业的业务活动中存在多种涉及地址数据的场景。例如:用户寄件时会选择和手动填写收寄件地址或者使用智能文字识别技术识别快递面单等地址数据,会产生识别错误。此外,中国的地名非常丰富,尤其是省(直辖市市)、市(区)、县(区)以下的行政区划,重名和名称相似的现象非常普遍。错误的地址数据,会大大降低后续的数据使用价值,甚至影响快递员的投递工作。因此,需要利用纠错技术纠正地址数据中可能存在的错误。
现有的地址纠错技术主要包括基于地址字典的方法和基于统计的N-Gram语言模型纠错方法。
基于地址字典的方法,在地址匹配的计算过程中,会占用过大的设备内存;单一基于统计的N-Gram语言模型纠错方法,无法学习较长的地址名称序列,预测准确率不够。
发明内容
本申请实施例提供一种快递地址纠错方法、装置、存储介质及电子设备,利用字典模型和Bert模型对关键词词序列和子地址词序列进行纠错处理,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。
第一方面,本申请实施例提供了一种快递地址纠错方法,该方法包括:
获取快递地址信息;其中,所述快递地址信息由位置归属地址和位置具体地址构成;其中,所述位置归属地址中包括至少一个位置归属级别;
利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列;其中,所述关键词词序列由所述位置归属地址得到;所述子地址词序列由所述位置具体地址得到;
根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列;其中,所述字典模型是根据地址数据以有根树结构进行建立的模型;所述Bert模型是根据地址库数据进行训练得到的模型;
将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。
第二方面,本申请实施例提供了一种快递地址纠错装置,该装置包括:
快递地址信息获取模块,用于获取快递地址信息;其中,所述快递地址信息由位置归属地址和位置具体地址构成;其中,所述位置归属地址中包括至少一个位置归属级别;
分词处理模块,用于利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列;其中,所述关键词词序列由所述位置归属地址得到;所述子地址词序列由所述位置具体地址得到;
目标关键词词序列获得模块,用于根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列;其中,所述字典模型是根据地址数据以有根树结构进行建立的模型;所述Bert模型是根据地址库数据进行训练得到的模型;
目标快递地址信息得到模块,用于将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的快递地址纠错方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的快递地址纠错方法。
本申请实施例所提供的技术方案,获取快递地址信息;其中,快递地址信息由位置归属地址和位置具体地址构成;利用分词技术对快递地址信息进行分词处理,获得关键词词序列和子地址词序列;根据预先确定的字典模型和Bert模型对关键词词序列进行纠错处理,获得目标关键词词序列;将目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。本技术方案,可以利用字典模型和Bert模型对关键词词序列和子地址词序列进行纠错处理,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。
附图说明
图1是本申请实施例一提供的快递地址纠错方法的流程图;
图2是本申请实施例二提供的快递地址纠错过程的示意图;
图3是本申请实施例三提供的快递地址纠错装置的结构示意图;
图4是本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本申请实施例一提供的快递地址纠错方法的流程图,本实施例可适用于对快递地址信息进行纠错的情况,该方法可以由本申请实施例所提供的快递地址纠错装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于快递地址处理的智能终端等设备中。
如图1所示,所述快递地址纠错方法包括:
S110、获取快递地址信息;其中,所述快递地址信息由位置归属地址和位置具体地址构成;其中,所述位置归属地址中包括至少一个位置归属级别;
在本实施例中,快递地址信息可以是指需要把邮件寄往的地址信息。可以响应于人工填写操作获取快递地址信息,也可以响应于系统识别操作获取快递地址信息。
其中,位置归属地址可以是指快递地址信息所属的位置级别;位置具体地址可以是指快递地址信息中除位置归属地址以外的其余地址。例如,快递地址信息可以是A省B市C区D街道E小区,若位置归属地址是A省B市C区,则位置具体地址是D街道E小区。即快递地址信息由位置归属地址和位置具体地址两部分构成。若位置归属地址是A省B市,则位置具体地址是C区D街道E小区。具体位置归属地址可以根据快递地址信息纠错需求进行设定。优选的,位置归属地址可以是快递地址信息中的前三级归属地址。
S120、利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列;其中,所述关键词词序列由所述位置归属地址得到;所述子地址词序列由所述位置具体地址得到;
其中,分词技术可以是指搜索引擎针对提交查询的快递地址信息进行的查询处理后根据快递地址信息用各种匹配方法进行分词的一种技术。常用的分词方法有字符串匹配的分词方法、词义分词法以及统计分词法等。在本方案中不做具体限定。
可以理解的,获得快递地址信息后,采用分词技术可以将快递地址信息进行分词,得到关键词词序列和子地址词序列。例如,快递地址信息是A省B市C区D街道E小区,分词后得到的关键词词序列可以是A省B市C区,子地址词序列是D街道E小区。则关键词词序列则是由A省、B市以及C区三个词构成;子地址词序列则是由D街道以及E小区两个词构成。
在本技术方案中,可选的,若所述快递地址信息是输入类快递地址信息,则:
利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列,包括:
利用分词技术对所述输入类快递地址信息进行分词处理,获得输入类关键词词序列和输入类子地址词序列。
其中,输入类快递地址信息可以是指快递地址信息由用户进行输入得到的快递地址信息。输入类关键词词序列可以由至少一个待纠错关键词构成;输入类子地址词序列由至少一个待纠错地址词构成。
通过对输入类快递地址信息进行分词处理,可以实现对输入类快递地址信息的纠错处理。
S130、根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列;其中,所述字典模型是根据地址数据以有根树结构进行建立的模型;所述Bert模型是根据地址库数据进行训练得到的模型;
其中,Bert模型的输出结果可以是一个完整词序列以及一个结果值。其中,所述结果值用于表示预测输出结果的准确度,可以用0-1进行表示。例如,假设Bert模型的输出结果是A省B市C区D街道E小区,A省B市C区D街道E小区的结果值是0.9,结果值大于预设阈值,则说明接受预测结果。
在本方案中,可以将关键词词序列中的各个词依次在字典模型中进行搜索匹配。假设关键词词序列中包含多个词,则首先在字典模型的第一级词中正向匹配搜索关键词词序列的第一个词,若匹配成功,则在以该词为根的树节点中匹配第二个词;若匹配失败,则在整体有根树的第二级节点中匹配第二个词;如果第二个词匹配失败,则利用Bert模型对该关键词词序列进行预测,输出预测结果,得到正确的完整关键词词序列。输出正确的完整关键词词序列后。同样方法继续匹配关键词词序列中的所有词,得到完整的目标关键词词序列。
在本技术方案中,可选的,根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列,包括:
将所述输入类关键词词序列中的各待纠错关键词依次与所述字典模型进行匹配;
若匹配失败,则将所述待纠错关键词用预设符号替换,得到待预测输入类关键词词序列,并将所述待预测输入类关键词词序列作为输入,基于Bert模型进行预测,得到目标输入类关键词词序列。
其中,预设符号可以是指各种字符符号,用于表示需要进行预测的待纠错关键词。例如,待纠错关键词可以用*替换。
在本方案中,若快递地址信息是输入类快递地址信息,则将输入类关键词词序列中的各个待纠错关键词按照顺序依次与字典模型进行匹配,即首先将第一个待纠错关键词与字典模型进行匹配。若匹配成功,则在以该词为根的树节点中匹配第二个待纠错关键词;若匹配失败,则将该待纠错关键词用预设符号替换,并将替换后的关键词词序列作为Bert模型的输入进行预测,得到正确的待纠错关键词。重复上述操作,直至输入类关键词词序列中的每个待纠错关键词都被纠错处理,得到最终的目标输入类关键词词序列。例如,假设输入类关键词词序列为A1省B1市C1县,预设符号是*。首先将A1省与字典模型进行匹配,若匹配成功,则以A1省为根的树节点中匹配B1市,若匹配失败,则将B1市用*替换,即得到待预测输入类关键词词序列是A1省*市C1县,将A1省*市C1县作为输入,基于Bert模型进行预测,假设输出的结果是A1省B11市C1县。重复上述步骤,将C1县与字典模型进行匹配,若匹配成功,则得到的目标输入类关键词词序列是A1省B11市C1县;若匹配失败,则将C1用*替换,即待预测输入类关键词词序列是A1省B11市*县,将A1省B11市*县作为输入,基于Bert模型进行预测,直到确定目标输入类关键词词序列。
利用字典模型和Bert模型对输入类关键词词序列进行纠错处理,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。
S140、将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。
在本方案中,当关键词词序列进行纠错处理后,得到的是正确的目标关键词词序列,将目标关键词词序列与子地址词序列进行拼接,并作为Bert模型的输入,得到正确的预测结果,即目标快递地址信息。
在本技术方案中,可选的,将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息,包括:
将所述输入类子地址词序列中的待纠错地址词用预设符号替换,得到待预测输入类子地址词序列;
将所述目标输入类关键词词序列和待预测输入类子地址词序列作为输入,基于Bert模型进行预测,得到输入类目标快递地址信息。
在本方案中,若快递地址信息是输入类快递地址信息,则确定目标输入类关键词词序列后,将输入类子地址词序列中的待纠错地址词依次用预设符号替换,并将目标输入类关键词词序列和待预测输入类子地址词序列进行拼接作为输入,进行预测,得到输入类目标快递地址信息。例如,假设目标输入类关键词词序列是A1省B11市C1县,输入类子地址词序列是D1乡E1村,预设符号是*。则将D1用*替换,得到待预测输入类子地址词序列*乡E1村,将目标输入类关键词词序列和待预测输入类子地址词序列进行拼接,得到的是A1省B11市C1县*乡E1村,将A1省B11市C1县*乡E1村作为输入,基于Bert模型进行预测,假设输出结果是A1省B11市C1县D11乡E1村,则重复上述操作,将E1用*替换,得到待预测输入类子地址词序列D11乡*村,将A1省B11市C1县D11乡*村作为输入,直至确定输入类目标快递地址信息。
通过对输入类目标快递地址信息进行确定,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。
在本技术方案中,可选的,在将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息之后,所述方法还包括:
判断所述目标快递地址信息中的结果值是否满足预设阈值约束条件;
若满足,则将所述目标快递地址信息作为最终的目标快递地址信息。
可以理解的,判断目标快递地址信息中的结果值是否满足预设阈值约束条件,即通过预设设定的阈值判断是否接受预测结果。若满足,则接受预测结果。若不满足,则预测失败。
通过对目标快递地址信息中的结果值进行判断,可以提高纠错结果的准确率。
本申请实施例所提供的技术方案,获取快递地址信息;其中,快递地址信息由位置归属地址和位置具体地址构成;利用分词技术对快递地址信息进行分词处理,获得关键词词序列和子地址词序列;根据预先确定的字典模型和Bert模型对关键词词序列进行纠错处理,获得目标关键词词序列;将目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。通过执行本技术方案,可以利用字典模型和Bert模型分别对关键词词序列和子地址词序列进行纠错处理,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。
实施例二
图2是本申请实施例二提供的快递地址纠错过程的示意图,本实施例二在实施例一的基础上进行进一步地优化。具体优化为:若所述快递地址信息是识别类快递地址信息,则:利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列,包括:利用分词技术对所述识别类快递地址信息进行分词处理,获得识别类关键词词序列、识别类待纠错关键词的置信度、识别类子地址词序列和识别类待纠错地址词的置信度;其中,所述识别类待纠错关键词由所述识别类关键词词序列得到;所述识别类待纠错地址词由所述识别类子地址词序列得到。其中,未在本实施例中详尽描述的内容详见实施例一。
如图2所示,该方法包括以下步骤:
S210、获取识别类快递地址信息;
其中,识别类快递地址信息可以是指基于智能文字识别系统输出的快递地址信息。该快递地址信息中包含智能文字识别系统输出的识别结果置信度。
S220、利用分词技术对所述识别类快递地址信息进行分词处理,获得识别类关键词词序列、识别类待纠错关键词的置信度、识别类子地址词序列和识别类待纠错地址词的置信度;其中,所述识别类待纠错关键词由所述识别类关键词词序列得到;所述识别类待纠错地址词由所述识别类子地址词序列得到;
其中,置信度可以是指快递地址信息中每个词的真实程度。识别类关键词词序列由至少一个识别类待纠错关键词构成;识别类子地址词序列由至少一个识别类待纠错地址词构成。
在本实施例中,获得识别类快递地址信息后,采用分词技术可以将识别类快递地址信息进行分词,得到识别类关键词词序列和识别类子地址词序列。并利用识别结果置信度计算出识别类快递地址信息中每个词的置信度。即识别类待纠错关键词的置信度和识别类待纠错地址词的置信度。
S230、根据预先确定的字典模型和Bert模型对所述识别类关键词词序列进行纠错处理,获得目标识别类关键词词序列;
在本方案中,可以将识别类关键词词序列中的各个识别类待纠错关键词依次在字典模型中进行搜索匹配。在字典模型第一级词中正向匹配搜索识别类关键词词序列的第一个词,若匹配成功,则在以该词为根的树节点中匹配第二个词;若匹配失败,则在整体有根树的第二级节点中匹配第二个词;如果匹配失败,则利用Bert模型对识别类关键词词序列进行预测,输出正确的完整关键词词序列。同样方法继续匹配识别类关键词词序列中的所有词,得到完整的目标关键词词序列。
可选的,根据预先确定的字典模型和Bert模型对所述识别类关键词词序列进行纠错处理,获得目标识别类关键词词序列,包括:
判断所述识别类待纠错关键词的置信度是否符合预设置信度约束条件;
若不符合,则将所述识别类待纠错关键词与字典模型进行匹配;
若匹配失败,则将所述识别类待纠错关键词用预设符号替换,得到待预测识别类关键词词序列,并将所述待预测识别类关键词词序列作为输入,基于Bert模型进行预测,得到目标识别类关键词词序列。
在本实施例中,首先需要判断识别类待纠错关键词的置信度是否符合预设置信度约束条件,即判断识别类待纠错关键词的可信程度。若识别类待纠错关键词的可信程度较高,则识别类待纠错关键词不需要进行纠错处理。若识别类待纠错关键词的可信程度较低,则将该识别类待纠错关键词与字典模型进行匹配,若匹配成功,则识别类待纠错关键词是正确的词,不需要进行纠错。若匹配失败,则将识别类待纠错关键词用预设符号替换,并利用Bert模型进行预测,得到正确的识别类待纠错关键词。例如,假设识别类关键词词序列为A2省B2市C2县,A2的置信度是0.5,B2的置信度是0.8,C2的置信度是0.1,预设符号是*。通过对置信度进行判断,C2的置信度不符合预设置信度约束条件,此时,则将C2县与字典模型进行匹配,若匹配成功,则说明C2是正确的;若匹配失败,则将C2用*替换,得到待预测识别类关键词词序列是A2省B2市*县,将A2省B2市*县作为输入,基于Bert模型进行预测,输出预测结果。假如输出结果是A2省B2市C21县,若目标识别类关键词词序列的结果值,满足阈值约束条件,即输出的结果值大于阈值,则A2省B2市C21县是正确的完整地址。即A2省B2市C21县是目标识别类关键词词序列。
利用字典模型和Bert模型对识别类关键词词序列进行纠错处理,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。
S240、将所述目标识别类关键词词序列和识别类子地址词序列作为输入,基于Bert模型进行预测,得到识别类目标快递地址信息。
在本方案中,当得到正确的目标识别类关键词词序列后,将目标识别类关键词词序列与识别类子地址词序列进行拼接,并作为Bert模型的输入,得到正确的预测结果,即识别类目标快递地址信息。
可选的,将所述目标识别类关键词词序列和识别类子地址词序列作为输入,基于Bert模型进行预测,得到识别类目标快递地址信息,包括:
判断所述识别类待纠错地址词的置信度是否符合预设置信度约束条件;
若不符合,将所述识别类待纠错地址词用预设符号进行替换,得到待预测识别类子地址词序列;
将所述目标识别类关键词词序列和待预测识别类子地址词序列作为输入,基于Bert模型进行预测,得到识别类目标快递地址信息。
在本方案中,获得目标识别类关键词词序列后,依次判断识别类待纠错地址词的置信度是否符合预设置信度约束条件,即判断识别类待纠错地址词的可信程度。若识别类待纠错地址词的可信程度较高,则识别类待纠错地址词不需要进行纠错处理;若识别类待纠错地址词的可信程度较低,则将识别类待纠错地址词用预设符号进行替换,利用Bert模型进行预测,输出最终的识别类目标快递地址信息。例如,假设目标识别类关键词词序列是A2省B2市C21县,识别类子地址词序列是D2乡E2村,D2的置信度是0.8,E2的置信度是0.2,预设符号是*。通过对置信度进行判断,E2的置信度不符合预设置信度约束条件,此时,将E2用*替换,得到待预测识别类子地址词序列是D2乡*村,并将目标识别类关键词词序列和待预测识别类子地址词序列进行拼接,并作为Bert模型输入进行预测。即将A2省B2市C21县D2乡*村作为Bert模型输入进行预测,得到最终的预测结果。假设得到的识别类目标快递地址信息是A2省B2市C21县D2乡E22村,且识别类目标快递地址信息的结果值满足阈值约束条件,即结果值大于阈值,则A2省B2市C21县D2乡E22村是正确的完整地址。
通过对识别类目标快递地址信息进行确定,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。
本申请实施例所提供的技术方案,获取识别类快递地址信息;利用分词技术对识别类快递地址信息进行分词处理,获得识别类关键词词序列、识别类待纠错关键词的置信度、识别类子地址词序列和识别类待纠错地址词的置信度;根据预先确定的字典模型和Bert模型对识别类关键词词序列进行纠错处理,获得目标识别类关键词词序列;将目标识别类关键词词序列和识别类子地址词序列作为输入,基于Bert模型进行预测,得到识别类目标快递地址信息。通过执行本技术方案,可以利用字典模型和Bert模型分别对关键词词序列和子地址词序列进行纠错处理,地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率。
实施例三
图3是本申请实施例三提供的快递地址纠错装置的结构示意图,如图3所示,快递地址纠错装置包括:
快递地址信息获取模块310,用于获取快递地址信息;其中,所述快递地址信息由位置归属地址和位置具体地址构成;其中,所述位置归属地址中包括至少一个位置归属级别;
分词处理模块320,用于利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列;其中,所述关键词词序列由所述位置归属地址得到;所述子地址词序列由所述位置具体地址得到;
目标关键词词序列获得模块330,用于根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列;其中,所述字典模型是根据地址数据以有根树结构进行建立的模型;所述Bert模型是根据地址库数据进行训练得到的模型;
目标快递地址信息得到模块340,用于将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。
在本技术方案中,可选的,分词处理模块320,包括:
输入类快递地址信息处理单元,用于利用分词技术对所述输入类快递地址信息进行分词处理,获得输入类关键词词序列和输入类子地址词序列。
在本技术方案中,可选的,目标关键词词序列获得模块330,包括:
待纠错关键词匹配单元,用于将所述输入类关键词词序列中的各待纠错关键词依次与所述字典模型进行匹配;
目标输入类关键词词序列得到单元,用于若匹配失败,则将所述待纠错关键词用预设符号替换,得到待预测输入类关键词词序列,并将所述待预测输入类关键词词序列作为输入,基于Bert模型进行预测,得到目标输入类关键词词序列。
在本技术方案中,可选的,目标快递地址信息得到模块340,包括:
待预测输入类子地址词序列得到单元,用于将所述输入类子地址词序列中的待纠错地址词用预设符号替换,得到待预测输入类子地址词序列;
输入类目标快递地址信息得到单元,用于将所述目标输入类关键词词序列和待预测输入类子地址词序列作为输入,基于Bert模型进行预测,得到输入类目标快递地址信息。
在本技术方案中,可选的,分词处理模块320,还包括:
识别类快递地址信息处理单元,用于利用分词技术对所述识别类快递地址信息进行分词处理,获得识别类关键词词序列、识别类待纠错关键词的置信度、识别类子地址词序列和识别类待纠错地址词的置信度;其中,所述识别类待纠错关键词由所述识别类关键词词序列得到;所述识别类待纠错地址词由所述识别类子地址词序列得到。
在本技术方案中,可选的,目标关键词词序列获得模块330,包括:
识别类待纠错关键词的置信度判断单元,用于判断所述识别类待纠错关键词的置信度是否符合预设置信度约束条件;
识别类待纠错关键词匹配单元,用于若不符合,则将所述识别类待纠错关键词与字典模型进行匹配;
目标识别类关键词词序列得到单元,用于若匹配失败,则将所述识别类待纠错关键词用预设符号替换,得到待预测识别类关键词词序列,并将所述待预测识别类关键词词序列作为输入,基于Bert模型进行预测,得到目标识别类关键词词序列。
在本技术方案中,可选的,目标快递地址信息得到模块340,包括:
识别类待纠错地址词的置信度判断单元,用于判断所述识别类待纠错地址词的置信度是否符合预设置信度约束条件;
待预测识别类子地址词序列得到单元,用于若不符合,将所述识别类待纠错地址词用预设符号进行替换,得到待预测识别类子地址词序列;
识别类目标快递地址信息得到单元,用于将所述目标识别类关键词词序列和待预测识别类子地址词序列作为输入,基于Bert模型进行预测,得到识别类目标快递地址信息。
在本技术方案中,可选的,所述装置还包括:
结果值判断模块,用于判断所述目标快递地址信息中的结果值是否满足预设阈值约束条件;
目标快递地址信息确定模块,用于若满足,则将所述目标快递地址信息作为最终的目标快递地址信息。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例四
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种快递地址纠错方法,该方法包括:
获取快递地址信息;其中,所述快递地址信息由位置归属地址和位置具体地址构成;其中,所述位置归属地址中包括至少一个位置归属级别;
利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列;其中,所述关键词词序列由所述位置归属地址得到;所述子地址词序列由所述位置具体地址得到;
根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列;其中,所述字典模型是根据地址数据以有根树结构进行建立的模型;所述Bert模型是根据地址库数据进行训练得到的模型;
将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的快递地址纠错操作,还可以执行本申请任意实施例所提供的快递地址纠错方法中的相关操作。
实施例五
本申请实施例提供了一种电子设备,该电子设备中可集成本申请实施例提供的快递地址纠错装置。图4是本申请实施例五提供的一种电子设备的结构示意图。如图4所示,本实施例提供了一种电子设备400,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器420执行,使得所述一个或多个处理器420实现本申请实施例所提供的快递地址纠错方法,该方法包括:
获取快递地址信息;其中,所述快递地址信息由位置归属地址和位置具体地址构成;其中,所述位置归属地址中包括至少一个位置归属级别;
利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列;其中,所述关键词词序列由所述位置归属地址得到;所述子地址词序列由所述位置具体地址得到;
根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列;其中,所述字典模型是根据地址数据以有根树结构进行建立的模型;所述Bert模型是根据地址库数据进行训练得到的模型;
将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息。
当然,本领域技术人员可以理解,处理器420还实现本申请任意实施例所提供的快递地址纠错方法的技术方案。
图4显示的电子设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440;电子设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线450连接为例。
存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的快递地址纠错方法对应的程序指令。
存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等电子设备。
本申请实施例提供的电子设备,可以达到地址匹配计算简单,占用设备内存较小。且能够学习更远词序列位置信息,提高了纠错结果的准确率的目的。
上述实施例中提供的快递地址纠错装置、存储介质及电子设备可执行本申请任意实施例所提供的快递地址纠错方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的快递地址纠错方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (8)

1.一种快递地址纠错方法,其特征在于,包括:
获取快递地址信息;其中,所述快递地址信息由位置归属地址和位置具体地址构成;其中,所述位置归属地址中包括至少一个位置归属级别;
利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列;其中,所述关键词词序列由所述位置归属地址得到;所述子地址词序列由所述位置具体地址得到;
根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列;其中,所述字典模型是根据地址数据以有根树结构进行建立的模型;所述Bert模型是根据地址库数据进行训练得到的模型;
将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息;
其中,根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列,包括:
将输入类关键词词序列中的各待纠错关键词依次与所述字典模型进行匹配;
若匹配失败,则将待纠错关键词用预设符号替换,得到待预测输入类关键词词序列,并将所述待预测输入类关键词词序列作为输入,基于Bert模型进行预测,得到目标输入类关键词词序列;
其中,若所述快递地址信息是识别类快递地址信息,则:
利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列,包括:
利用分词技术对所述识别类快递地址信息进行分词处理,获得识别类关键词词序列、识别类待纠错关键词的置信度、识别类子地址词序列和识别类待纠错地址词的置信度;其中,所述识别类待纠错关键词由所述识别类关键词词序列得到;所述识别类待纠错地址词由所述识别类子地址词序列得到;
其中,根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列,包括:
判断所述识别类待纠错关键词的置信度是否符合预设置信度约束条件;
若不符合,则将所述识别类待纠错关键词与字典模型进行匹配;
若匹配失败,则将所述识别类待纠错关键词用预设符号替换,得到待预测识别类关键词词序列,并将所述待预测识别类关键词词序列作为输入,基于Bert模型进行预测,得到目标识别类关键词词序列。
2.根据权利要求1所述的方法,其特征在于,若所述快递地址信息是输入类快递地址信息,则:
利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列,包括:
利用分词技术对所述输入类快递地址信息进行分词处理,获得输入类关键词词序列和输入类子地址词序列。
3.根据权利要求2所述的方法,其特征在于,将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息,包括:
将所述输入类子地址词序列中的待纠错地址词用预设符号替换,得到待预测输入类子地址词序列;
将目标输入类关键词词序列和待预测输入类子地址词序列作为输入,基于Bert模型进行预测,得到输入类目标快递地址信息。
4.根据权利要求1所述的方法,其特征在于,将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息,包括:
判断所述识别类待纠错地址词的置信度是否符合预设置信度约束条件;
若不符合,将所述识别类待纠错地址词用预设符号进行替换,得到待预测识别类子地址词序列;
将目标识别类关键词词序列和待预测识别类子地址词序列作为输入,基于Bert模型进行预测,得到识别类目标快递地址信息。
5.根据权利要求1所述的方法,其特征在于,在将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息之后,所述方法还包括:
判断所述目标快递地址信息中的结果值是否满足预设阈值约束条件;
若满足,则将所述目标快递地址信息作为最终的目标快递地址信息。
6.一种快递地址纠错装置,其特征在于,包括:
快递地址信息获取模块,用于获取快递地址信息;其中,所述快递地址信息由位置归属地址和位置具体地址构成;其中,所述位置归属地址中包括至少一个位置归属级别;
分词处理模块,用于利用分词技术对所述快递地址信息进行分词处理,获得关键词词序列和子地址词序列;其中,所述关键词词序列由所述位置归属地址得到;所述子地址词序列由所述位置具体地址得到;
目标关键词词序列获得模块,用于根据预先确定的字典模型和Bert模型对所述关键词词序列进行纠错处理,获得目标关键词词序列;其中,所述字典模型是根据地址数据以有根树结构进行建立的模型;所述Bert模型是根据地址库数据进行训练得到的模型;
目标快递地址信息得到模块,用于将所述目标关键词词序列和子地址词序列作为输入,基于Bert模型进行预测,得到目标快递地址信息;
其中,目标关键词词序列获得模块,包括:
待纠错关键词匹配单元,用于将输入类关键词词序列中的各待纠错关键词依次与所述字典模型进行匹配;
目标输入类关键词词序列得到单元,用于若匹配失败,则将待纠错关键词用预设符号替换,得到待预测输入类关键词词序列,并将所述待预测输入类关键词词序列作为输入,基于Bert模型进行预测,得到目标输入类关键词词序列;
其中,分词处理模块,包括:
识别类快递地址信息处理单元,用于利用分词技术对所述识别类快递地址信息进行分词处理,获得识别类关键词词序列、识别类待纠错关键词的置信度、识别类子地址词序列和识别类待纠错地址词的置信度;其中,所述识别类待纠错关键词由所述识别类关键词词序列得到;所述识别类待纠错地址词由所述识别类子地址词序列得到;
其中,目标关键词词序列获得模块,还包括:
识别类待纠错关键词的置信度判断单元,用于判断所述识别类待纠错关键词的置信度是否符合预设置信度约束条件;
识别类待纠错关键词匹配单元,用于若不符合,则将所述识别类待纠错关键词与字典模型进行匹配;
目标识别类关键词词序列得到单元,用于若匹配失败,则将所述识别类待纠错关键词用预设符号替换,得到待预测识别类关键词词序列,并将所述待预测识别类关键词词序列作为输入,基于Bert模型进行预测,得到目标识别类关键词词序列。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的快递地址纠错方法。
8.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的快递地址纠错方法。
CN202110594744.0A 2021-05-28 2021-05-28 一种快递地址纠错方法、装置、存储介质及电子设备 Active CN113221558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110594744.0A CN113221558B (zh) 2021-05-28 2021-05-28 一种快递地址纠错方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110594744.0A CN113221558B (zh) 2021-05-28 2021-05-28 一种快递地址纠错方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113221558A CN113221558A (zh) 2021-08-06
CN113221558B true CN113221558B (zh) 2023-09-19

Family

ID=77099506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110594744.0A Active CN113221558B (zh) 2021-05-28 2021-05-28 一种快递地址纠错方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113221558B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002521A (zh) * 2018-07-12 2018-12-14 北京猫眼文化传媒有限公司 搜索关键词的纠错方法、装置和存储介质
CN109753656A (zh) * 2018-12-29 2019-05-14 咪咕互动娱乐有限公司 一种数据处理方法、装置及存储介质
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统
CN111428474A (zh) * 2020-03-11 2020-07-17 中国平安人寿保险股份有限公司 基于语言模型的纠错方法、装置、设备及存储介质
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN112307770A (zh) * 2020-10-13 2021-02-02 深圳前海微众银行股份有限公司 敏感信息的检测方法、装置、电子设备及存储介质
CN112364113A (zh) * 2020-11-13 2021-02-12 北京明略软件系统有限公司 一种地址纠错方法及系统
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220237230A1 (en) * 2019-06-06 2022-07-28 Wisedocs Inc. System and method for automated file reporting
US11961511B2 (en) * 2019-11-08 2024-04-16 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002521A (zh) * 2018-07-12 2018-12-14 北京猫眼文化传媒有限公司 搜索关键词的纠错方法、装置和存储介质
CN109753656A (zh) * 2018-12-29 2019-05-14 咪咕互动娱乐有限公司 一种数据处理方法、装置及存储介质
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统
CN111428474A (zh) * 2020-03-11 2020-07-17 中国平安人寿保险股份有限公司 基于语言模型的纠错方法、装置、设备及存储介质
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN112307770A (zh) * 2020-10-13 2021-02-02 深圳前海微众银行股份有限公司 敏感信息的检测方法、装置、电子设备及存储介质
CN112364113A (zh) * 2020-11-13 2021-02-12 北京明略软件系统有限公司 一种地址纠错方法及系统
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ASR Rescoring and Confidence Estimation with Electra;Hayato Futami;《 2020 International Conference on Technologies and Applications of Artificial Intelligence (TAAI)》;Construction of document feature vectors using BERT *
云计算在智慧城市中的研究与应用;王中华;《信息通信》(第11期);83-84 *
关系数据库的纠错性关键词查询研究;甘井中;《微电子学与计算机》;第31卷(第12期);132-135+139 *
基于地址语义及树状分析的用电地址自纠错模型研究;郑爱武;《自动化与仪器仪表》(第08期);89-91 *
面向自然语言处理的深度学习对抗样本综述;仝鑫;《计算机科学》;第48卷(第01期);258-267 *
面向迁移学习的意图识别研究进展;赵鹏飞;《计算机科学与探索》;第14卷(第08期);1261-1274 *

Also Published As

Publication number Publication date
CN113221558A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN110990520B (zh) 一种地址编码方法、装置、电子设备和存储介质
CN111739514A (zh) 一种语音识别方法、装置、设备及介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN113065057B (zh) 一种数据信息真实性校验方法、装置、设备及存储介质
CN115658837A (zh) 地址数据处理方法和装置、电子设备和存储介质
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN114329112A (zh) 内容审核方法、装置、电子设备及存储介质
CN112307169B (zh) 地址数据的匹配方法、装置、计算机设备及存储介质
CN113177405A (zh) 基于bert的数据纠错方法、装置、设备及存储介质
CN113221558B (zh) 一种快递地址纠错方法、装置、存储介质及电子设备
US20220171749A1 (en) System and Process for Data Enrichment
CN110737678B (zh) 一种数据查找方法、装置、设备和存储介质
CN116306646A (zh) 信息的填写方法、装置、计算机设备和存储介质
US20210406773A1 (en) Transforming method, training device, and inference device
CN112579713B (zh) 地址识别方法、装置、计算设备及计算机存储介质
CN114049642A (zh) 一种表格证件影像件的文本识别方法及计算设备
CN114064269A (zh) 一种地址匹配方法、装置及终端设备
CN114065762A (zh) 一种文本信息的处理方法、装置、介质及设备
CN115526177A (zh) 对象关联模型的训练
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
CN116910386B (zh) 地址补全方法、终端设备及计算机可读存储介质
CN112818666B (zh) 地址识别方法、装置、电子设备和存储介质
CN112818667B (zh) 地址纠正方法、系统、设备及存储介质
CN114997147B (zh) 基于混合mask的poi地址纠错方法、装置、存储介质和设备
CN108304430B (zh) 一种修改数据库的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant