CN112488103A - 地址信息抽取方法、模型训练方法及相关设备 - Google Patents

地址信息抽取方法、模型训练方法及相关设备 Download PDF

Info

Publication number
CN112488103A
CN112488103A CN202011376060.5A CN202011376060A CN112488103A CN 112488103 A CN112488103 A CN 112488103A CN 202011376060 A CN202011376060 A CN 202011376060A CN 112488103 A CN112488103 A CN 112488103A
Authority
CN
China
Prior art keywords
entity
address
label
sample
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011376060.5A
Other languages
English (en)
Inventor
谷东兴
郑德鹏
田冰
王国印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xunmeng Information Technology Co Ltd
Original Assignee
Shanghai Xunmeng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xunmeng Information Technology Co Ltd filed Critical Shanghai Xunmeng Information Technology Co Ltd
Priority to CN202011376060.5A priority Critical patent/CN112488103A/zh
Publication of CN112488103A publication Critical patent/CN112488103A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及物流技术领域,提供一种地址信息抽取方法、模型训练方法及相关设备。地址信息抽取方法包括:接收收件地址;对收件地址进行处理,生成向量矩阵;将向量矩阵输入一实体信息标注模型,获得实体标签序列,实体标签序列包括对应收件地址中每段局部地址的实体标签;判断实体标签序列中是否包含兴趣点标签,若是则将兴趣点标签作为目标实体标签,若否则将道路标签作为目标实体标签;以及,自实体标签序列中筛选出目标实体标签对应的目标局部地址,对目标局部地址进行高亮显示。本发明通过对收件地址进行实体信息标注,从中抽取出兴趣点/道路相关地址信息进行高亮显示,帮助快递员快速确定收件地址的具体收件区域,提升物流配送效率。

Description

地址信息抽取方法、模型训练方法及相关设备
技术领域
本发明涉及物流技术领域,具体地说,涉及一种地址信息抽取方法、模型训练方法及相关设备。
背景技术
根据现有的物流配送流程,包裹到达末端配送网点后,分配至对应的快递员,由快递员根据包裹的快递面单上显示的收件地址,将包裹配送至目的地。
由于每个快递员负责的配送区域通常覆盖多个收件区域,每个收件区域例如对应一个小区、一个工业园、一段道路号等等;而快递面单上显示的收件地址又较长,例如一个常规的收件地址通常包括省市信息、道路信息、小区信息、楼号信息等等;导致快递员拿到包裹后,需花时间从前到后浏览一遍收件地址,从中找到小区/道路等地址信息,才能确定该包裹的快递面单上显示的收件地址具体对应哪个收件区域,配送效率较低。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种地址信息抽取方法、模型训练方法及相关设备,能够对收件地址进行实体信息标注,从中抽取出兴趣点/道路相关地址信息进行高亮显示,帮助快递员快速确定收件地址的具体收件区域,提升物流配送效率。
本发明的一个方面提供一种地址信息抽取方法,包括:接收收件地址;对所述收件地址进行处理,生成向量矩阵;将所述向量矩阵输入一实体信息标注模型,获得实体标签序列,所述实体标签序列包括对应所述收件地址中每段局部地址的实体标签;判断所述实体标签序列中是否包含兴趣点标签,若是则将所述兴趣点标签作为目标实体标签,若否则将道路标签作为所述目标实体标签;以及,自所述实体标签序列中筛选出所述目标实体标签对应的目标局部地址,对所述目标局部地址进行高亮显示。
在一些实施例中,所述对所述目标局部地址进行高亮显示之后,还包括:搜索所述目标局部地址的收件范围内是否有自动收货点;若是,对所述收件地址中位于所述目标局部地址之后的末端局部地址进行加密显示,并临近所述目标局部地址,高亮显示所述自动收货点。
在一些实施例中,所述自动收货点包括智能快递柜和智能快递驿站。
在一些实施例中,所述的地址信息抽取方法还包括:根据高亮显示后的所述收件地址,打印快递面单。
在一些实施例中,所述对所述收件地址进行处理,生成向量矩阵,包括:对所述收件地址进行预处理,生成预设格式的地址文本;根据数据字典,将所述地址文本中的字词转换成数字,生成数字序列;将所述数字序列中每个字词对应的数字转换成向量,并按所述地址文本的字词顺序拼接转换后的向量,生成向量矩阵。
在一些实施例中,所述实体信息标注模型包括循环神经网络和概率无向图模型;所述获得所述实体标签序列,包括:所述循环神经网络根据所述向量矩阵,获得对应每个字词的特征向量;所述概率无向图模型根据所述特征向量,获得包含每个字词对应各实体标签的概率序列的概率矩阵,并根据所述概率矩阵输出最优标签序列作为所述实体标签序列;所述最优标签序列中,每个字词对应一实体标签,且按所述字词顺序,每连续多个字词对应相同的实体标签。
本发明的又一个方面提供一种模型训练方法,包括:获得样本地址;采用实体标签集对所述样本地址进行标注,获得每条所述样本地址的样本标签序列;对标注后的每条所述样本地址进行处理,获得样本向量矩阵;根据循环神经网络和概率无向图模型构建一网络模型;以及以所述样本向量矩阵为输入,以对应的所述样本标签序列为输出,训练所述网络模型,获得实体信息标注模型。
在一些实施例中,所述实体标签集包括:对应行政区划信息的实体标签、对应兴趣点信息和/或道路信息的实体标签、及对应楼层单元信息的实体标签。
在一些实施例中,所述根据循环神经网络和概率无向图模型构建一网络模型,包括:以双向长短期记忆网络作为向量化处理的特征提取层;以条件随机场作为概率分布处理的标签输出层。
本发明的又一个方面提供一种地址信息抽取装置,包括:地址接收模块,配置为接收收件地址;数据处理模块,配置为对所述收件地址进行处理,生成向量矩阵;实体标注模块,配置为将所述向量矩阵输入一实体信息标注模型,获得实体标签序列,所述实体标签序列包括对应所述收件地址中每段局部地址的实体标签;目标确定模块,配置为判断所述实体标签序列中是否包含兴趣点标签,若是则将所述兴趣点标签作为目标实体标签,若否则将道路标签作为所述目标实体标签;以及高亮显示模块,配置为自所述实体标签序列中筛选出所述目标实体标签对应的目标局部地址,对所述目标局部地址进行高亮显示。
本发明的又一个方面提供一种模型训练装置,包括:样本采集模块,配置为获得样本地址;样本标注模块,配置为采用实体标签集对所述样本地址进行标注,获得每条所述样本地址的样本标签序列;样本处理模块,配置为对标注后的每条所述样本地址进行处理,获得样本向量矩阵;模型构建模块,配置为根据循环神经网络和概率无向图模型构建一网络模型;以及模型训练模块,配置为以所述样本向量矩阵为输入,以对应的所述样本标签序列为输出,训练所述网络模型,获得实体信息标注模型。
本发明的又一个方面提供一种电子设备,包括:一处理器;一存储器,存储有可执行指令;其中,所述可执行指令被所述处理器执行时,实现上述任意实施例所述的地址信息抽取方法,和/或,实现上述任意实施例所述的模型训练方法。
本发明的又一个方面提供一种计算机可读的存储介质,存储有计算机程序,所述计算机程序被执行时实现上述任意实施例所述的地址信息抽取方法,和/或,实现上述任意实施例所述的模型训练方法。
本发明与现有技术相比的有益效果至少包括:
通过实体信息标注模型对收件地址进行实体信息标注,从中抽取出兴趣点标签/道路标签对应的局部地址进行高亮显示,帮助快递员迅速锁定收件地址中的兴趣点/道路相关地址信息,从而快速确定收件地址对应的具体收件区域,提升物流配送效率,同时也能提升用户的收件体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明一实施例中地址信息抽取方法的步骤示意图;
图2示出本发明又一实施例中地址信息抽取方法的步骤示意图;
图3示出本发明实施例中根据高亮显示后的收件地址打印的快递面单示意图;
图4示出本发明实施例中地址信息抽取装置的模块示意图;
图5示出本发明实施例中模型训练方法的步骤示意图;
图6示出本发明实施例中模型训练装置的模块示意图;
图7示出本发明实施例中电子设备的结构示意图;以及
图8示出本发明实施例中计算机可读的存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使本发明全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
下面实施例中的步骤序号仅用于表示不同的执行内容,并不严格限定步骤之间的执行顺序。需要说明的是,在不冲突的情况下,本发明的实施例及不同实施例中的特征可以相互组合。
图1示出实施例中地址信息抽取方法的主要步骤,参照图1所示,本实施例中地址信息抽取方法包括:在步骤S110中,接收收件地址;在步骤S120中,对收件地址进行处理,生成向量矩阵;在步骤S130中,将向量矩阵输入一实体信息标注模型,获得实体标签序列,实体标签序列包括对应收件地址中每段局部地址的实体标签;在步骤S140-10中,判断实体标签序列中是否包含兴趣点标签,若是则执行步骤S140-20,将兴趣点标签作为目标实体标签,若否则执行步骤S140-30,将道路标签作为目标实体标签;以及在步骤S150中,自实体标签序列中筛选出目标实体标签对应的目标局部地址,对目标局部地址进行高亮显示。
上述的地址信息抽取方法采用经过训练的实体信息标注模型对收件地址进行实体信息标注,获得收件地址的实体标签序列,从中抽取出兴趣点标签/道路标签对应的局部地址进行高亮显示,帮助快递员迅速获取到收件地址中的兴趣点/道路相关地址信息;快递员无需再通过从前到后浏览收件地址的方式来确定具体的收件区域,直接通过高亮显示的目标局部地址,即可快速锁定到对应的收件区域,提升快递员的物流配送效率,节省物流配送成本,同时也能提升用户的收件体验。
下面结合具体的示例,对地址信息抽取方法的各个步骤进行详细说明。
步骤S110中,收件地址由用户输入,接收收件地址的主体可以是电商平台的相关控制中心或物流平台的相关控制中心。具体来说,在用户在电商平台上下单购买商品的场景中,用户输入收件地址,则电商平台的相关控制中心接收到收件地址,并进行后续的处理。在用户在物流平台上下单寄件的场景中,用户输入收件地址,则物流平台的相关控制中心接收到收件地址,并进行后续的处理。
步骤S120中,对收件地址进行向量化表示,生成能被实体信息标注模型处理的向量形式,便于模型运算。此处对收件地址的处理方式与实体信息标注模型在训练过程中对样本数据的处理方式一致,即根据模型训练过程中的数据处理方式,对实时接收到的收件地址进行处理。
在一个实施例中,对收件地址进行处理,生成向量矩阵的过程具体包括:首先,对收件地址进行预处理,生成预设格式的地址文本。预处理可包括填充、截断、纠错、繁简转换等等,生成地址描述完整准确的地址文本。其中完整准确是指,预处理后的地址文本中至少包含准确的道路信息(包括路名和路号),以便于后续模型运算时,生成的实体标签序列中至少包含道路标签;预处理后的地址文本中还优选地包含准确的兴趣点信息(小区、商厦等),以使后续实体信息标注模型输出的实体标签序列中还包含兴趣点标签。其中,可通过设定收件地址的预设输入格式,使用户输入的收件地址中至少包含道路信息;根据道路信息,可通过地图服务关联获取到可能存在的对应的兴趣点。
其次,根据数据字典,将地址文本中的字词转换成数字,生成数字序列。数据字典在模型训练过程中构建生成,用于实现文本序列到数字序列的转换。在将地址文本转换成数字序列时,可以字为单位,对地址文本中的每个字进行文本到数字的转换,再按照地址文本中字的顺序拼接转换后的数字,生成数字序列;或者,也可先对地址文本进行分词,再以词为单位,对地址文本中的每个词进行文本到数字的转换,然后按照地址文本中词的顺序拼接转换后的数字,生成数字序列。
最后,将数字序列中每个字词对应的数字转换成向量,并按地址文本的字词顺序拼接转换后的向量,生成向量矩阵。向量转换时,例如将收件地址中每个字或词映射为一个200维的向量,然后拼接形成收件地址对应的向量矩阵。
步骤S130中,基于实体信息标注模型对向量化表示的收件地址进行标注,获得收件地址中每个字词对应的实体标签。
在一个实施例中,实体信息标注模型包括循环神经网络和概率无向图模型;采用包含循环神经网络和概率无向图模型的实体信息标注模型获得收件地址的实体标签序列的过程具体包括:循环神经网络根据向量矩阵,获得对应每个字词的特征向量,实现对收件地址的进一步向量化处理;概率无向图模型根据特征向量,获得包含每个字词对应各实体标签的概率序列的概率矩阵;概率无向图模型进一步对获得的概率矩阵进行处理,输出最优标签序列作为实体标签序列;最优标签序列中,每个字词对应一个实体标签,且按字词顺序,每连续多个字词对应相同的实体标签,从而可获知收件地址中每段局部地址对应的实体标签。
循环神经网络具体可采用双向长短期记忆网络(Bi-directional Long Short-Term Memory,简称BiLSTM),BiLSTM网络可以很好地对序列数据进行建模,获得收件地址中每个字词的特征向量。概率无向图模型具体可采用条件随机场(Conditional RandomField,简称CRF),CRF层可根据经BiLSTM网络处理生成的编码表示的特征向量,获得由每个字词对应所有实体标签的概率序列组成的收件地址的概率矩阵。并且,CRF层使用维特比(Viterbi)算法处理概率矩阵,得到最优标签序列,最优标签序列中每个字词的实体标签即作为最终的标注结果。
根据快递场景,实体标签具体包括对应行政区划信息的实体标签、对应兴趣点信息和/或道路信息的实体标签、对应楼层单元信息的实体标签等。例如,在一个具体实施例中,实体标签包括:
实体标签 含义
PRVN 省份/直辖市
CITY 城市
DIST 区、县
ROAD 路名
ROADNO 路号
POI 兴趣点(小区、商厦等)
FLOORNO 楼层号
HOUSENO 楼栋号
其中,“PRVN”、“CITY”和“DIST”即对应行政区划信息的实体标签;“ROAD”和“ROADNO”即对应道路标签,“POI”即对应兴趣点标签;“FLOORNO”和“HOUSENO”即对应楼层单元信息的实体标签。一个收件地址的实体标签序列中,至少包含道路标签,还可能包含兴趣点标签,当然也会包含行政区划信息的实体标签和楼层单元信息的实体标签。
采用上述的实体标签,在一个具体的实体信息标注场景中,接收到收件地址“上海市长宁区娄山关路233号金虹桥国际中心15楼”,对该收件地址进行处理后输入实体信息标注模型,获得实体标签序列如下:
“上‘B-PRVN’
海‘I-PRVN’
市‘E-PRVN’
长‘B-DIST’
宁‘I-DIST’
区‘E-DIST’
娄‘B-ROAD’
山‘I-ROAD’
关‘I-ROAD’
路‘E-ROAD’
2‘B-ROADNO’
3‘I-RAODNO’
3‘I-ROADNO’
号‘E-ROADNO’
金‘B-POI’
虹‘I-POI’
桥‘I-POI’
国‘I-POI’
际‘I-POI’
中‘I-POI’
心‘E-POI’
1‘B-FLOORNO’
5‘I-FLOORNO’
楼‘E-FLOORNO’”。
根据实体信息标注模型输出的实体标签序列,可判断出上述收件地址中,“上海市”属于直辖市,“长宁区”属于区,“娄山关路”属于路名,“233号”属于路号,“金虹桥国际中心”属于兴趣点,“15楼”属于楼层号;实体标签与字符“B”拼接,表示实体的开始,实体标签与字符“I”拼接,表示实体的中间部分,实体标签与字符“E”拼接,表示实体的尾部。每段局部地址中,至少首尾字词对应的实体标签分别与字符“B”和“E”拼接,来标识该段局部地址的开始和结束。
步骤S140-10~S140-30中,自收件地址的实体标签序列中确定兴趣点标签/道路标签,作为目标实体标签。例如,在上述的实体信息标注场景中,可以确定存在兴趣点标签“POI”,则将兴趣点标签“POI”确定为目标实体标签。在其他场景中,生成的实体标签序列中有可能不存在兴趣点标签,则将道路标签,包括路名“ROAD”和路号“ROADNO”确定为目标实体标签。
步骤S150中,对目标实体标签对应的目标局部地址进行高亮显示。例如在上述的实体信息标注场景中,确定兴趣点标签“POI”为目标实体标签,则进一步将兴趣点标签“POI”对应的目标局部地址,即“金虹桥国际中心”进行高亮显示,从而使快递员迅速根据高亮显示的兴趣点信息锁定收件地址的具体收件区域,提升物流配送效率。
进一步地,高亮显示收件地址中的兴趣点信息/道路信息对应的目标局部地址后,可继续判断目标局部地址的收件区域内是否有自动收货点,并根据判断结果对收件地址进行进一步处理。
具体来说,在一个实施例中,参照图2所示,对目标局部地址进行高亮显示之后,还包括:步骤S260,搜索目标局部地址的收件区域内是否有自动收货点;自动收货点包括智能快递柜、智能快递驿站等能帮助用户收取快递,提高用户收件灵活性的相关据点。若目标局部地址的收件区域内有自动收货点,表明包裹可被送达至自动收货点(还可进一步判断用户的收件设置是否允许将包裹送至自动收货点),则执行步骤S270,对收件地址中位于目标局部地址之后的末端局部地址进行加密显示,并临近目标局部地址,高亮显示自动收货点。对末端局部地址进行加密显示能够保护用户的信息安全,将自动收货点临近目标局部地址进行高亮显示,能够使快递员一眼锁定整个收件地址中的兴趣点信息/道路信息及对应的自动收货点,极大地提高快递员从收件地址中获取关键地址信息的速度,提升物流配送效率。
进一步地,对目标局部地址/自动收货点进行高亮显示后,还包括步骤S280,根据高亮显示后的收件地址,打印快递面单。此处的打印快递面单包括虚拟打印和物理打印两种场景。例如,在电商平台接收到用户下单购买商品时输入的收件地址的场景中,电商平台的相关控制中心根据实体信息标注模型获得收件地址的实体标签序列,从中抽取出兴趣点标签/道路标签对应的目标局部地址进行高亮显示,以及还将可能存在的自动收货点高亮显示于目标局部地址附近之后,通过虚拟打印的方式,生成局部高亮显示的收件地址,发送至对应的物流平台,为后续物流平台打印实体快递面单提供依据。再如,在物流平台接收到用户下单寄件时输入的收件地址的场景中,物流平台的相关控制中心对目标局部地址/自动收货点进行高亮显示后,则可直接通过物理打印的方式,打印出带有局部高亮显示的收件地址的快递面单。
图3示出实施例中根据高亮显示后的收件地址打印的快递面单,参照图3所示,快递面单300的收件信息区域302中,对收件地址,例如上述实施例中列举的“上海市长宁区娄山关路233号金虹桥国际中心15楼”中的兴趣点“金虹桥国际中心”进行高亮显示,同时将该兴趣点对应的自动收货点,例如“1楼大厅快递柜”高亮显示于兴趣点“金虹桥国际中心”附近,而具体的末端局部地址“15楼”被隐藏,以保护用户的信息安全,且快递员也能一眼从快递面单300中锁定具体的收件区域,即高亮显示的“金虹桥国际中心”,以及具体的收货点,即高亮显示的“1楼大厅快递柜”。快递面单300中还包括一些常规信息显示区域,例如快递信息区域301,寄件信息区域303等,此处不再展开说明。
在其他实施例中,若目标局部地址的收件区域内没有自动收货点,则快递面单上仅高亮显示目标局部地址,且不会对末端局部地址进行加密,同样能使快递员一眼从快递面单中锁定具体的收件区域,并确保包裹能准确地送达至目的地。
从而,上述的地址信息抽取方法,能够从收件地址中准确抽取出兴趣点标签/道路标签对应的目标局部地址,进行高亮显示,帮助快递员快速锁定收件地址的具体收件区域,提升物流配送效率和用户的收件体验;还能进一步获取收件区域中可能存在的自动收货点并高亮显示,同时隐藏末端局部地址,实现提升物流配送效率的同时,保护用户的信息安全。
本发明实施例还提供一种地址信息抽取装置,可用于实现上述任意实施例描述的地址信息抽取方法。图4示出地址信息抽取装置的主要模块,参照图4所示,本实施例中地址信息抽取装置400包括:地址接收模块410,配置为接收收件地址;数据处理模块420,配置为对收件地址进行处理,生成向量矩阵;实体标注模块430,配置为将向量矩阵输入一实体信息标注模型,获得实体标签序列,实体标签序列包括对应收件地址中每段局部地址的实体标签;目标确定模块440,配置为判断实体标签序列中是否包含兴趣点标签,若是则将兴趣点标签作为目标实体标签,若否则将道路标签作为目标实体标签;以及高亮显示模块450,配置为自实体标签序列中筛选出目标实体标签对应的目标局部地址,对目标局部地址进行高亮显示。
进一步地,地址信息抽取装置400还可包括实现上述各地址信息抽取方法实施例的其他流程步骤的模块,各个模块的具体原理可参照上述各地址信息抽取方法实施例的描述,此处不再重复说明。
如上所述,本实施例的地址信息抽取装置采用经过训练的实体信息标注模型,对收件地址进行实体信息标注,获得收件地址的实体标签序列,从中抽取出兴趣点标签/道路标签对应的局部地址进行高亮显示,帮助快递员迅速锁定收件地址的具体收件区域,提升物流配送效率,节省物流配送成本,同时也能提升用户的收件体验。
本发明实施例还提供一种模型训练方法,用于训练生成上述各地址信息抽取方法实施例中的实体信息标注模型。图5示出模型训练方法的主要步骤,参照图5所示,本实施例中模型训练方法包括:在步骤S510中,获得样本地址;在步骤S520中,采用实体标签集对样本地址进行标注,获得每条样本地址的样本标签序列;在步骤S530中,对标注后的每条样本地址进行处理,获得样本向量矩阵;在步骤S540中,根据循环神经网络和概率无向图模型构建一网络模型;以及在步骤S550中,以样本向量矩阵为输入,以对应的样本标签序列为输出,训练网络模型,获得实体信息标注模型。
步骤S510中,为了保证足够多的训练数据,同时解决数据分布不均匀的问题,可采用过采样的方式扩充数据,以获得数量足够且分布均匀的样本地址。
步骤S520中,针对快递场景,采用实体标签集对样本地址进行标注。实体标签集包括对应行政区划信息的实体标签,例如上述实施例中的实体标签“PRVN”、“CITY”、“DIST”等;对应兴趣点信息和/或道路信息的实体标签,例如上述实施例中的“POI”、“ROAD”、“ROADNO”等;以及对应楼层单元信息的实体标签,例如上述实施例中的“FLOORNO”、“HOUSENO”等。对样本地址进行标注时,使每条样本地址涵盖尽可能多的实体标签,从而经过机器学习后,实体信息标注模型在实际应用时,能够对收件地址进行准确全面的实体信息标注。
步骤S530中,对标注好的样本地址进行处理,包括填充或截断等预处理操作;构建数据字典、根据数据字典的顺序生成索引,完成文本序列到数字序列的转换;以及对每个字或词生成固定维度的向量,并将字词向量拼接生成样本地址的样本向量矩阵。具体的处理过程可参照上述地址信息抽取方法实施例的描述,此处不再重复说明。
步骤S540中,可采用双向长短期记忆网络和条件随机场构建神经网络模型,其中双向长短期记忆网络作为向量化处理的特征提取层,条件随机场作为概率分布处理的标签输出层。双向长短期记忆网络和条件随机场的具体原理也可参照上述地址信息抽取方法实施例的描述。
步骤S550中,对构建的神经网络模型进行训练,获得能通过实体标签至少准确标注样本地址的兴趣点/道路信息的实体信息标注模型。
经上述实施例的模型训练方法训练生成的实体信息标注模型,当应用于实际地址信息抽取场景时,能够输出准确标识收件地址中的兴趣点/道路信息的实体标签序列,根据实体信息标注模型提取的目标局部地址,能够帮助快递员迅速锁定收件地址的具体收件区域,提升物流配送效率,节省物流配送成本,同时也能提升用户的收件体验。
本发明实施例还提供一种模型训练装置,可用于实现上述实施例描述的模型训练方法。图6示出模型训练装置的主要模块,参照图6所示,本实施例中模型训练装置600包括:样本采集模块610,配置为获得样本地址;样本标注模块620,配置为采用实体标签集对样本地址进行标注,获得每条样本地址的样本标签序列;样本处理模块630,配置为对标注后的每条样本地址进行处理,获得样本向量矩阵;模型构建模块640,配置为根据循环神经网络和概率无向图模型构造一网络模型;以及模型训练模块650,配置为以样本向量矩阵为输入,以对应的样本标签序列为输出,训练网络模型,获得实体信息标注模型。
进一步地,模型训练装置600还可包括实现上述模型训练方法实施例的其他流程步骤的模块,各个模块的具体原理可参照上述模型训练方法实施例的描述,此处不再重复说明。
如上所述,经本实施例的模型训练方法训练生成的实体信息标注模型,当应用于实际地址信息抽取场景时,能够输出准确标识收件地址中的兴趣点/道路信息的实体标签序列,根据实体信息标注模型提取的目标局部地址,能够帮助快递员迅速锁定收件地址的具体收件区域,提升物流配送效率,节省物流配送成本,同时也能提升用户的收件体验。
本发明实施例还提供一种电子设备,包括处理器和存储器,存储器中存储有可执行指令,可执行指令被处理器执行时,实现上述任意实施例描述的地址信息抽取方法/模型训练方法。
如上所述,本发明的电子设备能够通过实体信息标注模型获得收件地址的实体标签序列,从中抽取出兴趣点标签/道路标签对应的目标局部地址,进行高亮显示,帮助快递员迅速锁定收件地址的具体收件区域,提升物流配送效率,也能提升用户的收件体验。
图7是本发明实施例中电子设备的结构示意图,应当理解的是,图7仅仅是示意性地示出各个模块,这些模块可以是虚拟的软件模块或实际的硬件模块,这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同平台组件(包括存储单元720和处理单元710)的总线730、显示单元740等。
其中,存储单元存储有程序代码,程序代码可以被处理单元710执行,使得处理单元710执行上述任意实施例实施例描述的地址信息抽取方法/模型训练方法的步骤。例如,处理单元710可以执行如图1、图2和图5所示的步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
存储单元720还可以包括具有一个或多个程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备800通信,外部设备800可以是键盘、指向设备、蓝牙设备等设备中的一种或多种。这些外部设备800使得用户能与该电子设备700进行交互通信。电子设备700也能与一个或多个其它计算设备进行通信,所示计算机设备包括路由器、调制解调器。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读的存储介质,用于存储程序,程序被执行时实现上述任意实施例描述的地址信息抽取方法/模型训练方法。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行上述任意实施例描述的地址信息抽取方法/模型训练方法。
如上所述,本发明的计算机可读的存储介质能够通过实体信息标注模型获得收件地址的实体标签序列,从中抽取出兴趣点标签/道路标签对应的目标局部地址,进行高亮显示,帮助快递员迅速锁定收件地址的具体收件区域,提升物流配送效率,也能提升用户的收件体验。
图8是本发明的计算机可读的存储介质的结构示意图。参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读的存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (13)

1.一种地址信息抽取方法,其特征在于,包括:
接收收件地址;
对所述收件地址进行处理,生成向量矩阵;
将所述向量矩阵输入一实体信息标注模型,获得实体标签序列,所述实体标签序列包括对应所述收件地址中每段局部地址的实体标签;
判断所述实体标签序列中是否包含兴趣点标签,若是则将所述兴趣点标签作为目标实体标签,若否则将道路标签作为所述目标实体标签;以及
自所述实体标签序列中筛选出所述目标实体标签对应的目标局部地址,对所述目标局部地址进行高亮显示。
2.如权利要求1所述的地址信息抽取方法,其特征在于,所述对所述目标局部地址进行高亮显示之后,还包括:
搜索所述目标局部地址的收件范围内是否有自动收货点;
若是,对所述收件地址中位于所述目标局部地址之后的末端局部地址进行加密显示,并临近所述目标局部地址,高亮显示所述自动收货点。
3.如权利要求2所述的地址信息抽取方法,其特征在于,所述自动收货点包括智能快递柜和智能快递驿站。
4.如权利要求1或2所述的地址信息抽取方法,其特征在于,还包括:
根据高亮显示后的所述收件地址,打印快递面单。
5.如权利要求1所述的地址信息抽取方法,其特征在于,所述对所述收件地址进行处理,生成向量矩阵,包括:
对所述收件地址进行预处理,生成预设格式的地址文本;
根据数据字典,将所述地址文本中的字词转换成数字,生成数字序列;
将所述数字序列中每个字词对应的数字转换成向量,并按所述地址文本的字词顺序拼接转换后的向量,生成向量矩阵。
6.如权利要求5所述的地址信息抽取方法,其特征在于,所述实体信息标注模型包括循环神经网络和概率无向图模型;
所述获得所述实体标签序列,包括:
所述循环神经网络根据所述向量矩阵,获得对应每个字词的特征向量;
所述概率无向图模型根据所述特征向量,获得包含每个字词对应各实体标签的概率序列的概率矩阵,并根据所述概率矩阵输出最优标签序列作为所述实体标签序列;
所述最优标签序列中,每个字词对应一实体标签,且按所述字词顺序,每连续多个字词对应相同的实体标签。
7.一种模型训练方法,其特征在于,包括:
获得样本地址;
采用实体标签集对所述样本地址进行标注,获得每条所述样本地址的样本标签序列;
对标注后的每条所述样本地址进行处理,获得样本向量矩阵;
根据循环神经网络和概率无向图模型构建一网络模型;以及
以所述样本向量矩阵为输入,以对应的所述样本标签序列为输出,训练所述网络模型,获得实体信息标注模型。
8.如权利要求7所述的模型训练方法,其特征在于,所述实体标签集包括:
对应行政区划信息的实体标签、对应兴趣点信息和/或道路信息的实体标签、及对应楼层单元信息的实体标签。
9.如权利要求7所述的模型训练方法,其特征在于,所述根据循环神经网络和概率无向图模型构建一网络模型,包括:
以双向长短期记忆网络作为向量化处理的特征提取层;
以条件随机场作为概率分布处理的标签输出层。
10.一种地址信息抽取装置,其特征在于,包括:
地址接收模块,配置为接收收件地址;
数据处理模块,配置为对所述收件地址进行处理,生成向量矩阵;
实体标注模块,配置为将所述向量矩阵输入一实体信息标注模型,获得实体标签序列,所述实体标签序列包括对应所述收件地址中每段局部地址的实体标签;
目标确定模块,配置为判断所述实体标签序列中是否包含兴趣点标签,若是则将所述兴趣点标签作为目标实体标签,若否则将道路标签作为所述目标实体标签;以及
高亮显示模块,配置为自所述实体标签序列中筛选出所述目标实体标签对应的目标局部地址,对所述目标局部地址进行高亮显示。
11.一种模型训练装置,其特征在于,包括:
样本采集模块,配置为获得样本地址;
样本标注模块,配置为采用实体标签集对所述样本地址进行标注,获得每条所述样本地址的样本标签序列;
样本处理模块,配置为对标注后的每条所述样本地址进行处理,获得样本向量矩阵;
模型构建模块,配置为根据循环神经网络和概率无向图模型构建一网络模型;以及
模型训练模块,配置为以所述样本向量矩阵为输入,以对应的所述样本标签序列为输出,训练所述网络模型,获得实体信息标注模型。
12.一种电子设备,其特征在于,包括:
一处理器;
一存储器,存储有可执行指令;
其中,所述可执行指令被所述处理器执行时,实现如权利要求1-6任一项所述的地址信息抽取方法,和/或实现如权利要求7-9任一项所述的模型训练方法。
13.一种计算机可读的存储介质,存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-6任一项所述的地址信息抽取方法,和/或实现如权利要求7-9任一项所述的模型训练方法。
CN202011376060.5A 2020-11-30 2020-11-30 地址信息抽取方法、模型训练方法及相关设备 Pending CN112488103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011376060.5A CN112488103A (zh) 2020-11-30 2020-11-30 地址信息抽取方法、模型训练方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011376060.5A CN112488103A (zh) 2020-11-30 2020-11-30 地址信息抽取方法、模型训练方法及相关设备

Publications (1)

Publication Number Publication Date
CN112488103A true CN112488103A (zh) 2021-03-12

Family

ID=74937553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011376060.5A Pending CN112488103A (zh) 2020-11-30 2020-11-30 地址信息抽取方法、模型训练方法及相关设备

Country Status (1)

Country Link
CN (1) CN112488103A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064564A (zh) * 2021-05-13 2021-07-02 上海寻梦信息技术有限公司 物流面单打印方法、装置、设备及存储介质
CN114035872A (zh) * 2021-10-27 2022-02-11 北京闪送科技有限公司 一种通过自动识别并帮助用户快速完善收发件信息的方法
CN114580588A (zh) * 2022-05-06 2022-06-03 江苏省质量和标准化研究院 基于概率矩阵模型的uhf rfid群标签选型方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017071482A (ja) * 2015-10-08 2017-04-13 帝人株式会社 物品特定システム、物品特定方法、プログラム及び物流管理システム
CN108920457A (zh) * 2018-06-15 2018-11-30 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN110164057A (zh) * 2019-05-22 2019-08-23 深圳市丰巢科技有限公司 基于智能柜机的包裹处理方法、装置、服务器及可读介质
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质
CA3060822A1 (en) * 2018-11-09 2020-05-09 10353744 Canada Ltd. Label information acquistion method and apparatus, electronic device and computer readable medium
CN111460084A (zh) * 2020-04-03 2020-07-28 中国建设银行股份有限公司 一种简历结构化抽取模型训练方法及系统
CN111639480A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 基于人工智能的文本标签化方法、电子装置及存储介质
CN111651983A (zh) * 2020-05-12 2020-09-11 哈尔滨工业大学 一种基于自训练与噪声模型的因果事件抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017071482A (ja) * 2015-10-08 2017-04-13 帝人株式会社 物品特定システム、物品特定方法、プログラム及び物流管理システム
CN108920457A (zh) * 2018-06-15 2018-11-30 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CA3060822A1 (en) * 2018-11-09 2020-05-09 10353744 Canada Ltd. Label information acquistion method and apparatus, electronic device and computer readable medium
CN110164057A (zh) * 2019-05-22 2019-08-23 深圳市丰巢科技有限公司 基于智能柜机的包裹处理方法、装置、服务器及可读介质
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质
CN111460084A (zh) * 2020-04-03 2020-07-28 中国建设银行股份有限公司 一种简历结构化抽取模型训练方法及系统
CN111651983A (zh) * 2020-05-12 2020-09-11 哈尔滨工业大学 一种基于自训练与噪声模型的因果事件抽取方法
CN111639480A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 基于人工智能的文本标签化方法、电子装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王栋,等: "基于准循环神经网络的中文命名实体识别", 《计算机工程与设计》, vol. 41, no. 7, pages 2038 - 2043 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064564A (zh) * 2021-05-13 2021-07-02 上海寻梦信息技术有限公司 物流面单打印方法、装置、设备及存储介质
CN114035872A (zh) * 2021-10-27 2022-02-11 北京闪送科技有限公司 一种通过自动识别并帮助用户快速完善收发件信息的方法
CN114580588A (zh) * 2022-05-06 2022-06-03 江苏省质量和标准化研究院 基于概率矩阵模型的uhf rfid群标签选型方法

Similar Documents

Publication Publication Date Title
CN112488103A (zh) 地址信息抽取方法、模型训练方法及相关设备
CN110892394B (zh) 对包裹交付的不正确地址的标识
CN109145219A (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
CN102263705A (zh) 显示即时通讯消息的方法及装置
CN111553148A (zh) 标签建立方法、装置、电子设备及介质
CN115019314A (zh) 一种商品价格识别方法、装置、设备及存储介质
CN113627395A (zh) 文本识别方法、装置、介质及电子设备
CN112508078A (zh) 图像多任务多标签识别方法、系统、设备及介质
CN113407610A (zh) 信息抽取方法、装置、电子设备和可读存储介质
CN112465036A (zh) 地址匹配模型的训练方法、代收地址确定方法及相关设备
CN115455922B (zh) 表单校验方法、装置、电子设备和存储介质
CN112465035A (zh) 物流配送任务分配方法、系统、设备及存储介质
CN113536782B (zh) 敏感词识别方法、装置、电子设备及存储介质
CN112488194A (zh) 地址缩略语生成方法、模型训练方法及相关设备
CN113064564A (zh) 物流面单打印方法、装置、设备及存储介质
CN114637850A (zh) 异常行为识别及模型训练方法、装置、设备及存储介质
CN113569929B (zh) 基于小样本扩展的互联网服务提供方法、装置及电子设备
CN113111230B (zh) 基于正则表达式的接处警文本户籍地地址提取方法和装置
CN114612917A (zh) 订单支付处理方法及其装置、设备、介质、产品
CN114781359A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN112835922A (zh) 地址区划分类方法、系统、设备及存储介质
CN112488198A (zh) 物流路由分发方法、装置、设备以及存储介质
CN112465149A (zh) 同城件识别方法、装置、电子设备以及存储介质
CN112488200A (zh) 物流地址特征提取方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination